科技行业资讯门户

广告

广告

广告

广告

广告

你以为这是DeepSeek的一次小更新 实际上它又超神了

【蜂耘网 人工智能】还没等来 DeepSeek-R2DeepSeek-R1 昨天晚上先悄悄更新了一波。

 

IMG_256

 

和上 V3-0324 版本一样,这 DeepSeek 又又又 Hugging Face 上默默扔了一 DeepSeek-R1-0528Model Card 和官方的更新公告都没出。

 

而在大伙儿还没反应过来的时候R1 新版本已经是大模型热搜榜的第一了。

 

img2

 

大家热烈讨 R1 新版本的同时,也不 cue  R2  V4 的大版本更新。

 

由于每 DeepSeek 都喜欢赶在中国传统节日前后出点新东西,国外网友已经开始从国庆和端午的放假时间,来推测发布日期了。。。

 

IMG_258

 

难道这也是计划的一部分吗?(手动狗头)

 

值得一提的是,今天也 NVIDIA Q1 财报发布的日子。遥想上 R1 技术报告给大模型训练算力带来的拷打,还好这次只 DeepSeek 小更,并没有公布算力信息,不然真的有点难绷。

 

IMG_259

 

话说 R1 这次更新DeepSeek 官方表示R1-0528 的推理性能大幅提升、前端开发能力更强、工具使用能力更智能。

 

img5

 

从官方案例来看R1-0528 在物理世界的推理能力确实 Claude-4-Sonnet 要优秀。小球在破坏砖块墙后,砖块的不规则倒塌更符合物理规律。

 

img6

 

而等世超亲手测完了这次更新,只想说:虽 R1-0528 编程推理能力有提升,但达不到惊艳。至于它的长文本生成能力,我愿 DeepSeek 为大模型里掌管中文的神。

 

精彩的东西咱放在前面看,我们本来以为这只是一次普通的测试,没想到事情没那么简单。。。

 

世超 R1 的提示词只有简单的请给我写一 10000 字的科幻小说  其余从文章的大纲到内容全是它自己完成。

 

话不多说,大家直接看文吧:

 

IMG_262

 

 霓虹像永不凝固的液态宝整座城市浸泡在一种迷幻而冰冷的蓝紫色调。。。

 

此刻,世超只恨不能把全篇小说截给大家,感兴趣的差友可以去文末链接阅读全文。

 

作为一篇悬疑科幻小说DeepSeek 行文流畅,科幻氛围浓厚,人物描写细致入微,从情节到逻辑都无可挑剔。

 

写出这样的故事DeepSeek 只思考 40 秒。

 

 而一直以来被大家认为文字功底很强 Gemini 2.5 pro 表现一般,写出来的小说像是辞藻堆砌,有些晦涩难懂。

 

IMG_263

 

有一说一,看 DeepSeek 写的小说,世超的心情非常复杂。这篇小说甚至可以说比大部分网文都优秀,又有速度又有质量,大模型恐怖如斯。

 

难道失业的风也要吹到。。。世超表示瑟瑟发抖。

 

咱再说说代码生成上的更新。其 R1-0528 的代码能力也有显著的提升,只不过比起它的长文本生成,就有点不够看了。

 

在大模型代码能力测试基 LiveCodeBench DeepSeek-R1-0528 已经跃升到了榜单第四,略逊 o4-MiniMedium),但 o3-Mini 打得有来有回,直接被闭源 OpenAI 包围了。

 

IMG_264

 

既然编程能力这么强,世超就先拿经典问  五边形小球弹跳测一测。

 

各位差友可能还有印象,之前咱评 V3-0324 版本的时候也把 R1 拿出来溜了溜,结果那时 R1 的表现非常拉垮。

 

不过,这 R1-0528 的表现确实出乎意料,比起 R1 好了不是一点半点。

 

左边 R1,右 R1-0528

 

IMG_265

 

不仅代码一次启动成功,不像老版的飞檐走壁,新版本小球弹跳的效果明显更符合物理规律,在五边形拐角处的丝滑回弹更是细节到位。

 

除了物理效果提升R1-0528 生成的界面也很美观,甚至可以自定义重力强度、旋转速度、弹性系数、摩擦系数的参数,还能实时看到小球运动的各种物理参数。

 

IMG_266

 

不过可能因为咱在提示词里并没有让它干这些事,虽然物理参数是实时显示变化的,但动画参数控制滑块仅供观赏,没啥实际用途。。。

 

世超还看到有网友 R1-0528  Claude Sonnet 4 碰一碰。记得上次 V3-0324 的时候Claude Sonnet 3.7 赢得很彻底。不知道这 DeepSeek 的前端审美有啥优化?

 

测试完世超觉得R1 真的没输。

 

我们给两个模型分别只一次机会,相同的提示词,生成的结果该是啥样就是啥样,不能重来。

 

首先从画面美观度和功能完整度来说,两者算打个平手R1-0528 的界面明显不 V3 时期那么简陋了。功能方面Sonnet 4 有的R1-0528 通通都有R1 还贴心地加上了使用说明。

 

 DeepSeek-R1-0528 Claude Sonnet 4

 

IMG_267

 

但是,实 Claude Sonnet 4 的清空画板和保存键并不好用。而且两者的取色功能都存 bug,取色器会穿到色卡的下面去,只能说还有一定进步空间。

 

 DeepSeek-R1-0528 Claude Sonnet 4

 

IMG_268

 

除此之外,也有网友表示这回更新之后DeepSeek 的深度思考直接停不下来了。。。

 

img14

 

为了提升模型深度思考的能力R1-0528 似乎有意拉长了大模型的思考时长。但这个改动带来的具体效果还是看个人需求,毕竟要是一个问题想 25 分钟,即使答案更完美,作为用户也确实有点捉急。

 

总的来说,这次更 DeepSeek 依然延续了他们过往的风格:轻描淡写小更一下,但是整个大活儿。

 

DeepSeek-R1-0528 不管是纵向和自己比,还是横向和其它大模型比,表现都丝毫不输,甚至在中文长文本生成方面一骑绝尘。

 

世超觉得,这 DeepSeek 带来的惊喜,让我们对国产大模型又有了新的期待DeepSeek-R1-0528 向我们展示了,它们不仅可以和闭源模型卷性能,还有不可替代的本土化优势。

 

最后,想体验的差友,现在上官网就能用 R1 最新 0528 版本啦。

 

 

(蜂耘人工智能网 责任编辑:行云)

2025-05-30 10:02
0/400

全部评论 (0)

广告

来源:差评
还没等来 DeepSeek-R2,DeepSeek-R1 昨天晚上先悄悄更新了一波。

声明:凡来源标明“蜂耘网”的文章版权均为本站所有,如需转载请务必注明出处,违者本网将追究相关法律责任;所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息,均不代表本网立场及观点,“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任;如涉及版权等问题,请在内容发表之日起一周内与本网联系,否则视为放弃相关权利。

所有评论仅代表网友意见,与本站立场无关

最新资讯

推荐阅读

热门排行

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

  • 坚定扛牢“走在前、挑大梁”的使命担当(权威访谈·谋发展 启新篇)

    来源:人民日报
    2024年,山东经济社会高质量发展取得积极成效。新的一年,作为经济大省的山东如何坚定扛牢“走在前、挑大梁”的使命担当?如何全面贯彻落实中央经济工作会议精神,奋力推动经济社会高质量发展?记者采访了山东省委书记林武。

    60 2025-01-21
  • 一文了解查理·芒格:为什么他是巴菲特最推崇的人

    来源:
    ①巴菲特写道,“如果没有查理的灵感、智慧和参与,伯克希尔-哈撒韦公司不可能发展到今天的地位”;
    ②芒格曾表示,“如果世上未曾有过查理·芒格这个人,巴菲特的业绩依然会像现在这么漂亮 ”
    ③两周前,芒格还公开在节目中维护93岁的老友巴菲特。

    220 2023-11-29
  • 面壁者,拉里·佩奇

    来源:中欧商业评论
    这两年,硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦,这为他的公司引来了铺天盖地的负面新闻,然而,他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

    346 2022-06-15

会议活动

微信公众号

广告

相关新闻

  • 回到顶部
  • 88888888
  • QQ客服
  • 微信二维码