腾讯混元-TurboS:首个混合Transformer-Mamba MoE超大模型来了
【蜂耘网 人工智能】腾讯混元团队发布了他们最新的力作——Hunyuan-TurboS,首个混合Transformer-Mamba MoE架构的超大模型。
大家都知道,传统Transformer模型在处理长文本时一直面临挑战,O(N²)的复杂度以及KV-Cache问题让长文本训练和推理效率大打折扣。 而这次,混元-TurboS巧妙地融合了Mamba和Transformer两种架构的优势:
• Mamba的高效长序列处理能力
• Transformer强大的上下文理解能力
强强联合,效果自然惊艳!
官方数据显示,Hunyuan-TurboS在多个关键benchmark上表现出色:
• 数学、推理、对齐能力超越或持平 GPT-4o-0806、DeepSeek-V3 以及各类开源模型。
• 知识能力同样突出,在 MMLU-Pro 等专业评测中也具备竞争力
Hunyuan-TurboS的推理成本相比之前的Turbo模型降低了整整7倍! 性能提升的同时,成本大幅下降
为了进一步提升模型能力,混元团队还对TurboS进行了多项后训练优化:
• 引入慢思考(Slow-thinking)集成,显著提升了模型在数学、编程和推理任务上的表现。
• 通过精细化的指令调优,增强了模型的对齐性和Agent执行能力。
• 进行了英语训练优化,从而提升模型的通用性能。
除了模型架构和训练优化,混元团队还升级了奖励系统:
• 采用基于规则的评分和一致性验证,保证模型输出的质量和可靠性。
• 引入代码沙箱反馈,大幅提升模型在STEM领域的准确性。
• 使用生成式奖励,优化模型在问答和创意性任务上的表现,并有效减少奖励作弊现象
写在最后:
Mamba 是一种新型的状态空间模型 (State Space Model, SSM)。 简单来说,你可以把它理解为一种更高效处理长序列数据的模型架构,它主要为了解决 Transformer 模型在处理长序列时效率低下的问题而提出的
Mamba 是由 Albert Gu (卡耐基梅隆大学)和 Tri Dao(普林斯顿大学) 两位研究人员主导开发的
Mamba 的创新之处在于它引入了“选择性状态空间 (Selective State Spaces)” 的概念。 简单来说,Mamba 模型中的 SSM 参数不再是固定的,而是会根据输入的内容动态变化。 这样一来,模型就能根据当前处理的token,有选择性地记住或遗忘信息,从而更好地进行内容相关的推理
此外,Mamba 的设计也考虑了硬件效率,它在保持类似循环神经网络 (RNN) 的结构的同时,还能进行并行计算,这使得 Mamba 在推理速度上比 Transformer 更快(约快 5 倍)。 而且,Mamba 的计算复杂度是线性于序列长度的,这意味着处理更长的序列也不会显著增加计算负担。
(蜂耘人工智能网 责任编辑:行云)
腾讯混元团队发布了他们最新的力作——Hunyuan-TurboS,首个混合Transformer-Mamba MoE架构的超大模型。
- 2025-05-09
- 2025-05-09
- 2025-05-09
- 2025-05-09
- 2025-05-09
- 2025-05-09
-
当机器人学会"轻拿轻放":亚马逊仓库上演人机共舞
来源:蜂耘网
在亚马逊的物流中心里,新来的"员工"Vulcan正用气动夹具轻轻捏起一盒玻璃瓶装香水,0.6秒后准确放入塑料周转箱。这个看似平常的动作背后,藏着让仓储专家惊叹的变革——机器人指尖的压力传感器正在以每秒200次的频率微调力度,就像人类手指触摸丝绸时的本能反应。2025-05-09
-
当狗狗的语言被破译:百度打开跨物种对话的黑匣子
来源:蜂耘网
深夜的北京某小区,金毛犬"可乐"突然对着阳台狂吠。主人李女士打开百度新上线的宠物插件,手机屏上跳出实时翻译:"东南方向23米,流浪猫闯入领地区域。"这个看似科幻的场景,正随着百度最新公布的动物语言专利走向现实。这项技术像一把万能钥匙,试图解开地球千万年来的生物密码。2025-05-09
- 2022-08-25
- 2022-10-13
- 2022-10-24
- 2023-09-01
- 2022-10-18
- 2022-09-30
- 2024-05-28
- 2023-03-29
-
坚定扛牢“走在前、挑大梁”的使命担当(权威访谈·谋发展 启新篇)
来源:人民日报
2024年,山东经济社会高质量发展取得积极成效。新的一年,作为经济大省的山东如何坚定扛牢“走在前、挑大梁”的使命担当?如何全面贯彻落实中央经济工作会议精神,奋力推动经济社会高质量发展?记者采访了山东省委书记林武。넶54 2025-01-21 -
一文了解查理·芒格:为什么他是巴菲特最推崇的人
来源:
①巴菲特写道,“如果没有查理的灵感、智慧和参与,伯克希尔-哈撒韦公司不可能发展到今天的地位”;
②芒格曾表示,“如果世上未曾有过查理·芒格这个人,巴菲特的业绩依然会像现在这么漂亮 ”
③两周前,芒格还公开在节目中维护93岁的老友巴菲特。넶212 2023-11-29 -
面壁者,拉里·佩奇
来源:中欧商业评论
这两年,硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦,这为他的公司引来了铺天盖地的负面新闻,然而,他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。넶340 2022-06-15
-
4月23日丨苏州人工智能产业生态大会即将启幕,行业大咖论剑技术突围与生态共建
来源:蜂耘网
以蜂耘网为代表的科技平台责无旁贷地肩负起推动中国人工智能产业高质量发展的使命,将于4月23日举办苏州人工智能产业生态大会。넶47 2025-04-03 -
-
3月26日丨成都人工智能产业生态大会强势来袭!不容错过!
来源:蜂耘网
蜂耘网将在成都举办人工智能产业生态大会,汇聚行业顶尖专家、企业领袖、投资机构及政府代表,为行业人士提供一个交流、学习与合作的平台。넶81 2025-02-21
- 2025-05-09
- 2025-05-09
- 2025-05-09
- 2025-05-09
- 2025-05-09
- 2025-05-09
- 2025-05-09
- 2025-05-09
- 2025-05-09
- 2025-05-09
- 2025-05-09
- 2025-05-09