科技行业资讯门户

广告

广告

广告

广告

广告

腾讯混元-TurboS:首个混合Transformer-Mamba MoE超大模型来了

【蜂耘网 人工智能】腾讯混元团队发布了他们最新的力作Hunyuan-TurboS,首个混Transformer-Mamba MoE架构的超大模型。

 

大家都知道,传Transformer模型在处理长文本时一直面临挑战O(N²)的复杂度以KV-Cache问题让长文本训练和推理效率大打折扣 而这次,混-TurboS巧妙地融合MambaTransformer两种架构的优势:

 

 Mamba的高效长序列处理能力

 

 Transformer强大的上下文理解能力

 

强强联合,效果自然惊艳!

 

官方数据显示Hunyuan-TurboS在多个关benchmark上表现出色:

 

 数学、推理、对齐能力超越或持 GPT-4o-0806DeepSeek-V3 以及各类开源模型。

 

 知识能力同样突出, MMLU-Pro 等专业评测中也具备竞争力

 

img2

 

img3

 

Hunyuan-TurboS的推理成本相比之前Turbo模型降低了整7 性能提升的同时,成本大幅下降

 

为了进一步提升模型能力,混元团队还TurboS进行了多项后训练优化:

 

 引入慢思考Slow-thinking)集成,显著提升了模型在数学、编程和推理任务上的表现。

 

 通过精细化的指令调优,增强了模型的对齐性Agent执行能力。

 

 进行了英语训练优化,从而提升模型的通用性能。

 

除了模型架构和训练优化,混元团队还升级了奖励系统:

 

 采用基于规则的评分和一致性验证,保证模型输出的质量和可靠性。

 

 引入代码沙箱反馈,大幅提升模型STEM领域的准确性。

 

 使用生成式奖励,优化模型在问答和创意性任务上的表现,并有效减少奖励作弊现象

 

写在最后:

 

Mamba 是一种新型的状态空间模 (State Space Model, SSM) 简单来说,你可以把它理解为一种更高效处理长序列数据的模型架构,它主要为了解 Transformer 模型在处理长序列时效率低下的问题而提出的

 

img4

 

Mamba  Albert Gu (卡耐基梅隆大学) Tri Dao(普林斯顿大学 两位研究人员主导开发的

 

Mamba 的创新之处在于它引入选择性状态空 (Selective State Spaces) 的概念 简单来说Mamba 模型中 SSM 参数不再是固定的,而是会根据输入的内容动态变化 这样一来,模型就能根据当前处理token,有选择性地记住或遗忘信息,从而更好地进行内容相关的推理

 

此外Mamba 的设计也考虑了硬件效率,它在保持类似循环神经网 (RNN) 的结构的同时,还能进行并行计算,这使 Mamba 在推理速度上 Transformer 更快(约 5 倍) 而且Mamba 的计算复杂度是线性于序列长度的,这意味着处理更长的序列也不会显著增加计算负担。

 

 

(蜂耘人工智能网 责任编辑:行云)

2025-03-11 10:16

广告

来源:AI寒武纪
腾讯混元团队发布了他们最新的力作——Hunyuan-TurboS,首个混合Transformer-Mamba MoE架构的超大模型。

声明:凡来源标明“蜂耘网”的文章版权均为本站所有,如需转载请务必注明出处,违者本网将追究相关法律责任;所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息,均不代表本网立场及观点,“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任;如涉及版权等问题,请在内容发表之日起一周内与本网联系,否则视为放弃相关权利。

所有评论仅代表网友意见,与本站立场无关

最新资讯

推荐阅读

热门排行

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

  • 坚定扛牢“走在前、挑大梁”的使命担当(权威访谈·谋发展 启新篇)

    来源:人民日报
    2024年,山东经济社会高质量发展取得积极成效。新的一年,作为经济大省的山东如何坚定扛牢“走在前、挑大梁”的使命担当?如何全面贯彻落实中央经济工作会议精神,奋力推动经济社会高质量发展?记者采访了山东省委书记林武。

    54 2025-01-21
  • 一文了解查理·芒格:为什么他是巴菲特最推崇的人

    来源:
    ①巴菲特写道,“如果没有查理的灵感、智慧和参与,伯克希尔-哈撒韦公司不可能发展到今天的地位”;
    ②芒格曾表示,“如果世上未曾有过查理·芒格这个人,巴菲特的业绩依然会像现在这么漂亮 ”
    ③两周前,芒格还公开在节目中维护93岁的老友巴菲特。

    212 2023-11-29
  • 面壁者,拉里·佩奇

    来源:中欧商业评论
    这两年,硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦,这为他的公司引来了铺天盖地的负面新闻,然而,他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

    340 2022-06-15

会议活动

微信公众号

广告

相关新闻