反击DeepSeek失败！Llama 4效果不好，Meta承认有问题

【蜂耘网　人工智能】今天凌晨1点半，Meta生成式AI领导者Ahmad Al-Dahle在社交平台发布了一篇长文，对前天刚开源的Llama 4质疑进行了官方回应。

Ahmad表示，Llama 4一开发完就发布了，所以，不同服务中模型质量难免会有一些差异。Meta很快会修复这些漏洞提升性能。同时否认在测试集上进行了预训练。

但Meta在官网发布时特意点名DeepSeek，说他们新开源的Llama 4 Maverick在代码能力可以比肩其新开源的V3模型，国内不少知名媒体也以此为噱头来写标题。

现在看来Meta首次反击是失败了，期待他们后续优化以及正训练的2万亿参数的教师模型。

以下是Ahmad完整声明：

我们很高兴能开始让大家都用上 Llama 4。我们已经听说很多人使用这些模型取得了不错的成果。

话虽如此，我们也听到了一些关于不同服务中模型质量参差不齐的报告。由于模型一准备好我们就发布了，所以我们预计所有公开的应用实现都需要几天时间来进行优化调整。我们会继续进行漏洞修复工作，并与合作伙伴完成对接流程。

我们还听到有人声称Llama 4在测试集上进行了训练，这纯属无稽之谈，我们绝对不会这么做。据我们的判断，人们所看到的质量差异是由于需要对应用实现进行稳定化处理造成的。

我们相信 Llama 4 模型是一项重大的技术进步，我们期待着与社区合作，充分挖掘其价值。

其实，在Llama 4开源当天就有人质疑其性能。其代码能力比Grok 3、DeepSeek V3、Sonnet 3.5/7差很多。

无论是Scout还是Maverick模型，我使用了详尽的提示词，在实际编码方面似乎都几乎无法使用。

考虑到 Meta 公司付出的努力，我很惊讶一个4000亿参数的模型（即便它是混合专家模型）表现竟如此糟糕。它与DeepSeekV3”相比差距甚远。

我们对不同平台提供的Scout和 Maverick进行了测试，结果发现这两款模型表现都不佳，甚至被参数规模更小的模型比下去了。

在基础编程任务之外，它们就会出错，而且在遵循指令方面能力也很弱。Maverick的排名接近谷歌的Gemini 2.5，这一点令人担忧。它们给人的感觉就像是处于 GPT-3.5 时代的模型。很高兴 Meta正在采取措施让情况稳定下来。

能够提前使用 Llama 4 固然很棒，但这里有个关键事实：一个强大的模型，其实际效果取决于它的应用实现情况。

你在实验室里测试的效果，并不等同于用户在实际使用中所体验到的效果。在过度炒作和实际操作之间存在的差距，才是真正需要努力去填补的地方。

鉴于许多运行时环境都是开源的，或许未来在发布产品以免陷入如此混乱的局面之前，你们能够确保那些修复措施已经落实到位？ “是你使用方式不对” 这种说辞可不大好听。

也有网友质疑Meta刷榜：“质量参差不齐”？？我看到的每一项基准测试中，Llama 4 的表现都糟透了，除非你参考的是 LMSYS 的“1417 eon”基准测试结果。

你们向 LMSYS 开放了哪个API呢？因为目前 LMSYS 那边的模型列表中的表现也非常差。

Llama 4 就是垃圾，你们在这件事上搞砸得太厉害了。与其误导大家，还不如承认错误。不确定在测试集上动手脚这件事是不是真的，但鉴于它在基准测试中的高分以及在现实世界中糟糕的表现，这种可能性似乎很大。

在聊天机器人竞技场的大语言模型排行榜上，Meta 公司的 Llama 4 Maverick 在编程方面排名第一。

然而，几乎我给出的每一个难的编程提示或中等难度的编程提示，它都无法完成。在编程方面，它比 DeepSeek V3 - 0324、Claude 3.5/3.7 Sonnet 或 Gemini 2.0 Pro 差得多。

所以，这位网友也在质疑Meta刷榜的问题。

其实从发布的时间点就能看出来，Meta这次并没有准备好。作为类ChatGPT的开源鼻祖之一，Llama 4这么重磅的开源模型，居然放在了美国周六的大晚上发布（国内的周日凌晨3点），这太不符合常规了。

按照他们以往发布的Llama系列模型，一般会放在美国周二、周三早上10点左右。所以，在发布Llama 4时他们本身就心虚。

DeepSeek的横空出世给Meta造成了巨大压力，其用户、口碑正在严重流失，他们急需一款重磅产品挽回败局。在今年过年DeepSeek疯狂刷屏那段时间，Meta还特意组建了“作战研究室”来研究其模型。但从最终结果来看，依然不是很理想。

此外，由于关税大战的原因，Meta的股票遭遇重创，他们也需要一个利好消息来拉升股票，现在适得其反。

（蜂耘人工智能网责任编辑：行云）

2025-04-08 17:22

ꄴ前一个：无

ꄲ后一个：无

来源：AIGC开放社区
今天凌晨1点半，Meta生成式AI领导者Ahmad Al-Dahle在社交平台发布了一篇长文，对前天刚开源的Llama 4质疑进行了官方回应。

声明：凡来源标明“蜂耘网”的文章版权均为本站所有，如需转载请务必注明出处，违者本网将追究相关法律责任；所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息，均不代表本网立场及观点，“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任；如涉及版权等问题，请在内容发表之日起一周内与本网联系，否则视为放弃相关权利。

所有评论仅代表网友意见，与本站立场无关

跟帖用户自律公约

最新资讯

2025-05-09
当机器人学会"轻拿轻放"：亚马逊仓库上演人机共舞
2025-05-09
当狗狗的语言被破译：百度打开跨物种对话的黑匣子
2025-05-09
科技赋能，重塑生态：欣物盟运营平台开启智慧物流新纪元
2025-05-09
以科技创新加快“海洋强市”建设：船舶搭载“智慧大脑” 国产化水平进一步提高
2025-05-09
无人机“千里眼和手” 为航空应急救援注入新活力
2025-05-09
新型航空材料研发取得突破

推荐阅读

热门排行

2022-08-25
全部下架！夸克这些羞羞资源，彻底凉了
2022-10-13
东莞市委副秘书长甘伟佳赴墨睿科技调研
2022-10-24
专职消防员新规征求意见：关于工资待遇、退出安置、岗位编制、社会优待等政策
2023-09-01
如何识别出由AI生成的的图像？这几个办法了解下
2022-10-18
中交集团粤港澳区域总部与科大讯飞签署战略合作框架协议
2022-09-30
概述：钛铝合金粉末生产工艺及3D打印应用
2024-05-28
2024最值得入手的三款无人机，几乎“0”差评！
2023-03-29
公安部印发《加强新时代公安派出所工作三年行动计划（2023-2025年）》

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

坚定扛牢“走在前、挑大梁”的使命担当（权威访谈·谋发展启新篇）

来源：人民日报
2024年，山东经济社会高质量发展取得积极成效。新的一年，作为经济大省的山东如何坚定扛牢“走在前、挑大梁”的使命担当？如何全面贯彻落实中央经济工作会议精神，奋力推动经济社会高质量发展？记者采访了山东省委书记林武。

넶54 2025-01-21
一文了解查理·芒格：为什么他是巴菲特最推崇的人

来源：
①巴菲特写道，“如果没有查理的灵感、智慧和参与，伯克希尔-哈撒韦公司不可能发展到今天的地位”；
②芒格曾表示，“如果世上未曾有过查理·芒格这个人，巴菲特的业绩依然会像现在这么漂亮 ”
③两周前，芒格还公开在节目中维护93岁的老友巴菲特。

넶212 2023-11-29
面壁者，拉里·佩奇

来源：中欧商业评论
这两年，硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦，这为他的公司引来了铺天盖地的负面新闻，然而，他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

넶340 2022-06-15

会议活动

4月23日丨苏州人工智能产业生态大会即将启幕，行业大咖论剑技术突围与生态共建

来源：蜂耘网
以蜂耘网为代表的科技平台责无旁贷地肩负起推动中国人工智能产业高质量发展的使命，将于4月23日举办苏州人工智能产业生态大会。

넶47 2025-04-03
2025成都人工智能产业生态大会成功举办！反响热烈，太火爆

来源：蜂耘网
由蜂耘网主办的2025成都人工智能产业生态大会成功举办！

넶49 2025-04-01
3月26日丨成都人工智能产业生态大会强势来袭！不容错过！

来源：蜂耘网
蜂耘网将在成都举办人工智能产业生态大会，汇聚行业顶尖专家、企业领袖、投资机构及政府代表，为行业人士提供一个交流、学习与合作的平台。

넶81 2025-02-21

2025-05-09
当机器人学会"轻拿轻放"：亚马逊仓库上演人机共舞
2025-05-09
当狗狗的语言被破译：百度打开跨物种对话的黑匣子
2025-05-09
科技赋能，重塑生态：欣物盟运营平台开启智慧物流新纪元
2025-05-09
以科技创新加快“海洋强市”建设：船舶搭载“智慧大脑” 国产化水平进一步提高
2025-05-09
无人机“千里眼和手” 为航空应急救援注入新活力
2025-05-09
新型航空材料研发取得突破

微信公众号

2025-05-09
当机器人学会"轻拿轻放"：亚马逊仓库上演人机共舞
2025-05-09
当狗狗的语言被破译：百度打开跨物种对话的黑匣子
2025-05-09
科技赋能，重塑生态：欣物盟运营平台开启智慧物流新纪元
2025-05-09
以科技创新加快“海洋强市”建设：船舶搭载“智慧大脑” 国产化水平进一步提高
2025-05-09
无人机“千里眼和手” 为航空应急救援注入新活力
2025-05-09
新型航空材料研发取得突破

相关新闻

反击DeepSeek失败！Llama 4效果不好，Meta承认有问题

全部评论 (0)

坚定扛牢“走在前、挑大梁”的使命担当（权威访谈·谋发展 启新篇）

一文了解查理·芒格：为什么他是巴菲特最推崇的人

面壁者，拉里·佩奇

4月23日丨苏州人工智能产业生态大会即将启幕，行业大咖论剑技术突围与生态共建

2025成都人工智能产业生态大会成功举办！反响热烈，太火爆

3月26日丨成都人工智能产业生态大会强势来袭！不容错过！

坚定扛牢“走在前、挑大梁”的使命担当（权威访谈·谋发展启新篇）