“弱智吧”帖子训练AI效果遥遥领先？研究团队回应

【蜂耘网人工智能】白岳霖和他的小伙伴们实在想不到，他们最近做的中文指令微调数据集，会因为使用了百度贴吧“弱智吧”的帖子相关数据而火爆“出圈”。

白岳霖是中国科学院深圳先进技术研究院三年级硕士生。他的团队在题为“COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning”的研究中，使用“弱智吧标题+GPT-4回答”微调后的大模型评估结果，超过了他们收集的其他有监督微调（SFT）指令集数据。后者来自包括知乎、百科、豆瓣、小红书等社交平台。对此，业内人士表示“看论文看到哈哈大笑”。

网友纷纷跟帖评论：“这把‘弱智吧’上大分”“大智若愚”“‘弱智吧’才是人类面对AI的最后一道堡垒”。

“没想到这个工作‘出圈’了，但网上存在一些错误解读，比如有人拿这个研究调侃‘知乎不如弱智吧’。”作为论文共同第一作者，白岳霖告诉《中国科学报》，这篇文章的作者来自国内外多个顶尖机构，“考虑到团队学术声誉与社会影响，这些误读有必要澄清一下”。

白岳霖

“上大分”的不是“弱智吧”

“弱智吧”是百度贴吧的一个子论坛。在这个论坛中，用户经常发布包含双关语、多义词、因果倒置和谐音词等具有挑战性的内容，很多内容设计有逻辑陷阱，即使对人类来说也颇具挑战。

弱智吧帖子标题的风格大概如下：

“一个半小时是几个半小时？”

“陨石为什么总是落在陨石坑里？”

“人如果只剩一个心脏还能活吗？”

“蓝牙耳机坏了，去医院挂耳科还是牙科？”

还有一些幽默发言角度清奇：“生鱼片是死鱼片”“等红灯是在等绿灯”“咖啡因来自咖啡果”“救火是在灭火”“指南针主要是指北”“小明打开水龙头是因为开水龙头烫到了小明的手”……

“弱智吧”截图

正因为“弱智吧”中许多提问脑洞大开，这些问题常被用来测试大模型的能力。

这样的语料数据，自然也逃不过研究团队的“法眼”。

此外，《中国科学报》了解到，这支研究团队的平均年龄只有20多岁，大多为在读硕士生和博士生。他们经常光顾知乎、豆瓣、小红书等平台，当然也少不了“弱智吧”。

当他们决定“手搓”一个高质量的中文指令微调数据集时，“弱智吧”相关语料自然地成为他们的一个选择。

不过，并不像传说的那样——“弱智吧8项测试第一，远超知乎豆瓣小红书”“竟成最佳中文AI训练数据”。实际上，在Yi-34B大模型上表现上佳的，不单纯是“弱智吧”。具体来说，弱智吧只贡献了个标题。

论文提到，研究团队收集了“弱智吧”上点赞数最多的500个帖子，并使用这些帖子的标题作为指令，使用GPT-4生成相应的回复。而对于由GPT-4生成的回复，研究团队还进行了人工审核、优化与筛选，并最终获得了240对（指令，响应）样本。使用这240对样本训练过的Yi-34B大模型，在Belle-Eval测试集上录得高分。

Ruozhiba来源的数据集训练效果遥遥领先于其他数据源。图片截自论文

要指出的是，除“弱智吧”之外，知乎、小红书、豆瓣、百科等来源的数据，研究团队并没有借助GPT-4去生成回答，而是采用严格的数据过滤，最大程度保留网络中人类撰写的高质量内容。

以拥有大量高质量用户生产内容的知乎为例，研究团队设置了“高赞回答”等筛选条件，经内容过滤、评分后，即采用得分较高的原内容。

相形之下，研究团队仅使用弱智吧帖子的标题作为训练大模型的指令，完全没有包含网友的回帖和评论，而是使用GPT4辅助人工构造了回复答案。

因此，面对网上“‘弱智吧’上大分”之类的言论，白岳霖回应说：“网络上的宣传过分夸大事实。”

“许多读者误以为我们使用‘弱智吧’网友的评论训练大模型就可以达到很好的效果，事实上，我们仅保留了弱智吧帖子的标题。”白岳霖说：“实验结果并不能代表弱智吧，因为数据实际上相当于多方（网友、作者们和大模型系统）协同构造的。”

对各平台来源的数据“跑分”并非研究本意

研究团队为何仅针对“弱智吧”作文章？

“因为我们的目标是构建符合大模型指令微调质量需求的数据，而贴吧中网友的评论通常不适合直接作为微调数据，因此我们并没有将‘弱智吧’网友的评论纳入我们的数据中。”白岳霖告诉《中国科学报》。

论文通讯作者、加拿大滑铁卢大学博士生张舸进一步向《中国科学报》解释：“‘弱智吧’中网友们绞尽脑汁想出来的‘弱智问题’，的确为大模型提供了角度清奇的高质量指令。但是帖子的回答，却有很多冒犯性表述甚至事实性错误，许多回答就是抖机灵、玩梗的，而GPT-4的回答基本上都‘很正经’，经过人工筛选基本上能得到较为可靠的回答。”

张舸

由于对“弱智吧”数据的“区别对待”在传播中很难被关注到，吃瓜群众很容易就对这项工作产生了误读，认为仅使用“弱智吧”的内容就能将大模型训练出远超其他平台的效果。

白岳霖进一步谈到：“我们的实验结果也不能完全代表互联网中的各个平台，任何关于平台对立的情绪都不是我们想要探讨或者希望看到的。”

不过，也正是研究团队对“弱智吧”数据的特殊操作，在论文内容发酵后引发了相关人士对实验结果的质疑。

有质疑者提出：来自知乎、豆瓣等平台的其它子数据集采样了原内容和网友评论，只有“弱智吧”的子数据集完全不包括网友的评论、而是采用了GPT-4合成的回答——这样的回答明显更完善、准确、多样，且最终来评分的居然还是GPT-4。“既当运动员又当裁判员，Evaluation bias（评估偏见）不会爆炸吗？用这种操作误导公众、获取流量，是不是有点过于不严谨了？”

对于这一诘问，白岳霖也给出了正面回应。

“获取流量并不是我们的初衷，我们也无意哗众取宠，更没有计划或安排任何宣传内容，我们的初衷只是想默默为中文NLP（自然语言处理）社区贡献些高质量数据集；对平台‘跑分’的实验本意，是想观察各平台数据对于测试集中各任务都有哪些影响。”白岳霖解释说。

至于为何只有“弱智吧”子集不包括网友评论，正如前述所提到的，也是出于“弱智吧”部分网友评论经判断达不到训练语言模型的回答质量标准，因此决定重新构造回答。而使用GPT-4辅助构造回答，则主要是为了尽可能减少人力投入。白岳霖同时表示，已经注意到有关评估偏见的问题，他们计划在下一版论文更新中“补充人工评估实验”。

张舸告诉《中国科学报》，“手搓”一个通用的、高质量的中文指令微调数据集，需要做大量筛选、检查和调优的工作，“是个体力活儿”，能寻求机器帮忙的当然不会放过。

一切为了“更适合中国宝宝的AI”

张舸是这项研究的核心人物，他也是COIG（Chinese Open Instruction Generalist，中文开源指令数据集）系列工作的发起人之一。

谈及发起这项研究的初衷，他告诉《中国科学报》，国内在有关中文指令微调数据集方面，目前还没有质量特别好的开源项目，个别项目也只是“勉强能用”，因此萌生了给业界提供一个完全开源的、包含中文社交媒体数据等在内各种来源的、可以直接微调大模型的数据集的想法。

通过筛选收集，构建出具有挑战性的、真实的中文语料互动数据，对于训练和评估大语言模型理解和执行中文指令的能力而言，无疑是极具价值的。最直接地，将有利于减少大模型在回答中出现“幻觉”（模型在输出文本时出现的一些并不符合事实或常识的内容）。

在这项工作中，作者团队构建了一个包含4万多条高质量数据的中文指令微调数据集，并将其开源给研究机构、企业等各方，为中文NLP社区提供了宝贵的资源。

然而，这项工作繁琐复杂，不仅要去各个平台“爬取”高质量的内容数据，还需要运用各种技术手段清洗、审核，工作量非常大，需要群策群力。因此，该工作的作者团队就达20人。

团队中，除了来自中国科学院深圳先进技术研究院的白岳霖外，还有来自中国科学院自动化研究所、中国科学技术大学、北京大学、加拿大滑铁卢大学、曼彻斯特大学等顶尖机构的成员，因此这项工作被网友们戏称为是国内外研究天团“为了开发出适合中国宝宝体质的AI”之作。

《中国科学报》进一步了解到，这群年轻人从2023年11月起着手该研究，仅用了不到4个月就完成了几乎全部工作。如此高效率的表现，他们是怎样组织协作的？

“我们创建了一个致力于多模态AI的开源社区—— M-A-P（Multimodal Art Projection），没有线下实体、没有任何盈利目的，只要能来一起做事情，我们就欢迎。”张舸介绍说，两年多前，他和几位小伙伴因一个音乐类大模型训练项目走到了一起，共同创办了M-A-P。之后，朋友、朋友的朋友、朋友的朋友的朋友……感兴趣加入的小伙伴越来越多，就形成了一个有稳定贡献的开源社区。

他告诉记者，在M-A-P社区，大家发起一个课题后，就寻求合作者一起做；如果涉及到一些资源需求，大家会和科技公司等洽谈，公司若愿意投入资源，可以一起合作、共同开发。但前提是，项目完成之后，公司除保留一些私有资源外，必须将项目成果共享给开源社区。

“我们所有项目的目标，都是能够做出来一些好东西开源给大家用。”张舸说，开源社区具有高校院所和企业所不具备的灵活性和纯粹性，此次中文指令微调数据集（CQIA）的工作，就是在M-A-P社区发起、逐步汇聚了国内外科研力量完成的。

张舸坦言，这项工作从发起到完成，一些参与的小伙伴他甚至都没见过面。

（中国科学院自动化研究所在读博士生梁燚铭（论文共同第一作者）对本文亦有贡献）

相关论文信息： https://arxiv.org/abs/2403.18058

（蜂耘人工智能网责任编辑：行云）

2024-04-18 09:51

ꄴ前一个：无

ꄲ后一个：无

来源：科学网
白岳霖和他的小伙伴们实在想不到，他们最近做的中文指令微调数据集，会因为使用了百度贴吧“弱智吧”的帖子相关数据而火爆“出圈”。

声明：凡来源标明“蜂耘网”的文章版权均为本站所有，如需转载请务必注明出处，违者本网将追究相关法律责任；所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息，均不代表本网立场及观点，“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任；如涉及版权等问题，请在内容发表之日起一周内与本网联系，否则视为放弃相关权利。

所有评论仅代表网友意见，与本站立场无关

跟帖用户自律公约

最新资讯

2025-04-30
N347碳黑售价趋势持续上升能源与环保行业受挑战
2025-04-30
地上空中智能交通
2025-04-30
王力超防锁体独创“越撬越紧”防护体验智能门锁安全标准再升级
2025-04-30
萤火虫航天Alpha火箭发射再受挫，载荷坠入南极洲北部太平洋
2025-04-30
广东科学中心“五一”假期将上新“航空科普展”
2025-04-30
我国首件！重型运载火箭十米级直径不锈钢贮箱样机研制成功

推荐阅读

热门排行

2022-08-25
全部下架！夸克这些羞羞资源，彻底凉了
2022-10-13
东莞市委副秘书长甘伟佳赴墨睿科技调研
2022-10-24
专职消防员新规征求意见：关于工资待遇、退出安置、岗位编制、社会优待等政策
2023-09-01
如何识别出由AI生成的的图像？这几个办法了解下
2022-10-18
中交集团粤港澳区域总部与科大讯飞签署战略合作框架协议
2022-09-30
概述：钛铝合金粉末生产工艺及3D打印应用
2024-05-28
2024最值得入手的三款无人机，几乎“0”差评！
2023-03-29
公安部印发《加强新时代公安派出所工作三年行动计划（2023-2025年）》

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

坚定扛牢“走在前、挑大梁”的使命担当（权威访谈·谋发展启新篇）

来源：人民日报
2024年，山东经济社会高质量发展取得积极成效。新的一年，作为经济大省的山东如何坚定扛牢“走在前、挑大梁”的使命担当？如何全面贯彻落实中央经济工作会议精神，奋力推动经济社会高质量发展？记者采访了山东省委书记林武。

넶51 2025-01-21
一文了解查理·芒格：为什么他是巴菲特最推崇的人

来源：
①巴菲特写道，“如果没有查理的灵感、智慧和参与，伯克希尔-哈撒韦公司不可能发展到今天的地位”；
②芒格曾表示，“如果世上未曾有过查理·芒格这个人，巴菲特的业绩依然会像现在这么漂亮 ”
③两周前，芒格还公开在节目中维护93岁的老友巴菲特。

넶207 2023-11-29
面壁者，拉里·佩奇

来源：中欧商业评论
这两年，硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦，这为他的公司引来了铺天盖地的负面新闻，然而，他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

넶337 2022-06-15

会议活动

4月23日丨苏州人工智能产业生态大会即将启幕，行业大咖论剑技术突围与生态共建

来源：蜂耘网
以蜂耘网为代表的科技平台责无旁贷地肩负起推动中国人工智能产业高质量发展的使命，将于4月23日举办苏州人工智能产业生态大会。

넶42 2025-04-03
2025成都人工智能产业生态大会成功举办！反响热烈，太火爆

来源：蜂耘网
由蜂耘网主办的2025成都人工智能产业生态大会成功举办！

넶41 2025-04-01
3月26日丨成都人工智能产业生态大会强势来袭！不容错过！

来源：蜂耘网
蜂耘网将在成都举办人工智能产业生态大会，汇聚行业顶尖专家、企业领袖、投资机构及政府代表，为行业人士提供一个交流、学习与合作的平台。

넶76 2025-02-21

2025-04-30
N347碳黑售价趋势持续上升能源与环保行业受挑战
2025-04-30
地上空中智能交通
2025-04-30
王力超防锁体独创“越撬越紧”防护体验智能门锁安全标准再升级
2025-04-30
萤火虫航天Alpha火箭发射再受挫，载荷坠入南极洲北部太平洋
2025-04-30
广东科学中心“五一”假期将上新“航空科普展”
2025-04-30
我国首件！重型运载火箭十米级直径不锈钢贮箱样机研制成功

微信公众号

2025-04-30
N347碳黑售价趋势持续上升能源与环保行业受挑战
2025-04-30
地上空中智能交通
2025-04-30
王力超防锁体独创“越撬越紧”防护体验智能门锁安全标准再升级
2025-04-30
萤火虫航天Alpha火箭发射再受挫，载荷坠入南极洲北部太平洋
2025-04-30
广东科学中心“五一”假期将上新“航空科普展”
2025-04-30
我国首件！重型运载火箭十米级直径不锈钢贮箱样机研制成功

相关新闻

“弱智吧”帖子训练AI效果遥遥领先？研究团队回应

全部评论 (0)

坚定扛牢“走在前、挑大梁”的使命担当（权威访谈·谋发展 启新篇）

一文了解查理·芒格：为什么他是巴菲特最推崇的人

面壁者，拉里·佩奇

4月23日丨苏州人工智能产业生态大会即将启幕，行业大咖论剑技术突围与生态共建

2025成都人工智能产业生态大会成功举办！反响热烈，太火爆

3月26日丨成都人工智能产业生态大会强势来袭！不容错过！

坚定扛牢“走在前、挑大梁”的使命担当（权威访谈·谋发展启新篇）