科技行业资讯门户

广告

广告

广告

广告

广告

“弱智吧”帖子训练AI效果遥遥领先?研究团队回应

【蜂耘网   人工智能】白岳霖和他的小伙伴们实在想不到,他们最近做的中文指令微调数据集,会因为使用了百度贴吧弱智的帖子相关数据而火

 

白岳霖是中国科学院深圳先进技术研究院三年级硕士生。他的团队在题COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning的研究中,使弱智吧标+GPT-4微调后的大模型评估结果,超过了他们收集的其他有监督微调SFT)指令集数据。后者来自包括知乎、百科、豆瓣、小红书等社交平台。对此,业内人士表看论文看到哈哈大

 

网友纷纷跟帖评论弱智上大大智若”“弱智才是人类面AI的最后一道堡

 

没想到这个工了,但网上存在一些错误解读,比如有人拿这个研究调知乎不如弱智作为论文共同第一作者,白岳霖告诉《中国科学报》,这篇文章的作者来自国内外多个顶尖机构考虑到团队学术声誉与社会影响,这些误读有必要澄清一

 

img1

 白岳霖  

 

上大的不弱智

 

弱智是百度贴吧的一个子论坛。在这个论坛中,用户经常发布包含双关语、多义词、因果倒置和谐音词等具有挑战性的内容,很多内容设计有逻辑陷阱,即使对人类来说也颇具挑战。

 

弱智吧帖子标题的风格大概如下:

 

一个半小时是几个半小时

 

陨石为什么总是落在陨石坑里

 

人如果只剩一个心脏还能活吗

 

蓝牙耳机坏了,去医院挂耳科还是牙科

 

还有一些幽默发言角度清奇生鱼片是死鱼等红灯是在等绿咖啡因来自咖啡救火是在灭指南针主要是指小明打开水龙头是因为开水龙头烫到了小明的”……

 

img2

“弱智截图

 

正因弱智中许多提问脑洞大开,这些问题常被用来测试大模型的能力。

 

这样的语料数据,自然也逃不过研究团队

 

此外,《中国科学报》了解到,这支研究团队的平均年龄只20多岁,大多为在读硕士生和博士生。他们经常光顾知乎、豆瓣、小红书等平台,当然也少不弱智

 

当他们决一个高质量的中文指令微调数据集时弱智相关语料自然地成为他们的一个选择。

 

不过,并不像传说的那——弱智8项测试第一,远超知乎豆瓣小红竟成最佳中AI训练数。实际上,Yi-34B大模型上表现上佳的,不单纯弱智。具体来说,弱智吧只贡献了个标题。

 

论文提到,研究团队收集弱智上点赞数最多500个帖子,并使用这些帖子的标题作为指令,使GPT-4生成相应的回复。而对于GPT-4生成的回复,研究团队还进行了人工审核、优化与筛选,并最终获得240对(指令,响应)样本。使用240对样本训练过Yi-34B大模型,Belle-Eval测试集上录得高分。

 

img3

Ruozhiba来源的数据集训练效果遥遥领先于其他数据源。图片截自论文

 

要指出的是,弱智之外,知乎、小红书、豆瓣、百科等来源的数据,研究团队并没有借GPT-4去生成回答,而是采用严格的数据过滤,最大程度保留网络中人类撰写的高质量内容。

 

以拥有大量高质量用户生产内容的知乎为例,研究团队设置高赞回等筛选条件,经内容过滤、评分后,即采用得分较高的原内容。

 

相形之下,研究团队仅使用弱智吧帖子的标题作为训练大模型的指令,完全没有包含网友的回帖和评论,而是使GPT4辅助人工构造了回复答案。

 

因此,面对网弱智上大之类的言论,白岳霖回应说网络上的宣传过分夸大事实

 

许多读者误以为我们使弱智网友的评论训练大模型就可以达到很好的效果,事实上,我们仅保留了弱智吧帖子的标题白岳霖说实验结果并不能代表弱智吧,因为数据实际上相当于多方(网友、作者们和大模型系统)协同构造的

 

对各平台来源的数并非研究本意

 

研究团队为何仅针弱智作文章?

 

因为我们的目标是构建符合大模型指令微调质量需求的数据,而贴吧中网友的评论通常不适合直接作为微调数据,因此我们并没有弱智网友的评论纳入我们的数据中白岳霖告诉《中国科学报》。

 

论文通讯作者、加拿大滑铁卢大学博士生张舸进一步向《中国科学报》解释弱智中网友们绞尽脑汁想出来弱智问,的确为大模型提供了角度清奇的高质量指令。但是帖子的回答,却有很多冒犯性表述甚至事实性错误,许多回答就是抖机灵、玩梗的,GPT-4的回答基本上很正,经过人工筛选基本上能得到较为可靠的回答

 

img4

 张舸  

 

由于弱智数据区别对在传播中很难被关注到,吃瓜群众很容易就对这项工作产生了误读,认为仅使弱智的内容就能将大模型训练出远超其他平台的效果。

 

白岳霖进一步谈到我们的实验结果也不能完全代表互联网中的各个平台,任何关于平台对立的情绪都不是我们想要探讨或者希望看到的

 

不过,也正是研究团队弱智数据的特殊操作,在论文内容发酵后引发了相关人士对实验结果的质疑。

 

有质疑者提出:来自知乎、豆瓣等平台的其它子数据集采样了原内容和网友评论,只弱智的子数据集完全不包括网友的评论、而是采用GPT-4合成的回这样的回答明显更完善、准确、多样,且最终来评分的居然还GPT-4既当运动员又当裁判员Evaluation bias(评估偏见)不会爆炸吗?用这种操作误导公众、获取流量,是不是有点过于不严谨了

 

对于这一诘问,白岳霖也给出了正面回应。

 

获取流量并不是我们的初衷,我们也无意哗众取宠,更没有计划或安排任何宣传内容,我们的初衷只是想默默为中NLP(自然语言处理)社区贡献些高质量数据集;对平的实验本意,是想观察各平台数据对于测试集中各任务都有哪些影响白岳霖解释说。

 

至于为何只弱智子集不包括网友评论,正如前述所提到的,也是出弱智部分网友评论经判断达不到训练语言模型的回答质量标准,因此决定重新构造回答。而使GPT-4辅助构造回答,则主要是为了尽可能减少人力投入。白岳霖同时表示,已经注意到有关评估偏见的问题,他们计划在下一版论文更新补充人工评估实

 

张舸告诉《中国科学报》一个通用的、高质量的中文指令微调数据集,需要做大量筛选、检查和调优的工作是个体力活,能寻求机器帮忙的当然不会放过。

 

一切为更适合中国宝宝AI

 

张舸是这项研究的核心人物,他也COIGChinese Open Instruction Generalist,中文开源指令数据集)系列工作的发起人之一。

 

谈及发起这项研究的初衷,他告诉《中国科学报》,国内在有关中文指令微调数据集方面,目前还没有质量特别好的开源项目,个别项目也只勉强能,因此萌生了给业界提供一个完全开源的、包含中文社交媒体数据等在内各种来源的、可以直接微调大模型的数据集的想法。

 

通过筛选收集,构建出具有挑战性的、真实的中文语料互动数据,对于训练和评估大语言模型理解和执行中文指令的能力而言,无疑是极具价值的。最直接地,将有利于减少大模型在回答中出(模型在输出文本时出现的一些并不符合事实或常识的内容)。

 

在这项工作中,作者团队构建了一个包4万多条高质量数据的中文指令微调数据集,并将其开源给研究机构、企业等各方,为中NLP社区提供了宝贵的资源。

 

然而,这项工作繁琐复杂,不仅要去各个平高质量的内容数据,还需要运用各种技术手段清洗、审核,工作量非常大,需要群策群力。因此,该工作的作者团队就20人。

 

团队中,除了来自中国科学院深圳先进技术研究院的白岳霖外,还有来自中国科学院自动化研究所、中国科学技术大学、北京大学、加拿大滑铁卢大学、曼彻斯特大学等顶尖机构的成员,因此这项工作被网友们戏称为是国内外研究天为了开发出适合中国宝宝体质AI之作。

 

《中国科学报》进一步了解到,这群年轻人202311月起着手该研究,仅用了不4个月就完成了几乎全部工作。如此高效率的表现,他们是怎样组织协作的?

 

我们创建了一个致力于多模AI的开源社 M-A-PMultimodal Art Projection),没有线下实体、没有任何盈利目的,只要能来一起做事情,我们就欢迎张舸介绍说,两年多前,他和几位小伙伴因一个音乐类大模型训练项目走到了一起,共同创办M-A-P。之后,朋友、朋友的朋友、朋友的朋友的朋感兴趣加入的小伙伴越来越多,就形成了一个有稳定贡献的开源社区。

 

他告诉记者,M-A-P社区,大家发起一个课题后,就寻求合作者一起做;如果涉及到一些资源需求,大家会和科技公司等洽谈,公司若愿意投入资源,可以一起合作、共同开发。但前提是,项目完成之后,公司除保留一些私有资源外,必须将项目成果共享给开源社区。

 

我们所有项目的目标,都是能够做出来一些好东西开源给大家用张舸说,开源社区具有高校院所和企业所不具备的灵活性和纯粹性,此次中文指令微调数据集CQIA)的工作,就是M-A-P社区发起、逐步汇聚了国内外科研力量完成的。

 

张舸坦言,这项工作从发起到完成,一些参与的小伙伴他甚至都没见过面。

 

(中国科学院自动化研究所在读博士生梁燚铭(论文共同第一作者)对本文亦有贡献)

 

相关论文信息: https://arxiv.org/abs/2403.18058

 

 

(蜂耘人工智能网   责任编辑:行云)

2024-04-18 09:51

广告

来源:科学网
白岳霖和他的小伙伴们实在想不到,他们最近做的中文指令微调数据集,会因为使用了百度贴吧“弱智吧”的帖子相关数据而火爆“出圈”。

声明:凡来源标明“蜂耘网”的文章版权均为本站所有,如需转载请务必注明出处,违者本网将追究相关法律责任;所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息,均不代表本网立场及观点,“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任;如涉及版权等问题,请在内容发表之日起一周内与本网联系,否则视为放弃相关权利。

所有评论仅代表网友意见,与本站立场无关

最新资讯

推荐阅读

热门排行

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

  • 一文了解查理·芒格:为什么他是巴菲特最推崇的人

    来源:
    ①巴菲特写道,“如果没有查理的灵感、智慧和参与,伯克希尔-哈撒韦公司不可能发展到今天的地位”;
    ②芒格曾表示,“如果世上未曾有过查理·芒格这个人,巴菲特的业绩依然会像现在这么漂亮 ”
    ③两周前,芒格还公开在节目中维护93岁的老友巴菲特。

    31 2023-11-29
  • 面壁者,拉里·佩奇

    来源:中欧商业评论
    这两年,硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦,这为他的公司引来了铺天盖地的负面新闻,然而,他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

    138 2022-06-15
  • 百岁中科院院士文圣常逝世!被誉为我国海浪研究的“点灯人”

    来源:南方都市报
     3月21日上午,中国海洋大学发布讣告,中国科学院院士、著名物理海洋学家、该校教授文圣常,因病医治无效,于3月20日15时37分在山东青岛逝世,享年101岁。

    164 2022-03-21

会议活动

微信公众号

广告

相关新闻