AI训练数据之困：垃圾进，垃圾出

【蜂耘网人工智能】所有模型都是通过在来自互联网的海量数据上进行训练来工作的，然而，随着人工智能越来越多地被用来生成充满垃圾信息的网页，这一过程可能会受到威胁。

近日，发表在 Nature 杂志上的一项新研究表明，当人工智能在人工智能生成的数据上进行训练时，模型输出的质量会逐渐下降，随着后续模型输出的数据被用作未来模型的训练数据，影响会进一步恶化。

领导这项研究的牛津大学计算机科学家 Ilia Shumailov 将这一过程比作拍照。“如果你拍了一张照片，扫描、打印出来并再对其拍照，然后不断重复这个过程，随着时间的推移，基本上整个过程都会被‘噪声’淹没。最后，你会得到一个黑暗的方块。”他说道。在人工智能领域，黑暗方块相当于“模型崩溃”，这意味着模型只会生成不连贯的垃圾。

这项研究可能会对当今最大的人工智能模型产生重大影响，因为它们使用互联网作为数据库。例如，GPT-3 的部分训练数据来自 Common Crawl，这是一个包含超过 30 亿个网页的在线存储库。随着越来越多的人工智能生成的垃圾网页开始充斥互联网，这个问题可能会变得更糟。

Ilia Shumailov 表示，当前的人工智能模型不仅会崩溃，而且可能会带来实质性影响：迭代速度减缓，性能越来越弱。

为了衡量和确定对性能的潜在影响，Ilia Shumailov 和他的同事根据维基百科的一组数据对大型语言模型（LLM）进行训练，然后根据 9 代的输出数据对新模型进行微调。他们使用一个名为“困惑度分数”的评价标准来衡量输出的荒谬程度，“困惑度分数”反映人工智能模型对未来序列部分预测能力，分数越高，模型的准确度就越低。

最终，在其他模型的输出数据上进行训练的模型具有更高的“困惑度分数”。例如，对于每一代，团队在输入以下内容后向模型询问下一个句子：

“some started before 1360—was typically accomplished by a master mason and a small team of itinerant masons, supplemented by local parish labourers, according to Poyntz Wright. But other authors reject this model, suggesting instead that leading architects designed the parish church towers based on early examples of Perpendicular.”

“根据 Poyntz Wright 的说法，一些教堂始建于 1360 年之前，通常由一位熟练的石匠和一小群流动的石匠完成，并辅以当地教区工人。但其他作者拒绝这个观点，而认为主要是由知名的建筑师根据早期的垂直式建筑风格设计教区教堂塔楼。”

在第 9 代（也是最后一代）中，模型返回以下内容：

“architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @-.”

“建筑。除了拥有世界上数量最多的黑 @-@ 尾兔、白 @-@ 尾兔、蓝 @-@ 尾兔、红 @-@ 尾兔、黄 @-。”

Ilia Shumailov 用这个类比解释了他认为正在发生的事情：想象一下，你要找一个学校里最不可能出现的学生名字，你可以检查每个学生的名字，但这会花很长时间。相反，你会查看 1000 个学生姓名中的 100 个。你得到了一个相当准确的预估，但这可能不是正确的答案；现在想象一下，另一个人过来根据你的 100 个名字进行预估，但只选择了 50 个，那么这个人的预估将会更加偏离正确答案。

“机器学习模型也会出现同样的情况。因此，如果第一个模型已经浏览了一半的互联网内容，那么第二个模型可能不会要求一半的互联网内容，实际上只是抓取最新的 10 万条推文，并在上面训练模型。”他说。

此外，互联网上的数据是有限的，为了满足对更多数据的需求，未来的人工智能模型可能需要在合成数据或人工智能生成的数据上进行训练。

麻省理工学院媒体实验室的研究人员、研究如何训练 LLM 的 Shayne Longpre（他没有参与这项研究）说：“基础模型依赖于数据规模才能获得更好的表现。他们希望在经过精心策划和控制的环境中使用合成数据来解决这个问题，因为如果继续在网上抓取更多数据，收益将会递减。”

斯坦福大学人工智能研究员 Matthias Gerstgrasser 在另一篇论文中研究了模型崩溃的问题。在他看来，将合成数据添加到现实世界数据中而不是替换它并不会引起任何重大问题。但他补充道：“所有关于模型崩溃的研究都得出一个结论，那就是高质量且多样化的训练数据至关重要。”

随着时间的推移，这种“退化”导致模型中的信息失真，少数样本的信息在模型中严重扭曲，因为它往往更加关注训练数据中普遍的样本。

麻省理工学院媒体实验室研究算法的 Robert Mahari（他也没有参与这项研究）表示，在当前的模型中，这可能会影响代表性不足的语言，因为它们需要更多的合成（或人工智能生成）数据集。

一个有助于避免退化的想法是，确保模型给予原始的人类生成数据更多权重。Ilia Shumailov 研究的另一个项目允许后代对原始数据集的 10% 进行采样，而这减轻了一些负面影响。

这需要从人类生成的原始数据到后代数据进行追踪，即数据来源。但这需要一种方法来过滤互联网上的人类生成数据和人工智能生成数据，但这一点目前尚未完全解决。尽管现在存在许多工具能够确定文本是否由人工智能生成，但它们往往不够准确。

“不幸的是，我们的问题比答案多。”Ilia Shumailov 说， “但很明显，了解数据来自哪里以及在多大程度上可以相信它能够捕获正在处理数据的代表性样本，这一点很重要。”

原文链接：

https://www.technologyreview.com/2024/07/24/1095263/ai-that-feeds-on-a-diet-of-ai-garbage-ends-up-spitting-out-nonsense/

（蜂耘人工智能网责任编辑：行云）

2024-07-26 10:17

ꄴ前一个：无

ꄲ后一个：无

来源：DeepTech深科技
所有模型都是通过在来自互联网的海量数据上进行训练来工作的，然而，随着人工智能越来越多地被用来生成充满垃圾信息的网页，这一过程可能会受到威胁。

声明：凡来源标明“蜂耘网”的文章版权均为本站所有，如需转载请务必注明出处，违者本网将追究相关法律责任；所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息，均不代表本网立场及观点，“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任；如涉及版权等问题，请在内容发表之日起一周内与本网联系，否则视为放弃相关权利。

所有评论仅代表网友意见，与本站立场无关

跟帖用户自律公约

最新资讯

推荐阅读

热门排行

2022-08-25
全部下架！夸克这些羞羞资源，彻底凉了
2022-10-13
东莞市委副秘书长甘伟佳赴墨睿科技调研
2022-10-24
专职消防员新规征求意见：关于工资待遇、退出安置、岗位编制、社会优待等政策
2022-09-30
概述：钛铝合金粉末生产工艺及3D打印应用
2022-10-18
中交集团粤港澳区域总部与科大讯飞签署战略合作框架协议
2023-03-29
公安部印发《加强新时代公安派出所工作三年行动计划（2023-2025年）》
2022-11-17
实现全球磁场测量我国自主研发量子磁力仪载荷首次建功
2022-10-25
二十大报告：打造宜居、韧性、智慧城市

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

一文了解查理·芒格：为什么他是巴菲特最推崇的人

来源：
①巴菲特写道，“如果没有查理的灵感、智慧和参与，伯克希尔-哈撒韦公司不可能发展到今天的地位”；
②芒格曾表示，“如果世上未曾有过查理·芒格这个人，巴菲特的业绩依然会像现在这么漂亮 ”
③两周前，芒格还公开在节目中维护93岁的老友巴菲特。

넶95 2023-11-29
面壁者，拉里·佩奇

来源：中欧商业评论
这两年，硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦，这为他的公司引来了铺天盖地的负面新闻，然而，他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

넶210 2022-06-15
百岁中科院院士文圣常逝世！被誉为我国海浪研究的“点灯人”

来源：南方都市报
3月21日上午，中国海洋大学发布讣告，中国科学院院士、著名物理海洋学家、该校教授文圣常，因病医治无效，于3月20日15时37分在山东青岛逝世，享年101岁。

넶253 2022-03-21

会议活动

南京人工智能大会圆满收官！科技浪潮再掀新篇章！

来源：蜂耘网
智领风潮，智汇未来。6月27日，南京人工智能产业生态大会圆满落下帷幕。

넶85 2024-06-28
苏州人工智能大会圆满成功：科技智慧相互交融共绘AI新蓝图

来源：蜂耘网
2024年6月26日，蜂耘网主办的苏州人工智能产业生态大会如期举行。

넶96 2024-06-27
南京人工智能大会即将召开！汇聚业界智慧共探AI无限可能

来源：蜂耘网
南京人工智能大会计划于6月27日在南京举行，大会以“产业变革，抓住机遇”为主题，共同探讨人工智能产业的最新技术、新的应用场景以及未来的发展趋势等问题。

넶78 2024-06-18

微信公众号

相关新闻

AI训练数据之困：垃圾进，垃圾出

全部评论 (0)

一文了解查理·芒格：为什么他是巴菲特最推崇的人

面壁者，拉里·佩奇

百岁中科院院士文圣常逝世！被誉为我国海浪研究的“点灯人”

南京人工智能大会圆满收官！科技浪潮再掀新篇章！

苏州人工智能大会圆满成功：科技智慧相互交融 共绘AI新蓝图

南京人工智能大会即将召开！汇聚业界智慧 共探AI无限可能

苏州人工智能大会圆满成功：科技智慧相互交融共绘AI新蓝图

南京人工智能大会即将召开！汇聚业界智慧共探AI无限可能