AI世界的新难题:互联网的信息不够用了!
【蜂耘网 人工智能】据媒体报道,随着OpenAI、Google等企业不断深入发展AI技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们训练更先进的AI系统。
科技巨头的AI系统,比如能与人类聊天的ChatGPT,是通过学习网上的信息变得越来越聪明的。但现在,高质量、有用的信息日益紧缺,同时,一些网站开始限制AI公司访问他们的数据。据业界一些高管和研究人员表示,AI行业对高质量文本数据的需求可能在两年内超过供应,这将可能减缓AI技术的发展速度。
面对信息不足的问题,AI公司正在尝试各种方法来寻找新的信息源。比如OpenAI正在考虑用YouTube视频里的对话来训练它们的下一代智能模型GPT-5。有的公司甚至创造合成数据来学习,尽管这种方法被许多研究人员认为可能会导致系统发生严重故障,但不失为克服数据短缺的一种潜在途径。
据悉,这些努力大多保密进行,因为找到有效的解决方案可能成为企业在激烈竞争中的关键优势。随着数据需求不断增长,找到新的学习材料、与数据所有者的合作,让AI系统变得更加聪明,就成了这个行业的重要备战区。
OpenAI的GPT-5面临10万亿到20万亿tokens的数据短缺
AI语言模型的构建依赖于从互联网上收集的大量文本数据,这些数据包括科学研究、新闻文章、维基百科条目等。这些材料被分解成“tokens”,tokens可以是完整的单词或单词的一部分。AI模型通过分析和理解这些tokens之间的关系和模式,学会了如何生成流畅、自然的语言,从而能够回答问题、撰写文章甚至创作诗歌。
模型的能力在很大程度上取决于它训练的数据量。通常情况下,数据越多,模型的性能就越好,因为它有更多的例子来学习不同的语言用法和复杂性。
OpenAI通过为其GPT系列模型提供海量训练数据,不断提升性能,借此成为世界顶尖AI公司。这展示了大数据训练对于AI发展的重要性。
但是,随着GPT-4模型的不断扩大,OpenAI对数据的需求也在急剧增长。Epoch研究所的AI研究员Pablo Villalobos估计,GPT-4训练涉及的数据量高达12万亿tokens,而未来模型,如GPT-5,可能需要60万亿到100万亿tokens。因此,即便是利用所有可用的高质量语言和图像数据,研发GPT-5仍可能面临10万亿到20万亿tokens的数据短缺。至于如何弥补这一巨大的数据缺口,目前尚无明确方案。
据媒体报道,为应对数据短缺挑战,AI公司正在尝试各种方法来寻找新的信息源。Meta创始人扎克伯格近期强调,公司通过Facebook和Instagram等平台拥有的大量数据,为其AI研发提供了重要优势。扎克伯格表示,Meta能够利用网络上数以百亿计的公开共享图片和视频,这些数据的规模超过了大多数常用数据集,尽管其中高质量数据的比例尚不明确。
而OpenAI则考虑使用其自动语音识别工具Whisper转录的高质量视频和音频示例。此外,OpenAI还在考虑建立一个数据市场,以评估每个数据点对模型训练的贡献并据此向内容提供者支付费用,这一创新想法也引起了Google的关注。
Epoch研究所预测AI数据短缺危机将推迟至2028年
两年前,Villalobos和他的同事写道,到2024年年中,对高质量数据的需求超过供给的可能性为50%,到2026年发生这种情况的可能性为90%。自那以后,他们变得更加乐观,在AI研究员Pablo Villalobos及其团队的审慎评估下,新的预期显示,这种短缺风险将延迟至2028年。
这项乐观的更新基于对当前数据质量和可用性的深刻洞察。Villalobos指出,互联网上的绝大多数数据并不适合作为AI训练材料。在无尽的信息流中,只有一小部分数据(远低于先前预计)能对AI模型的增长和发展做出实质性贡献。
同时,各大社交媒体平台和新闻出版商已开始限制其数据被用于AI训练。他们担心如果数据被自由用于AI训练,可能导致内容创造者和平台本身失去应得的经济回报。
此外,普罗大众对于个人隐私的保护意识显著提升,许多人对于将私人对话如iMessage中的聊天记录提供给AI训练的意愿较低,人们可能担心他们的隐私可能会受到侵犯。
最近,一位女记者就OpenAI最新模型Sora的训练数据向CTO Murati提问时,Murati未能明确回答,这引发了业界对OpenAI管理层对于训练数据来源的关注度的质疑。这一事件触发了更广泛的讨论,关于公共领域数据的所有权问题——我们在网络上发布的内容,究竟是属于个人私密还是公共共享的资产?
因此,这些因素共同导致了数据获取的困境。随着用户和监管机构对数据使用的监控趋严,研究者们必须在保护隐私与数据采集之间找到新的均衡。
(蜂耘人工智能网 责任编辑:行云)
随着OpenAI、Google等企业不断深入发展AI技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们训练更先进的AI系统。
- 2024-04-30
- 2024-04-30
- 2024-04-30
- 2024-04-30
- 2024-04-30
- 2024-04-30
-
石墨烯应用新成果“落地”镇海!防腐新材料实现新突破
来源:镇海新闻
4月26日,镇海石墨烯产业应用又迎来一“新星”——致力于研发石墨烯改性重防腐涂料的宁波云涂新材料科技有限公司(以下简称“云涂新材”),在国家石墨烯创新中心研发设计中心(富邦园区)正式落地开业。作为国家石墨烯创新中心重点孵化项目之一,云涂新材的成立,也为镇海新质生产力的培育与突破,注入了来自石墨烯新材料的强劲动能。2024-04-30
-
广元:推动一批重大铝基新材料项目来广落户
30日,广元市人民政府新闻办公室召开了“2024年中国(广元)绿色铝产业发展大会新闻发布会”。在新闻发布会上,广元市人民政府副市长吴勇通报:由中国有色金属加工工业协会和广元市人民政府共同举办,以“拥抱绿色·铝创未来”为主题的“2024年中国(广元)绿色铝产业发展大会”将于5月9日至11日在该市举行。
2024-04-30
- 2022-08-25
- 2022-10-24
- 2022-10-13
- 2022-09-30
- 2022-10-18
- 2023-03-29
- 2022-11-17
- 2022-10-25
-
一文了解查理·芒格:为什么他是巴菲特最推崇的人
来源:
①巴菲特写道,“如果没有查理的灵感、智慧和参与,伯克希尔-哈撒韦公司不可能发展到今天的地位”;
②芒格曾表示,“如果世上未曾有过查理·芒格这个人,巴菲特的业绩依然会像现在这么漂亮 ”
③两周前,芒格还公开在节目中维护93岁的老友巴菲特。넶31 2023-11-29 -
面壁者,拉里·佩奇
来源:中欧商业评论
这两年,硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦,这为他的公司引来了铺天盖地的负面新闻,然而,他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。넶138 2022-06-15 -
百岁中科院院士文圣常逝世!被誉为我国海浪研究的“点灯人”
来源:南方都市报
3月21日上午,中国海洋大学发布讣告,中国科学院院士、著名物理海洋学家、该校教授文圣常,因病医治无效,于3月20日15时37分在山东青岛逝世,享年101岁。넶164 2022-03-21
-
2023人工智能产业生态峰会(深圳站)即将举行!
来源:蜂耘网
本届大会以“产业变革 · 抓住机遇”为主题,聚焦国内人工智能的最新技术理念与解决方案,邀请众多行业大咖、专家学者分享最新的研究成果、技术、解决方案、行业报告、未来发展趋势等。넶157 2023-07-04 -
物流“黑科技”全力竞发 中国(广州)国际物流装备与技术展览会5月强势来袭!
来源:蜂耘网
立足华南联通世界,物流“黑科技”全力竞发!中国(广州)国际物流装备与技术展览会5月强势来袭!넶80 2023-05-05 -
- 2024-04-30
- 2024-04-30
- 2024-04-30
- 2024-04-30
- 2024-04-30
- 2024-04-30
- 2024-04-30
- 2024-04-30
- 2024-04-30
- 2024-04-30
- 2024-04-30
- 2024-04-30