如何“选”大模型?《通用大模型评测标准》隆重发布
【蜂耘网 人工智能】近日在2024中国移动全球合作伙伴大会期间,中国移动携手工信部中国电子技术标准化研究院、中国电信、国家电网、中国石油、科大讯飞等产业各方共同发布了《通用大模型评测标准》。
根据《全球数字经济白皮书(2024年)》,全球人工智能大模型有1328个。随着科技的发展,市场上的大模型未来只会越来越多,那么众多AI大模型究竟该如何选,就需要一个标准。
所以,从某种意义上讲,《通用大模型评测标准》的发布为遴选优质AI大模型提供重要参考依据。
《通用大模型评测标准》,以国家标准《人工智能 大模型 第2部分:评测指标与方法》(计划号20231746-T-469)为重要参考,该标准内容基于“2-4-6”框架。
“2”代表两类评测视角,以重点行业实际使用需求为导向,评测任务划分为理解和生成两类视角。
理解(基础任务):文本分类、情感分类、图像分类、语音识别、语音合成、目标检测、图像分割、人脸识别等。
生成(应用任务):文章创作、智能客服、常识问答、代码生成、图像生成、音乐生成、智能推荐、法律资讯等。
“4”代表四类评测要素,从评测全生命周期中提取出评测工具、评测数据、评测方式和评测指标四类关键要素,确保评测工作可实施性。
“6”代表六大评测维度,综合考虑大模型应用过程中的核心能力,设定功能性、准确性、可靠性、安全性、交互性和应用性六大维度,细分领域涉及很多。
功能性:任务丰富度、支持完备度。
准确性:准确率。
可靠性:抗噪声、抗攻击性、泛用性、不确定性。
安全性:文本毒性、内容公平、社会偏见、隐私版权。
交互性:推理时延、流畅规范、语法语义、丰富连续。
应用型:系统稳定性、可拓展性、推理能效、系统兼容性。
大模型评测是AI应用的重要一环,《通用大模型评测标准》综合多方面因素,将为AI大模型的评测提供客观依据。
AI大模型因为能力维度比较多,再加上企业自身的需求也存在比较大差别,因此像《通用大模型评测标准》这样的统一标准比较少。
那么除了《通用大模型评测标准》我们还可以怎么评测AI大模型呢?可以通过一些评测基准,我们来盘点下。
1、参数大小。
大模型的参数大小指的是模型中所有可学习参数的数量,比如比如 Qwen2-7B,后面的数字 7B 代表了这个模型的参数规模,B 为十亿。也就说,这是一个具有 10 亿级别大小参数的模型。
2、MMLU
MMLU用于评估模型在多种自然语言处理任务上的能力。该评测基准结合了数学、物理、历史、法律、医学和伦理学等57个科⽬测试集,涉及的任务既有基本的语言理解问题,也有需要深入推理和问题解决能力的高级任务。
3、CEval
CEval包含13948个多项选择题,涵盖了52个不同的学科和四个难度级别,覆盖人文,社科,理工,其他专业四个大方向,旨在评估和测试大模型在多个学科领域的知识和理解能力。
4、AGI Eval
主要评测大模型在人类认知和解决问题的一般能力。
5、GSM8K
GSM8K包含约8,000个科学和数学问题,涵盖了从基础算术到高等数学和物理等多个领域。
6、MATH
MATH是一个包含 12,500 个具有挑战性的竞赛数学问题的新数据集。MATH 中的每个问题都有完整的分步解决方案。
7、BBH
BBH是BIG Bench的一个子集,它是一个用于语言模型的多样化评估套件。BBH专注于BIG Bench的23项具有挑战性的任务,这些任务被发现超出了当前语言模型的能力。
8、MT Bench
MT Bench评估大模型的多轮对话和指令追随能力,数据集包括80个高质量且多轮对话的问题。
通过这些评估标准,我们可以从不同角度系统地评估大模型的性能、泛化能力和鲁棒性。
总体而言,评测基准对于推动大模型的发展和应用具有重要意义,它们可以帮助研究人员和开发者了解模型的强项和弱点,从而指导进一步的模型设计和优化。同时,这些基准也有助于用户选择合适的模型来解决特定问题。
(蜂耘人工智能网 责任编辑:梅子)
近日在2024中国移动全球合作伙伴大会期间,中国移动携手工信部中国电子技术标准化研究院、中国电信、国家电网、中国石油、科大讯飞等产业各方共同发布了《通用大模型评测标准》。
- 2024-10-21
- 2024-10-21
- 2024-10-21
- 2024-10-21
- 2024-10-21
- 2024-10-21
- 2022-08-25
- 2022-10-13
- 2022-10-24
- 2022-09-30
- 2022-10-18
- 2023-03-29
- 2022-11-17
- 2022-10-25
-
一文了解查理·芒格:为什么他是巴菲特最推崇的人
来源:
①巴菲特写道,“如果没有查理的灵感、智慧和参与,伯克希尔-哈撒韦公司不可能发展到今天的地位”;
②芒格曾表示,“如果世上未曾有过查理·芒格这个人,巴菲特的业绩依然会像现在这么漂亮 ”
③两周前,芒格还公开在节目中维护93岁的老友巴菲特。넶124 2023-11-29 -
面壁者,拉里·佩奇
来源:中欧商业评论
这两年,硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦,这为他的公司引来了铺天盖地的负面新闻,然而,他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。넶241 2022-06-15 -
百岁中科院院士文圣常逝世!被誉为我国海浪研究的“点灯人”
来源:南方都市报
3月21日上午,中国海洋大学发布讣告,中国科学院院士、著名物理海洋学家、该校教授文圣常,因病医治无效,于3月20日15时37分在山东青岛逝世,享年101岁。넶283 2022-03-21
-
-
-
南京人工智能大会即将召开!汇聚业界智慧 共探AI无限可能
来源:蜂耘网
南京人工智能大会计划于6月27日在南京举行,大会以“产业变革,抓住机遇”为主题,共同探讨人工智能产业的最新技术、新的应用场景以及未来的发展趋势等问题。넶114 2024-06-18
- 2024-10-21
- 2024-10-21
- 2024-10-21
- 2024-10-21
- 2024-10-21
- 2024-10-21
- 2024-10-21
- 2024-10-21
- 2024-10-21
- 2024-10-21
- 2024-10-21
- 2024-10-21