如何“选”大模型？《通用大模型评测标准》隆重发布

【蜂耘网人工智能】近日在2024中国移动全球合作伙伴大会期间，中国移动携手工信部中国电子技术标准化研究院、中国电信、国家电网、中国石油、科大讯飞等产业各方共同发布了《通用大模型评测标准》。

根据《全球数字经济白皮书（2024年）》，全球人工智能大模型有1328个。随着科技的发展，市场上的大模型未来只会越来越多，那么众多AI大模型究竟该如何选，就需要一个标准。

所以，从某种意义上讲，《通用大模型评测标准》的发布为遴选优质AI大模型提供重要参考依据。

《通用大模型评测标准》，以国家标准《人工智能大模型第2部分：评测指标与方法》（计划号20231746-T-469）为重要参考，该标准内容基于“2-4-6”框架。

“2”代表两类评测视角，以重点行业实际使用需求为导向，评测任务划分为理解和生成两类视角。

理解（基础任务）：文本分类、情感分类、图像分类、语音识别、语音合成、目标检测、图像分割、人脸识别等。

生成（应用任务）：文章创作、智能客服、常识问答、代码生成、图像生成、音乐生成、智能推荐、法律资讯等。

“4”代表四类评测要素，从评测全生命周期中提取出评测工具、评测数据、评测方式和评测指标四类关键要素，确保评测工作可实施性。

“6”代表六大评测维度，综合考虑大模型应用过程中的核心能力，设定功能性、准确性、可靠性、安全性、交互性和应用性六大维度，细分领域涉及很多。

功能性：任务丰富度、支持完备度。

准确性：准确率。

可靠性：抗噪声、抗攻击性、泛用性、不确定性。

安全性：文本毒性、内容公平、社会偏见、隐私版权。

交互性：推理时延、流畅规范、语法语义、丰富连续。

应用型：系统稳定性、可拓展性、推理能效、系统兼容性。

大模型评测是AI应用的重要一环，《通用大模型评测标准》综合多方面因素，将为AI大模型的评测提供客观依据。

AI大模型因为能力维度比较多，再加上企业自身的需求也存在比较大差别，因此像《通用大模型评测标准》这样的统一标准比较少。

那么除了《通用大模型评测标准》我们还可以怎么评测AI大模型呢？可以通过一些评测基准，我们来盘点下。

1、参数大小。

大模型的参数大小指的是模型中所有可学习参数的数量，比如比如 Qwen2-7B，后面的数字 7B 代表了这个模型的参数规模，B 为十亿。也就说，这是一个具有 10 亿级别大小参数的模型。

2、MMLU

MMLU用于评估模型在多种自然语言处理任务上的能力。该评测基准结合了数学、物理、历史、法律、医学和伦理学等57个科⽬测试集，涉及的任务既有基本的语言理解问题，也有需要深入推理和问题解决能力的高级任务。

3、CEval

CEval包含13948个多项选择题，涵盖了52个不同的学科和四个难度级别，覆盖人文，社科，理工，其他专业四个大方向，旨在评估和测试大模型在多个学科领域的知识和理解能力。

4、AGI Eval

主要评测大模型在人类认知和解决问题的一般能力。

5、GSM8K

GSM8K包含约8,000个科学和数学问题，涵盖了从基础算术到高等数学和物理等多个领域。

6、MATH

MATH是一个包含 12,500 个具有挑战性的竞赛数学问题的新数据集。MATH 中的每个问题都有完整的分步解决方案。

7、BBH

BBH是BIG Bench的一个子集，它是一个用于语言模型的多样化评估套件。BBH专注于BIG Bench的23项具有挑战性的任务，这些任务被发现超出了当前语言模型的能力。

8、MT Bench

MT Bench评估大模型的多轮对话和指令追随能力，数据集包括80个高质量且多轮对话的问题。

通过这些评估标准，我们可以从不同角度系统地评估大模型的性能、泛化能力和鲁棒性。

总体而言，评测基准对于推动大模型的发展和应用具有重要意义，它们可以帮助研究人员和开发者了解模型的强项和弱点，从而指导进一步的模型设计和优化。同时，这些基准也有助于用户选择合适的模型来解决特定问题。

（蜂耘人工智能网责任编辑：梅子）

2024-10-21 16:06

ꄴ前一个：无

ꄲ后一个：无

0/400

发表

全部评论 (0)

来源：蜂耘网
近日在2024中国移动全球合作伙伴大会期间，中国移动携手工信部中国电子技术标准化研究院、中国电信、国家电网、中国石油、科大讯飞等产业各方共同发布了《通用大模型评测标准》。

声明：凡来源标明“蜂耘网”的文章版权均为本站所有，如需转载请务必注明出处，违者本网将追究相关法律责任；所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息，均不代表本网立场及观点，“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任；如涉及版权等问题，请在内容发表之日起一周内与本网联系，否则视为放弃相关权利。

所有评论仅代表网友意见，与本站立场无关

跟帖用户自律公约

最新资讯

推荐阅读

热门排行

2022-08-25
全部下架！夸克这些羞羞资源，彻底凉了
2022-10-13
东莞市委副秘书长甘伟佳赴墨睿科技调研
2022-10-24
专职消防员新规征求意见：关于工资待遇、退出安置、岗位编制、社会优待等政策
2023-09-01
如何识别出由AI生成的的图像？这几个办法了解下
2022-10-18
中交集团粤港澳区域总部与科大讯飞签署战略合作框架协议
2022-09-30
概述：钛铝合金粉末生产工艺及3D打印应用
2023-03-29
公安部印发《加强新时代公安派出所工作三年行动计划（2023-2025年）》
2022-10-25
二十大报告：打造宜居、韧性、智慧城市

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

坚定扛牢“走在前、挑大梁”的使命担当（权威访谈·谋发展启新篇）

来源：人民日报
2024年，山东经济社会高质量发展取得积极成效。新的一年，作为经济大省的山东如何坚定扛牢“走在前、挑大梁”的使命担当？如何全面贯彻落实中央经济工作会议精神，奋力推动经济社会高质量发展？记者采访了山东省委书记林武。

넶60 2025-01-21
一文了解查理·芒格：为什么他是巴菲特最推崇的人

来源：
①巴菲特写道，“如果没有查理的灵感、智慧和参与，伯克希尔-哈撒韦公司不可能发展到今天的地位”；
②芒格曾表示，“如果世上未曾有过查理·芒格这个人，巴菲特的业绩依然会像现在这么漂亮 ”
③两周前，芒格还公开在节目中维护93岁的老友巴菲特。

넶220 2023-11-29
面壁者，拉里·佩奇

来源：中欧商业评论
这两年，硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦，这为他的公司引来了铺天盖地的负面新闻，然而，他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

넶345 2022-06-15

会议活动

2025人工智能产业生态大会五城联动丨即将登陆北上广深杭五大核心城市

来源：蜂耘网
在全球化竞争加剧、科技博弈白热化的时代背景下，中国人工智能产业正以自主创新的姿态强势突围。

넶17 2025-06-12
蜂耘网直击双展：解码深圳AI与无人机的未来图景

来源：蜂耘网
5月22日至5月25日，深圳会展中心（福田）迎来了两场行业展会。蜂耘网记者深入现场，探访AI与低空经济如何重塑未来生活与产业格局。

넶10 2025-05-27
4月23日丨苏州人工智能产业生态大会即将启幕，行业大咖论剑技术突围与生态共建

来源：蜂耘网
以蜂耘网为代表的科技平台责无旁贷地肩负起推动中国人工智能产业高质量发展的使命，将于4月23日举办苏州人工智能产业生态大会。

넶66 2025-04-03

微信公众号

相关新闻

如何“选”大模型？《通用大模型评测标准》隆重发布

全部评论 (0)

坚定扛牢“走在前、挑大梁”的使命担当（权威访谈·谋发展 启新篇）

一文了解查理·芒格：为什么他是巴菲特最推崇的人

面壁者，拉里·佩奇

2025人工智能产业生态大会五城联动丨即将登陆北上广深杭五大核心城市

蜂耘网直击双展：解码深圳AI与无人机的未来图景

4月23日丨苏州人工智能产业生态大会即将启幕，行业大咖论剑技术突围与生态共建

坚定扛牢“走在前、挑大梁”的使命担当（权威访谈·谋发展启新篇）