科技行业资讯门户

广告

广告

广告

广告

广告

如何“选”大模型?《通用大模型评测标准》隆重发布

【蜂耘网  人工智能】近日在2024中国移动全球合作伙伴大会期间,中国移动携手工信部中国电子技术标准化研究院、中国电信、国家电网、中国石油、科大讯飞等产业各方共同发布了《通用大模型评测标准》。

          

img1

          

根据《全球数字经济白皮书(2024年)》,全球人工智能大模型有1328个。随着科技的发展,市场上的大模型未来只会越来越多,那么众多AI大模型究竟该如何选,就需要一个标准。

          

所以,从某种意义上讲,《通用大模型评测标准》的发布为遴选优质AI大模型提供重要参考依据。

          

《通用大模型评测标准》,以国家标准《人工智能 大模型 第2部分:评测指标与方法》(计划号20231746-T-469)为重要参考,该标准内容基于“2-4-6”框架。

          

“2”代表两类评测视角,以重点行业实际使用需求为导向,评测任务划分为理解和生成两类视角。

          

理解(基础任务):文本分类、情感分类、图像分类、语音识别、语音合成、目标检测、图像分割、人脸识别等。

          

生成(应用任务):文章创作、智能客服、常识问答、代码生成、图像生成、音乐生成、智能推荐、法律资讯等。

          

“4”代表四类评测要素,从评测全生命周期中提取出评测工具、评测数据、评测方式和评测指标四类关键要素,确保评测工作可实施性。

          

img2

          

“6”代表六大评测维度,综合考虑大模型应用过程中的核心能力,设定功能性、准确性、可靠性、安全性、交互性和应用性六大维度,细分领域涉及很多。   

          

功能性:任务丰富度、支持完备度。

          

准确性:准确率。

          

可靠性:抗噪声、抗攻击性、泛用性、不确定性。

          

安全性:文本毒性、内容公平、社会偏见、隐私版权。

          

交互性:推理时延、流畅规范、语法语义、丰富连续。

          

应用型:系统稳定性、可拓展性、推理能效、系统兼容性。

          

大模型评测是AI应用的重要一环,《通用大模型评测标准》综合多方面因素,将为AI大模型的评测提供客观依据。

          

AI大模型因为能力维度比较多,再加上企业自身的需求也存在比较大差别,因此像《通用大模型评测标准》这样的统一标准比较少。

              

img3

          

那么除了《通用大模型评测标准》我们还可以怎么评测AI大模型呢?可以通过一些评测基准,我们来盘点下。

          

1、参数大小。

          

大模型的参数大小指的是模型中所有可学习参数的数量,比如比如 Qwen2-7B,后面的数字 7B 代表了这个模型的参数规模,B 为十亿。也就说,这是一个具有 10 亿级别大小参数的模型。

              

img4

          

2、MMLU

          

MMLU用于评估模型在多种自然语言处理任务上的能力。该评测基准结合了数学、物理、历史、法律、医学和伦理学等57个科⽬测试集,涉及的任务既有基本的语言理解问题,也有需要深入推理和问题解决能力的高级任务。

          

img5

          

3、CEval

          

CEval包含13948个多项选择题,涵盖了52个不同的学科和四个难度级别,覆盖人文,社科,理工,其他专业四个大方向,旨在评估和测试大模型在多个学科领域的知识和理解能力。   

          

img6

          

4、AGI Eval

          

主要评测大模型在人类认知和解决问题的一般能力。

          

img7

          

5、GSM8K

          

GSM8K包含约8,000个科学和数学问题,涵盖了从基础算术到高等数学和物理等多个领域。   

          

img8

          

6、MATH

          

 MATH是一个包含 12,500 个具有挑战性的竞赛数学问题的新数据集。MATH 中的每个问题都有完整的分步解决方案。

          

img9

          

7、BBH

          

BBH是BIG Bench的一个子集,它是一个用于语言模型的多样化评估套件。BBH专注于BIG Bench的23项具有挑战性的任务,这些任务被发现超出了当前语言模型的能力。   

          

img10

          

8、MT Bench

          

MT Bench评估大模型的多轮对话和指令追随能力,数据集包括80个高质量且多轮对话的问题。

          

img11

          

通过这些评估标准,我们可以从不同角度系统地评估大模型的性能、泛化能力和鲁棒性。

          

总体而言,评测基准对于推动大模型的发展和应用具有重要意义,它们可以帮助研究人员和开发者了解模型的强项和弱点,从而指导进一步的模型设计和优化。同时,这些基准也有助于用户选择合适的模型来解决特定问题。 

 

(蜂耘人工智能网  责任编辑:梅子)

2024-10-21 16:06

广告

来源:蜂耘网
近日在2024中国移动全球合作伙伴大会期间,中国移动携手工信部中国电子技术标准化研究院、中国电信、国家电网、中国石油、科大讯飞等产业各方共同发布了《通用大模型评测标准》。

声明:凡来源标明“蜂耘网”的文章版权均为本站所有,如需转载请务必注明出处,违者本网将追究相关法律责任;所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息,均不代表本网立场及观点,“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任;如涉及版权等问题,请在内容发表之日起一周内与本网联系,否则视为放弃相关权利。

所有评论仅代表网友意见,与本站立场无关

最新资讯

推荐阅读

热门排行

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

  • 一文了解查理·芒格:为什么他是巴菲特最推崇的人

    来源:
    ①巴菲特写道,“如果没有查理的灵感、智慧和参与,伯克希尔-哈撒韦公司不可能发展到今天的地位”;
    ②芒格曾表示,“如果世上未曾有过查理·芒格这个人,巴菲特的业绩依然会像现在这么漂亮 ”
    ③两周前,芒格还公开在节目中维护93岁的老友巴菲特。

    124 2023-11-29
  • 面壁者,拉里·佩奇

    来源:中欧商业评论
    这两年,硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦,这为他的公司引来了铺天盖地的负面新闻,然而,他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

    241 2022-06-15
  • 百岁中科院院士文圣常逝世!被誉为我国海浪研究的“点灯人”

    来源:南方都市报
     3月21日上午,中国海洋大学发布讣告,中国科学院院士、著名物理海洋学家、该校教授文圣常,因病医治无效,于3月20日15时37分在山东青岛逝世,享年101岁。

    283 2022-03-21

会议活动

微信公众号

广告

相关新闻