2GB 内存就能跑 ChatGPT！这个国产「小钢炮」，要让华为 OV 们的 AI 体验突破瓶颈

【蜂耘网人工智能】在这波 AI 浪潮中，面壁智能是国内少有选择 All In 端侧模型的头部大模型厂商。

自从面壁智能 2 月份发布性能小钢炮 1.0 后，接连几月陆续迭代升级，其中后续推出的开源模型 MiniCPM-Llama3-V 2.5 更是因为强悍的实力遭到了斯坦福 AI 团队的抄袭。

四月份，面壁智能 CTO 曾国洋还曾预言，GPT-3.5 级别的模型将在一两年内就能在移动设备上运行。

好消息是，不用再等一到两年了，因为今天发布的 MiniCPM 3.0 实现了初代小钢炮发布时立下的 Flag：今年内让 GPT-3.5 水平的模型在端侧跑起来。

仅 4B 参数，以小博大，性能超越 GPT-3.5，MiniCPM 3.0 也标志着「端侧 ChatGPT」时刻的到来。

简单来说就是，MiniCPM 3.0 的面世意味着用户未来能体验到快速、安全、且功能丰富的本地 AI 服务，无需依赖云端处理，以及获得更流畅、更私密的智能交互体验。

从官方分享的基准测试来看，MiniCPM 3.0 在 CMMLU、CEVAL 等考究中文能力的基准测试中一骑绝尘，轻松碾压 Phi-3.5、以及 GPT-3.5 等模型。

而即便是对上了 8B、9B 等国内优秀的大模型，MiniCPM 3.0 的表现同样相当出众。

简单总结一下 MiniCPM 3.0 的特点：

无限长文本，榜单性能超越 Kimi

端侧最强 Function call，性能比肩 GPT-4o

超强的 RAG 外挂三件套，中文检索、中英跨语言第一

无限长文本，性能超越 Kimi

小而强、小而全，或许是 MiniCPM 3.0 最贴切的形容词。

上下文长度是衡量大模型基础能力的一项重要特性，更长的上下文长度意味着模型能够存储和回忆更多的信息，从而有助于模型更准确地理解和生成语言。

举例来说，更长的上下文长度能够让一个 AI 写作工具根据用户之前写的内容提供更相关的建议，或者根据更多的背景信息创作出更复杂、更引人入胜的故事。

为此，面壁提出了 LLMxMapReduce 长本文分帧处理技术。

这是一种通过将长上下文切分为多个片段，让模型并行处理，并从不同片段中提取关键信息，汇总最终答案，实现无限长文本。

据悉，这一技术普遍增强了模型处理长文本的能力，且在文本不断加长的情况，仍保持稳定性能、减少长文本随加长掉分情况。

▲ LLMxMapReduce 技术框架图

从 32K 到 512K，MiniCPM 3.0 能够打破大模型记忆的限制，将上下文长度无限稳定拓展，用面壁官方的话来说就是「想多长就多长」。

从大模型长文本的基准测试 InfiniteBench 结果来看，随着文本长度的增加，4B 参数的 MiniCPM 3.0 的性能优势反而愈发明显。

InfiniteBench Zh.QA 评测结果显示，4B 参数的 MiniCPM 3.0 整体性能优于 Kimi，在更长的文本上显示出相对更强的稳定性。

端侧最强 Function call，性能比肩 GPT-4o

在接受 APPSO 等媒体的采访时，曾国洋也表示，MiniCPM 3.0 针对用户关注的一些能力进行了提升，比如加入了完整的 system prompt Function Calling 和 code interpreter 等能力。

其中 Function Calling（函数调用）能够将用户模糊化的输入语义转换为机器可以精确理解执行的结构化指令，并让大模型连接外部工具和系统。

具体来说，通过语音在手机上调用日历、天气、邮件、浏览器等 APP 或相册、文件等本地数据库，从而打开终端设备 Agent 应用的无限可能，也让人机交互更加自然和方便。

据介绍，MiniCPM 3.0 宣称拥有端侧最强 Function Calling 性能，在 Berkeley Function-Calling Leaderboard 榜单上，其性能接近 GPT-4o，并超越 Llama 3.1-8B、Qwen-2-7B、GLM-4-9B 等众多模型。

曾国洋表示，现有的开源模型在这些能力上的覆盖并不全面，通常只有一些云端的大型模型能够完全覆盖这些能力。现在，MiniCPM 3.0 也实现了一些相应的功能。

以 RAG（检索增强生成）为例，这是一种结合了信息检索（IR）和自然语言生成（NLG）的技术。

它通过从大规模文档库中检索相关信息来指导文本的生成过程，能够提升模型在回答问题、生成文本等任务中的准确性和可靠性，减少大模型的幻觉问题。

对于法律、医疗等依赖专业知识库、对大模型幻觉容忍度极低的垂直行业来说，大模型+RAG 在行业中尤其实用。

MiniCPM 3.0 一口气上线了 RAG 三件套：检索模型，重排序模型和面向 RAG 场景的 LoRA 插件。

MiniCPM-Embedding（检索模型）中英跨语言检索取得 SOTA 性能，在评估模型文本嵌入能力的 MTEB 的检索榜单上中文第一、英文第十三。

MiniCPM-Reranker（重排序模型）在中文、英文、中英跨语言测试上取得 SOTA 性能。

经过针对 RAG 场景的 LoRA 训练后，MiniCPM 3.0-RAG-LoRA 在开放域问答（NQ、TQA、MARCO）、多跳问答（HotpotQA）、对话（WoW）、事实核查（FEVER）和信息填充（T-REx）等多项任务上的性能表现，超越 Llama3-8B 和 Baichuan2-13B 等业内优秀模型。

模型应用落地，先跑起来再说

在接受 APPSO 等媒体的采访时，面壁智能 CEO 李大海提到，能跑起来和真正流畅地去做应用是两个不同的概念。

而经过优化后的 MiniCPM 3.0 对端侧设备的资源需求很低，量化后仅需 2.2 G 内存，iPad 端侧推理也能达到 18-20 tokens/s。

对于 iPad 这样的移动设备来说，每秒能够处理 18-20 个 token 的速度已经意味着模型能够实时处理自然语言输入。

比如在语音识别或实时翻译应用中，用户基本不会感受到明显的延迟，享受到相对流畅的交互体验。

另外，相较于云端模型，作为端侧模型的面壁小钢炮 MiniCPM 系列模型还天然具有弱网、断网可用、超低时延、数据隐私安全等本地优势。

在贡嘎雪山附近游玩时，想知道欣赏「日照金山」的最佳姿势，网络不佳的你可以向 MiniCPM 3.0 发出提问。

又或者，如果你是「赶海」的新人，站在波涛汹涌的海岸边，却想要满载而归，那不妨可以遵循 MiniCPM 3.0 给出的建议。当你抬头仰望夜空时，萌生了捕捉星轨的念头，MiniCPM 3.0 也能给你将拍摄的细节娓娓道来。

MiniCPM 小钢炮系列飞速进步的背后是一以贯之的高效大模型第一性原理。

面壁智能首席科学家刘知远曾提出一个大模型时代的「摩尔定律」，即大模型的知识密度平均每 8 个月将提升一倍。

知识密度=模型能力/参与计算的模型参数

具体来说，随着模型知识密度的持续增强，2020 年 GPT-3 175B 能力到 2024 年 MiniCPM 2.4B 模型即可达到，2022 年底 ChatGPT 首次亮相内置的 GPT-3.5 到 2024 年 MiniCPM 3.0 模型即可达到。

基于此，如果说 MiniCPM 追求的是极致端侧性能表现，那么 MiniCPM-V 追求的是极致多模态创新表现，面壁小钢炮的进步不是单方面的进步，而是端侧双旗舰的齐头并进。

经过一两年的技术摸索，AI 大模型正逐步进入落地应用的深水区。

李大海认为，大模型具有两个大方向的价值，一个方向的价值叫做升级旧世界，第二个方向的价值则是发现新大陆。

比如苹果整合 ChatGPT 服务到 Apple Intelligence 中便是一个典型的例证。

端侧模型也是如此，通过在手机、汽车还有 PC 这样的场景里面，更适合做的事情是去服务好终端的厂商，然后让终端厂商因为有了端侧模型，整个系统层级的体验也变得更好。

只不过，在技术到产品的惊险一跃中，厂商也需要投入大量时间来融合用户需求与技术。

正如李大海所言，尽管移动互联网自 iPhone 问世以来就已经存在，但真正大规模增长和被验证的应用确实是数年后才开始涌现。

实际上，面壁智能也一直在探索落地应用的场景。

此前，面壁小钢炮 MiniCPM 端侧模型已经在 PC、平板、手机等领域上实际运行。

前不久，面壁智能也在 WAIC 上联手加速进化机器人，打造出完整「具身智能」的先驱方案，这也是业界首个高效端侧模型运行在人形机器人的演示，理解、推理、并与物理世界互动的智能系统。

李大海也向 APPSO 等媒体剧透，预计在年底前将会有配备面壁智能端侧模型的产品上市。

简言之，面壁智能不断将高效高性能大模型放到离用户最近的地方，让大模型的能力像电力一样被随意调用、无处不在、普适且安全。

在这个过程，更多的人也能尽快地享受到大模型的价值和作用。

MiniCPM 3.0 开源地址：

GitHub:https://github.com/OpenBMB/MiniCPM

HuggingFace:https://huggingface.co/openbmb/MiniCPM3-4B

（蜂耘人工智能网责任编辑：行云）

2024-09-06 09:24

ꄴ前一个：无

ꄲ后一个：无

来源：爱范儿
在这波 AI 浪潮中，面壁智能是国内少有选择 All In 端侧模型的头部大模型厂商。

声明：凡来源标明“蜂耘网”的文章版权均为本站所有，如需转载请务必注明出处，违者本网将追究相关法律责任；所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息，均不代表本网立场及观点，“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任；如涉及版权等问题，请在内容发表之日起一周内与本网联系，否则视为放弃相关权利。

所有评论仅代表网友意见，与本站立场无关

跟帖用户自律公约

最新资讯

2025-01-15
智慧春运让旅客出行更从容
2025-01-15
中国无人机编队表演占全球市场92% 产业正向自动化智能化升级
2025-01-15
中国电子云可信数据空间解决方案发布
2025-01-15
盈普三维CEO 翟莲子：研发4激光大尺寸SLS 3D打印设备，加速技术革新与全球布局
2025-01-15
5G智能系统让塔吊司机告别高空作业
2025-01-15
《苏州市加快推动软件产业高质量发展的若干政策措施》发布

推荐阅读

热门排行

2022-08-25
全部下架！夸克这些羞羞资源，彻底凉了
2022-10-13
东莞市委副秘书长甘伟佳赴墨睿科技调研
2022-10-24
专职消防员新规征求意见：关于工资待遇、退出安置、岗位编制、社会优待等政策
2022-10-18
中交集团粤港澳区域总部与科大讯飞签署战略合作框架协议
2022-09-30
概述：钛铝合金粉末生产工艺及3D打印应用
2023-03-29
公安部印发《加强新时代公安派出所工作三年行动计划（2023-2025年）》
2022-10-25
二十大报告：打造宜居、韧性、智慧城市
2022-11-17
实现全球磁场测量我国自主研发量子磁力仪载荷首次建功

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

一文了解查理·芒格：为什么他是巴菲特最推崇的人

来源：
①巴菲特写道，“如果没有查理的灵感、智慧和参与，伯克希尔-哈撒韦公司不可能发展到今天的地位”；
②芒格曾表示，“如果世上未曾有过查理·芒格这个人，巴菲特的业绩依然会像现在这么漂亮 ”
③两周前，芒格还公开在节目中维护93岁的老友巴菲特。

넶168 2023-11-29
面壁者，拉里·佩奇

来源：中欧商业评论
这两年，硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦，这为他的公司引来了铺天盖地的负面新闻，然而，他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

넶287 2022-06-15
百岁中科院院士文圣常逝世！被誉为我国海浪研究的“点灯人”

来源：南方都市报
3月21日上午，中国海洋大学发布讣告，中国科学院院士、著名物理海洋学家、该校教授文圣常，因病医治无效，于3月20日15时37分在山东青岛逝世，享年101岁。

넶324 2022-03-21

会议活动

南京人工智能大会圆满收官！科技浪潮再掀新篇章！

来源：蜂耘网
智领风潮，智汇未来。6月27日，南京人工智能产业生态大会圆满落下帷幕。

넶184 2024-06-28
苏州人工智能大会圆满成功：科技智慧相互交融共绘AI新蓝图

来源：蜂耘网
2024年6月26日，蜂耘网主办的苏州人工智能产业生态大会如期举行。

넶193 2024-06-27
南京人工智能大会即将召开！汇聚业界智慧共探AI无限可能

来源：蜂耘网
南京人工智能大会计划于6月27日在南京举行，大会以“产业变革，抓住机遇”为主题，共同探讨人工智能产业的最新技术、新的应用场景以及未来的发展趋势等问题。

넶162 2024-06-18