科技行业资讯门户

广告

广告

广告

广告

广告

大模型冲击人形机器人赛道的新故事

【蜂耘网  机器人】1978年北京,在早稻田大学加藤一郎举办的座谈会上,现场播放了一段WABOT-15机器人的影像。

 

这是世界上第一个全尺寸人形智能机器人。画面中,WABOT-15缓慢地抬起脚。它每迈一步需要45秒,仅10公分的步幅,约为成年人类六分之一,但依旧引起全场轰动。

 

四十五年后,位于合肥市的蔚来汽车生产车间内,一台优必选人形机器人Walker S正式进入工厂实地培训。Walker S身高近1.7米,外形上更接近人类,搭载41个伺服关节和多个感知系统。它对环境的感知更灵敏,动作也更灵活,已经开始替代部分工人完成工作。

 

过去数年,国内人形机器人领域技术几经发展迭代,无数科技公司投身其中,推动人形机器人自缓慢静态行走、连续动态行走、高动态运动,步入今天的产业化前夜。

 

根据国际机器人协会预测,2021年至2030年,全球人形机器人市场的年化复合增长率将达到71%;到2030年,其产业规模可达万亿美金左右,其中我国人形机器人市场规模有望达到8700亿元。

 

很长一段时间里,工业机器人都以传统协作臂形态存在,执行完成产线上的单点任务。人形机器人则处于全然不同的图景中。

 

它可以进行门锁质检、车灯盖、板检测、安全带检测、贴车标等工作,覆盖多个生产环节,同时还能与人类员工互相配合,完成汽车装配及质量检查作业。比如特斯拉所释出的擎天柱(Optimus)在自家工厂工作的视频中,擎天柱能重复拿取电池、放进电池槽中并将电池排列整齐。

 

而进入工厂只是第一步。“让人形机器人走进千家万户”,是这场叙事里所有人共同追求的终极目标。

 

img1

 

过去由于技术不成熟,机器人只能提供case by case服务,缺乏对复杂场景的认知能力,应用空间局限;同时在本体控制层,人形动作僵硬,需按照预设好的算法运行,不具备更智能的灵巧操作能力。

 

直至2023年,大模型席卷行业,给了人形机器人具身智能这一新转折,资本也闻风涌入。

 

赛迪研究院报告显示,2023年人形机器人领域共计发生投融资案例22起,包括宇树科技、银河通用、达闼机器人、智元机器人和逐际动力等融资金额均超过亿元;今年已发生投融资事件7起,金额最高的是宇树近10亿元的B2轮融资。

 

具身智能描摹出一个想象力十足的未来。大模型的加持无疑会大幅度提升机器人认知和决策能力。但市场对人形机器人的判断,出现了两类截然相反的声音。

 

一种认为下半年将会有企业率先跑进场景,人形机器人替代人类工作进程加速;另一种则认为,目前人形机器人的智能化还很早期,成本、效率问题未解,更遑论形成一套清晰的商业模式。

 

为此,36氪走访了数十位人形机器人从业者,希望通过本文来回答以下几个问题:

 

1、对比上一代技术路径,“新”的人形机器人企业其革命性体现在哪里?

 

2、从研究到产品化的过程中,有哪些比较关键的硬件成本?存在哪些挑战?

 

3、如何看待人形机器人要重点突破的场景?现在谈商业化是否为时过早?

 

大模型砸中机器人行业

 

以去年爆发的具身智能为分水岭,从2010年开始,可以将国内人形机器人技术路径划分为两个阶段。

 

第一阶段的技术路径围绕具体任务、从单个场景出发。这类人形机器人多以本体为基础,通过在本地改进算法、增加算力来增强机器人能力。先预设任务在场景中的执行边界,用户下发指令后,收集现有数据进行训练,于限定范围内穷举出能解决任务的多个算法,尽可能覆盖更多路径。

 

简单来说,当我们想让机器人倒咖啡、就设计一个倒咖啡的模型,想让机器人在工厂里拧螺丝、就设置一个拧螺丝的程序。

 

比如工业场景的搬运机器人,工程师会针对特定园区提前设置运输线路,机器人只需在固定路径上完成配送任务,灵活性低、但稳定性强;在多条路线的情况下,这些路径也可以用算法提前规划好。然而,机器人一旦脱离该地图所设定的任务,便无法运转。

 

因此,面对新场景和任务,人形机器人都需要重新收集数据训练、设定方案和测试,导致了极大的资源损耗。即使在生产中注入自动化属性,对人类劳动力的释放也十分有限。

 

但在新一轮人形机器人浪潮中,以具身智能为代表的技术路径更强调泛化性,追求多场景适配。大模型能解决多种任务,这一通用能力被引入到人形机器人之后,令人们第一次看到了机器人从单任务式交付到规模化应用的可能。

 

“一个具体的转变是,过去大家对机器人的要求是只需要定岗、提前把事项预编好,然后去执行就可以了。但人形机器人不是。人们希望它既能是个熟练的螺丝工、同时又具备质检等其他工作能力,可以灵活配置,最终替代工厂里的员工完成繁重、枯燥性工作,而不是替掉现有的重型机械臂、传送带等。”乐聚机器人副总裁柯真东告诉36氪。

 

场景能否差异化的决定性因素就是泛化的大脑。这源自两大能力提升:一是基于自然语言的理解能力。嵌入大模型交互后,机器人能听懂语言,理解人类需求,并将其分解为序列化指令、下发让机器人到目标地点执行任务。

 

第二是学习能力。非结构化的环境下,大模型加上多维传感器,能够学习、识辨并构建环节,在打穿mobile(移动)、pick(抓取)、place(搬运)三大基础能力之上,让人形机器人具备多场景作业的能力。

 

以银河通用的具身多模态小脑大模型为例。工作人员在后台下单一样药品、这是意图;而后双臂轮式机器人接收到指令,将其分解为具体的运动步骤。模型会先识别出药品、锁定其在货架上的位置,再伸出右臂吸盘抓取,由左臂两指夹放进篮筐内。

 

这一系列动作由感知模型和操作模型协同完成,全程无人工参与,当货架上发生药品摆放位置错误、倒放等状态时,机器人会掠过它们,直接抓取后排正确的药品。

 

“泛化性本质在于,任意场景、任意物体、任意情形下机器人mobile、pick、place都能成功。”北大-银河通用具身智能联合实验室主任王鹤向36氪指出。

 

可以看出,面对突发情况时,理想状态下的人形机器人能够结合先前经验学习并复制泛化。

 

采访中,多位关注人形机器人赛道的投资人普遍认为,“今天人形机器人公司的优势都属于阶段性长板,最终要形成自己的闭环,核心在于各家技术擅长点与想做的场景是否匹配、能否在场景中打通。”

 

在本体层,人形机器人泛化则体现为下肢形态的选择上。

 

人形机器人的上肢结构相对稳定,根据移动方式,下肢可大致分为两种,分别是以底盘为重心的轮式以及与人类相似的足式。

 

轮式机器人主要在平面、结构化道路上运动,如导购机器人、酒店配送机器人等。它的优势在于技术发展成熟,方向盘和轮子两个驱动,就可以完成前进、后退和转弯,底盘比较重、能够支撑机身稳定。

 

但其局限性也很明显,无法在楼梯、野外、狭窄通道、凹凸不平的地面等非结构化路面行走,对复杂地形的适应能力较差,应用场景有限。

 

对比之下,人形双足机器人在空间应用的通用性更强,末端控制自由度更高,面对复杂场景时,它可以通过及时调整双腿间重心来保持平衡,执行多种任务。这对机器人的控制能力提出了更高要求。捕捉到环境信息后,机器人的腿要适应不同地形,并能负重。

 

以野外行走为例,足式机器人需要先感知并理解周围的环境情况,是泥泞的土路还是颠簸的石子路、上下坡的地形等,这些信息往往是动态的。根据现场环境变动,足式机器人会自主规划新线路,并调整行走姿态和控制运动。

 

但目前,市场上暂时未出现一款真正达到智能水平的人形双足机器人产品,轮式机器人成为不少公司现阶段商业化的首选形态。例如1X的EVE轮式仿真机器人、银河通用的双臂+轮式仿生机器人、达闼机器人的Ginger系列人形服务云端机器人,还有可根据场景选配下肢是轮式或足式的戴盟Sparky 1人形机器人等。

 

“归根结底,双足人形机器人推动了整个驱动、特别是电机驱动产业的发展。但人类大部分工作场景都是在平面中完成的,例如办公室、工厂、购物中心等。”达闼机器人CEO黄晓庆告诉36氪,“匹配现阶段机器人智能水平的前提下,轮式已经可以覆盖很大一部分应用场景。”

 

人形机器人的本质是为了通用,在不同场景和任务下,将人类从危险系数大、重复枯燥的工作中释放出来。“我们要做的是尊重能力发展的规律,现阶段人形机器人哪方面能力是ready的,就完成多少工作。”王鹤说。

 

以银河通用轮式机器人Galbot为例。Galbot采用人形上肢加轮式的形态,由于轮式机器人无法实现下蹲、伸高等垂直空间移动,银河通用提出了可伸缩躯干,蹲下手臂可以摸到地面,完全站立可以摸高达2.4米,并向橱柜等内部结构伸入抓取,除特殊狭窄通道外,基本可以达到跟人类相同的活动和操作空间。

 

可以看到,具身智能从大脑层面增强了机器人对任务的理解能力、并进行逻辑推理,将人形机器人推向一个新台阶。而硬件本体层面,双足和轮式结构技术也逐渐成熟。软硬件两方面革新终让多场景泛化成为可能。

 

但人形机器人终究要从Demo视频跨入真实场景。目前最紧迫的难题便是如何从实验室走向规模化。

 

img2

 

硬件成本高、数据采集难

 

作为集AI技术、软件算法、运动控制、硬件结构等为一体的移动终端,人形机器人是目前公认的难度系数最高的产品。

 

与工业机器人和服务机器人相比,人形机器人的结构更复杂。比如,常见工业机器人的关节数量一般为2-10个,而人形机器人多超过40个,有近5000多个零部件,系统工程量极大,在硬件搭配、控制算法及核心零部件选择上都有差异。

 

当前,要让人形机器人真正走进场景得以应用,首先需要跨过这些硬件的成本大山。比如特斯拉擎天柱,仅丝杠关节的总价就高达16万元。

 

人形机器人核心零部件中,技术难度最高分别是减速器、伺服系统和控制器,占成本比例的60-70%。

 

当前关节所用的伺服电机主要从海外进口,安川、松下、三菱等日系厂商占据国内近50%市场,价格昂贵。

 

减速器方面,常见的方案分为行星减速器、谐波减速器,二者在结构、工作原理、应用领域以及优缺点上存在显著的区别。

 

其中,行星减速器的承载能力强、效率更高、成本低,力矩透明度较大,单级传动减速比小,多用于对精度要求相对不高的运动结构。

 

而谐波减速器的优势在于,它的体积较小、重量轻、传动精度更高,单级传动比大,但缺点是随着使用时间增长,柔轮易发生疲劳破坏,承载能力和使用寿命相比行星减速器较低,成本相对较高。

 

目前工业界还没有一个得到公认的减速器方案,“根据减速器性能和产品需求不同,考虑成本的选行星、做轻量化的选谐波,各家做各家的。”黄晓庆告诉36氪。

 

其他硬件方面,人形机器人所用到的控制器、传感器、电池系统等,和工业机器人和新能源车等领域有较大的重复性。通过复用部分传统制造业的供应链资源,国产硬件供应商具备很强的低成本、大规模量产能力,可有效降低人形机器人的整机成本。

 

除伺服电机等零部件外,当前人形机器人大型关节的国产化率为90%,小型关节国产化率更是达到95%以上。人形机器人成本开始有下探的迹象。

 

5月13日,宇树科技Unitree G1人形智能体在京东上架,售价9.9万元起,比特斯拉擎天柱喊出低于2万美元(折合人民币约14.5万)的价格便宜4.6万元,率先在人形机器人领域打响了价格战。

 

“基于过去在四足狗产品的经验,宇树的供应链能力上去了,在成本控制方面做得很好。Unitree G1人形智能体9.9万元的售价,也证明了其规模化生产的能力,对其他人形机器人企业来说是件好事。”某关注AI+机器人赛道的FA高宇说到。

 

即便如此,宇树人形机器人还没能满足市场对价格的预期。 据36氪了解,对比传统工业机器人一体化关节,由于人形机器人尚处在产品化早期,因此,大部分下游客户对成本非常敏感。

 

钛虎机器人联合创始人易港告诉36氪,“工业领域的客户对可承受的价格阈值更高,哪怕售价5000元、也有愿意付费的客户。但人形机器人客户大多只能接受1000-2000元的价格。”

 

人形机器人仍陷在客户不买账、量产难进而边际成本无法降低的矛盾中。

 

硬件行业的爆发最初会依靠一些资金雄厚的冒险者开局,但行业迈向商业化最终只能依靠规模量产后不断降低边际成本。

 

“要能把研发、开模以及其他加工费用摊薄,目前很多厂家愿意前期低价合作,做定制化开发。但要正儿八经有产线,得有一两家本体公司跑出来量后才有可能。” 柯真东表示。

 

当然,这是新行业启动时必然跋涉的路径。产业不断成熟,政府政策支持,大量社会资本与各种产业基金爆发性投入,会加速国内具有竞争优势的供应链形成。北航机器人研究所名誉所长、中关村智友研究院院长王田苗预测,人形机器人未来成本将下降至少50%。

 

根据《2024年中国人形机器人行业研究报告》,人形机器人按量产规模不同,降本大致可划分为三个阶段:小批量千台量级生产,降本20%-30%至约10万美元;万台级别降本50%至5万美元;数十万至百万台大规模量产,降本70%-80%至2-3万美元。

 

优必选副总裁、研究院执行院长焦继超告诉36氪,目前,优必选真人尺寸工业版人形机器人Walker S的成本大约为4-5万美元。

 

另一方面,训练数据采集的难度,是横亘在人形机器人规模化落地面前的第二座大山。

 

今年4月,特斯拉推出多模态大模型Grok-1.5v,利用端到端高速大模型FSD(Full-Self Driving,完全自动驾驶)推理,将足够多的用户数据清理干净后喂给模型,以解决自动驾驶边缘案例的在线迭代学习问题。

 

特斯拉擎天柱能在有限简单场景下进行自主作业,其核心依靠数据驱动:采集海量的优质数据,覆盖各类场景和物体,并通过具身智能提炼泛化能力。

 

目前,人形机器人公司对数据的需求可以分为三类。

 

第一,通过数据理解世界规律。例如,空间内存在桌子和杯子两个分离物体,把杯子从桌上拿走,可以转移放到另一张桌子上、也可能掉落摔碎。通过大量数据学习,让机器人理解任务意图。

 

第二,借助模拟数据学习逻辑推理和决策能力。机器人完成一项任务是由系列动作构成的。让机器人从货架上取一瓶牛奶,从什么角度去抓,纸壳包装和易拉罐装的力度等,过去并没有数据集可学习,但借助模拟环境,可以让机器人掌握各种抓取方法。

 

第三,真实场景的应用数据。比如让机器人将给iPhone手机充电,首先需要辨识手机充电口和各类数据线插头,经Sim-to-real transfer(模拟环境向真实世界迁移)掌握方法后,再通过Tele-operation(遥操作)方法完成。

 

三类数据侧重点不同会影响人形机器人的精度和成功率。例如谷歌和特斯拉的方案,均采用真实世界数据采集为主、持续优化Tele-operation。特斯拉的VR Tele-operation系统,可以第一视角操控人形机器人,看其所看、动起所动,当人的手臂摆动时,机器人也会跟着运动。这套系统被特斯拉应用在其碱电池工厂中。

 

“人形机器人最终落地是多种形态的,要提前做产业化布局,就意味着它需要提前进入场景迭代,获取数据、再不断地迭代,去适配场景的真实需求。”星动纪元联合创始人席悦向36氪如是说。

 

真实数据的增加有利于机器人提高智能水平。但要跨越鸿沟,真实数据需要提高多样性和质量,并非单纯数量堆砌。

 

举个例子,碱电池工厂的电池是固定的、外包装使用固定的盒子,在物体位置和环境相对固定的情况下,训练所得的数据与Imitation Learning(模仿学习)没太大差异,机器人的智能也并没有得到拓展和增加。

 

“在机器人领域,我们面临着海量未标注的异构行为大数据,这使得语义与数据的精准对齐变得异常困难,其中涉及语义歧义问题、模型幻觉的安全问题,以及标准化测试平台和使用安全的评价问题等。”王田苗在采访中向36氪指出。

 

优必选使用的训练数据中,由Tele-operation所收集的真实数据占20%,比如工具使用、工厂中的零件分拣等;像桌椅板凳、地面墙面、人类和环境等通用目标识别,则是基于其他类型机器人积累的数据,可直接用在人形机器人训练。此外还有80%的数据通过仿真环境合成获得。

 

由于真实数据稀缺,采集难度大、成本高,仿真合成数据被许多人形机器人企业视为解决数据问题的最优选。

 

以达闼机器人的数字孪生方案为例。公司搭建了一套实时同步、虚实转换的数据收集系统,通过传感器,可以将人所在环境扫描并传输到云端,以30Hz/秒进行重建,将机器人放置在孪生环境中进行训练。简而言之,就是将机器人看作一个NPC,各项任务是一个个游戏,用AI驱动人形机器人在“游戏”中运行。

 

“这时候,我们要多少合成数据就有多少,需要什么场景、也可以通过数字孪生的方式随时搭建。当数据在时间轴上被拉长、以切片形式存在,突发问题也变成了静止问题。”黄晓庆说。

 

然而,合成数据的劣势在于,它与真实数据之间存在数据分布的差异,实时性不强,在落地时,会面临更高要求的精度问题。

 

对此王鹤表示,“这件事的解决有先例。宇树四足狗的运动、跑跳,以及双足行走,都是通过大规模仿真强化学习实现的。这就说明Sim2Real(从模拟到真实)虽然有gap,但是可以做得很work的。”

 

对于一个真正称得上智能的人形机器人,这三种数据没有优劣之分。但 “目前市场上,能够在同一个阶段把几类数据都同步做好的公司几乎没有,普遍做法是根据自身的技术优势,优先从擅长方向切入。”光源资本董事总经理娄洋告诉36氪。

 

当前,人形机器人距离里程碑式的跨越还很遥远。只是,如今的资本并没有技术界的耐心。他们要看到可预见的商业化路径,没人会为脆弱的愿景买单。

 

商业化倒计时

 

今年4月,亚马逊的媒体活动日上,Agility Robotics分享了人形机器人Digit在亚马逊仓库的工作画面。

 

这次“员工试用期”始于2023年10月,经过三个多月实践,Digit已经可以连续工作7.5个小时,效率为人类速度的75%,任务成功率达到97%。

 

亚马逊仓库内有75万台物流机器人,在这之后,公司正考虑测试Digit人形机器人的物流托盘。按照人工作业5至8个小时、20-30元/小时,机器人连续工作5年即可回本。

 

根据高盛测算,预计2025年,少批量资金雄厚的人形机器人公司有望进入商业化试点,到2035年其替代率或从5%提高10%至15%,出货量翻4倍、将达到140万台。

 

人形机器人展现出了庞大的市场需求。但如上所述,现阶段行业存在技术、成本等问题,部分国内企业仍处于产品测试阶段,商业化进程还在早期。

 

当中的核心锚点,是公司能否找到擅长的应用场景。

 

在所有人形机器人企业中,大家都会谈到的问题是——找到PMF。 Product market fit(产品-市场匹配),就是产品要能够解决真实的需求,其中产品所创造的价值往往比产品售价本身还要贵。

 

可以看到,当前国内外人形机器人已进入汽车生产车间、物流仓储间,可以完成一些基础性的工作。在席悦看来,随着机器人运动机能进一步提升,落地场景将会从车间的单一的基础劳动过度到复杂的柔性任务,逐步向服务业迈进,最终走进千家万户。

 

王田苗认为,人形机器人的落地会先从商务场景切入,然后进入工业场景,最后再到消费场景。而“产品化过程需要时间来产生并验证价值,因此,基于场景的融合打磨与迭代变得至关重要。”

 

“当面对具体场景时,我们要解决的问题就变成了‘如何提高机器人的鲁棒性’(即在异常和危险情况下、保持机器的稳定运行),让人形机器人的适应性和部署效率,能够在真实应用环境中切实落地。”焦继超表示。

 

原标题:大模型冲击人形机器人赛道后,一个万亿美金的新故事丨36氪新风向

 

(蜂耘机器人网  责任编辑:梅子)

2024-06-27 15:48

广告

来源:36氪
1978年北京,在早稻田大学加藤一郎举办的座谈会上,现场播放了一段WABOT-15机器人的影像。

声明:凡来源标明“蜂耘网”的文章版权均为本站所有,如需转载请务必注明出处,违者本网将追究相关法律责任;所有未标明来源为“蜂耘网”的转载文章目的在于传递更多信息,均不代表本网立场及观点,“蜂耘网”不对这些第三方内容或链接做任何保证或承担任何责任;如涉及版权等问题,请在内容发表之日起一周内与本网联系,否则视为放弃相关权利。

所有评论仅代表网友意见,与本站立场无关

最新资讯

推荐阅读

热门排行

1、

2、

3、

4、

5、

6、

7、

8、

专题推荐

人物访谈

  • 一文了解查理·芒格:为什么他是巴菲特最推崇的人

    来源:
    ①巴菲特写道,“如果没有查理的灵感、智慧和参与,伯克希尔-哈撒韦公司不可能发展到今天的地位”;
    ②芒格曾表示,“如果世上未曾有过查理·芒格这个人,巴菲特的业绩依然会像现在这么漂亮 ”
    ③两周前,芒格还公开在节目中维护93岁的老友巴菲特。

    47 2023-11-29
  • 面壁者,拉里·佩奇

    来源:中欧商业评论
    这两年,硅谷钢铁侠埃隆·马斯克在社交媒体上口无遮拦,这为他的公司引来了铺天盖地的负面新闻,然而,他的好友、谷歌联合创始人拉里·佩奇却因为看不到人同样被媒体炮轰多时。他已经在公共视野中消失太久了。

    156 2022-06-15
  • 百岁中科院院士文圣常逝世!被誉为我国海浪研究的“点灯人”

    来源:南方都市报
     3月21日上午,中国海洋大学发布讣告,中国科学院院士、著名物理海洋学家、该校教授文圣常,因病医治无效,于3月20日15时37分在山东青岛逝世,享年101岁。

    183 2022-03-21

会议活动

微信公众号

广告

相关新闻