行业新闻

77%的“迁移鸿沟”如何跨越?真机数据成为具身智能行业新赛点

2026年4月,斯坦福大学以人为本人工智能研究所发布的《AI Index Report 2026》揭示了一个令人警醒的现实:机器人在仿真环境中的操控成功率达89.4%,但在真实家庭场景中骤降至12%。这77个百分点的“仿真到现实迁移鸿沟”(Sim-to-Real Gap),正驱动全行业从“比模型”走向“比数据”,而真机数据成为填补这道鸿沟的关键配方!


01 行业转向:去年比模型,今年比数据


2026年,具身智能的叙事逻辑发生了根本性转变。过去一年里,行业的热点还停留在模型架构的创新、参数规模的比拼、训练算力的堆叠;而今年,聚光灯已经悄然转向了数据,尤其是真机数据!


《麻省理工科技评论》在其年度十大AI趋势中,首次将“人形机器人数据”列为当下最重要的命题。其核心逻辑清晰而直接:大语言模型靠海量文本学会了生成语言,人形机器人能否靠海量动作数据学会在真实世界中干活?


然而,描述人类运动与精细操作的数据,远不像互联网文本那样现成、廉价、可规模化爬取。觅蜂科技CEO姚卯青在4月的一场发布会上给出了一组震撼对比:GPT5训练语料折合约100亿小时,而全行业汇聚的高质量具身数据仅约50万小时,差距以万倍计。


乐聚机器人技术总监王松也明确指出,当前人形机器人产业面临“本体与小脑技术趋于成熟,但大脑进化严重受阻于数据”的困境。真机数据,是模型落地的最后一步,也是关键一步。没有足够覆盖真实场景的高质量动作数据,再先进的模型也只能是“纸上谈兵”。


可以说,2026年,行业的核心命题已经从“如何设计更好的模型”转变为“如何获取更多的真机数据”。这一转变,标志着具身智能从理论验证阶段迈入工程落地阶段。




02 训练场+零工数据:全行业加速“制造”真机数据


为了弥补这一数据赤字,全行业开始走出实验室,规模化地“制造”真机数据。


政策层面,国家“十五五”规划纲要明确提出统筹布局具身智能实训场,将其纳入新一代人工智能基础设施。据不完全统计,不到一年时间,国内在建或建成的具身智能训练场已接近30家。这些训练场动辄上千平方米,布置了家庭、工厂、商超、医疗等多种仿真场景,机器人和人类操作员在其中反复采集动作数据。


企业层面同样行动迅速。特斯拉在2025年Q4财报会上坦言,Optimus人形机器人当前的首要任务并非在工厂里“干活”,而是通过实地运行进行大规模数据采集。马斯克曾公开表示,“数据是Optimus最稀缺的资源,比芯片还难获取。”


与此同时,一种新型的数据生产方式正在全球范围内兴起:零工数据。在中国各地的训练场,工人们穿戴外骨骼和VR设备,重复执行抓取、拧螺丝、叠衣物等枯燥动作,每一次成功的操作都会被记录为一条高质量真机数据。而在阿根廷、印度、肯尼亚等劳动力成本较低的国家,平台型企业正在招募零工,通过拍摄家庭场景下的家务操作视频换取报酬——这些视频经过清洗、标注、姿态提取后,同样可以转化为训练数据。


一幅规模化、低成本、跨地域的数据生产网络正在形成。有业内人士估算,到2026年底,全球具身数据年产量有望突破200万小时,但仍远未达到训练大模型所需的千万小时量级。


03 数据缺口巨大:仿真无法替代“最后一公里”


那么,仿真数据能否补上这个缺口?毕竟,仿真环境成本低、可并行、无物理损耗,已经在足式运动、路径规划等任务中证明了其价值。


乐聚机器人技术总监王松给出了一组粗略对照:训练一个L4级自动驾驶模型所需数据量通常以百万小时计;而人形机器人的自由度、操作复杂度、场景多样性比自动驾驶高出1到2个数量级。换句话说,训练一个具备开放世界泛化能力的具身基座模型,所需真机数据量至少在数百万到上千万小时之间。


更关键的是,仿真在“接触丰富”(contact-rich)的场景下力有不逮。2025年发表在《科学·机器人》子刊上的一项研究指出,当前主流仿真器难以精确建模零件形变、非线性摩擦以及柔性物体(如衣物、流体)的物理特性。例如,在工业精密装配中,一个卡扣插入时的微小形变和摩擦力变化,就可能决定成败;在家庭场景中,折叠一件T恤或从碗里舀一勺汤,涉及织物和流体的复杂物理行为,仿真建模的计算成本甚至高于真机采集。


换言之,补齐那77个百分点的成功率缺口,依靠的不是更大规模、更高精度的仿真,而是覆盖多变量、多样本、多环境的真机数据。仿真可以用于预训练和初步筛选,但最后的“最后一公里”,必须由真实世界的数据来铺就。


04 乐聚样本:高质量真机数据带来3-4倍飞轮效率提升


这一行业共识,在乐聚机器人的实践中得到了最直接的验证。


据乐聚方面披露的一组对比实验数据:400条高质量真机数据的训练效果,远超1300条低质量数据。前者在相同模型架构下的任务成功率、泛化能力和鲁棒性均显著优于后者。这意味着,数据质量比数据数量更为重要——一条精准标注、动作规范、场景真实的真机数据,抵得上数条甚至数十条粗制滥造的“垃圾数据”。


在工程效率上,高质量真机数据的引入使模型迭代时长从原来的7~10天缩短至2~3天,整体研发飞轮效率提升了3至4倍。更直观的成果体现在部署端:设备在真实工厂和家庭环境中的部署成功率,从不足60%一举提升至90%以上。


更重要的是,乐聚率先跑通了真机数据的商业化闭环。依托其规模化的训练场体系,数据服务已经独立成一项可持续盈利的业务,先后落地服务一汽(物料搬运)、海晨物流(仓储分拣)、兆丰(精密制造)等实体企业。这意味着,真机数据不再只是研发部门的“成本项”,而成为了可以对外输出、直接产生商业价值的“资产项”。


这标志着:真机数据不仅是技术迭代的核心抓手,也已成为具身智能走向规模化商用的关键支撑。谁能以更低的成本、更高的效率生产出高质量的真机数据,谁就能在下一阶段的竞争中占据主动。


05 乐聚生态计划:从夯实基础到全域绽放


在真机数据与商业化落地双轮驱动下,乐聚机器人已完成了“基础设施层—核心技术层—场景应用层”的三级基础设施搭建。


基础设施层,乐聚已建成两座规模化工厂,具备万台级人形机器人产线,同时搭建了专注于“大脑”训练的机器人训练场。


核心技术层,通过投资与联合研发,集聚了泉智博(一体化关节)、立聚动力(电机)、灵心巧手(灵巧手)、具脑磐石(具身大脑)、具识智能(操作系统)等核心零部件及系统伙伴。此外,与东方精工联合打造大规模人形机器人产线;与和而泰、东方精工联合成立人形机器人控制器公司;与海晨股份联合成立生产物流场景解决方案的合资公司。


场景应用层,围绕科研、商服、工业、家庭等场景,已与阿里云、中国移动、中国一汽、南方电网等40余家生态伙伴展开广泛产业化应用探索。


在技术研发方面,乐聚持续探索Model-Based与RL算法深度融合的“小脑”运控系统,以及匹配产业需求的“大脑”模型,并与哈工大、北京大学、北京通研院、北京智源研究院、山东大学、苏州大学等高校及科研院所开展联合科研攻关。


如今,乐聚生态合作伙伴正在招募!基于已完备的本体制造、真机数据生产、大小脑系统、全场景应用等全生态链资源,乐聚面向全球招募二次开发合作伙伴。无论是具身算法团队、垂直场景解决方案商,还是硬件模组创新者,均可依托乐聚的开放平台,获得从机器人本体、数据采集与训练平台到商业落地的全链路支持。乐聚致力于成为具身智能时代的“基础设施提供方”,与合作伙伴共同加速人形机器人在千行百业的规模化部署。


06 谁掌握高质量真机数据,谁就掌握下一阶段话语权


从政策顶层设计到资本密集涌入,从大规模训练场建设到全球零工数据网络铺开,全行业正围绕“真机数据”重构基础设施。可以预见,具身智能下一阶段的核心竞争,将不再是模型架构的比拼,也不再是硬件性能的较量,而是转向一个更底层的命题:谁能以更低的成本、更高的效率、更优的质量,持续生产和管理真机数据,谁就能掌握话语权。


模型是骨架,算力是肌肉,数据才是灵魂。那道77%的迁移鸿沟能否被真正填平,直接决定了人形机器人能否走出实验室的温床,走进工厂与家庭的现实。而答案,正写在每一帧来自真实世界的操作数据里。




本文转自信阳新闻网




联系我们

未标题-1_画板 11.png

展商服务:021-68130018/13817736484

观众服务:18601687710 

E-mail:sales-admin@vip.126.com

主办单位

中国设备管理协会

上海中展世信会展集团有限公司

承办单位

上海中展世信会展集团有限公司

中展世信(深圳会展有限公司

上海国展世信展览有限公司


 

  • 扫码关注获取更多展会资讯

备案号:粤ICP备2022018403号-4版权归中展世信(深圳)会展有限公司所有
立即拨打电话