> **来源:[研报客](https://pc.yanbaoke.cn)** # 全球具身数据市场白皮书总结 ## 核心内容概述 本白皮书系统分析了全球具身数据市场的结构、技术路线、公司格局与未来趋势,强调了具身数据作为具身智能发展的关键生产要素,其稀缺性、多样性及合规性对行业影响深远。白皮书指出,随着 AI 从数字世界走向物理世界,真实交互数据成为决定具身智能上限的核心资源,而数据的获取与处理方式正在从传统互联网数据向更具真实性和物理一致性的具身数据迁移。 --- ## 市场结构与趋势洞察 ### 全球市场规模预测 - **2035年**:高盛预测为 \$38B(仅本体) - **2050年**:摩根士丹利预测为 \$5T(含供应链/服务) - **2050年**:花旗预测为 \$7T(含非人形 AI 机器人) ### 中国市场规模预测 - **2030年**:IDC 预测为 \$77B(用户支出) - **2030年**:中金预测为 581 亿元人民币 - 中国 CAGR 预计为 94% ### 美国市场预测 - **2040年**:摩根士丹利预测为 \$240B(人形市场分项) - **2050年**:预测为 \$1T ### 数据稀缺性 - 具身数据与文本数据的可用量级差距约为 $20,000 \times$ - 公开语料趋于枯竭,价值向高质量、真实交互、合规数据迁移 - 2026年被视为具身数据规模化元年,数据成为产业卡点 --- ## 技术路线与数据范式 ### 具身智能四元结构 - **左脑**:任务规划(语言/推理,如 DeepSeek、豆包、通义千问) - **右脑**:空间感知(VLM/VLN,如 PI π、World Labs) - **小脑**:运动控制(控制 + RL,如 BD Atlas、宇树 G1) - **身体**:整机本体(灵巧手 + 触觉,如 Tesla Optimus、优必选) ### 数据获取四范式 1. **真机遥操**:VR/动捕操控真机,保真最高但成本最高 2. **便携采集**:可穿戴/数据手套,降本约10倍,是质量与规模的平衡点 3. **仿真合成**:物理引擎 + 生成式覆盖长尾,成本仅真机约 1/100 4. **视频蒸馏**:从互联网/第一人称视频提取动作,近零成本,但 grounding 是关键 ### 数据金字塔结构 - 从底层海量数据到顶层稀缺真机数据,形成「质量×规模」的递减趋势 - 主流训练范式为:底层海量数据预训练 + 顶层稀缺数据精调 ### VLA 模型发展 - **2022-2024**:分模块训练,数据量级为万小时级 - **2025-2026**:端到端 VLA,数据量级为十万-百万小时级 - **2027+**:世界模型,数据量级为千万-亿小时级 ### VLA 模型任务成功率跃迁 - 真机 + 仿真 + 视频混合数据驱动泛化 - 跨本体预训练 + 强化学习持续提效 --- ## 具身数据公司全景 ### 全球 18 家具身数据公司分类 | 范式 | 代表公司 | 特征 | |------|----------|------| | 真机遥操 | 帕西尼感知、诺亦腾 | 触觉/动捕遥操,保真最高、成本最高 | | 便携采集 | 它石智航、灵初智能 | 可穿戴/数据手套,降本约10倍 | | 仿真合成 | 光轮智能、群核科技、跨维智能 | 物理引擎生成,覆盖长尾、成本极低 | | 视频蒸馏 | 枢途科技、深度机智 | 互联网/第一人称视频,近零成本,grounding 是关键 | ### 头部具身智能公司 - **中国第一梯队**:宇树科技、银河通用、星海图、智元机器人、千寻智能、星动纪元、众擎机器人 - **海外篇**:Figure AI、Skild AI、Physical Intelligence、Apptronik、World Labs、1X Technologies、Agility Robotics、Boston Dynamics、NEURA Robotics、Sanctuary AI、Sunday Robotics、Wandercraft ### 中美数据策略对比 | 维度 | 美国 | 中国 | |------|------|------| | 数据来源 | 通用数据巨头 + 大厂自采仿真 | 遥操工厂 + 便携采集 + 仿真 + 视频蒸馏并行 | | 核心打法 | 闭源飞轮:自采数据 + 基础模型一体 | 开放 + 专业化:独立数据公司分工协作 | | 代表玩家 | Tesla、Figure、NVIDIA、Scale | 光轮、它石、帕西尼、智元数据工厂 | | 成本优势 | 算力与人才密集 | 工程化快、采集成本低、场景丰富 | | 合规环境 | 版权诉讼频发、数据获取趋严 | 数据要素政策 + 国资入场支持 | --- ## 全球具身数据市场展望 ### 六环节价值链 - 采集 → 标注 → 治理 → 仿真增广 → 训练评测 → 资产化 - 毛利率逐级递增,资产化环节最高(60–70%) ### 商业化场景 - **已商业化**:医疗康复(Wandercraft、傅利叶)、物流仓储(Agility Digit、Figure、特斯拉) - **试点中**:商业服务(银河便利店、智慧药店、餐饮) - **远期想象**:家庭服务(1X NEO、Figure 03、星动 STAR)、特殊场景(矿山巡检、应急救援、农业、国防、手术辅助) ### 商业化路径时间轴 - **2025年**:工业制造 - **2026-27年**:商业服务 - **2027-28年**:家庭服务 - **2030+**:家庭服务规模化 ### 机遇与风险 - **风险**:估值领先于商业化、数据合规与版权、Sim2Real 鸿沟、标准缺位 - **展望**:2026年为具身数据规模化元年,数据资产化、DaaS 订阅、世界模型崛起 - **中国机遇**:场景丰富、工程化快、政策支持 --- ## 数据资产化与开放生态 ### 开放数据集清单 | 数据集/平台 | 发布方 | 范式 | 规模/特征 | |-------------|--------|------|-----------| | AgiBot World | 智元 | 真机遥操 | 100万+轨迹·2976 h·217任务 | | Open X-Embodiment | Google 等 | 跨本体聚合 | 22本体·100万+片段 | | NVIDIA Physical AI | NVIDIA | 仿真合成 | GR00T/Cosmos配套开源数据 | | LeRobot | HuggingFace | 社区聚合 | 开放数据集+训练框架 | | Ego4D / Ego-Exo4D | Meta | 第一人称视频 | 3670 h日常第一人称视频 | | RoboFinals | 光轮 | 评测基准 | 开放具身评测基准 | ### 数据资产化趋势 - 数据集授权、DaaS 订阅、评测基准服务成为主流变现路径 - 数据资产化环节毛利显著高于本体硬件,价值向上游迁移 --- ## 具身数据公司资本热度 - **光轮智能**:10亿元融资,估值超 \$1B,为全球首个具身数据独角兽 - **它石智航**:Pre-A 融资 \$4.55 亿,估值 ~130 亿元 - **群核科技**:已上市(00068.HK) - **极佳视界 GigaAI**:Pre-B 融资 10 亿元 - **帕西尼感知**:B轮融资 >10亿元,估值破百亿 - **灵初智能**:累计融资 >20亿元 --- ## 旗舰视频数据流 - **艺恩数据**:提供 VLA-Ready 数据流,涵盖视频、图像、文本三模态 - **数据量级**:2.3B+ 视频片段,800TB+ 日均带宽,120+ 任务族 - **目标**:为视频生成、视频理解、世界模型、VLA 训练提供持续、合规、可扩展的数据流 --- ## 联系方式 - **商务合作**:team@endata.com.cn - **电话**:+86-010-85899985 - **新三板**:871430