中信证券:看好具身模型进一步成为产业发展的焦点
数据采集工厂在全国各地拔地而起,中国具身智能产业正以真实数据为基,构建模型训练的长期优势。
中信证券最新发布的研报指出,随着全国各地数据采集工厂的加速建设,我国具身智能产业链已经找到了解决数据匮乏问题的独特路径——以真实数据为基础,构筑模型训练的长期优势。
研报认为,具身模型正进一步成为产业发展的焦点,将数据采集的重要性推向新高度。
在具身智能的发展过程中,数据要素的循环流通不仅使下游模型开发者获得了持续语料,也为上游整机厂带来了“半商业化”阶段的订单出口。
01 产业现状:真实数据不可或缺且总量匮乏
具身智能的发展正面临大规模训练数据匮乏的挑战。
大型语言模型的成功得益于互联网对海量知识的沉淀,自动驾驶可以在实际运营场景中进行大规模、连续性的数据采集。
但在训练具身模型的过程中,却缺乏大量可直接利用的有效数据资产,且数据采集的过程也依赖于受控的实验室环境。
业界将具身模型训练的数据类别定义为“数据金字塔”。
尽管合成数据和互联网数据的规模化潜力得到广泛重视,但金字塔顶层的真实数据不可缺少,其物理真实属性及标注内涵具备重要价值,也使其成为解决具身数据挑战的“牛鼻子”。
02 商业空间:数据采集工厂孕育新型商业模式
2025年来,各地纷纷投建数据采集工厂,其中智元等占据主要位置。
地方性政府与整机厂合资成立数采工厂的案例持续增多。合作模式主要有两种:
政府招标采购机器人本体,并提供后续场地支持;
企业投标供给数采本体,并提供持续性技术支持。
对于具备百台级别的数采工厂而言,其年产有效数据规模可达数万小时,具备千万元级别数据销售收入的潜能。
暂不具备本体量产能力的大模型企业是当下具身数据的主要需求方。
群核科技、帕西尼感知等已在国内主流数据交易所上架数据产品。
从成本角度看,国内数采人员用工成本显著低于北美,这成为国内规模化发展数据采集的重要优势。
尽管无法通过数据销售实现快速回本,但各地数采工厂有望发挥桥头堡作用,成为整机厂遍布全国的潜在经销网络、人才吸引及品牌建设的高地。
研报预计,2025年国内将产出70+万小时真实数据,到2028年国内累计数采用本体数量将接近8000台。
03 行业竞争:标准制定与产业参与同等重要
当前行业存在明显的数据孤岛问题,主要表现在:
数据集标准不统一;
技术路线差异导致数据割裂;
产业生态的封闭性。
行业亟需规范化标准及代表性案例的出现。
部分整机厂以国地中心开放互通的生态为抓手,已经获得了一定的先发优势。
2025年5月,国家地方共建人形机器人创新中心携手诸多整机厂共同成立具身智能数据联盟。
9月,国内首个人形机器人数据集标准发布,智元机器人、库帕思作为数据质量管理标杆,获得CR认证首批证书。
库帕思是在上海市政府鼓励下诞生的专业数据语料公司,旨在降低行业数据获取成本。这类数据语料公司也值得长期关注。
04 投资策略:关注五大方向
具身智能产业发展如火如荼,在资本、政策、企业、人才的协同共振下,产业飞轮以超乎寻常的速度旋转。
训练数据成为从“半商业化”走向“全商业化”的关键一环。
中信证券建议额外重视掌握数据话语权的标的,尤其重视在数据、模型及本体三大要素上皆有阶段性成功布局的企业。
从商业化进程角度而言,相比于具身模型企业,作为AI时代的“卖铲人”,数据语料公司的商业化变现步伐明显更快,这类企业也值得重点关注。
结合此前外发报告,中信证券建议关注以下五大方向:
整机厂:直接受益于数据采集工厂建设的需求;
数据赋能:包括数据采集、处理及交易环节;
动捕设备:数据采集过程中的重要工具提供商;
资本布局者:在产业链中早有布局的投资主体;
算力及云计算:为模型训练提供基础设施支持。
05 风险提示
报告同时提醒投资者关注以下几类风险因素:
机器人技术进步速度低于预期;
机器人应用场景的发展潜力低于预期;
技术路线变动风险;
政策实施力度不及预期;
行业竞争加剧风险;
法律法规风险;
国际地缘政治风险。
中信证券的这份研报描绘了一幅清晰的产业图景:数据采集工厂正如雨后春笋般在全国涌现,成为连接当前“半商业化”阶段与未来全面商业化的重要桥梁。
相比于海外昂贵的用工成本,中国在这一领域具有显著的规模化优势,数据积累正成为国内具身智能产业的宝贵资产。
具身智能的竞赛刚刚开始,而数据之争早已悄然上演。
|
|