印度: 印度工人头戴摄像头边打工边教机器人抢自己饭碗

机器人的数据困境有多夸张呢？有个数字可以感受一下。目前机器人领域头部开源数据集 OpenX-Embodiment，汇聚了全球 22 种不同机器人本体、311 个场景下的 100 万条操作轨迹。听起来挺壮观，但大语言模型的训练数据动辄万亿 token，和 100 万放在一起，差了整整六个数量级。

真机遥操还有另外一个麻烦，数据和硬件强绑定。

过去大多数操作数据，都是用特定型号的机器人采集的。A 型机械臂的数据，很难直接拿去训练 B 型机械臂。机械臂的关节结构不同、末端夹爪的形状不同、摄像头的位置不同，同样的"拿起杯子"这个动作，在两种机器人身上对应的运动轨迹可以完全不一样。换一款硬件，数据就得重新采，等于每次升级硬件，都要回到原点重新开始。

要打破这个僵局，就需要把数据和机器解绑。比如不依赖特定型号的机器人，直接从人身上采集操作数据——无本体数据。

大陆热帖:伊朗被激怒,印度遭了殃......

为AI代工,印度"动作代工厂"惊动全网

印度第一美人美貌迷倒众生却遭国人唾骂

因为人类做“拿起杯子”这个动作，其手部轨迹（位置、姿态）是相对于世界坐标系或自身躯干的，可以通过运动学映射转换到不同几何尺寸和关节配置的机械臂上。数据采一次，可以反复用在不同硬件上。

更重要的是，这种采集方式成本足够低，可以轻松覆盖大量不同的真实场景。研究人员做过测试，同样数量的数据，分布在 32 个不同环境、每个环境各 50 条，比全部集中在一个环境的 1600 条，训练出来的模型泛化能力强得多。

机器人需要见过足够多"不一样的世界"，才能在一个从没见过的新场景里不慌不乱。这也是为啥 Ego 数据方案这么强调要在真实场景里采集。不同的工厂、不同的操作台、不同的工人，每一个细微的差异，对模型来说都是养分。