为机器人安上“最强大脑” 谷歌VLA新模型泛化能力提升3倍能“听懂人话”

一个单臂机器人“站”在桌前，桌上放着三个塑料动物玩具：狮子、鲸鱼与恐龙。收到“捡起灭绝的动物”指令后，这个机器人“思考”了一会儿，然后甚至机械臂，打开爪子，抓起了恐龙。这是Google最新一款机器人模型Robotic Transformer 2（机器人变形金刚2，RT-2）。

上文这个“抓起恐龙”的动作对于人类而言轻而易举，对于机器人而言却堪称一个重要飞跃——之前机器人经常无法操纵自己从未见过的东西，也难以实现从“灭绝的动物”到“塑料恐龙”的逻辑飞跃。

作为一款新型视觉-语言-动作（vision-language-action，VLA）模型，RT-2可以从网络、机器人数据中学习，并将这些知识转化为机器人控制的通用指令。

相较于其他机器人研究，RT-2的核心优势在于，其不仅能直接接收“人话”指令，听懂“人话”、理解“人话”，还能做出相应推理，并转为机器人能理解的分阶段指令，从而做出动作完成任务。

RT-2完成的每一项任务，都要求其理解视觉语义概念、并通过控制机器人实现操作这些概念。

例如接到“捡起桌子上快掉下去的袋子”、“将香蕉移动到2加1的总和处”这种指令时，机器人需要对相应物体/场景执行任务，而这些物体与场景它从未在机器人数据中见过，需要从网络数据中转化得到相应知识。

总体而言，RT-2具备三大能力：符号理解（Symbol understanding）、推理（Reasoning）和人类识别（Human recognition）。

（1）符号理解是指RT-2可以从视觉语言预训练中转移了语义知识，而这些语义知识在机器人数据中并不存在。这类指令示例包括“将苹果移到3号位置”或“将可乐罐推到心形上”。

图|符号理解指令示例

（2）推理则是将VLM的各种推理能力用于任务控制，包括视觉推理（“将苹果移到相同颜色的杯子里”）、数学推理（“将X移到2加1之和的附近”）、多语言理解（“mueve la manzana al vaso verde”，西班牙语）。

图|推理指令示例

（3）人类识别是以人类为中心的理解和识别能力，RT-2可以完成“将可乐罐移到戴眼镜的人身边”这类任务。

图|人类识别指令示例

此外，研究人员还将机器人控制与思维链推理相结合。首先用自然语言描述机器人即将采取的动作的目的，然后是“动作”和动作标记。

例如在下图中，RT-2接收到的要求是“我想钉个钉子，场景里什么东西可能能用上？”，RT-2转化得出了“石头。动作：1 129 138 122 132 132 106 127”的指令，并拿起了石头。

RT-2还能更好地适用于不同的、机器此前没见过的场景。比起在大型数据集上预训练的RT-1、Visual Cortex（VC-1）等模型，RT-2泛化能力大幅提高，较前者提高了3倍有余。

加利福尼亚大学伯克利分校的机器人学教授Ken Goldberg表示，机器人的灵巧性仍达不到人类水平，在一些基本任务上也会失败，但Google利用人工智能语言模型，赋予机器人推理和随机应变的新技能，是一个很有希望的突破。

最新资讯