Google RT-2 VLA模型可帮助机器人更快速地在融入新环境并开始工作

Google发布了一款名为机器人变形金刚2（Robotics Transformer 2 RT-2）的新型视觉-语言-动作（VLA）模型，并将其称为"同类首创"。据Google称，RT-2 能够接受文本或图像输入，并输出机器人动作。

该公司表示，训练机器人可能是一项"艰巨的工作"，因为它们需要针对世界上的每个物体、环境、任务和情况进行数十亿点数据的训练。不过，Google表示，RT-2为更多的通用机器人带来了巨大的发展前景。

虽然该公司对RT-2所能带来的好处感到兴奋，但它表示，要让机器人在以人为中心的环境中发挥作用，还有很多工作要做。DeepMind 认为，通用物理机器人可以从 VLA 模型中产生，它们可以推理、解决问题和解释信息，以执行现实世界中的任务。

顾名思义，这并不是机器人变形 VLA 模型的第一次迭代。DeepMind表示，RT-2建立在RT-1的基础上，与之前的模型相比，泛化能力有所提高，在新的、未见过的任务上表现更好。

与前代机器人相比，RT-2 的另一项新技能是符号推理，这意味着它能理解抽象概念并对其进行逻辑操作。其中一个例子是，机器人被要求将巴纳移动到 2 加 1 的总和处，尽管它并没有接受过抽象数学或符号操作的明确训练，但它还是正确地完成了任务。

虽然 RT-2 是机器人技术向前迈出的一大步，但宣布终结者机器人已经到来并不公平。该模型仍然需要人类的输入和监督，并且在实际机器人操作中会遇到很大的技术限制。

尽管如此，我们还是希望它能带来一些有趣的机器人，完成以前不可能或不容易完成的任务。

最新资讯