Google概述了利用视频和大型语言模型训练机器人的新方法

2024 年将是生成式人工智能/大型基础模型和机器人技术交叉领域的重要一年。从学习到产品设计，各种应用的潜力让人兴奋不已。Google的 DeepMind 机器人研究人员是探索这一领域潜力的众多团队之一。在今天的一篇博文中，该团队重点介绍了正在进行的研究，这些研究旨在让机器人更好地理解我们人类希望它们做些什么。

传统上，机器人的一生都专注于重复执行一项单一的任务。单一用途的机器人往往非常擅长这一件事，但即使是这样，当无意中出现变化或错误时，它们也会遇到困难。

新发布的 AutoRT 旨在利用大型基础模型，达到多种不同目的。在 DeepMind 团队给出的一个标准示例中，该系统首先利用视觉语言模型（VLM）来提高态势感知能力。AutoRT 能够管理一个协同工作的机器人舰队，并配备摄像头，以获取环境布局和其中的物体。

与此同时，大型语言模型还能提出硬件（包括终端执行器）可以完成的任务。许多人认为，语言模型是开启机器人技术的关键，它能有效理解更多的自然语言指令，减少对硬编码技能的需求。

在过去的七个多月里，该系统已经进行了大量测试。AutoRT 能够同时协调多达 20 个机器人和 52 种不同的设备。总之，DeepMind 已经收集了大约 77000 次测试，其中包括 6000 多项任务。

该团队的新产品还有 RT-Trajectory，它利用视频输入进行机器人学习。很多团队都在探索使用 YouTube 视频作为大规模训练机器人的方法，但 RT-Trajectory 增加了一个有趣的层次，即在视频上叠加手臂动作的二维草图。

该团队指出："这些轨迹以 RGB 图像的形式，在模型学习机器人控制策略时为其提供了低层次的实用视觉提示。"

DeepMind 表示，在测试 41 项任务时，该训练的成功率是 RT-2 训练的两倍，分别为 63% 和 29%。

"RT-Trajectory利用了丰富的机器人运动信息，这些信息存在于所有机器人数据集中，但目前尚未得到充分利用，"该团队指出。"RT-Trajectory不仅代表着在制造能够在新情况下高效准确移动的机器人的道路上又迈进了一步，而且还释放了现有数据集中的知识"。

对文章打分

Google概述了利用视频和大型语言模型训练机器人的新方法

最新资讯

编辑精选

热门评论

相关文章

微软接受并采用Google的A2A标准连接AI代理

Google同意为三座新核电站项目提供资金

用户现在可以在 Google Vids 中生成自定义视频片段

AI编程王者易主：Gemini 2.5 Pro I/O版力压Claude 3.7 Sonnet

Google高管证实“偏袒”：关键搜索数据专供Gemini 拒哺竞品AI

Google应用现在可以在iOS上“简化”复杂术语等文本

Top 10

传小米正与步步高集团合作开发不集成Google Play的HyperOS 3以应对不测

华为384颗自研芯片方案揭秘领先英伟达AMD一代

雷军曾看好的国产导航之光，为何沦为资本弃子？

这种“厨房纸”真的别再拿来直接接触食物了

五一假期来了下下周上4休5

爆火的新物种：为了偷食时不被发现它们全身“戴满”其它动物遗骸