重磅！DeepMind “机器猫”自学成才，能操作多个机器人、不依赖人类监督

当前位置：首页 > 品牌 >

来源：ZAKER科技时间：2023-06-21 13:21:14

智东西（公众号：zhidxcom）

【资料图】

作者 | 云鹏

编辑 | 心缘

智东西 6 月 21 日消息，刚刚，谷歌 DeepMind 推出了一种可以自我改进、自我提升（self-improving）的用于机器人的 AI 智能体，名为 RoboCat。

DeepMind 称它是全球第一个可以解决和适应多种任务的机器人 AI 智能体，并且它可以在各类真实的机器人产品上完成这些任务。

▲ RoboCat 操控机械臂完成各种各样的任务，来源：Google DeepMind

整体来看，RoboCat 最主要的突破在三个方面：

1、DeepMind 让一个神经网络能在多个不同的机器人上工作，可以快速操作新的机械臂，解决新的复杂任务。

2、RoboCat 学习的新任务越多，就越擅长学习和解决额外的新任务。

3、RoboCat 是通用机器人领域的重要研究进展，能够减少对人类监督训练的需求。

▲ RoboCat 解决更多类型的任务，来源：Google DeepMind

AI 智能体可以自己操控机械臂，学习玩套圈、搭积木、抓水果了！效率极高，还不需要多少人力。

只需要通过 100 次左右的演示，RoboCat 就可以学会操控机械臂来完成各式各样的任务，并且它还能通过自生成的数据来进行迭代改进。

最重要的是，不论是它操控的机械臂还是它要完成的任务，RoboCat 之前都从来没见过。

▲ RoboCat 可以解决的各类任务，来源：Google DeepMind

这种" 通用性学习能力 "是 RoboCat 的强项，此外，RoboCat 最主要的特点就是" 学得快 "，这种能力对于加快机器人领域的研究有重要意义，因为有了这种能力，人类监督训练的需求就会极大减少，这是创造通用机器人非常重要的一环。

在 DeepMind 演示视频中，RoboCat 可以通过自主学习完成 " 套圈 "、" 搭积木 "、" 拿放水果 " 等任务。目前RoboCat 完成一项新任务的成功率已经从初期的 36% 提升至 74%。

▲ RoboCat 前后版本完成任务成功率对比，来源：Google DeepMind

并且根据 DeepMind 论文，RoboCat 完成现实世界训练任务的成功率要远高于传统基于视觉的模型方案，领先幅度还是比较明显的，这也是 DeepMind 研究的重要价值所在。

▲ RoboCat 与基于视觉的模型在完成现实世界训练任务成功率方面的对比，来源：Google DeepMind

值得一提的是，RoboCat 用到的关键技术之一，是一种多模态模型（multimodal model）Gato，而 Gato 在西班牙语里意为 " 猫 "，也就是 "cat"，这也是 "RoboCat" 这一命名的由来之一。

此前研究人员已经在机器人大规模学习多种任务方面进行了探索，并将对语言模型的理解与现实世界的机器人能力相结合。而 RoboCat 的进步性在于，它是第一个可以解决和适应多种任务的机器人 AI 智能体。

DeepMind 认为，RoboCat 独立学习技能、快速自我提升的能力，以及对于不同硬件设备的快速适应能力，将对新一代通用机器人 AI 智能体的发展起到重要推动作用。

论文地址：

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/robocat-a-self-improving-robotic-agent/robocat-a-self-improving-foundation-agent-for-robotic-manipulation.pdf

一、套圈、搭积木样样精通，将水果从碗里拿出来总共分几步？

首先，我们来看看这个 RoboCat 到底能做什么。

从 DeepMind 的演示视频中我们可以看到，研究人员在机器人的摄像头下面将物体摆好，机器人就会将摆好的物体状态设定为 " 目标图像 "，在设定好目标图像后，研究人员会将物体的摆放位置还原，然后让机器人操作还原刚才的物体摆放状态。

▲ RoboCat 完成 " 套圈 " 任务，来源：Google DeepMind

在 " 套圈 " 这个任务中，RoboCat 可以很好的操控机械臂还原橘红色圆圈的位置。

在同一类 " 套圈 " 任务中，RoboCat 还可以解决更复杂的情况，比如区分大圈和小圈并准确套在对应的金属柱上。

▲ RoboCat 完成更复杂的 " 套圈 " 任务，来源：Google DeepMind

DeepMind 还演示了一个任务，就是抓水果。这个任务 RoboCat 已经在此前的训练中看到过，但值得注意的是，此前的训练数据中从来没有过 " 人手 " 出现，这次研究人员给 RoboCat 设定的目标图像中却包含了人手，最终，RoboCat 仍然可以顺利完成任务。

▲ RoboCat 在目标图像有 " 人手 " 干扰的情况下完成抓水果任务，来源：Google DeepMind

这还没完，后续研究人员进一步提高难度，让 RoboCat 操控了一个它之前从未见过的机械臂，这个机械臂跟之前抓水果用的有所不同，但最终 RoboCat 依然可以操控这一新的机械臂来成任务。

▲ RoboCat 操控从未见过的机械臂完成此前学过的任务，来源：Google DeepMind

在另一个 " 搭积木 " 的测试中，研究人员展示了 RoboCat 的另一项技能，当目标图像设定好后，不论初始积木位置是怎样的，RoboCat 都可以很好的还原目标图像中的积木状态。

▲当目标图像设定好后，不论初始积木位置是怎样的，RoboCat 都可以很好的还原目标图像中的积木状态，来源：Google DeepMind

除了搭积木，RoboCat 还可以完成将水果从碗里拿进拿出这样的任务。

二、基于超大数据集，还会自我迭代升级，五步就能掌握新本领

具体来看 RoboCat 背后的硬核技术，DeepMind 提到，RoboCat 用到了一种多模态模型 Gato，Gato 模型可以在模拟环境和物理环境中处理语言、图像和动作，研究人员将 Gato 的架构与一个大型训练数据集进行了结合，这个数据集包含了各种机械臂解决数百个不同任务的图像序列和动作。

在第一轮训练之后，研究人员让 RoboCat 进入一个 " 自我提升（self-improvement）" 的训练周期，在这个训练周期中，RoboCat 会学习解决很多以前从未见过的任务。

每项新任务的学习分为五个步骤：

1、收集 100-1000 个由研究人员控制的机械臂完成的新任务演示。

2、在新任务所使用的机械臂上微调（Fine-tune）RoboCat，创建一个专用的衍生代理。

3、衍生代理在机械臂上练习 10000 次，以生成更多的训练数据。

4、将演示数据和自生成数据合并到 RoboCat 的现有训练数据集中。

5、在新的训练数据集上训练 RoboCat 的新版本。

▲ RoboCat 的训练周期示意图，它能够自生成额外的训练数据，来源：Google DeepMind

上述所有这些训练的结合，意味着 RoboCat 的数据集将包含数百万次的训练轨迹数据，这些数据来自真实机械臂以及模拟机械臂，包括了 RoboCat 自生成的数据。

▲ RoboCat 从各种训练数据类型和任务中学习，来源：Google DeepMind

研究人员总共使用了四种不同类型的机器人和各类机械臂来收集基于视觉的数据。

/div>▲ RoboCat 使用现实和虚拟机械臂积累训练数据，来源：Google DeepMind

三、RoboCat：一个 " 自我提升的通才 "

在上述这种多样化的训练方式下，RoboCat 可以在几个小时内学会操作不同的机械臂，包括一些更加复杂的从未见过的机械臂。

RoboCat 可以操作这些机械臂完成之前见过的任务，比如套圈、拿取水果，甚至是在对应形状的格子中放上对应形状的物品，这些任务会考验 RoboCat 操作的精准度、理解力以及对于形状匹配难题的解决能力。

▲ RoboCat 用新机械臂完成此前学过的任务，来源：Google DeepMind

用 DeepMind 的话来说，RoboCat 是一个 " 自我提升的通才 "，因为它是基于一个良性的训练循环来学习新任务。简单来说，它学习的新任务越多，它就能更好地学习和解决额外的新任务。

最初版本的 RoboCat，在每个新任务进行 500 次演示后，只有 36% 的概率能成功的完成之前从未见过的任务，但是最新版本的 RoboCat 已经将这一成功率提升至 74%。

这些提升归功于 RoboCat 不断增长的经验广度，就像人类在特定领域不断深化学习，从而发展出更加多样化的能力一样。

今天，机器人在我们的生活中已经广泛应用，但大部分机器人只能完成特定的任务，这些机器人基本上都是被提前编程设定好的。

在制造可以完成更多种类任务的 " 通用机器人 " 方面，研究进展一直很缓慢，因为收集现实世界中的训练数据是非常费时费力的。

RoboCat 这种独立学习技能、快速自我提升的能力，以及对于不同硬件设备的快速适应能力，将对新一代通用机器人 AI 智能体的发展起到重要推动作用。

结语：多模态 AI 模型引入，通用机器人研究再进一步

在全球 AI 研究热点涌向大模型的当下，谷歌 DeepMind 似乎对大模型竞赛并不热衷，仍专注于解决 AI 如何与物理世界交互的问题，并将研究重心锁定在优化机器人技术的基础模型上。

而最新发布的 RoboCat，绝对是个了不起的 AI 模型。它通过视觉目标调节解决了不同平台的各种拾取和放置任务，只需 100 次演示就能学会在不同的机器人上执行各种任务，从自生成训练数据提高技能的方法令人眼前一亮。

多模态 AI 模型的引入，为迈向通用机器人的历程贡献了又一个激动人心的进展！

来源：Google DeepMind

查看原文宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

ZAKER旗下新媒体协同创作平台

相关标签机器人机械臂ai技能谷歌

导航

宙世代

智慧云

最新评论

拟投资60亿元！上汽集团加码汽车芯片

全球要闻：成长

腾讯汤道生：行业需要可控可追溯可修正的大模型

容大感光：半导体和显示用光刻胶产品预计有不错的增长世界观天下

金钱串怎么养

观点：布林肯起飞前，还来不及高兴就收到坏消息，这次出手的不是中国

华西证券：给予伯特利买入评级-动态

河北省交管局发布2023年端午假期易拥堵路段及事故隐患位置

【世界快播报】U24男足力克韩国队，提气！＆U17男足，25分钟丢4球……

每日关注!英媒：英国食品价格将继续维持高位

导航

宙世代

智慧云