DeepMind“机器猫”自学成才，能操作多个机器人、不依赖人类监督

智东西（公众号：zhidxcom）

(资料图片)

作者 | 云鹏

编辑 | 心缘

智东西6月21日消息，刚刚，谷歌DeepMind推出了一种可以自我改进、自我提升（self-improving）的用于机器人的AI智能体，名为RoboCat。

DeepMind称它是全球第一个可以解决和适应多种任务的机器人AI智能体，并且它可以在各类真实的机器人产品上完成这些任务。

▲RoboCat操控机械臂完成各种各样的任务，来源：Google DeepMind

整体来看，RoboCat最主要的突破在三个方面：

1、DeepMind让一个神经网络能在多个不同的机器人上工作，可以快速操作新的机械臂，解决新的复杂任务。

2、RoboCat学习的新任务越多，就越擅长学习和解决额外的新任务。

3、RoboCat是通用机器人领域的重要研究进展，能够减少对人类监督训练的需求。

▲RoboCat解决更多类型的任务，来源：Google DeepMind

AI智能体可以自己操控机械臂，学习玩套圈、搭积木、抓水果了！效率极高，还不需要多少人力。

只需要通过100次左右的演示，RoboCat就可以学会操控机械臂来完成各式各样的任务，并且它还能通过自生成的数据来进行迭代改进。

最重要的是，不论是它操控的机械臂还是它要完成的任务，RoboCat之前都从来没见过。

▲RoboCat可以解决的各类任务，来源：Google DeepMind

这种“通用性学习能力”是RoboCat的强项，此外，RoboCat最主要的特点就是“学得快”，这种能力对于加快机器人领域的研究有重要意义，因为有了这种能力，人类监督训练的需求就会极大减少，这是创造通用机器人非常重要的一环。

在DeepMind演示视频中，RoboCat可以通过自主学习完成“套圈”、“搭积木”、“拿放水果”等任务。目前RoboCat完成一项新任务的成功率已经从初期的36%提升至74%。

▲RoboCat前后版本完成任务成功率对比，来源：Google DeepMind

并且根据DeepMind论文，RoboCat完成现实世界训练任务的成功率要远高于传统基于视觉的模型方案，领先幅度还是比较明显的，这也是DeepMind研究的重要价值所在。

▲RoboCat与基于视觉的模型在完成现实世界训练任务成功率方面的对比，来源：Google DeepMind

值得一提的是，RoboCat用到的关键技术之一，是一种多模态模型（multimodal model）Gato，而Gato在西班牙语里意为“猫”，也就是“cat”，这也是“RoboCat”这一命名的由来之一。

此前研究人员已经在机器人大规模学习多种任务方面进行了探索，并将对语言模型的理解与现实世界的机器人能力相结合。而RoboCat的进步性在于，它是第一个可以解决和适应多种任务的机器人AI智能体。

DeepMind认为，RoboCat独立学习技能、快速自我提升的能力，以及对于不同硬件设备的快速适应能力，将对新一代通用机器人AI智能体的发展起到重要推动作用。

论文地址：

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/robocat-a-self-improving-robotic-agent/robocat-a-self-improving-foundation-agent-for-robotic-manipulation.pdf

一、套圈、搭积木样样精通，将水果从碗里拿出来总共分几步？

首先，我们来看看这个RoboCat到底能做什么。

从DeepMind的演示视频中我们可以看到，研究人员在机器人的摄像头下面将物体摆好，机器人就会将摆好的物体状态设定为“目标图像”，在设定好目标图像后，研究人员会将物体的摆放位置还原，然后让机器人操作还原刚才的物体摆放状态。

▲RoboCat完成“套圈”任务，来源：Google DeepMind

在“套圈”这个任务中，RoboCat可以很好的操控机械臂还原橘红色圆圈的位置。

在同一类“套圈”任务中，RoboCat还可以解决更复杂的情况，比如区分大圈和小圈并准确套在对应的金属柱上。

▲RoboCat完成更复杂的“套圈”任务，来源：Google DeepMind

DeepMind还演示了一个任务，就是抓水果。这个任务RoboCat已经在此前的训练中看到过，但值得注意的是，此前的训练数据中从来没有过“人手”出现，这次研究人员给RoboCat设定的目标图像中却包含了人手，最终，RoboCat仍然可以顺利完成任务。

▲RoboCat在目标图像有“人手”干扰的情况下完成抓水果任务，来源：Google DeepMind

这还没完，后续研究人员进一步提高难度，让RoboCat操控了一个它之前从未见过的机械臂，这个机械臂跟之前抓水果用的有所不同，但最终RoboCat依然可以操控这一新的机械臂来成任务。

▲RoboCat操控从未见过的机械臂完成此前学过的任务，来源：Google DeepMind

在另一个“搭积木”的测试中，研究人员展示了RoboCat的另一项技能，当目标图像设定好后，不论初始积木位置是怎样的，RoboCat都可以很好的还原目标图像中的积木状态。

▲当目标图像设定好后，不论初始积木位置是怎样的，RoboCat都可以很好的还原目标图像中的积木状态，来源：Google DeepMind

除了搭积木，RoboCat还可以完成将水果从碗里拿进拿出这样的任务。

二、基于超大数据集，还会自我迭代升级，五步就能掌握新本领

具体来看RoboCat背后的硬核技术，DeepMind提到，RoboCat用到了一种多模态模型Gato，Gato模型可以在模拟环境和物理环境中处理语言、图像和动作，研究人员将Gato的架构与一个大型训练数据集进行了结合，这个数据集包含了各种机械臂解决数百个不同任务的图像序列和动作。

在第一轮训练之后，研究人员让RoboCat进入一个“自我提升（self-improvement）”的训练周期，在这个训练周期中，RoboCat会学习解决很多以前从未见过的任务。

每项新任务的学习分为五个步骤：

1、收集100-1000个由研究人员控制的机械臂完成的新任务演示。

2、在新任务所使用的机械臂上微调（Fine-tune）RoboCat，创建一个专用的衍生代理。

3、衍生代理在机械臂上练习10000次，以生成更多的训练数据。

4、将演示数据和自生成数据合并到RoboCat的现有训练数据集中。

5、在新的训练数据集上训练RoboCat的新版本。

▲RoboCat的训练周期示意图，它能够自生成额外的训练数据，来源：Google DeepMind

上述所有这些训练的结合，意味着RoboCat的数据集将包含数百万次的训练轨迹数据，这些数据来自真实机械臂以及模拟机械臂，包括了RoboCat自生成的数据。

▲RoboCat从各种训练数据类型和任务中学习，来源：Google DeepMind

研究人员总共使用了四种不同类型的机器人和各类机械臂来收集基于视觉的数据。

▲RoboCat使用现实和虚拟机械臂积累训练数据，来源：Google DeepMind

三、RoboCat：一个“自我提升的通才”

在上述这种多样化的训练方式下，RoboCat可以在几个小时内学会操作不同的机械臂，包括一些更加复杂的从未见过的机械臂。

RoboCat可以操作这些机械臂完成之前见过的任务，比如套圈、拿取水果，甚至是在对应形状的格子中放上对应形状的物品，这些任务会考验RoboCat操作的精准度、理解力以及对于形状匹配难题的解决能力。

▲RoboCat用新机械臂完成此前学过的任务，来源：Google DeepMind

用DeepMind的话来说，RoboCat是一个“自我提升的通才”，因为它是基于一个良性的训练循环来学习新任务。简单来说，它学习的新任务越多，它就能更好地学习和解决额外的新任务。

最初版本的RoboCat，在每个新任务进行500次演示后，只有36%的概率能成功的完成之前从未见过的任务，但是最新版本的RoboCat已经将这一成功率提升至74%。

这些提升归功于RoboCat不断增长的经验广度，就像人类在特定领域不断深化学习，从而发展出更加多样化的能力一样。

今天，机器人在我们的生活中已经广泛应用，但大部分机器人只能完成特定的任务，这些机器人基本上都是被提前编程设定好的。

在制造可以完成更多种类任务的“通用机器人”方面，研究进展一直很缓慢，因为收集现实世界中的训练数据是非常费时费力的。

RoboCat这种独立学习技能、快速自我提升的能力，以及对于不同硬件设备的快速适应能力，将对新一代通用机器人AI智能体的发展起到重要推动作用。

结语：多模态AI模型引入，通用机器人研究再进一步

在全球AI研究热点涌向大模型的当下，谷歌DeepMind似乎对大模型竞赛并不热衷，仍专注于解决AI如何与物理世界交互的问题，并将研究重心锁定在优化机器人技术的基础模型上。

而最新发布的RoboCat，绝对是个了不起的AI模型。它通过视觉目标调节解决了不同平台的各种拾取和放置任务，只需100次演示就能学会在不同的机器人上执行各种任务，从自生成训练数据提高技能的方法令人眼前一亮。

多模态AI模型的引入，为迈向通用机器人的历程贡献了又一个激动人心的进展！

来源：Google DeepMind

关键词：