54人天团教机器人强推理，谷歌DeepMind重组大力出奇迹

丰色萧箫发自凹非寺

量子位 | 公众号 QbitAI

爆火的大模型，正在重塑谷歌DeepMind的机器人研究。

(资料图片)

最新成果之一，就是他们耗时7个月打造的机器人项目RT-2，狠狠在网上火了一把：

效果究竟有多好？

只需用人话下达命令，面前这个小家伙就能挥动机械臂，思考并完成“主人的任务”。

像是给流行歌手霉霉（Taylor Swift）递水、或是辨认明星球队Logo：

甚至能主动思考，让它“捡起已灭绝的动物”，就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确pick恐龙。

用网友的话来说，别小看这个能力，这是实现了从“灭绝的动物”到“塑料恐龙”的逻辑飞跃。

更“要命”的是，它还能轻松解决“给疲惫的人选一种饮料”这种需要结合思想链的多阶段推理问题——一听到命令小手就直奔红牛而去，简直不要太聪明。

有网友看完感叹：

等不及了，赶紧快进到给人类洗碗吧（手动狗头）

据了解，谷歌DeepMind这项成果由54位研究员合作产出，前前后后拉扯7个月，最终才变成我们看到的这样“so easy”。

《纽约时报》介绍称，谷歌DeepMind机器人技术主管Vincent Vanhoucke认为，大模型彻底改变了他们部门的研究方向：

由于（大模型）这一变化，我们不得不重新考虑整个研究项目。

我们之前研究的很多东西，都已经完全失效了。

所以，RT-2究竟能实现什么样的效果，这研究又具体是怎么一回事儿？

将多模态大模型“塞进”机械臂

这个名叫RT-2（Robotic Transformer 2）的机器人项目，是去年年底发布的RT-1的“进化版”。

相比于其他的机器人研究，RT-2的核心优势在于，不仅能理解“人话”，还能对“人话”进行推理，并转变为机器人能理解的指令，从而分阶段完成任务。

具体来说，它具备三大能力——符号理解（Symbol understanding）、推理（Reasoning）和人类识别（Human recognition）。

第一个能力是“符号理解”，能将大模型预训练的知识，直接延展到机器人此前没见过的数据上。例如机器人数据库中虽然没有“红牛”，但它却能从大模型的知识中理解并掌握“红牛”的外貌，并拿捏物品。

第二个能力是“推理”，这也是RT-2的核心优势，要求机器人掌握数学、视觉推理和多语言理解三大技能。

技能一，包含数学逻辑推理的命令，“将香蕉放到2+1的总和的位置”：

技能二，视觉推理，像是“将草莓放进正确的碗中”：

技能三，多语言理解，即使不用英语也能完成指令，例如用西班牙语命令它“从一堆物品中挑出最与众不同的那个”：

第三个能力是人类识别，准确识别并理解人类的行为，像开头看到的“将水递给泰勒·斯威夫特”例子就是能力展现之一。

那么，这三个能力是怎么实现的？

简单来说，就是将视觉-文本多模态大模型（VLM）具备的“推理”、“识别”、“数学”等能力，和机器人的操作能力结合起来。

为了实现这一点，研究人员直接给视觉-文本大模型（VLM）增加了一个模态，叫做“机器人动作模态”，从而把它变成了视觉-文本-动作大模型（VLA）。

随后，将原本非常具体的机器人动作数据，转变成文本token。

例如将转动度数、放到哪个坐标点等数据，转变成文本“放到某个位置”。

这样一来，机器人数据也能被用到视觉-语言数据集中进行训练，同时在进行推理的过程中，原本的文本指令也会被重新转化为机器人数据，实现控制机器人等一系列操作。

没错，就是这么简单粗暴（手动狗头）

在这次的研究中，团队主要基于谷歌的一系列基础大模型来“做升级”，包括50亿和550亿的PaLI-X、30亿的PaLI以及120亿的PaLM-E。

为了提升大模型本身的能力，研究人员也下了不少功夫，把最近爆火的思维链、向量数据库和无梯度架构（no-gradient architectures）都用上了。

这一系列操作，也让RT-2和去年发布的RT-1相比，具有了不少新优势。

下面就来看看具体的实验结果。

性能可达RT-1三倍

RT-2使用上一代机器人模型RT-1的数据进行训练（也就是说数据没变，只是方法不同了）。

这些数据是用13个机器人在办公室搭建的一个厨房环境中耗时17个月收集到的。

在实际测试中（一共历经6000次），作者给了RT-2许多以前未见过的物体，需要RT-2在微调数据之外进行语义理解来完成任务。

结果完成的都相当不错：

包括从简单的识别字母、国旗、人物到从玩偶中识别陆生动物、选出颜色不相同的那只，甚至是捡起快要从桌上掉下去的零食等复杂的命令。

而从符号理解、推理和人类识别这三个细分能力上来看，RT-2的两个变体都比RT-1和另一种视觉预训练方法VC-1要好很多，性能最高可达3倍。

如前文所述，这两个变体分别在120亿参数的PaLM-E和550亿参数的PaLI-X上进行训练。

具体的泛化能力评估上，通过与多个基线模型的多类细分测试，最终发现RT-2性能提高了大约2倍。

（稍显遗憾的是，我们还没看到它和其他团队最新基于LLM的机器人方法进行对比）

而为了更好地理解RT-2的不同设置如何影响泛化结果，作者又设计了两大类评估：

一是在模型尺寸上，仅在RT-2 PaLI-X变体分别采用50亿参数与550亿参数进行训练；

二是训练方法上，分别采用从头开始训练模型vs微调vs协同微调的方法。

最终结果表明，视觉语言模型预训练权重的重要性以及模型泛化能力有随着模型大小而提高的趋势。

另外，作者还在开源语言表基准上评估了RT-2，结果显示它在模拟基准上实现了SOTA结果（90%vs之前的77%）。

最后，由于RT-2 PaLM-E变体是一个视觉-语言-动作模型，可以在单个神经网络中充当LLM、VLM和机器人控制器，因此RT-2还可以执行可控的思想链推理。

如下图所示的5个需要推理的任务中（尤其最后一个非常有意思：选择可以替代锤子的物品），它接到命令后会先输出自然语言步骤，然后再给出具体的动作token。

最最后，总结来说，这个最新的RT-2模型，不仅能更好地适用于不同的、机器此前没见过的场景中，泛化能力更好了；与此同时，由于有了更好的大模型加持，它也掌握了一些有难度的新能力，比如推理。

One More Thing

谷歌将机器人研究的重心放在大模型上，似乎也不是“空穴来风”。

就在这两天，他们和哥伦比亚大学合作的一篇关于“用大模型帮助获取更多机器人操作技能”的论文，同样很火：

这篇论文提出了一种新的框架，不仅能让机器人很好地适应大模型，同时还能保留原本机器人的基础操作和控制能力：

和RT-2有所不同的是，这一项目已经开源：

属实是用大模型带动整个机器人部门升级了。

再联想到前不久李飞飞团队的具身智能成果，可以说，用大模型带动机器人着实成为一种研究趋势，且已经让我们看到了一波非常有潜力的进展。

对于这个研究方向，你有哪些期待？

项目地址：

https://robotics-transformer2.github.io/

关键词：