在机器人和人工智能、大模型快速融合的当下,机器人时代似乎正在飞速到来。正如英伟达高级科学家Jim Fan表示——2024年或许正是机器人年。

简单来说,因为在原先,机器人进行某项动作需要借助人工编程来实现,如今,却可以通过预训练和大模型,将机器人“看到的、听到的”直接转化成程序,并且机器人自主执行。目前机器人前沿研究者们正在该方向上不断努力,提高这个流程的顺畅度和完善度。

近日,谷歌DeepMind团队就展示了采用了AutoRT、SARA-RT和RT-Trajectory等技术,让机器人已经能够更快地做出决策,更好地理解环境,并在环境中自主导航进行任务。

谷歌DeepMind团队公布的三项技术,到底意味着什么?(图1) data-backh="375" data-backw="562" data-galleryid="" data-imgfileid="502858769" data-ratio="0.6680988184747583" data-s="300,640" data-type="png" data-w="931">

谷歌表示在过去 7 个月的时间里,部署了一支由 53 台 AutoRT 机器人组成的机群,分别部署在四个不同的办公楼,并进行了超过 77000 次试验,结果取得了非常不错的成绩。一些机器人可以由人类操作员远程控制,而另一些则根据模型泛化,或完全自主地使用谷歌的RT-2人工智能学习模型运行。

AutoRT是一个更强大的数据集聚合系统,它结合了视觉语言模型(VLM)、大语言模型(LLM)以及机器人控制模型(RT-1或RT-2),进一步开发了大模型的潜力,让机器人在新环境中收集训练数据,并通过收集数据帮助扩展机器人学习,从而更好地训练机器人适应现实世界。

AutoRT可一次性控制20个机器人,每个机器人只需配备一个摄像头、机械臂和移动底盘。机器人会利用视觉语言模型来了解其周围环境和视线内的物体,而大语言模型则会提出一系列机器人可以执行的创造性任务,比如把零食放在台面上,或者扮演决策者为机器人选择合适的任务。该技术的使用使得机器人展现出能够快速理解环境,适应陌生泛化环境,并决定适当的任务处理决策表现的能力,实践表明,应用该技术使得机器人执行动作准确率提高了10.6%,速度提高了14%。

AutoRT里面还有一个值得注意的功能是行为边界的设计,该设计加入了一个“以安全为重点的提示”,并限制了机器人的关节输出力矩,力超过一定阈值时自动停止,这可以让 LLM 避免选择涉及人类、动物、尖锐物体甚至电器的任务,同时为了保障机器人和人工智能的安全性,还配有专门的物理急停按钮。

谷歌DeepMind团队公布的三项技术,到底意味着什么?(图2) data-backh="407" data-backw="562" data-galleryid="" data-imgfileid="502858770" data-ratio="0.725" data-type="gif" data-w="640">

另一项新技术是 SARA-RT,这是一种能让机器人Transformer更高效的架构。虽然其核心还是一种神经网络架构,可是使用一种新颖的「向上训练」方法,从而将机器人Transformer模型转换为更高效的版本,降低了机器人部署所需的计算要求,避免了进入大空间和复杂环境后由于输入计算量暴增导致的模型衍生速度问题,做到了比现有的 Robotic Transformer RT-2 更准确,决策速度也更快。

因为SARA提供了加速Transformer的通用方法,这意味着未来机器人不再需要算力昂贵的预训练,而是可以借助深度视觉的融合性点云图,加快机器人深度摄像头的空间数据处理能力,这种线性变量的植入减少了所需代码的数量,有望未来真正实现0样本学习。

RT-Trajectory则提供了一种模型泛化的方法,并添加了物体2D 轮廓,这使得系统可以在训练视频中自动添加描述机器人运动的视觉轮廓,拆分成图像和文本,并生成命令语句。原理上就是RT-Trajectory会在训练数据集中采集每个视频,并将其与机器人手臂抓手执行任务时的2D轨迹草图叠加,这些轨迹为模型学习机器人控制策略提供了低级实用的视觉提示。

谷歌DeepMind团队公布的三项技术,到底意味着什么?(图3) data-backh="558" data-backw="562" data-galleryid="" data-imgfileid="502858771" data-ratio="0.99375" data-type="gif" data-w="640">

举个例子,对人类来说,理解如何擦桌子是一种手眼脑融合的复合动作,但机器人想要实现,则需要拆解这个动作,并通过多种方式将动作指令转化为实际程序。传统上,训练机械臂依赖于将抽象的自然语言(如擦桌子)映射到特定动作,例如闭合抓手、向左移动、向右移动,但这使得模型很难推广到新的任务中,并且落地部署难度大。

DeepMind表示,相比之下,RT-Trajectory模型能够学会“拆分任务”,即通过解释视频或草图中包含的特定机器人动作,形成条线式命令语句,让机器人理解“如何做”任务。该系统用途广泛,例如它还可以通过观看人类演示任务来创建轨迹,甚至可以接受手绘草图,也可以轻松适应不同机器人平台。

DeepMind认为,将模型和相关技术不断完善,不仅是为了帮助机器人更好地执行擦桌子等日常特定的物理任务,这一优化还主要希望帮助人们真正开发能够理解人类实际目标的机器人,从而为机器人走进千家万户创造条件。

----------------END-------------------