在机器人世界中,您首先发现的事情之一就是简单任务的复杂性。对人类来说看似简单的事情可能蕴含着我们认为理所当然的无限变量。机器人没有这样的奢侈。
这正是业界大部分关注结构化环境中可重复任务的原因。值得庆幸的是,机器人学习领域近年来取得了一些改变游戏规则的突破,该行业正在创建和部署更具适应性的系统。
去年,谷歌 DeepMind 的机器人团队展示了 Robotics Transformer — RT-1 — 它训练其日常机器人系统执行拾取、放置和开奖等任务。该团队表示,该系统基于包含 130,000 次演示的数据库,“超过 700 项”任务的成功率高达 97%。
今天,RT-2 正式揭晓。DeepMind 的杰出科学家兼机器人技术主管 Vincent Vanhoucke在一篇博文中表示,该系统允许机器人有效地将在相对较小的数据集上学到的概念转移到不同的场景中。
谷歌解释说:“RT-2 显示出比它所接触的机器人数据更高的泛化能力以及语义和视觉理解。” “这包括解释新命令并通过执行基本推理(例如关于对象类别或高级描述的推理)来响应用户命令。” 该系统有效地展示了根据现有上下文信息确定特定新任务的最佳工具等能力。
范霍克引用了一个场景,其中机器人被要求扔掉垃圾。在许多模型中,用户必须教机器人识别什么是垃圾,然后训练它捡起垃圾并将其扔掉。对于需要执行一系列不同任务的系统来说,这是一个不太可扩展的细节级别。
Vanhoucke 写道:“由于 RT-2 能够从大量网络数据中传输知识,因此它已经知道什么是垃圾,并且无需明确的训练即可识别垃圾。” “它甚至知道如何扔掉垃圾,尽管它从未接受过采取该行动的训练。想想垃圾的抽象本质——一袋薯条或香蕉皮在你吃了之后就变成了垃圾。RT-2 能够从其视觉语言训练数据中理解这一点并完成工作。”该团队表示,从 RT-1 到 RT-2,执行新任务的效率从 32% 提高到 62%。