TRI 的机器人专家首先通过远程操作(机器人学习中的常用工具)来教授系统。在这里,这个过程可能需要单调的几个小时,其中系统会一遍又一遍地重复相同的任务。
“你可以将其视为远程驾驶机器人进行演示,”伯奇菲尔说。“目前这个数字通常是几十个。教授基本行为通常需要大约一个小时。系统并不真正关心你如何控制机器人。我们最近使用的设备是一种遥控设备,它实际上在机器人和人之间传递力,它可以实现更多更灵巧的行为。这意味着人们可以感觉到机器人在与世界互动时正在做什么。它可以让你做其他你无法协调的事情。”
该系统利用提供给它的所有数据,包括视觉和力反馈,来生成更全面的任务图景。只要收集到的数据之间存在一些重叠(例如,将视觉与触摸相关联),它就能够使用内置传感器复制该活动。力反馈是了解您是否正确握住工具的关键。
TRI 表示,其最初的触觉实验“非常有希望”。例如,翻转煎饼的成功率高达 90%,30 次翻转中有 27 次成功——比非触觉试验的成功率略有提高,后者的成功率为 83%。另一方面,这个数字在面团擀制(96%)和食品供应(90%)方面非常明显。如果没有触觉感知,这些数字将分别下降至 0% 和 10%。
一旦这方面的训练完成,系统就不会受到影响,因为它们的神经网络会在一夜之间开始训练。如果一切按计划进行,那么当研究人员第二天早上返回实验室时,这项技能就已经完全掌握了。
该系统依赖于扩散策略,据其背后的研究人员称,这是“一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法”。简而言之,它的作用是通过消除过程中的“噪音”来找到随机图像的意义。同样,它与我们在生成人工智能世界中看到的大部分内容相似,但这项研究正在利用流程在机器人中创建行为。
我最近意识到我正在考虑机器人学习。我之前曾认为不同的机器人教学方法是相互冲突的——最终,一种更优越的方法会取代其他方法。我很清楚,前进的道路将是不同方法的结合,就像人类学习的方式一样。所有这一切的另一个重要方面是车队学习——实际上是一个可集中访问的基于云的系统,机器人可以用它来教学和学习彼此的经验。
接下来的关键步骤之一是创建大型行为模型来帮助机器人学习。“我们正在努力扩大规模,”机器人研究副总裁 Russ Tedrake 说。“我们已经培训了 60 项技能,到今年年底培训了 100 项技能,到明年年底培训了数千项技能。我们还不知道缩放定律。当全新的东西出现在另一端时,我们需要训练多少技能?我们正在研究这个。我们现在处于这样的体制中,我们可以开始提出这些非常基本的问题,并开始寻找法律来了解我们所处的时间表。”
在未来的道路上,该团队希望这些发现能够带来更强大的机器人,它们可以在新的环境中处理新的物体,同时根据经过训练的行为动态地创建动作。在许多情况下,任务由可以串在一起并执行的较小行为组成。当然,一切都在适当的时候。
与此同时,Pratt 将于周四加入波士顿动力人工智能研究所执行董事 Marc Raibert,成为 Disrupt 硬件舞台的一部分。两人将讨论这些突破以及更多内容。