当然,人工智能可以写十四行诗,也可以翻唱还过得去的《荷马·辛普森涅槃》(Homer Simpson Nirvana)。但如果有人要欢迎我们的新技术霸主,他们就需要具备更实用的能力——这就是为什么 Meta 和 Nvidia 让他们的系统练习从笔尖技巧到协作家务劳动的所有内容。
巧合的是,这两家科技巨头今天早上都发表了新的研究,涉及教导人工智能模型与现实世界互动,基本上是通过巧妙地使用模拟模型。
事实证明,现实世界不仅是一个复杂而混乱的地方,而且是一个发展缓慢的地方。学习控制机器人并执行打开抽屉和放入物品等任务的智能体可能需要重复该任务数百或数千次。这需要几天时间——但如果你让他们在现实世界的相当逼真的模拟中做到这一点,他们可以在一两分钟内学会几乎同样出色的表现。
使用模拟器并不是什么新鲜事,但 Nvidia 增加了一个额外的自动化层,应用大型语言模型来帮助编写强化学习代码,指导简单的 AI 更好地执行任务。他们称之为“进化驱动的通用奖励套件”(Evolution-driven Universal REward Kit for Agent)或“EUREKA”。(是的,这是一个延伸。)
假设您想教代理拾取物体并按颜色对其进行分类。有很多方法可以定义和编码此任务,但有些方法可能比其他方法更好。例如,机器人应该优先考虑减少动作还是缩短完成时间?人类很擅长对这些进行编码,但找出最好的有时可能需要反复试验。Nvidia 团队发现,经过代码训练的法学硕士在这方面出人意料地出色,在奖励函数的有效性方面大部分时间都优于人类。它甚至迭代自己的代码,不断改进并帮助其推广到不同的应用程序。
上面令人印象深刻的钢笔技巧只是模拟的,但它的创建所花费的人力时间和专业知识比没有 EUREKA 时要少得多。使用该技术,代理在一组其他虚拟灵活性和运动任务中表现出色。显然它可以很好地使用剪刀,这……可能很好。
当然,让这些行为在现实世界中发挥作用是另一个不同的挑战——实际上是“体现”人工智能。但这是一个明显的迹象,表明英伟达对生成式人工智能的拥抱不仅仅是说说而已。
未来机器人伴侣的新栖息地
Meta 也热衷于实体人工智能,它今天宣布了几项进展,首先是新版本的“Habitat”数据集。该版本的第一个版本于 2019 年发布,基本上是一组近乎真实且经过仔细注释的 3D 环境,AI 代理可以在其中导航。同样,模拟环境并不新鲜,但 Meta 试图让它们更容易获得和使用。
后来它推出了2.0 版本,提供了更多交互性更强、物理更真实的环境。他们开始建立一个也可以填充这些环境的对象库——许多人工智能公司发现这是值得做的。
现在我们有了 Habitat 3.0,它增加了人类化身通过 VR 共享空间的可能性。这意味着人们或接受过人类行为训练的代理可以与机器人一起进入模拟器,同时与它或环境进行交互。
这听起来很简单,但却是一项非常重要的能力。假设您想训练一个机器人来清理客厅,将咖啡桌上的菜肴带到厨房,并将散落的衣物放入篮子中。如果机器人独自一人,它可能会制定一种策略来执行此操作,该策略很容易被附近走动的人打乱,甚至可能为其做一些工作。但是,如果人类或类似人类的代理共享该空间,它可以在几秒钟内完成数千次任务,并学会与他们一起工作或在他们周围工作。
他们将清理任务称为“社交重新安排”,将另一项重要任务称为“社交导航”。这就是机器人需要不引人注意地跟随周围的人,以便保持在可听见的范围内或出于安全原因监视他们的地方——想象一个在医院里陪伴某人去洗手间的小机器人。
现实世界中执行拾放任务的 Spot 机器人
他们称之为 HSSD-200 的新 3D 内饰数据库也提高了环境的保真度。他们发现,在大约 100 个这样的高保真场景中进行训练比在 10,000 个低保真场景中进行训练产生更好的结果。
Meta 还谈到了波士顿动力公司的 Spot 和 Hello Robot 的 Stretch 的新机器人模拟堆栈 HomeRobot。他们希望通过标准化一些基本的导航和操作软件,使该领域的研究人员能够专注于等待创新的更高层次的东西。
Habitat 和 HomeRobot 可以在其 GitHub 页面上获得 MIT 许可,而 HSSD-200 则获得 Creative Commons 非商业许可 - 所以,研究人员,快去城里吧。