首页 科技开发工具 娱乐游玩工具 热门工具   APP 登录/注册 联系/合作
   
 
一种在拥挤环境中改进机器人导航的新方法
尽管机器人在过去几年中变得越来越先进,但它们中的大多数仍然无法可靠地在非常拥挤的空间中导航,例如城市环境中的公共区域或道路。然而,要在未来的智慧城市中大规模实施,机器人需要能够可靠、安全地在这些环境中导航,而不会与人类或附近的物体发生碰撞。

萨拉戈萨大学和西班牙阿拉贡工程研究所的研究人员最近提出了一种新的基于机器学习的方法,可以改善室内和室外拥挤环境中的机器人导航。在arXiv服务器上预发表的一篇论文中介绍的这种方法需要使用内在奖励,本质上是 AI 代理在执行与其试图完成的任务不严格相关的行为时收到的“奖励”。

“自主机器人导航是一个悬而未决的问题,尤其是在非结构化和动态环境中,机器人必须避免与动态障碍物发生碰撞并到达目标,”进行该研究的研究人员之一 Diego Martinez Baselga 告诉 Tech Xplore . “深度强化学习算法已被证明在成功率和达到目标的时间方面 具有很高的性能,但仍有很多需要改进的地方。”

Martinez Baselga 和他的同事介绍的方法使用内在奖励,奖励旨在增加代理人探索新“状态”(即与其环境的交互)的动机或降低给定场景中的不确定性水平,以便代理人能够更好地预测他们行为的后果。在他们的研究中,研究人员特别使用这些奖励来鼓励机器人访问其环境中的未知区域并以不同的方式探索其环境,以便它能够随着时间的推移学会更有效地导航。
最先进的用于人群导航的深度强化学习的大部分工作都集中在改进网络和机器人感知的处理上,”Martinez Baselga 说。“我的方法研究如何在训练期间探索环境以改进学习过程。在训练中,机器人不会尝试随机动作或最佳动作,而是尝试做它认为可以从中学到更多东西的事情。”

Martinez Baselga 和他的同事使用两种不同的方法评估了使用内在奖励来解决机器人在拥挤空间中导航的潜力。其中第一个集成了所谓的“内在好奇心模块”(ICM),而第二个基于一系列称为随机编码器的算法以进行有效探索(RE3)。

研究人员在CrowdNav 模拟器上运行的一系列模拟中评估了这些模型。他们发现,他们提出的两种整合内在奖励的方法优于先前开发的用于在拥挤空间中进行机器人导航的最先进方法。

将来,这项研究可以鼓励其他机器人专家在训练他们的机器人时使用内在奖励,以提高他们应对不可预见情况并在高度动态环境中安全移动的能力。此外,Martinez Baselga 和他的同事测试的两个基于奖励的内在模型很快就可以在真实机器人中进行集成和测试,以进一步验证它们的潜力。

“结果表明,应用这些智能探索策略,机器人学习速度更快,最终学到的策略更好;并且它们可以应用于现有算法之上以改进它们,”Martinez Baselga 补充道。“在我接下来的研究中,我计划改进机器人导航中的深度强化学习,使其更安全、更可靠,这对于在现实世界中使用它非常重要。”
最新文章:
所有文章资讯、展示的文字、图片、数字、视频、音频、其它素材等内容均来自网络媒体,仅供学习参考。内容的知识产权归属原始著作权人所有。如有侵犯您的版权,请联系我们并提供相应证明,本平台将仔细验证并删除相关内容。
工具综合排行榜
TOP 1
双计算器 双计算器
同时用两个计算器,用于价格对比、数字分别计算等
TOP 2
推算几天后的日期 推算几天后的日期
推算从某天开始,增加或减少几天后的日期
TOP 3
随机密码生成 随机密码生成
随机生成安全复杂的密码,自由设置密码长度及复杂度
TOP 4
推算孩子的血型 推算孩子的血型
根据父母的血型推测子女的血型
TOP 5
日期转中文大写 日期转中文大写
把数字日期转成中文大写,是财务或商务合同常用的工具
热门内容:       双计算器       推算孩子的血型       随机密码生成       日期转中文大写       推算几天后的日期       达轻每日一景       高校分数线       高校查询       周公解梦大全
首页 科技开发工具大全
娱乐游玩工具大全
登录/注册
联系我们
  用户咨询/建议
kf@ss3316.com


商务合作/推广
hz@ss3316.com

达轻工具 APP

访问手机版网站
使用本平台必读并同意:任何内容仅供谨慎参考,不构成建议,不保证正确,平台不承担任何责任,同意用户协议隐私政策   
BaiduTrust安全认证签章
© 达轻科技 版权所有 增值电信业务经营许可证 ICP备 沪B2-20050023-3