信阳机械设备网

当前位置: 首页 >> 机床设备

研究人员开发出新的算法来训练机器人

2021年08月18日 信阳机械设备网

研究人员开发出新的算法来训练机器人

美国陆军研究实验室和德克萨斯大学奥斯汀分校的研究人员已经开发了用于机器人或计算机程序的新技术,以学习如何通过与人类教练互动来执行任务。

该研究的结果将在2月2日至7日在路易斯安那州新奥尔良举行的人工智能进步协会会议上进行介绍和发布。

研究人员开发出新的算法来训练机器人 中国机械网,okmao.com

ARL和UT研究人员考虑了一个特定的情况,即人们以批评的形式提供实时反馈中国机械网okmao.com。ARL / UT团队首先由协作者Peter Stone博士(他是德克萨斯州大学奥斯汀分校的教授)与他的前博士生Brad Knox一起作为TAMER引入,或者通过评估强化手动训练代理,然后,ARL / UT团队开发了一种新算法叫做Deep TAMER。

它是TAMER的扩展,它使用深度学习-一类机器学习算法,受到大脑的宽松启发,使机器人能够通过与人类教练一起在短时间内观看视频流来学习如何执行任务的能力。

根据陆军研究员加勒特·沃内尔(Garrett Warnell)博士的说法,研究小组考虑了一种情况,在这种情况下,人们通过观察和提供批判来教给特工如何做人,例如“好工作”或“坏工作”,类似于人的训练方式。

狗做个把戏。沃内尔说,研究人员扩展了该领域的早期工作,以便对目前可以通过图像看到世界的机器人或计算机程序进行这种训练,这是设计可在现实世界中运行的学习代理的重要的第一步。

人工智能中的许多当前技术要求机器人与环境进行长时间交互,以学习如何最佳地执行任务。在此过程中,代理可能会执行不仅是错误的操作(例如,机器人撞到墙壁上),而且还会发生灾难性的操作(例如,机器人在悬崖边上奔跑)。沃内尔说,人类的帮助将加快代理商的步伐,并帮助他们避免潜在的陷阱。

第一步,研究人员通过将其与15分钟人工提供的反馈一起使用来证明Deep TAMER的成功,该反馈可训练代理在Atari保龄球比赛中表现得比人类更好。人工智能中最先进的方法。接受过TAMER训练的特工表现出了超人的能力,不仅击败了他们的业余教练,而且平均击败了专业的Atari球员。

在接下来的一到两年内,研究人员有兴趣探索其最新技术在更广泛的环境中的适用性:例如,除了Atari Bowling之外的视频游戏和其他模拟环境,它们可以更好地表示当发现时的代理商类型和环境在现实世界中部署机器人。

他们的工作将在AAAI 2018会议录中发表。

ARL研究人员Garrett Warnell博士(左)和德克萨斯大学奥斯汀大学教授Peter Stone博士是一个团队的成员,该团队开发了用于机器人或计算机程序的新技术,以学习如何通过与人类讲师互动来执行任务。他们将在2月2日至7日在路易斯安那州新奥尔良举行的人工智能进步协会会议上介绍这项研究的结果。信用:美国陆军研究实验室

沃内尔说:“未来的军队将由士兵和自主队友并肩工作。”

“虽然可以对人员和自治人员进行事先培训,但将不可避免地要求团队在前所未有的新环境中执行任务,例如搜索,救援或监视。在这种情况下,人员非常擅长概括他们的训练,但目前没有人为情报人员。”

Deep TAMER是其研究人员所设想的一系列研究的第一步,它将使陆军中更成功的人类自治团队获得成功。最终,他们希望自治代理能够以各种方式(例如示范,自然语言指导和批判)快速,安全地向人类队友学习。