当前位置: 首页 >财经 > 内容

新的AI在视频游戏挑战中摧毁了Google DeepMind

财经
导读 一种新的算法使Atari视频游戏的掌握速度比最先进的AI快10倍,并且采用了突破性的解决问题的方法。设计可以协商规划问题的人工智能,尤其是...

一种新的算法使Atari视频游戏的掌握速度比最先进的AI快10倍,并且采用了突破性的解决问题的方法。设计可以协商规划问题的人工智能,尤其是奖励不是很明显的人工智能,是推动该领域最重要的研究挑战之一。一项着名的2015年研究显示,Google DeepMind AI学会了将视频弹球等Atari视频游戏发挥到人性化水平,但由于游戏的复性,臭名昭着的未能通过20世纪80年代电子游戏Montezuma's Revenge的第一把关键路径。在澳大利亚墨尔本皇家墨尔本理工大学开发的新方法中,计算机设置为自主玩蒙特祖玛的复仇从错误中学习并确定子目标比谷歌DeepMind快10倍完成游戏。

来自皇家墨尔本理工大学的Fabio Zambetta副教授于本周五在美国第33届AAAI人工智能会议上公布了这种新方法。

该方法是与RMIT的John Thangarajah教授和Michael Dann合作开发的,它将“胡萝卜加大棒”强化学习与内在激励方法结合起来,奖励人工智能,使其好奇并探索其环境。

“真正智能的AI需要能够学会在模糊的环境中自主完成任务,”Zambetta说。

“我们已经证明,正确的算法可以使用更智能的方法来改善结果,而不是纯粹粗暴地在非常强大的计算机上端到端地解决问题。

“我们的研究结果表明,如果我们希望在这一领域取得实质性进展,我们能够更加接近自主AI,并且可能成为一个重要的调查线。”

Zambetta的方法奖励系统自主探索有用的子目标,例如“攀爬那个阶梯”或“跳过那个坑”,这对于计算机而言,在完成更大任务的背景下可能并不明显。

其他最先进的系统需要人工输入来识别这些子目标,否则决定下一步随机做什么。

“不仅我们的算法在玩Montezuma's Revenge时自动识别相关任务的速度比Google DeepMind大约快10倍,他们还表现出相对类似人类的行为,”Zambetta说。

“例如,在你可以进入游戏的第二个屏幕之前,你需要确定一些子任务,例如爬梯子,跳过一个敌人,然后最终拿起钥匙,大致按照这个顺序。

“这最终会在很长一段时间后随机发生,但在我们的测试中如此自然地发生了某种意图。

“这使我们成为第一个完全自主的面向目标的代理商,与这些游戏中最先进的代理商真正竞争。”

Zambetta表示,当提供原始视觉输入时,该系统可以在视频游戏之外的各种任务中工作。

“创建一个可以完成视频游戏的算法可能听起来微不足道,但我们设计的一个可以应对歧义的事实,同时从任意数量的可能行​​动中选择是一个关键的进步。

“这意味着,随着时间的推移,这项技术对于实现现实世界的目标将是有价值的,无论是在自动驾驶汽车中还是在自然语言识别中作为有用的机器人助手,”他说。

将于2019年2月1日在夏威夷檀香山举行的第33届AAAI人工智能会议上,自主推导子目标以加速稀疏奖励领域的学习(附件)。

免责声明:本文由用户上传,如有侵权请联系删除!