编译:肖琴
【新智元导读】《蒙特祖玛的复仇》是一个出了名困难的游戏,是强化学习的一大寻衅。本文作者长期从事深度强化学习研究,他认为DeepMind和OpenAI占领蒙特祖玛的复仇并没有看上去意义那么重大,深度强化学习的长期目标是让智能体具备先验知识,可以从零开始玩游戏。
最近,DeepMind和OpenAI都宣告他们开拓了可以学习完成Atari 2600游戏《蒙特祖玛的复仇》第一关的智能体。他们这些流传宣传很主要,由于《蒙特祖玛的复仇》这个游戏对付AI研究来说很主要。与街机学习环境(Arcade Learning Environment,ALE)里的绝大多数游戏不同,大多数游戏现在很随意马虎被利用深度学习的agent办理掉,达到超越人类水平的表现。但《蒙特祖玛的复仇》一贯没有被深度强化学习方法办理,而且被一些人认为在未来的几年里都无法办理。

蒙特祖玛的复仇的第一个房间
蒙特祖玛的复仇与ALE中其他游戏的差异在于,它的褒奖(rewards)相对少。这意味着agent只在永劫光完成特定的一系列动作之后才会收到褒奖旗子暗记。在蒙特祖玛的复仇的第一个房间里(见上图1),这意味着agent要从梯子高下来,用绳子跳过一个空地,从另一个梯子下来,跳过一个会移动的仇敌,末了还要爬上另一个梯子。所有这些只是为了在第一个房间里拿到第一把钥匙!
在游戏的第一关,有23个这样的房间,agent要在这些房间里拿到所有钥匙,才能完成这个关卡(见图2)。更繁芜的是,游戏中导致失落败的条件也相称严格,agent会由于很多可能的事宜导致去世亡,个中最累人的是从高的地方坠落。不熟习这个游戏的人可以试着玩一下,看看你要花多永劫光才能通过第一个房间,更不用说通过第一个关卡了。这个游戏有在线版本:
https://www.retrogames.cz/play_124-atari2600.php?language=EN
蒙特祖玛的复仇第一关
由于难度太高,《蒙特祖玛的复仇》游戏被视为Deep RL方法的一大寻衅。事实上,这款游戏引发了一些更有趣的方法的开拓,这些方法可以对传统的Deep RL算法进行增强或重构,利用新的方法进行分层掌握、探索和体验回放。因此,当DeepMind和OpenAI各自声称已经开拓出能够如此出色地玩这个游戏的算法时,就成了大新闻(至少在有些领域是如此)。
DeepMind和OpenAI在这个游戏到底达到了多厉害的水平呢?是这样先前的技能最高水平是2600分(DeepMind的FuN模型),而新方法可以达到数万分。从工程和理论的角度来看,所有这三种方法都得到了令人印象深刻的结果,所有方法都须要学习。
但是,用深度强化学习来办理蒙特祖玛的复仇的说法并不像它们看起来的那样。在这三种情形下(DeepMind的两篇论文和OpenAI的一篇博客文章),利用人类专家演示都是他们的算法的一个组成部分,这从根本上改变了学习问题的实质。
在这篇文章中,我想谈论的是,这些方法是为理解决蒙特祖玛的复仇游戏的第一个关卡,以及为什么在游戏环境以及Deep RL的长期目标中,这些方法并没有看上去意义重大。末了,我将简要地谈论一下这个出了名困难的游戏中真正重大的结果是什么,这将为这个领域指明提高的方向。
DeepMind的结果:从YouTube学习和Q-Learning
从YouTube学习
DeepMind在5月份发布了一篇引人瞩目的论文“通过不雅观看YouTube来玩困难的探索游戏”(Playing hard exploration games by watching YouTube),里面提出了我们本日先容的办理蒙特祖玛的复仇的三种方法中最有趣的一种。正如题目所示,研究小组设计了一种方法,可以利用专业玩家通关游戏第一关的视频来赞助学习过程。
“从视频学习”这个问题本身便是一个有趣的寻衅,完备超出了游戏本身的寻衅。正如作者所指出的,在YouTube上创造的视频包含了各种各样的artifacts,它们可以阻挡在视频中发生的事情与在ALE中玩游戏的agent可能不雅观察到的事情之间进行映射。为理解决这一“差距”,他们创建了一种方法,能够将对游戏状态(视觉的和听觉的)的不雅观察结果嵌入到一个共同的嵌入空间中。
不同的演示视频和仿照器图像的比较
然后,利用这个嵌入空间为学习智能体供应褒奖。agent不再只接管原始游戏供应的稀疏褒奖,而是还能得到中间褒奖,该中间褒奖对应于沿着专家玩家供应的路径到达检讨点。通过这种办法,agent可以得到更强的学习旗子暗记,终极以41000的分数通过了游戏的第一关。
Q-Learning
大约在YouTube论文揭橥的同时,DeepMind分享了另一组实验的结果,这次的论文标题不那么引人瞩目:“Observe and Look Further: Achieving Consistent Performance on Atari”。
在论文中,他们提出一系列有趣的算法改进Deep Q-learning,提高算法的稳定性和能力。第一个是在Q-update中增加折扣因子(discount factor),这样就可以学习更长期的韶光依赖性,而不须要考虑高折扣因子的范例缺陷。第二种方法是使Deep Q-learning能够阐明不同数量级的褒奖旗子暗记,从而使算法能够办理最优策略涉及学习这些不同褒奖的任务。
除了这两项改进之外,他们还建议利用人类演示(human demonstrations)作为增强探索过程的一种手段,自动向网络供应专业玩家会遵照的状态空间轨迹的信息。结合这三种改进,作者终极得到一个能够以38000分的成绩完成蒙特祖玛的复仇第一关的agent。值得把稳的是,只利用前两项改进(没有人类演示)不敷以在游戏中得到瞩目的表现,得分只有2000多分。
OpenAI的结果:近端策略优化
演习期间利用restart
在DeepMind的结果揭橥几周后,OpenAI发布了一篇博客文章,描述了一种也可以演习智能体完成蒙特祖玛的复仇第一关的方法。该方法也依赖于人类的演示,但他们的方法与DeepMind的方法稍有不同。
在OpenAI的方法中,人类演示不是作为褒奖或学习旗子暗记的一部分,而是作为智能体重新启动(restart)的一种手段。在游戏中给定人类专家的移动轨迹,agent在游戏靠近尾声时启动,然后在每次重新启动的过程中缓慢地往回移动轨迹。这样做的好处是,仅将agent暴露给游戏中人类玩家已经探索过的部分,并随着agent本身变得更强而扩大范围。由于利用了默认的近端策略优化(PPO算法),这种方法对实际学习算法没有任何改变。只要在“精确”的位置启动agent,就足以确保它找到精确的办理方案,终极,该方法得到了历史最高的74500分。
模拟学习的局限性
上述所有方法都有一个共同点,便是它们都利用了一组人类专家的演示。第一种方法利用演示来学习褒奖旗子暗记,第二种方法利用演示来学习更准确的Q值,第三种方法利用演示来更智能地重新启动agent。在这三种情形下,演示对学习过程都至关主要。一样平常来说,利用演示是为agent供应关于任务的故意义的知识的好方法。实际上,这便是我们人类能够学习无数任务的方法。人类从演示中学习的能力的关键是,我们能够对单个演示进行抽象和归纳,并在新的情形中利用。就《蒙特祖玛的复仇》这个游戏而言,与其开拓一种通用的游戏办理方案(如DeepMind的两篇论文所指出的那样),真正被开拓出来的是一种利用游戏的关键弱点作为实验平台的聪明方法:游戏的确定性(determinism)。
不管是人类还是AI智能体,每次玩《蒙特祖玛的复仇》时,都会看到很多完备相同的房间,每个房间都有完备相同的障碍和谜题。因此,对每个房间里的动作进行大略的影象就足以让你得到高分,并且能够通过这一关。虽然如果智能体被迫从头开始学习不一定是明显的毛病,但当这种情形加入了专家演示时,就变成了一个毛病。这三种办理方案都利用了游戏的确定性,使智能体能够更轻松地学习办理方案的路径。终极它学到的不是如何玩困难的游戏,而是如何实行预先确定的一套动作,以完成特定的游戏。
OpenAI的博客文章简要地提到了确定性的问题,但它是在Atari 仿照器本身的层面,而不是在特定的游戏层面。他们的办理方案是利用一个随机的跳帧掌握(frame-skip)来阻挡agent记住轨迹。虽然这阻挡了agent影象一系列的动作,但它并不阻挡通过状态空间来影象一样平常轨迹。
在所有这些情形下,《蒙特祖玛的复仇》这个游戏不再是稀疏褒奖问题的一个很难办理的问题,而是变成了通过固定的状态空间学习轨迹一个更随意马虎的问题。这是令人遗憾的,由于在最初的构想中,这个游戏仍旧可能为深度强化学习的研究者供应更具吸引力的寻衅。
办理蒙特祖玛的复仇——困难的道路
几年来,我一贯密切关注着蒙特祖玛的复仇的结果,由于我把它们看作是一种试金石,用来考验深度强化学习是否开始显示出更一样平常的推理和学习能力的迹象。许多结果表明,给定足够的打算能力,深度强化学习,乃至随机搜索都能办理大略的优化问题。然而,许多研究职员对人类水平的智能感兴趣,而这不仅是大略的优化。它涉及在多个抽象层次长进修和推理观点,包括将从一个问题空间学到的观点知识以一种可适应的办法推广到许多问题空间。
当你把蒙特祖玛的复仇的第一个房间呈现给任何人,并问他们须要做什么时,他们很快就会开始向你描述一系列的行动和不雅观察,这表明人类对游戏可能的动态有繁芜的理解。最明显的表现他们会认识到钥匙是空想的物体,骷髅头是须要避免的东西,梯子是有活动能力的东西。然后钥匙暗示打开锁着的门的能力,溘然涌现繁芜的多步骤操持以及如何完成关卡的办法。这种推理和操持不仅适用于游戏的某个特定关卡,还适用于我们所碰着的任何类似的关卡或游戏。这些技能对付人类智能而言至关主要,而且对付那些试图将深度强化学习推广到一套大略的优化算法之外的人来说也很感兴趣。然而,在确定性环境中利用人类演示完备绕过了对这些技能的须要。
如果没有用来阐明视觉场景的先验知识,像《蒙特祖玛的复仇》这类游戏看起来可能是这样的
当然,这些技能也是最难以用算法形式表达的,尤其是它们的人类表现形式尚没有被完备理解。特殊是在观点学习的情形下,常日须要把外部的一样平常知识引入到新的问题上。正如伯克利的一个研究团队所指出的那样,如果我们没有先验知识(无论是与生俱来来说后天学习的),许多我们认为天经地义的视频游戏会变得更加繁芜。
然后问题就变成了,AI智能体如何才能自然地学习像《蒙特祖玛的复仇》这样的游戏所须要的先验知识。此外,这些习得的先验知识如何不仅仅被用于玩一个特定游戏的特定关卡,而是可以玩任何类似游戏的任何关卡。表示学习和观点根本方面正在进行一些有趣的事情,我认为这对办理这些问题是至关主要的。还有一些事情正在开拓更多的随机环境,以更好地测试智能体的泛化能力,个中最引人瞩目的是GVGAI竞赛(通用视频游戏AI竞赛)。
我热切地期待有一天我们可以毫无疑问地说,AI智能体可以学会从头开始玩《蒙特祖玛的复仇》。当那一天到来时,会有很多令人愉快的事情。
参考链接:
【1】Playing hard exploration games by watching YouTube
https://arxiv.org/abs/1805.11592
【2】Observe and Look Further: Achieving Consistent Performance on Atari
https://arxiv.org/abs/1805.11593
【3】Learning Montezuma’s Revenge from a Single Demonstration
https://blog.openai.com/learning-montezumas-revenge-from-a-single-demonstration/
新智元AI WORLD 2018大会【早鸟票】开售!
新智元将于9月20日在北京国家会议中央举办AI WORLD 2018 大会,约请迈克思·泰格马克、周志华、陶大程、陈怡然等AI领袖一起关注机器智能与人类命运。
大会官网:
http://www.aiworld2018.com/
即日起到8月19日,新智元限量发售多少早鸟票,点击阅读原文购票,与环球AI领袖近间隔互换,见证环球人工智能家当跨加倍展。
活动行购票链接:
http://www.huodongxing.com/event/6449053775000
活动行购票二维码: