您好!欢迎来到betwayapp
当前位置:主页 > 赛场实况 >
深度 | Vicarious详解新型图式网络:赋予强化学习

  原标题:深度 | Vicarious详解新型图式网络:赋予强化学习泛化能力

  选自Vicarious

  机器之心编译

  近日,人工智能初创公司 Vicarious 在官网了发表了一篇名为《General Game Playing with Schema Networks》的文章,提出了一种可以进行游戏泛化的新型网络:图式网络。该网络可通过训练学习环境动态,进而泛化到多种游戏环境之中;同时它还具有概念学习和推理能力,这就克服了深度强化学习的弊端,从而做到像人类一样重复使用概念。机器之心对该文进行了编译,原文链接请见文末。

  深度强化学习(deep reinforcement learning)在游戏界的成功已经在 AI 界产生了轰动 (Mnih et al., 2015; Mnih et al., 2016; Silver et al., 2016; Van Hasselt et al., 2016)。人工智能在很多不同的游戏中的最新得分现在已经超越了人类的水平。但是这些成果又能在多大程度上说明人工智能已经可以像人类一样去思考游戏中的事物呢?

  当人类接触一个新的游戏时,他们首先要对游戏进行概念性的理解。假设你第一次接触一个类似于打砖块(Breakout)的游戏(见下文)。通过几秒或几十秒的观察,你已经开始对游戏有了一定的理解,这是因为你对这个世界有着先验的认知(prior experience)。你可能会把移动的红色像素理解为在「墙」上进行「弹跳」的「球」,并且可以识别一个「拍子」来对球进行击打。你明白拍子是可以用来击球的。你会观察到当球碰击到顶部的「砖」时,那些「砖」就会消失。你开始的时候甚至都没有去关注得分的情况,但是后来你开始注意到打碎一个「砖」你就可以得到一定的分数,而且如果你让「球」出现在「拍子」的下方,你就会丢掉一定分数;你已经发现了这个游戏的目的。仅仅通过对游戏进行短时间的简单观察,你就很有可能会理解游戏的相关概念。

  从因果(cause and effect)的角度来理解这个世界是人类智力的重要标志之一。这种能力可以让我们通过对我们已有的知识信息进行「迁移」(transferring),从而快速地理解新的情境,比如一个新的电子游戏。

  那么随之而来的问题就是:深度强化学习智能体(deep reinforcement learning agents)会对概念和因果进行理解吗?

  

  一个在打砖块的 Vicarious 标准版本上用先进的 Asynchronous Advantage Actor-Critic(A3C)方法来训练的深度强化学习智能体

  深度强化学习赢了游戏却错失了要点

  我们用先进的 Asynchronous Advantage Actor-Critic (A3C) (Mnih et al., 2016) 方法去训练一个深度强化学习智能体(deep RL agent),让它去玩一个典型的打砖块游戏,它可以玩的非常好。一个能够玩打砖块标准游戏的智能体应该可以轻易地根据游戏中的小变动进行调整,这些变动包括更高的拍子(paddle)或一堵额外的墙 (Rusu et al., 2016)。


上一篇:晋江图书馆开馆后,这个地方一定要去

下一篇:没有了