通用AlphaGo诞生?MuZero在多种棋类游戏中超越人类

01、DeepMind的一项研究提出了MuZero算法,该算法在不具备任何底层动态知识的情况下,通过结合基于树的搜索和学得模型,在雅达利2600游戏中达到了SOTA表现,在国际象棋、日本将棋和围棋的精确规划任务中可以匹敌AlphaZero,甚至超过了提前得知规则的围棋版AlphaZero 。

通用AlphaGo诞生?MuZero在多种棋类游戏中超越人类


MuZero 算法在国际象棋、日本将棋、围棋和雅达利(Atari)游戏训练中的评估结果 。横坐标表示训练步骤数量,纵坐标表示 Elo评分 。黄色线代表 AlphaZero(在雅达利游戏中代表人类表现) , 蓝色线代表 MuZero 。
基于前向搜索的规划算法已经在 AI 领域取得了很大的成功 。在围棋、国际象棋、西洋跳棋、扑克等游戏中 , 人类世界冠军一次次被算法打败 。此外,规划算法也已经在物流、化学合成等诸多现实世界领域中产生影响 。然而,这些规划算法都依赖于环境的动态变化,如游戏规则或精确的模拟器 , 导致它们在机器人学、工业控制、智能助理等领域中的应用受到限制 。
基于模型的强化学习旨在通过以下步骤解决这一问题:首先学习一个环境动态模型,然后根据所学模型进行规划 。一般来说,这些模型要么着眼于重建真实的环境状态,要么着眼于完整观察结果的序列 。然而 , 之前的研究在视觉上丰富的领域还远远没有达到 SOTA 水准,如雅达利 2600 游戏 。
最受欢迎的方法是基于无模型强化学习的方法,即直接从智能体与环境的交互中估计优化策略和/或价值函数 。但在那些需要精确和复杂前向搜索的领域(如围棋、国际象棋) , 这种无模型的算法要远远落后于 SOTA 。
研究者在57个不同的雅达利游戏中评估了MuZero,发现该模型在雅达利2600游戏中达到了SOTA表现 。此外,他们还在不给出游戏规则的情况下,在国际象棋、日本将棋和围棋中对MuZero模型进行了评估,发现该模型可以匹敌AlphaZero超越人类的表现 。而且,在该实验中,其前辈AlphaZero提前获知了规则 。
MuZero 算法概览
MuZero 基于 AlphaZero 强大的搜索和基于搜索的策略迭代算法,但又将一个学习好的模型整合到了训练步骤中 。MuZero 还将 AlphaZero 扩展到了一个更加广泛的环境集合,包含单个智能体域和中间时间步上的非零奖励 。
【通用AlphaGo诞生?MuZero在多种棋类游戏中超越人类】该算法的主要思路是预测那些与规划直接相关的未来行为(如下图 1 所示) 。模型将接收到的观察结果(如围棋棋盘图像或雅达利游戏截图)作为输入 , 然后将其转换为一个隐藏状态 。接下来,通过一个循环过程来迭代更新该隐藏状态,该循环过程接收前一个隐藏状态和假设的下一步操作 。
在每一个步骤上 , 模型会预测策略(如玩的动作)、价值函数(如预测的赢家)以及即时奖励 。对模型进行端到端训练的唯一目标是准确估计这三个重要的量,以匹配改进的策略估计和通过搜索及观察到的奖励生成的值 。
对于隐藏的状态,没有直接的约束和要求来捕获重建原始观察结果所需的信息,大大减少了模型维护和预测的信息量;也没有要求隐藏状态匹配环境中未知、真实的状态;更没有针对状态语义的其他约束 。
相反,隐藏状态能够地以任何与预测当前和未来值和策略相关的方式来表示状态 。直观地说 , 智能体可以在内部创建规则和动态,以实现最精确的规划 。
图 1:用一个训练好的模型进行规划、行动和训练 。(A)MuZero 利用其模型进行规划的方式;(B)MuZero 在环境中发生作用的方式;(C)MuZero 训练其模型的方式 。

推荐阅读