通用AlphaGo诞生?MuZero在多种棋类游戏中超越人类( 二 )


MuZero 算法详解
研究者对 MuZero 算法进行了更详细的解读 。在每个时间步 t 上、以过往观察结果 O_1, …, O_t 和未来行为 a_t 1, …, a_t k 为条件、通过一个具有参数θ的模型礯θ,为每个 k=1…K 步进行预测 。该模型预测三种未来数量:策略
、价值函数
和即时奖励
,其中 u. 表示观察到的正确奖励,π表示用来选择实时行动的策略,γ表示环境的贴现函数(discount function) 。
在每个时间步 t 上,MuZero 模型由表征函数、动态函数和预测函数联合表征 。在本文中,研究者对动态函数进行了确切的表征 。策略和价值函数则通过预测函数
并根据内部状态 s^k 来计算,这与 AlphaZero 的联合策略和价值网络相似 。
给定这样一个模型 , 则有可能在基于过往观察结果 O_1, …, O_t 的情况下查找基于假设的未来轨迹 a^1, …, a^k 。例如,一个简单的搜索可以轻松地选择最大化价值函数的 k 步动作序列 。更普遍地说 , 我们或许可以将任何 MDP(马尔科夫决策过程)规划算法应用于由动态函数推导出的内部奖励和状态空间 。
对于每个假设的时间步 k,模型的所有参数接受联合训练,从而在 k 个实际的时间步后,对策略、价值和奖励与它们各自对应的目标值进行精确的匹配 。与 AlphaZero 相似,提升后的策略目标通过蒙特卡洛树(MCTS)搜索生成 。第一个目标是最小化预测策略 p^k_t 和搜索策略π_t k 之间的误差;第二个目标是最小化预测值 v^k_t 和价值目标 z_t k 之间的误差;第三个目标是最小化预测奖励 r^k_t 和观察到的奖励 u_t k 之间的误差 。最后添加 L2 正则化项,得出以下总损失:
实验结果
在实验中,研究者将 MuZero 算法应用于围棋、国际象棋和日本将棋等经典棋盘游戏中,作为挑战规划问题的基准;同时又应用于雅达利游戏环境中的 57 个游戏,作为视觉复杂强化学习领域的基准 。
下图 2 展示了 MuZero 算法在每个游戏训练中的性能 。在围棋游戏中,尽管搜索树中每个节点的计算量小于 AlphaZero,但 MuZero 的性能依然略微超过 AlphaZero 。这表明 MuZero 可能在搜索树中缓存自身计算,并利用动态模型的每个附加应用来对位置产生更深的理解 。
图 2:MuZero 算法分别在国际象棋、日本将棋、围棋和雅达利游戏训练中的评估结果 。在国际象棋、日本将棋和围棋游戏中,横坐标表示训练步骤数量,纵坐标表示 Elo 评分 。
表 1:雅达利游戏中 MuZero 与先前智能体的对比 。研究者分别展示了大规模(表上部分)和小规模(表下部分)数据设置下 MuZero 与其他智能体的对比结果,表明 MuZero 在平均分、得分中位数、Env. Frames、训练时间和训练步骤五项评估指标(红框)取得了新的 SOTA 结果 。
为了了解 MuZero 中模型的作用 , 研究者还重点在围棋和吃豆人雅达利游戏中进行了以下几项实验 。他们首先在围棋的典型规划问题上测试了规划的可扩展性(下图 3A) 。此外,他们还研究了所有雅达利游戏中规划的可扩展性(下图 3B) 。接着,他们将自己基于模型的学习算法与其他相似的无模型学习算法进行了比较(下图 3C) 。
图 3:MuZero 在围棋、57 个雅达利游戏、吃豆人游戏上的评估结果 。
(原文来自机器之心编辑部,论文链接:网页链接)

推荐阅读