Alpha论文系列笔记（一）AlphaGo_apalphago论文

作者：Li_阴宅 | 2024-06-25 22:41:44

踩

apalphago论文

1.背景

本文主要为我本身对AlphaGo¹论文的理解及解读。由于本身可能能力有限，解读不准确的地方欢迎大家指正。

符号简要说明

s : State(状态) 指代当前棋局状态，可以表示为一个 $19 \times 19$ 的特征平面

a : Action(动作) 指代在某一状态s下，可能采取某一动作（即将棋子下在某一个地方）

$A (s)$ : Action space(动作空间) 指代给定状态s下，所有合法的动作

$f (s, a)$ : 在状态s下，执行动作a后的后续状态

$p (a ∣ s)$ : 策略，在A(s)上的一个概率分布。（给定状态s，选择动作a的概率）

$z_t$ : 游戏结果，在游戏结束前均为0，游戏结束为1，代表玩家1获胜，为0代表平局，为-1代表失败

$v^p(s)$ : 给定状态s，在策略p下的价值函数(value function)，代表了期望结果。 $v^p(s)=E[z_t|s_t=s,a_{t...T} p]$

$v^*(s)$ : 在零和博弈中，给定状态s, 有一个唯一的最优价值函数

许多策略性游戏，比如象棋，围棋等，都可以被定义为交替马尔可夫游戏（alternating Markov games)。棋类游戏如围棋，也可以被定义为在给定状态s下，根据策略p, 在动作空间A(s)中选择一个动作a，使得价值函数v最好。

最优价值函数 $v^*(s)$ 可以递归的应用最小最大搜索(minimax search)来计算。但对于大多数游戏，这个计算量都太大了。因此提出用一个估算值 $v(s) = v^*(s)$ 来代替，该方法即为用alpha-beta pruning的深度优先最小最大搜索。这种方法可以适用于象棋和国际象棋等，但仍不能解决围棋。

文章提出，针对围棋，可以结合蒙特卡洛树搜索法(MCTS)和强化学习，通过两次估计来预测最优价值函数 $v^n(s)=v^{p^n}(s)=v^*(s)$ 。第一次估计，是给定策略 $p^n$ ，通过n次蒙特卡洛模拟来估计其模拟策略p的价值函数。第二次估计，是用模拟策略p的价值函数代替最大最小价值函数。

2. 网络详细介绍

网络组成简要说明

$p_\sigma$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Li_阴宅/article/detail/757610