当前位置: 主页 > >

 
:(图注:AlphaGo使用了Policy Network和Value Network在实战中的MCTS搜索中高效选择搜索子空间。训练过程:通过KGS上的人类棋局(Human expert positions)来学习SL Policy Network和Rollout Network,然后基于SL Policy Network进行机器自我对弈(Self-play Positioning)学习出更优秀的RL Policy Network, 最后通过RL Policy Network学习出Value Network)