当前位置: 主页 > > 责任田,疫情防控,一米线,外防,广大党员

责任田,疫情防控,一米线,外防,广大党员

 
责任田,疫情防控,一米线,外防,广大党员:那为什么估值网络会出问题呢?可能是用于训练估值网络的自学习(Self-Play)的样本分布有盲点。为了提高样本生成速度,AlphaGo的自学习样本是通过用两个纯粹的DCNN互搏来生成的(完全没有搜索),而DCNN下出来的棋因为是纯模式识别,一个大问题是死活不正确,经常是在死棋里面下子。如果黑白两方都犯了死活不分的毛病,然后一方比如说白侥幸胜了,那估值网络就会认为方才白的死棋局面是好的。这样估值网络就会染上同样毛病,在中盘复杂的对杀局面中判断失误。若是这种情况就不好处理,AlphaGo下一局可能还会有同样的问题。这里可以看到,电脑本身也不是靠穷举来下棋的,围棋毕竟太复杂,每一步都要剪枝,离当前局面近的仔细剪(用DCNN),离当前局面远的快速剪(快速走子),直到终局得到胜负为止。剪枝的好坏直接关系到棋力的高低,DCNN只是一个有大局观的非常好的剪枝手段,它的盲点也会通过败着反映出来。