你自己学棋的时候，是不是先看别人的棋谱，后者直接对局练习，

然后才一步步体会到为啥这样走能赢？

alphago走的是同样的路子，先学习大量棋谱，然后自己对局强化学习，最后把一切都简化成两条：policy和value

有人嘲笑alphago在第四局走出罕见臭棋，你们扪心自问一下，刚学几个月的时候，你们自己什么样的臭棋没试过？

又有人说了，人类会总结教训啊，以后就知道什么是臭棋啊。alphago也会总结，当然他不需要follow人类的思维，狗的世界里是这样记录的：黑79手及以后的几手让取胜的几率下降很多，value network需要做相应修正。