送交者: nininana 于 2016-03-18, 02:15:42:
回答: 电脑AI就这样的。 由 pgss 于 2016-03-17, 19:48:02:
alphago走的是同样的路子,先学习大量棋谱,然后自己对局强化学习,最后把一切都简化成两条:policy和value
有人嘲笑alphago在第四局走出罕见臭棋,你们扪心自问一下,刚学几个月的时候,你们自己什么样的臭棋没试过?
又有人说了,人类会总结教训啊,以后就知道什么是臭棋啊。alphago也会总结,当然他不需要follow人类的思维,狗的世界里是这样记录的:黑79手及以后的几手让取胜的几率下降很多,value network需要做相应修正。