如果兩台阿法狗對弈上億次並不斷修正演算法,會不會創造出來絕世的棋局?


閉門造車,思而不學,往往容易造成overfitting。


過擬合導致變成sb


如果是兩台不同的阿法狗:(不共享演算法、模型和數據)

  1. 運氣好的話,收斂到勝負未分,不能再進一步

  2. 大部分情況下,一方會弔打另一方

如果是兩台相同的阿法狗,或者說,每下若干盤就選取勝者的模型繼續下的阿法狗:

  1. 運氣好的話,收斂到勝負未分,不能再進一步

  2. 大部分情況下,走火入魔,變成傻逼:比如先手那隻阿法狗執黑落天元,後手那隻阿法狗立刻投子認負


阿發狗不就是自己和自己下么?

兩台和一台有什麼區別?


想來還是刪了在另外那個問題下的回答到這裡來自問自答好了。

今天一直在想一個問題。假設阿法狗的演算法深化完畢,然後讓兩台阿法狗進行演算法優化,運行足夠多的次數,到底是能大批量創造絕世棋局還是陷入「先手必贏」之類的和局狀況。

貼一下谷歌Deeplearning給的2016年1月28日發表在Nature的論文鏈接。http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html

(如果有土豪提供download,感激涕零)

後來找了一下,發現這個答案的得主已經幫我看了論文了。那我直接引用。

http://www.zhihu.com/question/41176911/answer/89912149

需要注意的是這一點。AlphaGo有兩套流程, MovePicker和 PositionEvaluator,第二套是為第一種演算法服務。實際上來說人類大腦無論如何都不能達到的是對於不斷調整的嬴率有一個有效的判斷。

注意這句話「不斷調整」

這裡,AlphaGo對一些故意看起來正常的局也會失去判斷。比如天元開盤。就拿一手天元做例子吧。一手天元情況有二,對方實力捉急和對方實力高深,這個時候AlphaGo的判斷到底是基於哪邊,會有不同的結果。回到問題,如果AlphaGo1下了第一手天元,AlphaGo2判斷對方要走高端路線,以高端方法回應,AlphaGo1判斷對方實力不行開啟了指導棋模式……

所以我感覺,AlphaGo做出來基於大數據訓練,是為了和人類對弈而生。然而AlphaGo並不知道知道對方是什麼樣的AlphaGo,如果兩台一樣的AI不斷對弈,結果可能並不會非常好,有可能會得出一些荒誕的棋局。其關鍵點就是演算法判斷的限制。嗯,它就這樣了。剩下的,以後再說。

Reference http://36kr.com/p/5042969.html

【不會下棋,我的一切都是在亂說】


我倒希望通過阿法狗上億次高質量的對局分析出最佳的貼目


應該是兩台電腦相互算計,最後都燒壞了。


最後可能會發現圍棋的必勝下法


題主可以去搜一下阿法狗的程序,它就是通過無數自我對戰達到現在這種境界的


五子棋已經被證明是先手必勝,圍棋大概也不遠了


閉門造車,出門合轍。只要找到規律了,足夠努力之後,妥妥能贏!


推薦閱讀:

為什麼說 MD5 是不可逆的?
有哪些用 Python 語言講演算法和數據結構的書?
計算機演算法領域有哪些書籍像《演算法導論》一樣經典?
md5會有重複的可能嗎?
平滑的戰爭迷霧效果是如何實現的?

TAG:人工智慧 | 演算法 |