如果 2台 alphago 不斷對戰,是否會不斷的強大?

安裝2台alphago 然後分別讓它們學習一些棋手的棋譜,然後讓它們自己不斷的對戰,它們是否會不斷的進步,然後不需要學習棋譜,然後水平不斷的提高。直到無限強?

另一個問題,如果2台一樣配置的alphago,有一台學習了一些差手的棋譜,比如我的下棋棋譜。然後再和另一台下,它是否就會輸?然後這台是否能通過學習,又變得和它同類一樣強?

追加一個問題 假設目前已知最強選手是李昌鎬 他的能力是100 那麼go在擊敗他以後 只能學習所有不如李昌鎬的選手棋譜了,這是否意味著他的能力無法繼續提高了,比如維持在120這樣的範圍,這時有個少年從未展露過的棋譜,他的能力達到了150,他是否可以戰勝go 因為go沒有學過這種棋譜,所以不可能達到150?go有點像七龍珠里的沙魯阿,不斷吸收精華就能越來越強,但是當沒人可以吸收了,他是不是就到了自身極限而無法提高了。


互增強學習本身是有bound的,很大程度上取決於進增強學習系統的模型pool里各種演算法的差異。

簡單來說就好比不能踩著自己的腳二段跳一樣....


謝邀。

早就這麼做了。面對李世石之前的alphaGo就是這麼慢慢增長棋藝的。

不過實際操作要更精巧一些。不是兩個相同的alphaGo對戰,而是alphaGo不斷同過去某個時刻的自己對戰。這樣可以增加對手的多樣性,防止「只能贏自己贏不了別人」的情況出現。


所有game的ai,research的時候都會用這一招。。。


這種問題就是標準的「吾嘗終日而思矣,不如須臾之所學也」。


Next, we train a reinforcement learning (RL) policy network p_
ho that improves the SL policy network by optimizing the final outcome of games of self-play.

Nature上的論文里已經表明他們有利用self-play(只不過是和previous version的自己),並且還優化過結果,但並不會無限增強阿法狗的實力啊= =


最新的結果暗示,它已經不需學習人類的棋譜了。只要左右互搏就可以了!

好吧 李世石是唯一一個贏過alphago的地球人!



alpha go的論文里寫到了,先學棋譜,然後自博弈進行訓練。


overfitting.


事實上就是兩個agent對干啊……棋盤是environment


這是經常使用的方法,協同訓練、自舉等這一類方法能提升效果,但是有提升上限的


阿法狗幹掉其他所有同類後一直在自虐並且速度可以是一天聯繫量達到常人一年的量


我覺得 有另一個我和我斗的話 比如雙胞胎 可以激發我的鬥志 同時我們在外部接觸新信息互相交流可以增長見識

但是 如果那個人是我的影子 比如照鏡子 接觸學到的都是同樣的東西並且思路一致 那麼我就提前知道她下一步要做什麼而完全學不到東西了


提著自己頭髮飛


推薦閱讀:

如何看待人工智慧系統 Libratus 戰勝四位德州撲克頂級選手,獲得最終勝利?
如何評價 DeepMind 於2016年9月12日公開的 AlphaGo 自戰棋譜及3月人機大戰解說?
有沒有人工取代機器的例子?
如果世界上出現了完美的人工智慧,我們應該怎麼對待他們?
人工智慧在製造業領域有哪些應用?如何幫助製造業轉型/升級?

TAG:人工智慧 | 圍棋 | 機器學習 | 谷歌Google | AlphaGo |