為什麼AlphaGo和李世石下棋這麼慢,卻能和自己一天下一百萬盤棋?

研發者表示「人類在長時間的比賽中會因疲勞而犯錯,但電腦程序不會,人類可能一年只能下一千盤棋,而AlphaGo一天就能下一百萬盤。」 但是在和李世石比賽中,下棋花的時間比李世石還多。如果AlphaGo認真下棋花的時間比人類還長的話,怎麼能一天就能下一百萬盤?如果AlphaGo在自我訓練中為了加快速度而減少計算量的話,那麼訓練還有意義嗎?


之前的答案都沒說到重點。

先看出處(以下兩處引用來自論文,粗體我加的)。

The policy network was trained in this way for 10,000 mini-batches of 128 games, using 50 GPUs, for one day.

Which way?

Each iteration consisted of a mini-batch of n games played in parallel, between the current policy networkp_{
ho} that is being trained, and an opponent p_{
ho^-} that uses parameters 
ho^- from a previous iteration

所以,人家根本沒有進行樹搜索,只是讓policy network憑著感覺下,當然快咯。

題主的另外一個問題問得好

如果AlphaGo在自我訓練中為了加快速度而減少計算量的話,那麼訓練還有意義嗎?

意義還真不大。在最終的系統中,RL policy network的效果還沒有SL policy network好,所以就沒用它。唯一的用處是為value network生成了一大堆訓練數據。


因為那一百萬盤是同時下的


今天剛看見微軟亞洲院鄭宇博士他們對alphago架構的剖析圖,感覺匯總的很棒,很好懂。

原圖出處及講解
http://mp.weixin.qq.com/s?__biz=MzIxNjE3MTM5OA==mid=402241411idx=1sn=98557fdc359a17af9ab6b1ed7e09854ascene=2srcid=0314rM6ivyxIaEMfKIaW167Zfrom=timelineisappinstalled=0#wechat_redirect


阿法狗要想的東西多:我要贏, 要展現我的牛逼,谷歌投給我的錢就更多,開發領域就更寬。我又不能贏得太叼 ,展現我太過於牛逼 ,以至於人類對我產生恐懼 ,把我敲了。這既是阿法狗與自己的博弈 ,又是阿法狗和全人類的博弈,阿法狗說 :你們人類下的是一盤棋,我下的是我的整個未來,我好累, 處理器有點熱。


想想鳴人是怎麼練忍術的


神經網路分為訓練和測試,兩個是不一樣的。


因為阿爾法狗和李世石對戰時就在同時下一百萬局棋,只不過一分鐘後選擇了最好的一種走法而已。


大概類似於鳴人用影分身修鍊螺旋丸手裏劍吧


AlphaGo 開發者之一Aja Huang闢謠,並非單機版


不知道為什麼,看了這麼多答案,覺得都和我所了解的不一樣。在下才疏學淺,匿了。
首先,阿爾法狗的搜索演算法是很高級的,毫無疑問。是目前效率最高的樹型演算法之一,但其原理,我這個程序員在不了解代碼的情況下也是一知半解,網上的解釋都是最淺顯的原理。
但是,限制計算速度的,除了演算法,就是硬體了。


首先,得要說明,圍棋棋盤共19*19=361個點,每個點存在黑白空三種情況,總的可能解為3^361約為10^170次方(未考慮到由於圍棋規則含有吃子部分解不可能出現)。而這麼大的解數是絕對不可能完成的計算量。因此,不可能出現阿爾法狗在開局前算到所有可能的情況,所以理論上說人類存在戰勝它的可能性。

接著說關鍵的地方,其實這個問題的答案以我看很簡單。就是聯網和谷歌伺服器。在谷歌和李世石的協議中,有一條是阿爾法狗將用自身硬體對戰。也就是說李世石面對的事實上是阿爾法狗的單機版。雖然谷歌最終大大加強了硬體性能。但是和聯網時的計算速度仍是雲泥之別。


對沒錯!關鍵就是,阿爾法狗自己下的時候是聯網的,並且可以使用谷歌龐大伺服器的部分能力。
重要的事情顯眼一點。

那為什麼聯網就可以這麼快呢?三個字,雲計算。具體原理可以自行維基。

以上,個人觀點。(廢話有點多啊)


一天只有86400秒,難道你要它下完一盤再下另一盤,下完100萬盤嗎?


還不是被人類這種低等生物的低等IO給害的

自己跟自己下的話,哪有這麼低速的IO啊

說真的
阿花狗,你玩麻將不


同時下呀,人工智慧的學習能力一旦打開就如洪荒之力。


AlphaGo主要作者之一 黃士傑 都說是分散式版本了

還一堆陰謀論說啥單機版


因為跟李世石下的是單機版阿法狗


我覺得機器真的是要照顧人,圍棋需要很細緻,高廣度的思考,如果李剛落子機器就秒跟,那容易完全搞亂人的思維,所以可能就是設置rand一分鐘左右落子。多線程每天下一百萬盤完全沒問題吧。


這次用的是單機版……才40多個cpu……都沒連谷歌伺服器……原版1200多個cpu……


看的報道哈,其實機器人是秒下的,只是為了照顧人才特意沒一分鐘落一個子


推薦閱讀:

目前有哪些比較成功的人工智慧應用?
明明可以語音輸入,為什麼大家還會發語音消息?
如何簡單形象又有趣地講解神經網路是什麼?
概率圖模型(PGM)有必要系統地學習一下嗎?

TAG:人工智慧 | 深度學習(Deep Learning) | AlphaGo |