為什麼AlphaGo和李世石下棋這麼慢，卻能和自己一天下一百萬盤棋？

11-23

研發者表示「人類在長時間的比賽中會因疲勞而犯錯,但電腦程序不會,人類可能一年只能下一千盤棋,而AlphaGo一天就能下一百萬盤。」但是在和李世石比賽中，下棋花的時間比李世石還多。如果AlphaGo認真下棋花的時間比人類還長的話，怎麼能一天就能下一百萬盤？如果AlphaGo在自我訓練中為了加快速度而減少計算量的話，那麼訓練還有意義嗎？

之前的答案都沒說到重點。

先看出處(以下兩處引用來自論文，粗體我加的)。

The policy network was trained in this way for 10,000 mini-batches of 128 games, using 50 GPUs, for one day.

Which way?

Each iteration consisted of a mini-batch of $n$ games played in parallel, between the current policy network $p_{ ho}$ that is being trained, and an opponent $p_{ ho^-}$ that uses parameters $ho^-$ from a previous iteration

所以，人家根本沒有進行樹搜索，只是讓policy network憑著感覺下，當然快咯。

題主的另外一個問題問得好

如果AlphaGo在自我訓練中為了加快速度而減少計算量的話，那麼訓練還有意義嗎？

意義還真不大。在最終的系統中，RL policy network的效果還沒有SL policy network好，所以就沒用它。唯一的用處是為value network生成了一大堆訓練數據。

因為那一百萬盤是同時下的

今天剛看見微軟亞洲院鄭宇博士他們對alphago架構的剖析圖，感覺匯總的很棒，很好懂。

原圖出處及講解
http://mp.weixin.qq.com/s?__biz=MzIxNjE3MTM5OA==mid=402241411idx=1sn=98557fdc359a17af9ab6b1ed7e09854ascene=2srcid=0314rM6ivyxIaEMfKIaW167Zfrom=timelineisappinstalled=0#wechat_redirect

阿法狗要想的東西多：我要贏，要展現我的牛逼，谷歌投給我的錢就更多，開發領域就更寬。我又不能贏得太叼，展現我太過於牛逼，以至於人類對我產生恐懼，把我敲了。這既是阿法狗與自己的博弈，又是阿法狗和全人類的博弈，阿法狗說：你們人類下的是一盤棋，我下的是我的整個未來，我好累，處理器有點熱。

想想鳴人是怎麼練忍術的

神經網路分為訓練和測試，兩個是不一樣的。

因為阿爾法狗和李世石對戰時就在同時下一百萬局棋，只不過一分鐘後選擇了最好的一種走法而已。

大概類似於鳴人用影分身修鍊螺旋丸手裏劍吧

AlphaGo 開發者之一Aja Huang闢謠，並非單機版

不知道為什麼，看了這麼多答案，覺得都和我所了解的不一樣。在下才疏學淺，匿了。
首先，阿爾法狗的搜索演算法是很高級的，毫無疑問。是目前效率最高的樹型演算法之一，但其原理，我這個程序員在不了解代碼的情況下也是一知半解，網上的解釋都是最淺顯的原理。
但是，限制計算速度的，除了演算法，就是硬體了。

首先，得要說明，圍棋棋盤共19*19=361個點，每個點存在黑白空三種情況，總的可能解為3^361約為10^170次方(未考慮到由於圍棋規則含有吃子部分解不可能出現)。而這麼大的解數是絕對不可能完成的計算量。因此，不可能出現阿爾法狗在開局前算到所有可能的情況，所以理論上說人類存在戰勝它的可能性。

接著說關鍵的地方，其實這個問題的答案以我看很簡單。就是聯網和谷歌伺服器。在谷歌和李世石的協議中，有一條是阿爾法狗將用自身硬體對戰。也就是說李世石面對的事實上是阿爾法狗的單機版。雖然谷歌最終大大加強了硬體性能。但是和聯網時的計算速度仍是雲泥之別。

對沒錯！關鍵就是，阿爾法狗自己下的時候是聯網的，並且可以使用谷歌龐大伺服器的部分能力。
重要的事情顯眼一點。

那為什麼聯網就可以這麼快呢？三個字，雲計算。具體原理可以自行維基。

以上，個人觀點。(廢話有點多啊)

一天只有86400秒，難道你要它下完一盤再下另一盤，下完100萬盤嗎？

還不是被人類這種低等生物的低等IO給害的

自己跟自己下的話，哪有這麼低速的IO啊

說真的
阿花狗，你玩麻將不

同時下呀，人工智慧的學習能力一旦打開就如洪荒之力。

AlphaGo主要作者之一黃士傑都說是分散式版本了

還一堆陰謀論說啥單機版

因為跟李世石下的是單機版阿法狗

我覺得機器真的是要照顧人，圍棋需要很細緻，高廣度的思考，如果李剛落子機器就秒跟，那容易完全搞亂人的思維，所以可能就是設置rand一分鐘左右落子。多線程每天下一百萬盤完全沒問題吧。

這次用的是單機版……才40多個cpu……都沒連谷歌伺服器……原版1200多個cpu……

看的報道哈，其實機器人是秒下的，只是為了照顧人才特意沒一分鐘落一個子