夜思 | AlphaGo贏，正說明「人已勝天」！

07-08

小年說：

柯潔以1/4子負於阿爾法狗（Alphago），這是中國圍棋規則下，最小的勝負差。但在柯潔看來，Alphago已經接近圍棋上帝。

很多人藉此評判人與機器之高下，作者卻認為，這一戰不過是人腦與更先進的人腦的對決罷了。柯潔獲勝，說明人類目前為止還是造物主最完美的作品；而AlphaGo勝，說明「人已勝天」！

推薦給你，靜夜思。

AlphaGo贏，正說明「人已勝天」！

作者 | 小碼哥來源 | 有馬體育ID：youmatiyu

-01-

這一局柯潔輸了，意料之中。

遙想去年年末12月29日，一個名叫Master的圍棋人工智慧橫空出世，前後在弈城圍棋和野狐圍棋網站與各國世界頂尖級選手進行對弈，最後以60:0的壓倒性戰績紛紛讓棋士質疑人生，唯一一次平局也是因為Master對手意外斷開網路連接。而這個所向披靡的Master其實就是AlphaGo新版本2.0。

早在2016年3月，圍棋人工智慧AlphaGo就已經以4:1戰勝過韓國第一圍棋手李世石。比賽之前，李世石信心百倍，比賽之後，李世石說，他再也不想跟AlphaGo下棋了。有人開玩笑，「制服Master（AlphaGo）的唯一一個方法就是拔開電源」。啞然失笑，這個笑話的背後是對人工智慧深深地恐懼。

然而，不要忘了，AlphaGo是出自人類之手。

去年年末戰勝李世石以及一眾圍棋聖手的AlphaGo已經達到相當高的棋力，至少其計算能力和速度讓人類望塵莫及。

去年的AlphaGo2.0，運用的神經網路系統模擬人腦的神經網路，已經不僅是一台超級計算機，而且是由許多個數據中心作為節點相連，每個節點內有多台超級計算機。一句話來概括就是，AlphaGo是集多種複雜的控制、演算法為一體的人工智慧。

-02-

圍棋的複雜程度

AlphaGo最基本的系統是卷積神經網路 (Convolutional Neural Network, CNN)。由於圍棋的規律可描述為「對弈雙方在棋盤網格的交叉點上交替放置黑色和白色的棋子。落子完畢後，棋子不能移動。對弈過程中圍地吃子，以所圍『地』的大小決定勝負。」而CNN則是用來識別圖像。

除了高效率識別的卷積神經網路，深度強化學習 (Deep Q-Learning, DQN)和蒙特卡洛樹搜索演算法 (Monte Carlo Tree Search)也是AlphaGo的核心演算法。

蒙特卡洛樹搜索演算法是一種人工智慧問題中做出最優決策的方法，一般是在組合博弈中的行動（move）規劃形式，它結合了隨機模擬的一般性和樹搜索的準確性。用人話來說就是，AlphaGo模擬自己與自己對弈，每一種落子都下到終局，在非常短的時間裡窮盡所有情況，從而取得獲勝概率。藉助值網路（value network）與策略網路（policy network）這兩種深度神經網路，通過值網路來評估大量選點，並通過策略網路選擇落點。

所謂的深度強化學習就是指AlphaGo能夠記住和學習3000萬人類的棋譜，從而識別出與之對戰的棋手的路數，其中包括了自主學習的能力，也就是每天自我對陣2000萬局，以此獲得所謂的「棋感」，以及在比賽中快速判斷圍棋的局勢。這樣一來就大大減少了樹搜索的計算量。

AlphaGo自我對弈棋局

總而言之，橫掃世界棋壇的AlphaGo2.0計算能力、大局觀都超強，且不會受到絲毫人類棋士在對弈比賽中發生的心理、生理變化的影響，沒有感性，只有理性到冷酷的演算法和邏輯。

即使如此，AlphaGo也曾經在李世石的手中折過一局。那柯潔有可能贏嗎？柯潔已經輸了一局，想要在接下來的比賽中勝出，可能相當困難。

李世石與AlphaGo對弈第四局，AlphaGo出現漏洞

這一次，據說AlphaGo的棋力更增，可以做到在讓前代AlphaGo四子的情況下仍然獲勝，要知道，通常來講讓三子就已經達到代差級別。王小川認為，這一次的AlphaGo已經擺脫了監督學習，不再需要人類下圍棋的歷史數據，而是只通過「增強學習」和演算法確定落子。王小川推測，此次AlphaGo可能已經放棄了監督學習，也就是說不再依賴原先人類的3000萬局棋譜，甚至有可能放棄了蒙特卡洛樹搜索，大大減少了暴力計算，落子速度更快、準確率更高。兩台沒有棋譜數據的AlphaGo自我對戰學習如何下棋，並達到登峰造極的地步，只需要一周的時間。

如果說之前的AlphaGo還依賴於大量的數據、略有點笨重的計算，這是人工智慧佔據了硬體優勢的地利，那麼進化後的AlphaGo幾乎就像是一個真正深諳圍棋藝術的天才。

就在今年3月，人工智慧在德州撲克領域也獲得了全勝。加拿大阿爾伯塔大學計算機系的Matej Morav ík研發了一個被稱為DeepStack的AI系統，它在每3000次無限德州撲克比賽後，具有統計意義地打敗了11名職業撲克選手中的10名。相比於圍棋，德州撲克的未知成分更多，在棋盤上棋手獲得的是完全信息，但是在撲克遊戲中每個玩家對可能的玩法有不對稱的有限信息。這預示著AI在預測性上又一次進步。

-03-

人工智慧一次又一次的進步，不禁讓我們開始自我反省。即使AlphaGo打遍天下無敵手，圍棋也只是人類智慧的一角，我們遠不能說目前的人工智慧超越了人類。

然而，我們應該反思，是否一直以來人類因為對自己的智慧認識不足而反過來產生盲目的迷信，斷定人類思維具有不可及的高度，似乎這裡有種本質的鴻溝橫亘與人機之間。我可否將人對自己的盲目高估，理解為一種傲慢呢？

人與人工智慧也許存在一種更積極的關係：通過AI讓人類進一步地認識自己。

出征前，媒體們把此戰稱為「人機最後的決戰」，柯潔說他抱著「必勝的態度，必死的決心」，大有一種肩負起全人類尊嚴的味道。其實柯潔無需糾結，這一戰不過是人腦與更先進的人腦的對決罷了。

柯潔獲勝，說明人類目前為止還是造物主最完美的作品；而AlphaGo勝，說明「人已勝天」！