為什麼AlphaGo贏了？用博弈論解釋人機大戰

07-18

2016年，AlphaGo在人機大戰中以4:1擊敗十幾屆圍棋世界冠軍得主李世石，激起了人們對人工智慧（AI）的強烈興趣。

2017年，AlphaGo再次出手，以3:0完勝當今圍棋第一人柯潔。

在最後一局比賽結束後的發布會上，AlphaGo之父、DeepMind創始人戴密斯·哈薩比斯（Demis Hassabis）發表了一個很動感情的感言：「本周的比賽聚集了圍棋起源地最優秀的棋手參與，是AlphaGo作為一個競賽系統能夠對弈的最高級別對手。

因此，本次中國烏鎮圍棋峰會是AlphaGo參加的最後對弈比賽。」

不敵AlphaGo的圍棋世界冠軍五人天團

獨孤求敗內牛滿面……

我的朋友、風雲學會會員陳經是一位人工智慧專家，寫過很多對圍棋AI的深入分析，預測過李世石戰勝AlphaGo的戰略（《在AlphaGo完勝後繼續分析其演算法巨大優勢與可能的缺陷》），他在這第二次人機大戰期間的反應可以作為一個絕妙的註腳。

陳經先是在開賽前為人類棋手加油打氣，尋找戰勝AI的辦法，「現在不能認慫，還是應該爭取戰勝AlphaGo」（《再次對決AlphaGo，柯潔的勝算有多大》）。

在AlphaGo贏了第一局後，陳經繼續為柯潔支招，「想要逼出AlphaGo的bug，柯潔必須把局面撐得很滿，讓雙方都不能退，不進入複雜變化就吃虧」（《人機大戰首局柯潔「憾負」AlphaGo的看點》）。

在AlphaGo贏了第二局後，陳經認為柯潔在前100手的表現已經接近完美，結語就在找台階了：「也許我們應該放下勝負，並不一定要追求戰勝AlphaGo。如果能象柯潔本局前100手一樣，發揮出人類對圍棋理解的最高水平，無論勝負，都是與水平超高發揮穩定的AlphaGo共同演繹出精彩的棋局。本局說明，棋局精彩到一定程度，真的是可以超越勝負的。」（《柯潔與AlphaGo第二局的精彩看點》）

到第三局的時候，陳經正在「觀天下論壇」做關於人工智慧未來的演講（《柯潔戰敗了，中國AI技術距離世界第一還有多遠？》），沒去看棋就預測了柯潔以0:3告負。

到賽後總結時，標題已經成了《AlphaGo的強大遠超人類，職業棋手闡釋AI演算法意義》：

「二次人機大戰五盤棋結束，應該可以得出結論了：AlphaGo遠強於人類棋手，而且即使它有bug，人類棋手也幾乎找不到。我之前的文章中不斷為人類棋手想辦法，試圖從演算法的角度發現AlphaGo的弱點，希望人類棋手能利用其弱點戰而勝之。現在看來，由於人類棋手與它差距實在太大，應該放棄這種想法了。」

不過，人類就沒得玩了嗎？不是的。

「AlaphGo不僅是通過戰績讓世人震驚，從圍棋藝術來說，它的很多招法，都體現了極度的震撼與美感。而這種震撼與美感，是人類的寶貴財富，是藝術精品，只有職業棋手才能最好的闡釋，AlphaGo團隊反而做不了。所以，人機大戰人類棋手與機器並不只是對抗，即使人類失利，雙方也共同對圍棋藝術作出了極大貢獻。」

多麼悲壯而喜劇的過程……用陳經自己的話說：人類的邏輯是無敵的！

這個過程可能容易讓人聯想到人們對不可抗拒的打擊的五階段反應：否認、憤怒、談判、絕望、接受。但是，陳經對圍棋AI的勝利從來沒有「憤怒」過。實際上，了解人機大戰技術背景的人都不會覺得有什麼好憤怒的，更不會對人類的未來感到絕望，——感到亦可賽艇還差不多。

然而，大多數人缺乏這方面的專業知識，大眾傳媒也充滿了唯恐天下不亂的咋咋呼呼，好像不把人類的未來說成被matrix控制的電池就不好意思開口似的。真的用不著這麼誇張！實際上，AlphaGo需要的不是恐懼，而是理解。狗是人類的朋友，狗狗很萌的，你們不要黑它~

下面我來寫一個答客問，回答若干經常被誤解的問題。

問：圍棋是人類智慧「皇冠上的明珠」，人工智慧在圍棋上的勝利意味著電腦的智能已經完全超過了人，是這樣的嗎？

答：當然……不是！其實那個前提就錯了，圍棋不是整個人類智慧這頂大皇冠上的明珠，只是人類智慧的一小部分「完全信息博弈」這頂小皇冠上的明珠。在完全信息博弈這個領域裡，人工智慧的勝利是遲早的事情，這是一條數學定理保證的，所以絲毫沒有值得驚慌的地方。因此，圍棋AI擊敗人類的意義，簡而言之就是：人工智慧解決了最容易的一類問題中最難的一個問題。

問：完全信息博弈是什麼意思？

答：規則明確（不是連規則都不知道或者朝令夕改），局面有限（棋盤不是無限大），信息完全（一覽無餘，沒有底牌、戰爭迷霧之類），確定性（不像大富翁遊戲那樣擲骰子），兩方（不像麻將或四國大戰那樣多方），對抗性遊戲（一方所得必然是另一方所失，沒有合作共贏）。

我們常見的棋類遊戲，如圍棋、中國象棋、國際象棋、五子棋、跳棋，都是這樣的例子。

在完全信息博弈的問題中，圍棋是最難的。但是在人類能夠處理的所有問題中，作為整體，完全信息博弈又是最簡單的一類，也是最適合電腦處理的。

改變任何一個限制條件都會使問題變得更難。比如說，送快遞對於人來說很容易，對機器人來說就非常困難了，目前還沒有成功，因為其中用到的能力太多了，識字、跑腿、上樓等等都不是完全信息博弈。

問：什麼定理保證了人工智慧在完全信息博弈中的勝利？

答：這條定理是1913年由德國數學家策梅洛（Ernst Friedrich Ferdinand Zermelo）證明的，稱為博弈論中的策梅洛定理（Zermelo theorem of game theory）。之所以這麼叫，是因為在集合論（set theory）中有另一個策梅洛定理。

德國數學家策梅洛，集合論的奠基人之一

博弈論中的策梅洛定理說的是：在完全信息博弈中，至少有一方可以找到一種在任何情況下都不輸的策略，即或者贏或者平局。

換句話說，任何一種二人棋類遊戲，如果雙方都不犯錯，就必然屬於三種之一：先手必勝，後手必勝，或者雙方都可以保平。

證明這條定理的基本思路是「遞歸」。

首先，在接近終局時，我們可以看清，從當前局面出發，雙方都下出最佳應對的最終結果是「甲贏」、「乙贏」或者「和棋」，這樣就把棋局分成了三類。

然後通過倒推（也就是「遞歸」），看哪些局面可以歸結到這些結論已經確定的局面，就可以給越來越多的棋局確定類別。

最後，你可以把所有的棋局都辨別清楚，包括最初的局面：對象棋而言就是所有棋子都沒動，對圍棋而言就是空空蕩蕩的棋盤。

這個最初的局面如果屬於「甲贏」，那甲就有必勝的策略；如果屬於「乙贏」，那乙就有必勝的策略；如果屬於「和棋」，那雙方就都有至少不輸的策略。

對於一些計算量不是很大的遊戲，所有的棋局都已經被分析過了，這樣的遊戲已經被徹底破解。

例如跳棋，在2007年已經得出結論：如果雙方都不犯錯，唯一的結果就是和棋。因此在理論上，跳棋這種遊戲已經死掉了，高手不用下都知道結果，——當然低手還是可以樂此不疲地去比拼誰犯錯少。

對於圍棋、中國象棋、國際象棋這樣計算量龐大的遊戲，棋局還沒有被窮舉，所以還沒有被徹底破解。不過，策梅洛定理已經足以說明，在完全信息博弈中AI必然會打敗人類，只是早晚的問題而已。

問：如果圍棋被徹底破解了，會怎麼樣？

答：武當派掌門人沖虛道長發來賀電！請看《笑傲江湖》第27章《三戰》的情節：

沖虛道人舉目望著殿外天井中的天空，獃獃出神，心下盤算令狐沖的劍招。眾人見他始終不動，似是入定一般，都覺十分奇怪。過了良久，沖虛道人長吁一口氣，說道：「這一場不用比了，你們四位下山去罷。」此言一出，眾人盡皆駭然。令狐沖大喜，躬身行禮。解風道：「道長，你這話是甚麼意思？」沖虛道：「我想不出破解他的劍法之道，這一場比試，貧道認輸。」解風道：「兩位可還沒動手啊。」沖虛道：「數日之前，在武當山下，貧道曾和他拆過三百餘招，那次是我輸了。今日再比，貧道仍然要輸。」

（圖片來自網路）

吶，做人呢，最重要是開心……沖虛道長就很懂得開心的道理。

圍棋如果被完全破解了，也會出現這樣的景象：假如黑方有必勝的策略，那麼看到黑方第一手走在必勝的落子範圍內，白方就直接認輸；假如白方有必勝的策略，那麼黑方第一手都不用下就直接認輸。

總之都是沖虛道長對令狐沖，唯一的問題只是：誰是沖虛，誰是令狐沖？

現在的圍棋AI在每一步都會給出對雙方勝率的估計。如果圍棋完全破解了，在一開始就會顯示一方的勝率是100%，另一方是0%。這時棋就完全沒有下的意義了。

這裡需要討論一下和棋。

對象棋來說，和棋是經常出現的結果，事實上高手之間對弈大多數時候都是和棋。對圍棋來說，和棋是極其罕見的結果，只出現在像三劫循環這樣同一局面再現時。

所以我們暫時不考慮圍棋中的和棋。但如果以後發現最優的策略就是向三劫循環前進……到那時候再說吧！

問：你只是說明了，圍棋中必然有一方有必勝的策略，但到底是黑方還是白方呢？

答：有一點需要注意的是，圍棋跟其他的棋類遊戲不同，有貼子、貼目的規則（這也是圍棋中和棋極少的原因），而且規則到現在都沒統一，還在不斷嘗試。那麼圍棋中哪一方有必勝策略，顯然是和規則有關的。

在目前的中國規則（黑貼還3又3/4子）下，大多數棋手都認為執白有利，很可能白方就是有必勝策略的。

而在以前的中國規則（黑貼還2又3/4子）下，大多數棋手都更傾向執黑，很可能就變成了黑方有必勝策略。

有人認為電腦可以讓人類的最高手二子，策梅洛定理告訴我們，這種狀況即使出現，也是不能保持的。在讓二子的情況下，黑方肯定有必勝的策略。

如果電腦還是能贏，不能說明這是必然的，只能說明人類棋手的水平太低了。但人類棋手的水平是可以進步的，總有一天會接近讓二子情況下的最優策略，到那時電腦必然會輸。

同樣的道理，現在的AlphaGo能讓2016年戰勝李世石的版本三子，並不等於現在的AlphaGo能讓李世石三子。這只是因為現在的AlphaGo找到了2016年版本中的bug，對此進行了強化訓練而已。

問：現在圍棋已經到「不用下」的程度了嗎？

答：當然還沒有。在AlphaGo跟自己對弈的棋譜中，很可能一開始白方就有一個非常高的勝率，但不到100%。

策梅洛定理說的只是：破解下棋問題是有可能的。考慮到技術的不斷進步，破解可以說是遲早會發生的，但具體是什麼時候，需要一年還是一百年，那就不知道了。

用數學的語言說，這條定理只是保證了解的存在性，並沒有直接給出解。

然而，解的存在性已經是一個非常重要的結論了。因為如果問題沒有解（例如發明永動機），那麼再聰明的智能也無濟於事。

有人把人工智慧當成像開了金手指一樣無所不能，這是完全錯誤的！這是一個十分常見的誤解，一定要認清。（程序員：萬能的AI啊，請給我找個女朋友……）

問：把棋盤擴大成21×21或者更大，電腦就下不過人了！

答：無論是棋盤在二維上擴大，還是把棋盤改成三維甚至金剛石形狀（每個點周圍的四個點組成一個正四面體），都有人考慮過。

但無論怎麼改，這些遊戲都屬於完全信息博弈的範疇，因此基本的結論不會改變：有一方存在必勝的策略，或者雙方都存在保平的策略。只要假以時日，電腦一定會在這樣的問題中超過人類。

金剛石結構（圖片來源於網路）

圍棋並不是一產生就是現在這個樣子的，實際上，魏晉之前的棋盤是17×17的。進化到現在的19×19，是達到了一個有趣程度的高峰。繼續擴大棋盤，不會改變人腦鬥不過電腦的本質，倒很有可能喪失遊戲性。

例如知乎大V「馬前卒」對「圍棋可能發展到三維嗎？」的回答：

二維防線上任何一個冒頭，都意味著3個方向的滲透，而三維防線上任何一個冒頭都意味著5個方向的滲透……這就徹底消滅了布局的作用。沒有了對峙和大局觀，只有無數割裂的小戰場。如果說二維圍棋是戰爭，那麼三維圍棋就是一連串的械鬥。戰爭有藝術，械鬥就只有個人經驗了。誰會喜歡這樣的遊戲呢？

問：既然圍棋AI的勝利只是「解決最容易的一類問題中最難的一個問題」，而且在數學上這是必然會發生的，那麼為什麼還會引起轟動呢？

答：因為圍棋的複雜度遠遠高於其他棋類遊戲。

圍棋的局面數目高達10的170次方，遠高於國際象棋的10的46次方，甚至比宇宙中質子的數目10的80次方還大。

這決定了，把國際象棋中「更深的藍」擊敗卡斯帕羅夫的方法移植到圍棋中，遠遠不足以擊敗圍棋高手。

事實上，在AlphaGo橫空出世之前，有一段時間圍棋AI的水平是相對停滯的。許多人認為電腦在圍棋上擊敗人類還需要10年、50年甚至100年。

在這個背景下，人工智慧突然從打不過任何職業棋手突飛猛進到戰勝世界冠軍，自然就令人震驚了。

這背後的道理，是人工智慧演算法的重大進步。具體而言，AlphaGo的成功是綜合運用策略網路、價值網路和蒙特卡洛搜索等技術的結果。我不熟悉這些演算法，而陳經是這方面的專家，寫了很多深入的分析文章，有興趣的讀者請去參考他的著作。

問：既然人類再也下不過電腦，以後是不是就沒人願意下圍棋了？

答：不是的。

一方面，人類不一定再也下不過電腦。通過跟電腦的拆招，這一年來人類對圍棋的領悟也增加了很多。

柯潔在被AlphaGo零封之後，立刻就把韓國的世界冠軍元晟溱吊打得體無完膚，這就是上強化班的效果。這樣下去，在一段時間之後，人類棋手再次向電腦發起挑戰，是完全有可能的。

當然，機器不會出錯，人在時間壓力下會出錯。所以為了公平起見，建議以後的人機對戰大大延長對局時間，甚至像當年秀哉名人對吳清源那樣隨時「打掛」（暫停棋局，考慮好了再來）。

只有這樣，才能發揮出人類棋手的最高水平，下出高質量的棋局，而不是每次都在時間壓力下因為一些小錯誤被擊潰。

另一方面，即使人類確實再也不是電腦的對手，也不會抹殺人們下棋的樂趣。實際發生的情況會是，人類用電腦作教練，更加高效地學習棋藝。

國際象棋就是這樣，世界第一都下不過手機版本的軟體，可是國際象棋的流行程度卻達到了前所未有的高峰，棋手們跟著AI，棋藝都大漲。吶，做人呢，最重要是開心！既然大家都這麼想得開，你又何必「為古人擔憂」呢？

問：既然圍棋只是完全信息博弈這最簡單的一類問題中的「皇冠上的明珠」，那麼整個人類智慧的「皇冠上的明珠」是什麼？

答：當然是——科學研究啊！

如果問歷史上最聰明的人有哪些，最先被提出來的肯定是牛頓、愛因斯坦、阿基米德、高斯等科學家，而不是黃龍士、吳清源、聶衛平等棋手。陳毅元帥寫過：「棋雖小道，品德最尊。」雖然「品德最尊」，但還是「小道」嘛。

科研為什麼這麼困難？

因為科研是高度開放性的問題，一眼看上去不知道答案到哪裡去尋找，甚至連有沒有答案都不知道。這是科研跟考試中做難題的根本區別，再難的題你至少知道是有答案的，這就已經大大降低難度了。而科學的答案又必須經得起實驗或邏輯的檢驗，這是科學跟宗教的根本區別。

因此，科研是需要最高創造性的人類活動，是人類區別於任何其他物種的本質。相比之下，下棋只是封閉問題，複雜程度相差不可以道里計。

問：「天網」是不是已經近在咫尺，機器人快要統治人類了？

答：連影子都沒有。人們經常拿來嚇唬自己的，都是有自我意識的「強人工智慧」。

但實際上，對強人工智慧如何實現，我們還完全沒有頭緒。目前所有的人工智慧研究，處理的都是「弱人工智慧」。

沿著這些技術路線走下去，能不能實現強人工智慧？沒人知道，很可能是不能。

在這種情況下，機器人統治人類還完全不是個現實的擔憂。當然這方面的哲學思考是需要的，只是說不要什麼都不敢幹了，自己把自己嚇死。

事實上，對技術毀滅人類的擔心，這並不是第一次。

核武器剛發明出來不久，科學家就對它的巨大破壞力極為憂心。在整個冷戰時期，核武器毀滅世界是最流行的話題，被比作懸在人類頭上的達摩克利斯之劍。

愛因斯坦、羅素、鮑林等仁人志士全力投入反戰運動，才阻止了核大戰。蘇聯解體僅僅20多年，我們這麼快就忘記了當年的千鈞一髮，把和平、繁榮當成了理所當然的，真是驚人的健忘！

問：聽說人機大戰只是谷歌操作股價的一個廣告？

答：這樣的說法我見過不少。例如這樣：「明眼人都能看出來其本質就是廣告和炒作，無非電腦善於高速計算、因此在簡單而重複的操作上有優勢而已。所謂演算法的改進也只是聚焦於如何提高計算或檢索效率。」

還有人說AlphaGo有幾千個CPU，計算能力比人腦高得多，擊敗人類是理所當然的，絲毫不值得奇怪。沿著這種思路，甚至還有人猜測李世石的那一盤勝利是谷歌故意放水，以便炒作。

這些觀點的問題在於，嚴重低估了技術進步的作用。能拿出幾千個CPU的企業有得是。真正的瓶頸不是在計算能力上，而是在演算法架構上，AlphaGo最大的進步是在這方面。

這種觀點就好像清朝人說洋鬼子只不過船堅炮利，其他的都不如天朝一樣，完全是小農心態。

幸好中國的企業和科技人員沒有聽這些人唧唧歪歪，很快也發展出了中國的圍棋AI，例如「絕藝」。

當你落後的時候，承認差距、加油趕上是唯一的正道，吃不到葡萄說葡萄酸是可笑可鄙的！

絕藝在野狐圍棋上升為十段

問：美國的人工智慧這麼厲害，中國是不是又要被碾壓了？

答：正好相反。在人工智慧方面中國是一個相當先進的國家，顯著超過美國之外的其他國家，跟美國的差距也在迅速縮小。

在人工智慧領域發表的科技論文數，中國已經超過了美國，而中美兩家都大大超過其他國家，基本上是一個雙頭競爭的格局。

由於中國有世界上最大的用戶群體、大數據和研發人員群體，對中美競爭的結果還可以抱有一定程度的樂觀。

無論如何，中美的前景都不會差，而其他國家會被中美拉得越來越遠。對此，陳經在觀天下論壇的演講中有詳細的討論，讀者可以參考。

上圖是關於深度學習領域的論文，可以看出中國和美國的論文數量遙遙領先於其他國家，也就是說從研發的角度，中美也是遙遙領先。

問：我們能夠對中國人工智慧的發展做些什麼？

答：從普通人的角度看，我們的社會心態和輿論需要學會平常心，對投入大量資源追求突破性成果持鼓勵的態度。

把自己認真地看做引領人類發展的先驅，從內心裡支持創新，寬容失敗，為創新本身感到興奮，這是一個社會成熟的標誌。

無論是什麼科研領域，關鍵歸根結底其實就是一點，要捨得投入資源。

追趕的難度跟原創有本質區別，用金錢來衡量，原創的性價比必然低於追趕。我們要轉換思維方式，像富人一樣思考，而不是像窮人一樣思考，更多地要以花別人2倍的錢辦別人1.5倍的事自豪，而不是以花別人10%的錢辦別人20%的事自豪。

要認識到，研發是回報最大的投資之一，投入越多其實是節約越多，這是富國的發達之本。中國的研發經費佔GDP的比例應該翻一番，從目前的2%出頭增加到韓國的4%水平，這是實現中國夢的關鍵！

出品：科普中國

製作：中國科學技術大學袁嵐峰

監製：中國科學院計算機網路信息中心

作者簡介：

袁嵐峰，中國科學技術大學化學博士，中國科學技術大學合肥微尺度物質科學國家實驗室副研究員，科技與戰略風雲學會會長，微博@中科大胡不歸，知乎@袁嵐峰。

請關注風雲學會的微信公眾平台「風雲之聲」，微信號fyvoice

「科普中國」是中國科協攜同社會各方

利用信息化手段開展科學傳播的科學權威品牌。

本文由科普中國融合創作出品，轉載請註明出處。

近期熱門

叒見引力波科學家秘密會議記錄

真鳥人！成年人得長七米的翅膀才能飛

避孕界「NO.1」！效果比傳統避孕法高10倍

端午出遊防晒秘笈！

地球的最終命運一定是滅亡？

胎毒讓孩子頭大！真的嗎？我才不信

寫在曼徹斯特恐襲之後

五萬公里黑不倒我為人類續一秒

探月工程首席科學家為科普撐腰

組織幫你找對象啦！科學方法脫單指南

公眾號：中國科普博覽

走過18年，我們為科學代言

轉載註明出處未經授權不得轉載

點擊下方，進入作者知乎主頁