為什麼AlphaGo贏了?用博弈論解釋人機大戰
2016年,AlphaGo在人機大戰中以4:1擊敗十幾屆圍棋世界冠軍得主李世石,激起了人們對人工智慧(AI)的強烈興趣。
2017年,AlphaGo再次出手,以3:0完勝當今圍棋第一人柯潔。
在最後一局比賽結束後的發布會上,AlphaGo之父、DeepMind創始人戴密斯·哈薩比斯(Demis Hassabis)發表了一個很動感情的感言:「本周的比賽聚集了圍棋起源地最優秀的棋手參與,是AlphaGo作為一個競賽系統能夠對弈的最高級別對手。
因此,本次中國烏鎮圍棋峰會是AlphaGo參加的最後對弈比賽。」
不敵AlphaGo的圍棋世界冠軍五人天團
獨孤求敗內牛滿面……
我的朋友、風雲學會會員陳經是一位人工智慧專家,寫過很多對圍棋AI的深入分析,預測過李世石戰勝AlphaGo的戰略(《在AlphaGo完勝後繼續分析其演算法巨大優勢與可能的缺陷》),他在這第二次人機大戰期間的反應可以作為一個絕妙的註腳。
陳經先是在開賽前為人類棋手加油打氣,尋找戰勝AI的辦法,「現在不能認慫,還是應該爭取戰勝AlphaGo」(《再次對決AlphaGo,柯潔的勝算有多大》)。
在AlphaGo贏了第一局後,陳經繼續為柯潔支招,「想要逼出AlphaGo的bug,柯潔必須把局面撐得很滿,讓雙方都不能退,不進入複雜變化就吃虧」(《人機大戰首局柯潔「憾負」AlphaGo的看點》)。
在AlphaGo贏了第二局後,陳經認為柯潔在前100手的表現已經接近完美,結語就在找台階了:「也許我們應該放下勝負,並不一定要追求戰勝AlphaGo。如果能象柯潔本局前100手一樣,發揮出人類對圍棋理解的最高水平,無論勝負,都是與水平超高發揮穩定的AlphaGo共同演繹出精彩的棋局。本局說明,棋局精彩到一定程度,真的是可以超越勝負的。」(《柯潔與AlphaGo第二局的精彩看點》)
到第三局的時候,陳經正在「觀天下論壇」做關於人工智慧未來的演講(《柯潔戰敗了,中國AI技術距離世界第一還有多遠?》),沒去看棋就預測了柯潔以0:3告負。
到賽後總結時,標題已經成了《AlphaGo的強大遠超人類,職業棋手闡釋AI演算法意義》:
「二次人機大戰五盤棋結束,應該可以得出結論了:AlphaGo遠強於人類棋手,而且即使它有bug,人類棋手也幾乎找不到。我之前的文章中不斷為人類棋手想辦法,試圖從演算法的角度發現AlphaGo的弱點,希望人類棋手能利用其弱點戰而勝之。現在看來,由於人類棋手與它差距實在太大,應該放棄這種想法了。」
不過,人類就沒得玩了嗎?不是的。
「AlaphGo不僅是通過戰績讓世人震驚,從圍棋藝術來說,它的很多招法,都體現了極度的震撼與美感。而這種震撼與美感,是人類的寶貴財富,是藝術精品,只有職業棋手才能最好的闡釋,AlphaGo團隊反而做不了。所以,人機大戰人類棋手與機器並不只是對抗,即使人類失利,雙方也共同對圍棋藝術作出了極大貢獻。」
多麼悲壯而喜劇的過程……用陳經自己的話說:人類的邏輯是無敵的!
這個過程可能容易讓人聯想到人們對不可抗拒的打擊的五階段反應:否認、憤怒、談判、絕望、接受。但是,陳經對圍棋AI的勝利從來沒有「憤怒」過。實際上,了解人機大戰技術背景的人都不會覺得有什麼好憤怒的,更不會對人類的未來感到絕望,——感到亦可賽艇還差不多。
然而,大多數人缺乏這方面的專業知識,大眾傳媒也充滿了唯恐天下不亂的咋咋呼呼,好像不把人類的未來說成被matrix控制的電池就不好意思開口似的。真的用不著這麼誇張!實際上,AlphaGo需要的不是恐懼,而是理解。狗是人類的朋友,狗狗很萌的,你們不要黑它~
下面我來寫一個答客問,回答若干經常被誤解的問題。
問:圍棋是人類智慧「皇冠上的明珠」,人工智慧在圍棋上的勝利意味著電腦的智能已經完全超過了人,是這樣的嗎?
答:當然……不是!其實那個前提就錯了,圍棋不是整個人類智慧這頂大皇冠上的明珠,只是人類智慧的一小部分「完全信息博弈」這頂小皇冠上的明珠。在完全信息博弈這個領域裡,人工智慧的勝利是遲早的事情,這是一條數學定理保證的,所以絲毫沒有值得驚慌的地方。因此,圍棋AI擊敗人類的意義,簡而言之就是:人工智慧解決了最容易的一類問題中最難的一個問題。
問:完全信息博弈是什麼意思?
答:規則明確(不是連規則都不知道或者朝令夕改),局面有限(棋盤不是無限大),信息完全(一覽無餘,沒有底牌、戰爭迷霧之類),確定性(不像大富翁遊戲那樣擲骰子),兩方(不像麻將或四國大戰那樣多方),對抗性遊戲(一方所得必然是另一方所失,沒有合作共贏)。
我們常見的棋類遊戲,如圍棋、中國象棋、國際象棋、五子棋、跳棋,都是這樣的例子。
在完全信息博弈的問題中,圍棋是最難的。但是在人類能夠處理的所有問題中,作為整體,完全信息博弈又是最簡單的一類,也是最適合電腦處理的。
改變任何一個限制條件都會使問題變得更難。比如說,送快遞對於人來說很容易,對機器人來說就非常困難了,目前還沒有成功,因為其中用到的能力太多了,識字、跑腿、上樓等等都不是完全信息博弈。
問:什麼定理保證了人工智慧在完全信息博弈中的勝利?
答:這條定理是1913年由德國數學家策梅洛(Ernst Friedrich Ferdinand Zermelo)證明的,稱為博弈論中的策梅洛定理(Zermelo theorem of game theory)。之所以這麼叫,是因為在集合論(set theory)中有另一個策梅洛定理。
德國數學家策梅洛,集合論的奠基人之一
博弈論中的策梅洛定理說的是:在完全信息博弈中,至少有一方可以找到一種在任何情況下都不輸的策略,即或者贏或者平局。
換句話說,任何一種二人棋類遊戲,如果雙方都不犯錯,就必然屬於三種之一:先手必勝,後手必勝,或者雙方都可以保平。
證明這條定理的基本思路是「遞歸」。
首先,在接近終局時,我們可以看清,從當前局面出發,雙方都下出最佳應對的最終結果是「甲贏」、「乙贏」或者「和棋」,這樣就把棋局分成了三類。
然後通過倒推(也就是「遞歸」),看哪些局面可以歸結到這些結論已經確定的局面,就可以給越來越多的棋局確定類別。
最後,你可以把所有的棋局都辨別清楚,包括最初的局面:對象棋而言就是所有棋子都沒動,對圍棋而言就是空空蕩蕩的棋盤。
這個最初的局面如果屬於「甲贏」,那甲就有必勝的策略;如果屬於「乙贏」,那乙就有必勝的策略;如果屬於「和棋」,那雙方就都有至少不輸的策略。
對於一些計算量不是很大的遊戲,所有的棋局都已經被分析過了,這樣的遊戲已經被徹底破解。
例如跳棋,在2007年已經得出結論:如果雙方都不犯錯,唯一的結果就是和棋。因此在理論上,跳棋這種遊戲已經死掉了,高手不用下都知道結果,——當然低手還是可以樂此不疲地去比拼誰犯錯少。
對於圍棋、中國象棋、國際象棋這樣計算量龐大的遊戲,棋局還沒有被窮舉,所以還沒有被徹底破解。不過,策梅洛定理已經足以說明,在完全信息博弈中AI必然會打敗人類,只是早晚的問題而已。
問:如果圍棋被徹底破解了,會怎麼樣?
答:武當派掌門人沖虛道長發來賀電!請看《笑傲江湖》第27章《三戰》的情節:
沖虛道人舉目望著殿外天井中的天空,獃獃出神,心下盤算令狐沖的劍招。眾人見他始終不動,似是入定一般,都覺十分奇怪。過了良久,沖虛道人長吁一口氣,說道:「這一場不用比了,你們四位下山去罷。」此言一出,眾人盡皆駭然。令狐沖大喜,躬身行禮。解風道:「道長,你這話是甚麼意思?」沖虛道:「我想不出破解他的劍法之道,這一場比試,貧道認輸。」解風道:「兩位可還沒動手啊。」沖虛道:「數日之前,在武當山下,貧道曾和他拆過三百餘招,那次是我輸了。今日再比,貧道仍然要輸。」
(圖片來自網路)
吶,做人呢,最重要是開心……沖虛道長就很懂得開心的道理。
圍棋如果被完全破解了,也會出現這樣的景象:假如黑方有必勝的策略,那麼看到黑方第一手走在必勝的落子範圍內,白方就直接認輸;假如白方有必勝的策略,那麼黑方第一手都不用下就直接認輸。
總之都是沖虛道長對令狐沖,唯一的問題只是:誰是沖虛,誰是令狐沖?
現在的圍棋AI在每一步都會給出對雙方勝率的估計。如果圍棋完全破解了,在一開始就會顯示一方的勝率是100%,另一方是0%。這時棋就完全沒有下的意義了。
這裡需要討論一下和棋。
對象棋來說,和棋是經常出現的結果,事實上高手之間對弈大多數時候都是和棋。對圍棋來說,和棋是極其罕見的結果,只出現在像三劫循環這樣同一局面再現時。
所以我們暫時不考慮圍棋中的和棋。但如果以後發現最優的策略就是向三劫循環前進……到那時候再說吧!
問:你只是說明了,圍棋中必然有一方有必勝的策略,但到底是黑方還是白方呢?
答:有一點需要注意的是,圍棋跟其他的棋類遊戲不同,有貼子、貼目的規則(這也是圍棋中和棋極少的原因),而且規則到現在都沒統一,還在不斷嘗試。那麼圍棋中哪一方有必勝策略,顯然是和規則有關的。
在目前的中國規則(黑貼還3又3/4子)下,大多數棋手都認為執白有利,很可能白方就是有必勝策略的。
而在以前的中國規則(黑貼還2又3/4子)下,大多數棋手都更傾向執黑,很可能就變成了黑方有必勝策略。
有人認為電腦可以讓人類的最高手二子,策梅洛定理告訴我們,這種狀況即使出現,也是不能保持的。在讓二子的情況下,黑方肯定有必勝的策略。
如果電腦還是能贏,不能說明這是必然的,只能說明人類棋手的水平太低了。但人類棋手的水平是可以進步的,總有一天會接近讓二子情況下的最優策略,到那時電腦必然會輸。
同樣的道理,現在的AlphaGo能讓2016年戰勝李世石的版本三子,並不等於現在的AlphaGo能讓李世石三子。這只是因為現在的AlphaGo找到了2016年版本中的bug,對此進行了強化訓練而已。
問:現在圍棋已經到「不用下」的程度了嗎?
答:當然還沒有。在AlphaGo跟自己對弈的棋譜中,很可能一開始白方就有一個非常高的勝率,但不到100%。
策梅洛定理說的只是:破解下棋問題是有可能的。考慮到技術的不斷進步,破解可以說是遲早會發生的,但具體是什麼時候,需要一年還是一百年,那就不知道了。
用數學的語言說,這條定理只是保證了解的存在性,並沒有直接給出解。
然而,解的存在性已經是一個非常重要的結論了。因為如果問題沒有解(例如發明永動機),那麼再聰明的智能也無濟於事。
有人把人工智慧當成像開了金手指一樣無所不能,這是完全錯誤的!這是一個十分常見的誤解,一定要認清。(程序員:萬能的AI啊,請給我找個女朋友……)
問:把棋盤擴大成21×21或者更大,電腦就下不過人了!
答:無論是棋盤在二維上擴大,還是把棋盤改成三維甚至金剛石形狀(每個點周圍的四個點組成一個正四面體),都有人考慮過。
但無論怎麼改,這些遊戲都屬於完全信息博弈的範疇,因此基本的結論不會改變:有一方存在必勝的策略,或者雙方都存在保平的策略。只要假以時日,電腦一定會在這樣的問題中超過人類。
金剛石結構(圖片來源於網路)
圍棋並不是一產生就是現在這個樣子的,實際上,魏晉之前的棋盤是17×17的。進化到現在的19×19,是達到了一個有趣程度的高峰。繼續擴大棋盤,不會改變人腦鬥不過電腦的本質,倒很有可能喪失遊戲性。
例如知乎大V「馬前卒」對「圍棋可能發展到三維嗎?」的回答:
二維防線上任何一個冒頭,都意味著3個方向的滲透,而三維防線上任何一個冒頭都意味著5個方向的滲透……這就徹底消滅了布局的作用。沒有了對峙和大局觀,只有無數割裂的小戰場。如果說二維圍棋是戰爭,那麼三維圍棋就是一連串的械鬥。戰爭有藝術,械鬥就只有個人經驗了。誰會喜歡這樣的遊戲呢?
問:既然圍棋AI的勝利只是「解決最容易的一類問題中最難的一個問題」,而且在數學上這是必然會發生的,那麼為什麼還會引起轟動呢?
答:因為圍棋的複雜度遠遠高於其他棋類遊戲。
圍棋的局面數目高達10的170次方,遠高於國際象棋的10的46次方,甚至比宇宙中質子的數目10的80次方還大。
這決定了,把國際象棋中「更深的藍」擊敗卡斯帕羅夫的方法移植到圍棋中,遠遠不足以擊敗圍棋高手。
事實上,在AlphaGo橫空出世之前,有一段時間圍棋AI的水平是相對停滯的。許多人認為電腦在圍棋上擊敗人類還需要10年、50年甚至100年。
在這個背景下,人工智慧突然從打不過任何職業棋手突飛猛進到戰勝世界冠軍,自然就令人震驚了。
這背後的道理,是人工智慧演算法的重大進步。具體而言,AlphaGo的成功是綜合運用策略網路、價值網路和蒙特卡洛搜索等技術的結果。我不熟悉這些演算法,而陳經是這方面的專家,寫了很多深入的分析文章,有興趣的讀者請去參考他的著作。
問:既然人類再也下不過電腦,以後是不是就沒人願意下圍棋了?
答:不是的。
一方面,人類不一定再也下不過電腦。通過跟電腦的拆招,這一年來人類對圍棋的領悟也增加了很多。
柯潔在被AlphaGo零封之後,立刻就把韓國的世界冠軍元晟溱吊打得體無完膚,這就是上強化班的效果。這樣下去,在一段時間之後,人類棋手再次向電腦發起挑戰,是完全有可能的。
當然,機器不會出錯,人在時間壓力下會出錯。所以為了公平起見,建議以後的人機對戰大大延長對局時間,甚至像當年秀哉名人對吳清源那樣隨時「打掛」(暫停棋局,考慮好了再來)。
只有這樣,才能發揮出人類棋手的最高水平,下出高質量的棋局,而不是每次都在時間壓力下因為一些小錯誤被擊潰。
另一方面,即使人類確實再也不是電腦的對手,也不會抹殺人們下棋的樂趣。實際發生的情況會是,人類用電腦作教練,更加高效地學習棋藝。
國際象棋就是這樣,世界第一都下不過手機版本的軟體,可是國際象棋的流行程度卻達到了前所未有的高峰,棋手們跟著AI,棋藝都大漲。吶,做人呢,最重要是開心!既然大家都這麼想得開,你又何必「為古人擔憂」呢?
問:既然圍棋只是完全信息博弈這最簡單的一類問題中的「皇冠上的明珠」,那麼整個人類智慧的「皇冠上的明珠」是什麼?
答:當然是——科學研究啊!
如果問歷史上最聰明的人有哪些,最先被提出來的肯定是牛頓、愛因斯坦、阿基米德、高斯等科學家,而不是黃龍士、吳清源、聶衛平等棋手。陳毅元帥寫過:「棋雖小道,品德最尊。」雖然「品德最尊」,但還是「小道」嘛。
科研為什麼這麼困難?
因為科研是高度開放性的問題,一眼看上去不知道答案到哪裡去尋找,甚至連有沒有答案都不知道。這是科研跟考試中做難題的根本區別,再難的題你至少知道是有答案的,這就已經大大降低難度了。而科學的答案又必須經得起實驗或邏輯的檢驗,這是科學跟宗教的根本區別。
因此,科研是需要最高創造性的人類活動,是人類區別於任何其他物種的本質。相比之下,下棋只是封閉問題,複雜程度相差不可以道里計。
問:「天網」是不是已經近在咫尺,機器人快要統治人類了?
答:連影子都沒有。人們經常拿來嚇唬自己的,都是有自我意識的「強人工智慧」。
但實際上,對強人工智慧如何實現,我們還完全沒有頭緒。目前所有的人工智慧研究,處理的都是「弱人工智慧」。
沿著這些技術路線走下去,能不能實現強人工智慧?沒人知道,很可能是不能。
在這種情況下,機器人統治人類還完全不是個現實的擔憂。當然這方面的哲學思考是需要的,只是說不要什麼都不敢幹了,自己把自己嚇死。
事實上,對技術毀滅人類的擔心,這並不是第一次。
核武器剛發明出來不久,科學家就對它的巨大破壞力極為憂心。在整個冷戰時期,核武器毀滅世界是最流行的話題,被比作懸在人類頭上的達摩克利斯之劍。
愛因斯坦、羅素、鮑林等仁人志士全力投入反戰運動,才阻止了核大戰。蘇聯解體僅僅20多年,我們這麼快就忘記了當年的千鈞一髮,把和平、繁榮當成了理所當然的,真是驚人的健忘!
問:聽說人機大戰只是谷歌操作股價的一個廣告?
答:這樣的說法我見過不少。例如這樣:「明眼人都能看出來其本質就是廣告和炒作,無非電腦善於高速計算、因此在簡單而重複的操作上有優勢而已。所謂演算法的改進也只是聚焦於如何提高計算或檢索效率。」
還有人說AlphaGo有幾千個CPU,計算能力比人腦高得多,擊敗人類是理所當然的,絲毫不值得奇怪。沿著這種思路,甚至還有人猜測李世石的那一盤勝利是谷歌故意放水,以便炒作。
這些觀點的問題在於,嚴重低估了技術進步的作用。能拿出幾千個CPU的企業有得是。真正的瓶頸不是在計算能力上,而是在演算法架構上,AlphaGo最大的進步是在這方面。
這種觀點就好像清朝人說洋鬼子只不過船堅炮利,其他的都不如天朝一樣,完全是小農心態。
幸好中國的企業和科技人員沒有聽這些人唧唧歪歪,很快也發展出了中國的圍棋AI,例如「絕藝」。
當你落後的時候,承認差距、加油趕上是唯一的正道,吃不到葡萄說葡萄酸是可笑可鄙的!
絕藝在野狐圍棋上升為十段
問:美國的人工智慧這麼厲害,中國是不是又要被碾壓了?
答:正好相反。在人工智慧方面中國是一個相當先進的國家,顯著超過美國之外的其他國家,跟美國的差距也在迅速縮小。
在人工智慧領域發表的科技論文數,中國已經超過了美國,而中美兩家都大大超過其他國家,基本上是一個雙頭競爭的格局。
由於中國有世界上最大的用戶群體、大數據和研發人員群體,對中美競爭的結果還可以抱有一定程度的樂觀。
無論如何,中美的前景都不會差,而其他國家會被中美拉得越來越遠。對此,陳經在觀天下論壇的演講中有詳細的討論,讀者可以參考。
上圖是關於深度學習領域的論文,可以看出中國和美國的論文數量遙遙領先於其他國家,也就是說從研發的角度,中美也是遙遙領先。
問:我們能夠對中國人工智慧的發展做些什麼?
答:從普通人的角度看,我們的社會心態和輿論需要學會平常心,對投入大量資源追求突破性成果持鼓勵的態度。
把自己認真地看做引領人類發展的先驅,從內心裡支持創新,寬容失敗,為創新本身感到興奮,這是一個社會成熟的標誌。
無論是什麼科研領域,關鍵歸根結底其實就是一點,要捨得投入資源。
追趕的難度跟原創有本質區別,用金錢來衡量,原創的性價比必然低於追趕。我們要轉換思維方式,像富人一樣思考,而不是像窮人一樣思考,更多地要以花別人2倍的錢辦別人1.5倍的事自豪,而不是以花別人10%的錢辦別人20%的事自豪。
要認識到,研發是回報最大的投資之一,投入越多其實是節約越多,這是富國的發達之本。中國的研發經費佔GDP的比例應該翻一番,從目前的2%出頭增加到韓國的4%水平,這是實現中國夢的關鍵!
出品:科普中國
製作:中國科學技術大學 袁嵐峰
監製:中國科學院計算機網路信息中心
作者簡介:
袁嵐峰,中國科學技術大學化學博士,中國科學技術大學合肥微尺度物質科學國家實驗室副研究員,科技與戰略風雲學會會長,微博@中科大胡不歸,知乎@袁嵐峰。
請關注風雲學會的微信公眾平台「風雲之聲」,微信號fyvoice
「科普中國」是中國科協攜同社會各方
利用信息化手段開展科學傳播的科學權威品牌。
本文由科普中國融合創作出品,轉載請註明出處。
近期熱門
叒見引力波 科學家秘密會議記錄
真鳥人!成年人得長七米的翅膀才能飛
避孕界「NO.1」!效果比傳統避孕法高10倍
端午出遊防晒秘笈!
地球的最終命運一定是滅亡?
胎毒讓孩子頭大!真的嗎?我才不信
寫在曼徹斯特恐襲之後
五萬公里黑不倒 我為人類續一秒
探月工程首席科學家為科普撐腰
組織幫你找對象啦!科學方法脫單指南
公眾號:中國科普博覽
走過18年,我們為科學代言
轉載註明出處 未經授權不得轉載
點擊下方,進入作者知乎主頁
推薦閱讀:
※遲蹭一個熱點:AlphaGo Zero 筆記
※類似 AlphaGo 的人工智慧在遊戲王、萬智牌等卡牌遊戲中勝率如何?
※棋王
※不只是圍棋!AlphaGo Zero之後DeepMind推出泛化強化學習演算法AlphaZero
※報名 | AlphaGo戰勝李世石一周年,李玉喜博士:AlphaGo核心技術及應用