AlphaGo的前世今生

06-30

2016-03-12 北京郵電大學研究生會

2016年3月9日，AlphaGo戰勝圍棋世界冠軍韓國李世石，被成為世紀之戰。下面我們來了解下AlphaGo的前世今生。

alpha，希臘字母表的第一個字母；有第一個、開端、最初的含意。go，日本對圍棋的叫法，因為圍棋職業化和段位制都是從日本棋院發展而來。AlphaGo也就是第一個（智能）圍棋的意思。

阿爾法圍棋（AlphaGo）是一款圍棋人工智慧程序，由位於英國倫敦的谷歌（Google）旗下DeepMind公司的戴維·西爾弗、艾佳·黃和戴密斯·哈薩比斯與他們的團隊開發，這個程序利用「價值網路」去計算局面，用「策略網路」去選擇下子。

在了解AlphaGo之前，我們不妨來看看人工智慧在這半個多世紀的時間裡都有哪些值得回顧的瞬間。

人工智慧的出現

看過《模仿遊戲》這部電影的讀者，應該對劇中圖靈製造破譯德軍密碼機器的環節印象深刻。事實上，20世紀40年代至50年代也是人工智慧真正誕生的時間。在這段時間內，數學、心理學、工程學、經濟學、政治學等領域的科學家們開始探索製造人工大腦的可行性。

1950年，著名的圖靈測試誕生，按照艾倫·圖靈的定義：如果一台機器能夠與人類展開對話（通過電傳設備）而不能被辨別出其機器身份，那麼稱這台機器具有智能。同年，圖靈還預言了創造出具有真正智能的機器的可能性。

1951年，西洋跳棋程序和國際象棋程序相繼誕生。經過接近10年的發展後，國際象棋程序已經可以挑戰具有相當水平的業餘愛好者，而人工智慧遊戲也被當著衡量人工智慧進展的標準之一。

1956年，在達特茅斯學院舉行的一次會議上，計算機科學家約翰·麥卡錫說服與會者接受「人工智慧」一詞作為本領域的名稱。後來，這次會議也被大家看著是人工智慧正式誕生的標誌。

人工智慧的第一次大發展

1956年達特茅斯會議之後的十幾年是人工智慧的黃金年代。在這段時間內，計算機被用來解決代數應用題、證明幾何定理、學習和使用英語，這些成果在得到廣泛讚賞的同時也讓研究者們對開發出完全智能的機器信心倍增。當時，人工智慧研究者們甚至認為：「二十年內，機器將能完成人能做到的一切工作」、「在三到八年的時間裡我們將得到一台具有人類平均智能的機器」。

伴隨著初期的顯著成果和樂觀情緒的瀰漫，在麻省理工、卡內基梅隆大學、斯坦福大學、愛丁堡大學建立的人工智慧項目都獲得了來自ARPA（國防高等研究計劃署）等政府機構的大筆資金。不過，這些投入卻並沒有讓當時的樂觀預言得以實現。

人工智慧的第一次低谷

由於人工智慧研究者們對項目難度評估不足，這除了導致承諾無法兌現外，還讓人們當初的樂觀期望遭到嚴重打擊。到了70年代，人工智慧開始遭遇批評，研究經費也被轉移到那些目標明確的特定項目上。

在當時，由於計算機性能的瓶頸、計算複雜性的指數級增長、數據量缺失等問題，一些難題看上去好像完全找不到答案。比如像今天已經比較常見的機器視覺功能在當時就不可能找到一個足夠大的資料庫來支撐程序去學習，機器無法吸收足夠的數據量自然也就談不上視覺方面的智能化。

項目的停滯不但讓批評者有機可乘——1973年lighthill針對英國AI研究狀況的報告批評了AI在實現其「宏偉目標」上的完全失敗，也影響到了項目資金的流向。人工智慧遭遇了6年左右的低谷。

人工智慧的第二次大發展

小時候看電視時，不少節目都給我留下了「日本的機器人技術比中國先進」的印象，其實這並不是憑空發生的。1981年，日本經濟產業省撥款八億五千萬美元支持第五代計算機項目，目標是製造出能夠與人對話、翻譯語言、解釋圖像，並且能像人一樣推理的機器。隨後，英國、美國也紛紛響應，開始向AI和信息技術領域的研究提供大量資金。

在這個階段，諸多公司開始採納一種名為「專家系統」的人工智慧程序。這套系統可以簡單理解為「知識庫+推理機」，是一類具有專門知識和經驗的計算機智能程序系統，「知識處理」隨之也成為了主流AI研究的焦點。

1980年，卡內基·梅隆大學為數字設備公司設計了一個名為XCON的專家系統，這套系統在1986年之前能為公司每年節省四千萬美元。有了商業模式，相關產業自然應運而生，比如Symbolics、lispMachines等硬體公司和IntelliCorp、Aion等軟體公司。這個時期，僅專家系統產業的價值就有5億美元。

人工智慧的第二次低谷

好景不長，持續7年左右的人工智慧繁榮很快就接近了尾聲。到1987年時，蘋果和IBM生產的台式機性能都超過了Symbolics等廠商生產的通用型計算機，專家系統自然風光不再。

到80年代晚期，DARPA的新任領導認為人工智慧並不是「下一個浪潮」；1991年，人們發現日本人設定的「第五代工程」也沒能實現。這些事實情況讓人們從對「專家系統」的狂熱追捧中一步步走向失望。人工智慧研究再次遭遇經費危機。

人工智慧最近的一個階段：從1993年到現在

現在大家談到人工智慧、機器學習時，往往會說這並不是一個新概念，在上世紀90年代就有了。事實上，這只是人工智慧發展史上離大家最近的一個階段。

深藍機組之一

在這個階段，人工智慧其實取得了一些里程碑似的成果。比如在1997年，IBM的深藍（

它是一台超級國際象棋電腦，重1270公斤，有32個大腦(微處理器)，每秒鐘可以計算2億步，被輸入了一百多年來優秀棋手的對局兩百多萬局。）戰勝國際象棋世界冠軍卡斯帕羅夫；2009年，洛桑聯邦理工學院發起的藍腦計劃聲稱已經成功地模擬了部分鼠腦；以及即將到來的AlphaGo圍棋大戰。

最近這幾年，機器學習、圖像識別這些人工智慧技術更是被用到了普通人的實際生活中。我們可以在GooglePhotos中更快地找到包含貓貓狗狗的圖片，可以讓GoogleNow自動推送給我可能需要的信息，可以讓Inbox自動撰寫郵件回復。這背後都離不開人工智慧研究者們的長久努力。

AlphaGo和以往任何一個人工智慧程序最大的不同之處在於它擁有：深度學習能力。要知道學習能力和創造力是人類大腦最神奇的地方，如果將來某一天，人工智慧學會了創造，那機器統治人類的時代估計就要來臨了。

AlphaGo程序原理

阿爾法圍棋（AlphaGo）是一款圍棋人工智慧程序。這個程序利用「價值網路」去計算局面，用「策略網路」去選擇下子。

深度學習

阿爾法圍棋（AlphaGo）的主要工作原理是「深度學習」。「深度學習」是指多層的人工神經網路和訓練它的方法。一層神經網路會把大量矩陣數字作為輸入，通過非線性激活方法取權重，再產生另一個數據集合作為輸出。這就像生物神經大腦的工作機理一樣，通過合適的矩陣數量，多層組織鏈接一起，形成神經網路「大腦」進行精準複雜的處理，就像人們識別物體標註圖片一樣。

兩個大腦

阿爾法圍棋（AlphaGo）是通過兩個不同神經網路「大腦」合作來改進下棋。這些大腦是多層神經網路跟那些Google圖片搜索引擎識別圖片在結構上是相似的。它們從多層啟發式二維過濾器開始，去處理圍棋棋盤的定位，就像圖片分類器網路處理圖片一樣。經過過濾，

13個完全連接的神經網路層產生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。

這些網路通過反覆訓練來檢查結果，再去校對調整參數，去讓下次執行更好。這個處理器有大量的隨機性元素，所以人們是不可能精確知道網路是如何「思考」的，但更多的訓練後能讓它進化到更好。

為何說這是世紀之戰？

過去20多年來，科技家們一直在試著教會電腦下棋，在1997年，IBM的深藍曾經打敗了國際象棋的世界冠軍GarryKasparov，這成為了人工智慧的一座里程碑事件。但是，圍棋比國際象棋還是要複雜得多，國際象棋中，平均每回合有35種可能，一盤棋可以有80回合；相比之下，圍棋每回合有250種可能，一盤棋可以長達150回合。

在過去很長時間裡，最好的計算機連厲害點的業餘圍棋棋手都下不過。「圍棋有可能是人類玩的最複雜的棋盤類遊戲。」Hassabis說，「但是阿爾法Go還是贏了，它比我們預料的還要強大。」

「阿爾法Go自己學會了很多規律和走法。圍棋被認為是人工智慧研究的頂峰，是聖杯。對我們來說，這是難以抗拒的挑戰。」

在下國際象棋的時候，計算機可以分析出每一個可能的步驟，從而進行最優選擇，但是，圍棋可能的步驟是國際象棋的10倍之多。這也正是圍棋人工智慧的難點所在。

DavidSilver是這項研究的第一作者，在他看來，阿爾法Go的關鍵不在於簡單粗暴的計算出可能步驟，而是近似於人類的「想像力」。這背後是名為一項名為「深度學習」的大殺器，它讓計算機不再是簡單地使用計算能力來統計所有數據，而是像人類一樣，訓練，然後學習。Silver說，計算機「下圍棋需要的極複雜的直覺機制，這種機制以前我們認為只可能存在於人類大腦中。」

不僅僅比人類、比起其他機器人同類，阿爾法Go也更加強大。它和其他人工智慧下了500場圍棋，只輸了1場，甚至在給對手讓子的情況下，它也照贏不誤。而Silver說，它比其他人工智慧更先進的地方，就在於可以自我學習。而且，這種機制不僅僅可以用在圍棋學習中，阿爾法Go還可以用來解決很多現實問題，比如處理氣候模型等。

「阿爾法狗」與李世石的對弈，標誌著人工智慧一個里程碑式的進步，也似乎在預示著我們人工智慧取代人類或許就在不遠的未來。下面3場對弈，我們試目以待。