柯潔說：後兩場全力以赴，之後不再與AI對弈

02-09

23日14點52分，一盤圍棋在烏鎮互聯網國際會展中心收官，黑子以四分之一目輸給白子。

這是AlphaGo和柯潔的第一場正式比賽，猜先後，柯潔先手執黑，AlphaGo執白，代AlphaGo執棋的人肉臂是DeepMind資深研究員黃士傑博士。

與之前AlphaGo在網上化身Master連續60場不敗的快棋不同，這一場比賽的採用的是傳統規則，每人有3小時的時間。

在這場比賽的終盤，柯潔的剩餘時間僅13分鐘，AlphaGo的剩餘時間卻是1小時29分鐘。但最終結束時柯潔僅以1/4子小負，並不像之前許多人悲觀預測的那樣「慘敗」。

對於一場被極度關注的賽事，柯潔在比賽剛開始時的表現卻顯得比較輕鬆。

他系一條特別小清新的天藍色領帶，正逢烏鎮梅雨時節，這條領帶讓他看起來又涼爽。雖然還不到20歲，但是比賽中的柯潔總讓人感覺不到他其實還是個少年。

柯潔和Alpha Go其實有一些相似之處，就是他們都很擅長學習。在第八手棋的時候，柯潔就主動點三三。

點三三正是AlphaGo開創的，現場解說的華以剛描述這種下法的時候這麼說：太神奇了，也評論不出是好棋還是壞棋，因為根本就沒見有人這麼下過。柯潔很大膽的學了這招，並反用在了AlphaGo身上。

儘管最後以很小的差距輸給了AlphaGo，柯潔還是認為AlphaGo實在是個太厲害的棋手。這一次的AlphaGo跟上一次人機大戰版本顯得特別不一樣，上一次還像點人，但這一次就完全不像了。

如果有一件事是柯潔從AlphaGo身上學到的，那就是：沒什麼棋是不能下的。

第一場比賽結束後的柯潔稍顯落寞，甚至還苦笑了一下，其實在很早的時候就知道自己要輸了。但是他說後兩場仍會全力以赴，因為這將是他和人工智慧進行的最後兩場比賽了，此後，他只和人類對弈。

為什麼是今年，AlphaGo能在現在戰勝人類？

深藍在國際象棋領域戰勝卡斯帕羅夫已經過去了20年，為什麼AlphaGo在這麼多年之後才總算能有望戰勝人類。

其中一個重要的原因是，國際象棋的所有可能性只有 10 的 46 次方，而圍棋的可能性是 10 的 170 次方之外。

在深藍獲勝20年之後計算機領域幾乎沒有停滯過的摩爾定律為AlphaGo的出現提供了算力基礎。

另一方面，人工智慧的演算法在過去的20年中也出現了變化。最典型的是從雙層神經網路進化到了多層神經網路，而在反向傳播的基礎上多層神經網路的自主學習實現了可能。

簡單來說，即便是在1997年人類就已經製作出了AlphaGo所使用的演算法，我們也不足以製造出足夠能運算這一演算法的計算機。

早在1952年，計算機專家艾倫·圖靈就編寫了世界上第一個可以下國際象棋的計算機程序。但當時的計算機算力不足以支撐這個程序，圖靈用紙和筆模擬驗算，半小時下一步與同事對弈。

算力的改進為AlphaGo提供了比之前的所有AI更快的思考速度，演算法的改進則為AlphaGo提供了比之前的任何AI都更先進的思考方式。

兩者共同實現的就是讓AlphaGo能夠在正常圍棋賽的時間內，計算出下一步落子的位置。這才是讓AlphaGo能夠在今天，在此刻有可能戰勝人類的原因。

AlphaGo在這一局比賽中，剩餘的時間很長，但贏得的目數不多。AlphaGo在現有的算力基礎上，演算法依然有改進的空間。這也許是因為之前AlphaGo都在下快棋，還沒有習慣「多思考一會兒」。

賽後舉行的發布會上，柯潔在回答提問時表示：「要讓我自己當嘉賓來點評的話，我要說AlphaGo下得很好，有很多地方值得我們棋手去學習。我也深受AlphaGo的影響，沒有什麼其實是不可以下的，可以大量去創新，開拓自己的思維，是很值得我們去學習的。」

那麼，AlphaGo是如何贏得比賽的？

AlphaGo的基礎原理在很多地方已經講過了——既然圍棋的可能性有 10 的 170 次方之多，那麼就不可能通過窮舉的辦法來預測對手的每一步行動。

但是，現實中的圍棋對弈也不需要這樣預測所有的可能，只需要綜合圍棋的一般下法、經典的棋譜、對手的下棋風格，猜出「你此刻的對手打算怎麼走」就可以剋制對方了。

按照此前的介紹，AlphaGo獲取棋局信息後，會根據策略網路（policy network）探索哪個位置同時具備高潛在價值和高可能性，進而決定最佳落子位置。

在分配的搜索時間結束時，模擬過程中被系統最頻繁考察的位置將成為 AlphaGo 的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後，AlphaGo的搜索演算法就能在其計算能力之上加入近似人類的直覺判斷。

在圍棋這種人類發明的博弈遊戲中，人工智慧有兩個先天優勢是人類所不能比擬的：

1.人工智慧可以背下所有的棋譜和看完對手的所有比賽；

2.人工智慧沒有受到正統圍棋比賽的「套路」影響，可以在下法上更加出其不意。

隨著AlphaGo不斷進行公開比賽，第二點優勢會逐漸喪失。柯潔在這一場比賽中展現了針對人工智慧棋手慣用下法的一些策略，實際效果不俗，讓這場比賽看起來幾乎「勢均力敵」。

而很多人注意到，這一局比賽中「AlphaGo判斷自己勝定後，在小官子階段有退讓」這並不一定是AlphaGo變得人性化了。而是AlphaGo在「學習」的過程中，連人類的這種下棋的「禮儀」也學走了。

這有可能，反而是戰勝AlphaGo的一個突破點。

如果人類完敗，AlphaGo的下一個目標是自己嗎？

很多人問，「AlphaGo和AlphaGo比賽，哪個會獲勝？」

這裡需要用「如何識別蘋果」，來簡單的解釋下什麼是深度學習：

我們都能很輕易的概括一個蘋果的特徵，比如：紅色、圓的、反光、沒有毛

在實際中，研究人員並不會先定義蘋果的這些特性，而是將一堆包含蘋果和不包含蘋果的圖像都丟給多層神經網路。

多層神經網路的第一層先把圖片中比較像的分為X個類。在下一層里，將X類中的圖片按照新的特徵重新分一遍生成Y個類，不斷分類下去。

在訓練的最開始，演算法對圖片進行的分類是完全隨機的，得到的結果也是完全錯誤的。

研究人員只需要標定最後一層的正確結果。演算法會用自己錯誤的結果和正確結果進行比較，並根據比較的結果從最後一層開始反向地逐層調整自己的參數，每調整一次參數就會更接近正確答案一些。

除了正確結果的標定，所有的調整和反推的計算都是演算法自己完成的，不需要任何人工干預。

在經過多輪訓練之後，「蘋果」這種具有明顯共同特徵的植物出現在了某一個特定的類別里，研究人員指著這個分類說：這，就是蘋果——從此機器學會了如何識別蘋果。

第一層、第二層和第五層分類之後的結果

（演算法的準確原理無法完全使用非數學的簡單語言表達，以上解釋並不嚴謹。輸入層和輸出層之間的隱藏層並非線性計算。而是對輸入的向量進行了空間變換，實現對多個複雜線性計算函數擬合。如果你對深度學習演算法有進一步的興趣，可以在博客園搜索科普文章《神經網路淺講：從神經元到深度學習》。）

在下棋領域遵循同樣的原理，AlphaGo的策略其實並非是工程師交給它的，而是AlphaGo在無數次的自我博弈中自己摸索出來的。

所以其實「AlphaGo與自己比賽」是沒有意義的，因為AlphaGo在訓練的過程中就是不斷的在與自己下棋，然後將每一局與自己的「勝利」被標註為「正確」。

神經網路會從這一過程中自我吸收哪些下法是正確的，哪些下法是錯誤的。

正是千萬次的戰勝了自己，AlphaGo才能在棋盤上戰勝了柯潔一次。而不管AlphaGo之後還打算挑戰誰，柯潔也已經是人工智慧在棋盤上能遇到的終極敵人了。

今天結束，AlphaGo距離自己完勝人類還要經歷25日和27日兩場比賽。也許柯潔會從今天的比賽中摸出一些AlphaGo的套路，讓人類剩下的兩場「掙扎」絕處逢生。

加油呀，代表人類的最終Boss！

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

更多精彩請關注我們的微信公眾號：PingWest品玩（wepingwest）
推薦閱讀：

※余凱：不做AI晶元，如何改變世界？
※AI研究院 | 機器也會有思想？看看AlphaGo之父怎麼說
※【專知薈萃22】機器閱讀理解RC知識資料全集（入門/進階/論文/綜述/代碼/專家，附查看）
※邏輯與神經之間的橋 (2.0版)
※歐陽辰：AI將如何改變廣告業？

TAG:AlphaGo | 柯洁 | 人工智能 |