柯潔說:後兩場全力以赴,之後不再與AI對弈

23日14點52分,一盤圍棋在烏鎮互聯網國際會展中心收官,黑子以四分之一目輸給白子。

這是AlphaGo和柯潔的第一場正式比賽,猜先後,柯潔先手執黑,AlphaGo執白,代AlphaGo執棋的人肉臂是DeepMind資深研究員黃士傑博士。

與之前AlphaGo在網上化身Master連續60場不敗的快棋不同,這一場比賽的採用的是傳統規則,每人有3小時的時間。

在這場比賽的終盤,柯潔的剩餘時間僅13分鐘,AlphaGo的剩餘時間卻是1小時29分鐘。但最終結束時柯潔僅以1/4子小負,並不像之前許多人悲觀預測的那樣「慘敗」。

對於一場被極度關注的賽事,柯潔在比賽剛開始時的表現卻顯得比較輕鬆。

他系一條特別小清新的天藍色領帶,正逢烏鎮梅雨時節,這條領帶讓他看起來又涼爽。雖然還不到20歲,但是比賽中的柯潔總讓人感覺不到他其實還是個少年。

柯潔和Alpha Go其實有一些相似之處,就是他們都很擅長學習。在第八手棋的時候,柯潔就主動點三三。

點三三正是AlphaGo開創的,現場解說的華以剛描述這種下法的時候這麼說:太神奇了,也評論不出是好棋還是壞棋,因為根本就沒見有人這麼下過。柯潔很大膽的學了這招,並反用在了AlphaGo身上。

儘管最後以很小的差距輸給了AlphaGo,柯潔還是認為AlphaGo實在是個太厲害的棋手。這一次的AlphaGo跟上一次人機大戰版本顯得特別不一樣,上一次還像點人,但這一次就完全不像了。

如果有一件事是柯潔從AlphaGo身上學到的,那就是:沒什麼棋是不能下的。

第一場比賽結束後的柯潔稍顯落寞,甚至還苦笑了一下,其實在很早的時候就知道自己要輸了。但是他說後兩場仍會全力以赴,因為這將是他和人工智慧進行的最後兩場比賽了,此後,他只和人類對弈。

為什麼是今年,AlphaGo能在現在戰勝人類?

深藍在國際象棋領域戰勝卡斯帕羅夫已經過去了20年,為什麼AlphaGo在這麼多年之後才總算能有望戰勝人類。

其中一個重要的原因是,國際象棋的所有可能性只有 10 的 46 次方,而圍棋的可能性是 10 的 170 次方之外。

在深藍獲勝20年之後計算機領域幾乎沒有停滯過的摩爾定律為AlphaGo的出現提供了算力基礎。

另一方面,人工智慧的演算法在過去的20年中也出現了變化。最典型的是從雙層神經網路進化到了多層神經網路,而在反向傳播的基礎上多層神經網路的自主學習實現了可能。

簡單來說,即便是在1997年人類就已經製作出了AlphaGo所使用的演算法,我們也不足以製造出足夠能運算這一演算法的計算機。

早在1952年,計算機專家艾倫·圖靈就編寫了世界上第一個可以下國際象棋的計算機程序。但當時的計算機算力不足以支撐這個程序,圖靈用紙和筆模擬驗算,半小時下一步與同事對弈。

算力的改進為AlphaGo提供了比之前的所有AI更快的思考速度,演算法的改進則為AlphaGo提供了比之前的任何AI都更先進的思考方式。

兩者共同實現的就是讓AlphaGo能夠在正常圍棋賽的時間內,計算出下一步落子的位置。這才是讓AlphaGo能夠在今天,在此刻有可能戰勝人類的原因。

AlphaGo在這一局比賽中,剩餘的時間很長,但贏得的目數不多。AlphaGo在現有的算力基礎上,演算法依然有改進的空間。這也許是因為之前AlphaGo都在下快棋,還沒有習慣「多思考一會兒」。

賽後舉行的發布會上,柯潔在回答提問時表示:「要讓我自己當嘉賓來點評的話,我要說AlphaGo下得很好,有很多地方值得我們棋手去學習。我也深受AlphaGo的影響,沒有什麼其實是不可以下的,可以大量去創新,開拓自己的思維,是很值得我們去學習的。」

那麼,AlphaGo是如何贏得比賽的?

AlphaGo的基礎原理在很多地方已經講過了——既然圍棋的可能性有 10 的 170 次方之多,那麼就不可能通過窮舉的辦法來預測對手的每一步行動。

但是,現實中的圍棋對弈也不需要這樣預測所有的可能,只需要綜合圍棋的一般下法、經典的棋譜、對手的下棋風格,猜出「你此刻的對手打算怎麼走」就可以剋制對方了。

按照此前的介紹,AlphaGo獲取棋局信息後,會根據策略網路(policy network)探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。

在分配的搜索時間結束時,模擬過程中被系統最頻繁考察的位置將成為 AlphaGo 的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後,AlphaGo的搜索演算法就能在其計算能力之上加入近似人類的直覺判斷。

在圍棋這種人類發明的博弈遊戲中,人工智慧有兩個先天優勢是人類所不能比擬的:

1.人工智慧可以背下所有的棋譜和看完對手的所有比賽;

2.人工智慧沒有受到正統圍棋比賽的「套路」影響,可以在下法上更加出其不意。

隨著AlphaGo不斷進行公開比賽,第二點優勢會逐漸喪失。柯潔在這一場比賽中展現了針對人工智慧棋手慣用下法的一些策略,實際效果不俗,讓這場比賽看起來幾乎「勢均力敵」。

而很多人注意到,這一局比賽中「AlphaGo判斷自己勝定後,在小官子階段有退讓」這並不一定是AlphaGo變得人性化了。而是AlphaGo在「學習」的過程中,連人類的這種下棋的「禮儀」也學走了。

這有可能,反而是戰勝AlphaGo的一個突破點。

如果人類完敗,AlphaGo的下一個目標是自己嗎?

很多人問,「AlphaGo和AlphaGo比賽,哪個會獲勝?」

這裡需要用「如何識別蘋果」,來簡單的解釋下什麼是深度學習:

  • 我們都能很輕易的概括一個蘋果的特徵,比如:紅色、圓的、反光、沒有毛
  • 在實際中,研究人員並不會先定義蘋果的這些特性,而是將一堆包含蘋果和不包含蘋果的圖像都丟給多層神經網路。
  • 多層神經網路的第一層先把圖片中比較像的分為X個類。在下一層里,將X類中的圖片按照新的特徵重新分一遍生成Y個類,不斷分類下去。
  • 在訓練的最開始,演算法對圖片進行的分類是完全隨機的,得到的結果也是完全錯誤的。
  • 研究人員只需要標定最後一層的正確結果。演算法會用自己錯誤的結果和正確結果進行比較,並根據比較的結果從最後一層開始反向地逐層調整自己的參數,每調整一次參數就會更接近正確答案一些。

除了正確結果的標定,所有的調整和反推的計算都是演算法自己完成的,不需要任何人工干預。

在經過多輪訓練之後,「蘋果」這種具有明顯共同特徵的植物出現在了某一個特定的類別里,研究人員指著這個分類說:這,就是蘋果——從此機器學會了如何識別蘋果。

第一層、第二層和第五層分類之後的結果

(演算法的準確原理無法完全使用非數學的簡單語言表達,以上解釋並不嚴謹。輸入層和輸出層之間的隱藏層並非線性計算。而是對輸入的向量進行了空間變換,實現對多個複雜線性計算函數擬合。如果你對深度學習演算法有進一步的興趣,可以在博客園搜索科普文章《神經網路淺講:從神經元到深度學習》。)

在下棋領域遵循同樣的原理,AlphaGo的策略其實並非是工程師交給它的,而是AlphaGo在無數次的自我博弈中自己摸索出來的。

所以其實「AlphaGo與自己比賽」是沒有意義的,因為AlphaGo在訓練的過程中就是不斷的在與自己下棋,然後將每一局與自己的「勝利」被標註為「正確」。

神經網路會從這一過程中自我吸收哪些下法是正確的,哪些下法是錯誤的。

正是千萬次的戰勝了自己,AlphaGo才能在棋盤上戰勝了柯潔一次。而不管AlphaGo之後還打算挑戰誰,柯潔也已經是人工智慧在棋盤上能遇到的終極敵人了。

今天結束,AlphaGo距離自己完勝人類還要經歷25日和27日兩場比賽。也許柯潔會從今天的比賽中摸出一些AlphaGo的套路,讓人類剩下的兩場「掙扎」絕處逢生。

加油呀,代表人類的最終Boss!

-----------------------------------------

更多精彩請關注我們的微信公眾號:PingWest品玩(wepingwest)
推薦閱讀:

余凱:不做AI晶元,如何改變世界?
AI研究院 | 機器也會有思想?看看AlphaGo之父怎麼說
【專知薈萃22】機器閱讀理解RC知識資料全集(入門/進階/論文/綜述/代碼/專家,附查看)
邏輯與神經之間的橋 (2.0版)
歐陽辰:AI將如何改變廣告業?

TAG:AlphaGo | 柯洁 | 人工智能 |