如何看待人機大戰第四局李世石戰勝 AlphaGo?

李世石首勝。
------------------

本題已收錄至知乎圓桌 ? 對弈人工智慧,更多關於李世對戰人工智慧的解讀歡迎關注討論。


這是精彩的對局,也是人類的偉大勝利!


-

大家都已經知道,第一盤人類和AlphaGo對形勢判斷的出入,是因為AlphaGo已經算清了右邊的手段,所以提前在其他局部用虧損手段縮小棋盤、簡明定型以擴大勝率,是人類低估了AlphaGo;


看過了第二盤,大家也知道AlphaGo在前半盤也會憑藉強大的大局觀走出妙手,同時也會出現疑問手,而後半盤則全部是AlphaGo強大計算力的天下;


看了第三盤,所有人都是絕望的,李世石在第15手就因急躁冒進導致形勢落後,然後AlphaGo用樸實無華的手法步步挺近,將李世石徹底碾壓,後半盤李世石雖然找回了自己拚命在白棋空中出了棋,AlphaGo的下法也疑似出錯,但畢竟優勢太大,李世石仍然無力回天。

看過前三盤,還要再質疑AlphaGo的實力的人,恐怕就有點太不實事求是了。

頂尖高手們對AlphaGo棋力的判斷已經普遍為:超越了所有的人類。


大家都絕望的認為,一盤比一盤強的AlphaGo將不會再給李世石機會,大家只是感情上希望這位勇敢的勝負師贏下一盤,留住一點自己的尊嚴。


-

今天的第四盤,李世石在前半盤的下法似乎完全不合自己的棋風,AlphaGo的黑棋過分的將白棋的頭壓了過去,李世石居然不斷,忍了...忍了!

右邊,AlphaGo居然用同樣的手法又將李世石的頭壓了下去,李世石居然又忍了!


以李世石性格和棋風之兇悍,簡直不敢想像。

很多人都覺得他的心態仍然沒有調整過來,很可能還會輕易的輸掉。


中盤出現了巨大的轉換,李世石用上邊和AlphaGo的右邊交換,雙方都氣勢如虹(雖然AlphaGo應該沒有「氣勢」),一部分人認為李世石形勢還可以,一部分人認為AlphaGo有利,但似乎沒有人認為李世石形勢有利。

按照AlphaGo的下法,它應該也判斷此時自己的勝率超過50%。

就當此時......

李世石祭出了驚天妙手!

白78挖!這將會是被寫入史冊的妙手!


如果李世石是早就算到了這一手,判斷黑空中有棋,所以才進行的轉換,那麼這種表現就和AlphaGo第一盤中的表現一樣。


看到了這一手,真的覺得輸了也值了。

這完全體現了人類巔峰的直覺、創造力和計算力!


古力此時說:「如果這盤棋能贏,就是千古名局。」


看到這樣的李世石,所有的陰謀論以及質疑李世石的聲音,都可以休矣。

這樣的李世石,已經找回了自己,完全體現了人類巔峰的實力。

如果這樣都贏不了,那隻能說明對手過於強大,人類需要繼續努力,並向電腦學習。


接下來,AlphaGo居然下出了一系列莫名其妙的下法,虧了一大把,不知道是不是因為bug,希望賽後能獲知AlphaGo團隊發布的更多相關信息。

有鑒於第一盤的情況,很多人都非常的謹慎,等待著接下來的進程,看看AlphaGo是不是有和第一盤一樣的,大家都沒有看到的暗藏手段。


可隨著棋局的進程,白棋離終點越來越近,終於拿下了此局。

在直播間的我們,都激動的快要說不出話來了。


-

賽前有人認為,AlphaGo的進步速度很快,李世石能取得一勝就是人類的偉大勝利。

當時大部分人,包括我,都認為這種預測太激進了,AlphaGo的進步應該不會這麼快到這種程度,人類怎麼也能再支撐一兩年。


但事實證明,那些人的判斷是對的。

這盤棋,體現了人類頂峰的實力,面對如此強大的對手,下出了如此驚艷的妙手,贏下了如此艱難的比賽,正是人類偉大的勝利!

我昨晚看到李世石走出賽場的神情,對他感到分外惋惜,發了這樣一條朋友圈:

-

而現在,相信所有人都和我一樣,為這位偉大的勝負師感到高興。

也感謝AlphaGo團隊,創造出了如此強勁的人工智慧程序,激發出了人類的巔峰式強大。


我現在,倍加期待最後一日的對局。

也更期待未來的發展,無論是人工智慧,還是圍棋。


-

向偉大的勝負師——李世石致敬!

-


Demis:第四局李世石下得非常出色。AlphaGo在下出第87手以後,發現自己誤算。它追溯認為自己的第79手犯錯誤了(就是李世石年度妙手後電腦的那一著應手)。

Demis:在李世石第78手的妙手之前,AlphaGo認為自己有70%左右的勝率,但是在第87手前發現誤算,勝率大幅下落。

評論:

從這個情況看,AlphaGo在關鍵位置的蒙特卡羅計算深度不夠,差了李世石4個回合。它可能不認為那是個關鍵棋,還是嚴格地只用了一分鐘左右(它每步思索都是幾乎恆定的一分鐘)。儘管人類是可以看出來這裡非常關鍵。如果AlphaGo在這個位置長考半個小時的話,應該能有好的應手。

當勝率突然大幅落後時,AlphaGo出現了各種臭棋,感覺是很明顯的過擬合。因為它訓練的對手都是自己(電腦),在大官子階段落後5目以上時,儘管從人類角度來看,棋盤很大,可以扳回,但它訓練對手是電腦,無論正手還是亂走,都無法扳回(因為電腦官子幾乎不犯錯)。導致各落點獲勝幾率都一樣很低。估值網路失去了作用,它隨機選一步,或者選了訓練棋譜中贏棋最多的招法(這種情況下翻盤,往往更多地出現在水平極低的業餘棋手的相互對局之中),就變成亂走了。

————————————————————————
更新一下:我昨天的回復猜測很可能有誤,update以免誤導大家。
@田淵棟 在 第四局AlphaGo敗招的分析 - 遠東軼事 - 知乎專欄 中彙報了Facebook圍棋程序測試的結果,簡要概述:
1.機器的確沒有算到這一手。
2.但不是算力的問題,經過機器驗證,蒙特卡羅樹可以在合理的深度算出正解位置(下方頂或上方打吃),正解儘管有一定風險或損失,但由於AlphaGo前半盤領先優勢巨大,若正確應對,依然有勝望。
3.目前猜測有兩種可能:(1).由於機器思考不久便落子,推測可能未經大量運算,說明在蒙特卡羅樹這裡出了一個隱蔽的Bug。如果是這樣,改掉Bug,或者打個補丁就行了。(2).估值網路在這個局部形狀得到的值不對,導致勝率統計出現問題。這個問題就比較棘手。
田博士猜測更可能是後者。

補充:至於大官子階段那些惡手,是因為機器的自我訓練目標(獲勝,而非賺目數)產生的。看起來AlphaGo的工程師已經料到並且不是很在乎。他們主要在乎前者。


20160314更新——

因為正好是周末,所以完整看了第三局的直播和第四局的一部分直播,正好沒有錯過第78拿手神來之筆。

之前的兩局比賽沒有看直播,而且自己並不懂圍棋,所以我是以一個比較中立的態度寫了一個評論:
如何評價第二局比賽 AlphaGo 又一次戰勝李世石? - 張拯寧的回答
這篇文章主要概述了阿狗(我喜歡把AlphaGo叫做阿狗)的基本原理,和我對這次比賽在8個方面的看法。這些看法主要是從技術角度的思考,其中有一點很明確,就是我相信目前的阿狗不可能沒有缺陷,這是由它採用的技術本身決定的。

我看的是騰訊直播,自己感覺古力老師講的很好,我不懂棋,也能大概看明白。第三局真是一點脾氣沒有,當看直播時,我發現自己的人類情感起了作用,我非常希望李世石贏,而不是像以前一樣,對阿狗的勝利更開心,因為那明顯只是一名工程師對技術進步的歡呼雀躍之情。

回到主題,從第四局看,阿狗終於暴露出了重大的bug。這個bug不是常規意義上的編程bug,而是指設計上的缺陷,使得阿狗在面對人類下出超過自己計算範圍的好棋時,處於一種懵的狀態,它事實上是對此視而不見的,過了幾乎5個回合才反應過來(也就是在發現自己的獲勝概率突然大幅度降低了)。由於沒有第一手數據,這裡只能猜測一下原因:

  • 阿狗的走棋網路和估值網路在訓練時由於大量使用了左右互搏式的自我對局,因此可能出現過度擬合,說白點就是對真正有威脅的棋分析的不夠,估計的概率不準確,造成蒙特卡洛搜索時,在有限時間內不能正確評估局面。這種bug只有在人類走出一手出乎意料的好棋時才會暴露出來。感謝李世石下出的傑出一局。Google解決這一問題,應該考慮加大人類對局,特別是高段位棋手的對局在訓練神經網路時的權重,但這比較難以操作,權重到底應該設為多少很難確定。
  • 深度卷積神經網路本身的缺陷,已經有知友指出了這一缺陷(AlphaGo 與李世乭的第四局比賽中有哪些值得關注之處? - 梁亦聰的回答)。深度卷積網路本身是一種通過卷積運算,逐步抽象複雜問題的過程。在這個過程中會丟失信息,如果刻意利用網路本身的特點,就可能欺騙神經網路,實際上這和人類被欺騙很類似。如果是這種缺陷造成的,那就麻煩了,因為如果被針對性的採取措施,找到規律,那麼google必須對演算法進行重大的調整才能解決問題。當然,人類要做到這一點,特別是不了解阿狗技術細節的情況下,很難做到。如果阿狗被放到網路上,公開接受挑戰,那麼對局多了,可能會更容易暴露出問題。
  • 阿狗在78手之後走出的幾手臭棋,我這個圍棋小白都看不過去。這是什麼原因造成的還不好說,google的工程師回去要好好分析一下。個人認為,這是因為阿狗的設計主要是基於概率的,並沒有太多考慮借鑒人類總結出來的局部走子規律,在我的上一個回答里也聽到了這個問題。在直播過程中,我發現古力老師這些高手,思考非常敏捷,對很多局面的判斷幾乎瞬間做出的,這方面,阿狗和人類的差距很大。如果人工智慧要變得更加實用,必須要考慮輕量化實現的問題,也就是不能像現在這樣,利用分散式的GPU和CPU來運算,要能夠在手機這樣的硬體條件下實現。有許多朋友開玩笑,以後要讓任何計算機比賽可以,但要在同等能耗條件下比,這其實是有道理的。從這個角度講,阿狗即使把5局都贏了,和人的差距仍然是巨大的。

還是想再重新闡述一下第二局結束後的一個技術方面的評論。阿狗在最重決策時,給通過蒙特卡洛模擬得到的贏棋概率和局面評估結果同樣的權重。直覺和初步的分析覺得這是有問題的,針對第四局阿狗的表現,建議Google工程師看一下78手之後幾個回合的詳細數據,我猜想是蒙特卡洛搜索後的概率評估結果有很大問題。個人認為,更好的策略應該是動態權重,不過這實現起來比較難。

由於阿狗本身是用概率下棋,既然是概率,那麼在實力接近時就會有一定的概率輸。所以實際上最簡單的判斷,阿狗如果和高手下比較多數量的棋,犯錯的概率就會表現出來,但是總得來說,還是贏得多。

說到Google工程師的應對策略,目前時間不多,調整參數,重新訓練網路之類的事情根本來不及做。因此,我猜想,阿狗會增加蒙特卡洛搜索時向外隨機擴展的範圍和搜索深度,這個容易調整,而且從前幾局來看,阿狗的時間足夠。之前每步棋阿狗大約考慮一到兩分鐘,如果第五局,這個時間明顯長了,就說明Google確實這麼做了。我們拭目以待。

此外,這兩天我對阿狗的整個人工智慧結構思考了很久,計劃等全部對局完成後再一併寫出來。因為琢磨這些事情,昨天晚上回家居然錯估了五環的出口,而北京的五環設計的很差,走錯路很難糾錯,被家人埋怨好久。這個情況和今天阿狗的表現多像,犯了錯誤後,重要的是馬上糾錯,止血。計算機一樣會犯錯誤,但是我發現阿狗的設計里,及時發現錯誤和糾正錯誤的機制可以說是缺失的。


請大家指正。


這是屬於李世石的偉大勝利,更是屬於人類的偉大勝利。


昨天下完棋後,李世石黯然惆悵,讓人看了不禁心疼。曾經無敵於世界,逼迫韓國棋院修改了升段規則的天才少年被逼到如此地步,論誰看到了都會不忍吧。李世石說,這是我的失敗,而不是人類的失敗。他說,我覺得很無力,很無助。


然而今天的記者會,贏了棋的他臉上泛出了久違的笑容和輕鬆。他說,正是由於前三局的失利,讓這一局的勝利顯得尤為珍貴。給我任何東西,給我全世界,我都不換。


他面對的是從未見過的對手,和從未有過的壓力。這個對手不光了解他的棋局和棋風,更了解古往今來所有職業棋手的棋局和棋風。這個對手沒有感情,沒有壓力。這個對手能每秒進行對於人類來說天文數字般的計算次數,這個對手在前三局裡更是幾乎毫無破綻,滴水不漏,展現出了神一般的控制力和大局觀。


而李世石呢?除了接近半年前的五局棋譜,對這個對手一無所知。而且他身上,主動也好被動也罷,背負了太多太多壓力。就在昨天,還剛剛被這個對手以近乎碾壓的方式贏了。然而這每局棋他都在嘗試不同的策略,調整自己的下法。即使如此,我無法想像昨天晚上他是以一種怎樣的心情度過的,更無法想像他要怎樣調整才能面對接下來的兩局棋。然而,今天,他就以這樣的方式證明了自己。


誠然,人類在有些方面已經永遠趕不上機器;誠然,人類在更多的方面將會被機器超過,甚至代替;誠然,人類有弱點,有情感,會感到壓力,會犯錯誤。然而人之所以為人,而不是機器,正是因為這些品質啊!人類同樣有機器沒有的堅韌,有機器沒有的榮譽感,有機器沒有的尊嚴和擔當。今天的李世石,讓我們看到了什麼是身為棋手的精神,什麼是身為人的精神。

我不否認,也許就在不遠的未來,也許幾個月,也許半年,人類可能就真的永遠下不過電腦了。但這同樣是人類偉大創造力的體現。今天,和李世石一樣高興的,還有AlphaGO的開發者們,他們實現了這場人機對決的目的,找到了目前演算法的缺陷和弱點。他們同樣是贏家,他們開發的技術,未來同樣會幫助人類更好,更方便的生活。


在這場棋中,人類的道與術得到了完美的結合,既讓我們看到了人類精神的偉大和危急時刻迸發的靈感,更讓我們看到了技術發展的方向和無限光明的未來。


我從小學棋,圍棋佔據了我童年的大部分記憶,更是對圍棋有著非常深厚的感情。看到李世石勝利的時候,我真的激動地哭了。不光是作為一名棋手的驕傲和興奮,更是因為看到了人類身上最閃光,最耀眼的東西。


因為78這一手棋,前面輸的一切都是值得的,輸棋沒什麼,圍棋還是那個充滿奇蹟的圍棋,人工智慧已經不是原來那個弱智的人工智慧了。世界多麼美好


談不了棋,談談棋之外的。

非常認真地看了第三場和第四場的新聞發布會。我覺得,Google DeepMind選擇李世石作為第一個挑戰的頂級棋手,是睿智的。李世石此比賽所展現出來的寬厚和謙遜,讓我非常欽佩。

畢竟,人類千年以來對棋藝的追尋,不僅僅是冰冷的計算,也是對意義的求索。所積累的和圍棋相關的文化遺產、職業精神,和所積累的技藝一樣珍貴,甚至更為珍貴。

讓我感動的兩個細節:

第三場後的新聞發布會上,當記者在提問中將AlphaGo與「圍棋之神」聯繫在一起的時候,李世石回答說,「AlphaGo強大但尚不足以稱之為完美,今天的失利是李世石的失利,而不是人類的失敗。」

第四場的發布會上,當SBS的記者提到李世石和AlphaGo對弈的信息不對稱性時,李世石回到說,「雖然我知道有人說如果我對AlphaGo有更多的信息,交手之時會更容易,但是我認為這不是一個問題,比賽的結果只能歸結到我個人能力的局限。」

衷心祝願李世石在最後一句中執黑取勝。


即使前三盤已經輸了,但是今天一早,我還是抱著希望,李世石有機會戰勝阿法哥。這樣會給人帶來希望和喜悅。

很多人已經覺得沒希望了,甚至阿法哥下的就是標準答案。阿法哥的髮型,也成為大家模仿的對象。 但是任何一個圍棋職業棋手,熱愛圍棋的愛好者,都有不放棄的精神!這是圍棋的魅力,也是圍棋給我們帶來的力量。

棋局開始至11手,平淡如水,照搬著第二局的下法。白12手,李世石開始變招,尖,這一手棋,在吳清源時代屢屢出現,後來木谷實改為跳,成了現在標準下法。尖,更重視中腹的發展,對黑三子的壓力也大一些。因此,阿法哥13不脫先了。

14掛,把棋盤打散,導向細棋。16,18,20,恬靜如水。

剛剛讓人覺得阿法哥今天老實了些。23大招又來了,一時善惡難辨。但是阿法哥的餘威,還是讓大部分人覺得有玄妙之處。23,25組合,又來了。李世石一路忍讓,忍受了職業同行的嘲笑和指責。這不是李世石啦,這怎麼能忍之類的言論不絕於耳。在群中,到了46,我覺得白棋還是不錯的。但是大部分人還是悲觀了。要贏,必須忍。

阿法哥的尖沖,又受到粉絲的高度追捧。一路到69,阿法哥似乎越來越得心應手。

70空投拼搏,71,我笑稱阿法哥怎麼縮回去了。李世石72長考了很久,時間不斷流逝。我擔心他後面時間不夠。真的斷中腹了,阿法哥很強硬,直接外面73罩住。78,神之一手,小李飛刀,果然名不虛傳!

阿法哥中了飛刀,這是蒙特卡洛綜合征,沒法避免。蒙特卡洛綜合征,是本人給AI專門註冊起的(版權所有:D) 指AI通過隨機選擇,必然存在漏招。如果人類在複雜的局部,在只有一種正確解答的情況下,AI不一定找得到。如此人類可以一擊即中(參見本人討論如何戰勝AlphaGo的策略的帖子)。

之後阿法哥從昨日的大師風範,變成了18K初學者,滑稽招法層出不窮,連續兩個1路死子的立,相信很多和Zen下過的棋友都有印象,這時候AI進入Crazy模式。它們這樣鬧一陣,就會認輸。

李世石果然按照我提倡的,贏棋不鬧事,模仿了阿法哥局面領先時候的猥瑣大法。

在過程中,唯一擔心的是李世石剩下最後一次讀秒,很多次都到最後1秒才下讓人看得心驚膽戰。不過這樣的過程,讓最後的結果來得更加甜蜜!180手,李世石最後一擊,阿法哥在快進入讀秒的情況下覺得鬧夠了,大呼三聲:「英雄饒命!」。棋局終結。

整盤棋,李世石開局以靜制動。隱忍後,局勢未見樂觀。投入中腹後終於下出神之一手,一舉制勝!李世石,偉大的勝負師,終於給全世界的棋迷棋友帶來希望和歡樂!


這盤棋說明電腦不擅長逆風棋。形勢不利的時候它仍然下勝率相對最大的棋,而不是變化最複雜的棋。這樣它翻盤的可能性就不大了。

劣勢下每招棋獲勝的概率並沒有多大意義,這就是它下出那些不可思議的棋的原因。當然,勝勢的時候也類似。


如果在動畫里,李世石的78手,光芒萬丈。

========================================
有人說「認為李九段78手是神之一手的人,都是不看棋的偽棋迷」,我引用並修改一下我回復的評論:

並不是說這一手有多麼神乎其技,冠絕古今。而是在afg3:0領先的情況下,對苦苦奮戰的李九段,對低落無比又一直不願放棄關注著這場較量的棋界人士來說,這一手都太寶貴、太重要了,不然我相信李九段也不會在發布會的時候說:「任何珍貴的財寶,我都不會用這一局勝利交換。」


誠然,絕妙的一手在大大小小的賽事中經常出現,但這並不妨礙我們今天為李世石鼓掌。而且我相信,所有真正愛著圍棋的朋友,一定也把這種歡呼,送給了千百年來,無數精彩的黑白對弈吧。
=========================================

我實在是受不了了,不得不掛一下,好像所有評論里的人,除了你沒有任何人用了諸如"百年一遇"、「其他棋手下不出來」這種形容詞吧?真覺得就自己看過棋魂了。職業棋手紛紛給予讚譽,棋迷朋友紛紛歡呼雀躍。大家都在對李九段這一手表示驚嘆、肯定和讚賞,你卻跳出來說我們在輕視其他棋手,到底是誰在侮辱他們?


返場
哈撒比斯的講座
https://www.youtube.com/watch?v=vQXAsdMa_8A

答主和silver的合影 (懶得用馬賽克技術直接截了)

====分割線下原回答===
今天我去了silver的演講,結束之後一群人向他提問題。
我簡單說明一下。
我問:「78手之後電腦怎麼回事?一萬分之一的概率並不是好的解釋啊。」
他說:「它就這麼下了。」
我說:「難道電腦發現這一萬分之一漏算了不重新搜索么?,」
他說:「重新搜了。」
我說:「那難道重新搜不是應該能搜到正確結果么?」
他說:「嗯……事實顯示沒有。」
我還想問電腦如何分配時間的問題,但是我已經問了三個,他覺得要給其他人機會,於是我不好意思問了。
一個女生問:「要是我下臭棋怎麼辦?」
他說:「你會輸得更快。」


結合歷史的第一局不用連環劫,第五局的吃大頭鬼等等各種「失誤」(失誤指的是明顯有其他棋比這個好),我很大概率確定

那就是:

alphago由於為了保持網路的穩定性,只會在輸的情況才會調整神經元的權值,贏的時候不管。

首先我們要認識到一件事情,就是alphago 訓練的其實是剪支,去掉那些「顯然」不正確的選項,剩下的再搜索。

人類學習的進程,是包括做死活題,手筋題等。人類所掌握連環劫,大頭鬼,覺得電腦「有了幾段的實力這些東西應該都知道」其實是一個誤區。那些題目是搜索所有的分支找到最優解,而alphago,我說過,訓練的是如何砍掉分支。

再說,人類學習死活題,手筋,就以大豬嘴為例子。都是「給一張圖,黑先白死」。
而alphago學習大豬嘴,是「這個大豬嘴影響勝負的時候」才會去學習。也就是說,電腦要是每次都吊打我二十幾目,這個時候,我搞出大豬嘴,活了,但是我輸了,電腦其實是對自己的網路很滿意的。根本不會追究「活生生放走一片」的責任

不過,要是我能把棋控制成,「最後剩一個大豬嘴,活了我贏棋,死了我輸棋」,這個時候電腦才會好好對待這個大豬嘴。我活了,我贏棋了,這說明alphago的網路出問題了,剪枝剪錯了,才會「正式」去找如何殺這個大豬嘴的方法。

(因為alphago有一定由估值網路推動的的舉一反三能力,所以完全有可能它在沒有大豬嘴的棋中訓練出了一個非常好的價值網路,導致出現大豬嘴也能良好的剪支)

這麼看起來alphago其實是一個重度拖延症患者。而且沒有什麼上進心,別的孩子拚命想考100,但是alphago寫完60分的題,就有點打算交卷了,後面的題就不那麼認真了,要是監考老師要是走到旁邊說:「嗯你及格了。」他就覺得自己可以了就直接把卷子交了。你說他不用功,他說,我及格了,怎麼著吧!所以他的漏洞其實很多,但是不少問題被他的及格所掩蓋了。只要人類能穩定的把他漏洞暴露到及格邊緣,他才會開始糾錯。

大家都說alphago 收束強,那是必然,因為每局都有收束,所以各種收束官子基本都練習過了,弱點相對較少。

換句話說,當你發現 alphago 不懂連環劫,不懂大頭鬼,其實是alphago告訴大家,它的訓練過程中,基本沒有收束到「打到連環劫,決定勝負」,也沒有遇到「放了對方一個大頭鬼,自己輸了」 的局。

綜上,白78其實很單純,就是alphago從來沒有訓練到這個類型的局,於是敗了,當然,這個敗也基本只是敗一次的。也就是說,alphago的剪支和搜索其實漏算了非常非常多的局,但是漏算的這一部分中,又有絕大多數是alphago贏了的局,從這麼看來,alphago其實是挺粗糙的,還有很多可以影響它神經元權重的對局樣本需要收集。但即使是這麼粗糙的alphago,還能吊打李世石。

想起藤澤秀行說:棋道一百,我只知六、七。

順帶,今天別人問過,silver說讓子棋和分先棋alphago是分開處理的。


這局比賽谷歌的收穫更大。78手之後alphago所表現出來的問題,並非簡單的bug,而是深度學習固有問題的一些體現。前面很多高手分析得很好,這裡就不再重複啦。這個bug並非那麼容易修正,不是很多人想的工程師花幾天時間就可以搞定的事情。打個比方,相對論出現之前,人們用牛頓力學計算的天體軌道總是不能很好的吻合觀測數據。今天的bug就是類似的情況——人工智慧正好掉入了現有技術無法解決的區域。這個bug絕對不可能通過簡單調參數,增加搜索深度來解決。
當然內行看門道,外行看熱鬧,谷歌的工程師應該對這個問題心知肚明,期待他們能夠很好的解決這個問題。但我個人對這個問題解決的時間不是很樂觀,保守估計十年以內肯定沒戲。
機器的智能主要體現在兩個方面:演算法的正確和超強的計算力。從這局的結果來看,演算法的正確性是有很大疑問的。當alphago判定自己盤面落後之後,各種弱智招數就出現啦。這和人類的思維方式是有很大不同的。通常人類在落後之後會設想各種方法進行補救,而機器卻按照既定程序錯誤的執行下去。恰恰這一點是當前人工智慧最值得人類防範的。
真正的智能機器人遠沒有「有bug的」智能機器人恐怖,「有bug的」智能程序會給人類造成更大的傷害。有人經常提到《終結者》中的天網系統。仔細分析這個系統,這個系統的恐怖之處在於,並不是它有智能,而是它的智能有巨大缺陷,這種缺陷對人類的傷害會是非常巨大的。業界應該正視alphago存在的問題,不要急著將產品推向市場。某些特定情況下,alphago會陷入錯誤,並且會在錯誤的道路上越走越遠。如果alphago等類似技術被用於關鍵領域,且人類無法控制,那麼後果一定是災難性的。
=======================================
洋洋洒洒寫了這麼多,估計很多朋友沒有時間看,所以畫個分割線,總結兩句:
(1)深度學習演算法是有缺陷的,行業內的人都知道。既然知道,就不要為了商業利益而隱藏。
(2)基於這種缺陷,人工智慧程序會在特定情況下陷入錯誤,如何從錯誤中恢復,避免更大的錯誤,應該是需要重點解決的問題。
(3)不完善的人工智慧是可以毀滅人類的。


一個天才級的職業棋手,理當是視自己的名譽和技藝為性命的,但與AlphaGo的這輪對決,在前三局李世石是完敗。


要知道,這場完敗,可能不僅會影響到他的名譽,甚至,更加可怕的是,他作為一位棋手的職業信仰——甚至可能不只是他,所有職業棋手們的職業信仰都將從此受到巨大的挑戰。


正如,假使有一天,也有一個機器可以寫出比我還好的文章,我必將會開始懷疑起一些東西來——假如我引以為傲的事情,現在竟然分分鐘就能夠被機器所代替了,那我存在的意義和價值何在?我那種寫出了一篇好文章得到無數人讚賞認可後引以為傲的自豪感,又將何處安放?


無論如何,我是特別想向李世石致敬的。背負著如此沉重的壓力和全人類的目光、他已經竭盡所能的嘗試了與AI進行對抗。作為一名職業棋手,他縱使已經在這個系列賽中敗給了AI,他也仍是帶著尊嚴離開棋盤的。


考慮到有更多人其實只是純粹抱著一種「看熱鬧」的心理在觀看這場人機對決,並在此過程中施以了大量冷嘲熱諷,李世石正在經歷著的這一切,就更加不易。

尤其是,已經確定輸掉了整個系列賽後,李仍需要與AlphaGo繼續對戰兩局,哪怕明知有很大可能他會以0-5輸得一敗塗地。


假如我們沿著李世石和AlphaGo這輪人機大戰的進展往下想開來,就有了一個最近一段時間喧囂直上、更加宏大、甚至接近於「終極」的話題——假如機器的計算能力已經強大到了遠超人類的地步,以至於在一些複雜決策上已經可以比人更加智能,那麼人類的出路在哪裡?甚至是,人類存在的意義在哪裡?而人類,又是否會逐漸被機器所奴役?


正如,如果你還未曾真正觸碰過慾望和慾望得到滿足的時刻就決定要放下慾望,那有可能是一種閱歷問題。而如果你已經經歷和觸碰到了那些慾望得到滿足的時刻,之後再來選擇放下慾望,那則是一種人生態度。


也好比無知與天真,無知是沒經歷過,天真則是經歷過後選擇放棄。曾在一篇文章里看到經典的描述——不知而為之為無知,知之而為之為天真。天真者無邪,但未必無知;無知者無畏,卻未必有勇。


以上選自《黃的世界》作者黃有璨,全文鏈接:李世石面前的拷問,《瘋狂動物城》的回答,劉慈欣與王興的終極信仰


我現在真的相信這場較量會在人類歷史上寫下一筆,因為這5場棋的劇本簡直堪稱完美:
機器贏得比賽,人類贏得尊嚴.


這兒僅提供一下賽後發布會的信息(韓語問答以現場提供的英文翻譯為準),有一些很有趣的信息(把另一處相似問題的答案搬過來一下)~~~

李世乭:非常感謝大家。這只是一局勝利,而且我從來沒有因為贏下過一局比賽的勝利就受到大家如此熱烈的祝賀(笑)。
如果假設一下,今天我這局比賽是三場勝利之後輸掉的第一局,這一定是很沉重的打擊。但是現狀是因為我先輸掉了三局比賽,然後贏了這一局,因此突顯出今天這一局的寶貴,我不會拿世界上任何東西與之交換(全場大笑)。而且正是因為大家對我的鼓勵和歡呼,我才得以贏下今天這一局。

哈薩比斯:祝賀李世乭先生,他再次證明了自己是一位優異的棋手和傳奇。李世乭是一位不可思議的棋手,他今天對AlphaGo來說太強大了。AlphaGo開局很好,它對於自己在盤中的下法也感覺很好。但是李世乭在盤中的一系列走棋逼迫AlphaGo出現了一些錯誤。
實際上我們也很高興,因為這正是我們到這兒來的原因:來測試AlphaGo的極限,試圖找到它的弱點,然後我們可以嘗試去改善。正是因為這樣,我們需要一位富有創造性的天才,就像李世乭這樣的,來找出不足並讓這些不足暴露出來。
我還想說,這次的勝利證明了李世乭擁有極佳的對戰經驗,所以他才能在三場失敗之後表現如此出色,從而贏得了今天的比賽。
對我們來說,這次失利非常寶貴。我們現在還不確定具體怎麼回事。但回到英國之後,我們會仔細分析所有數據, 嘗試找出到底發生了什麼,改善並且解決這個問題。


----------記者問答部分(只選取部分和這次比賽有關部分)-----------

1. 這次對弈用的是單機版AlphaGo還是分散式AlphaGo?
哈薩比斯: 這次用的和之前三局比賽一樣,是分散式AlphaGo. 在這次五局的比賽中我們用的都是同一個版本 -- AlphaGo 18。 AlphaGo單機版也很強,但比分散式弱。

2. 怎樣判斷AlphaGo 下出的人類認為的「臭手」到底是不是「臭手」?
哈薩比斯:這取決於比賽的最終結果。今天的比賽AlphaGo輸了,因此我認為它今天的一系列走法可以說是失誤。

3. AlphaGo是如何投子認輸的?
Deepmind:AlphaGo依據贏得比賽的概率來決定下哪一步,每一步都嘗試將自己贏得比賽的概率最大化。如果它感覺到贏得比賽的概率很低,它就會在低於某個值之後投子認輸。電腦屏幕前的操作員會告訴Aja Huang,由他來按照既往的人類棋手方式在棋盤上認輸。

4. AlphaGo是否會因為對手每步棋的不同而調整自己的策略?
Deepmind:AlphaGo一直假設對手會基於AlphaGo自己能找出的最佳走法而應答下一步棋,在這個過程中AlphaGo也在嘗試挑選出能讓自己贏棋概率最高的走法。在正常比賽中,這就是AlphaGo一直貫徹的策略。

5. 李世乭是因為在這場比賽之前就已經有了計劃,還是因為是AlphaGo自己的失誤而贏得了比賽?
李世乭:我認為自己找到了AlphaGo兩個不足。一個是AlphaGo自己認為執黑贏棋要比執白贏棋困難。當對手下出沒有預測到的一手時,這就會導致AlphaGo出錯。也許嚴格意義上不能說是出錯,應該說是出現了一個Bug。當AlphaGo應對沒有預料到的一手時,它的能力會略微下降,可能會出現一系列Bug。我能感受到AlphaGo執黑比它執白要下得更艱難一些。

6. 李世乭是否認為比賽的信息不對等?因為AlphaGo已經有了李世乭過往所有比賽的信息,但李世乭並沒有這樣的信息。這樣的信息不對等是否對前四場比賽有影響,對最後一場比賽會有影響嗎?
李世乭:我知道有些人認為如果我了解AlphaGo更多一些,比賽的時候我可能會輕鬆一些。但是我覺得信息不對等並不是一個問題,輸棋都是因為我個人能力的原因
哈薩比斯:我想補充一點,AlphaGo並沒有針對李世乭進行對戰訓練,我們只是在廣泛層面上訓練它。實際上,AlphaGo開始訓練的人類對局是網路上強業餘棋手之間的對弈,因此我們的訓練資料庫中並沒有李世乭的對局。然後大家都知道AlphaGo在這之後是用自我對弈的方式來變得更強。所以我認為信息上雙方是對等的,我們並沒有用李世乭的資料來訓練它。我再補充一點,即使我們想針對李世乭對AlphaGo進行訓練,這也要求有數以百萬的對局可以用來訓練。因此幾百盤對弈哪怕上千盤也不足以改變AlphaGo比賽的方式,因為它需要更多的資料。

7. 許多人都很擔心李世乭在連輸三場之後遭受的心理打擊。李世乭是否能對自己的Fans說說自己的感受?在贏下一場比賽後,李世乭是否壓力更小從而贏下最後一場比賽?
李世乭:我不能否認自己受到打擊了。是的,我是被打擊到了,但這並沒有讓我放棄餘下的比賽。我非常享受過去這些場比賽的每一刻。我能說自己並沒有被遭受到的打擊而擊垮。我很高興能執白贏得比賽。我希望能執黑贏得下一次比賽,因為這更加寶貴。
(面向哈薩比斯提問)既然我執白已經贏了,在下一場比賽我能執黑嗎?(全場笑)
哈薩比斯:好的,我覺得沒問題。

8. (問題來自騰訊的記者)李世乭的78手,誰都沒有想到,AlphaGo也沒有想到。連古力也驚呼這是『神之一手』。李世乭在下那一手時是怎樣想的?
李世乭:我之前認為取得優勢會比較容易,但實際上並不是這樣,比我想的要困難很多。在今天這場比賽的時候,78手的位置是我能看見的唯一能下的位置,其他位置並不可行。所以這對我來說是唯一的選擇。謝謝大家對這一手的讚賞。

---------------圍棋小白賽後感想的分割線-----------------

這幾局比賽都是十分精彩的。但沒有哪一局比今天這一局更能變現出人類遭受挫折後的勇敢,謀略和冷靜。


如何評價第四局比賽 AlphaGo 輸給李世乭? - 袁嵐峰的回答
人類戰勝AlphaGo的戰略在此!
李世石為什麼能戰勝AlphaGo?原理就在陳經的計算中

李世石為什麼能戰勝AlphaGo?原理就在陳經的計算中

陳經

【@中科大胡不歸 按:2016年3月12日,李世石對AlphaGo連負三局後,輿論對人類棋手充滿悲觀的空氣,普遍認為人類再也鬥不過電腦了。中國科學技術大學科技與戰略風雲學會研究員陳經對圍棋和計算機科學都素有研究,經過徹夜思考後,在3月13日凌晨寫出此文,原標題為《機器完勝後分析AlphaGo演算法巨大的優勢與可能的缺陷》。3月13日上午9:55,在第四局比賽開始前發表在觀察者網:陳經:在AlphaGo完勝後繼續分析其演算法巨大優勢與可能的缺陷。

第四局比賽,李世石在大勢落後的情況下,在激烈的戰鬥中下出絕妙的白78手挖,被古力盛讚為「神之一手」。此後AlphaGo突然好像不會下棋了,初學者水平的無理手連發,損之又損,最終認輸。李世石取勝的戰略是什麼?為什麼電腦會犯傻?答案就在此文中:大局觀要頂得住,不能早早被它控制住了。局部手段小心,不要中招。頂住以後,在開放式的接觸戰中等它自己犯昏。或者在局部定型中看它自己虧目。在接觸戰中,要利用它「不喜歡打劫」的特性,利用一些劫爭的分枝虛張聲勢逼它讓步,但又不能太過分把它逼入對人類不利的劫爭中。

向人類的理性致敬!向人類的意志力致敬!向人類的創造力致敬!在我們面前,是一個更廣闊的世界!】

2016年3月12日人機大戰第三局,AlphaGo執白176手中盤勝李世石,以3:0的比分提前取得了對人類的勝利。

這一局李世石敗得最慘,早早就被AlphaGo妙手擊潰,整盤毫無機會。最後李世石悲壯地造劫,在AlphaGo脫先之後終於造出了緊劫。但AlphaGo只靠本身劫就贏得了劫爭,粉碎了AlphaGo不會打劫的猜想。這一局AlphaGo表現出的水平是三局中最高的,幾乎沒有一手棋能被人置疑的,全是好招。三局過去,AlphaGo到底實力高到什麼程度,人們反而更不清楚了。

看完這三局,棋界終於差不多絕望了,原以為5:0的,都倒向0:5了。有些職業棋手在盤算讓先、讓二子是否頂得住。整個歷程可以和科幻小說《三體》中的黑暗戰役類比,人類開始對戰勝三體人信心滿滿,一心想旁觀5:0的大勝。一場戰鬥下來人類艦隊全滅,全體陷入了0:5的悲觀失望情緒中。

我也是糾結了一陣子,看著人類在圍棋上被機器碾壓的心情確實不好。但是承認機器的優勢後,迅速完成了心理建設,又開心地看待圍棋了。其實挺容易的,國際象棋界早就有這樣的事了。這個可以等五盤棋過後寫。

現在我的感覺是,棋界整體還是對AlphaGo的演算法以及風格很不適應。一開始輕視,一輸再輸,姿態越來越低,三盤過後已經降到一個很低迷沉鬱的心理狀態了。這也可以理解,我一個圍棋迷都抑鬱了一會,何況是視棋如生命的職業棋手。但是不管如何,還是應該從技術的角度平心靜氣地搞清楚,AlphaGo到底是怎麼下棋的,優勢到底在哪些,是不是就沒有一點弱點了?

現在有了三盤高水平的棋譜,質量遠高於之前和樊麾的五盤棋譜。還有谷歌2016年1月28號發表在《自然》上的論文,介紹了很多技術細節,還有一些流傳的消息,其實相關的信息並不少,可以作出一些技術分析了。

之前一篇文章提到,從研發的角度看,谷歌團隊把15-20個專家湊在了一起,又提供了巨量的高性能計算資源,建立起了整個AlphaGo演算法研究的「流水線」。這樣谷歌團隊就從改程序代碼的麻煩工作中解放出來,變成指揮機器幹活,開動流水線不斷學習進步,改善策略網路價值網路的係數。而且這個研發架構似乎沒有什麼嚴重的瓶頸,可以持續不斷地自我提升,有小瓶頸也可以想辦法再改訓練方法。就算它終於遇到了瓶頸,可能水平也遠遠超過人類了。

這些複雜而不斷變動的神經網路係數是AlphaGo的獨門絕技,要訓練這些網路,需要比分散式版本對局時1200多個CPU多得多的計算資源。AlphaGo演算法里還是有一些模塊代碼是需要人去寫的,這些代碼可不是機器訓練出來的,再怎麼訓練也改不了,谷歌團隊還不可能做到這麼厲害。例如蒙特卡洛搜索(MCTS)整個框架的代碼,例如快速走子網路的代碼。這裡其實有兩位論文共同第一作者David Silver和Aja Huang多年積累的貢獻。這些人寫的代碼,就會有內在的缺陷,不太可能是完美無缺的。這些缺陷不是「流水線」不眠不休瘋狂訓練能解決的,是AlphaGo真正的內在缺陷,是深度學習、self-play、進化、強化學習這些高級名詞解決不了的。谷歌再能堆硬體,也解決不了,還得人去改代碼。

第一局開賽前,谷歌就說其實還在忙著換版本,最新版本不穩定,所以就用上一個固定版本了。這種開發工作,有可能就是人工改代碼補消除bug的,可能測試沒完,不敢用。

總之,象AlphaGo這麼大一個軟體,從演算法角度看存在bug是非常可能的。在行棋時表現出來就是,它突然下出一些不好的招數,而且不是因為策略網路價值網路水平不夠高,而是MCTS框架相關的搜索代碼運行的結果。如果要找AlphaGo潛在的bug,需要去仔細研究它的「搜索 」。這可能是它唯一的命門所在,而且不好改進。

那麼MCTS的好處壞處到底是什麼?幸運的是,Zen和CrazyStone等上一代程序,以及facebook田淵棟博士開發的Darkforest都用了MCTS。它們和AlphaGo雖然棋力相差很遠,但是行棋思想其實很相似,相通之處遠比我們想像的高得多。

這是田淵棟貼的Darkforest對前兩局的局勢評分。可以看出,這個評分和棋局走向高度一致,完全說得通。而且谷歌也透露了AlphaGo對局勢的評分,雖然一直領先,但第二局也有接近的時候,能夠相互印證。如果到網上下載一個Zen,輸入AlphaGo和李世石的對局,選擇一個局面進行分析,也會有象模象樣的評分出來。這究竟是怎麼回事?

從技術上來說,所謂的局勢評分,就是程序的MCTS模塊,對模擬的合理局面的勝率估計。連AlphaGo也是這樣做的,所以幾個程序才能對同樣一個局面聊到一塊去。所有程序的MCTS,都是從當前局面,選擇一些分支節點搜索,一直分支下去到某層的「葉子」節點,比如深入20步。這個分支策略,AlphaGo和Darkforest用的是「策略網路」提供的選點,選概率大的先試,又鼓勵沒試過的走走。到了葉子節點後,就改用一個「快速走子策略」一直下完,不分支了,你一步我一步往下推進,比如再下200步下完數子定出勝負。這個走子策略必須是快速的,谷歌論文中說AlphaGo的快速走子策略比策略網路快1000倍。如果用策略網路來走子,那就沒有時間下完了,和李世石對局時的2小時會遠遠不夠用。下完以後,將結果一路返回,作一些標記。最後統計所有合理的最終局面,看雙方勝利的各佔多少,就有一個勝率報出來,作為局勢的評分。一般到80%這類的勝率就沒意義了,必勝了,機器看自己低於20%就中盤認輸了。AlphaGo的創新是有價值網路,評估葉子節點時不是只看下完的結果,而是一半一半,也考慮價值網路直接對葉子節點預測的勝負結果。走子選擇就簡單了,選獲勝概率最大的那個分支。機器也會隨機下,因為有時幾個分支勝率一樣。

MCTS這個框架對棋力最大的意義,我認為就是「大局觀」好。無論局部如何激烈戰鬥,所有的模擬都永遠下完,全盤運算元的個數。這樣對於自己有多少佔地盤的潛力,就比毛估估要清楚多了。再以前的程序,就不下到終局,用一些棋塊形狀幅射之類的來算自己影響的地盤,估得很差,因為一些棋塊死沒死都不清楚。MCTS就不錯,下到終局死沒死一清二楚。MCTS也不會只盯著局部得失,而是整個盤面都去劃清楚邊界。這個特點讓幾個AI對局勢的評估經常很相似,大局觀都不錯。MCTS對於雙方交界的地方,以及虛虛實實的陣勢,通過打入之類的模擬,大致有個評估。當然這不是棋力的關鍵,大局觀再好,局部被對手殺死也沒有用,可能幾手下來,局勢評估就發生了突變。

AlphaGo的大局觀還特別好,特別準確,主要是它模擬的次數最多,模擬的質量最好。而且這個大局觀從原理上就超過了人類!比如人看到一塊陣勢,如果不是基本封閉的實空,到底價值多少評估起來其實是非常粗的。高手點目時經常這樣,先把能點的目算清楚,有一些小陣勢如無憂角就給個經驗目數,然後加上貼目算雙方精確目數的差值,然後說某方的某片陣勢能不能補回這個差值,需要扣除對方打入成的目數,孤棋薄棋減目數。這類估算有很多不精確的因素。AlphaGo就不一樣了,它會真的打入到陣勢里,來回模擬個幾十萬次,每一次都是精確的!人絕對沒有能力象AlphaGo這麼想問題,一定是利用經驗去估算陣勢的價值,誤差就可能很大。極端情況下,一塊空有沒有棋,職業棋手根本判斷不清,AlphaGo卻可以通過實踐模擬清楚,沒棋和有棋相比,目數差別太大了。AlphaGo雖然不是嚴格證明,但通過概率性地多次打入模擬,能夠接近理論情況,比人類憑經驗要強太多了。我可以肯定,AlphaGo的大局觀會遠遠超過職業高手,算目也要准得多,所以布局好、中後盤收束也很強大。甚至Zen之類的程序大局觀都可能超過職業高手。

例如第二局這個局面:

李世石左下佔了便宜,本來局勢還可以。但是他70和72手吃了一子落了後手,被AlphaGo走到73,大局一下就落後了。這個在前面Darkforest對局勢的評估圖中都非常清楚,是局勢的轉折點。李世石要是手頭有個Zen輔助,試著下兩下都可能會知道70手不要去吃一子了。大局觀不太好的職業高手,比如李世石就是個典型,大局觀不如Zen真不一定是笑話。李世石比Zen強的是接觸戰全局戰的手段,要強太多了。MCTS實事求是不怕麻煩下完再運算元的風格,比起人類棋手對於陣勢價值的粗放估算,是思維上先天的優勢。

AlphaGo比其它程序強,甚至比職業高手還強的,是近身搏殺時的小手段。

第三局,李世石29和31是失著。29湊白30雙,雖然獲得了H17的先手,但是中間的頭更為重要。當黑31手飛出後,白32象步飛可以說直接將黑擊斃了。在盤面的左上中間焦點處,AlphaGo的快速走子網路會有一個7*7之類的小窗口,對這裡進行窮舉一樣的搜索,用人手寫的代碼加上策略網路。32這步妙招可能就是這樣找出來的,李世石肯定沒有算到。但是AlphaGo是不怕麻煩的,就一直對著這裡算,比人更容易看到黑三子的可憐結局。這個計算對人有些複雜,只有實力很強的才能想到算清楚,對AlphaGo就是小菜。李世石一招不慎就被技術性擊倒了。AlphaGo對這種封閉局部的計算,是它超過人類的強項。

但是AlphaGo的搜索是不是就天衣無縫了?並不是。來看第二局這個局面:

AlphaGo黑41手尖沖,43手接出作戰。最後下成這樣,這是三局中AlphaGo被眾多職業棋手一致認為最明顯的一次虧損失誤,如果它還有失誤的話。我們猜想它為什麼會失誤。關鍵在於,這裡是一個開放式的接觸戰,棋塊會發展到很遠的地方去。AlphaGo的小窗口封閉窮舉搜索就不管用了,就只有靠MCTS在那概率性地試。這裡分支很多,甚至有一個複雜的到達右上角的回頭征。我認為AlphaGo這裡就失去了可靠的技術手段,終於在這個人類一目了然的局面中迷失了。它是沒有概念推理的,不知道什麼叫「憑空生出一塊孤棋」。也不確定人會在50位斷然反擊,可能花了大量時間在算人妥協的美好局面。

再來看AlphaGo一個明確的虧損。第一局白AlphaGo第136手吃掉三子。這裡是一個封閉局面,是可以完全算清楚的。可以絕對地證明,136手吃在T15更好,這裡白虧了一目。但是為什麼AlphaGo下錯了?因為它沒有「虧一目」的這種概念。只有最終模擬收完數子,白是179還是180這種概念,它根本搞不清楚差的一個子,是因為哪一手下得不同產生的,反正都是勝,它不在乎勝多少。除非是176與177子的區別,一個勝一個負,那136就在勝率上劣於T15了,它可能就改下T15了。這個局面白已經勝定了所以無所謂。但是我們可以推想,如果在對局早期,局部發生了白要吃子的選擇,一種是A位吃,一種是B位吃,有目數差別,選哪種吃法?這就說不清了。AlphaGo的小窗口窮舉,是為了保證對殺的勝利,不殺就輸了。但是都能吃的情況下,這種一兩目的區別,它還真不好編程說明。說不定就會下錯虧目了。

經過以上的分析,AlphaGo相對人類的優勢和潛在缺陷就清楚多了。它的大局觀天生比人強得多,因為有強大的計算資源保證模擬的終局數量足夠,策略網路和價值網路剪枝又保證了模擬的質量。它在封閉局部的對殺會用一個小窗口去窮舉,絕對不會輸,還能找到妙手。它布局好,中盤戰鬥控制力強,都是大局觀好的表現。它中後盤收束差不多都是封閉局面了,基本是窮舉了,算目非常精確,幾百萬次模擬下來什麼都算清了。想要收官中撈點目回去不是問題,它勝了就行。但是想收官逆轉是不可能的,影響了勝率它立刻就窮舉把你堵回去。

但是封閉式局面的小手段中,AlphaGo可能存在不精確虧目的可能性,不知道怎麼推理。在開放式接觸戰中,如果戰鬥會搞到很遠去,它也可能手數太多算不清,露出破綻。但不會是崩潰性的破綻,要崩潰了它就肯定能知道這裡虧了,不崩吃點暗虧它就可能糊塗著。目前來看,就是這麼兩個小毛病。

另外還有打劫的問題。如果是終局打劫,那是沒有用的,它就窮舉了,你沒有辦法。如果是在開局或者中局封閉式局部有了劫爭,由於要找劫,等於強制變成了殺到全盤的開放度最大的開放式局面了。這是AlphaGo不喜歡的,它的小窗口搜索就用不上了。而用MCTS搜索,打劫步數過多,就會超過它的葉子節點擴展深度,比如20步就不行了,必須「快速走子」收完了。這時它就胡亂終局了,不知道如何處理劫爭,模擬質量迅速下降。所以,這三局中,AlphaGo都顯得「不喜歡打劫」。但是,這不是說它不會打劫,真要逼得它不打劫必輸了,那它也就被MCTS逼得去打了。如果劫爭發生在早中期手數很多,在打劫過程中它就可能發生失誤。當然這只是一個猜想。它利用強大的大局觀與局部手段,可以做到「我不喜歡打劫,打劫的變化我繞過」,想吃就給你,我到別的地方撈回來。當然如果對手足夠強大,是可以逼得它走上打劫的道路的,它就只好打了,說不定對手就有機會了。第三局李世石就逼得它打起了劫,但是變化簡單它不怕,只用本身劫就打爆了對手。

如果要戰勝AlphaGo,根據本文的分析,應該用這樣的策略:大局觀要頂得住,不能早早被它控制住了。局部手段小心,不要中招。頂住以後,在開放式的接觸戰中等它自己犯昏。或者在局部定型中看它自己虧目。在接觸戰中,要利用它「不喜歡打劫」的特性,利用一些劫爭的分枝虛張聲勢逼它讓步,但又不能太過分把它逼入對人類不利的劫爭中。這麼看,這個難度還真挺高的。但也不是不可想像了,柯潔大局觀好,比較合適。李世石大局觀差,不是好的人類代表。

本文進行了大膽的猜測,可能是一家之言。但我也是有根據的,並不是狂想。如果這篇文章能幫助人類消除對AlphaGo的恐懼,那就起到了作用。

作者簡介:筆名陳經,香港科技大學計算機科學碩士,中國科學技術大學科技與戰略風雲學會研究員,棋力新浪圍棋6D。21世紀初開始有獨特原創性的經濟研究。2003年的《經濟版圖中的發展中國家》預言中國將不斷產業升級,挑戰發達國家。2006年著有《中國的「官辦經濟」》。

致謝:感謝中國科學技術大學科技與戰略風雲學會會長袁嵐峰博士(微博@中科大胡不歸 )與其他會員的寶貴意見。

就第四局的具體情況多解釋幾句。有人說電腦輸是給人留面子放水,這當然是笑話。真正的原因是,在李世石78手挖後的複雜局面中,最強變化是打劫,而電腦由於不喜歡打劫,模擬中引發了bug。後面的無理手連發,是基於MCTS的圍棋軟體落後時典型的攪局行為,是電腦想偷得一點可憐的勝率。一旦電腦算出自己的勝率不高,就會寄希望於人類犯低級錯誤,於是下出各種損之又損的無理手。AlphaGo的表現說明,它正是一個典型的以MCTS為基礎的圍棋程序,雖然比ZEN強大非常多,仍然有著一樣的看上去可笑的bug。如果想消除這種可笑招數,需要電腦提高認輸的概率值。但這樣就更容易出bug,說不定有希望時就認輸了。


友善度不要了。
李世石九段輸了,你們說是簽保密協議;
李世石九段用超一流的一手贏了,你們說是AlphaGo故意放水。
媽的智障。


李世乭在前三局的壓力下還能表現成這樣,完全對得起他的名聲。


2016感動世界十大人物之李世石。


如果這局棋放在昨天多好,那將是最好的結婚紀念日禮物。


That"s good. You"re paring them down, concentrating on the most aggressive possible moves.
...
A second is like an infinity to you, isn"t it? You can take the time to consider everything. Or almost everything. I"m afraid you missed it.

雖然不是同一個棋種,但大致是相同熱血的感覺吧。


推薦閱讀:

如何評價 AlphaGo 自我對弈 50 盤棋?
類似AlphaGo一樣的人工智慧什麼時候才可以擊敗RTS(如星際)頂級選手?

TAG:人工智慧 | 圍棋 | AlphaGo | 李世乭 |