如何看待 Deepmind 宣稱最新版 AlphaGo 能讓李世乭版本 AlphaGo 三子?

進入圓桌 ? 人機對弈終章,參與更多相關討論。


首先,Don"t Panic!

關於讓三子,AlphaGo首席研究員David Silver下午通過郵件做了個聲明。簡單來說,就是新版可以讓舊版三子,不代表能和棋力與舊版差不多的人類棋手對弈時,也能讓三子

新版本的AlphaGo, 已經過幾百萬次的自我訓練,並在檢測舊版本弱點方面表現出色。也因此,新版本的AlphaGo可以讓舊的版本三個子。但當AlphaGo與從未對弈過的人類棋手對局時,這樣的優勢就不復存在了,尤其是柯潔這樣的圍棋大師,他可能幫助我們發現Alphago未曾展露的新弱點。這樣的衡量標準是無法比較的。對於本周的第二輪和第三輪對局,我們拭目以待。

The new version of AlphaGo has trained against itself millions of times, and has learned to become very good at exploiting the weaknesses in previous versions. That"s why it"s about three stones stronger in head-to-head games against its older self. But that doesn"t mean anything when it comes up against a human player with whom AlphaGo has never trained - particularly a great master like Ke Jie, who can uncover new weaknesses we don"t know about. The scales just aren"t comparable. We are excited for the second and third games this week!

再說一下讓三子是怎麼實現的。

以下內容整理自哈薩比斯、席爾瓦今日上午的主題演講,還有今日午間量子位對這兩位DeepMind核心人物的專訪。

DeepMind對新版AlphaGo的介紹,主要提到了三點:

  • 運行於谷歌雲,但只用一個TPU機器
  • 自學成才,AlphaGo自我對弈提高棋力
  • 擁有更強大的策略/價值網路

讓三子,靠的是通過自我對弈的不斷訓練,獲得了更強大的策略/價值網路。

為了講清楚新的策略/價值網路強在哪裡,還是應該首先介紹一下AlphaGo的演算法如何構成。席爾瓦介紹,量子位搬運如下。

當初DeepMind團隊,之所以選擇圍棋方向進行研究,一個重要的原因在於圍棋是構建和理解運算的最佳試驗台,而且圍棋的複雜性遠超國際象棋,這讓電腦無法通過深藍一樣的暴力窮舉方式破解圍棋的奧秘。

擊敗李世乭的AlphaGo,核心是一個卷積神經網路。DeepMind團隊希望AlphaGo最終能夠理解圍棋,形成全局觀。席爾瓦表示,AlphaGo Lee由12層神經網路構成,而AlphaGo Master有40層神經網路。

這些神經網路進一步細分為兩個功能網路:

  • 策略網路(policy network)
  • 價值網路(value network)

在這兩個網路的訓練中,使用了監督學習和強化學習兩種方式。

首先基於人類的專家庫數據,對策略網路的上百萬參數進行調整。調整的目標,是讓策略網路在相同的情況下,能夠達到人類圍棋高手的水平:下出同樣的一步棋。

然後是強化學習,讓人工智慧進行自我博弈,這一訓練結束後,就形成了價值網路,這被用於對未來的棋局輸贏進行預測,在不同的下法中作出優劣判斷。

通過策略網路,可以降低搜索的寬度,減少候選項,收縮複雜性。而且不會讓AlphaGo下出瘋狂不靠譜的步驟。

另一方面,通過價值網路減少深度,當AlphaGo計算到一定的深度,就會停止。AlphaGo不需要一直窮盡到最後。

把這個兩個結合起來,就是AlphaGo的樹搜索。通過策略網路選出幾個可能的路徑,然後對這些路徑進行評估,最後把結果提交給樹頂。這個過程重複幾百上千次,最後AlphaGo得出贏棋概率最高的一步。

那麼新的策略/價值網路,到底強在哪裡?

AlphaGo Master這次成了自己的老師,用席爾瓦的話說,這位圍棋AI是自學成才。它從自我對弈的棋局裡進行學習,積累了最好的訓練數據。「上一代AlphaGo成為下一代的老師」席爾瓦形容道。

通過AlphaGo的自我博弈,不斷吸取經驗、提高棋力,這一次AlphaGo用自我對弈訓練出的策略網路,可以做到不需要更多運算,直接給出下一步的決策。

這種改變明顯減少了對計算力的需求。

另一個價值網路,也是基於AlphaGo的自我對弈進行訓練,通過對弈後的復盤,價值網路能夠學到哪一步是關鍵所在。通過高質量的自我對弈,訓練價值網路預測哪一步更重要。

席爾瓦表示:「在任何一步,AlphaGo都會準確預測如何能贏」。

這個過程不斷反覆迭代,最終打造了一個更強大的AlphaGo。自我博弈,帶來數據質量的提高,從而推動了AlphaGo的快速提升。

如果你認真讀,會發現,新的策略/價值網路,不僅帶來了棋力的提升,還減少了對計算力的需求。

DeepMind說,這次和柯潔對戰的AlphaGo Master,運算量只有上一代AlphaGo Lee的十分之一。所以單個TPU機器足以支撐。

AlphaGo團隊的黃士傑博士也在朋友圈表示,最新的AlphaGo可以被稱為單機版。而上一代AlphaGo使用了分散式計算。

在會後接受量子位採訪時,席爾瓦證實此次AlphaGo仍然使用了第一代TPU,而不是前不久公布的第二代。

另外席爾瓦澄清說:「今年升級版的AlphaGo是在單機上運行的,它的物理伺服器上部署了4個TPU」。

如此前一樣,DeepMind證實也會公布這一代AlphaGo的相關論文。我們一起慢慢等。

更多今天發布會的細節,歡迎查看量子位的文章:新AlphaGo首度揭秘:單機運行,4個TPU,演算法更強(專訪+演講) - 知乎專欄


通俗地說結論,

AlphaGo-Master版(應該是傳言中的v25)能讓AlphaGo-Lee(v18)三子,AlphaGo-Lee能讓AlphaGo v13三子。

這肯定不代表李世石能讓樊麾三子,更不能代表柯潔可以讓李世石三子,David Silver本人也是很清楚這一點的。

這種問題在圍棋群裡面一年前就討論過了,主要看法是AlphaGo在優勢下會更傾向於下簡化局面(同時是小虧的)棋,AlphaGo的設計並不適合下讓子棋,執黑(被讓子的)的AlphaGo很可能會在前50手就不斷退讓,越往後,原有優勢可能就越接近零了,直至這個低版本大概率輸掉。

你看AlphaGo在收官階段,明顯有更優的下法,但是AlphaGo不斷小虧,勝率依然穩定甚至不斷上升,因為變化可能越來越少,我們下圍棋的人常說的棋盤變小了,AlphaGo程序的Goal就是勝率,而不是贏多一點目數,論文裡面這一點早已說得很清楚,David Silver昨天5月23日QA環節也再次說明了這個Goal。

所以,表面上柯潔只輸了1/4子,實際上白棋優勢相當大,說5-7目優勢應該是問題不大的,在程序的良好運行情況下,不斷地選擇安全的下法(不斷小虧),然後終局白棋剛好贏了1/4子,看起來是最小的差距,這個1/4子的差距出現有些偶爾,不是刻意能控制的。

人也是會有可能在優勢下,下鬆鬆垮垮的棋,不斷地減少自己的優勢,不過柯潔這種頂尖棋手,只要用心下,肯定不會像AlphaGo低版本對高版本那樣在讓子的局面下,快速地在50或100手內將優勢全部送出去,所以說,AlphaGo-Master應該很難讓柯潔三子,但是你如果要問如果讓柯潔二子呢?我就覺得不好說。

但是,實際情況呢,很難出現這樣的讓子局,至少短期內職業棋界接受不了,DeepMind也沒有意願安排這樣的讓子賽,DeepMind研究AlphaGo也不是為了打職業棋界的臉,沒有必要做損人不利己的事情。如果職業棋界願意接受殘酷的升降賽,那另當別論,業餘棋界是很好奇很願意看這樣的升降賽的,不過對職業棋手來說太殘酷了,我都不忍看這樣的局面,或許倒貼目容易接受一點。

請看以下David Silver的說明

新版AlphaGo讓舊版三子令柯潔驚訝 樊麾發表聲明

剛看到一個讓我會心一笑的微博,唐韋星最新的微博,不敢藏私,分享給各位,那些樂於分析AlphaGo弱點,給柯潔支招的專家可以注意一下這條微博和關注一下柯潔的回復

Sina Visitor System


謝 @Haochen Liu 提問

5月24日,在未來圍棋峰會會場上,DeepMind團隊首席科學家David Silver介紹了AlphaGo的最新進展。

其中的這張圖,吸引了吃瓜群眾的眼球。

簡單說,就是最新版的AlphaGo(以下簡稱Master),能夠讓對戰李世乭版本的AlphaGo(以下簡稱AlphaGo-Lee)三子。讓三子是什麼概念?有請柯潔為大家解說。

這個問題,我們還可以再深入一點討論。

前幾年的《圍棋天地》雜誌,每期有個固定欄目,《36問》,就是問一位職業棋手36個問題。其中一問就是,你認為你和圍棋之神的差距多大。我的印象中,除了個別奇葩答案以外,認為棋神讓自己三個旗鼓相當的職業棋手是最多的。與之對應,AlphaGo的機械臂,黃士傑博士,去年也曾在推特上說,他也認為圍棋之神不能讓頂尖職業棋手四個子。

等等,現在Master能讓AlphaGo-Lee三子,而AlphaGo-Lee戰勝了李世乭,那麼Master豈不是至少能讓李世乭三子?也就是說,最新版本的AlphaGo,已經和圍棋之神能夠平起平坐了?

非也。

去年5月,就在AlphaGo-李世乭五番棋之後,David Silver在倫敦大學學院做報告,其中也有一張類似的圖。

(這圖拍的,應該召喚饒羅翔老師)

圖中說,AlphaGo-Lee能夠讓Nature雜誌上那一版本的AlphaGo(以下簡稱AlphaGo-Nature)三到四子。這裡的讓子是帶貼目的,所以要打一個小小的折扣。打完折扣以後取平均值,可以認為AlphaGo-Lee能夠讓AlphaGo-Nature三子。

注意,在這張圖裡,AlphaGo-Lee的等級分是4500分!而今天峰會上的圖,AlphaGo-Lee只有3600+分。這也容易解釋。在上圖的左下角,有一行小字:「注意:等級分評估基於自對弈結果」。也就是說,4500這個分數是AlphaGo的不同版本之間互相戰鬥之後,根據比分評估的。而3600+這個分數,是根據AlphaGo-Lee與人類的對局結果評估的。AlphaGo-Lee和人類一共就下了五盤棋,也就是對李世乭的4勝1負。李世乭當時的等級分在3550分左右。根據貝葉斯ELO演算法,將AlphaGo-Lee的分數定為3600+,恰如其分。

那麼問題來了,按照AlphaGo自評估的4500分,她理應碾壓李世乭,為什麼最後還輸了一局呢?

這裡涉及到一個概念,「過擬合」。

過擬合,在機器學習領域指,在訓練AI的過程中,因為樣本太少或訓練時間太長等原因,訓練結果只適應(特殊的)訓練樣本,而不適應一般情形。用一張圖說明。

綠線代表過擬合模型,黑線代表正則化模型。雖然綠線完美的匹配訓練數據,但太過依賴,並且與黑線相比,對於新的測試數據上具有更高的錯誤率。 (來自維基百科)

過擬合這個概念,具體表現到AlphaGo身上,就是新版本的AlphaGo更善於對付舊版本的AlphaGo,而相對不善於對付一般性的對手,比如李世乭。

官方的解釋也出來了:

黃博士剛剛澄清,經過大量實戰,新版本確實可以讓V18三子達到百分之50左右的勝率,但這不代表可以同等轉換到和棋手之間的對弈中。因為新版本完全了解舊版本的弱點,舊版本不會像人類一樣總結經驗,新舊版本之間的讓子棋對弈只是為了量化新版本的進步程度,無法證明和人類棋手的結果。

這裡提到的「新版本完全了解舊版本的弱點」,就是過擬合的具體表現。

講回DeepMind團隊今天的報告。

現在再看這張圖,應該就豁然開朗了。Master的4700分,同樣是基於自對弈的評分。Master能讓AlphaGo-Lee三子,可能含有過擬合的水分。

因此,Master能否讓柯潔三子,以現有數據無法判斷。

----

也許你想問,Master到底能讓柯潔幾個呢?

首先,實戰是檢驗真理的唯一標準。在沒有真正下過讓子棋之前,以下的分析屬於純猜測。

我的看法是,棋手的水平越高,讓子的難度就越大。剛學圍棋的人,可能被一個連業餘段位都沒有的棋手讓九個以上。水平相當的業餘棋手之間,有「互讓三子好勝負」的說法。而據 @傅奇軒 說,李世乭九段經常在北京,找業餘6段棋手下帶彩的讓三子棋。一盤一萬美金,李世乭大致勝負各半。頂尖職業棋手和高水平的業餘棋手相比,可以算是兩個世界的人,但最多也就讓三個子。想讓柯潔三個子,難度非常大,也許棋神能做到。

另外,AlphaGo也有技術問題要解決。對李世乭版本的AlphaGo,逆風局穩定性遠不如順風局。而讓子棋從一開始就是大逆風局。AlphaGo在逆風局會如何表現,是未來的一大看點。

個人觀點。如果現版本的AlphaGo對戰柯潔,我覺得讓兩個子會有看頭,讓三個子我all in柯潔。

柯潔應該對自己有信心。今天他發的微博,大概是這個小心機婊在給自己減壓吧。無論如何,明天,持白棋的柯潔,請加油!


今天guge曬出AlphaGo Master 讓AlphaGo Lee 3個子,AlphaGo Lee讓AlphaGo Fan(樊麾)3個子這張圖的時候,大家都震驚了。

這是一個什麼概念?曾經人們認為職業棋手之間的差距都是微乎其微,如今出來一個「紙面實力」可以讓頂尖職業棋手3個的程序?於是乎,兩撥人馬吵得不亦樂乎。一方認為:機器之間的讓子不能說明問題,因為機器會因為優勢不斷保守,直到最後差不多了才會發力。特別是昨天柯潔將將輸了1/4子,更讓人覺得人機差距遠沒那麼大。另外一方認為:人類你都60連敗了,說讓3個也不過分吧?到底比較客觀的真相如何呢?

這裡面我結合實際下棋經驗以及對AI的理性認識來分析下,歡迎大家指正。

1、讓子是否具備「傳遞」功效?

本人的實際經驗是:具備。依據來源:經驗判斷。本人和職業棋手下大致在3-4個之間。同時,如果一個人還能被我讓3個,這樣的選手一般職業棋手讓他5到6個毫無問題。讓子棋由於受到棋風、經驗、心態等因素本身就會存在比較大的誤差。如果再加上傳遞,誤差可能繼續放大。但是不能否認,讓子棋還是能作為一個粗略的水平衡量標準的,並且具有傳遞效應。

關鍵在這裡面有個小小的容易陷入的誤區。A讓B兩個勝負相當,B讓C兩個勝負相當,那麼A讓C大概多少勝負相當?很多人會說,2個+2個,或者2個乘2個都是4嘛~肯定讓4個咯。

錯,應該是3個。這裡讓子棋傳遞,第一,要用加法,不能用乘法(因為這是預先累計的局面優勢,而不是乘數情況。舉個例子:這是一種你比我有錢300塊,我比他有錢300塊所以你比我有錢600塊。而不是你比我有錢三倍,我比他有錢三倍,所以你比我有錢九倍)。第二、讓子棋本身都是除去貼目的性質,讓2子相當於,忽略貼目後,讓你先走1著。那麼A能讓B先走1著,B能讓C先走1著,按照前述加法理論。A可以讓C先走2著。所以是讓3子,而不是讓4子。更進一步的例子,如果A讓B五個,B讓C四個,那麼A讓C應該是8個而不是9個,怎麼樣,是不是看上去差距沒那麼大了?

2、AI讓子是不是會因為保守導致最後實際上沒讓?

不可能,AlphaGo給出這樣的讓子情況肯定是基於「勝率」,而不會說「局面差距」,也就是說,如果每盤棋雙方目數都接近,但是都是被讓子方贏,那麼guge肯定不會這樣宣稱。事實上,我們可以看到AI優勢下的確會退讓,但是,退讓並不改變「勝負結果」。我相信guge敢這樣說,一定是基於實際讓3個的情況下,勝率相當,才會如此宣稱。

3、guge的說法全部是機器之間的,並沒有針對任何一位棋手。但客觀說,依據目前的情況,合理的推斷只能是認為AlphaGo Master版本具備了讓人類頂尖棋手3個的實力。

4、以上只是我個人的邏輯推導過程,真正的驗證留給未來的實戰,能不能讓動,只有實戰是檢驗的唯一標準8


圍棋是明棋,理論上有最佳招法,但是人類算不清。

因此,理論上兩個圍棋之神下棋應該走向一個平衡點,也就是盤面的一半再加貼目修正。

而實際的下棋,雙方一定會犯錯,棋力高低是以犯錯多少來影響勝負的,我犯的錯小,犯的錯少,我就贏了。

我覺得,如果能穩讓三子的話,完全可以改換貼目演算法,就讓ai認為多贏幾個子才算贏。

(現有的ai因為是按照正常貼目計算勝率,穩了的時候就隨便走,不會極力多贏。)


黃博士說現在的alphago master 對李世乭版的alphago lee 讓兩子沒輸過。


先說觀點。我覺得要麼是阿法狗的開發人員對於讓子的概念不嚴謹 要麼就是阿法狗接近開發到圍棋之神的地步了 (更正一下,確實是讓三個的水平)

作為一個yc9 強業餘5段 以及用地雷號練級的經驗和觀看好友與職業頂尖高手下指導棋的經驗,我以自己的標準大致可以這樣分級,未必準確。

初學者到yc5級以下,水平跨度太大,暫時不考慮差距。(yc代表弈城網站)

Yc5級到1級 實測為我能讓5到6個 讓7個以上不想下 因為…沒意思。這一類水平的棋手 大概屬於掌握基本定式,懂5步之內的基本計算,官子較弱很容易刮出來,中盤沒法看的水平,總之,離真正體會圍棋的樂趣看懂高手的棋還有相當的距離。樣本來源:女朋友(希望不要被打)

Yc1段到3段 可讓4到5子 這一類布局有模有樣,基本定式和進階定式能掌握,計算到10步以內,中盤能看,對目數很不敏感,已經有很大的提升。樣本 無

Yc 45段 讓2到3子 基本技戰術已經較為成熟 目數敏感 中盤有模有樣 簡單直線計算不虛,官子開始注意細節 能夠自我復盤並反思

重點來了 Yc5段相當於業餘5段的水平是一個分水嶺 到了這個地步可以體會出職業棋手大多數招法的用意 能夠體會到圍棋之美

之後的圍棋就是一個比犯錯誤的遊戲了,我覺得在這個檔次以上,用子來衡量差距是一種侮辱,當然職業對陣業餘的除外

Yc6_7 讓先到讓先倒貼 需要yc9拿出精神應對。算路有分支並且詳細,布局有想法,中盤有戰鬥力,以多打少不吃虧,官子能夠不虧目的收完小官子階段,棋上能夠有自己的棋風。

Yc8到yc中9 答主現在的水平 也是天花板,在67基礎上能夠設套,算路精準,抗壓能力和穩定上都有保證,官子很少犯錯。個人評價是被棋神讓四個不虛,被職業頂尖讓兩個倒貼五五開,也就是相當於黑先白方倒貼黑二十五目。之前會覺得是讓兩個五五開,直到我見識了孔傑老師把和我水平相當的哥們讓兩個一百手局勢追到分先的樣子。

和諸多業餘六段下過,勝率慘淡,自我評定是,被強業六讓先倒貼差不多 被胡王白馬級別讓先倒貼勝算較低。

胡王白馬和柯潔的差距,大概也就是一先稍多的樣子。因此 我得出了和柯潔相差30目左右的概念。這個估計可能會偏低,因為我很難想像比我棋高的人的思維方式。

那麼問題來了 為什麼用子衡量不用目?

因為用子的尺度太大。讓兩個子約等於20目的差距 而讓三個子就是40目。布局的一步占角值20目左右。

而貼目就沒有這個問題,一個貼目等於一個檔次,並且貼目更加精確,因此我覺得用貼目衡量更為合適。

還有一個問題,讓子數多於四個就已經無意義了,基本上讓超過四個,說明下手基本看不懂上手的棋。

另外,由於水平高到一定程度,對圍棋的理解優勢帶來的邊際收益越來越小,犯錯誤的數量就成了衡量水平的關鍵,

因此阿法狗master版本能讓李世石版本三個,說明什麼?

一開始我覺得這個數據大概率是有誤差的,後來發現不太對。李世石版本個人感覺稍強於現在的柯潔,而master對現在的高手60勝,每盤棋下不到官子,這相當於yc9和yc4到6的對局感覺…也就是…差兩到三個,考慮到之前的答案提到的誤差,很可能master 可以讓天下二子 再聯想到我們對於圍棋之神的推理,讓職業2到3個,如果某一天master不再進步,遇到瓶頸了,那是不是…

而這兩三個的差距,大致相當於master的理解佔優加上人類犯錯誤等劣勢的客觀因素。個人認為,昨天柯潔犯的很少,差距還來源於理解,說不定點三三的定式下出來人就已經輸了。而理解差了一到兩個貼目,這個情況下再一旦犯錯就是直接over。這也是為什麼人快棋對狗沒有勝算的原因

答案較為主觀 歡迎大神指正

更新:最近在知乎上碰到很多人認為柯潔下不過阿法狗應該被[直接]讓兩個。我只能說,不懂圍棋的人說這個情有可原,懂圍棋並且對職業棋手差距有了解的人說這個,不是蠢就是壞。讓兩個子什麼概念?差三個檔次!職業棋手之間讓先都是難以逾越的鴻溝 阿法狗如果真的和人下升降級,必定是先分先,再讓先,再倒貼,最後是讓兩個。中間差的檔次非常多!如果分先下不過直接就說根據棋譜內容讓兩個,那是對於棋手的侮辱!


偏個樓,實在受不了某幾個答主的冷嘲熱諷。這個世界上總有這種人,新中國出兵朝鮮時,他們說實力差距那麼大,還上去打,你這是厚臉皮;中國男籃奧運會打美國,他們說你這是自取其辱,應該接受美國隊讓你20分再打比賽。對強者我們應該保持謙遜,但謙遜不是認慫,更不要隨便嘲諷那些不認慫的人們


跑車能讓劉翔先跑三圈。這沒毛病。

電腦計算器能讓你先算十分鐘,也沒有毛病。

為何圍棋說能讓三子就有懷疑了?

這是遲早的事。


個人認為測試的條件值得留意,最新版的alphago-master能讓alphago-lee三子,這是在什麼測試條件下完成的?是跟李世石的人機大戰2小時慢棋么?測試時候alphago-lee使用的硬體資源一樣么?

我大膽地推測即使alphago-lee在測試時候使用的硬體資源與第一期人機大戰相當,時間上肯定不是相當的,很有可能就是5s一步甚至更短的「快棋」。而眾所周知,時間代表著運算量,alphago-lee在第一期人機大戰中,硬體資源、運算時間都充分滿足時候,能展現出很強大的棋力,怎麼能知道它快棋有什麼表現了?而谷歌明確提到了alphago-master版本在演算法上進行了優化,從年初的60場快棋的大勝可以看出,使用了TPU的alphago-master(alphago-lee人機大戰使用的還是GPU+CPU結構)在運算速度和演算法性能上比起alphago-lee上了一個台階,alphago-master針對快棋有一個明顯地優化,這麼看來,alphago-master快棋上能讓alphago-lee三子,這個結論並不能過分解讀為alphago-master能讓李世石三子。


首先,這個結論是deepmind團隊是實戰測試過的,不是根據等級分差距推算出來,所以不存在什麼等級分過擬合虛高的問題,所以目前的最高贊答案純粹答非所問。

其次,讓V18三子能不能等同於讓柯潔三子?謹慎的答案應該是不知道,因為圍棋是實戰解決的遊戲,不服出來練是真理。而中國圍棋界既不敢接受升降十番棋,也不願意直接下讓子,這就導致在可預見的未來這個問題沒有直接明確的答案。

最後,我個人認為現在的alphago讓柯潔兩個是毫無問題的,而且從年初開始我對新版alphago的實力評估就是如此,不像某些牆頭草,年初還信誓旦旦的說讓先就是極限了,讓兩個不可能,現在又改口讓兩個是好勝負了。


棋院不想毀了圍棋市場,如果人們知道柯潔VS朴廷桓這種人類最強對決,實際上雙方都差計算機三子,這種對決的魅力就大打折扣了,下出的棋譜也基本沒有什麼技術藝術價值了。

不下升降棋,職業棋手永遠可以用「大概和ai差一先」這塊遮羞布。事實上,職業棋手從去年到現在,也一直是這麼做的。


五子棋讓我三子試試。


其實吧,柯傑被狗讓三個比一場也好,說不定知恥後勇,轉去學習人工智慧。

從此棋壇少了一位天才少年,中國多了一位人工智慧的領軍人物。


如果是真的,那麼最新版的AlphaGo與怪物基本上沒有分別了。另外這時候公布消息對柯潔真的不公平。

至於有人說機器互搏和人機互搏有分別,但老實看完一大段論證我也看不到兩者在本質上有何不同,除非機器互搏和人機互搏是用不同規則。

OK,還想到一些東西,團隊現在說出來是不是在打擊柯潔的士氣。我想就算柯潔自己也不知道AlphaGo有多強,他可能會想AlphaGo或者比我強,但我未必不能嬴吧。我和其他比我弱的棋手也不是穩嬴的。

但現在柯潔看到這段消息,三子!!!!
他一定會想:「三子,居然是三子!我根本不可能嬴吧!?」

我想下一塲柯潔都好難用平常心去捉了,心裡肯定邊捉邊想著:「三子......三子...」


很正常。本來柯潔之戰就是來取辱的。(據說,alphago 本來想下讓二子棋,但是棋院不同意。)

對陣李世石的Alphago 可以讓 樊的alphago三子,大家沒有異議。

為啥到了新的Alphago能讓三子就異議了?

因為夏蟲不可語冰。


今天這三盤結束了

從這幾天 的三盤來看,確實能讓三子,

再加上之前谷歌是想下讓二子棋的,棋院不敢。

聯繫到今天發布會谷歌宣布結束alphago項目,可以認為,結束alphageo是計劃內的事情。

那麼可以斷定,谷歌認為alphageo即使讓二子對柯潔,也是百分百的勝

那麼在谷歌的評價體系里自然可以讓九段三子

更新 最新烏鎮三盤勝率已公布

第一盤 柯黑

初始45

26手 45

27手 42

29手 40

31手 38

47手 30

55手 25

第二盤 柯白

初始55

37手 55

38手 53

55手 51

56手 42

87手 40

107手 35

108手 31

109手 30

第三盤 柯白

初始55

29手 50

30手 44

39手 44

40手 33

42手 28

從勝率判斷,一般三十手柯潔就敗局已定,只有第二局撐到了56手,

那麼我判斷,即使阿法狗讓三子,一般九段也是輸多贏少


讓子棋的下法和一般的下法完全不一樣了。即使採用相同的技術,讓子棋訓練出來的alphago程序和正常下訓練出來的alphago程序也不一樣了吧。那舊版本的alohago又是怎麼訓練來下讓子棋呢。很好奇deepmind這裡說的讓三子是怎麼個情況


問題在於舊版的有沒有針對「讓三子」進行訓練。

如果沒有,只有標準情景下的訓練,電腦對電腦讓三子不會有人類對人類時的優勢。


以前做過遺傳演算法,

遺傳演算法的問題就在於很容易陷入局部最優。

也就是說到一定程度之後,實力將不再提升。

我沒仔細研究過alpha go的演算法,但我覺得alpha go的演算法應該也是會陷入局部最優(大概就是新聞里的過擬和?),和圍棋之神之間的差距,我相信是alpha go起碼差99%。

另外,即使現在版本比李世石版本的能讓三子,也只能說明對李世石版本的有這個優勢(也就是局部最優解)。對於其他棋手(也就是多種情況)未必有優勢(局部最優解不一定是全局最優解,過早陷入局部最優,可能對於另外的情況來說,是一個很差的解)。

希望柯潔能贏,我覺得還是有機會。

第二局還是輸了,唉,感覺這局有機會


推薦閱讀:

為什麼很多會下圍棋的人都瞧不起聶衛平?
吳清源有柯潔厲害嗎?下得過AIphago嗎?
如何評價聶衛平,他在圍棋史上的地位如何?
聶衛平為什麼被稱為棋聖?
聶衛平WHR積分是不是到達過世界第一?

TAG:人工智慧 | 圍棋 | 機器學習 | AlphaGo |