在與 AlphaGo(包括 Master) 的對局中是否出現了一些人類歷史上從未想到過的著法、技巧?

進入圓桌 ? 人機對弈終章,參與更多相關討論。


-

有的,而且還很多,甚至如果我們不斷的投入資源讓程序繼續進化,還會越來越多。但是這個問題的問法是有一定疑問的,現在很多輿論,其實並不清楚AlphaGo帶給我們的新東西,到底是哪些。

很多輿論跟風宣稱「人類圍棋拘泥於定式」,稱AlphaGo顛覆了人類理論,人類理論都是錯的,這是傳訛。「定式」並不是「固定形式」的意思,而是對於合理性變化的研究,人類的研究方式類似於蠻力搜索,而且得到的成果一直在實戰的檢驗中不斷的更新換代。

-

俗話說「千古無同局」,圍棋的合法局面數在10^170量級,而一整盤棋,是由幾百個連續的合法局面組成的,我們姑且稱其為一個合法路徑,合法路徑的總數在10^300量級。也就是說在基礎規則的限定下,兩兩不同的對局可以有10^300盤。

人類自古以來的所有對局數,據我估計在10^11~10^12量級,而職業水平的對局數,我估計在10^6~10^7量級。人類對於前半盤定式變化的研究量,現有成集可查的也在10^6量級,算上淘汰掉的也應該不超過10^7量級。

AlphaGo大概在15年下半年達到了職業水平,此後它的自對弈,顯然不止10^7量級。所以在AlphaGo的自對弈中,出現大量人類沒有用過、或者雖然用過卻沒有仔細研究過的變化是很正常的。

-

圍棋在基礎規則確定之後,其中的規律就已經確定。雙方都在最優的下法下,沿著一條「最優路徑」,一定會達到一個均衡。現在根據統計得到的數據,我們大多猜測這個均衡數在黑棋184左右。真要細說,可能是183.5、184、184.5其中的一個(出現0.5是奇數個有眼雙活、雙方平分1目的情況)。

總的合法棋局數,也就是合法路徑數在10^300量級,但其中絕大多數的路徑都不是最優的。然而,最優路徑也肯定不是一條,對於最優路徑的研究已經從4路棋盤不斷擴張,我所知的最新成果是人類已經窮盡了7路棋盤的最優路徑,8路以上還有待進一步研究。

隨著棋盤的擴大,最優路徑的集合不斷變大,這用數學的方式不難證明。到了19路棋盤,這個最優路徑集合中的路徑數顯然已經是一個天文數字。

而這個集合,一方面是我們追求的「客觀真理」,另一方面既然我們知道它很大,就可以欣喜的知道圍棋的最優下法不是那麼單一無趣的,而是有足夠大的容納空間,甚至有可能能容納不同的「風格」(按照人類的理解方式)。

-

接下來,要想了解AlphaGo已經帶給我們的新思路,要想知道AlphaGo到底在已知棋理的什麼方向上形成了突破,首先你要知道人類為了解釋圍棋規律而總結出的理論,大致是個什麼樣子,建立在什麼框架下。

考慮到很可能會有完全不懂棋的朋友看到這裡,又考慮到我個人水平的有限,所以請允許我盡量從最基本的東西說起。

人類對於圍棋規律的總結,分為兩類。第一種可以稱為「實路棋」,也就是強邏輯推演得到的規律,從真假眼到兩眼成活,從基礎吃子到對殺,都屬於這一類內容。這種強邏輯的規律,只要你願意,是可以用數學公式嚴格的表達出來的。(比如對殺,就可以總結出嚴格的公式,我以後會在另一個回答中給出)

還有一種,被稱為「虛路棋」。圍棋歸根結底是一個數學問題,所有最優路徑,最終一定是可以用強邏輯來解釋的。但我們自身的計算能力不足,甚至藉助今天的計算機也還是遠遠不足,所以出於對計算能力不足的妥協,我們總結出了「虛路棋理」,試圖用弱邏輯的方式來建立剪枝模型,用自身容易理解的形式來找尋最優路徑。

AlphaGo的強大,正在於它在「虛路棋」上的強大。它模擬了人類棋感的形成,但更加精準合理。當然,這一樣是對計算能力不足的妥協,但它的高效剪枝的模型,在計算機強大運算能力的支撐下,現在獲得的成功是巨大的。

-

人類的虛路棋,最基礎的理論基石是「金角銀邊草肚皮」和「三四線理論」。

所謂「金角銀邊草肚皮」,是指在效率上,角&>邊&>中腹(一般情況下)。

這種規律的邏輯在於,圍棋是一人下一步的回合制,最後要比較誰占的地盤大,自然就要比較雙方棋子的效率。所以要找最優路徑,就要每一步棋都追求最高效率。

而如果要吃子,在角上吃掉對方一個子只需要兩步棋,在邊上吃掉對方一個子需要三步棋,而在中腹吃掉對方一個子則需要四步棋(見圖1)。

圖1. 在角、邊、中腹分別吃掉一個白子,黑棋所需要的最少步數示意圖

而如果要做眼,在角上圍成一個真眼,需要三步棋;在邊上圍成一個真眼,需要五步棋;而在中腹圍成一個真眼,需要七步棋(見圖2)。

圖2. 在角、邊、中腹分別圍成一個真眼,黑棋需要的最少步數示意圖

同樣的收益(分子),根據對於成本(分母)的比較,我們不難比較出,在上面兩種情況下,每一步的棋子效率,是角&>邊&>中腹。

這就是「金角銀邊草肚皮」理論。

這種理論導致的直接結果,是大家在布局之初會先往角部下,然後慢慢擴張到邊上,再然後再向中腹進軍,這是基本的行棋順序與方向。

那麼,既然要先往角上下,為什麼不直接下在最靠外面的角上(也就是一一的位置)呢?這就涉及到「三四線布局理論」了。

「三四線布局理論」是指,在布局階段,三線和四線是最高效的行棋位置,其中三線位置偏低,側重邊角實空,四線位置偏高,側重中腹勢力(見圖3)。

圖3. 三四線示意圖,標註圓圈的是三線上的點,標註三角的是四線上的點

「三四線理論」,就不是按照強邏輯推演出來的了,而更多的是依靠經驗得到的規律。當然,其中的邏輯也不算特別弱,只不過不是死活對殺那種真正的強邏輯就是了。

不懂棋的朋友在看棋的時候只要稍加註意就會發現,開局時大多數的棋子都是走在這兩條線上的。實際上在古代,因為研究和棋力的不足,古代棋手大多比較注重三線。四線獲得與三線同等的地位,是依賴於吳清源和木谷實掀起的「新布局革命」。

也就是說,吳清源用一系列的下法和理論,最終將古代的「三線為主、四線為輔」,向中腹推進了一小步,變成了「三四線並重」。這是為了更加側重中腹,更好的形成全局呼應,同時也依賴於更強的計算力、大局觀和更多的變化研究。這一小步,是人類圍棋理論的一大步,可以說奠定了現代圍棋的基礎。

AlphaGo在序盤(布局與中盤的銜接階段)很注重中腹勢力和子力呼應,有極好的大局觀,甚至經常會很快的從布局進入序盤,但它的行棋方式仍然在「金角銀邊草肚皮」和「三四線理論」的範疇中。AlphaGo的創新與突破,不在這裡。

-

接下來,讓我們把目光聚焦到角部,也就是布局最開始要下的地方。我們取出一些三四線在角部交匯處附近的位置,這些位置就是我們在角部行棋的常規開始(見圖4)。

圖4. 棋盤右上角常規的1級分支點示意圖

為了便於觀看,我只取出了棋盤右上方的四分之一,圖4中的右上角就是棋盤右上角部,而圖中的左下角其實是棋盤的中央,相信大家都能看懂。當然,雖然只取了四分之一個棋盤,但實際上棋盤的全局是相互呼應的,這個角上的變化和其他邊角上的子會互相產生影響,請大家不要忘記這一點。

對於在一個空角上行棋,第一步我們可以稱之為1級分支,第二步是2級分支,以下依此類推。圖4中的A叫星位,B和C叫小目,D和E叫目外,F和G叫高目,H叫三三。這些是最常規的1級分支落子點。

我們無法用強邏輯斷定這些1級分支點之間的優劣,但是在大多數情況下,人們是下在星和小目的,而少部分情況下,也會下在目外、高目或三三。當然,到目前為止,沒有人能夠證明星和小目一定比目外、高目或三三更好,甚至都沒有人能證明,除了上述字母選點之外的一些非常規1級分支選點,一定比這些點更差。

對於1級分支選點超出這些常規選點而形成的布局,我們可以稱之為冷僻布局。對於人類圍棋史上出現過的冷僻布局,我曾在職業圍棋比賽中有哪些冷僻的開局? - 知乎做過分類介紹。這些冷僻選點形成的布局,可能會讓贏棋的可能性降低,但每個時代都有少量求道派棋手去嘗試,這些嘗試就像是圍棋進化中的基因突變,大部分會失敗,但少數的成功則有可能為圍棋進步帶來新的血液。

AlphaGo在角部的1級分支選點非常單調,幾乎全部為最常規的星或小目。在我看到的128盤棋譜中,只有一次例外,那就是和柯潔的第二局中,AlphaGo選擇了三三作為一個角部的1級分支落子點(柯潔則是在第一局中使用了)。

Master版本的AlphaGo剛問世時,曾在60盤網路對局中多次出現很早「點三三」的手法,但請注意,點三三是已經有星位為1級分支落子點的情況下,2級分支落子點選擇三三(圖5)。這和1級分支落子點選擇三三是截然不同的兩回事,實際的差距是巨大的。但在很多輿論宣傳中,顯然把這兩件事搞混了。

圖5. 取右上角為例,黑1在1級分支點下星位,而白2在2級分支點下三三,這和黑1直接1級分支就下在2位的三三截然不同

再往下,就出現AlphaGo帶來的創新突破了!順著圖5繼續往下走,局部的合理變化會下成什麼樣呢?首先,我們看看過去最常見的一個定式(圖6)。

圖6. 傳統的點三三基礎定式之一,從1級分支點一直到13級分支點結束

傳統棋理中認為,點三三形成的該定式變化,黑棋中腹的勢力過於強大,比白棋得到的角部實空更好,所以白棋不能過早的點三三,而應該在布局後期,當外圍的邊上已經有子時再下這個變化。

AlphaGo帶來的變化是,它把點三三的時機提前了,在布局早期,在邊上沒有子的時候就可以下。它這麼選擇,並不是因為它的判斷與人類不同,認為圖6中黑棋中腹的勢力沒有那麼強,而是它認為可以不讓黑棋這麼強,只要局部少下幾步就行了,也就是按圖7來下。

圖7. AlphaGo下出的變化,從1級分支點到9級分支點結束,比原定式變化少4步

將圖7和圖6比較,我們發現只不過少了白10、黑11、白12、黑13的四步棋。也就是說AlphaGo認為白棋只要不下這兩個回合的交換,而是直接脫先(脫先的意思就是局部不下了,下別的地方去),黑棋外圍就沒有這麼厚,白棋就不虧了。

當然了,AlphaGo還認為黑5選擇其他的分支變化更好,在它自對弈的棋譜中,點三三經常形成另一個常見定式。而在那個定式中,它的判斷就與過去人類的常見判斷不一樣了,人類認為一般情況下過早(邊上無子)點三三黑棋外圍太厚,應該晚些(邊上有子)再點,而它認為黑棋外圍沒有那麼厚,可以早些(邊上無子)點三三。

-

接下來,我覺得可以討論一下1級分支點為星位時,AlphaGo帶給我們啟迪的一個典型後續變化。首先,我們要順著星位的1級分支點往下看。(這一小節內容相對較難,不懂棋的朋友不需要糾結,可以直接跳到小節最後,或者只領會大意)

圖8. 在黑1以後,現有研究中認為白2可以落子的2級分支點位置

當黑1佔據星位,白2在常規情況下可以下的點是A到I等9個點(只取左上方選點,右下方的鏡面對稱點是相同的)。當然,我們並沒有百分之百的把握說其他點一定不行,實際上在外圍有子力配合的情況下,白2下在其他位置也不算特別罕見。但普通的來說,現有定式研究的內容,白2的2級分支點大致有這些。

其中,白2在A位小飛掛角最常見,也是人類和AlphaGo在絕大多數情況下會選擇的下法。注意,白2如果下在F,就是點三三。

在圖8中,我們取白2下在A位,小飛掛角,那麼3級分支下,黑3可以下那些位置呢?接下來請看圖9。

圖9. 在黑1、白2之後,現有研究中認為黑3可以落子的3級分支點位置

在圖9中,現有研究認為黑3可行的3級分支落子點大致有從A到R這麼多(個別落點不太常規,需要特殊的全局配合)。和圖8一樣,我們不能100%確定其他的選點一定不行,但這些選點是我們現在認為較好的一些。

其中,人類和AlphaGo最常用的下法都是A和B。然後,我們在圖9中取黑3下在A位,繼續往下看,AlphaGo的新思路就快來了。

圖10. 在黑1、白2、黑3之後,現有研究中認為白4可以落子的4級分支點位置

在圖10中,現有研究認為白4可行的4級分支落子點大致有從A到M這麼多(個別落點不太常規,需要特殊的全局配合)。和前面一樣,我們仍然不能確定其他選點100%不行。

接下來白棋要下第4步,如果要進角,人類通常的下法是A位二路小飛,而AlphaGo卻喜歡B位托小目。當然,並不是說人類只下A而不下B,也不是說AlphaGo只下B而不下A,A和B都是常見下法,但人類在絕大多數情況下會選擇A,而只有很少的時候會選擇B,AlphaGo則在很多的時候都選擇B。

圖10中A位的二路小飛,沒有導致立刻的棋子接觸,而B位的托小目,則立刻導致了棋子接觸。相對於人類,AlphaGo好像更喜歡較早的棋子接觸。A位後續的變化比較鬆緩(圖11),而B位後續的變化則傾向於直接在局部定型。

人類選擇B位,經常是在兩側邊上有子的時候,想儘快就地做活,才這麼下。而AlphaGo則在兩側邊上都沒子的時候,也喜歡這麼下。AlphaGo在布局中選擇的下法,不論是否是定式變化的常見研究中的下法,好像都特別偏愛棋子的接觸和儘早的定型。也許這是因為儘快定型有利於減少後續分支,也就減少了程序的計算負擔。

圖11. 白4二路小飛形成的後續變化中,最典型的定式

白4二路小飛則形成圖11,而白4托小目則形成圖12。

圖12. 白4選擇托小目後,黑5、白6是現有研究認為幾乎是唯一可以選擇的5級和6級分支

如圖12,白4托小目,黑5擋是現有研究認為唯一的5級分支,而白6幾乎是唯一的6級分支。截至6級分支,這個變化最早被人納入定式研究,據我所知出自「新布局革命」時期的吳清源之手。而AlphaGo,在實戰中顯然「酷愛」下這個變化。

接下來,對於7級分支點,研究認為黑棋大致可以有三四種選擇,但最常見的,也是人類和AlphaGo都最喜歡下的,則是圖13中的黑7打吃。

圖13. 黑7打吃之後形成的代表性定式之一

我們大多數人第一次見到AlphaGo下圖13這個定式,是在它與李世石的第二局棋中(圖14)。

圖14. 2016年人機大戰第二局,AlphaGo(黑)vs李世石(白),AlphaGo黑17、19選擇左下托小目、連扳,最終下到白28,也是角部的15級分支定式

如圖14,在人機大戰第二局中,當AlphaGo下出黑17、19的下法後,形成了圖13的定式。有些職業棋手感到很不解,認為在當前局面下,黑棋在左下選擇的定式變化太俗,而且這麼下太早,白棋外圍太厚,和全局配合較好。

事實上,直到今天,很多分析仍然認為此時白棋局面稍好。但當時的AlphaGo還是18.0的版本,比後來的Master版差了不少。

那麼Master版的AlphaGo,是怎麼處理這個變化的呢?讓我們看柯潔和AlphaGo的第二局(圖15)。

圖15. 2017年人機對弈第二局,AlphaGo(黑)vs柯潔(白),AlphaGo黑11、13選擇托小目、連扳,之後下出了黑25的新手

如圖15,注意在右上角,截止到白22,都是人類研究中常見的下法,黑棋正常是在A位跟著下的。接下來黑23和白24的交換,也是常見的試探應手的下法,可AlphaGo緊接著沒有下A位,而是更進一步下在了黑25跳!

黑25是局部的18級分支,我不知道在人類對局中,有沒有人在18級分支時選擇這個點,但至少在已有的研究中,應該還沒有明確的注意到,因為很多職業棋手當時立刻表明這是新手。

黑25這一步18級分支點,比常規的A好了一點點,在於幾步棋後的一個變化中,黑25的位置比A更好,具體變化我不再展開。但這好的一點點,卻是一個巨大的進步。

看到黑25時,所有的職業棋手和棋力較高的業餘棋手幾乎都立刻反應過來了:這是好棋!因為大家都看到了後續變化中黑25位置的好處。這一步18級分支點的新手,成為了這個變化的精華(某職業九段語)。

這個局部雙方實戰形成的下法(圖16),就是哈撒比斯在推特中宣稱,AlphaGo認為雙方的最佳變化。

圖16. AlphaGo與柯潔第二局實戰中右上形成的棋型,也是AlphaGo認為的最佳下法

黑29之後,柯潔選擇白30脫先,下在下邊這個超大飛的點,AlphaGo後台也認為白棋應該從右上角脫先,並且下在白30。

右上這個局部,就是AlphaGo認為的局部最佳變化,自然也就形成了一個暫時的新定式。這個變化比過去的舊定式多了幾個回合,而且主要是黑25的18級分支點,是其中的重點。因為有多出的這幾個回合,所以AlphaGo在局部早期選擇黑11托小目的4級分支點,合理性大為增強。

我們當然不能肯定這個變化就亘古不變了,但至少在當下,AlphaGo給我們提供出了合理的後續下法,為我們判斷早期分支點增加了砝碼。

好了,AlphaGo在這個定式變化中教給我們的東西我大致說完了,的確有些複雜,不懂棋的朋友可以略去技術內容。我們對比這個變化,還有前一小節說的點三三的2級分支變化,我們發現AlphaGo帶給我們的究竟是什麼呢?

AlphaGo給我們過去所研究出的定式變化以及具體變化的適用場合,進行了一些調整,點三三的定式少下幾步,就可以更早的使用了;托小目的定式多下幾步,也可以更早的使用了。

因為對具體的下法進行了調整,增加或者減少,或者發現了後續分支中的更好下法,所以對早期分支適用於什麼全盤場景,有了不同的判斷。

這就是AlphaGo帶給我們的新思路之一。

-

人類對於圍棋開局的研究,不論是全局布局還是局部變化,主要內容都是從以星和小目作為1級分支點的角部開始的(圖4中的A、B、C)。上一小節講了AlphaGo在星定式中的表現,其實也是截至現在,它最喜歡的一個星定式,那麼這一小節我們來看看它在小目定式中的表現。

大家首先需要知道的是,一手棋是無法完全控制一個空角的。所以在一個空角落下第一個子後,以後有機會需要補一手,才能基本控制這個角部,這叫守角;而對方為了防止你守角,可以來掛角。

對於小目的1分支點,在人類的研究中,常規的守角點有四處(圖17)。而對方來掛角的常規位置,也是這四處。

圖17. 黑1佔據小目作為1級分支點,A、B、C、D之一是未來雙方爭取落子的常規點

如果白棋下在A、B、C、D之一掛角,那麼是2級分支點;如果白棋不在這個角上下,而是黑棋下第二步,那麼其實是3級分支點(白棋第二步下在了別處算是隱藏的2級分支點,這聽起來似乎很奇怪,但在定式研究中確實是這樣判別的)。

在圍棋術語中,黑1有子後黑棋第二步下在A,佔據「日」字的斜對角,叫做「小飛」;如果第二步下C,佔據「目」字的斜對角,叫做「大飛」;第二步下B,中間相隔一個交叉點,叫「小跳」;第二步下D,中間相隔兩個交叉點,叫「大跳」

所以黑棋如果接下來下在A、B、C、D守角,我們可以稱之為「小飛守角」、「小跳守角」、「大飛守角」、「大跳守角」。當然,我這麼說是為了便於不懂棋的朋友們接受,其實更流行的俗稱,是把「小飛守角」稱為「無憂角」(因為以前很多人認為這種守法最好),把「小跳守角」稱為「單關角」。

如果黑棋沒有守角,而是白棋搶到了掛角,那麼白在A、B、C、D掛角,我們稱之為「小飛掛角」(一間低掛)、「一間高掛」、「大飛掛角」(二間低掛)、「二間高掛」

總之,對於1級分支點的小目來說,這四個點是接下來最重要的下級分支點。我們得出這些點更多的是依賴於經驗,而用於解釋其存在的邏輯是弱邏輯。小目定式的後續變化,如果不考慮與全局套路的配合而只看局部,基本以A、B、C、D四個點為2級分支點向後展開。

雖然我們沒有辦法確定局部A、B、C、D之間的好壞,但在實戰中,人類佔據這四個點守角的頻次大概是A&>BC&>D;佔據對方的這四個點掛角的頻次大概是AB&>C&>D。

至於AlphaGo,它在此處的判斷和選擇十分驚人。AlphaGo佔據四個點守角的頻次是C&>D&>B&>A;佔據對方這四個點掛角的頻次是AB相當,CD基本沒有。

當然,當這個局部的小目被組合進入全局性的成體系布局後,有些時候會出現,先佔角的一方會暫時放著不守角,而另一方掛角也不好的特殊情況(中國流體系),那種時候人們也會採取A、B、C、D之外的其他選點進攻角部,而AlphaGo在那種情況下有驚人的新手。

AlphaGo對於守角位置的判斷,最初讓我們驚訝是在2016年人機大戰第5局中(圖18)。

圖18. 2016年人機大戰第5局,李世石(黑)vs AlphaGo(白),黑棋選擇錯小目無憂角的布局,黑5在右上小飛守角,局部形成無憂角

在圖18中黑棋的布局,黑1、3形成錯小目布局,意思是錯開了方向的小目,該布局是圍棋史上最早被系統研究的全局性布局,出自19世紀的日本本因坊秀策之手,所以也被稱為「秀策流」。

在黑先要貼5.5目的小貼目時代,這個布局極為流行,在黑棋不需要貼目的時代甚至更為流行,因為這種開局佔據實空很快,而圍棋正是一個比圍空(空為四聲,名詞,可以理解為空著的地盤)的遊戲。黑5的無憂角,雖然不能說一定優於其他守角,但在此布局中,黑5下這裡最多。

進入大貼目時代後,有一段時間,因為研究中暫時找到了白棋壓制黑棋布局的方法,所以一度有觀點認為該布局過於緩慢,不適合有大貼目負擔的黑棋了。那段時間,有很多人為了反制白棋的壓制手段,會選擇將黑5下在圖18中的A位,形成大飛守角,但始終沒有人能說A的大飛守角一定比小飛守無憂角要好。

可是在圖18的這一局中,據AlphaGo後台顯示,當李世石落下黑5後,AlphaGo認為黑棋的勝率降低了!也就是說,AlphaGo認為在當前局面下,黑5守無憂角不好!雖然那是18.0的舊版AlphaGo,但在Master的版本中,AlphaGo可能還是這麼認為的,因為當AlphaGo以黑1、3的錯小目布局開局時,它絕大多數時候都會下在圖18中的A位大飛守角,少數時候會下在B位的大跳守角。(除了該布局外,對於常規的小目守角,AlphaGo也是這樣的)

AlphaGo認為小飛守角不好?應該寬一路守?人類幾百年都不敢做出的判斷,只能憑個人喜好選擇,而AlphaGo替我們做出了判斷。當然這種判斷是否100%正確,現在我們可以持保留意見,因為還沒有看到它後續變化的邏輯,但勝率的變化可以作為我們的重要參考。(這判斷基於18.0版本,Master版本重新出現了小飛守角)

需要多提一句的是,吳清源就不喜歡下小飛守角,而在絕大多數時候會下在大飛守角。小飛守角紮實、穩健,大飛守角圍的更大,卻較為鬆散薄弱,兩者各有利弊。吳清源在黑棋不貼目的時代經常下白棋,其實也就是經常要讓別人先,所以執白時棋風非常激進,如此形成的選擇習慣中,就包括喜歡大飛守角。

這和AlphaGo喜歡大飛守角,似乎是一個巧合,因為其他酷愛大飛守角的棋手,也是有的。但吳清源這種選擇的邏輯,可以幫助我們來解讀AlphaGo的判斷。

-

小目的四種守角,一般不被稱為定式,但一樣是常識性的下法。而對於小目的四種掛角,則是小目定式的2級分支,也是整個小目體系的開始。

圖19. AlphaGo在小目小飛掛時,最喜歡下的3級分支點就是黑3側面小飛

在圖19中,當黑1在1級分支點佔據小目,白2在2級分支點小飛掛角之後,人類現有研究中,常規的3級分支點,有A到L再加上黑3這13種左右。但是經過了長時間訓練的AlphaGo,好像就喜歡下黑3側小飛這麼一種......當然,偶爾,只是偶爾,它也下過K位的尖頂,但頻次相對少一些。

圖20. 2017人機對弈第二局,AlphaGo(黑)vs柯潔(白),AlphaGo第7步在右下選擇側小飛定式

圖20中,AlphaGo在右下選擇的定式是它最喜歡下的小目小飛掛定式(沒有之一),而在右上選擇的定式就是我們前面提過的,它最喜歡下的星定式(仍然沒有之一)。接下來我們還將看到,對於小目一間高掛(圖21),它最喜歡下的定式(還是沒有之一)。

圖21. 白2在2級分支點選擇一間高掛時,黑3在3級分支點選擇下托

對於白2一間高掛,已有研究中黑棋在3級分支時可選擇的著點有從A到P,外加黑3,這總共17處,可AlphaGo幾乎在所有情況下都會選擇黑3下托......

從星定式到小目兩種掛角的定式選擇,它似乎都在說:弱水三千,我只取一瓢。你們研究了30萬定式變化,我就下這麼3個。當然,我只擺到了3級分支點,但後續的幾個分支點,AlphaGo的選擇也基本都是一本道(一條路)(圖22)。

AlphaGo就像一個三斧子的程咬金,角部起手就這麼幾招,但你千萬別以為別的它都不會。在自對弈中,它一般只下這麼幾個變化,但當它和人類棋手對局時,面對人類棋手花樣繁多的各路變化,它應對自如,甚至它自己後台都能推算出後續變化中,它認為的雙方最佳變化(圍棋中叫兩分變化、也即勢均力敵)。

圖22. 圖21的後續變化

在圖22中,黑3下托之後,白4在4級分支點上大致有3、4種左右的選擇,如果AlphaGo自己下,它只下白4扳。當然,這一步白4也是人類棋手最常見的下法。然後黑5在5級分支點選擇退,保證黑1、3之間的聯絡。

這時候,來到了一個關鍵節點:白2、4沒有連在一起,出現了一個斷點A,如果白棋不下,則黑棋下一步在A位將白2、4斷開,白棋兩邊被攻,局部不好。所以白6的6級分支點,基本圍繞著如何補A位這個斷點做文章。

在人類理論中,雖然有多種補斷手法,但大家認為可行的只有A位粘上和B位虎(將A位圍成虎口狀,你下進來就被我吃掉,故而這一步叫虎)。可是到底選擇哪一個呢?

圖23. 白6在6級分支點選擇虎,而後形成的典型傳統定式

圖24. 白6在6級分支點選擇粘,而後形成的典型傳統定式

在常規的變化研究中,圖23是虎的後續,下到白8拆邊為止;圖24是粘的後續,也是下到白8拆邊為止。當然,兩圖中的黑7和白8都可以有一些別的選擇,但含義大致不變。圖23中,黑7和白8都可以脫先,而圖24中,黑7不能脫先,否則白棋後續手段嚴厲。

要補斷,到底選虎還是粘,固然要看全局配合,但大多數時候當棋局較為空曠時,以我們的能力是看不出兩種下法對於全局影響的不同的。記得最早版本的定式大全中,說白6虎比粘稍好,也就是圖23的白棋比圖24中稍好,因為虎棋型更好,子效更高,眼位豐富,還能拆的更遠一路。但是,解說又說兩個都可以下。

問題來了,既然圍棋要追求每一手棋的最佳,而虎比粘稍好,那麼你為什麼說兩個都能下呢?如果兩個確實都是最佳,那你憑什麼說虎比粘好呢?這個問題困擾了我接近20年。

那麼AlphaGo是怎麼處理這個問題的呢?其實AlphaGo在不同版本的進化過程中,對待虎和粘的態度發生了激烈的變化。18.0的版本它幾乎全下虎, 可Master的版本它又幾乎全下粘了。

圖25. 2016年人機大戰第二局,AlphaGo(黑)vs李世石(白),黑11在右下定式中的6級分支點選擇用虎的手法來補斷,然後黑15刺和白16交換之後脫先

我們第一次見到AlphaGo對此定式的態度,仍然是在2016 人機大戰的第二局(圖25)。AlphaGo在右下黑11虎,然後黑15刺之後脫先,這當時讓人類大為震驚。

就局部定式變化而論,過去認為黑11虎、白12拆之後是可以脫先的(雖然在這個開局下一般不會脫先,而會在下邊拆邊),但黑15和白16的交換則是需要保留的後續手段。

圖26. 黑7在7級分支點拆一以後,白棋留下的將來的手段有A、B、C、D、E

如圖26,在常規研究中,從A到E,都是白棋將來可能有的手段,但人類棋手一般不會立刻就下,而是會脫先下別的地方,在此處對各種可能性進行保留。

「保留」,是人類圍棋的重要理念,其邏輯是,如果局部的下一級分支點,有兩種看起來都不錯的選擇(不能是必須立刻下的強邏輯棋,而必須是可以暫時不下的弱邏輯棋),而兩種選擇會導致完全不同的全局配合,我們因為計算能力的不足,暫時又不能確定將來的局面會發展成什麼樣,那我們選擇保留,給未來的棋局留下更多可能性,避免自己過早的選擇將來成為錯誤。

可是AlphaGo很多時候完全不喜歡保留,因為保留過多變化會給它後續行棋帶來很大的計算負擔,所以AlphaGo的行棋風格一直傾向於盡快定型、少留變化。在圖26中也是一樣,它直接在選擇B,別的選擇就不再看了。

最早的時候大家很驚訝,認為難道它認為B最好嗎?其他幾個下法就不行?現在局面很早,程序的計算能力得到這種結果,一定是對的嗎?

當時,我對此曾有一個猜想。根據Deepmind的論文,AlphaGo的模型,會在有多個選點勝率相同時,隨機選擇一個。所以我想,會不會在AlphaGo的訓練中存在某一盤棋,它面臨這些選點,然後認為勝率一樣,它不喜歡保留變化,決定立刻下掉,所以隨機選擇了B。此後,B的勝率就高過了其他選點,所以它以後就只下B了,當然也就不需要保留了。

一年過去,看了AlphaGo這麼多盤棋譜,看到了它單調的布局和定式選擇,我越來越相信我的這個猜想接近事實。說白了,AlphaGo的模型建立,就是以贏棋為目的,「只要我有一條路能贏棋,我不在乎還有沒有其他的路」。所以AlphaGo經過長期的自對弈訓練,布局和定式選擇都很簡單,變化不多,然後快速推進序盤,之後序盤與中盤的強大實力才是關鍵。

AlphaGo沒有下的棋,我們不能確定一定不好,人類棋手對它使出各種它不常下的變化時,它經常也沒有判定勝率下降。而且我們通過對正解路徑數量級的判斷,也能用數學的方式證明開局一定步數內的正解路徑,遠遠不可能只是AlphaGo喜歡下的那些那麼少。這再次證明了,AlphaGo僅僅是用自己在訓練中找到的最順手的路去贏棋,而不會在意更多正解可能性。

在圖26中,AlphaGo就認為有一步棋不好,那就是黑7。老版的AlphaGo認為黑7應該脫先,局部下到白6就是最佳。正是黑7沒有脫先,所以導致被白棋搶到了先手,黑棋勝率下降。這和過去的研究結論有何不同呢?過去人類認為黑7可以脫先,可老版AlphaGo認為黑7必須脫先,這就是區別所在。

然而,這只是老版的AlphaGo,在Master的版本中,AlphaGo所認為的最佳變化不同了......

圖27. Master版本的AlphaGo,在小目一間高掛後下的最多(接近全部)的定式

回顧圖23和圖24,AlphaGo最早在6級分支點認為虎好,並且認為人類的老定式應該少下兩步(雖然人類也認為可以少下兩步,但AlphaGo認為暫時必須少下兩步,最後兩步棋沒有先手價值更高)。

可到了Master,它在6級分支點清一色選擇粘(圖27)......並且,和人類理論一致,它認為白6粘的時候,黑7在7級分支點不能脫先,所以它100%的選擇把這手棋下掉。(道理不複雜,白6粘的時候如果黑7脫先,白棋下一步A位靠下嚴厲,而如果白6處在B位虎的位置上,那麼A位靠下就不嚴厲了)

從18.0到Master,AlphaGo對待虎和粘的態度出現了180度的大轉彎,如果它繼續進化下去,會不會再轉回來呢?我覺得真不好說。AlphaGo就像一個喜歡糖果而不加自制的孩子,今天喜歡吃草莓糖,就全吃草莓糖;明天要是覺得巧克力更好吃,它就一定會全吃巧克力。

但我們從AlphaGo處理這個定式的方式中可以學到什麼呢?

AlphaGo的行棋方式,顯示出對於先手的價值判斷極高,雖然人們都知道先手價值高,但AlphaGo對先手的判斷還是要更高一線,所以動不動就比人類更早脫先。因為更加註重子力的全局配合,所以傳統布局理論中的局部拆邊,在AlphaGo的眼中分量較低,它經常會暫時不拆邊,或用更高效的手法代替局部拆邊。

不管是自己孤棋需要拆邊圍眼位,還是要搶雙方陣營中的邊空,它都很少拆邊,而用一些更加激進的手法加以代替。而後一種情況下,涉及到它快速推進序盤的手法,我們將在最後一小節討論。

-

AlphaGo在星定式和小目定式中的表現說完,我們可以看看它對於布局套路的態度了。

AlphaGo在左右互搏的訓練中,形成的布局也是相當單調的。在公開的128盤棋譜中,除了和柯潔的第二局,AlphaGo模仿了柯潔第一局的小目配三三的開局(這種開局還沒有經過深入研究並成為大規模的全局套路),在幾乎全部的其他時候,AlphaGo只會選用幾種人類最流行的布局。

人類現有布局研究,常規布局是根據角部5種常規1級分支點的不同,進行全局組合後進行分類的(超出這個範圍為冷僻布局職業圍棋比賽中有哪些冷僻的開局? - 知乎)。

而在常規布局中,現在已經經過全局性深入研究的套路主要有6種(最常見的),基本框架全部是以星小目加一定位置的拆邊組合而成的。分為錯小目類、中國流類、迷你中國流類、星配守角類、小林流類、二三連星類。

AlphaGo的對局,執黑大部分時候都會用中國流和迷你中國流(圖19),有時候會使用錯小目、二三連星和星配守角(重新統計所有棋譜後我發現,這幾種布局的出現頻次其實比中國流類也沒有低多少,大致比較均勻),偶爾也有小林流,但其他的基本就沒有了。當然中國流體系的合理性很強,半個世紀以來一直也是棋壇主流研究的共識。AlphaGo訓練的結果,也對此表示了支持。

圖28. 已公開的AlphaGo自對弈第50局,黑1、3、5、7形成迷你中國流的一種變體

在圖28中,黑7沒有守角而是直接拆邊(占邊),就是中國流布局的精髓。意思是如果你來掛角,就陷入了我已經擺好的兩面夾擊,你會十分被動;如果你不來掛角,那麼我的布局速度就變快了(常規布局順序是先守角再拆邊)。

迷你中國流,最初是中國流的一種變體,黑7下在A位是最常見的迷你中國流。而將黑7從A位右移一路,最早被系統研究並使用,據說是中國棋手劉星七段(被譽為求道派)。所以該布局一度也被稱為「劉星流」

為了幫助白棋對付黑棋的中國流類結構,人們進行了大量的研究,找到了大量掛角之外的方式。這其中被研究過的變化和不同的實戰是海量的。但是,這種海量顯然不能和AlphaGo的高水平自對弈的數量相比。AlphaGo在這個體系中真正的貢獻,就是在大量自對弈之後,找到了對付中國流結構的新的手段。而這新的手段,就涉及到AlphaGo在序盤常用的大局型處理手法了。

-

我們前面已經說到,AlphaGo對於布局和定式的選擇非常簡單,喜歡快速簡明的定型,不喜歡太過複雜的變化。

在布局的基本框架立下來之後,AlphaGo喜歡用一些手法快速進入序盤乃至中盤,然後在中盤中發揮強大的大局觀控制全場,獲得優勢後穩健的將優勢保持到最後。

所以,AlphaGo的序盤和中盤其實有很多值得我們學習的地方。但這些內容,越往後講越複雜,觀眾也越不容易看懂,我也越容易講錯。所以,我在此處只試圖講一些AlphaGo在序盤中帶給我們的新思路中,最簡單最容易判別,也最容易理解的東西。

最後有關序盤的這一部分內容,我會著重講AlphaGo在序盤中對兩種手法的使用:肩沖和靠。而為了讓不懂棋的朋友看懂,我仍然從最初級的內容說起。

圖29. 圍棋中最開始接近對方棋子的常規距離舉例

在人類總結的虛路棋理中,認為「一子勿靠」,也就是說你要接近對方的一個棋子,那最好不要直接靠到對方身上去,而是先保持一點距離。

比如圖29中白2掛角,就是對黑1的接近,白2沒有直接下在A,靠到黑1的身上,而是和黑1保持了一路的距離。白4在三線拆邊之後,黑5也從三線逼住(攔住)白棋,也是一樣的道理,黑5接近白4,沒有直接下在B位,貼到白4身上去,而是也先保持了一路的距離。

棋理上的解釋是,圍棋是回合制的,如果直接貼身肉搏,對方掌握先手,瞬間就變成了二打一,於是和對方距離越近就越危險。所以應該先保持距離的接近,然後下一步再貼身肉搏。這就好比兩人搏鬥,正常情況下都是先擺出架勢,保持一臂到一臂半左右的距離,然後再找機會出拳出腿或擒拿撲倒。

當然,任何棋理都是有適用條件的,在特殊的周圍子力配合下,直接靠到別人身上去也不是不行。就像你趁人不備,直接從人後面把人撲倒也是有可能的。話說的很糙,而且不夠準確,圍棋中實戰情況千變萬化,有些情況下可能很複雜,但大致是這個意思。

肩沖和靠,其實是在特定的局部棋型下的下法名稱,招數本身不特別,關鍵是看你使用的場合與時機,以及和全局子力的配合。說白了,人還是這個人,但如果你能在關鍵的時間,出現在關鍵的地點,並和其他人保持較好的人際關係,那你就高明了。

-

我想先講肩沖,後面再講靠。我們先看一個AlphaGo使用肩沖的常規例子。

圖30. 2016年人機大戰第4局,AlphaGo(黑)vs李世石(白),AlphaGo聲東擊西的肩沖

見圖30,這就是李世石用「神之一手」戰勝AlphaGoV18.0的那一盤,雖然AlphaGo最後輸了,但它的前半盤其實下的非常好。而此時的局面,就是AlphaGo在前半盤的一次「肩沖」。

白46,上邊孤棋向中腹逃跑,此時黑棋如果要在只看右邊局部,下在B位,從三線逼近白A子,好像是個不錯的下法,但這只是局部。如果從三線上的另一邊,在C位打入,將白A子和下方白棋割開,以攻為守,也是局部不錯的下法。

但這時候,如果通看全局,高手會認為應該在白A子的上方(圍棋以靠近中央為上,以靠近四周為下,所以從圖中看是白A子的左側)行棋,一邊壓迫白A子,一邊遠遠的瞄著白46一帶中間的孤棋。這在圍棋中叫「靠壓戰術」,也就是聲東擊西的意思。只不過,圍棋是完全信息博弈,這聲東擊西是光明正大的聲東擊西,讓你左右無法兼顧。

通過戰略目標,我們在方向上確定了,然後具體下在什麼位置,就是戰術上的手法問題了。下在D叫肩沖(像是從白A的肩膀上衝擊白A一樣),E叫上靠,F叫吊,G叫鎮。具體手法各有利弊,適用於不同場合,但此時D位肩沖最好。

AlphaGo,也是這麼下的。

圖31. 2016年人機大戰第4局,AlphaGo(黑)vs李世石(白),AlphaGo肩沖後的實戰

實戰中,AlphaGo壓迫右邊白棋,在中間形成厚勢,意圖吃掉上方白棋。實際上後來它也確實吃掉了,從而確立了勝勢,所以它的肩沖很成功。只不過李世石在中間發現了妙手,而AlphaGo算漏了後續變化中反制妙手的更妙手,從而崩盤,被李世石逆轉。

肩沖只是圍棋中的一種手法,和其他具體手法一樣,人人都會下,關鍵是看如何使用。AlphaGo特別喜歡肩沖,下的非常多,而且用的非常好。

但上面這個例子,之所以說是常規例子,是因為以人類的眼光看也應該這麼下,這不算是AlphaGo的創新。實際上在當時的實戰直播時,很多解說的職業棋手都預計到了AlphaGo會肩沖,並給出了後續圖31的變化。當時甚至連我都猜到了AlphaGo黑47的肩沖。

那我為什麼還要特意說AlphaGo的肩沖呢?AlphaGo在什麼場合下對肩沖的使用給我們帶來了啟發呢?

圖32. 2017年元旦期間,AlphaGo Master(白)在弈城平台上與中國職業棋手(黑)的對局

按照常規的布局理論,布局時搶佔大場先後順序是:占空角&>守角和掛角&>拆邊,而在這三步之後,根據雙方形成的格局,或者向中腹擴張,或者在局部形成戰鬥,或者打入對方的陣營,或者淺消對方的陣營。而其中向中腹擴張和淺消對方陣營,都可能用到肩沖的手法。

看圖32,雙方黑1、白2、黑3、白4,屬於佔大場第一步的占空角;然後黑5、白6、黑7、白8,屬於佔大場第二步的守角(我前面說AlphaGo喜歡大飛守角而極少小飛守角,但這盤棋卻是例外之一,AlphaGo用了倆小飛守角......呃......)。

下到這裡,似乎AlphaGo和人類棋手的表現都很常規,四個空角都佔了,然後又把四個角都守了,接下來該佔大場第三步,佔據四條邊了吧?於是執黑的人類棋手黑9拆邊,同時將上方一帶連成大片。

接下來,按照當下格局的具體配置,從虛路棋理的大場大小方向來說,一般認為白棋應該在左邊行棋。如果是常規的拆邊,A、B、C、D是常見的落子點,A、B比較穩健,C、D離己方陣營遠一路,離對方陣營近一路,所以相對激進。

實戰中,AlphaGo確實是在左邊行棋了,但它比C、D更激進,白10選擇了直接肩沖黑棋左上的小飛守角!

如果白棋先佔據左邊,接下來再在10位肩沖,一邊擴張自己一邊壓縮對方,也是好點,可是AlphaGo省去了拆邊,直接進入了下一階段,將布局提速。

圖33. 圖32對局的實戰後續,AlphaGo兩次省去拆邊,連續肩沖黑棋左上和右上的小飛守角

白10肩沖後白12向中腹跳,局部常見下法,不多解釋。然後黑13搶佔下邊,在白棋兩個角中間的邊上下棋叫分投,白14三線逼住(注意,是隔一路的距離)。然後,按照棋理方向AlphaGo應該在右邊行棋,可它的具體手法是再次省去拆邊,白16直接肩沖右上黑棋的小飛守角!

這盤棋開局AlphaGo的兩個肩沖,當時引起了廣泛的注意,並且立刻就開始被人類棋手大量的模仿和研究。

說句實話,肩沖小飛守角本身是人類研究充分的下法,不算創新,甚至省去拆邊直接肩沖小飛守角,也不是AlphaGo第一個下出來的。但是,過去人類棋手對待這種下法的看法,基本是作為「趣向」(意思是有趣的嘗試),認為可能是未來發展的方向,但僅僅是可能,因為沒有人真的能提出充分的道理,說省去拆邊一定就更好。

很多棋手偶爾也會嘗試這些下法,但大多數時候還是按常規思路先拆邊。少數棋手特別喜歡這種下法,但他們的實戰效果並沒有這麼好,所以也沒有形成足夠的說服力。吳清源在晚年時,多次著重提倡這種下法,認為這是「21世紀圍棋」的方向,也並不是得不到大家的任可,甚至很多人都進行了大量實戰嘗試,只是並沒有如AlphaGo這樣引起大家這麼強烈的重視。

這當然不是因為什麼傳統棋理是什麼權威我們不能推翻,要知道人類對圍棋棋理的研究一直在進化變動中。這是因為,圍棋是靠實戰結果說話的,實戰是檢驗一切棋理的唯一標準。沒有得到大量實戰效果的支持並在研究中得到確認,那就不會得到廣泛的認同。

現在,AlphaGo在實戰中不是偶爾,而是大量使用了這種下法,而且它的實戰後續證明了這種下法效果不錯,這就形成了實戰支持。AlphaGo在實戰譜中、在後台計算中,給出了後續下法並判斷了勝率,這就是相當於初步的研究確認。所以,大家開始重視起了這種思路。

圖34. 吳清源提出的「21世紀圍棋理論」中,推薦白棋在布局之初直接肩沖小飛守角的例子

吳清源在生命的最後10幾年裡,提出了一系列對傳統布局理論的改進,包括推薦在布局早期大量肩沖對方的小飛守角。圖34就是一例,黑1、3、5星配無憂角的布局,白6直接肩沖。對於星位小飛守角,也是一樣。

事實上,吳清源在年輕時的巔峰時期,實戰中就特別喜歡肩沖的手法,所以AlphaGoV18.0與李世石對局時,引起過一些人的驚訝:這個AI對肩沖的頻繁使用怎麼和吳清源這麼像?

吳清源晚年提出的這些理念,有些內容不過是比他年輕時的下法和認識更進了一步。只不過耄耋白髮,垂垂老矣,他已無力用實戰去驗證這些想法並證明自己。

AlphaGo從V18.0到Master,類似的下法越來越多,越來越明確。很多人感嘆到,吳清源生前說自己「一百歲後要到宇宙中下棋」,他似乎真的去了。

的確,就算吳清源復生,就算吳清源回到巔峰時期,甚至就算讓巔峰時期的吳清源生長在我們這個時代,他也不可能比AlphaGo表現出的棋力更強,但他確實可能是解讀AlphaGo的最佳人選。

惜乎哉,君老我未生,我生君已故。

-

說完了肩沖,最後我們需要說說AlphaGo在布局與序盤中的靠的手法。

看完全面的內容,想必你已經知道,下圍棋要每步棋搶最大,所以布局要盡量按照從大到小的順序下。按照普通的大場大小,常規的布局順序是占空角&>守角和掛角&>拆邊。

但是實際上,一盤棋是很複雜的,布局很多時候不是簡單的把所有局部大場加和起來,有時候會在局部出現不能脫身的戰鬥,有時候必須讓各個局部的子力形成更高效率的配合。

因此,人類開發出的全局性布局套路中,有很多是不符合常規布局順序的。中國流布局,就是其中的代表。

圖35. 最基本的(低)中國流,黑5沒有在A、B、C、D等位守角,而是直接拆邊

前面我們說過,中國流的精髓就是小目先不守角,而是直接拆邊,省略了布局順序中的第二步,直接從第一步跳到第三步。

這種將布局提速的手段,是不是和AlphaGo的省略拆邊直接肩沖很像?只不過一個是跳過了布局第二步,一個是跳過了布局第三步。

因為首先深入研究該布局體系並用於實戰的,是中國棋手(集體),所以該布局被日本棋手譽為「中國流」,而後該布局風靡棋壇半世紀直到今天。AlphaGo的對局中,使用最多的也是該體系。畢竟是全局性子效配合上佳,可以讓布局提速的布局,AlphaGo當然不會錯過的。

中國流體系用起來舒心,對付起來煩心,所以幾十年來棋壇一直也在研究破法。AlphaGo不僅喜歡下中國流,它還找到一個對付中國流的「先進武器」。

圖36. 2016年公布的AlphaGoV18.0自對弈第3局,白20靠星位,單刀殺入中國流結構核心

中國流之所以不守角直接拆邊,就是不怕你來掛角,你來了正好被我夾擊,我藉助攻擊取得布局主動權。人們最早發現,常規掛角中,三線上的A位小飛掛和B位大飛掛,都不好。四線上的C位一間高掛和D位二間高掛,稍微好一點,畢竟位置高一線,容易向中腹逃跑。再後來,大家甚至覺得不要從小目的正面掛入,從側面的E、F、G、H位接近也行,還把這種下法命名為側掛。有時候也可以不掛角,那乾脆從五線的I、J位吊,淺消一下了事。再有,還可以從K位內靠三三,以試應手的方式留下活角。

人們絞盡腦汁,自以為已經想盡了辦法去找路子破壞中國流的核心結構,可AlphaGo還是在大量的自對弈訓練中找到了新的下法,那就是圖36中的白20,直接靠星位!

這一步白20的靠三三,不是沒有人類下過,但以前的研究沒有深入的研究過,而是簡單的略過了這個分支點。剛看到AlphaGo這步棋的時候,棋壇一片震驚。

雖然也有愛好者找出了職業對局中同樣下法的棋譜,但經我查驗,那是在對角有徵子時的引征。引征屬於強邏輯的棋,而我們在此處討論的只是局部的弱邏輯的虛路棋,所以局部棋型一樣,但實質上截然不同。(我不知道有沒有不是引征的先例,但我肯定人類不曾對此進行深入研究)

AlphaGo不僅在常規的低中國流中選擇靠星位,在低中國流的變體中也靠星位,在迷你中國流中還是靠星位,在迷你中國流的變體中仍然靠星位。真是只喜歡一種糖果的直脾氣孩子。

而人們在觀察了AlphaGo的後續下法並進行了深入研究後發現,這一招真的很有效,確實是「先進武器」。

圖37. 2017年公布的AlphaGo Master自對弈第1局,白10以靠星位對抗黑棋迷你中國流

圖37便是前幾日公布的50局AlphaGo自對弈中的第1局,黑棋3、5、7構成迷你中國流,然後白10靠在星位。這盤棋中,AlphaGo不僅展示了用靠來接近中國流結構的小目,接下來還展示了用上靠來壓迫拆邊。

圖38. 圖37對局的後續,繼白10靠之後,白12上靠(在上面靠)壓迫黑7的拆邊

白10一靠,交換一招後白12繼續靠!在人類常見的下法里,角部定型後壓迫黑7的拆邊,常用A位的鎮和B位的肩沖,而很少有人下白12的上靠。白12這種上靠的手法最常用於騰挪(以弱打強時的一種手法),而適於壓迫的場合(圖39)通常與圖38中的局面有所不同。

圖39. 人類常見對局(錯小目秀策流形成的開局)中,以上靠壓迫三線拆邊的手法舉例

見圖39,黑15上靠壓迫白14的三線拆邊,這是過去的常見手法,但不同之處在哪裡呢?請大家仔細觀察圖38,其中三線上,黑7和左邊黑5間隔四路,黑7和右邊的黑3也是間隔四路,再觀察圖39,其中三線上,白14和上面的白12間隔兩路,白14和下面的白8間隔三路。

看出區別了嗎?同樣是三線的拆邊,圖39中的白14距離自己兩側的友軍,比圖38中黑7距離自己兩側友軍更近!而用上靠壓迫對方密集排布的陣營,我方的風險比較小。因為上靠本身容易把對方撞厚,如果對方的陣營排布密集,那麼厚上加厚,只會讓對方的棋子更加擁擠,效率變低;如果對方的陣營排布鬆散,本來可以直接打入進去將對方打散的,現在你讓人家變厚,就可能是幫對方補棋了。

當然,道理是這麼說,但到底對方的三線棋子,隔著多寬,上靠壓迫才合適,這個就難說了。AlphaGo告訴我們,像圖38中這麼寬,是可以直接壓迫上去的!並且效果不錯:

圖40. 圖37和圖38中的AlphaGo自對弈棋局後續實戰

回頭看AlphaGo的實戰,白10和白12相繼靠之後,白14和白16相繼連扳,使出常見的騰挪手法,然後脫先搶到白18的拆邊。看到這裡,大家都覺得,黑棋右下角兩個彎三角明顯速度緩慢,白棋布局不錯。

布局架勢剛擺下來,AlphaGo就開始一通亂靠的定型了,根本不想留變化,然後你還沒反應過來,它布局就領先了。這盤棋中白棋的這一串手法確實給我們上了一課。

前面說了,人類也會用上靠去壓迫對方拆邊,但通常是對方陣營緊密的時候。在越空曠的時候使用這種手法,風險也就越高。所以不是沒有人用,但用了也是冒險,你算不清楚那麼多的後續變化,也就不敢輕易下判斷。可AlphaGo能,所以在AlphaGo的自對弈中,這種在很空曠的情況下上靠壓迫對方三線拆邊棋子的手法,出現的很多。

人類判斷出類似下法有多難呢?我給大家看一個人類找到類似下法的例子,仍然來自吳清源。

圖41. 吳清源講解實戰中以四線的上靠壓迫對手三線拆邊的例子

圖41是吳清源的一盤實戰,他在自己的著作《吳清源圍棋全集》之《中盤戰術死活和收官》中講解了這盤棋中的黑33上靠,說白32壓迫黑棋右邊時,黑棋正面迎戰不好,黑33反過去以上靠壓迫對方的三線拆邊,是此時的最佳下法。注意,黑33靠住的這個白子,距離左右友軍的間隔也是很寬的。

吳清源進行了大量計算,在講解中給出了12個(他算過的更多)代表性的後續變化圖,最複雜的變化圖後續變化有30步左右(局部來說這種深度的計算已經足夠),來論證黑33是最佳的。

當然,兩盤棋的全局情況差別不小,但我說的關鍵手法卻很很神似。對比之下,人類的頂尖棋手經過仔細思考和精密計算,計算幾十個高效的變化圖、幾千步較強邏輯的棋,如果思考過程中沒有犯明顯的錯誤,那麼最終也許能確定這一步棋是(候選)最佳,可AlphaGo能對20億個後續變化下成的棋局統計結果,告訴你這一步上靠勝率最高。

......

當然,在這裡吳清源所計算的每個變化圖的有效性,應該是比AlphaGo的每個經過剪枝的變化圖更高的,可是在量級上卻差了太多,深度和廣度都遠遠不及。

人類棋手在這種情況下如果還能得到同樣的判斷,那思考的效率簡直就達到人類巔峰的腦力了。柯潔在對AlphaGo的第2局比賽中前半盤的表現,就是這樣。

而且,並不是每個棋手都是吳清源或柯潔,他們也不可能在每盤棋的每步棋上都做到這程度的計算和判斷。

AlphaGo能。

......

-

對於AlphaGo自對弈的棋譜,因為它喜歡下的變化很少,而且還大多是簡明定型的變化,所以能給我們提供參考的信息其實是不多的。

如果要利用AlphaGo研究前半盤,我們需要多多關注它與人類的對局棋譜,甚至必須將它徹底化為工具,對前半盤的變化進行拆棋。那樣的話,相信人類對於布局、定式變化、序盤戰鬥等內容的研究會爆炸式提速。如果只看AlphaGo的自對弈,這懶孩子只挑幾個最喜歡下的變化使勁兒下,實在是不夠學的。

從序盤手法開始,AlphaGo就開始展示強大的大局觀了。到了中盤,AlphaGo對實力的展示越來越明顯,可以說是AlphaGo的精華。但內容也越來越複雜,超出了我的能力範圍了。

人類也許永遠都無法像AlphaGo那樣在實戰中跑出大量棋局得到高勝率下法,但如果對其中盤表現進行深入研究,我認為將來不是沒有可能,研究出人腦可以承受的簡化版決策模型,來貼近AlphaGo的決策。所以對於中盤的研究,一樣是很有意義的。

-

經過兩日的筆耕不輟,我終於完成了這份初步的總結。其中的很多部分,其實是我很早就開始思考的內容。而為了便於大家接受,我也盡量避免犯錯,我只挑出了我的思考中相對簡單並自認為考慮較為成熟的內容。

我致力於盡量用最淺顯的語言來描述,並盡量從涉及到的最基本的內容開始講起,盡量將難以意會的名詞加以解釋。但回頭來看,這個回答對於初學者甚至不懂棋的外行,可能還是稍嫌不夠友好,望諒解。

最後,我認為未來AlphaGo對於圍棋的幫助,與其說是我們對其進行研究,不如說我們將之化為工具來研究圍棋。自對弈棋譜的價值可能沒有我們想像的那麼高,人機對弈的必要性卻可能超出大家的想像,而利用AlphaGo進行拆棋,是不能錯過的光明的未來。

-


有,而且非常多。我棋力不算很高,在這裡僅說說自己的理解。

第一,關於定式。alphago並不喜歡完全按照定式來下。人類基於定式,認為某個選點之後必然導致某變化,所以不好;但是實際上某些定式中間改一手隨機應變是更適合的變化。

第二,關於脫先和大局觀。alphago很擅長局部脫先,而人類經常在局部慣性思維持續下。這是因為alphago大局觀非常好,在序盤階段已經在關注全局子力搭配情況了,所以局部缺失一塊不要緊,全局找補回來即可。或者你可以認為,alphago傾向於下在最大的地方。

第三,關於勝負。alphago的勝負觀與人類不同。人類覺得在某個位置佔便宜,或者某個局部要贏的多,這樣保證後面贏的餘地大;而alphago的意識則是,下在勝率最高的地方,即使吃虧。比如某些吃虧的下法簡明了局面,簡明後依舊是我贏,為何不用穩妥的看上去吃虧的下法?

另外,alphago自對弈的棋譜已經發出,白勝的更多,這與柯潔執白勝率高如出一轍。看來黑棋貼七目半,也許是貼多了,但是貼六目半是不是貼少了,這就不得而知了。

總之alohago給人類圍棋帶來的思索是很多的。但圍棋界不應該因為輸了,導致沮喪,迷惘,恐慌。alphago還是很像人類的,它的演算法和存儲模式依舊是人腦的延伸,我們應該把它當作一個研究圍棋的工具,而不是假想敵。


已經很多了,外刺星單關,無事點三三。飛壓特別爽,肩沖不一般。碎子吃厚勢,打入一鍋端,判斷特別准,優勢亂收官。


這個問題以我的棋力是回答不了的。

不過我預計會有人受了媒體的忽悠,或者迫於輿論口風回答「是」

我直接點菜了,請準備回答」是」的知友,拿起MasterVS聶衛平,以及MasterVS古力最後一局這兩張棋譜,指出Master使用了哪些「人類歷史上從未想到過的棋法、技巧?」

谷李大戰五局結束後沒多久,王元八段出了本書,主旨就是論證AlphaGo的全部招法都在人類高手棋譜中出現過。慢說我不是職業,就算是職業棋手,也得王元老師這個級別的打譜狂魔,才有資格回答是or不是吧。更何況題主的問題問得很大,「人類歷史上從未想到「,就算職業棋譜里找不到,去剛學棋的培訓班熊孩子那裡總找到了。

Master包括AlphaGo給職業棋手的啟發和教育,大抵上更多是「原來這麼下不虧甚至賺了」,真要說有哪手聞所未聞,太小瞧圍棋的職業化程度。吳清源大師何以偉大,單就人機大戰來說,自他提倡「新布局」後,人類早就可以拍胸脯自誇「沒有什麼招法是我沒見過的」

只是真沒想到「原來這些招才是好的,是能贏的」。所以題主如果是問顛覆現有理論,那真是太多了。當然這個多你要單看絕對數量,平均分攤的話一盤也到不了一個(所以開頭我特意選了兩盤來抬杠),但是以目前人類圍棋的進步速度,三五盤出一個顛覆理論的招法已然堪比恐怖片了。比如谷李五番棋第2局的五路肩沖(你堅持把圍棋天地的圍甲看著榜翻一遍就能找到不止一個」形似「的,我還特意和其中一位調侃過,那哥們兒自謙人家電腦是基於全局的肩沖,我只是著眼局部),第3局大跳被靠時要小尖,第5局的布局套路,五盤裡顛覆了三次理論,圍棋真有趣。

然而這也和圍棋過度職業化有關。說兩個在圍棋天地上看到的例子,羅洗河有一陣兒喜歡下一個很詭異的定式,怎麼手割都覺得虧,其他職業棋手評價就是」很多招法大伙兒都知道,但沒人下,比如說小目單關守角可以從外面刺,但就是沒人下「。哪,現在職業棋手知道星小飛掛後的單官跳,也可以從外面刺,Master老師說了這樣才是好的。

然後就是電腦(不止Master,是很多電腦)都喜歡往小目或者三路拆邊的地方靠一個,我記得劉世振還是劉星,給圍棋天地寫稿時提過當初他們和古力一起擺棋時,發現中國流布局,執白一方第6手可以直接靠小目,擺了半天沒找到黑棋有效的」懲罰「措施,看來這麼下是可以的。

然而事後並沒有人真的在實戰中下過,過度職業化讓棋手在實戰中探索精神急缺,為了獲勝只下自己熟悉的,誰曾想現在來了個一切基於勝率的哥們兒把大伙兒橫掃了,也是蠻諷刺的。

啊,看了樓下的回答忽然明白過來自己粗心了,題主並未限定Master一定要跟人下,那麼確實,以億為單位的蒙特卡洛自我對局,必然是什麼招都有,出現人類歷史上從未想過的招法當然有可能


招法源自棋理,狗的行棋理論和人類有很大的差別,這個差別現在可以識別的一個是在厚薄的判斷,一個是布局階段大場價值的大小。
關於第一點,妖刀定式狗選擇衝掉角上一子可以看出(對江維傑那盤),人類的判斷是黑棋外勢太雄厚,白棋不利(關於這一點隨便買一本定式大全上面都有介紹)。但是白棋接下來直接逼在邊星似乎是告訴人類,你們認為這是厚勢,但在我看來這是孤棋。
關於第二點,狗認為在布局階段小目掛角/守角的價值巨大,比分投邊星、掛星位等等都要來的大。比如對唐韋星和對常昊,黑棋掛角意圖形成小林流,白棋立刻脫先反掛黑棋的小目。
仔細研究狗狗的下法應該能得出很多巨大的收穫,相信這次事件能帶來職業圍棋界又一次技術上的騰飛。


肯定有,只是如果你不能理解,不能抽象成體系,也就看見了就當沒看見。比如某個人看了windows的源代碼,回來說沒什麼,不過是if else,幾個宏然後加加減減而已。而你讓他用這些寫一個windows出來,他卻一定是做不到的。


先說結論,完全可能。
沒有認真研究過alphago的paper,但是按照machine learning的尿性,訓練集可能不光包含了人類有記錄的歷史棋局,而且非常可能包含了大量AI對AI的棋局,有點類似人類的復盤。所以會出現大量人類目前沒有涉及的對抗情況。下子網路和評估網路都都沒有道理只用以前走過的手法。


六十盤棋里給我印象最深的大概就是直接點角,而且不扳粘二路。然而這棋我在網上很多年之前就遇到過。


我們從小就被培養,過馬路要好好走,不要闖紅燈。但是α狗發現了,以他的速度,在變燈的過程中直接過馬路就可以了。於是,它直接過了馬路。這就是對圍棋界的震撼。
圍棋本身就是19*19的棋盤,雖然沒有可能有兩盤棋是一樣的。但從局部範圍內來看,所有的招式肯定都有下過。下雖然下過,但是你這樣下是勝招還是敗招,是依靠一代一代總結為棋理灌輸給下一代的。而這樣的判斷完全是人類的主觀認識。然而這樣的總結往往就排除了這樣的概率:某種下法定式在不同的局勢下,對整體的結果有不同的影響。
而人工智慧完全不考慮這種主觀認識。他所下出來的棋雖然在人類看來是離經叛道的,但是計算的結果很可能是對結果影響不大,沒什麼區別,或者在特定情況下反而是更優的。
而且人類棋手過於低估了,人工智慧始終能夠對每一步棋對結果影響做最優判斷的能力。剛學棋的時候,就會講『金角銀邊草肚皮』。這是對於人類的計算能力而言非常正確的結論。因為人類每一步只能簡單的看到局部的損益,這樣掙一目,那樣損一目。但是計算機有強大的計算能力,它擁有更強的關子能力,也就是說他有更強的能力控制風險,他的行棋可以更加激進。這樣在某些局勢下,它完全不關心局部的纏鬥,它完全不關心是角,是邊。就像有的回答里說的,如果他算出的結果是下一步放到天元是最優,他也會去做。(當然這只是舉例,估計不會算出這樣的結果)但這樣的行棋方式無疑就是闖紅燈過馬路了,人類棋手自可以在對弈時復盤他的方法,但是在沒有足夠計算能力的情況下,是否能夠達到α狗的水準就不知道了。
-----!
換句話說,人類大可不必去反思棋理,因為這是基於人類計算能力獲得的千百年的經驗總結。計算機下出來違背棋理的部分主要是依靠計算能力。這是人類沒有的。就如我舉得例子,計算機覺得變燈的時候闖紅燈就能過去,人這樣做就是玩命了。又好比機器人覺得一個手可以舉重,人也一個手就要出危險了。對於人而言,還是遵守交通規則的好。


補充最高贊答案。
1.小目二間跳守角;
2.妖刀定式中白棋的這一手,通常認為這樣白棋虧。


————(05.30更新)————

時隔5個月重新看了一遍自己的答案,發現了很多的鄙陋和錯誤。

  1. 沒有理解題目。
  2. 錯誤地判斷了圍棋本身的特點。
  3. 對於人工智慧和人類自身思維自由度的判斷有誤。

我犯的三個錯誤中,前二兩個問題是相關的。我的原思路如下:

判斷1:現有的機器學習的神經網路所提供的自由度(黑箱模型內部)低於人腦面對圍棋的時候的思維自由度。

判斷2:具備越高的自由度的智能,在面臨同一種局面的時候,具備更多的技巧。

假設1:假定人類和人工智慧具備相似的計算能力,人工智慧的下法超不出人類的對弈的技巧。

假設2:如果兩個計算能力遠超人類的人,圍棋的下法也無法超出人類已有的經驗,因為技巧的差異化是建立在「信息不對等」的情況下的。

結論:阿爾法狗和人類的對弈的下法無法超出人類已有的技巧。

我當初的這個想法,就是建立在兩個判斷和兩個假設基礎上的,我曾以為最大的爭議可能就是在兩個假設上,現在我漸漸發現了一些不同的地方。

首先就是圍棋本身的特點,我之前的整個思路的一個問題就是圍棋的落子只和對當前局面的判斷以及對於結果的預期,最後落實下來就是若干位置的取捨問題。但是我忽略了組成局面的「歷史」問題。圍棋的落子是一個特定的序列,而不應該僅僅是「當前選擇」所組成的一個鏈。這就意味著,技巧的差異化不僅僅是「信息不對等」(本質是計算不對等)的結果,同時還是雙方對於局面的預期、對於對方的落子的判定等等差異性思維結合在一起的結果。另外,圍棋下了之後,往往是處於未知的狀態:也就是這一步下去之後,對於整個局面的改善不是即時能夠體現的,這也是為什麼柯潔肯定會犯錯。

而我理解錯了題目,就是我試圖從一種統一的觀點出發來細化到每一步的選擇。核心問題也是我的第二個假設。但是因與為我已經在判斷上出了問題,導致了我這個假設本身就是不合理的。既然是一種特定的序列,那麼就很難保證人類已經摸索出了所有的可能序列,否則棋手們大多數在面臨同一個場景下都應該選擇類似的處理方式。而且就像之前說的,下子之前之後還是存在較大的不確定性,同一個局面,你採取了同一種方式處理,但是對方可能採取了多種方案,這就影響了你的下一步。

至於最後一點,算是我對於人類過於樂觀了。人類的思維自由度可能的確比阿爾法狗要高,但是具體到圍棋這個層面事情就說不定了。人不但會有情緒等等的局限,而且在聚焦棋盤的時候也可能並不徹底地集中在圍棋的抽象模型中,但是阿爾法狗可以將圍棋直接徹底抽象為一個基本的點陣模型。

因此,我之前的答案是有誤的,雖然我還是覺得阿爾法狗取勝的關鍵是計算能力,但是它的確能夠下出人類一時間無法完全理解的著法,這點得益於圍棋本身的特性以及阿爾法狗自身。

不過話說回來,請不要把我的思路理解為「阿爾法狗僅僅是一套固定的模式和演算法」。黑箱模型和神經網路我雖然不清楚谷歌研發的技術細節,但是只要是黑箱是有邊界的,這個邊界就是模式,而不是黑箱裡面的東西,所以我說阿爾法狗是具備一定的「自由度」能夠形成「自己的方案」。阿爾法狗能贏柯潔,因為程序員也要求它「贏」。之所以採用這種方式,是因為它相比起一般的搜索來說簡直快太多了,而且它也更接近人類思考方式,但是這種方式初期需要訓練,不是固有的優化搜索方案那樣可以馬上拿來用的。所謂的自我學習,就是依據現有的自由度進行相應的信息重組,核心內容依舊在黑箱以內。我們之所以不能理解阿爾法狗的思路,並不是因為我們打開了黑箱後看不懂黑箱之內已有的內容,而是我們不能理解這一切是怎麼形成的:我們整個人類的已有的計算力,並不能做到這一點。

以上為個人觀點。

最後,非常感謝評論區的幾位網友 @藍貓 @吳小葉 @hanabi1224 當初的一些解釋和說明以及指出了我的錯誤。

————(以下為原答案)————

我們首先不去看阿爾法狗,想想職業棋手在同樣面對某個局面時,會不會完全走相同的步?
估計所有人都會回答:不一定。
那麼既然不一定,說明不同的人有不同的棋路和取捨,那麼每一次落子會不會是隨機的?
既然是職業棋手,肯定不會去隨機地下,即使存在比較大的自由度,落子肯定也是經過考慮的(不論考慮是否周全)。那麼他們的落子是否有一定的規矩可循?這一點基本可以確定,每一步的下法,至少都是曾經出現過的。
那麼既然他們不可能走相同的步,走的步基本上是曾經見識過的,這說明棋手大多數時候僅僅是在可行的多種可能性中做出取捨。

那麼阿爾法狗呢?
請記住,阿爾法狗並不是「具備超高速計算能力的人」,而是「具備超高速計算能力的機器人」。
所以本質就是演算法。
既然是演算法,肯定基礎也是搜索,只是經過了多個層面的優化,讓其效率足夠高。
這個優化是人為的。
從這個層面上來說,阿爾法狗所考慮的,並沒有超出過人,甚至很多時候不一定如人那麼多。
那麼他為什麼比人要強?
打個比方,最出色的圍棋手,能往前推10個子,但是他們能找到50種可行方案。
阿爾法狗,可能只能找到30種可行方案,但是這個是建立在它可以往前推15個子的前提下。
效率和把握機會的精準度更高,這就是它勝利的關鍵。
由於阿爾法狗本質是一套演算法,那麼決定了其最終判定肯定是「有條件的」,而且這個條件也是人為的。即使其具備通過已有的經驗進行信息提取和參數修正的能力,但是標準都是來自於人類自己。
這一套由一群人建立的標準,和職業棋手的思考相比,效率更高但是自由度更低,並且具有明顯的或然性,這種或然性來源於所謂的「經驗」對參數的調整。

從這個角度上來說,阿爾法狗即使和自己對弈,經過無數次之後,能分析出來的「新下法」也未必會超出人原有的經驗,因為人的思考過於局限,因此類似於演算法中「步步最大」的貪心。本質上,阿爾法狗雖然也是「貪心」,但是其可怕的計算能力,能讓阿爾法狗相比人類的思考,更接近於「動態規劃」:因為人類沒有辦法腿演出阿爾法狗的下一步,但是阿爾法狗可以推演出人類的。相對於人類來說,這就成了「動態規劃」。既然如此,阿爾法狗的每一步真的超出人類了嗎?我看未必,只是它比你看得更遠一些,你琢磨了15步找出來的「神來之筆」,它琢磨了20步,你的15步在他眼裡幾乎成為已知,這個時候它化解你的當時可能就有很多種,選擇其中一種,這一種可能非常稀鬆平常,但是人類基本想不到:因為沒有人能推到那麼後面。這一步,可能只是圍棋套路中最常見的一種。
就因為這一種超出,導致了阿爾法狗能下出很神奇的步,或者說看起來「反常理」的步。其實,就像業餘棋手和職業對壘的時候,也常常發現對方的一步讓你摸不著頭腦,但是就是特別厲害。其實對方並不一定是學了你沒有學過的「神來之筆」,只是對方比你算得更遠而已。
因此,一切都是建立在「信息不對稱」的前提下,只要人類算得不那麼遠,很難和機器抗衡。同樣的招數,算的更遠的人就能做到「大巧不工」。

當然,學習機制在進行參數修正的時候可能會出現一些問題,導致阿爾法狗下出一兩步臭棋。而且在足夠多的推演之後,可能阿爾法狗也能找出一些新的下法,但是這些下法可能對於職業棋手來說未必能理解或者應用:僅僅人類的思維,難以給這些神一般的下法提供基礎的條件,就是想不到適用範圍。

整體來說,人類並沒有失敗,相反,它給了人們可能性。將來的圍棋,可能真的是一個人控制著機器在下,也未可知。

——(以上皆個人主觀觀點)——


ai是全局建立的估值函數,人類往往都是局部定式。

人類看來相似的招法,在ai眼裡也許完全不同。

人類眼裡差異很大的招法,在ai眼裡也許是一樣的。


打開kernel翻,每一個棋譜上沒有的都是


狗的下法在你學圍棋的時候老師就跟你說這是丑棋。所以只能怪狗沒挨過老師的板子。

說顛覆了人類對圍棋的認知不如說是打破了人類給人類所規定的套路


這個應該是人類的行棋價值觀里無法接受的,爬二路活棋,在化名Master期間下出過,本圖對局取自今天剛出爐的自對弈50盤棋中的第一盤,同樣出現了。


其他匪夷所思的新招等棋界的人士解讀吧。


人類歷史上從沒有過——
這倒不至於,不然也太小看圍棋和棋手了。

最多是一些下法,在機器出現之前,棋手們研究認為那樣下是不利的,但現在卻被阿法狗推翻了。

又比如說,第一手下在天元。難道在吳清源棋聖之前,一兩千年里沒人研究過嗎?只不過是沒人敢那樣下而已。交給阿法狗下天元,它的判斷估計也是不利。

有了阿法狗,圍棋進入一個嶄新的發展階段。

唉,既生潔,何生狗。


人工智慧的本質是超越人類肉身限制的思考速度,重點是速度!速度!速度!而不是策略的創新。
阿爾法狗輸李世石那盤,次因才是李世石,主因是阿爾法狗自己下的第二步昏招,這才是其扳不過自己的主要原因。2v2贏不過也是,同伴和自己的運算速度不匹配,導致了沒法相互理解,所以就贏不了。
阿爾法狗團隊急流勇退很高明,因為如果若有人能明白下次對弈故意下成求負而非求贏的話,如果阿爾法狗真有相應智能的話,逼到阿爾法狗理解對弈目的是求負的話,下出求負手,就可以反擊了。如果阿爾法狗沒反應過來那也算不上有多高智能。
比速度人類肯定比不過,那要贏人工智慧就跳出套路走反邏輯。
人工智慧自身想出人類之上的策略現階段是不可能的!因為物理學上「時間」這個東西還沒被攻克,只要在物理現實層面沒有控制時間的話,從0到1的任何策略都達不到,最終只是達到一個相對最快的速度無限接近1。


聽說過歧路亡羊的故事嗎?下棋時我們面臨的就是這種選擇。

所不同的是,我們選擇的著眼點是會根據習慣、經驗、算路、個人喜好傾向等綜合判斷分析得出最後的結論的。一開始棋盤上有361個著點,你覺得我們會考慮那麼多嗎?不會。雖然有361處選擇,但是真正會下的只有5個,而個人喜好不同,又以其中2-3處居多。

如同上面講的361中取5的問題一樣,我們下棋時大腦是會自動過濾掉一些不必要因素的。這其中可能會有正確的盲點,但更多的是冗餘信息。級別越高,過濾網就越多,值得計算的著點也就越少,從而精度也就更高。就我個人下棋的體會而言,就是如此。

我下棋不是科班出身,聽科班的人說下棋如果下出被老師講過的騙著騙了的情況,復盤時難逃一頓板子。恐怕有很多有想法的孩子就被扼殺在搖籃里了吧。


請注意一點,人類圍棋理論的核心部分AlphaGo並沒有拋棄,如金邊銀角、三四線,如何占角掛角等等。這也是從另外角度對人類圍棋理論的肯定,或者說AlphaGo還是人類圍棋的學生。一些創新點更多是微創新,而不是對人類圍棋的顛覆,並沒有出現天馬行空的那種圍棋。

DeepMind此前雄心滿滿的從零開始學習圍棋,已不再提起,很可能已胎死腹中。而人類正是從零開始,漸漸發展出今天的圍棋理論,證明了人腦思維的超越。在肯定AlphaGo的成就時,不要誇大AI的作用,深度學習今天取得的進展是模擬了人腦較低層次的思維,AI還遠遠不能與人腦相比。


alphago的對局中,相對於目前的圍棋,出現了一些很有意思的變化

1搶33 傳統理論認為,搶佔33是比較虧的,這點實地和對手形成的厚勢相比,是吃虧的。但alphago顯然不這樣認為,經常有機會,就出手搶33。

2 提升效率的大飛或者拆二守角。傳統小目開局,標準下法是小飛 形成無憂角。 alphago 似乎認為這樣的效率太低。基本上選擇大飛甚至拆二跳。

3 更加重視先手。傳統的圍棋理論告訴我們,立二拆三,alphago卻經常選擇脫先,不去拆,而是選擇布局上更重要的其他先手。

4保留和定型 一些傳統的定式,例如前面的33 alphago能走的原因是因為它不做最後的定型交換,這樣對手的外勢就不再是無懈可擊的。但在另外面臨多種選擇的複雜盤面時,alphago又會選擇快速定型,簡化後續盤面。

5 持續保留對手的壓力。無論是對李世石,還是柯潔,可以看到,alphago對於對手攻擊是很嚴厲的。人類選手一般不會和對手緊密接觸,常用飛 跳等手段。而alphago經常適用尖沖 碰 斷等更加強硬的手段,使對手一直保持壓力。


推薦閱讀:

如何理解感知機學習演算法的對偶形式?
計算機圖形學與機器學習(深度學習)怎麼結合起來?
SVM和logistic回歸分別在什麼情況下使用?
有沒有傻瓜化的機器學習界面?
該不該堅持學習Machine Learning?

TAG:互聯網 | 軟體 | 圍棋 | 機器學習 | AlphaGo |