圍棋AI發展到一定階段,如果兩個AI對弈,假設配置無限高,會不會出現哪一方先下就必勝或者必輸的局面?

持續關注人機大戰中,讀了各路大神的文章,小開腦洞,有此想法,不知現在阿法狗大量與自己左右互搏的結果如何,歡迎探討~


特別感謝 @高飛龍的指正~ 後續答案中AlphaGo尋找局部最優解的斷言是錯誤的。根據原始論文和公開的資料,AlphaGo尋找的是概率全局最優解,所以會出現優勢時類似」保守「的下法。不過注意,這仍然是概率全局最優解,而不是確定性全局最優解。這是本質的區別。

===========================

未邀自答。

背景:我圍棋水平一般般,只是很小的時候在中國棋院學過不到一年的時間,現在基本都忘乾淨了… 這個回答綜合了我和 @陸簾青 的線下討論。 @陸簾青 是一位程序員,圍棋水平業餘段位(具體什麼段位我忘了…)。討論發生在李世石和AlphaGo五番棋大戰的第三場結束後。

先說答案:圍棋有貼目規則,僅考慮圍棋層面的貼目規則,必有:AI對弈結果為永遠平局。

我們先說幾個題外話,再給出我這個答案的論據。

===========================

1. 何為貼目,為什麼要貼目?

貼目為圍棋術語,我這裡直接引用百度百科給出的定義(貼目_百度百科):

指黑方由於先手,在布局上佔有一定的優勢,為了公平起見,在最後計算雙方所佔地的多少時,黑棋必須扣減一定的目數或子數。

之所以貼目,主要有兩個原因,一個原因是圍棋本身的,另一個原因是從競技性上考慮:

  • 圍棋本身的原因:先手優勢,需要貼目來平衡這個優勢;
  • 競技性上的考慮:避免圍棋出現平局的情況

那麼如何確定貼目數額呢?直到現在為止人類也沒有找到確切的貼目數量,因為根本無法評估黑棋先手的優勢確切有多大。於是,先輩們採用了類似」蒙特卡洛「的概率方法來進行評估。即,規定一個貼目數量,然後看各個比賽中的勝率。如果勝率離50%比較遠,就調整貼目數量,最終達到雙方勝率接近50%。到現在為止,貼目規則主要有2種:中國規則,日韓規則。

  • 中國規則:黑貼3又3/4子,相當於7.5目。這是因為中國規則中,判定獲勝方採用數子的方法,簡單地說就是把棋完全下完,然後看黑棋佔了多少格子,白棋佔了多少格子。如果算黑棋的話,就在結果上減去3.75子;如果算白棋,就在結果上增加3.75子。
  • 日韓規則:黑貼6.5目。日韓採用數目法確定獲勝方。所謂數目,簡單地說就是看黑棋或白棋佔了多少空地(不算落子位置所佔的格子)。數目法的好處是,棋手不需要把棋完全下完就可以判斷結果了。棋下的越完整,實際上黑白占的實地會越多一些。因此貼目方法是計算黑白雙方的目數,然後在白棋的目數上加貼目數。

===========================

2. 何為」圍棋上帝「,貼目多少比較合適,以及答案分析

上面已經說到了,貼目多少的確定過程是一個統計過程。只不過隨著人類圍棋的發展,貼目的數量逐漸達到了一個平衡的狀態。而之所以用統計過程,是因為圍棋的各種變形情況太多了,有大約10^170種可能,這個數字已經遠大於全宇宙原子的總數量。這也就是為何圍棋博大精深的原因:正因為無法窮舉所有結果,才會有所謂棋感(即快速找到最優解的天賦),有所謂定式(即經過數十年數百年的研究,在特定情況下的平衡落子下法)等。

不過,我們來暢想一下,如果圍棋情況最終可以被窮盡呢?會發生什麼情況?我這裡想引入所謂」圍棋上帝「的定義。

」圍棋上帝「的簡單定義是,對於任意一個棋局形式,這個上帝一定可以找到下一步棋的最優解。

如果圍棋情況最終可以被窮盡的話,就一定存在這樣的」圍棋上帝「,它已經記住了圍棋棋局的所有情況,可根據任意一個給定情況,查詢與之對應的所有最終局,從而找到下一步最優解。那麼,我們漸進會得到下列結果:

  • 每一步的落子都找到了最優解,其他所有落子所得的結果都比當前落子方式差。而最優解必然是一個(如果有有限多個,則落子最終效果必然等價,我們可以直接僅選擇第一個落子方式)。此時,圍棋的所有下法最終都歸約到了一種棋局上。

  • 由於圍棋所有下法最終都歸約到一種棋局,因此棋局開始時,雙方也就明確了這一局棋的必然輸贏結果。我們就可以利用這個結果判斷貼目的正確數目,以及回答答主的問題了。

由於棋局必然會結束,所以一定會有最終結果。舉例:

  • 最終局黑棋183子,白棋178子;於是貼目數量為5目,雙方平衡;
  • 最終局黑棋187子,白棋177子,於是貼目數量為7目,雙方平衡;

因此,如果圍棋結果可以窮盡的話,那麼貼目數量一定為奇數,且雙方對弈結果永遠為平局,且最終局永遠為一個或者等價的多個棋局形式。

===========================

3. 確定VS統計

在AlghaGo以3:0領先李世石時, @陸簾青拋給我下面的4個問題,而這4個問題也反應出AlphaGo的一些理解:

  1. AlphaGo的進步明顯嗎?
  2. AlphaGo遇強則強,遇弱則弱的說法準確嗎?
  3. AlphaGo是否有天花板?
  4. AlphaGo有沒有可能是圍棋上帝?

我們倒著回答後3個問題,第1個問題和實現機制相關,就不深入討論了。

首先,從第4局我們就已經知道,AlphaGo沒有達到圍棋上帝。因為它並不是遍歷所有方法,其思想仍然是找局部最優解,這就與前面的假設矛盾了。但找最優解的方法通過神經網路進行了恐怖的優化。在李世石第4局」神之一手「後,AlphaGo顯然沒有找到這一下法的應對手段,出現崩潰的情況。

AlphaGo是否有天花板呢?在不能遍歷棋局的情況下,應該是沒有天花板的。或者說,天花板就是圍棋上帝,但圍棋上帝在現有階段是不可能達到的。AlphaGo和人類一樣,只能不停地接近於最終局的圍棋上帝水平。但AlphaGo的恐怖之處在於,它可以通過和自己對弈,以誇張的速度優化最優解的求解過程,使得其達到圍棋上帝的步伐比人類快得多。

AlphaGo遇強則強,遇弱則弱實際上也是AlphaGo沒有達到圍棋上帝的一個推論。AlphaGo的目的是贏,而不是贏多少。所以在給定貼目規則的條件下,AlphaGo會對每一步評估雙方的獲勝概率,從而快速確定下一步棋。注意,這和圍棋上帝有本質的不同。我們可以這麼理解,圍棋上帝是確定性演算法,而AlphaGo仍然是概率演算法。與可以理解為,圍棋上帝可以找到全局最優解,使得每一步的利益最大;而AlphaGo找到局部最優解,使得每一步都使其更可能贏得棋局。這個巨大的Gap,就好像數學上有限和無限的Gap一樣,在很多場景下的評估方法會有巨大的區別。

所以,我們也可以總結一下確定VS統計的一些出入,為後面AlphaGo的作用提供一些參考。

  • 所謂下法不同,是統計環境下的結果。當評估自己是劣勢時,每一手會偏向於拼;圍棋中,讓先,讓兩子,黑棋的下法是不同的,這是因為黑棋要保優勢。但是確定演算法下,沒有」保「的概念,其依然可以找到最優解,使得自己的優勢越來越大。
  • 所謂貼目可能不是整數,也是統計環境下的結果。雙方接受不同的規則後,棋風會有些變化,從而導致結果不同。所以,統計結果可能出現類似:黑貼7目30%勝率,黑貼8目70%勝率,黑貼7.5目50%勝率的情況。甚至可能出現:黑貼7目也是60%勝率,貼8目也是60%勝率的情況。結果不一定是收斂的。但我們總可以調整貼目數量,使得勝率趨近於50%,這是因為我們已經從統計結果得知,至少不貼目黑棋勝率很大,貼10目白棋勝率很大的結果。

那麼,AlphaGo可以幹什麼呢?在圍棋角度,它可以做如下事情:

  • 由於AlphaGo已經接近或者說達到了頂尖旗手的水平,且AlphaGo可以做到無心態狀態變化,水平一致接近的對弈效果。所以,可以通過調整貼目數量,快速評估雙方勝率,從而找到統計上確定的貼目數量。注意,如果AlphaGo沒有達到頂尖旗手的水平,這樣做是沒有意義的。
  • 通過觀察AlphaGo的對弈結果,讓人類對圍棋有新的認識,從而開拓新的下法。
  • 利用AlphaGo評估定式的好壞,至少在局部找到最優解,從而將定式固定下來,解決紛爭。

============================

以上。感謝 @陸簾青提供的思路和想法!答案已經經過他的審閱。歡迎批評指正。


謝邀。會的。

圍棋的變化再多,也是有限的。黑為1,白為-1,無子為0,所有的變化是3的361次方,這裡面肯定還有不符合規則的(如全黑和全白)。配置不用無限高,只要有限時間時間完成計算3的361次方+1,就能滿足題主要求。

簡單來說還是目前的計算力不夠,遠超目前的計算能力。一旦計算力無限,還是可以計算出來的。

到時候就要修改勝負的規則。比如經過迭代計算,黑子先行需要貼目3.1415926目,黑白雙方才是公平的,貼3目黑棋勝定,貼4目白棋勝定。

到那個時候,圍棋就死了。

就跟現在5子棋一樣。


你是說神的戰鬥?那結論就固定了,要麼先手贏,要麼後手贏,有貼目。


這是一個好問題,記得以前形容象棋手楊官璘功力的時候有個詞叫做『絲線牽牛起』,就是有一絲絲的優勢,他就贏了。實戰中他確實幹過,對手一個兵位置沒有放好就幾十步後將死的戰績。

對於計算能力充分大的ai,一絲優勢就勝勢。當然對於變化這麼大的圍棋來說,勝勢不能保證一定贏,但是概率肯定要高很多。

ai對戰可能對我們的貼目規則有很大影響,為了公平性,調整現在的貼目規則甚至定出圍棋版的規定開局,三手兩打,n手交換,都是有可能的。

ai的學習經歷,甚至可以說個性也很重要。未來的ai圍棋世界盃的選手可能是各個國家的ai即使都是秒殺柯潔的實力,但是演算法和自學習的策略也有不同,即使同一種演算法的ai可能因為學習經歷的不同,棋力也有不同。

再往後的超級圍棋ai可能已經可以自己編寫自己的圍棋演算法,甚至如何編寫圍棋演算法的演算法也是ai自己做,機器人的個性可能就更重要了。

再然後,幾個ai覺得無聊,開始下三維圍棋,四維圍棋了


Zermelo"s theorem.

1. 圍棋是二人遊戲

2. 不存在運氣成分

3. 狀態轉移可枚舉

4. 雙方信息對稱

=&>

先手必勝 | 後手必勝 | 雙方有不敗策略


會的。圍棋變化理論上是可以被窮盡的,只是數量級遠超目前的計算能力。到時候就是固定貼目情況下,黑棋必贏或者必輸。或者換個說法,到時候會找到一個數字N,貼N目黑棋必贏,貼N+1目黑棋必輸。

但是對人類而言,圍棋人和人對弈的樂趣還是無盡的,因為人類記不住、算不出這麼多變化。


最終的結果是先手或者後手必勝


《唯美》


不貼目的圍棋,先下具備極大優勢。而圍棋這樣符合博弈論的遊戲,最終結果一定是先手比贏或者必和。然而這一天還很遙遠,以阿法狗的棋力還遠遠探尋不到那天。目前來看,阿法狗自我對弈時執白勝率約六成(貼7.5目),當他不斷進化時,勝率也許會不斷升高。


我覺得可參考這個:兩個能預知未來並且都想贏的人,剪刀石頭布,誰會贏? - 帶有假設的問題


就是自己和自己下棋…


不會,因為有貼目的存在。並且經過大量左右手對局後,暫時勝率低的一方會向暫時勝率高的一方學習從而達到最後勝率的均衡


推薦閱讀:

當前AI最厲害的戰略遊戲是什麼?
如何以武俠小說的手法描寫AlphaGo(Master)與職業棋手在2017年年初的六十盤對局?
柯潔和 AlphaGo 的第二盤棋值得關注之處有哪些?

TAG:人工智慧 | 圍棋 | AlphaGo |