圍棋規則的改動對圍棋AI的影響

太長不看版

本文討論的是如果對圍棋規則進行改動,例如修改貼目值、讓子、還棋頭、擴展到21路等等,會對圍棋AI的水平產生什麼樣的影響。

結論是:開始可能有很大影響,很大的概率上,經過重新訓練後AI依然能短期內達到超越人類的水平。具體時間只取決於投入的人力和硬體訓練資源。

======================================================================

眾所周知,當今世界上圍棋AI扛把子的是AlphaGo Zero。下面我們主要以AlphaGo Zero為例。

修改貼目值

在reddit的AMA中(DeepMind AMA:關於最強AlphaGo Zero如何煉成的真心話,都在這裡了!),有人提問:

Q:1846年,在十四世本因坊跡目秀策與十一世井上幻庵因碩的一盤對局中,秀策下的第127手讓幻庵因碩一時驚急兩耳發赤,該手成為扭轉敗局的「耳赤一手」。如果是AlphaGo,是否也會下出相同的一首棋?

Julian Schrittwieser:我問了樊麾,他的回答是這樣的:

當時的圍棋不貼目,而AlphaGo的對局中,黑棋需貼7.5目。貼目情況不同造成了古今棋局的差異,如果讓AlphaGo穿越到當年下那一手,很有可能下的是不同的另一個地方。

通過這個,我們可以推斷AlphaGo Zero可能沒有不貼目的版本。

然而通過論文,我們知道AlphaGo Master的架構與AlphaGo Zero幾乎相同。在烏鎮圍棋峰會上,我們知道AlphaGo Master是可以不貼目讓AlphaGo Lee三子。信息來源:黃博士接受弈招圍棋專訪(弈招圍棋 - 大賽直播,大師分享,領先的原創圍棋內容生產者!)。

由此,可以推斷,AlphaGo Zero沒有不貼目的版本,是不為也,非不能也。

讓子

讓子等同於沒有貼目加上Pass一手或者幾手棋。在支持不貼目之後,甚至於不需要重新訓練網路就可以直接上陣。

還棋頭

在《Mastering the game of Go without human knowledge》中的Method部分有這樣一段話:

(2) AlphaGo Zero uses Tromp–Taylor scoring during MCTS simulations and self-play training. This is because human scores (Chinese, Japanese or Korean rules) are not well-defined if the game terminates before territorial boundaries are resolved. However, all tournament and evaluation games were scored using Chinese rules.

Tromp-Taylor規則是計算機圍棋界通用規則(senseis.xmp.net/?),可以用於解決沒有完全下完的情形下的數子問題。

  1. Go is played on a 19x19 square grid of points, by two players called Black and White.
  2. Each point on the grid may be colored black, white or empty.
  3. A point P, not colored C, is said to reach C, if there is a path of (vertically or horizontally) adjacent points of P"s color from P to a point of color C.
  4. Clearing a color is the process of emptying all points of that color that don"t reach empty.
  5. Starting with an empty grid, the players alternate turns, starting with Black.
  6. A turn is either a pass; or a move that doesn"t repeat an earlier grid coloring.
  7. A move consists of coloring an empty point one"s own color; then clearing the opponent color, and then clearing one"s own color.
  8. The game ends after two consecutive passes.
  9. A player"s score is the number of points of her color, plus the number of empty points that reach only her color.
  10. The player with the higher score at the end of the game is the winner. Equal scores result in a tie.

在棋局完全結束的時候,Tromp-Taylor規則可以視為等同於中國規則。

如果將Tromp-Taylor規則的第9條改為:

A player"s score is the number of points of her color.

在棋局完全結束的時候,Tromp-Taylor規則可以視為等同於還棋頭規則。

經過這樣的修改後的新規則訓練,可以得到一個還棋頭版本的AlphaGo Zero。

擴展到21路

這就更沒什麼實質的影響了。19路並不是圍棋的本質。

結論

以一個業餘圍棋AI開發者的角度看來,前面所提到的四種修改圍棋規則的嘗試,AI稍作修改,重新訓練網路之後,就可以適應新規則。所以並不存在什麼「還棋頭了AI就不行了」之類的說法。


推薦閱讀:

跟人工智慧談戀愛是一種怎樣的體驗?
天龍八部的王語嫣如果從小單獨看遍天下圍棋書卻從不實際對弈,其與人實際對弈時棋力如何?
是否真能擺出天龍八部中自填一眼便豁然開朗的珍瓏棋局?

TAG:围棋 | 人工智能围棋 | 围棋软件 |