圍棋規則的改動對圍棋AI的影響
太長不看版
本文討論的是如果對圍棋規則進行改動,例如修改貼目值、讓子、還棋頭、擴展到21路等等,會對圍棋AI的水平產生什麼樣的影響。
結論是:開始可能有很大影響,很大的概率上,經過重新訓練後AI依然能短期內達到超越人類的水平。具體時間只取決於投入的人力和硬體訓練資源。
======================================================================
眾所周知,當今世界上圍棋AI扛把子的是AlphaGo Zero。下面我們主要以AlphaGo Zero為例。
修改貼目值
在reddit的AMA中(DeepMind AMA:關於最強AlphaGo Zero如何煉成的真心話,都在這裡了!),有人提問:
Q:1846年,在十四世本因坊跡目秀策與十一世井上幻庵因碩的一盤對局中,秀策下的第127手讓幻庵因碩一時驚急兩耳發赤,該手成為扭轉敗局的「耳赤一手」。如果是AlphaGo,是否也會下出相同的一首棋?
Julian Schrittwieser:我問了樊麾,他的回答是這樣的:當時的圍棋不貼目,而AlphaGo的對局中,黑棋需貼7.5目。貼目情況不同造成了古今棋局的差異,如果讓AlphaGo穿越到當年下那一手,很有可能下的是不同的另一個地方。
通過這個,我們可以推斷AlphaGo Zero可能沒有不貼目的版本。
然而通過論文,我們知道AlphaGo Master的架構與AlphaGo Zero幾乎相同。在烏鎮圍棋峰會上,我們知道AlphaGo Master是可以不貼目讓AlphaGo Lee三子。信息來源:黃博士接受弈招圍棋專訪(弈招圍棋 - 大賽直播,大師分享,領先的原創圍棋內容生產者!)。
由此,可以推斷,AlphaGo Zero沒有不貼目的版本,是不為也,非不能也。
讓子
讓子等同於沒有貼目加上Pass一手或者幾手棋。在支持不貼目之後,甚至於不需要重新訓練網路就可以直接上陣。
還棋頭
在《Mastering the game of Go without human knowledge》中的Method部分有這樣一段話:
(2) AlphaGo Zero uses Tromp–Taylor scoring during MCTS simulations and self-play training. This is because human scores (Chinese, Japanese or Korean rules) are not well-defined if the game terminates before territorial boundaries are resolved. However, all tournament and evaluation games were scored using Chinese rules.
Tromp-Taylor規則是計算機圍棋界通用規則(https://senseis.xmp.net/?TrompTaylorRules),可以用於解決沒有完全下完的情形下的數子問題。
- Go is played on a 19x19 square grid of points, by two players called Black and White.
- Each point on the grid may be colored black, white or empty.
- A point P, not colored C, is said to reach C, if there is a path of (vertically or horizontally) adjacent points of P"s color from P to a point of color C.
- Clearing a color is the process of emptying all points of that color that don"t reach empty.
- Starting with an empty grid, the players alternate turns, starting with Black.
- A turn is either a pass; or a move that doesn"t repeat an earlier grid coloring.
- A move consists of coloring an empty point one"s own color; then clearing the opponent color, and then clearing one"s own color.
- The game ends after two consecutive passes.
- A player"s score is the number of points of her color, plus the number of empty points that reach only her color.
- The player with the higher score at the end of the game is the winner. Equal scores result in a tie.
在棋局完全結束的時候,Tromp-Taylor規則可以視為等同於中國規則。
如果將Tromp-Taylor規則的第9條改為:
A player"s score is the number of points of her color.
在棋局完全結束的時候,Tromp-Taylor規則可以視為等同於還棋頭規則。
經過這樣的修改後的新規則訓練,可以得到一個還棋頭版本的AlphaGo Zero。
擴展到21路
這就更沒什麼實質的影響了。19路並不是圍棋的本質。
結論
以一個業餘圍棋AI開發者的角度看來,前面所提到的四種修改圍棋規則的嘗試,AI稍作修改,重新訓練網路之後,就可以適應新規則。所以並不存在什麼「還棋頭了AI就不行了」之類的說法。
推薦閱讀:
※跟人工智慧談戀愛是一種怎樣的體驗?
※天龍八部的王語嫣如果從小單獨看遍天下圍棋書卻從不實際對弈,其與人實際對弈時棋力如何?
※是否真能擺出天龍八部中自填一眼便豁然開朗的珍瓏棋局?