如果兩個Alphago對下,可以根據結果測試出黑棋貼多少目才最公平嗎?
1.從Alphago與李世石的對戰結果來看,它的演算法、理論在圍棋對弈方面是否已經趨近完善?
2.Alphago在自我對弈學習完善模型的同時,有沒有記錄下黑白雙方的勝率?黑棋的勝率達到一個怎樣的標準,我們可以認為黑棋需要貼目?3.Alphago在自我對弈學習中黑棋與白棋之間的目數差距是否會是較為穩定的?4.如果目數差距較為穩定,能否把這種目數差距作為貼目的標準?如果波動較大,那麼合理的貼目標準需要怎麼計算才合理?
我覺得公平的貼目數應當與雙方的水平有關。假設兩邊的水平相同,那所謂公平的貼目數,應當使得兩者勝率相同。
但問題是,對於不同水平的對弈,比如AlphaGO對AlphaGO,九段對九段,先手帶來的目數優勢很有可能是不一樣的。
打個比方,若讓古代士兵公平對決,一個人的身高體重比另一個有優勢,為了公平,個高的讓個矮的三招,可能就公平了——即平均勝率相同。然而對於現代士兵來說,讓別人三招(槍),意義是完全不同的。這裡想說的是,隨著對弈者水平的變化,先手優勢可能會被放大或縮小。
這裡可能有一種方法可以實現,即構造一個與人類水平相同的AlphaGO,然後再進行對弈實驗。然而有兩個問題:1. 人類之間的水平差異很大;2. 這時就必須要有一個先驗的貼目數,這樣就可能要求多次迭代逼近。謝邀。
1.貼目問題alphago目前來看是無計可施的。因為其神經網路無法適應各種貼目,一旦改貼目整個神經網路都要重新訓練。我們都知道神經網路最難的地方就在於訓練。
2.測試白棋平均贏黑棋多少目也是沒用的,因為alphago是根據勝率下棋,贏棋局面會選擇保守下法,輸棋局面下偶爾抽風。除非證明,alphago的下法導致的其結果與另外一個臆想的無法定義的正常的輸贏數目的差別對於該正常的黑白雙方輸贏目數的統計學期望沒有影響。嗯。
3.alphago在圍棋對弈方面是否完善?
遠不完善,這是alphago團隊成員樊麾說的。現在據傳alphago能讓職業兩個子(原本的謠言是讓top pro兩個子,實際上這個論題來自於一個北美職業的提問,AJA是針對那位具體的職業棋手進行的相關回答)另外,還有跟谷歌八竿子搭不上關係的中國IT圈人士跟著起鬨,說現在的alphago能讓v18四子,說什麼古力去測試被完虐等等。省省吧,你們的軟體可能過職業6子關都困難。老夫這個圈外人士還是非常期待alphago讓兩子對陣柯潔率領三個國家隊下相談棋,倒看看alphago強到什麼程度。最公平的是不貼子,雙方輪流執黑先行,直至分出勝負。當然,這不利於比賽直播。
可以。設置不同的貼目數作為參數進行機器學習訓練出阿法狗,這些不同參數的狗各自進行對戰,根據結果就可以確定貼目數是偏多還是偏少。比如貼7.5黑勝少負多,說明貼目偏多,反之說明貼目偏少。據此進行調整。需要指出,改變貼目後需要從頭開始重新進行機器學習訓練。
不能。
計算公平貼目的難度遠高於擊敗人類:後者只需要職業十幾段水平,前者需要職業+∞段水平。
理論上公平的貼目應該是黑白雙方全局均下出最優著手導致的終局狀態中黑棋領先的目數。
現實世界中圍棋規則中的貼目是基於職業高手間的先後手勝率確定的統計意義上相對公平的數字。AlphaGo可以被視為更強的棋手(相當於職業十幾段,日後甚至可能達到職業幾十段),但即便是採用AI對弈的結果,(在貼目數相對段位增長收斂的假設下)也只是把貼目變得相對精確一點而已。這就如同用職九的勝率要比用業五的勝率來確定貼目數貌似更合理些一樣。
AlphaGo中使用了統計方法來優化演算法,以保證在人類可接受的時限內行棋,因此雖然可以相對公平地擊敗人類,卻無法保證永遠走出最優解。事實上,因為基於暴力求解/遍歷整棵博弈樹(可以包含不破壞最優解性質的剪枝)的演算法計算量太大,計算公平貼目在可見的未來應該無法實現。推薦閱讀:
※向量 L1 範數最小化問題?
※語音識別領域的最新進展目前是什麼樣的水準?
※當前人工智慧特別是深度學習最前沿的研究方向是什麼?
※有沒有可能讓機器讀遍github上的開源代碼,然後學會編程?
※梯度下降法的神經網路容易收斂到局部最優,為什麼應用廣泛?
TAG:人工智慧 | 圍棋 | 深度學習DeepLearning | AlphaGo | 對弈人工智慧 |