AlphaGo 有沒有「棋風」?它在下棋時會犯錯嗎?
進入圓桌 ? 人機對弈終章,參與更多相關討論。
AlphaGo 沒有自己的棋風
因為mcts演算法的緣故,招法具有一定的隨機性,同分值的招數可能同時存在好幾個。用時、規則不同等等下法也會變化。
AlphaGo 會犯錯,但是犯的錯目前看,由於大局方面實在太強大,在和頂尖高手對局中基本不影響勝負結果。
援引live 中我和 @范廷鈺 九段討論的結果,AlphaGo確實強大,但是確實有很多局部上的問題手,這一點不必神話。
AlphaGo犯錯的方式有幾種:
1,沒有必要現在下的棋,立刻走。圍棋界稱為「俗手」,因為提早走會讓自己以後的餘地大大減少。
2,舍大取小,這一點在優勢的收官階段非常常見,一旦進入劣勢就會瘋狂體現(go 李第四局)。
之後的內容我會分門別類詳細概括一下:
「棋風」是 「行棋風格」 的簡稱。
棋風是每個棋手由內而外呈現的招法整體。
可以說,過去的時代,大家非常喜歡給頂級棋手加一些棋風的描述,增加辨識度。
在二戰之後,可以說當時每個頂尖棋手,都被描寫的特點十足。
「剃刀」的坂田,非常銳利,局部作戰計算精準見長,常有兇險招數直取要害。
之後坂田九段在對陣當時年輕的林海峰的時候,說「不可能有二十歲的名人」,之後被林海峰奪走了頭銜。
「二枚腰」的林海峰,「二枚腰」一詞來自於相撲,說的是腰身寬大不易被摔倒,彷彿有兩個腰一般。林海峰九段棋風 厚實均衡,韌性極強 ,喜歡把對手的意圖接受過來,最後一刻發力。
我們從強關聯的詞開始講:流派、風格、特色 都是藝術中常見的歸類方式。
『特色』強調顯著不同的點。
「先生,您好,虎皮青椒炒肉絲拌薯片是我們的特色菜。」
『流派』則往往是風格較統一、體系化的。
(簽名別具一格,宇宙流三個字非常寫意)
「武宮正樹九段的宇宙流可以說是非常具有視覺衝擊力的,奔放自在,非常宏大。」
個人風格常常會隨著閱歷、訓練等等因素髮生變化,流派則常常被大家代指是一種會吸收轉化其他風格、特色為己用,保持一致內在精神、外在形象的進階產物。
說『風格』
風格是整體性呈現,由內而外,有代表性的面貌。對於每個棋手來說,風格是受自己的思維習慣,訓練歷程,內在品質深深影響的。
裝修有:「極簡主義」風格、「歐式復古」風格、「狂拽酷炫殺馬特」風格……
(說了殺馬特風格後面就突然不想再舉例了,感覺忘了愛)
「 意氣駿爽,則文風清焉 」 《文心雕龍》
有人最近傳言說鄰居李大頭有不好的「脫鞋風格」。
「老李你怎麼能每次 左腳右腳互相連蹬,每次回家非要先踹走自己的鞋呢?你這個人脫鞋的風格太奇怪了。」
這認真看就是不對的,這個脫鞋風格沒有一點內在流露,也沒有一個整體的外貌呈現。
除非說你是順便練那個「梯雲縱」的輕功?
所以這種懶出來的「風格」只能自封。
-------------------------------------------------------------------------------------------------
「棋風」對於每個棋手來說,是一種『路徑依賴』。
對於藝術性較強的領域,比如文學、繪畫。
1,比如王二寫小說,寫到
「今天王二在街上遛彎,突然對大街上的駱駝們有了XXX 一般的情愫。」
這裡用什麼詞見仁見智。
所以文學家們都會琢磨一套自己的風格,駕馭熟練了,寫起來非常自如。
2,比如張大斗畫畫,琢磨著頭皮和腳趾頭應該是什麼顏色。
這裡用什麼顏色,什麼筆觸,沒有一定之規,也是畫家自己決定。
——————————————————————————————
圍棋隨著計算、推理的深入,每一步的好壞可以越來越清楚地判斷出來,圍棋的不確定性不同於藝術領域,是有好壞標準的。
圍棋的判斷標準,在近幾十年完善的非常快,可信度也越來越高。
從源頭上我們可以說這樣的路徑依賴來自於過去的訓練,習慣了這樣去思考,習慣了先朝這裡走一手,習慣了用這樣的連貫招式去定型。
我們每個人提高的過程首先是學習前人經驗的過程,拿前人最好的知識精華來「投喂」自己,通過死活等手段訓練肌肉記憶,就像功夫熊貓裡面每一個master那樣。
———————————————————————————————
關於棋風背後的模式化
10年的 ted有一篇非常經典的演講,關於思考模式,關於「 The pattern behind self-deception 」
文章里對人的 思維傾向常見的問題做了一個二分法:
I call this process "patternicity" — that is, the tendency to find meaningful patterns in both meaningful and meaningless noise. When we do this process, we make two types of errors. A Type I error, or false positive, is believing a pattern is real when it"s not. Our second type of error is a false negative. A Type II error is not believing a pattern is real when it is. So let"s do a thought experiment. You are a hominid three million years ago walking on the plains of Africa. Your name is Lucy, okay? And you hear a rustle in the grass. Is it a dangerous predator, or is it just the wind? Your next decision could be the most important one of your life. Well, if you think that the rustle in the grass is a dangerous predator and it turns out it"s just the wind, you"ve made an error in cognition, made a Type I error, false positive. But no harm. You just move away. You"re more cautious. You"re more vigilant. On the other hand, if you believe that the rustle in the grass is just the wind, and it turns out it"s a dangerous predator, you"re lunch. You"ve just won a Darwin award. You"ve been taken out of the gene pool.
第一類是 false positive ,事物之間沒有聯繫的時候傾向於認為有聯繫,「寧可信其有不可信其無」。(也是迷信的主要原因)
比如王不二有一天說了這麼一句:「那天我摔了一跤,然後耳邊響起了風聲,那一定是周圍空氣里的小惡魔們嘲笑我飛來飛去~ 」
第二類是 false negative,有關聯的情況下更願意相信「其實沒有聯繫」。
比如李大頭有這麼一句:「愛亂扔東西和我自律不自律一點關係都沒有,這是我的本能」
原文裡面的例子非常踏實,有一天你在叢林里走,聽到一陣異響,你是傾向於相信有危險做防備撤離開還是大大咧咧繼續走下去?
總之,萬一確實是危險的捕食者,你就完了。
所以人們常常願意說「寧可信其有不可信其無」,來自於古老的生存本能,我們可以常見各種「危機論者」,有備無患準備很多東西,但是大家還願意效仿。因為那些 什麼都不願意提早做準備,相信什麼都不會發生的往往會早早被突發事件幹掉。
if you believe that the rustle in the grass is just the wind, and it turns out it"s a dangerous predator, you"re lunch. You"ve just won a Darwin award. You"ve been taken out of the gene pool.
Darwin Award, 被移出進化的鏈條里,嘖嘖。
————————————————————————————————————
幾年來我和很多棋手聊過棋風的問題,發現很多高手並不認可自己被媒體總結的棋風,還是更願意以因地制宜來形容自己。
藝術性的方向的發展會越來越展示自我,勝負向的則會非常明顯的調和一個人的各個方面。
現代頂尖棋手,棋風更加多變,以研究清晰的變化為先,計算清楚的招法為準,發揮個人風格越來越淡。
當時邀請 @范廷鈺 九段的時候,我說一句話形容自己,你會怎麼說,范九段寫了四個子在自己的個人介紹里:
人生如棋
感慨頗深。
————————————————————————————————————
AlphaGo 有很多錯誤,但是目前只有李世石與AlphaGo的第四盤因此影響了勝負
前面說AlphaGo兩種常見錯誤方式:
【1.俗手】
白棋66扳出,是標註的俗手,這一扳可以確定隨時都能和67外扳交換。現在沒有必要下,會減少自己的餘地,這樣的棋AlphaGo較多出現。
【2.判斷失誤】
這裡白棋154的扳是明顯的失誤,黑棋155本身就很有價值,後手挖吃兩子,之後差距縮小。
【低級失誤】
AlphaGo收官也有一些非常低級的失誤,明顯是演算法在處理複雜的收官還是有一些問題。
這是取材自之前化名 master{P} 大殺四方時期對陣若水雲寒(P)的對局,白棋下邊被打吃的時候白棋不接上選擇了246 打吃,被提掉之後由於之前在拚命地賣劫財,導致虧損。
AlphaGo 基於具有一定隨機性的演算法做出決定,沒有棋風。
AlphaGo仍然有很多明顯的錯誤,大局觀取勝,確實有重劍無鋒一般的感覺。
歡迎大家繼續支持我和 @范廷鈺 九段全程對局解析:
和職業九段一起看懂柯潔對戰AlphaGo(這次參與的聽眾素質都非常高,范九段也非常有積極性與大家一起探討,回答疑問。)
湊個熱鬧。AlphaGo當然有棋風啊,開局隨意脫先這麼不尋常的特點都不算棋風么?熱衷轉換,不拘泥於任何既成的定式/規範不算棋風么?喜歡「貼著對方走子」,一言不合就靠碰,不算棋風么?視實地如糞土,大膽五路肩沖不算棋風么?
哈哈開個玩笑,其實AlphaGo的行棋特點真的是任何人都沒法模仿沒法想像的。我覺得它也不是像有些人認為的那樣傾向於簡明定型,昨天剛看了一盤視頻講解 https://www.youtube.com/watch?v=nYRT5iO56Ig ,講的是AlphaGo 50局自戰譜的第一局(講解人好像是台灣的業餘棋手?)可以看到,在上方的戰鬥過程中,白棋並沒有選擇人類看起來比較穩重的退讓下法,而是選擇了效率更高但是(人類看起來)風險更大的走法,而黑棋一開始是「冷靜」地退讓,後來大概也「忍無可忍」,終於選擇了反擊。在後半盤中,白棋在右下黑空中騰挪轉身,手筋連發,也展現出非常漂亮的治孤手段——不僅僅是大局觀哦,狗狗的戰鬥和治孤也是超一流的哦~ 第二局中白棋更是表演出高超的棄子戰術,棄右邊30多子後中盤獲勝,也有個視頻是講解這個的 https://www.youtube.com/watch?v=wwvDkjT8EBs 不過我還沒來得及看。不過現在還沒看到職業棋手的講解視頻,希望可以儘快出~
AlphaGo行棋不會受情緒的影響,每一步棋對它而言都是一個全新的局面,也就是說它沒有什麼「連貫的思路」,過去的走子不會影響它當下的選擇,它只是按照自己的演算法去尋找當前局面下它認為的勝率最高的走法,每走一步就像是做一道題,整場棋下下來對它就是解決了200-300多個問題。它也不會害怕,不會因為「算不清」而不敢走,如果它認為複雜的對殺比穩健的退讓勝率更高,它會毫不猶豫地選擇複雜對殺;也不用考慮時間限制,人類要算幾個小時的地方,它一分鐘也能給你走出來;也不會憤怒,也不要面子,我多次聽職業棋手講解員提到「這樣的棋職業棋手下不出來,太難看了/太委屈了」blabla的;AlphaGo不管這麼多,它是絕對客觀的機器。正因為這樣,AlphaGo的棋人類是學不了的,因為 1.再厲害的人類也有喜怒哀樂,柯潔和AlphaGo下棋會漲紅了臉,會緊張,會興奮,會嘆氣,還會哭;這些情緒一起構成了棋手的所謂「狀態」。而AlphaGo無所謂狀態不狀態,或者說每時每刻它都處於最佳狀態。2.人類沒法學習AlphaGo的演算法,它的每一步棋都是建立在海量搜索海量計算的基礎上的,其實它「為什麼要下這一步棋」,沒什麼道理可講的,因為算出來就是這樣。
最後說點無關的:公布的50局棋中白棋的勝率壓倒性地超過黑棋,而它使用的規則是中國規則貼三又四分之三子,或者換算成數目是七目半。印象中現在職業棋手也更喜歡執白棋,職業比賽似乎也是白棋勝率略高。這是否代表七目半的貼目對黑棋而言負擔過重了?
其實我覺得AlphaGo的好多招數在我們業餘選手學棋甚至平時下棋的時候都曾出現,比如沒事點個三三,比如隨便脫先,比如亂碰和靠…
但很可惜一方面我們並沒有那種大局觀或者棋力控制之後的局面,也算不清未來的變化…另一方面你要下這種棋一般都被老師狂抽…
alphago的棋風實際上是一種很均衡的棋風啊,這與他學習了所有流派選手的棋譜有關係,所以它才能該飄逸飄逸,該果斷果斷,該猥瑣猥瑣,該龜縮龜縮…
這種自如的變換其實是人類是比較難完美做到的,畢竟我們已經被限制在了某種嗜好上了,而也許所有的風格都不如沒有風格。AlphaGo 沒有「棋風」之說。
棋手的棋風,大致可分為三種:
大砍大殺型(古力)、輕靈飄逸型(周睿羊)、龜縮撈目型(陳耀燁)。簡稱為「力量流」、「敏捷流」「防禦流」
防禦流擅長「對目數的判斷」,遇上力量流,步步為營,令對方無從下手,憑藉深厚的收目功力勝出。
敏捷流擅長「對棋形的感覺」,遇上防禦流,左佔一點便宜、右佔一點便宜,積累起勝勢。
力量流擅長「對死活的計算」,遇上敏捷流,掄起大棒,一棍子敲死對手。
這三位均為超一流棋手,循環相剋(戰績為證),這種克制關係僅存在於同水平的棋手之間,其弱項只是相對的。對上實力差幾個檔次的對手,無論形成什麼局面,都能佔據優勢贏下此局;但對上旗鼓相當的對手,就要竭盡全力將棋導向自己擅長/對手不擅長的局面(即使在此過程中略有虧損) ,覓得更大勝機。
棋手將棋導向自己擅長的局面而表現出來的行棋思路以及價值取捨,就是「棋風」。
但目前的世界圍棋第一人柯潔,是沒有顯著的「棋風」的。究其原因,是其在「對目數的判斷」、「對棋形的感覺」、「對死活的計算」上都有極高水準,可以不考慮「未來局面如何」,選擇當前更有利的手段。根據騰訊圍棋中棋友對對局雙方的勝率支持率來看,目前柯潔對上除韓國小朴外的任何人, 勝率都在六成以上。
AlphaGo通過對數千萬張棋譜(包括人類棋譜和自我對弈棋譜)的學習,從統計學上得出當前局面下的最優解(勝率最大一手),自然是沒有「棋風」之談的。
有一些知友會認為AlphaGo有「棋風」:其行棋十分穩健
alphago有棋風,就是盡量避免亂戰,靠大局觀以德服人
實際上,「穩」並不是一種棋風,而是棋手在優勢局面下採取的一種策略——為了達到最終勝利的目的,在保持優勢的前提下,於較複雜的局部選擇簡明收束的招法(很可能有虧損,但在可接受範疇之內)。畢竟在圍棋中,贏半目和贏一百目是毫無區別的。反之,在處於劣勢時,再保守的棋手也會採取激進的招法,求得一線勝機。
Master的六十局,幾乎每一盤棋都是「下著下著就贏了」,人類棋手顯得沒有任何機會,甚至不知道輸在哪裡。其實質是AlphaGo在實力上全方位碾壓人類(這裡也有60局均為快棋的因素,古力九段認為:同一位頂尖棋手在快棋和慢棋中所表現出的實力差距,在一先左右)。圍棋AI採用的「勝率判斷」機制和人類棋手的策略不謀而合——在優勢的情況下,採取最穩健的手段。
所以說:AlphaGo沒有棋風,行棋穩健是其在優勢下的策略選擇。
第二個問題,AlphaGo在對局部死活的判斷中,有可能會犯錯,除此之外,幾乎不會犯錯。
首先要定義「犯錯」,在封閉的局部中,圍棋有最優解(比如死活題);而在關乎全局的選點時,圍棋是沒有最優解的,因為除非遍歷找不到最優解,圍棋的變化不可能被遍歷的,故可以認為「沒有最優解」。
在沒有最優解(找不到最優解)的情況下,就要追求「更好的解」,AlphaGo、絕藝發明出來的五路肩沖、開局點角等招法,在人類的認識中,都是「大錯特錯」的,業餘低段棋手才會下,而當AI下過之後,流行開來。只要實力強,能贏棋,下出的招法就是對的,也許在圍棋之神的眼中,AlphaGo常常出錯,但作為人類,是無資格說「AlphaGo犯錯」的。
AlphaGo也不是不會犯錯,雖然優勢下「穩如狗「,在劣勢下,也會犯」狂犬病「,如對李世石的第4局。但時間又過去了一年多,AlphaGo的實力繼續突飛猛進之後,縱使人類下出更多的「神之一手」,恐怕也很難取得優勢吧!
慶幸的是,圍棋AI有死活上的通病。絕藝、DeepZenGo等AI,在局部死活時有出錯,葬送好局,而這些局部人類業餘棋手就能算清。其原因是人工圍棋智能很難分清「整體」與「局部」的關係,無法遍歷局部中的每一變化,從而出錯。(簡單的說,人類在十幾個點中計算就可以了,能遍歷局部並算出最優解;而AI還是要在全局選點,所以在死活上人類有優勢,至少不會處於劣勢。)
能看到的AlphaGo棋譜過少,並不能確認AlphaGo和絕藝等圍棋AI一樣,在死活上會犯錯,但這是人類唯一的勝機了。兩天後的人機大戰,我們拭目以待。
首先如果掌握了圍棋的真理,在每個局面下就會有最善的唯一一手,既然是唯一的,就不存在風格一說!現在有棋風一說是因為不同的棋手在相似的局面下有不同的理解和選擇,比如說武宮流取勢,治勛流取地。alphago應該還未到掌握圍棋真理的程度,它的選擇應該是基於勝率,這種選擇上的傾向性表現出來應該就是一種風格。
剛看完柯潔對AlphaGo第一局,有感而發
從昨天柯潔的布局看,明顯是前一段時間已經在練對付AlphaGo的招數,三.三開局是其一,小目大飛守角早已有之,但是明顯是AlphaGo-Master帶起的一波熱潮,第7手更是學習Master招數,向AlphaGo致敬,看到這裡有經驗的棋迷都猜到柯潔這一局的策略很可能是先撈後洗。
這樣的針對性策略,高手之間的比賽,特別是番棋中很常見。
問題是,這樣不自然,過於執著於執行既定策略,經常會盲目地忽略了旁觀者輕易看到的更優選擇。
AlphaGo從來不會固執於構建模樣或搶佔實地,最注重全局配合、充分發揮所有棋子的效力,這才是自然,按吳老先生的說法,這才是道。
第一局,白30手一出,恐怕就註定了柯潔不能死守先撈後洗的策略,結果是白棋掏掉了黑棋的左上角,黑棋在左邊獲得了外勢。後來仔細品一品,左邊那4個白子半死不活,白48,50,54這三手相關的手段充分地利用了4個白子的味道、利用了黑子氣緊的弱點,已經有人進行了手割分析,左上角很可能是白棋得分。
我希望柯潔後面兩局不要用既定的策略縛住了自己的手腳,這樣其實不利於發揮出最佳水平。AlphaGo是沒有感情的,不會為任何策略所動。
圍棋博大精深,千變萬化。其每一步棋的好壞不是絕對,而是相對的。同樣一局棋,由於每個人的性格不同,閱歷不同,眼界不同,看待棋局的角度是不一樣的,理解棋局的意思也是不一樣的。下出來的棋自然也不一樣。下圍棋,最能體現一個人的性格,所謂「棋如其人」,就是這個道理。
因此,性格穩重的人行棋也穩重,性格衝動的人,行棋也衝動。到底哪種性格好,這卻很難說,性格穩重的人的確可以少出錯,但是很多時候容易考慮過多而延誤戰機;性格衝動的人則決斷迅速,把握戰機能力很強,可是很多時候由於欠缺考慮而容易犯錯誤。所謂「棋風」,就是指:「每個人將其獨特的個性融入進圍棋,從而在棋盤上形成一種自己獨有的風格。」 老射鵰主題曲里有這麼一句歌詞:「論武功,俗世中不知哪個高,或者,絕招同途異路」。說的就是這個意思。
阿爾法狗不是一個活生生的人,它只是一台冰冷的機器,它遵循人類賦予它的指令:「贏棋」,因此它所有的思路都是跟贏棋有關。它的眼裡只有每一步棋贏的概率有多大?所以它是沒有棋風的。
它在下棋時會不會犯錯這個問題很難說,要看從什麼角度來看了,如果從我們的角度來看,由於樣本太少,目前它的錯誤很難被我們發現。但是若從絕對的好壞來看,它的錯誤會很多,因為它每一步棋不是基於最優解來思考,而是基於概率和大數據來思考的:「這步棋未必是最佳的一手,但卻是此局面下大數據顯示贏棋概率最大的一手!」 那你說它是犯錯了還是沒犯錯?
今天聽說新版的阿爾法狗可以讓去年舊版的阿爾法狗三子,這一點我倒是不驚訝。阿爾法狗應該是有破綻的,只不過由於樣本太少,我們很難發現。但它們自己對弈,樣本就可能會很多,一旦舊版阿爾法狗被發現破綻,它又不像人類那樣可以利用心靈的能動心及時調整,很容易越下越慘的。
但是,這不代表新版的阿爾法狗也可以讓人類頂尖棋手三子!讓人類頂尖棋手三子,就好比讓巴薩足球隊四個人(不是四個球而是四個人),這是無法想像的!我覺得只有圍棋之神才有可能讓人類頂尖棋手三子,阿爾法狗雖然實力很強,但它離圍棋之神還是相差甚遠!所以它絕對不可能讓得了人類頂尖棋手三子!這與新版阿爾法狗讓舊版阿爾法狗三子這件事,沒有類比性。
這個問題下的各種回答想當然的太多。
AI當然有棋風,取決於他是用誰的對局來訓練的。
不考慮深度學習,單純的討論經典博弈樹,也有棋風,受靜態估價函數的影響。大家意見比較一致的是,gnugo計算能力欠缺,但棋風很正。
我對「棋風」的理解是這樣的。
「棋風」是棋手根據自己的經驗和喜好而形成的行棋思路,或者說經驗規律。
每個棋手都會有自己擅長的行棋局面。
為了更好地獲勝,大家都會想要把棋局引入自己擅長的狀態。
希望大規模作戰的,就形成了宇宙流。
希望小規模收束的,就形成了地溝流。
「棋風」很難判斷優劣,每一種「棋風」都出過很多世界冠軍。
也沒有一種「棋風」可以適應於任何對局;當年武宮正樹先生紅極一時的宇宙流,被大量研究後,就逐漸淡出了歷史舞台。
比起說,「棋風」是最好的解決方案,不如說「棋風」是棋手用來簡化思考的一種策略。
因為,對於圍棋的大數據量來說,人腦的思考能力實在是太微不足道。
將複雜的數據問題總結為精簡的規律,也比較符合人類的思維習慣。
就像著名的物理定理,一定能簡化成幾個完美的公式一樣。我們都喜歡這樣可以放之各種局面皆準的道理。
通過這些規律,我們可以對複雜的大數據問題形成掌控感。
而這些叫做 「棋風」的思路,在簡化了思考複雜度的同時,也引入了很多思維的盲點。
不習慣的選點,往往在第一時間就會被我們排除。去年,在看到電腦的行棋時,很多棋手的第一反應都是「怎麼能下在這呢?這能是好棋么?」
這其實,這就是由於 「棋風」帶來的思維盲點。
另外, 「棋風」作為一種行棋思路,也容易暴露對弈者的意圖。
很多圍棋對局中,都發生過利用對手「棋風」設計陷阱,或者刻意打破對手行棋意圖的故事。
比如,吳清源大師的名局,第一手下在天元的黑棋模仿棋。使木谷實彷彿在對著鏡子下棋,手段無從施展,進而焦慮不安,行棋節奏受到影響。
李世石也曾在自戰解說里說,他喜歡觀察對手的呼吸和行棋速度。
有時,他會故意選擇一些奇怪的選點,單純就為了打亂對手的計劃。
圍棋有一個很著名的說法,叫做「氣合」,這個說法來自於日語,可以解釋成氣勢,但字面意思又有點像呼吸的節奏。雖然,棋局多變,但從始至終往往順從一定的氣勢,或者節奏。
如果你聽到,圍棋解說里說,「走這步棋是「氣合」。」意思就是,這步棋是為了打亂對手的節奏,或者為了達成自己的節奏。
這種「氣合」,也是「棋風」的一種表現。
其實,以柯潔為代表的新一代棋手, 「棋風」越來越不明顯,或者說趨向於均衡。
這一代的棋手,有一個特點,就是網棋的訓練量特別大。柯潔單單和朴廷桓在網上的對局就有數百盤。在大量的訓練之下,思路往往漸漸開闊,也不再需要局限於「棋風」。從這一代棋手和上一代棋手的對局勝率就可以看出,這種無「棋風」的風格,思路開闊、盲點少、勝率高。
用句武俠小說里的說法,那就是,無招勝有招!
我們有理由認為,無「棋風」的風格,意味著技術更為全面,盲點更少,實力更強。
某種意義上說,阿法狗給人感覺無「棋風」,正是因為其技術全面,讓人發現不了破綻。
再說一下阿法狗的演算法,也就是「深度學習」+「蒙特卡洛樹」的演算法。
這是一個完全基於統計學建立的演算法。這個演算法的最大特點是,所有的選點決策基於大數據統計。
也就是說,在這個演算法結構上,阿法狗不存在從一而終的邏輯思路,只有對每個選點的勝率模擬數據,也更不用說有什麼「棋風」了。
第二個問題,電腦會不會犯錯?
需要指出的是,電腦給出的是統計學上的,近似最優解。
舉個例子,就像天氣預報,告訴你降雨概率為80%。
雖然沒有達到完全準確,但是你已經有足夠充分的理由,說服自己應該帶傘。
當圍棋棋局趨於確定,在思考空間足夠小的時候,人類的計算是可以超過電腦的。
例如,在和李世石對局的第五局中,電腦就在右下角的局部中,算錯了死活。因為局部的棋盤比較小,變化是相對可窮盡的,人類職業棋手,完全可以做到100%的準確率。
還有一直被許多人詬病的,電腦的官子。經常會出現明顯的虧損。這是因為,在棋盤的大部分區域均確定以後,解空間也相應變小,職業棋手在官子時,能做到50手內全部算清,步步最優解,這一部分也是超過電腦的。(此點存疑,具體見5-24 修改)
有人感性地把這種官子的虧損解釋為,電腦在讓人類,或者電腦覺得勝利足夠大了,不需要完美勝利。
其實我認為,這正說明了,電腦給出的只是統計上的近似最優解,而不是邏輯上的完美最優解。
隨著阿法狗數據訓練量的提高,這個近似最優解的可信程度也會越來越高。
如果說和李世石對局時,能給出的是80%可信度的近似最優解,那和柯潔對局時至少已經能給出95%可信度了。就是不知道,能不能讓電腦栽在那5%的可能性上了。
我不知道這算不算電腦的一個弱點,但還是希望柯潔能輕裝上陣,哪怕只有1%的可能,都希望能展現出一個棋手的不屈。
================5-24 修改======================
看完柯潔和AG的第一盤棋,關於AI官子的存在問題的部分,我想做一些修改。
為了保證原答案的完整性,我把補充的部分寫在這裡。
AI的官子虧損不是因為存在失誤,而是為了簡明勝利。
比如,兩步棋,第一手可以98%獲勝,第二手可以99%獲勝但是虧半目,AI也會選擇勝率更高的那一個,和計算力無關。
謝謝知友@王潛升的指正。
==============================================
去年的人機大戰後,我寫過一個關於阿法狗的小故事。
可以補充一些,我對 「棋形」「棋感」「棋風」的感性理解。
不過貌似問題太冷了,沒什麼人看。(笑)
如果大家有興趣,可以去看看。
李世石78手的妙處究竟在哪裡?能用通俗的語言描述出來嗎?不懂圍棋的人能感受到震撼嗎? - 知乎總結了一下AlphaGo的核心演算法,剛好一頁紙:
One-Page AlphaGo -- 10分鐘看懂AlphaGo的核心演算法其實AlphaGo的基本原理並不很複雜,理解了背後的邏輯,這個問題自然就懂了.
作為一個野狐渣5,自是懂不了alphago的棋,只是從最近公開的新聞來看,alphago有棋風,就是盡量避免亂戰,靠大局觀以德服人。如果有兩個選點,一個簡明的勝率稍低(大於50%),一個複雜的,勝率略高,alphago會偏愛簡明的下法(可能是鑒於對李世石第4局的教訓?),因為google肯定非常想全勝。
alphago對老版本的勝率也達不到100%,可見會犯錯,但是不一定抓得住吧。
還是希望柯潔老師能贏1盤,贏1盤就足以說明圍棋的魅力~當然全輸也很正常……
阿爾法狗最大的棋風就是沒有棋風。每一位棋手都有自己的行棋風格,似乎阿法狗作為人工智慧也不例外,過往的AlphaGo無疑是大局型棋手,然而,在人機大戰之中的AlphaGoha好似一位靈魂棋士,找不到它的身體在哪裡——AlphaGo的行棋無跡可尋,你永遠不知道它的下一手在哪裡。因為它的行棋正如同其強大的價值判斷和策略網路一般,每一步都是為了找尋勝率最高的那個點。如果非要為這種棋風賦予一個名字,那我想說,這是一種勝負師般的棋風——棋士的存在只有一個目的,那就是獲取勝利。
那麼,注重大局的阿爾法狗會不會犯下局部的計算失誤呢?可以說在升級版阿爾法狗的配置條件下,低級的計算失誤是很難發生的,而極為高級的計算失誤人類又很難抓住。在去年人機大戰第四局中,阿法狗在78手後犯下關鍵性的計算失誤,導致最終的失敗,但其升級版犯下如此失誤的可能性是極低的。所以,我們不能指望機器計算出錯。
棋譜注釋:李世石對alphago第四局,78手挖後阿爾法犯下關鍵性技術失誤。
那麼,阿爾法狗是否真的已經成為毫無弱點的圍棋之神呢?答案當然是否定的,也許未來不斷發展的人工智慧會成為無懈可擊的圍棋之神,但現如今的阿爾法狗還遠遠達不到這一境地。認真分析後,我們會發現:過分注重大局正是它的缺陷之一。當勝率成為最重要的著眼點時,價值判斷和策略分析的目的只有勝率最高解,但最高解往往不是唯一解,當棋盤上出現數個相同的勝率最高解落子點時,人工智慧就可能出現落子點莫名其妙的狀況,甚至會犯行棋思路不連貫的低級錯誤,這正如同人機大戰第一局阿爾法官子極其意外的虧損一般。所以,物極必反,過分注重大局以致人工智慧放棄了一些低級常識,很可能會出現重要的失誤而被人類打敗。
其實,人工智慧最大的弊端不在棋盤之內,而正在於它本身。機器永遠只是機器,沒有感情和自我意識永遠無法完全掌握對手的思路。數以億計的代碼與強大的價值判斷和策略分析網路無法學會圍棋的基本道理,而以勝率為唯一指向的所謂計算最優解並不符合真實的圍棋——開局勝率極高的點三三違背了不能幫對手形成勢力的常識;五路肩沖違背了五路是虛弱線的要義以及行棋思路不連貫等等。因此,針對其弊端的「下自己的模仿棋」的戰術是柯潔出奇制勝的關鍵所在。
經歷了第一局點三三的偉大嘗試,第二局的激戰與遺憾的失誤,第三局將是舉世矚目的經典名局。我們可以欣喜的將目光投向代表人類圍棋技術高度的柯潔,相信他會下出一盤載入史冊的經典對局,下出一盤自己的模仿棋。一方面,柯潔的模仿棋必然不給阿爾法圍棋變招的空間,讓阿爾法圍棋沿著勝率最高的價值判斷和策略分析網路在可模仿的落子點行棋;另一方面,在模仿棋進程中,必然存在2-3個可以變招的關鍵點,以贏得棋局主動權。可以預期,當阿爾法圍棋走入柯潔預計的理想圖之後,人類的勝利也就不遠了。
人工智慧雖然以優良大局觀和精密的計算而強大,但它並不是沒有缺陷,讓我們期待柯潔的自己的模仿棋。將希冀的目光投入烏鎮圍棋峰會,投入史詩般的精彩對局,好好享受一場屬於我們圍棋人的視覺盛宴。
——愛棋道趙老師
你應該先定義棋風,並設計一套演算法,能夠對給定的棋譜,判斷雙方的棋風。
我寫了一篇文章指出出了AlphaGo的漏洞:AlphaGo的致命漏洞 - 知乎專欄。 內容如下:
圍棋AI為什麼難做?公認的兩點理由是:搜索空間大、局面評估難。
AlphaGo為什麼厲害?因為它很好地處理了第一個問題。面對搜索空間大的問題,AlphaGo通過策略網路,使得選擇搜索分支時有了很強的針對性。但我認為AlphaGo還遠遠沒解決準確評估局面的問題,因為它是基於蒙地卡羅法做局面評估的,這會導致它在評估局面時出現致命的漏洞。下面我會用通俗的語言來做說明,小學生也能看懂:
蒙地卡羅法是一種用隨機數解決統計問題的方法。用在圍棋的局面評估上,就是將圍棋的局面評估問題看成一個統計問題。電腦評估一個局面好不好的時候,隨機下子,直到棋局結束,如此重複多盤模擬對局,看看勝率如何,勝率高的話就認為局面是好的。也就是說,它認為模擬對局的勝率高就是局面好。
但是在某些情況下,這是不成立的。如果接觸過象棋殘局的話就會知道,象棋殘局通常只有一個走法可以贏,走其它著法都會輸,勝率是很低的,但只要走對了就是必勝的。因此,勝率低不等於局面差,勝率高不等於局面好。這就是蒙地卡羅法必然有漏洞的原因。而且,這個問題也不會因為模擬棋局的數量增多而發生根本的改變。
AlphaGo模擬對局的方法建立在蒙地卡羅法之上,但有所改進,並不是隨機落子,而是落子在一些較好的位置上,但依然是用勝率來判斷局面的優劣。前面論證過,勝率高不等於局面好。因此這一定會是AlphaGo漏洞。
AlphaGo的局面評估運用了兩種方法,一是實戰時的模擬對局,二是價值網路。蒙地卡羅法的問題不僅僅表現在實戰時的模擬對局,也波及到價值網路,因為價值網路是通過實戰前的模擬對局產生的,同樣是根據勝率來判斷局面的優劣。
而且我認為,用蒙地卡羅法評估局面並不一定有讓圍棋軟體的棋力出現很大幅度的提升,具體原因請看我的另一篇專欄文章:真正引發電腦圍棋界大地震的並不是MCTS - 知乎專欄。
有啊,實際流,
每一步為最後的目標。。。。。極致的計算能力
(不懂圍棋也不懂ai的答主又強答了)如果說"棋風"指的是覺得什麼樣的招式厲害的話,alpha go當然有"棋風",就是它的估值函數。只不過人類的棋風可以用一句話說明的話,alpha go的"棋風"可能就是一本書,但是可能其中哪句話人類都看不懂,並且撕掉一頁可能它就不會下棋了。有些答主也說了,計算能力越強的話,你越看不出它的棋風。它參考了幾十步以後的成千上萬種變化里選擇了對自己最好的一步,它對這些變化的判斷和偏好是很難體現在這一步里的。只有完全按估值函數來下才可能看出它的"棋風",不過人類想用幾句話就概括人家的一本(天)書,應該還是很困難的。
AI有棋風的,只是對不同的人有不同的棋風。如果你愛實地,它就是宇宙流;如果你愛模樣,他就是地鐵流;如果你喜歡先撈後洗,它就來個殭屍流
其實,如果是輸贏的話,人類也許無法戰勝機器人,但是仔細想想,圍棋這麼悠久的歷史,真的只是輸贏嗎?別人我不知道,我圍棋水平也沒有很高,但是下棋會使我快樂,和不一樣性格的人下棋,體會是不同的,性格暴烈的人下棋也會跟重視進攻,性格謹慎的人可能更喜歡防守,,,就是這些不同才讓每一局棋都更有樂趣,輸贏只是一方面,柯潔只是一個97年的熱愛圍棋的年輕人,這樣以輸贏去評判他是不是太殘忍,圍棋難道不應該是一種心境嗎?
和柯傑的三盤棋已經可以看出棋風了,就是厚實。似慢實快,流水不爭先。重視全局的聯繫和均衡。至於算路深之類的都是基本功了。
我覺得人類已經不太好評論阿法狗是否犯錯了
推薦閱讀:
※如何評價對於AlphaGo打劫問題的質疑?
※如何看待王思聰對柯潔對陣AlphaGo的評價?
※柯潔 VS AlphaGo,誰將旗開得勝?
※AlphaGo 戰勝了李世石,人工智慧突破了圍棋領域,這意味著什麼?
※AlphaGo 與李世石的第五局比賽中有哪些值得關注之處?