Master來了!人類棋手還有機會嗎?
紅遍網路的神秘棋手「Master」如約登錄了圍棋對弈平台,先送韓國第一人朴廷桓5連敗,再勝另一位韓國世界冠軍元晟溱。在3日晚間,又拿下了柯潔。
人類棋手的末日來了?1月4日與陳耀燁的比賽中,由於陳耀燁斷線時間太久,沒連回來,系統判了和棋,51連勝被終結。這太尷尬了。。。。。。還是人類套路深
答個不相關的:
5月份和柯潔對戰的AlphaGo版本對master版本勝率已達100%,【圖片】某位叫潛伏的一般市民透露:五月的AlphaGo對Master有百分百勝率【圍棋吧】_百度貼吧。
太可怕了。。柯潔好像在和DeepMind團隊一起分析AlphaGo的後台數據,估計過不了多久又會有什麼「驚喜」吧。。
謝邀~~我們只能見證這個時刻,看著他遠遠的過來,超過我們,然後呼嘯而去。
有。Sina Visitor System不必迷信master,它很強沒錯,但也有可尋的弱點,多了一些它的對戰棋譜和以前的對李世石的譜,更讓我覺得人類有希望。辦法要看圖的點上面鏈接。文字拷貝在下面要點是多線作戰,master有時會找不到最佳落點。
知己知彼,可黑可道。在這個後六十連勝的時代,來聊聊怎麼樣才可能贏master版的阿狗。
A-阿狗的機制
要講黑道先得了解一下alpha go的基本運行機制。它一共有四個大模塊1.MCTS,2.快速展開網路,3.走子網路,4,估值網路。名詞聽著很陌生,其實不難理解。快速展開網路的功能就是對一個目前棋局做快速的展開下到棋局結束,然後程序判斷是贏還是輸,這是阿狗判斷的一個依據。走子網路的功能是選下一步走在哪裡的一些可能性。走子網路有兩個選擇(其實是三個),一個是通過KGS高水平對局訓練出來的走子網路(SL),另一個是在此基礎上通過reinforcement learning訓練出來的走子網路(RL)。兩個網路結構差不多,但參數不一樣,RL是左右互搏來提高自己水平的,它有優點也有缺點,這裡不展開。價值網路的用處是估算目前局勢好不好,是基於全局輸贏的判斷。它是通過RL左右互搏幾千萬,現在可能更多,盤棋訓練出來的。MCTS是阿狗用來搜索並且確切的挑出下一手是什麼的演算法。其它網路是基礎的支撐。MCTS先挑幾個有希望的下一手,然後在這些手的基礎上再展開幾手,這樣就有一個樹形結構,到達第L層時,不再用走子網路展開搜索而是直接用快速展開網路展開到底。這樣就把一次模擬做完,這樣重複很多次,MCTS可以通過自己的演算法挑一個最好的下法,然後落子。
這麼輕描淡寫的運行機制其實是建立在巨型運算之上的,這個計算不光是對弈時的運算量,更重要的是這些網路的訓練需要耗費極大的運算量。更可貴的是程序員的智慧,因為裡面的技術小細節可以決定網路質量,繼而影響機器下棋水平。沒有這些阿狗就沒有今天,因此歸根到底,狗是人類的朋友和寵物。
這個運行機制是如何提高阿狗類人工智慧棋力的呢?deep mind的論文里告訴大家每一個模塊對勝率都有重要的影響力。比如快速走子展開網路,它的影響的可能主要是局部對殺的能力。走子網路主要提高機器的布局能力,也就是說它其實是建立在人類智慧之上的。估值網路的功效在於給機器提供一個對整盤局勢的判斷的依據,雖然MCTS選落子的時候,它不是唯一選擇。如果演算法只用它,機器棋力會下降。事實上,阿狗的演算法里控制了一個平衡:exploitation 和exploration.失去平衡的機器可能要麼特別有想像力但有時會發瘋,要麼墨守成規比較好預測。MCTS和其它模塊一起運行保障機器隨時以大局為重並且眼光深邃而且寬廣。用圍棋語言就是算路深,妙手多,大局好。
這就很好的解釋了人類高手在快棋時面臨的困境和結局。通常是在一頓拼殺後不知不覺中,master已經圍出一個蔚為壯觀的巨大空,此為大局好;或者在大家意想不到,人類的『棋理』通常不會考慮的地方,來一手或者犀利或者讓人迷惑但又不好對付的棋,此為創意多;又有時人類想要和master拼殺,但大師總是在平穩的騰挪里,面不改色的泰然處之,此為算路深。有這三個特點,快棋里人類不崩潰才應該是新聞。它簡直就是接近圍棋之神的機器。
阿狗演算法里從高層總結有幾個特點:1.汲取了人類的下棋直覺,通過走子網路來獲得;2.算路很深,主要靠MCTS和展開網路;3.時刻以大局為重,一切以贏棋為目的;4.最後,有一定的隨機和意外手段。
B-黑客戰略
然後這麼霸道,冷酷,而全面的master,肯定不是不可擊敗。即使是人類,也有希望。
前一篇 人類所欠的圍棋債 里提到,master官子一般,這是事實,但也是事出有因。訓狗時,演算法的唯一目標是輸贏,所以怎麼贏更多目數並不在它考慮範圍內。但每次都是館子虧損,也說明它的官子演算法里可能有缺陷。如果有缺陷,我覺得也是有原因的。因為官子其實需要在棋盤的多處輪流處理,次序很重要,也沒有固定的下法。它的走子網路,展開網路,還有估值網路對這個就不那麼敏感。這也造成它收官時靈活度和計算大小上不是特別準確。但這一波,人類前面落後實在大多,官子的問題沒有凸顯。但這個是人類可以利用的一個點。
第二個可以利用的點,在於人工智慧對於人類一些基本棋理的不了解。阿狗其實很少有按照預設規則下棋的時候,預設的一些小規則也是在訓練網路時用到了,其後就是不斷的算網路和統計MCTS的量了。同時,它下法上面的exploration 和exploitation的平衡註定了,在某些情形下,它會下出奇怪的應手。理解這一點,一方面是說,不要過分解讀master的神奇之處,尤其在細細研究它的棋譜之前;另一方面,我們可以制定一些戰略上的辦法來嘗試利用這個潛在可以利用的缺陷。比如,孤立的局部的戰鬥,尤其在布局階段盡量不要挑起。首先,此類對殺人類目前優勢應該不多甚至沒有,同時還得考慮全局,這對人類來講具有太高的挑戰性。其次,假設這類戰鬥有兩個比較可以接受的結果,實地或者外勢。取了外勢的機器非常懂得如何把它變成自己目數;而人類在得了外勢後經常有些不知道選取最好的點,同時機器對攻擊削減外勢貌似很有手段。因此開局時盡量留有迴旋餘地,不輕易交換也不要鎖定交換。期待的是在中盤階段多處有餘味的戰鬥,可能會讓機器的搜索程序出現盲點,如果阿狗沒有在演算法里加入自適應的控制,繼續保持它的套路,很可能在這時出現機會。目前唯一的案例,李世石-阿狗的第四局那一挖,其實就是一個例子。這是幾塊棋纏鬥之時,焦點是黑棋的兩子棋筋(G6-7)以及白棋的突圍。然後在白棋達成目標後,此處局面其實黑棋有簡單的改變攻擊方向,指向中間立著的M上的白三子並且。那麼情勢還是對白棋有利。但此時,局面碎片化,有多處黑棋需要考慮死活以及圍空,這對機器的挑戰就很大了,這種局面的人類直覺不好學,因為真的需要『理性』的思考和平衡利弊,不像開局處,統計式的算局面以及對人類直覺的統計模仿(走子網路)可以達到甚至超過人類,那這裡的真實的估值函數對於選點是極端不平滑的,選錯點會造成生死的差別,而機器正是此時出現了人類看來莫名其妙的選點。這不是機器崩潰了,而是價值函數不平滑的情況下,有很多模稜兩可的點可選,隨機性決定了它選了莫名其妙的地點。這局我凌晨看的,當時的心情異常爽快。
李世石-阿狗第四局78手,挖
構成這個局面的其實都是些殘子的餘味,還有多處棋塊的關聯。這個是可以利用的策略指導。布局時要考慮到。這個潛在的缺陷是不是在master版里被彌補了呢?個人看法是很可能更大了。因為看完一些棋譜,master總體感覺exploration的能力,就是創意的新手,好像變強了,也就是deep mind的工程師調了參數加重了這部分網路的比重,或者RL網路訓練的樣本變大了。後者可能比較小些,因為之前的訓練表明,RL訓練出來的網路偏向保守,變化性不足。
C-棋道的研究
沒有人懂得棋理的全部,我更是不行。但是還是可以聊聊,不是嗎?
布局 布局 布局
布局階段,雖然大多務虛,卻是每個子的平均價值影響力最大的時期。這一點說來並不難懂,但實戰時,貌似很多棋手都會暫時性的忽略。所以實際看來,這個簡單的真理,目前強調的還不夠。但這點特別重要,值得換一個說法,再來講一遍。布局的每一步必須考慮全局價值,而且很有可能一手錯而成全盤恨。這點在大家的下棋哲學相近時,問題不突出,大家都在定式和研究局部變化時,忽略的問題也不突出。而遇到master這樣天生考慮全局的對手時,我們最牛的職業棋手,布局階段大多落後相當多。
這個就要提到聶老了,他的前五十號稱天下第一,並且一貫重視大局觀,也一直在佈道。是真的智慧,再強調都不為過!
了解了這點,我就要提很多問題,比如定式的運用。就如前面一篇里寫的,我們世代研究出來的一些定式是布局階段的基礎。然而這些定式中的很多,就不說全部了,應該是隨著情況而採取的,並不是一成不變的。這裡舉一個例子,是master測試版對日本的deepzen在KGS的第三局,master在天元旁邊踏空連下兩子以示讓zen一把。然後棋局到了下圖。
Zen和GodMoves(應該是master的測試版),master開局在中央下了兩子,表示讓一下Zen
GodMoves(也就是master測試版)接下來怎麼下呢?一般定式或者傳統智慧告訴我們,此時我們可以對白B6施加壓力,把根基立穩同時獲得實地,交換走的是白棋在左邊安心做活。斷然不能讓白棋在D9搬過來破壞黑大勢。而黑卻飛了一手在C14。簡單幾手之後局面如下。
黑棋充分利用了下面的子構築出來巨大的勢力。左邊安穩,中間二子也被利用到了,白苦苦逃亡,沒有圍出空來。局面天翻地覆。這一幕在六十連勝里也常常發生。和master下時,必須牢記這一點,它的效率極高,布局階段不能隨意棄子或者讓它圍出大空來,它孤立局部的手段很好,一旦圍空,很難有效傾銷或者成功打入。
所以棋理是什麼?我想棋理應該是靈活的,需要考慮全局。棋理不是定式,定式大多是很精巧的局部經驗,但需要隨著局面的子力配置靈活改變。我看了一些棋手對局後的評價,很多時候,我們的棋手研究還是著眼於局部的手段上,擺變化,這些變化固然有意思,也很重要,但如果沒有把全局考慮進去,這樣擺的變化很可能理真理不近。
這個簡單道理在布局階段尤其重要,而從棋道上講,人類要暫時戰勝機器最有效的研究可能就是在布局階段的研究上。我們憑藉特有的直覺,需要研究master布局的特點,並且提出更好的布局方案來。這個可能性是很大的。理由有兩點,第一,master本身就給我們演示了新布局的可能。第二,開局的自由度極大,master所依賴的直覺訓練大多來自人類的過去對局。所以第一要義就是布局布局布局。
改變 改變 改變
master老師教我們下棋之後,我們看到了master展示的原來人類認識中的圍棋盲點。棋手們需要接受它。這就比如大航海時代或者大探索時代,誰先接受和承認事實,誰就可以在這個大變革的時代取得先機。master的具體一手棋是不是真的很好,這不一定也不應該是我們需要思考的。需要改變的是我們對於下棋的保守理解。人人知道圍棋的變換無窮,卻少有人有膽識有魄力去真的投入到改變和創意里去。
神之一手,妙手……還是太少!我們需要去尋找它們,改進固有思路,主動改變思考的模式,可能是達到彼岸最重要的先決條件之一。希望人類的棋手們擺棋時不再僅僅滿足於在局部的美妙變化。
這些要求都很高,因為棋手們需要考慮額外的可能性。但當我們形成習慣去做這件事,我們大腦可以很快獲得直覺,這方面大腦的效率比機器要高的多。而我們也只有憑藉這種新直覺的產生來再次贏得對機器的勝利。
D-人機大戰規則如何定?
什麼樣的規則才是合理的?人腦考慮一個局面的時間-效果比應該是有一個飽和過程的,最初的幾秒甚至一分鐘可能帶來的效果增長很快,到了後面思考的得利越來越小。而機器不一樣,它的演算法決定了,它的時-效幾乎是線性的。所以人機所得的時間是不是考慮有所差別?
機器的演算法建立在大量人類對局的智慧之上,並且做了改進,加上自己的運算優勢,同時還有創新的能力,而我們人類棋手對機器的『智慧』了解太少。這是一個巨大的不對稱。人機大戰是不是考慮允許熱身賽。柯潔或者其他人類代表應該被公平的給予一定量的對局機會,這樣對於雙方都公平,尤其人類。
啰嗦的寫了很多,不是圍棋人工智慧的專家,也不是圍棋的高手,所以難免錯誤不少。僅供娛樂,有時可以參考。
如果 」機會「 是指,在任何一個時刻,最強的人類棋手和當時最強的圍棋程序對弈,是否可能取勝,那麼答案是顯而易見的:沒有機會了。人類最後一次戰勝最強的圍棋程序,就是李世石 2016年初五番棋中,僥倖獲勝的第四局。那一刻正好是電腦圍棋迸發,超越人類的拐點。在此之後,就像另一個回答中所說的,」它呼嘯而前,把我們遠遠落在後面「。
我好奇的是,Master 接下來是不是應該跟人類冠軍下讓子棋。最終在讓几子下可以打個平手?是 2-3字,還是 4-5子,抑或更多?從中,我們可以窺見圍棋到底有多精深,我們以前到底摸索出了多少?如果 Master 可以認為是棋力的理論極限的話,以血肉之軀能夠逼近到什麼程度?
或者,把世界所有高手彙集一屋,給予無限時間,大家群力合戰 Master。看看這種情況下,會是什麼結果。
總之,平等對弈已經毫無懸念。可能這恰恰是人類棋手的機會吧。「圍棋有百,我知其七」,以前人們覺得知道七就是全世界,現在才tm的驚醒夢中:我不過了解了其中之五,狗才了解了七,況百呼!
——————————————
沒有立場,不過人類不就是在不斷知道自己不足和無知的前提下才一步一步走到今天嘛?看見早已不在年輕的聶老挑戰AI,一個又一個職業棋手坐等著AI翻牌子,這不正是人類棋手的機會嗎?至少他們看見一個更廣闊的世界,一個圍棋有百的世界,而不是抱著自己的五,裝作自己了解全世界。
———————————————
最後說個小故事,親身故事:大一的時候學高數,跟一個哥們我倆天天曠課不認真學,後來果不其然的掛科了。第二年重修的時候,可能是良心發現,也可能是重修費太貴 ,也可能是班裡有漂亮學妹,反正我倆算是洗心革面啦,多少學了一點。
一天,剛上完重修課,因為馬上要考試我倆就在教室里多做了幾道題目,然後去食堂吃飯的路上、路上:那個傻逼突然很認真的問我:「封越,你說他媽的上次我倆是怎麼敢去參加高數考試的?——————————————
這可能就是你了解的越少覺得自己越牛逼的道理吧!傻子都是有共性的嘛。就像圍棋一樣,人類傲慢的認為這是自己智力優越感的象牙塔,可能它不過是AI手機App里的簡單入門 。真正讓我感到開心的是職業的棋手們沒有傲慢的拒絕AI的挑戰,而是前赴後繼的衝上戰場,哪怕只是為了學到一點點,哪怕是為了自己的榮耀和身為棋手的尊嚴!
朝聞道,夕可死。人腦只是人體的一部分,人作為生物的第一使命是存續和繁衍,並不是設計用來下棋的,人腦在可見的未來也不會像計算機一樣每18個月算力加倍,存儲和I/O能力不會不斷提高,演算法(棋藝)也不可能無限積累。所以人腦這個硬體以及裡面的軟體更新相對AI是非常緩慢的,AI(以及背後的研發團隊)在下棋這種很單純的項目里一旦超越頂級人力水平,以後幾乎可以肯定的說純人力是別想贏了。
其實從李世石輸了以後,圍棋界人類對人類的直接pk已經在相對的觀賞價值上開始下降。以後最高水平的賽事一定是不同的人或者團體通過機器(或者說AI)進行的,甚至各大IT互聯網公司有可能會通過各自AI的各種智力pk來做市場營銷。
有的人可能會說既然汽車比人跑的快,那為什麼100米這種田徑項目還沒淘汰。因為一個比賽存續與否取決於消費者愛不愛看,決定性因素是觀賞性,觀賞性的來源有很多,純競技水平、風格、選手顏值、肢體動作美感、意外事件、場外故事等,但不幸的是,以圍棋為代表的大部分靜坐類智力遊戲,觀賞性幾乎可以等同於競技水平+風格,人一旦被AI遠超過去,看人比賽還不如看AI比賽。人類棋手的最佳職業轉型可能會是解說,那麼「選手顏值、肢體動作美感、意外事件、場外故事」這些與單純競技關係不大的因素就轉移至解說人、代擺棋人、AI dashboard(比如CPU/GPU佔用率、溫度,甚至可以做擬人化)等。
當此類AI賽事的水平一旦迫近或者超出人類能胡謅解說的最大範圍後,就差不多藥丸了,運動項目-1。
工欲善其事必先利其器。
飛機汽車是「器」,能跑出人類靠自身無法到達的速度
挖掘機起重機是「器」,能帶動人類靠自身無法舉起的重量。顯微鏡X光機是「器」,能看到人類靠自身無法看見的精度和深度。…………
AI再強,始終是「器」
「事」,才是人類該關心的問題。人不一定非要手工下棋,還可以通過機器下棋。就像上班,你既可以使用身體自帶的工具——兩條腿走路,也可以使用機器工具——汽車。
圍棋比賽以後就演變成:賽車。兩個人各自操縱一台機器比賽,賽車看過嗎?還是很精彩的。
十幾年前玩紅警我打不過電腦,媒體居然不來採訪我
很多年後,會有一幫人從未來穿越回今天,消滅人工智慧。那是最後的機會。
個人認為限時棋已經沒機會了.只有通過群毆討論 儘可能的擺變化 來接近最優解.計算機的價值權衡精度還是有限的,我認為人類還有機會分先獲勝,但絕不會建立在網棋規則上.
圍棋比賽反外掛任重道遠
用人類創造的東西來鄙視人類,真的是可悲的。為嘛沒人和汽車比賽跑??
人工智慧贏了,master不能翻譯成大師,得翻譯成主人了。。
個人從阿法狗進入官子階段會下損棋入手分析:
進入盤面已經能被狗窮舉算清的階段,會出現其中n個選點狗程序價值判斷都是勝率100%,基於是靠計算論證選點勝率大小來決策落子,出現很多勝率都100%的選點狗自己懵逼,於是很困惑的隨機選個勝率100%的點而已、如果加個追求多贏目數程序指令-----到了盤面能窮舉會出現多個勝率100%選點時,啟動這個追求多贏目數指令為主導向,就完全是教科書式官子了。基於以上,可以找狗最早開始出現退讓的一盤推測出狗的大致計算深度和廣度....那麼人序盤、中盤計算深度廣度起碼也要與之相當才可能贏狗......個人推斷這個深度廣度計算量人都難以企及.
深度學習只是把暴力窮舉巧妙的化解為有限計算的成功經驗累積+失敗經驗排除法,本質上是用強大資料庫累積和處理程序無限逼近窮舉必勝解。以上論證觀點是人類是已經不可能戰勝狗了。這是最好的時代,也是最壞的時代。雖然人類的最後一塊堡壘被攻破了,可以後圍棋的發展將大大加快。阿法狗和master對圍棋的衝擊不亞於2次工業革命對人類的衝擊。現在圍棋的很多定式是從吳清源時代傳下來的,棋手在很多情況下容易形成思維定式,有些布局已經形成套路,但人工智慧將大大改變這一局面,這60盤棋電腦下了很多我小時候學棋如果下就會被老師打手板的棋,輸給這麼厲害的對手,沒啥丟人的。但我還是覺得,現階段如果是慢棋,人類還是有獲勝的可能的。
另外,我是業餘5段,所以之前也不算xjb亂說的。
人類棋手打出了GG
Master(阿法狗2.0)對職業高手的連勝記錄證明,當代圍棋理論中很多看似精華的成見實為糟粕,而不少看似離經叛道的著法才是正途,圍棋之道,天外有天。Master行棋自由自在,在棋盤中翱翔,滿是六合圍棋的神韻,吳清源大師的在天之靈,應當是很欣慰的吧。隨心自在,做人亦當如是!
藤澤秀行說,人生要活得瀟洒、豪爽和俠義,不要太在意名利。勝負心太重,人生就不夠精彩。下棋也是一樣,評目的論動機,求道為上,修行其次,勝負再次,余等為下。所以,不要背定式,不要下別人的棋,也不要走別人的路,不斷試錯,自己嘗試,走自己的路。
求道不止,吳清源大師畢生正是如此追求。吳清源早年與木谷實共同掀起新布局革命,近代圍棋由此發端,按說足以憑此青史留名,卻在晚年又倡導「二十一世紀的圍棋,六合之道」,世人當初都認為老先生年紀大了胡言亂語,棋界也一直不以為然。
然而阿法狗橫空出世,人工智慧用機器學習演算法算出的棋道,竟與吳大師的智慧和洞察不謀而合,阿老師的著法,流露著吳大師的氣息。真正的大師往往是在逝世後才被世人認識到他真正的價值,那是因為時代落後的太久。梵高的星空,吳清源的六合圍棋。
另:有人說快棋是欺負人。其實快棋是放大了當下圍棋理論的局限,應該是阿法狗團隊有意為之。蒸汽機來了,人類還有機會嗎?計算器來了,人類還有機會嗎?原子彈來了,人類還有機會嘛?互聯網來了,人類還有機會嗎?機器棋手來了,人類還有機會嗎?拜託,人類自己都還沒有完全搞清楚什麼是意識,什麼是只會,這機器了不起是個大規模棋譜統計器而已。AI很美好,但是切莫嘩眾取寵,讓人恥笑。另外,多讀書,別老想著世界末日。感興趣的話自己學學寫代碼,tensor flow早就開源了,可不可以自己研究一下再來開嘴炮?什麼羅胖末日輪,聽見就想翻白眼。
1、機器由人類創造。2、機器的運算速度比人類快太多太多。3、單純對比運算速度,機器完勝。但是圍棋從創造之初追求的就不是勝負,或者說勝負只是其中之一。如果你問機器下圍棋什麼感覺,它只能對你說無可奉告。4、如果創造一個拳擊機器人,一拳打出10000KG,一拳就能把人類打炸了。還需要談什麼拳擊技巧嗎?一切技巧在10000KG面前都是浮雲。5、那我再問你,這種單純對比運算速度/力量有可比性嗎?6、機器超越人類不是首次,也不會是最後一次。機器對比機器,人類對比人類。才算公平。
推薦閱讀:
※為何大家對AlphaGo比人類棋手強大的可能性這麼恐懼?
※如果將alpha go加入到棋魂的劇情中會怎麼樣?
※李世石在與AlphaGo對弈的第四局下出的「78挖」這一手是否算得上「神之一手」?
※團體賽相談棋的形式能贏 AlphaGo 嗎?可能的勝機何在?
※如何看待羅洗河表示「對於對戰圍棋AI很有研究,有信心讓四子戰勝AlphaGo」?