人工智慧「阿爾法狗」告訴你學霸是怎樣煉成的

2017年10月19日凌晨,谷歌下屬公司 Deepmind 在《自然》(Nature)刊文,報告了新版、也是終版圍棋程序AlphaGoZero,可以從空白狀態學起,在無任何人類輸入的條件下,迅速自學圍棋,並已經以100:0的戰績擊敗老版 AlphaGo,當然,也能夠完勝任何人類對手。

柯潔,這位世界圍棋史上最年輕的四冠王,此前輸給阿爾法狗的世界頂級棋手在19號凌晨發了一條微博,「一個純凈、純粹自我學習的Alphago是最強的...對於alphago的自我進步來講...人類太多餘了。」

當阿爾法狗第一次戰勝人類圍棋冠軍的時候,一個新的時代來臨了,雖然那時它還要大量的依賴人類已有的圍棋經驗。

這次,又一個時代來臨了,新的人工智慧系統可以從零學起,超越人類。

這是一個所有的人和公司,都容易掉隊的時代。

讓我們再回顧一下阿爾法狗的進化歷程:

2016年1月27日,國際頂尖期刊《自然》封面文章報道,谷歌研究者開發的名為「阿爾法圍棋」(AlphaGo)的人工智慧機器人,以5:0完勝歐洲圍棋冠軍、職業二段選手樊麾。

2016年3月9日,韓國首爾,在谷歌發起的「人機大戰」第一局中,手握14個世界冠軍頭銜的韓國圍棋天王李世石轟然倒下,最終AlphaGo以4:1贏得這場比賽。

2017年年初,AlphaGo Master創造了連續60場對人類不敗的恐怖戰績,因此圍棋界都希望能夠有一名大神站出來打敗AlphaGo,以證明人類的實力。

2017年5月23日-27日,AlphaGo將與圍棋世界冠軍柯潔等為代表的中國頂尖棋手進行圍棋對弈。最終柯潔負於AlphaGo。

2017年10月19日,DeepMind今天發布新版本AlphaGo程序,經過三天的訓練,該系統能夠擊敗AlphaGo Lee,後者是去年擊敗了韓國選手李世石,勝率是100比0。經過大約40天的訓練後,AlphaGo Zero完勝AlphaGo Master。

如果說,此前的阿爾狗戰勝李世石跟絕大多數人沒什麼直接關係,那麼,這次阿法狗的新進化跟每個人都有關係。不是未來有關係,而是現在就有關。

我在北大讀博士期間陰差陽錯機緣巧合,做過一個智能「專家系統」項目。專家系統是人工智慧的一個領域。這兩天看到阿爾法狗的新聞,忍不住聊聊。

1. 狗大師的學霸秘訣

戰勝柯潔的阿爾法狗系統稱為AlphaGo Master,也就是「阿爾法狗大師」,簡稱狗大師。

DeepMind公司給這款人工智慧起的名字一點兒都沒誇張,因為,最終結果是狗大師把人類圍棋大師打的一敗塗地。

拋開技術細節,狗大師的秘訣其實非常簡單。

第一, 精準的讀懂棋譜。

讀懂棋譜首先意味著知道基本的遊戲規則,比如在什麼情況下一個子會被吃掉(無論是象棋還是圍棋),比如什麼算輸,什麼算贏。

顯然,這一切都能用數學表達,棋盤上的所有東西都是可以數字化的。

在這個階段,阿爾狗不需要人類任何經驗,只要懂得已經訂好的規則。

讀懂棋譜的更進一步是得讀懂以往的棋局。

實際上它不需要讀懂,它只需要把以往的棋局都存儲起來方便調用就行了。而這對於它來說非常簡單,因為,任何棋局都是可以數字化的。

所以,狗大師的第一步就是把規則和以往的棋局數字化。

第二, 會決策。

簡單的說,狗大師得知道,好歹。例如,在同樣的情況下,哪一招更高明。這一點至關重要,但是對於阿爾狗來說,並不困難。因為一切都是計算,並且最終變成了加減法的計算。

一旦狗大師從以往的棋局中看懂了同樣情境下哪一招更高明,那麼它就厲害了。

比如,柯潔在棋盤上放了一顆子。狗大師在以往的棋局裡搜索,同樣的情境下,下那個子勝算最大。把最大的找出來就可以了。

所以,說到底,這第二步就是會模仿就行了。

狗大師根本不需要自己想出什麼妙招,它需要做的就是拷貝以往人類大師的棋招。在對弈的每一時刻,它只需要找到最有效的幹掉對方的招,拿出來用就行了。

實際情形是阿爾法狗有兩個複雜的決策系統:策略網路和價值網路。策略網路負責預測對手的下一個子放在哪兒,而價值網路負責判斷相應對手的招數自己怎麼下才能贏。兩者都需要計算大量的可能性,都需要找出最可能的選擇。

第三, 大量模仿

顯然,狗大師能夠找到最有效的幹掉對方的招,取決於它的「腦子」里有多少以往的棋局,取決於它到底有多少可供選擇的高招。

顯然,它學習的量越大,所學習的棋譜質量越高,它就越厲害。

顯然,在這一點上,計算機是具有絕對優勢的。人類能夠記住多少棋譜還沒有統計過,但肯定是有上限的,而計算機的存儲量沒有上限!

當然,下棋是要有時間限制的,落子的速度很重要,而對於計算機而言,這個速度顯然是可以無限提升的。

起初戰勝李世石和柯潔的阿爾狗系統是依賴人類經驗的。不但如此,它要學習巨量的曾經有過的棋譜,做巨大量的計算,在大量可能性中最大概率的預測對手的下一步,並找出最有可能致勝的招數。

這就相當於一個人要學一門知識和技能,需要閱讀、鑽研、模仿大量的參考書。這個段位學習者的水平高下,取決於研習速度的快慢、和研習量的大小。

比如面對同樣的知識領域,研習過100本書/做過10萬道題目的人,輕鬆秒殺另外一個只研習過一本書/做了100道題目的人。當然,假設二者對學習都是一樣認真的。

說幾個具體的例子。

我的一位學弟叫童哲,物理競賽保送到北大。他高中的時候,做過40本物理參考書,包含高考級和競賽級的。每本1000題,總共4萬題左右。

你問他憑什麼保送北大?憑這個。

我的兄弟大威,也是同班同學,從英語30多分到全班第一,用了兩個月的時間,總共做了1萬多道英語題目(包含詳細的筆記)。他後來上了清華。

你問他憑什麼上清華?憑這個。

比如我,高三平均每天做了20頁學習筆記,一年按320天計算,總計6400頁筆記。我憑什麼一年逆襲進北大?很容易回答。

所以,對於許多叫囂「題海戰術不管用」的人來說,不是別有用心,就是……(說出來很難聽,不說了,你懂得)。

當一個人沒有什麼高級的學習方法之前,題海戰術就是方法。

無論在什麼領域,當你想不出什麼妙招的時候,用「量」壓倒對方,就是妙招。

阿法狗此前戰勝人類冠軍就是這麼乾的!它的學習量可以遠遠超過任何人類,它的學習速度永遠可以更快,而且它目標明確,永不疲倦,不帶有任何情緒!

中國古人形容一個人的高境界有個說法,「心空似水,意冷於冰,神靜如岳,氣行如泉」。

顯然,狗大師做到了。人類在愁眉苦臉,它在夯吃夯吃的干。由於計算機技術的發展,它連夯吃夯吃的聲音的都沒有了,而是不動聲色的幹掉了一個個人類大師。

所以,對於絕大多數行業和領域,尤其是對於有標準化考試的領域,如果你目標明確,能夠定量的、精準的、大量的模仿,不需要有什麼情緒,你就可以不動聲色、悄無聲息的幹掉絕大大多數對手!

這就是學霸的秘密。

2. 狗小零的學神秘訣

AlphaGo Zero它的獨門秘籍,是把自己當做老師,從一張白紙開始,零基礎學習,在短短3天內,成為頂級高手。

「AlphaGo在兩年內達到的成績令人震驚。現在,AlphaGo Zero是我們最強版本,它提升了很多。Zero提高了計算效率,並且沒有使用到任何人類圍棋數據,」AlphaGo之父、DeepMind聯合創始人兼CEO 戴密斯·哈薩比斯(Demis Hassabis)說。

AlphaGo此前的版本,結合了數百萬人類圍棋專家的棋譜,以及強化學習的監督學習進行了自我訓練。在戰勝人類圍棋職業高手之前,它經過了好幾個月的訓練,依靠的是多台機器和48個TPU(谷歌專為加速深層神經網路運算能力而研發的晶元)。

AlphaGo Zero的能力則在這個基礎上有了質的提升。最大的區別是,它不再需要人類數據。也就是說,它一開始就沒有接觸過人類棋譜。研發團隊只是讓它自由隨意地在棋盤上下棋,然後進行自我博弈。值得一提的是,AlphaGoZero還只用到了一台機器和4個TPU,極大地節省了資源。

「這些技術細節強於此前版本的原因是,我們不再受到人類知識的限制,它可以向圍棋領域裡最高的選手——AlphaGo自身學習。」 AlphaGo團隊負責人大衛·席爾瓦(Dave Sliver)說。

據大衛·席爾瓦介紹,AlphaGo Zero使用新的強化學習方法,讓自己變成了老師。系統一開始甚至並不知道什麼是圍棋,只是從演算法開始,進行了自我對弈。

隨著自我博弈的增加,系統提升預測下一步的能力,最終贏得比賽。更為厲害的是,隨著訓練的深入,DeepMind團隊發現,AlphaGo Zero還獨立發現了遊戲規則,並走出了新策略,為圍棋這項古老遊戲帶來了新的見解。

對於DeepMind來說,圍棋並不是AlphaGo的終極奧義,他們的目標始終是要利用AlphaGo打造通用的、探索宇宙的終極工具。

顯然,如果沒有意外,未來將出現一個探索宇宙的人工智慧大軍!而對於人類來說,還有什麼比探索宇宙更具根本性的事情呢?因為,宇宙就是一切。

阿爾法狗新進化最殘酷的地方是,它已經不再需要人類以往的圍棋經驗!

我們該怎樣理解這個事實?

阿爾法狗的最新超級版稱之為AlphaGo Zero,也就是「阿爾法狗零號」,簡稱「狗小零」。

顯然,狗小零比狗大師厲害太多。厲害在哪裡呢?負責人說,他們搞出來了一個「自我學習演算法」。它在自己跟自己下棋的過程中,不斷學習進化。這聽起來像是周伯通的雙手互博。打輸了的那隻手,就要想辦法贏了另外一隻手,於是,兩隻手越來越厲害。如此下去,自然越來越容易打敗對手。

自我學習演算法的實質是什麼?舉一個大家都知道的例子。

比如做數學題,有兩種思維套路。

一種做法是參考書做法。遇到一道題目,首先想自己曾經做過的參考書上的類似題目。如果類型一致,一步步套上去,就能搞定。哪怕題目的具體數字不一樣,都沒關係。比如這套題是3個蘋果,參考書上的類似題目是4個橙子。

第二種做法是從基本概念、基本定義、基本運演算法則出發,甚至是從歸納出來的解題套路(也是演算法)出發,無需別人的經驗,直接解題!

顯然第二種比第一種更厲害,因為不但知其然而且還知其所以然。第二種類型的人,更有深度,而且學習方法的可擴展性強,很容易把一門知識的成功移植到另外一門知識。

阿爾法零號就是第二種類型,也就是所謂的從「第一性原理」出發解決問題。

那麼這些原始的「自我學習演算法」是誰設計的呢?是知識工程師!

搞出「自我學習演算法」是知識密集型的工作。阿爾法狗團隊是全世界最聰明的大腦。他們抽象出學習策略,然後將它們轉化成演算法。

事實上,人類的頂尖高手都有自己的學習策略、致勝策略,但是與計算機相比,個體的人進化速度實在太慢了。

再舉個例子。

比如橋水基金是世界上規模最大的對沖基金,管理著好幾千億美元的資金。橋水的創始人雷.達里奧(Ray Dalio)總結出了他的解決問題的套路。如下,分為5步。

第一,有明確的目標。

第二,識別問題,這些問題不能容忍,因為它們阻礙你實現目標。

第三,準確診斷問題,找到原因。

第四,制定計劃,圍繞你的問題和目標而明確地制定任務。

第五,執行這些計劃,即完成這些任務。

達里奧說,「為了成功,你需要做好所有這些步驟」。他的意思是說,做不好這5步中的任何一步,你都很難成功,甚至根本不可能成功。如果成功意味著達成目標的話。

如果你曾深度的思考過你切身經歷過的事情,尤其是你曾經取得成功的經歷,你會發現:

只要你持續認真的做到如上5步,那麼你就一定會把一件事情做的越來越好!

這就是所謂「自我學習的演算法」。一個人如果這麼去做,他就能從自己的經驗中學習,把一件事情越做越好。

橋水基金之所以厲害,是因為他的創始人Ray Dalio開發出了「狗零號」的「自我學習演算法」,他本人和他的公司都在運行這個系統。

如果反思自己的經歷,你會發現,你思維清晰的按照這5個步驟做的經歷其實並不多。

反思周圍人的經歷,你會發現,人們思維清晰的按照這個5個步驟做的人也不多。

這就是很少的人能夠高效達成目標的原因。

但是,人們為什麼很難實施上述5個步驟呢?

再舉一個例子。

例如我高考的時候所做的筆記,不是一般的筆記,而是稱之為進步本。

這個技術有三個步驟:

第一, 針對當天所學,把做錯之後改正的題目,不會做的弄懂的題目,當天新學到的內容,記錄到本子上;

第二, 隨時隨地的複習已經記錄在本子上的內容,如果是題目需要重做,如果是知識需要在大腦中復現;

第三, 做測試題(模擬題),檢驗自己的進步,把做錯的不會做的題目弄懂記錄在進步本上。

我寫了一系列的長文介紹這個方法的來龍去脈,以及產生的效果。

事實上這個方法對於一切標準化考試都有效,是可以快速拿高分的。

有些人的成績突飛猛進,當天就有效。

我的史詩般的高考逆襲路【第2版】

初三少年3周自學高中三年數學,高考真題135

兩天學完1冊高中生物拿到90分是怎樣的體驗

而有些人則沒有什麼效果。

所有上述現象原因都是複雜的,但也可以歸結為一個原因:絕大多數人都不知道思維需要編程!

各行各業很厲害的人,都深知思維的法則。

例如剛剛提到的Ray Dalio。例如芒格稱巴菲特為「學習機器」,他自己意識一架超級「學習機器」。例如矽谷鋼鐵俠馬斯克自己成功的秘密在於善於從「第一性原理」思考。我可以說說的更具體一些。

比如,股神巴菲特在給格雷厄姆的《證券分析》(被成為投資聖經)寫的序言中寫到,他「讀遍了讀書館裡每一本有關股票交易的書」。

這就是狗大師的秘訣!

巴菲特在給格雷厄姆的另外一本名著《聰明的投資者》寫的序言中寫道:

1950年年初,我閱讀了本書的第一版,那年我19歲。當時,我認為它是有史以來投資論著中最傑出的一本。時至今日,我仍然認為如此。

要想在一生中獲得投資成功,並不需要頂級的智商、超凡的商業頭腦或內幕消息,而是需要一個穩妥的知識體系作為決策基礎,並且有能力控制自己的情緒,使其不會對這種體系造成侵蝕。

如果你遵從格雷厄姆所倡導的行為和商業準則,那麼,你將會獲得不錯的投資結果。這種結果所反映出的更多成就,要超出你的想像。

巴菲特推崇、深究並遵從的格雷厄姆的「商業準則」,本質上就是演算法,就是思維程序!

說了半天,要成為任何領域的高手,既需要前人的經驗、又需要自己總結套路。這背後的關鍵是思維編程!

誰都知道,人是有情緒、有情感的。

普遍的人生錯位是該動情的時候不動情,不該動情的時候亂動情。

人生的高級的模式是,用情感提供動力,用精準無情的思維編程來實現自己的目標。

無論阿爾法狗再厲害,人工智慧再怎麼厲害,人生永恆不變的主題是:勇猛精進!

雷打不動的勇猛精進!

在一切的如意與不如意之中,勇猛精進!


推薦閱讀:

什麼是高效產品經理
貪婪讓學習變成了苦役
Excel中的隱藏功能,你知道的有多少?
公司要求每天寫工作總結,每周交周報,是否有利於團隊發展?

TAG:高效学习 | 高效工作 | 心理 |