AlphaGo強勢碾壓人類!「新狗」自學三天勝人千年

Alpha「老狗」退役了,「新狗」不但以100:0的成績完爆「老狗」,還無師自通,自學三天,勝人千年,這是要顛覆人類的節奏?

北京時間10月19日凌晨,谷歌旗下的人工智慧公司DeepMind在世界頂級科學雜誌Nature雜誌上宣布了AlphaGo的「進化」,可以在沒有人類干預的情況下自我學習,新的AlphaGo Zero在自我學習3天之後,就以100比0的成績戰勝了第一代AlphaGo。

自我學習能力的出現,對於人工智慧和機器學習來說,是一個新的突破。「過去人們普遍認為機器學習是基於海量的大數據,但是從AlphaGo Zero身上,我們發現演算法比數據更重要。」AlphaGo項目的主要負責人戴維·席爾瓦(David Silver)說道。

而當人們驚訝於AlphaGoZero在圍棋領域的神級水平時,對於DeepMind團隊來說,這才只是剛剛開始,他們的目的是通過培養自主學習的能力,來解決更多其他領域目前無法解決的棘手問題。

AlphaGo的進階之路

先來回顧一下,AlphaGo 的光輝戰績:

  • 2015年10月面世,擊敗歐洲冠軍樊麾

  • 2016年3月,擊敗人類頂尖棋手之一李世石

  • 2017年元旦前後,在網路上化名大師(Master),60:0完敗前來車輪戰的人類一流棋手

  • 2017年5月,在烏鎮3:0戰勝當下人類最強者柯潔

  • 與柯潔的對弈中,AlphaGo已經能下出很多人類棋手完全無法想像的路數,比賽後柯潔表示,第一代的AlphaGo還能找到破綻,Master已經實現了「從人到神」的飛躍。

    而AlphaGo Zero在「獨立」上更進一步,在訓練的過程中,它是自我對弈。從訓練圖上可以看出,由於一開始並不熟悉圍棋,對弈雙方的水平都很弱,但是隨著時間的推進,在短短3天互相博弈490萬局後,越來越強,實現了圍棋水平的突破。

    △AlphaGo訓練的72小時圖譜

    如今,AlphaGo Zero無需任何人類指導,通過全新的強化學習方式自己成為自己的老師,在圍棋這一最具挑戰性的領域達到超過人類的精通程度。

    相比起之前使用人類對弈的數據,這一演算法訓練時間更短,僅用3天時間就達到了擊敗李世石的AlphaGo Lee的水平,21天達到了之前擊敗柯潔的AlphaGo Master的水平。

    阿法狗棋力的增長與積分比較

    AlphaGo Zero不光又快又強,還省資源,只需要在4個TPU上,花三天時間,自己左右互搏490萬棋局。而它的哥哥阿法狗,需要在48個TPU上,花幾個月的時間,學習三千萬棋局,才打敗人類。

    人類天才棋手柯潔還發了個微博,表示人類太多餘了。

    但DeepMind團隊志不在此,「AlphaGo的意義不在於打敗人類,而是領悟知識,解決更多的問題。」戴維·席爾瓦表示。

    商業化加速

    今年5月,DeepMind創始人傑米斯·哈薩比斯曾在接受記者採訪時表示:「如果說谷歌是火箭,DeepMind就是燃料。」

    在此定位之下,AlphaGo雖然進化神速,但絕對不會止步於圍棋。

    這家公司一開始只是一家位於英國倫敦的人工智慧實驗室,研究方向是開發通用自我學習演算法。2011年,哈薩比斯在埃隆·馬斯克等人的投資下,成立了DeepMind。2014年,谷歌以4億英鎊(約6.5億美元)的價格收購該公司,當時這家公司只有50名員工。AlphaGo就來自於這家公司。

    AlphaGo戰勝韓國第一棋手李世石引爆了AI技術和市場,也讓DeepMind在谷歌AI戰略中地位舉足輕重。

    不過,DeepMind團隊從一開始研發AlphaGo系統的目的就是能實現行業應用,並帶來商業價值。圍棋為AlphaGo帶來了光環,卻並非最終目標。

    哈薩比斯表示,「AlphaGo Zero是我們現在最強版本的程序,顯示出我們在運用更少的計算能力和零使用人類數據方面的進步。最終我們想利用這樣的演算法突破,幫助解決各種緊迫的現實世界問題。」同時他還表示:「下一階段,DeepMind整個團隊75%的精力用於人工智慧技術的研發,另外25%精力放在行業應用上。」

    具體分工上,哈薩比斯繼續主導技術研究,另一位創始人穆斯塔法·蘇萊曼則負責主導商業化。

    穆斯塔法認為,繼續技術研究和商業化是一種平衡。「我們手裡有很多實驗室里的新技術,都是寶貴的資源,而這些技術的商用不僅能造福社會,一家公司也必須有可持續的商業利潤來源。」

    據他介紹,目前DeepMind由兩個團隊組成,哈薩比斯負責研發團隊,而他負責技術應用業務。技術應用團隊又再分為三個組,一個組服務谷歌的產業和谷歌的其他業務部門;第二個是醫療組,已經與英國的國家醫療健康局合作;第三個組是能源組,目前還在啟動階段。

    此前,DeepMind已經牛刀小試,成功利用機器學習為谷歌大幅度節約電量,帶來實際收益。

    2016年,DeepMind團隊就利用AlphaGo的學習能力,不斷模擬探索更加省電的方案。DeepMind接管了谷歌數據中心的一些控制單元,包括風扇、空調、窗戶和伺服器等,通過機器學習,幫助谷歌數據中心的冷卻系統節約用電40%,並提高了15%的能源使用效率。

    這個演算法團隊的開發團隊僅有5、6個人,耗時僅兩三個月。

    目前,DeepMind的部分研發項目已經開始用於能源基礎設施管理、醫療系統和潔凈水源的改進等方面,公司也已經從中獲得收益。

    DeepMind也已開始進軍醫療市場並從中盈利。2015年11月,它與英國倫敦皇家自由醫院簽訂了為期五年的合同,任務是處理170萬名患者的醫療記錄。

    在過去,機器學習未能得到廣泛應用,主要原因之一就在於很多人類無法解決的領域中,也缺少大量的數據樣本來讓機器進行學習,例如醫療圖像處理等。AlphaGo Zero能夠擺脫人類的依賴,不需要人類給出數據和樣本,這為更廣泛的行業應用提供了新的可能性。

    未來展望

    人工智慧專家、美國北卡羅萊納大學夏洛特分校洪韜教授首先肯定了AlphaGo Zero本身的價值。「神經網路的設計和訓練方法都有改進,是創新。從應用角度,以後可能不再需要耗費人工去為AI的產品做大量的前期準備工作」。

    他還簡單回顧了人工神經網路的歷史:「人工神經網路在上世紀四十年代就出來了,小火了一下就撐不下去了,其中一個原因是大家發現解決不了『異或問題』,而且訓練起來太麻煩。到了上世紀七十年代,Paul Werbos讀博時候拿backpropagation的演算法來訓練神經網路,提高了效率,用多層神經網路把異或問題解決了,也把神經網路帶入一個新紀元。上世紀八九十年代,人工神經網路的研究迎來了一場大火,學術圈發了成千上萬篇關於神經網路的論文,從設計到訓練到優化再到各行各業的應用。」

    但對於人工智慧,機器學習能火多久,洪教授表示「還得看神經網路能解決多少實際問題」。二十年前神經網路興起之後,解決的實際問題寥寥無幾,其中一個比較知名的是電力負荷預測問題,就是用電量預測,剛好是洪教授的專業。但當時科研重心幾乎完全離開了傳統的統計方法。等洪教授做博士論文的時候,拿傳統的多元回歸模型秒殺了市面上的各種神經網路遺傳演算法。所以洪教授表示「對於眼前流行的東西,不要盲目追逐,要先審時度勢,看看自己擅長啥、有啥積累,看準了坑再跳。」

    美國密歇根大學人工智慧實驗室主任Satinder Singh也表達了和洪教授類似的觀點:這並非任何結束的開始,因為人工智慧和人甚至動物相比,所知所能依然極端有限。

    陳怡然教授則對人工智慧的未來做了進一步的思考:

    除了技術創新之外,AlphaGo Zero又一次引發了一個值得所有人工智慧研究者思考的問題:在未來發展中,我們究竟應該如何看待人類經驗的作用。在AlphaGo Zero自主學會的走法中,有一些與人類走法一致,區別主要在中間相持階段。AlphaGo Zero已經可以給人類當圍棋老師,指導人類思考之前沒見過的走法,而不用完全拘泥於圍棋大師的經驗。也就是說AlphaGo Zero再次打破了人類經驗的神秘感,讓人腦中形成的經驗也是可以被探測和學習的。

    陳教授也提出一個有趣的命題:

    未來我們要面對的一個挑戰可能就是: 在一些與日常生活有關的決策問題上,人類經驗和機器經驗同時存在,而機器經驗與人類經驗有很大差別,我們又該如何去選擇和利用呢?

    不過David Silver對此並不擔心,而對未來充滿信心。他指出:如果類似的技術可以應用於其他結構性問題,如蛋白質摺疊、減少能源消耗或尋找革命性的新材料,所產生的突破就有可能對社會產生積極影響。

    AlphaGo Zero 的未來如何,各位看官們拭目以待吧!

    彙編自: 財經 知社學術圈 差評 IT時報


    推薦閱讀:

    八極拳可以自學嗎
    書法自學之筆、墨、紙巧用技法……學書體會七
    都說室內設計門檻低,所以我決定自學!然而我還是太天真了……
    教你免費獲取Coursera上優質學習資源&證書,輕鬆入門機器學習
    試論高等教育自學考試題庫建設

    TAG:人類 | 自學 | AlphaGo | 強勢 |