AlphaGo強勢碾壓人類！「新狗」自學三天勝人千年

06-14

Alpha「老狗」退役了，「新狗」不但以100:0的成績完爆「老狗」，還無師自通，自學三天，勝人千年，這是要顛覆人類的節奏？

北京時間10月19日凌晨，谷歌旗下的人工智慧公司DeepMind在世界頂級科學雜誌Nature雜誌上宣布了AlphaGo的「進化」，可以在沒有人類干預的情況下自我學習，新的AlphaGo Zero在自我學習3天之後，就以100比0的成績戰勝了第一代AlphaGo。

自我學習能力的出現，對於人工智慧和機器學習來說，是一個新的突破。「過去人們普遍認為機器學習是基於海量的大數據，但是從AlphaGo Zero身上，我們發現演算法比數據更重要。」AlphaGo項目的主要負責人戴維·席爾瓦(David Silver)說道。

而當人們驚訝於AlphaGoZero在圍棋領域的神級水平時，對於DeepMind團隊來說，這才只是剛剛開始，他們的目的是通過培養自主學習的能力，來解決更多其他領域目前無法解決的棘手問題。

AlphaGo的進階之路

先來回顧一下，AlphaGo 的光輝戰績：

2015年10月面世，擊敗歐洲冠軍樊麾

2016年3月，擊敗人類頂尖棋手之一李世石

2017年元旦前後，在網路上化名大師（Master），60：0完敗前來車輪戰的人類一流棋手

2017年5月，在烏鎮3：0戰勝當下人類最強者柯潔

與柯潔的對弈中，AlphaGo已經能下出很多人類棋手完全無法想像的路數，比賽後柯潔表示，第一代的AlphaGo還能找到破綻，Master已經實現了「從人到神」的飛躍。

而AlphaGo Zero在「獨立」上更進一步，在訓練的過程中，它是自我對弈。從訓練圖上可以看出，由於一開始並不熟悉圍棋，對弈雙方的水平都很弱，但是隨著時間的推進，在短短3天互相博弈490萬局後，越來越強，實現了圍棋水平的突破。

△AlphaGo訓練的72小時圖譜

如今，AlphaGo Zero無需任何人類指導，通過全新的強化學習方式自己成為自己的老師，在圍棋這一最具挑戰性的領域達到超過人類的精通程度。

相比起之前使用人類對弈的數據，這一演算法訓練時間更短，僅用3天時間就達到了擊敗李世石的AlphaGo Lee的水平，21天達到了之前擊敗柯潔的AlphaGo Master的水平。

阿法狗棋力的增長與積分比較

AlphaGo Zero不光又快又強，還省資源，只需要在4個TPU上，花三天時間，自己左右互搏490萬棋局。而它的哥哥阿法狗，需要在48個TPU上，花幾個月的時間，學習三千萬棋局，才打敗人類。

人類天才棋手柯潔還發了個微博，表示人類太多餘了。

但DeepMind團隊志不在此，「AlphaGo的意義不在於打敗人類，而是領悟知識，解決更多的問題。」戴維·席爾瓦表示。

商業化加速

今年5月，DeepMind創始人傑米斯·哈薩比斯曾在接受記者採訪時表示：「如果說谷歌是火箭，DeepMind就是燃料。」

在此定位之下，AlphaGo雖然進化神速，但絕對不會止步於圍棋。

這家公司一開始只是一家位於英國倫敦的人工智慧實驗室，研究方向是開發通用自我學習演算法。2011年，哈薩比斯在埃隆·馬斯克等人的投資下，成立了DeepMind。2014年，谷歌以4億英鎊(約6.5億美元)的價格收購該公司，當時這家公司只有50名員工。AlphaGo就來自於這家公司。

AlphaGo戰勝韓國第一棋手李世石引爆了AI技術和市場，也讓DeepMind在谷歌AI戰略中地位舉足輕重。

不過，DeepMind團隊從一開始研發AlphaGo系統的目的就是能實現行業應用，並帶來商業價值。圍棋為AlphaGo帶來了光環，卻並非最終目標。

哈薩比斯表示，「AlphaGo Zero是我們現在最強版本的程序，顯示出我們在運用更少的計算能力和零使用人類數據方面的進步。最終我們想利用這樣的演算法突破,幫助解決各種緊迫的現實世界問題。」同時他還表示：「下一階段，DeepMind整個團隊75%的精力用於人工智慧技術的研發，另外25%精力放在行業應用上。」

具體分工上，哈薩比斯繼續主導技術研究，另一位創始人穆斯塔法·蘇萊曼則負責主導商業化。

穆斯塔法認為，繼續技術研究和商業化是一種平衡。「我們手裡有很多實驗室里的新技術，都是寶貴的資源，而這些技術的商用不僅能造福社會，一家公司也必須有可持續的商業利潤來源。」

據他介紹，目前DeepMind由兩個團隊組成，哈薩比斯負責研發團隊，而他負責技術應用業務。技術應用團隊又再分為三個組，一個組服務谷歌的產業和谷歌的其他業務部門;第二個是醫療組，已經與英國的國家醫療健康局合作;第三個組是能源組，目前還在啟動階段。

此前，DeepMind已經牛刀小試，成功利用機器學習為谷歌大幅度節約電量，帶來實際收益。

2016年，DeepMind團隊就利用AlphaGo的學習能力，不斷模擬探索更加省電的方案。DeepMind接管了谷歌數據中心的一些控制單元，包括風扇、空調、窗戶和伺服器等，通過機器學習，幫助谷歌數據中心的冷卻系統節約用電40%，並提高了15%的能源使用效率。

這個演算法團隊的開發團隊僅有5、6個人，耗時僅兩三個月。

目前，DeepMind的部分研發項目已經開始用於能源基礎設施管理、醫療系統和潔凈水源的改進等方面，公司也已經從中獲得收益。

DeepMind也已開始進軍醫療市場並從中盈利。2015年11月，它與英國倫敦皇家自由醫院簽訂了為期五年的合同，任務是處理170萬名患者的醫療記錄。

在過去，機器學習未能得到廣泛應用，主要原因之一就在於很多人類無法解決的領域中，也缺少大量的數據樣本來讓機器進行學習，例如醫療圖像處理等。AlphaGo Zero能夠擺脫人類的依賴，不需要人類給出數據和樣本，這為更廣泛的行業應用提供了新的可能性。

未來展望

人工智慧專家、美國北卡羅萊納大學夏洛特分校洪韜教授首先肯定了AlphaGo Zero本身的價值。「神經網路的設計和訓練方法都有改進，是創新。從應用角度，以後可能不再需要耗費人工去為AI的產品做大量的前期準備工作」。

他還簡單回顧了人工神經網路的歷史：「人工神經網路在上世紀四十年代就出來了，小火了一下就撐不下去了，其中一個原因是大家發現解決不了『異或問題』，而且訓練起來太麻煩。到了上世紀七十年代，Paul Werbos讀博時候拿backpropagation的演算法來訓練神經網路，提高了效率，用多層神經網路把異或問題解決了，也把神經網路帶入一個新紀元。上世紀八九十年代，人工神經網路的研究迎來了一場大火，學術圈發了成千上萬篇關於神經網路的論文，從設計到訓練到優化再到各行各業的應用。」

但對於人工智慧，機器學習能火多久，洪教授表示「還得看神經網路能解決多少實際問題」。二十年前神經網路興起之後，解決的實際問題寥寥無幾，其中一個比較知名的是電力負荷預測問題，就是用電量預測，剛好是洪教授的專業。但當時科研重心幾乎完全離開了傳統的統計方法。等洪教授做博士論文的時候，拿傳統的多元回歸模型秒殺了市面上的各種神經網路遺傳演算法。所以洪教授表示「對於眼前流行的東西，不要盲目追逐，要先審時度勢，看看自己擅長啥、有啥積累，看準了坑再跳。」

美國密歇根大學人工智慧實驗室主任Satinder Singh也表達了和洪教授類似的觀點：這並非任何結束的開始，因為人工智慧和人甚至動物相比，所知所能依然極端有限。

陳怡然教授則對人工智慧的未來做了進一步的思考：

除了技術創新之外，AlphaGo Zero又一次引發了一個值得所有人工智慧研究者思考的問題:在未來發展中，我們究竟應該如何看待人類經驗的作用。在AlphaGo Zero自主學會的走法中，有一些與人類走法一致，區別主要在中間相持階段。AlphaGo Zero已經可以給人類當圍棋老師，指導人類思考之前沒見過的走法，而不用完全拘泥於圍棋大師的經驗。也就是說AlphaGo Zero再次打破了人類經驗的神秘感，讓人腦中形成的經驗也是可以被探測和學習的。

陳教授也提出一個有趣的命題：

未來我們要面對的一個挑戰可能就是: 在一些與日常生活有關的決策問題上，人類經驗和機器經驗同時存在，而機器經驗與人類經驗有很大差別，我們又該如何去選擇和利用呢？

不過David Silver對此並不擔心，而對未來充滿信心。他指出：如果類似的技術可以應用於其他結構性問題，如蛋白質摺疊、減少能源消耗或尋找革命性的新材料，所產生的突破就有可能對社會產生積極影響。

AlphaGo Zero 的未來如何，各位看官們拭目以待吧！

彙編自: 財經知社學術圈差評 IT時報