解析|AlphaGo背後的公司 打敗人類後它要做什麼

人工智慧

  AlphaGo 到底是什麼?

  AlphaGo 是一款圍棋人工智慧,Google 人工智慧團隊 DeepMind 創造了它。

  DeepMind CEO 哈薩比斯今年 5 月 19 日接受 BBC 四台採訪時表示,AlphaGo 是面向圍棋這一「狹窄領域」的人工智慧,簡單說,雖然它能打敗世界冠軍,但 AlphaGo 也只能下棋。

  AlphaGo 怎麼學會下棋,提升棋藝的?

  說起這個,「窮舉」、「蒙特卡羅樹演算法」、「深度學習」等等一大堆術語經常出現,但沒有這些基礎也能看懂。

  所謂 「深度學習」,是 AlphaGo 圍棋訓練的第一步,將人類棋譜輸入計算機,學習人類的落子習慣。這種「識別」與人臉識別、圖像分類等搜索技術類似。

  第一步:把棋盤分拆成小塊,輸入數據。

  AlphaGo 會把輸入系統的人類棋譜的每一步進行分拆,棋盤上每個落子以及隨後的應對落子算作一個樣本,AlphaGo 從這些人類棋局中分解出了三千多萬個樣本。

  這些樣本集合在一起,能夠識別出每個特定的落子之後,哪一種應對方法的概率最高,這個最高的概率其實就是人類棋手最喜歡的應對方法。

  雖然說圍棋「千古無同局」,但是局部來看還是有很多相似的模式反覆出現,AlphaGo 就學會了這些最受歡迎的下法。

AlphaGo 的蒙特卡羅樹搜索。圖片來自 Nature

  第二步:亂下棋,不過比純粹亂下要好一點。

  AlphaGo 的思考結合了蒙特卡羅樹搜索。

  假設一個從來都沒下過圍棋的人,用了分身術分成兩個人開始在棋盤上亂下,最終這盤棋也會分出個勝負。

  第二盤,上一盤贏的那個分身不再完全是亂下了,開始使用贏的那一盤中的一些對應,第三盤棋,第二盤贏的那個分身開始使用第一盤和第二盤中的對應。當第 N 盤棋下完之後,這個始終贏棋的分身就會獲得最有可能獲勝的落子方法。

  以上這 N 盤棋就是一步使用蒙特卡羅樹搜索的思考過程,思考結束後的下一個落子,就是被是推演過次數最多,獲勝概率最高的那一步。

  AlphaGo 團隊還改進了以上這種傳統的蒙特卡羅樹搜索演算法。

  上面我們說過的深度神經網路得出了一套人類棋手概率最高的下法,假設蒙特卡羅樹搜索故事中那個完全不會下棋的人學習了這套下法,那麼之後的「亂下」思考過程的起點就會提高很多。這樣一來,蒙特卡羅樹演算法的計算量就減少很多,提高了效率。

  第三步:AlphaGo 自己和自己下棋,來學習棋局。

  圍棋畢竟變化太多,AlphaGo 需要更多的棋局來學習,於是通過自我對弈產生新的棋局。

  AlphaGo 自己和自己下棋,棋力的來源就是第一步通過學習人類棋局得到的落子方法。AlphaGo 左右互搏,自我對弈幾萬盤,就能總結出贏棋概率更高的新下法,接下來再用新下法自我對弈幾萬盤,以此類推,最終得到了一套棋力比最初只學習人類下法厲害很多的新策略。

  那用這新的策略和蒙特卡羅樹搜索結合是不是更厲害呢?答案卻是否。

  因為使用概率來訓練的這種策略會讓下法高度集中,變化太少,而蒙特卡羅樹搜索需要更多的變化才更有效。

AlphaGo 在與樊麾對決時的局面評估。圖片來自 Nature

  第四步:局面評估。

  這也是 AlphaGo 最厲害的地方是,它可以像人類一樣在比賽過程中估計局面的優劣,這樣才有第四局它判斷獲勝幾率太小,選擇中盤認輸。

  當一盤棋開始的時候,AlphaGo 先用第一步訓練的下法下若干步,然後亂下一步,接著用第三步自我對弈訓練產生的更厲害的下法下完整盤棋,然後對結果做一個評估,評估出「亂下」的那步棋造成的局面是好是壞。

  AlphaGo 可以在一步的思考中亂下很多次,總有一次能匹配到真實對下棋的狀況。而對這一步亂下以及後續結果的評估,就是對當前局面的判斷。

  對弈柯潔的 AlphaGo,有著怎樣的計算能力?

  上一次戰勝李世乭的 AlphaGo,根據 Deepmind 的說法,是一部運行在雲端,由全世界的 Google 機房協作運算的人工智慧。5 月 23 日 AlphaGo 戰勝柯潔之後,Deepmind 老大哈撒比斯說明,這一次 AlphaGo 是全新的版本,不再使用分散式計算的方案,調用的計算能力只有李世乭版本的十分之一。

  具體來說,這一次的 AlphaGo 只用了一個 Google TPU 的計算能力。

  Google TPU 是 Google 去年首次發布的用於人工智慧運算的專用硬體,全稱 Tensor Processing Unit,中文可以翻譯成張量處理單元,是一個飯盒大小的專用硬體。在人工智慧研究里,包括 Google 在內都在大量使用通用處理器 CPU 和圖形處理器 GPU 進行運算。比如曾經公布過的一個版本的 AlphaGo,使用了 1920 個 CPU 和 280 個 GPU,取得了 Go Ratings 網站的 3168 等級分,世界第一柯潔的等級分為 3625。

  TPU 這種專用硬體的效率比 CPU 加 GPU 快很多。

  上周的 Google I/O 大會上,Google 宣布了 TPU 2.0,它具有四個專用晶元,每秒可處理 180 萬億次浮點運算。64 個 TPU 可以拼在一起組成 TPU Pod,可提供大約 11500 萬億次浮點運算能力。Google 同時公布了一個數字,說 Google 的大型翻譯模型如果在 32 塊性能最好的 GPU 上訓練需要一整天,而 8 塊 TPU 就可以在 6 個小時內完成同樣的任務。

  2017 年底,Google 就會把 TPU 計算服務變成雲服務,全世界的人工智慧研究者都可以租用這種雲服務,幫助加速人工智慧研究。和亞馬遜等公司提供的,基於 CPU 和 GPU 的人工智慧雲服務相比,Google 的 TPU 更有效率優勢,從成本上來講,也更便宜。

  DeepMind 公司有什麼來頭?

  DeepMind 是一家成立於 2010 年、總部位於英國倫敦的初創公司,主要研究人工智慧。2014 年 Google 以 4 億英鎊(約合 6.6 億美元)的價格打敗 Facebook,買下 DeepMind。這筆交易金額可以排進 2014 年全球初創公司收購金額前十。

  公司創始人哈薩比斯曾有過數次創業經歷,最後為了創造一個通用的、真正能思考的人工智慧,創辦 DeepMind。

  今天 DeepMind 在 Google 承擔著什麼角色?

  DeepMind 的研究圍繞人工智慧展開。2016 年 7 月前後,Google 用 DeepMind AlphaGo 的深度神經網路,預測 Google 內部 120 個數據中心和連帶冷卻風扇的各個時段用電量,然後分配能源,達到控制冷卻系統和計算機伺服器的耗電量的目的。

  現在 DeepMind 的辦公室還在距離倫敦國王十字車站約 2 公里的一處辦公樓里,那裡已經聚集 400 多位計算機和神經科學家。他們還計劃繼續擴充到 1000 人。

  除了 DeepMind 之外,Google 還收購了什麼人工智慧公司?

  2014 年收購英國 DeepMind 公司不是個例,Google 在最近 5 年間投資收購了不少人工智慧公司,例如 api.ai、Timeful、Kaggle 等等。

  從 2013 年開始到現在,Google 已經收購了 16 家人工智慧公司了。可以說是各大科技公司里收購最多、布局最早的。

  主要是來自策略的轉變。Google CEO 桑達·皮蔡在 2016 年 5 月宣布將公司從「移動為先」的策略轉變成「人工智慧為先」(AI First)。根據 Google 員工的說法,他們已經在公司的每一個產品上都應用了機器學習的演算法。

  Google買下的公司主要用於拓展現有業務。比如 2013 年 Google 收購了聚焦於深度學習和神經網路的初創企業 DNNresearch,用於幫助提升圖像搜索功能。

  它也收購了像 Deepmind 這樣本身發展成熟的團隊,收購後依然保持獨立運營。今年,Google 主要收購了一家做視覺搜索的初創公司 Moodstock,以及語音識別開放平台 Api.ai。

  AlphaGo 打敗人類了,之後它要做什麼?

  AlphaGo 對 Google 有什麼影響?

  去年 2 月,AlphaGo 在圍棋上打敗李世乭的消息,讓不少人開始關注人工智慧。

  而也是在這次比賽之後,Google 公司把整個公司的戰略改成了「人工智慧為先」。CEO 桑達·皮蔡在 2016 年 5 月舉行的 Google 全球開發者大會,第一次提出從「移動為先」轉變成一個人工智慧為先的公司的戰略,稱 Google 會因此重新思考自己的所有產品,還要把人工智慧用到學術研究、醫學的層面。

  在今年 5 月舉行的開發者大會上,皮蔡再次強調這一點,現場還做了不少人工智慧都能做什麼的演示,例如這樣的用語音控制的調酒機:

  AlphaGo 之後還要打更多遊戲么?

  更多的比賽只有營銷價值。圍棋就是終極比賽,是人腦在公平遊戲里的最後防線。

  這是因為圍棋棋盤一共有 361 個落子點,圍棋每一步的可能性都是天文數字,靠計算機窮舉原理上就是不可能的。其它遊戲的限制少很多,人工智慧更有機會依靠窮舉法取得比賽勝利。

  對於把下棋當作人工智慧測試平台的研究者來說,1997 年 IBM 超級計算機「深藍」(Deep Blue)在戰勝國際象棋世界冠軍加里·卡斯帕羅夫(Garry Kasparov)之後,圍棋就一直是最大的挑戰。

  之前有報道稱 AlphaGo 要和人類選手比賽《星際爭霸 2》,你能想像人類和計算機比操控單位的速度么?

  那 DeepMind 接下來要幹什麼?

  在醫療領域,DeepMind 已經有所建樹,他們跟倫敦皇家免費醫院(Royal Free London)簽訂一紙為期五年的付費合約,處理後者 170 萬條患者記錄。

  DeepMind 的第一項醫療研究是幫助醫生診斷眼部疾病,2016 年 7 月,他們宣布了與英國國民健康服務(National Health Service)的最新合作項目,與倫敦摩菲眼科醫院一起,讓人工智慧幫助醫生診斷,預防眼部疾病。

  這個長達五年的研究項目將利用摩菲眼科醫院超過百萬的患者資料庫,讓人工智慧學會「看」眼部掃描。簡單來說就是讓人工智慧把這些掃描結果全部「看」一遍,從而訓練出能夠發現病變徵兆的模型。

  DeepMind 還被運用在了 Google 的數據中心:幫 Google 省電費。它那套深度神經網路被用來預測 Google 內部 120 個數據中心和連帶冷卻風扇的各個時段用電量,然後分配能源。據稱,現在整套演算法能將 Google 的能源利用提高 15%。

  DeepMind 還和哈佛一起研究了讀唇語的軟體,他們研發的這個唇語閱讀軟體 LipNet 準確率高達 93.4%。這個準確率遠高於此前研發出來的其他唇語設備。

  去年 11 月,DeepMind 宣布將與暴雪娛樂合作,讓人工智慧學會玩《星際爭霸 II》遊戲,因為與棋類比起來,《星際爭霸》更能模擬真實世界的混亂狀況。

  對於 DeepMind 來說,無論是讓人工智慧學會圍棋還是打遊戲,目的都是研發「通用型人工智慧」,DeepMind 創始人哈薩比斯去年在劍橋大學的一場演講中表示:「我們的首要使命便是解決人工智慧問題;一旦這個問題解決了,理論上任何問題都可以被解決。這就是我們的兩大使命了。」

  今年 3 月,省電這件事被 DeepMind 用到了公司之外,他們與英國國家電網公司討論,計劃用人工智慧技術幫助英國節省 10%的用電量。(好奇心日報)

推薦閱讀:

躲在大樹背後的人
五大行上浮存款利率到頂背後:一場被倒逼的胎動
土耳其擊落俄戰機背後的貓膩
時尚與時尚背後!

TAG:公司 | 人類 | AlphaGo | 背後 | 解析 | 背後的公司 |