劍橋AI全景報告出爐:全球AI可用人才僅3千

劍橋AI全景報告出爐:全球AI可用人才僅3千

來自專欄 AI前線

本文由 「AI前線」原創(ID:ai-front),原文鏈接:劍橋AI全景報告出爐:全球AI可用人才僅3千,中美將爭搶台韓半導體公司

策劃編輯 | Natalie

編譯 | Debra

編輯 | Natalie

AI 前線導讀:人工智慧是一個跨領域學科,旨在創造出智能機器。我們相信,AI 將會成為促進數字化、數據社會的強大催化劑。這是因為,如今我們周圍的一切,從文化到消費產品,無一不是智能的產物。

在本報告中,我們將重點從過去 12 個月中 AI 所取得的進步來一窺其發展狀況。這份報告彙集了我們看到的可能引發關於 AI 討論和代表 AI 未來發展方向的最有趣的事實,並將從 AI 研究、人才、行業和政策幾個角度展開詳述。

由於篇幅限制,AI 前線將從 156 頁 PPT 中挑選最精華的內容進行翻譯,感興趣的朋友可在公眾號後台回復關鍵詞「劍橋」獲得完整版 PDF 文件。

更多優質內容請關注微信公眾號「AI 前線」(ID:ai-front)

本報告目錄如下:

  • 研究:研究與技術突破
    • 遷移學習
    • 人工智慧硬體
    • 圖像場景理解
    • 大規模視頻理解數據
    • 文本語義理解
    • 目標導向的強化學習:以遊戲為例
    • AlphaZero 無監督棋譜學習, OpenAI 魔獸爭霸
    • 怎樣保證模型訓練的無偏性
    • 調參的可解釋性
    • 對抗攻擊
    • 谷歌 AutoML 自動學習
    • Federated Learning
  • 人才:AI 領域人才供需和分布
  • 行業:目前和未來 AI 驅動的大型平台、資金和應用領域
    • 雲計算
    • 健康醫療
    • 政務國防
    • 隱私保護與數據匿名化
    • 衛星數據處理
    • 網路安全
    • 工場自動化
    • 替代藍領工作
    • 農業
    • 自動駕駛
    • 金融
    • 企業自動化
    • 材料科學
  • 政策:公眾對 AI 的意見,經濟意義和新生的地緣政治學 (P109)
    • 公眾對自動化的態度:兩份綜述
    • 公眾對自動化的態度:皮尤研究中心
    • 公眾對自動化的態度:布魯克林研究中心
    • 美國勞工市場的變化
    • AI 對勞工市場變化的影響
    • AI 對就業率和工資的影響
  • 各國的 AI 國家戰略:中國,法國,歐盟,加拿大,韓國
    • 中國對半導體器件的強大需求
    • 為什麼跟美國比中國的半島器產業規模如此小
  • 預測
    • 未來一年的 8 個預測
  • 總結

第一部分:研究與技術突破

遷移學習

我們通過學習示例來訓練機器學習模型解決任務。但是,為解決一個新的任務,需要使用專門的新數據重新進行訓練。遷移學習可以讓經過訓練獲得的知識應用於新任務中。

遷移學習:從 ImageNet 訓練模型預測目標,檢測皮膚癌

  • 遷移學習能夠對人類患者的危險皮膚病變進行自動、最先進的檢測

    Google InceptionV3 網路首先在 ImageNet 上接受訓練,再使用 129,450 張臨床圖像進行重新訓練以檢測 2,032 種不同的皮膚病。它可以學習僅基於像素輸入和疾病標籤對圖像進行分類。

  • 結果顯示,該模型優於 21 名斯坦福皮膚科專家。

AI 硬體新前沿

半導體在促進 AI 發展中的角色

半導體(或晶元)是 AI 研究和應用進步的關鍵驅動因素,這是因為 AI 模型經常需要訓練大量數據來學習特定任務(如圖像識別)。

GPU 成為 AI 模型訓練的得力助手,很大部分原因是其能提供比 CPU 更強大的並行計算能力。這意味著更快的訓練速度和迭代。

硬體之戰: 更多 GPU 會讓訓練速度更快,構建規模更大、功能更強大的模型。

AI 硬體對深度學習意義重大

AI 模型性能隨著數據規模和模型參數提高,計算量提高。

毫無疑問,GPU 越來越受到開發者的歡迎。

然而,GPU 更擅長處理圖像任務,並進一步擴展到高性能的計算和 AI 任務。

訓練時雖然廣泛使用 GPU,但它卻並不擅長推理。

雖然大多數情況下,GPU 性能優於 CPU,但數據中心大量的 CPU 使其成為一個有用且廣泛使用的平台。

例如,在 Facebook,GPU 基本上被用於線下訓練,而不是實時用戶數據處理。

處理器內核時鐘頻率沒有變得更快,摩爾定律產生的能量有限。

GPU 和新型矽片的租金價格太高,意味著計算資源會受限於資金預算。

雖然谷歌的 TPUv2 價格更貴,但是模型訓練速度更快,更加經濟。

在 Google I/O 2018 上,谷歌發布了第三代 TPU。

在 2018 年 5 月的 GTC 上,英偉達發布了 HGX-2,可同時用於高精度要求的科學計算和低精度要求的 AI 負載任務。

很多企業在開發定製 AI 晶元,包括 IC(集成電路)供應商英特爾、高通、英偉達等,科技巨頭和 HPC(高性能計算)供應商谷歌、亞馬遜 AWS、三星等,IP 供應商 ARM、新思科技等,中國創業公司寒武紀、地平線機器人等,以及全球的創業公司 Cerebras、Wave Computing 等。

大型雲服務商在製造專用 AI 硬體,並大幅提高預算支出。

圖像場景理解

傳統計算機視覺通過檢測物體來描述視覺場景

  • AI 模型進行物體像素關聯(語義分割)或識別展示物體(分類)

然而,檢測出圖像中的物體還不足以理解真實場景

  • AI 模型在進行基於目標理解描述視覺場景任務時犯了明顯的錯誤。

真正的視覺場景理解需要理解動作和常識

使用深度學習和標記目標動作的視頻來學習常識是一種可行的方法

大規模視頻理解數據

創建訓練機器學習模型理解視頻的數據集

  • 創建描述感興趣的動作的視頻,例如假裝扔下一些東西

如果深度學習模型能夠識別和消除視頻中行為中的細微差別,那麼它具備了關於世界的常識。這也被稱為「直觀物理學」(intuitive physics)。

文本語義理解

深度學習模型實際上可以理解視頻中的動詞和名詞。

機器還可以通過學習從不同視角理解視覺場景

  • 如果機器學習模型可以正確地預測同一場景的另一全新視角,它就獲得了這個場景的內化知識

目標導向的強化學習:以遊戲為例

AlphaZero 表明深度強化學習可以通過學習擊敗世界圍棋冠軍

AlphaZero 是一個無人類干預或歷史玩家數據輸入,通過自我對弈即可預測從一特定棋盤位置走棋輸贏概率的 AI 系統。讓人震驚的是,AlphaZero 系統超越所有其他版本的 AlphaGo(基於兩套神經網路),經過 40 天的訓練即超越人類最高水平。

OpenAI 的多代理強化學習系統學習複雜的實時戰略遊戲《魔獸爭霸 2》

OpenAI Five 是由 5 個 RL 代理組成的團隊,通過強化學習自我對弈優化遊戲策略每個代理的神經網路經過強化學習訓練都可觀察局部和高維環境來生成長期動作規劃。這些強化學習代理可以組團打敗人類玩家,它們採取的多樣化行動和大範圍地圖互動十分引人關注。

怎樣保證模型訓練無偏見?

機器學習偏見例 1: 刻板印象

土耳其語中性別是中立的,但是谷歌翻譯會在英語 - 土耳其語轉換時產生性別區別,反之亦然。

例 2: 種族歧視

當訓練數據中未合理標識皮膚顏色時,計算機視覺系統會做出冒犯性的種族偏見的行為,比如一些人臉識別系統無法識別黑皮膚的人。

受訓練數據影響,機器學習會產生 5 種分配偏倚

典型的偏見來源於訓練數據沒有合理地代表多樣性或被標記有偏見的標籤

調參的可解釋性

與所有軟體一樣,ML 模型也需要調參,但是卻很難解釋原理

  • 許多 ML,尤其是 DL 模型,很多完全就是「黑盒子」

可解釋性可以證明機器學習的推理是「正確」的

在計算機視覺中,模型可以解釋一個具體的標籤是由哪個像素推導而出(例如,哪個像素是狗)

這樣,我們就可以知道模型到底是真的正確學習了還是因為某些錯誤的原因偶然得出了正確的預測標籤。

下一步:用簡單易懂的語言解釋決策的合理性

結合文本生成基本原理和注意力視覺化可以深入解釋決策原理。

對於特定問題和圖像, Pointing 和 ustification Explanation (PJ-X) 模型預測答案和多模態的解釋都指向決策的視覺證據並提供文本。多模式解釋可以生成更好的視覺和文本解釋。

對抗攻擊

對抗攻擊意味著現實世界中將存在嚴重的安全風險

受到對抗攻擊之後,原來可以檢測到穿越斑馬線行人的計算機視覺系統就再也「看」不到他們了。

當自動駕駛車輛上路之後,這顯然會造成巨大的安全隱患。

谷歌 AutoML 自動學習

谷歌的 AutoML 自動學習系統可以找到計算機視覺任務的最佳模型。AutoML 遍歷架構搜索空間,找到兩個可以集成到一個優於所有現有人造模型的最終模型(NASNet,右圖)的新單元設計(正常和縮小,左圖)。

Federated Learning

分散式 Federated Learning 學習分散數據採集和模型訓練

大型技術公司集中了大量的用戶數據。社區現在開始通過創建工具來分散數據所有權。OpenMined 這個 AI 模型本身是由模型所有者加密的,因此用戶無法竊取。而用戶數據則保留在用戶本地設備,並可訪問更新模型參數。隨後,所有者聚合用戶參數更改,再統一進行更新。

Federated learning 分散數據獲取和模型訓練

谷歌使用 Federated learning 訓練其移動鍵盤預測模型 Gboard

第二部分:全球人才供需分布

人才供給: Element AI 預計全球有 22000 名 AI 研究者和工程師擁有博士學位

全球僅有 3000 名可用的 AI 人才勞動力;亞洲市場緊追西方市場;中國同業互查公開發表數量超過美國。

Element AI 預計全球有 5000 名高級 AI 研究者

美國是全球 AI 人才的溫床,崗位空缺 10k,是人才交流最集中的地方

人才分布:眾所周知,谷歌是最大的 AI 人才僱主

2017 年 ICML 6.3% 的論文的作者來自谷歌 /DeepMind

今年 ICML 論文作者來自谷歌 /DeepMind 的論文數量相比 2017 年翻了一倍

2017 ICML 谷歌貢獻的論文最多

在 NIPS 大會,谷歌 &DeepMind 論文作者數量佔主導

需求:機器學習工程師薪水持續上漲

據《紐約時報》報道,一般來說,剛出校門的博士生或有若干年工作經驗但教育水平低於博士的 AI 專家年薪可以達到 30 萬 -50 萬美元,或通過持有公司股票可能得到更高的薪水。

「在 DeepMind,員工規模擴大到 400 名,成本達到 1.38 億美元,每名員工成本約為 34500 美元。」

「OpenAI 2016 年為研究負責人 Ilya Sutskever 支付了 190 萬美元的薪酬,為 Ian Goodfellow 支付的薪酬超過 80 萬美元。」

據百度前主管 Thomas Liang 估計,AI 行業薪資水平較 2014 年翻了一倍。

天文賠償價格,訴訟頻發

兩則爭議案例:《谷歌自動駕駛負責人薪酬 1.2 億美元,他卻投入 Uber 的懷抱》、《Uber 和 Waymo 以 2.4 億美元達成和解》

機器學習從業人員多樣性:參加 NIPS 會議的女性數量每年小幅增加

第三部分:行業

關於 AI 的知識產權集中在 GAFAMBAT(谷歌、蘋果、Facebook、亞馬遜、微軟、百度、阿里巴巴、騰訊)這幾家巨頭公司,它們每年的研發費用達數十億美元。

雲服務巨頭正在通過 API 建起各自的城牆

谷歌通過其雲生態投入大量資金宣傳 ML 服務,亞馬遜、谷歌等公司也在做著同樣的事情...

谷歌 TensorFlow 在機器學習框架之戰中勝出,但是戰局變化迅速

這意味著谷歌贏得了開發者的擁護,藉此打造了一條雲服務通道,讓一代開發者和研究人員使用他們的技術並不斷改進。他們的開放戰略也解決了一些潛在的競爭對手。然而,實踐者卻感覺到這一領域潛藏巨大的不確定性。選擇錯誤的框架會產生嚴重的後果,不僅包括重構成本。

醫藥行業

目前,醫藥行業的發展進程慢且價格昂貴。

在醫療行業,機器學習可用於開發新葯,或者改變現有藥物的用途。

在保健行業,機器學習可用於醫療成像、液體活檢等。

預計相關公司產品通過臨床試驗和監管檢測之後將會採取更多行動。

政府和國防

民眾級監控應用開始在中國興起

中國政府繼續推廣使用計算機視覺監控軟體。2017 年末,中國共有 1.7 億台閉路監控器。此監控網路將在 3 年內將增長至 4 億台。成立 4 年的商湯科技遙遙領先,2018 年 5 月獲得 C 輪融資後估值超過 450 億美元。

在美國,谷歌和 Clarifai 因與五角大樓合作軍事項目 Project Maven 遭到抗議,其中谷歌 4500 多名員工聯合簽署公開信要求谷歌停止該協議。

受劍橋分析公司醜聞事件影響,個人數據隱私問題成為焦點,數據保護和匿名成為人們關心的話題。其中歐盟的 GDPR 已於 2018 年 5 月生效,以保護用戶數據隱私。

在數據保護和信息匿名方面,機器學習可以用於:

  • 人工數據合成:訓練機器學習模型學習源數據的關鍵數據特性,並生成合成數據以保留這些特性。
  • 混淆敏感數據:檢測敏感數據欄位並對其進行匿名處理,同時保留敏感數據重要特徵,使機器學習模型仍然可以學習有用的信息。

衛星數據

隨著微型衛星的發展,部件成本和發射成本降低,向地傳輸架構逐漸完善,衛星數據的成本隨之降低,解析度和頻率不斷提高。

在衛星數據領域,機器學習可用於保險、金融和農業。

網路安全

雲計算、移動設備和更多聯網供應鏈意味著網路攻擊的風險在增加。但是,網路安全從業人員的缺口卻越來越大。機器學習能夠以靈活的方式從過去的攻擊中學習,並自動進行處理,節約時間。

在網路安全領域,機器學習可用於網路和終端安全、內部威脅檢測。

庫房自動化

電商的發展對庫房分揀提出了更高的要求,勞動力和庫房空間的稀缺也促使電商採用更多的機器人。零售商在亞馬遜收購 kiva 以及對該領域的投資之後做出了反應。

在庫房自動化領域,機器學習應用包括機器人、庫房管理系統等。

藍領手工操作

計算機視覺部件成本降低,技術提高,這意味著機器人的價格將會比各種藍領工人的手工操作成本更低。

機器學習可用於房屋建造、清潔、安保等。

農業:室內和室外農場

2050 年,全球人口將從 76 億增長值 96 億,糧食產量需要提高 70% 才能滿足需求。農場和溫室里配備機器人、控制系統、聯網設備成為解決糧食問題的新途徑。

機器學習可用於溫室控制系統、立體農場、農作物和動物健康監測、農作物收割等。

自動化

在自動化領域,機器學習可用於共享自動駕駛車輛、最後一公里物流自動化、模擬環境、街道地圖和軟體開發自動化等。

金融

在金融領域,機器學習可用於資產管理、信用貸款、預防詐騙。企業自動化

機器學習可用於機器人處理自動化、文件數字化、軟體開發自動化。

材料科學

在材料科學領域,機器學習與醫藥行業的應用相似,可用於學習材料科學發現的規律。

第四部分:政策

公眾對自動化的態度調研

根據兩家美國大型調研機構調查結果顯示:

皮尤研究中心

民眾越來越意識到自動化對工作的影響,18% 的美國人表示他們知道有人因為自動化失業,薪資或工作時長減少。

年輕人、兼職、西班牙人和美國低收入人群反映受到影響最大

自動化將引起不公正的擔憂越來越大

布魯克林研究所

對 AI 的樂觀程度

大部分人認為 AI 會改善生活

但 AI 也會犧牲隱私

並且 AI 會消滅一些工作崗位

大部分人認為 AI 是對人類的威脅

應該由政府監管

雖然美國目前仍然是 AI 領頭羊

但中國在 AI 領域將在十年內趕超美國

那麼,美國的勞動力市場實際上有什麼變化呢?調查發現這些變化主要體現在以下幾個方面;

  • 美國自動化程度雖然提高,但失業率卻達 17 年來最低
  • 常規工作發展停滯
  • 工資水平提高落後於工作崗位增長
  • 勞動產量與每小時報酬不成正比
  • 勞動力所得份額穩步下降
  • 工人收入變動幅度加大

但是,自動化在導致美國勞動力市場現狀中起到多大的作用不得而知,關於機器學習對勞動力市場的影響也出現了兩極分化的觀點:其中一種觀點認為無需擔心,歷史上科技進步總會創造更多的工作,這次也不例外;另一種觀點則是憂心忡忡,認為這次革命與以往不同,人類將會創造更多智能,減少薪酬較高的工作,新增的工作崗位數量將少於消失的工作。

AI 國家主義

隨著 AI 領域競爭的加強,中國、法國、英國、美國、歐盟等相繼制定了國家層面的 AI 發展戰略,AI 國家主義傾向越來越明顯。

目前,除了在數據獲取方面,美國在其他方面均領先於中國。

美國越來越多地通過 CFIUS(美國外國投資委員會)來阻止企業收購美國公司。

原因:雖然中國半導體行業規模比不上美國,但中國半導體年進口額已達 2600 億美元,並且在不斷收購半導體公司。

第五部分:預測

未來 12 個月的 8 個預測:

  • 位於中國的實驗室取得重大研究突破。
  • DeepMind 成功應用 RL 學習在《星際爭霸》遊戲中取得突破性成果。
  • 深度學習繼續仍然是討論的焦點,重大替代方法不會出現。
  • 使用機器學習發現的第一種治療藥物在試驗中產生積極的結果。
  • 總部位於中國和美國的公司收購歐洲機器學習公司的總額超過 50 億美元。
  • 經合組織國家政府阻止總部位於美國或中國的技術公司收購一家領先的機器學習公司(估值> 1 億美元)。
  • 爭搶台灣和韓國半導體公司明顯成為中美貿易戰的一部分
  • 一家大型研究機構因地緣政治原因未公開重大研究成果,因而「走向黑暗」

第六部分:總結

本報告力圖將過去一年內機器學習領域所有值得注意的進步做出匯總,我們相信,AI 將成為未來科技發展的強力催化劑,更多地了解該領域的變化可以幫助我們更好地適應未來的變化。感謝大家的閱讀!

作者介紹

Nathan Benaich (@nathanbenaich),Nathan 畢業於威廉姆斯學院生物學專業,並在劍橋獲得計算和實驗癌症生物學博士學位。他創立的公司 Air Street Capital 投資於機器學習技術公司,他還是 Point Nine Capital 的風險投資合伙人,並成立了 RAAIS 社區和基金會,推動人工智慧的發展。

Ian Hogarth(@soundboy),Ian 在劍橋攻讀工程專業,專攻機器學習。他的碩士項目是一個分類乳腺癌活檢圖像的計算機視覺系統。他還是月用戶達 1700 萬人的音樂會服務公司 Songkick 的聯合創始人兼首席執行官,同時是 30 多家創業公司的天使投資人,投資領域主要為應用機器學習。

原文鏈接:

stateof.ai/

今日 AI 前線福利:公眾號後台對話框回復關鍵字「劍橋」,即可獲取本文完整版 PDF 文件的下載鏈接。

今日薦文

百度發布國內首款雲端全功能 AI 晶元,阿波龍 L4 無人車正式量產!


活動推薦

8 月 18 日,InfoQ 將舉辦一場面向技術人的區塊鏈大會!超過二十個區塊鏈落地案例,區塊鏈前沿技術剖析,區塊鏈生態、服務盤點和解讀,盡在 BCCon2018!點擊查看原文進入大會官網了解更多信息。

面向17W+AI愛好者、開發者和科學家,每周一節免費AI公開課,囊括上萬人的AI學習社群,提供最新AI領域技術資訊、一線業界實踐案例、搜羅整理業界技術分享乾貨、最新AI論文解讀。回復「AI前線」、「TF」等關鍵詞可獲取乾貨資料文檔。

如果你喜歡這篇文章,或希望看到更多類似優質報道,記得給我留言和點贊哦!╰( ̄ω ̄o)


推薦閱讀:

TAG:人工智慧 | 中美貿易戰 | 遷移學習TransferLearning |