深度學習洪流:為何它能瞬間改變你的生活? (下)
tech2ipo
編者按:我們和電腦之間的交流正在發生著轉變,而深度學習也已經潤物細無聲地進入我們的生活,甚至在你意識到這一點之前,世界已經截然不同。
本文首發於 fortune,分上下篇,由老呂IO、江小片及何忞聯合編譯,未經雷鋒網允許不得轉載。
什麼是人工智慧?
人工智慧
人工智慧是一個廣義概念,它可以應用到任何一種可以使計算機模擬人類智慧、使用邏輯演算法、決策樹、機器學習(包括深度學習)的技術中。
機器學習
它是人工智慧的一個分支,包括能使機器根據經驗完成任務的深度統計技術,機器學習包括了深度學習。
深度學習
深度學習是機器學習的一個分支,它包括允許軟體自行完成任務的演算法,例如語音和圖像識別,通過多層神經網路系統傳輸給大數據。
深度學習可以改變任何一種工業,谷歌大腦項目的領導者 Jeff Dean 說:「計算機視覺一旦開始使用就會產生許多基本變化。」隨後他又糾正說:「現在計算機已經打開了人們的新世界。」
曾經有一個假設是這樣說的:當超級智能機器不需要人類的參與就可以完成許多事情的時候,那些低能的人類就要面臨被淘汰的危險。難道現在是要證明這個假設了嗎?
或許並不是。神經網路系統甚至比人類更善於模式識別,但是它們並不能推理。
2009 年發生了第一次變革。那年夏天微軟的Lee邀請多倫多大學的神經網路大師 Geoffrey Hinton 來參觀。根據他的研究,Lee 的團隊研究了神經網路對於語音識別的應用。Lee 說:「對於結果我們很震驚,用第一個原型準確度提高了 30% 以上。」
2011 年,根據 Lee 的研究,微軟將深度學習技術應用到了它的商業語音識別產品中。隨後在2012年8月谷歌也應用了這項技術。
但是真正的轉折點是在 2012 年 10 月,在義大利佛羅倫薩的一間工作室,斯坦福人工智慧實驗室的領導人、著名的年度 ImageNet 計算機視覺大賽創辦人李飛飛宣布,兩位 Hinton 的學生髮明的軟體能以比競爭者高達兩倍的準確度識別物體。Hinton 說:「這是個引人注目的結果,這個結果說服了很多之前對此表示懷疑的人。」(在去年的一場深度學習超越人類的爭論中。)
圖像識別像是一個發令槍,它引發了一場新的聘用比賽。谷歌聘用 Hinton 和贏得比賽的那兩名學生,Facebook 簽約法國深度學習創新者 Yann LeCun,他是在二十世紀八十年代和九十年代都贏得了 ImageNet 比賽的演算法先驅。而百度則聘用 Ng,他是斯坦福人工智慧實驗室的前領導人,他在 2010 年也領導了谷歌大腦計劃的深度學習項目。
從那時起的挖人風波愈演愈烈,如今,微軟的 Lee 說:「在這塊領域裡一場血腥的人才相爭之戰正在上演,頂級的頭腦需求就像美國橄欖球聯盟足球員那麼多。」
68 歲的 Geoffrey Hinton 第一次聽說神經網路是在1972年,那時他剛在愛丁堡大學開始他的人工智慧畢業設計。本科在劍橋的時候已經學習了實驗心理學,他對神經網路演算法十分感興趣,神經網路是軟體構造基礎,這種靈感來自於大腦中神經元的工作模式。那個時候神經網路沒有那麼受歡迎,大家都認為他們瘋了,但是 Hinton 堅持干著。
神經網路展現了計算機學習的前景:像孩子學習那樣從經驗獲得,而不是通過人類設計的程序發出的蹩腳的指令。他回憶說:「大多數人工智慧從那時起都是由邏輯啟發,但是有的人很晚才意識到邏輯這回事。兩三歲的孩子沒有邏輯,所以對於智能,神經網路似乎比邏輯能更好的應用。」(邏輯是 Hinton 的一個家庭交易,他出身科學世家,他是19世紀數學家 George Boole 的玄孫,在 Boolean 研究之後,邏輯和演算法得以命名。)
在 20 世紀 50 年代和 60 年代期間,神經萬羅在計算機科學家中很盛行,在 1958 年,康奈爾大學研究心理學家Frank Rosenblatt在布法羅的實驗室,在一個海軍項目中,以神經網路構建了一個原型,他稱之為Perceptron。他利用了一台充滿整間屋子的穿孔卡片電腦,試驗 50 次以後它可以辨別左右兩邊的卡片,《紐約時報》報道:海軍認為現如今的電子計算機的雛形將來會聽說讀寫、行走、繁殖、有存在意識。
Perceptron的軟體由於限制,只有一層神經元,但是研究者認為將來會有多層或深層神經元網路。
Hinton 解釋了這個理論。假設神經元網路在繪製攝影圖像,比如說畫一隻鳥。「輸入指令『像素』然後第一層單元就會檢測邊緣,一邊暗,另一邊亮,第二層神經元會根據第一層的數據進行分析。」例如,某一個神經元會直接描繪鳥嘴的角度。
下一層會進行更複雜的立體基陣,比如許多邊排列成一個圈。這時神經元可能對應出鳥的頭部。更高級的神經元會檢測在鳥頭部附近的圓圈裡反覆出現並列的像鳥嘴的角度。它會檢驗那是不是鳥頭。Hinton說道,更高級的神經元層會對應出更複雜的形態,直到繪製出我們所定義的「鳥」的形狀。
然而,僅僅通過神經元層給出信息是不夠的,我們需要知道最高層神經元是否得到了正確結果,如果沒有的話,需要撤回信息確保低級神經元能夠重新整合優化結構。於是深層學習就出現了。
在 20 世紀80年代初期,Hinton在研究這個問題,法國的一位叫Yann LeCun 也在做相同的研究,他剛開始在巴黎進行他的畢業設計。LeCun 對 Hinton 1983 年的一篇闡述了多層神經元的文章產生質疑。「在那個時候,這篇文章沒有很好地進行表述,因為在那個時期,你提到『神經』和『神經元』這樣的詞是很難發表文章的。」他回憶道,「於是他就以模糊不清的方式寫了文章,審稿人才通過這篇文章,但是我對這篇文章很感興趣。」二人在兩年後相見,並就此展開研究。
1986 年,Hinton 和他的兩位同事就利用演算法解決錯誤相關問題發表了學術文章。「這篇文章是神經元第二次風波的基礎。」 LeCun 說,這再次燃起了他對此領域的興趣。
跟隨 Hinton 完成博士後工作以後,LeCun 在 1988 年去了美國電話電報公司的貝爾實驗室,在這個地方,他完成了接下來十年的基礎工作研究,這些研究至今仍在圖像識別領域被沿用。 20 世紀 90 年代,根據 LeCun 的研究,貝爾實驗室的子公司 NCR 生產了一種神經元支持的產品,這種產品廣泛用於銀行,它可以讀取支票上的手寫數字。同時,兩名德國研究員也獨立研究了不同類型的演算法,20 年後的今天,這種演算法在自然語言處理應用程序中十分重要。
然而在 20 世紀 90 年代中期,神經元演算法再次衰落,被一種計算機時代更有效的機器學習工具所替代,這種狀況持續了十年左右,直到計算能力增加了三到四個數量級,這時研究者發明了圖形處理器加速器。
但是數據仍然在丟失,儘管互聯網裡充滿了數據,但是大多數數據都沒有被示蹤,尤其是圖像里的數據,於是就需要訓練神經元。這也正是斯坦福人工智慧教授李飛飛所研究的,「我們的視覺來源於大數據改變機器學習的工作模式,數據驅機器學習。」她在一次採訪中解釋。
2007 年,她啟動了 ImageNet 項目,在免費網站上收集了超過一千四百萬被示蹤的圖像。2009 年和 2010 年,她都舉辦了年度激勵競賽,並且發表了在計算機視覺上取得的研究突破。
2012 年 10 月,兩個 Hinton 的學生贏得了這個比賽,我們也因此清楚地看到了深度學習目前能夠到達的程度。
在此之前,大眾已經因為另一個事件了解了深度學習。2012 年 6 月,Google Brain 發布了一個創意項目的結果,現在這個項目已經廣為人知,叫做「貓的實驗(cat experiment)」。這個實驗引起了極大的共鳴,並在社交網路上迅速走紅。
這個項目真正探索了深度學習領域中一個尚未解決的重要問題——「無監督學習」。目前幾乎所有商業使用的深度學習產品都是「監督式學習」,就是使用標記的數據(如從 ImageNet 收集的圖像)來訓練神經網路。而「無監督學習」恰恰相反,是給神經網路展示未標記數據,命令其從中尋找反覆出現的式樣。研究者們希望今後能掌握無監督學習的方法,因為這樣機器就可以從目前還無法使用的龐大的數據集中進行自我學習和了解世界,就像人類嬰兒一樣,機器可以完全通過自身來對世界進行感知。
在貓的實驗中,研究者給一個超大神經網路(1000 台計算機)展示了從 YouTube 視頻上隨機截取的一千萬個未標記圖像,讓計算機軟體自行運作。當「雜質」清除乾淨後,研究員檢查最高層級的神經元,自然就能發現其中一個神經元有力地反饋出貓的圖像。Google Brain 的項目負責人 Ng 說:「我們還發現一個神經元明顯地反快出人類的面部圖像。」然而,結果也令人疑惑。「比如,我們沒有發現任何一個明顯反映汽車圖像的神經元。還有很多神經元反映的事物我們無法辨別。所以這項工程還很艱難。」
這個實驗引起了轟動,但是無監督學習仍然未被完全破解,這是留給未來的一項挑戰。
可以想到的是,目前大多數商業使用的深度學習應用都屬於那些擁有龐大的可供深度學習運算數據的公司,比如谷歌、微軟、Facebook、百度和亞馬遜。很多公司正在發展更加真實和有用的聊天機器人來作為自動化的客服代表。
四大技術巨頭對深度學習技術的重視
· 谷歌
谷歌在2011年設立了專註深度學習領域的 Google Brain 項目。2012年中期,谷歌將神經網路引進其語音識別產品中。2013年3月,谷歌保留了神經網路開發者 Geoffrey Hinton。如今谷歌正在研發過程中的深度學習項目已經超過1000種,涵蓋了搜索、安卓、Gmail、照片、地圖、翻譯、YouTube和自動駕駛汽車等眾多領域。2014年 ,谷歌收購了 DeepMind,其深度強化學習項目 AlphaGo 在三月份打敗了世界冠軍李世石,成為了人工智慧發展的里程碑。
· 微軟
2011年上半年,微軟在其 Bing 聲音搜索和 X-Box 語音指令等商業語音識別產品中使用了深度學習技術。目前,微軟在搜索排行、照片搜索、翻譯系統等很多領域中使用了神經網路技術。Lee 說道:「其實廣泛傳遞它已有的影響是很難的。」去年,微軟贏得了關鍵圖像識別競賽的勝利,九月份,微軟又取得了一個紀念碑式的記錄:在語音識別中達到最低錯誤率6.3%。
2013年10月,Facebook 聘請了法國神經網路創新專家 Yann LeCun 來指導公司新的人工智慧研究實驗室。 Facebook 每天利用神經網路來翻譯超過 40 種語言的大約 2 千萬的用戶帖子,同時,每天有8億用戶在閱讀這些翻譯的帖子(幾乎有一半的用戶不使用英語)。 Facebook 還將神經網路應用於照片搜索和整理中。目前,公司正在研究一項應用於視力障礙人群的功能:為沒有標籤的照片產生語音標記。
· 百度
2014 年 5 月,百度聘請前谷歌 Google Brain 項目創建者之一的 Andrew Ng 來領導它的研究實驗室。作為中國領先的搜索引擎和網頁服務網站,百度也在其語音識別、翻譯、照片查詢、自駕駛汽車等等領域中使用神經網路技術。在中國這樣一個倡導「移動先行」戰略而其主要語言漢語又較難輸入進電子設備的社會中,語音識別是發展的關鍵所在。百度談到,在過去的18個月里,使用語音介面的用戶數量翻了三番。
像 IBM 和微軟這樣的企業也正在幫助企業客戶在企業運營時中適應深度學習類應用(如語音識別界面和翻譯服務)。而像亞馬遜網頁服務這樣的雲服務商則為想要發展自己軟體的客戶提供便宜的 GPU 驅動的深度學習運算服務。大量的開源軟體(如 Caffe、谷歌 TensorFLOW、亞馬遜 DSSTNE)本著開源的原則,已經加速了它們的創新過程,從而使更多的研究者可以不經過漫長的同行審閱同意就能立即發表他們的研究結果。
很多非常激動人心的深度學習應用都在醫學領域。我們已經了解到,神經網路在圖像識別方面貢獻非凡。安德森·霍洛維茨基金(Andreessen Horowitz)基金的生物投資單元負責人,斯坦副教授 Vijay Pande 觀察到:「放射科、皮膚科、眼科等很多科室的醫生所做的大部分事情其實就是圖像識別工作。」
· 深度學習與醫學
初創公司 Enlitic 利用深度學習來分析CT和MRI等醫學影像檢查。公司總裁 Igor Barani 此前是加州大學舊金山分校的射線腫瘤學教授,他說道,Enlitic 在判斷肺部結節是惡性還是良性方面比四個放射學專家做的還要出色。(這項工作還未得到同行審閱,該技術還未得到 FDA 的認可。)
默克製藥公司(Merck)正在嘗試使用深度學習來加速藥物的發現,它在舊金山新創建了一個製藥公司,名叫 Atomwise。在這裡,神經網路可以檢驗出一個由數千分子構成的藥物的3D圖像,從而預測該藥物是否適合抑制病原體的致病機制。很多這樣的公司正在使用神經網路來試圖改進人類已有的成果,還有一些公司則試圖做人類還無法實現的工作。
27歲的計算生物學博士 Gabriel Otte 創建了他的公司 Freenome。該公司的目標是從血樣中檢測出癌症,他們可以檢測出血液中細胞死亡時釋放出的 DNA 片段。通過深度學習,他命令計算機尋找無細胞DNA和一些癌症之間的相關性。Otte 說道:「我們將看到還未被癌症學家發現的新的癌症特徵。」
安德森·霍洛維茨基金考慮對 Freenome 增加投資時,負責人 Pande 給Otte 五個盲選樣本,其中兩個正常,三個為癌症樣本,Otte 的判斷全部正確,最終Pande決定對其進行投資。
一個放射學專家一生也許能看到幾千張醫學影像,但是一台計算機可以觀察數百萬張影像。所以 Pande 說:「也許圖像問題交由計算機來解決更好的想法其實並不誇張。因為計算機可以處理完一個人一輩子也無法完成的龐大數據。」
技術的潛在優勢不僅僅在於更好的精確性和更快的分析速度,還有自治化的服務。當技術變得越來越標準,每個病人最終都可以受益於此。
我們感受到的深度學習最深刻的影響恐怕是當它以我們從未想過的方式被嵌入到其他人工智慧的工具箱中進行使用的時候。比如谷歌的 DeepMind 已經完成了驚人的工作:將深度學習和一個名叫增強學習的相關技術相結合,他們用著這兩項技術創造出 AlphaGo,去年三月,它打敗了圍棋世界冠軍,這被公眾視為人工智慧技術的一個里程碑。不同於在1997年打敗了國際象棋冠軍 Garry Kasparov 的IBM 深藍(Deep Blue),AlphaGo 在編程中,並未使用決策樹方法,或是評價所在位置的方程方法,或是 if-then 規則。DeepMind 的總裁 Demise Hassabis說:「AlphaGo是通過自我博弈和觀察大型專業比賽來學習如何下圍棋的。」(在訓練中,AlphaGo 自我對戰次數高達百萬次)
一個遊戲也許更像是一種人為設定,但是 Hassabis 認為,相同的技術可以應用在真實世界的問題中。今年 7 月,谷歌的報告顯示,使用與 AlphaGo 相似的技方法,DeepMind 可以將谷歌數據中心的能耗效率提高 15%。Hassabis 說:「數據中心中大約有 120 個不同的變數,你可以調節風扇、打開窗戶、關閉計算機系統電源來減少電力消耗。你可以從感測器、溫度計等等中獲取數據。這很像圍棋遊戲,通過反覆試驗和試錯,你將學習到怎樣做是對的。這個方法非常棒,每年可以節約幾千萬美元,同時也保護了環境。因為全世界的數據中心消耗了很多能源,我們希望在更大範圍使用這個技術,甚至推廣到國家電網系統中。」
聊天機器人都是非常不錯的,但是它將變得更加酷炫。
推薦閱讀:
漲姿勢!如何評價Google神經機器翻譯(GNMT)系統?
AI 界歷史性時刻:美國五大科技巨頭聯合成立「AI 夥伴關係」組織
推薦閱讀:
※王健林新年首次演講:足以改變你命運的六分鐘演講!
※我悟了丨改變命運,藥師法門是現世就能得福慧的法門
※改變面相36法
※外媒:「一帶一路」正改變世界
※人人都在喊改變,到底應該朝哪個方向改變?沒人說的上來