人工智慧眼中的世界,竟然如此詭(魔)異(性)?!
神經網路畫的Doge那麼魔性,是因為它認知世界的方式和人類截然不同,但究竟不同在哪兒仍然有待解決——至少,在放手讓神經網路幫我們開車前,我們必須弄懂它們的想法。
本文作者:David Berreby,Us and Them: The Science of Identity一書的作者。竹之嵐/編譯。本文由 Nautilus 授權果殼網編譯發表,嚴禁轉載。從曼努埃拉·維羅索(Manuela Veloso)位於布魯克林一棟寫字樓19層的辦公室窗口向外望出,美景動人心魄——湛藍的天空、紐約港和自由女神像。然而此刻,吸引我們目光的卻是對面大樓毫無特色的窗玻璃。
從對面的窗戶里,我們可以看到椅子、桌子、檯燈和文件,但它們看起來有些不對勁;因為它們並不真的在那裡。它們的實物實際上位於我們這一側——很有可能就在我們所在的大樓。午後明麗的陽光照亮了玻璃,將窗戶短暫地變成了鏡子。於是,我們就看到了半空中被陽光照亮的辦公用品,虛無飄渺,絲毫不受地心引力的束縛。
透過窗戶看到的,究竟是倒影還是對面的實景?有時連人類都會弄錯。圖片來源:philipschwarzphotography
曼努埃拉·維羅索是卡內基·梅隆大學計算機科學和機器人技術專業的教授,我正在和她討論機器如何感知和思考——一個比我預想的難解得多的話題。「機器人怎樣才能發現這是倒影呢?」她示意窗玻璃上的光影,「諸如這樣的事情,就是對機器來說困難的事情。」
近年來,人工智慧已經以無情的速度攻克了很多難題。在過去幾年中,一種以高效著稱的人工智慧——「神經網路」——已經在一些領域裡趕上、甚至超越了人類,包括研發新葯,挑選最佳工作候選人,甚至還有駕駛汽車。神經網路的構造模仿了人類大腦,現在,它(通常)已經能夠辨別出文章的好壞,並且(通常)能以相當高的精度從圖片中分辨出目標物體。神經網路的應用日益廣泛,不僅在隨處可見的日常領域中,比如谷歌的搜索引擎、亞馬遜的推薦目錄、臉書的好友動態和垃圾郵件的過濾,還有軍事、金融、科研、比人類駕車更靠譜的自動駕駛等重要工作。
神經網路有時會犯一些人們可以理解的錯誤(的確,窗戶里的桌子看起來非常真實;甚至連我也很難看出它們只是倒影),但另外一些難題,卻會讓它們給出讓人難以理解的回答。神經網路的運作方式,是執行演算法——關於如何完成任務的指令。演算法當然是由人類寫成的,但有時,神經網路會得出十分詭異的結果:不正確,但也不是人類能理解的那種錯誤。事實上,這些運行結果看起來簡直像是外星生物的傑作。
比如Google的神經網路畫的畫……圖片來源:reddit.com/r/MachineLearning
這種詭異的運行結果並不多見,但它們也並非隨機差錯。最近,研究人員已經設計出了可靠方法,能讓神經網路一遍又一遍得出這種詭異的非人類結果。這表明我們不應該假設我們的機器會用我們的思維方式思考。神經網路的思維方式是不同的。但我們並不知道到底有何不同,或者究竟為何不同。
就算我們現在還沒到依賴神經網路來料理家務、駕車出行的程度,這個念頭也相當令人不安。畢竟,我們對人工智慧的依賴越多,就越需要它們具備可預測性,尤其是在可能的失靈方面。如果不明白機器是怎麼做出一些怪異的舉動的,以及它們為什麼會這麼做,我們就不能確保這類事件不會再次發生。
不過,這種偶爾的詭異機器「想法」或許也是人類學習的好機會。在接觸到外星智能之前,神經網路或許是我們所知的最強有力的人類以外的思考者。
神經網路感知與推理的方式與人類的差異或許能向我們揭示,在人類的物種限制之外,智能是如何運作的。伽利略向我們展示了地球在宇宙中並非獨特,達爾文向我們證明了人類在生物中亦非例外。阿爾伯塔大學的人工智慧研究者約瑟夫·莫達伊爾(Joseph Modayil)認為,計算機或許也會給智能領域帶來類似的顛覆。「人工系統向我們展示了智能的無限可能性,」他說。
然而,我們首先要確保自動駕駛車輛不會把校車錯認成橄欖球隊服,也不會把照片中的人類標記成大猩猩或者海豹(谷歌的一個神經網路最近就犯了這個錯誤)。過去幾年來,許多計算機科學家痴迷於這個問題以及可能的解決方案,但他們仍未找到。
的確,校車和橄欖球服都有黃黑相間的條紋,但也只有AI會把它倆搞混吧……圖片來源:kyrene.org,esellerpro.com
深度神經網路很好騙傑夫·克魯(Jeff Clune)是懷俄明大學計算機科學系的助理教授。偶遇了幾次神經網路的怪異行為後,他在最近開始了相關領域的研究。「我還不知道有誰能很好地理解為何會發生這樣的事。」他說。
去年,在一篇名為《深度神經網路很好騙》1(Deep Neural Networks Are Easily Fooled)的文章中,克魯與他的合著者,阮昂(Anh Nguyen)和傑森·約辛斯基(Jason Yosinski)宣布他們製造出了一個用於識別物體的成功的系統,而該系統99.6%確信左圖是一隻海星,同樣99.6%確信右圖是只獵豹。
神經網路眼中的「海星」和「獵豹」。圖片來源:nautilus
反過來,另一組由來自谷歌、臉書、紐約大學和蒙特利爾大學的研究者組成的團隊也開發了一個神經網路系統,該系統認為左圖是一隻狗,而右圖(僅在左圖的基礎上略微改變了像素)是一隻鴕鳥。
右邊是只小海豹。圖片來源:nautilus
右邊的狗就是研究人員們所說的「對抗樣本」(adversarial examples)的一個例子2。這些圖片與分類正確的圖片僅有細微的差異,但足以讓先進的神經網路得出令人失望透頂的判斷。
神經網路是機器學習的一種形式,它通過分析數據而得出結論。而機器學習不僅僅被用於可視化任務,普林斯頓大學信息技術政策中心的博士後研究員索倫·巴羅卡斯(Solon Barocas)說。他指出,在2012年,一個為美國教育考試服務中心(ETS)評估論文的系統將下述文字(由前MIT寫作教授萊斯·普爾曼Les Perelman創作)判定為好文章:
在當今社會,大學的形象模糊不清。我們需要它來學會生存,亦需要它來學會愛。更重要的是,若非沒有大學,世界上的大多數學習將會變得臭名昭著。然而,大學學費卻不可勝數。世界各國面臨的重要問題之一便是如何削減大學學費。一些人認為大學學費的攀升是由於學生對大學的物質條件期望過高,另一些人則認為高額學費是大學體育造成的。而現實是,支付給助教的過高的工資導致了高昂的大學學費。華麗的辭藻和優雅的句式也不能掩蓋真正觀點和論據的缺失(助教明明窮哭了好嗎!——編輯)。儘管如此,機器卻給了這篇文章打出了完美的分數3。
這些荒唐的結果並不能用個別系統偶爾抽風來糊弄過去,因為能讓一個系統跑偏的例子們也會對其他系統造成同樣的結果。讀過《深度神經網路很好騙》後,人工智慧研發公司Vicarious的聯合創始人迪利普·喬治(Dileep George)很好奇別的神經網路會作何反應;,他的蘋果手機上剛好有個應用程序——Spotter,一個用於識別物體的神經網路,現在已經停止更新了。他把手機對準曾被克魯的系統識別為海星的波浪線。「手機說它是海星。」 喬治說。
Spotter所看到的,是手機攝像頭拍到的照片,它和原始圖像在很多方面有所不同:光線條件和角度都有差異,而且還拍到了紙上周圍的一些像素,不是原圖的一部分。然而神經網路得出了同樣的有如外星人一般的解讀。「這一點很有趣,」喬治評價,「這說明這種詭異的判斷具有高度的穩健性。」
實際上,做出「海星」和「獵豹」論文的研究者們已經確保了他們的愚弄圖片在不止一個系統里整蠱成功。谷歌的克里斯蒂安·賽格蒂(Christian Szegedy)和他的同事們寫道4:「一個為某一模型生成的樣本,通常也會被其他模型錯誤歸類,即使它們有著完全不同的架構。」或者使用的是完全不同的數據集。「這意味著這些神經網路對校車長什麼樣有著某種共識,」克魯說,「但它們的共識與人類辨認校車的標準大相徑庭。這一點讓很多人大吃一驚。」
當然,任何收集和編程數據的系統都可能認錯東西。這也包括人類的大腦,它可以將早餐吐司上的圖案看成耶穌肖像。但是當你從某個圖案中看到了並不存在的東西時——心理學家通常稱之為幻想性視錯覺(pareidolia),其他人也都能理解為何你會得出這樣的錯誤結論。這是因為我們共享著同一個認知和辨認物體的神經系統。
在完美的世界裡,我們的機器也會和我們共享這個系統,我們便能像理解彼此一樣理解它們。然而,神經網路產出的那些古怪結果表明,我們並不生活在那樣的世界裡。巴羅卡斯說,這樣的情況會讓我們意識到,演算法的「思考」過程並非人類思維的複製品: 「當系統按照不同於人類的方式運行時,它們的幻想性視錯覺也與我們的不同了。」
巴卡羅斯補充道,寫下這些演算法的人希望「讓機器是人化的,希望它們解釋事物的方式與人類的思維方式一致。但我們必須做好這樣的心理準備——即使機器做和人類一樣的事,做法也會和人類截然不同。」
當然,把狗認成鴕鳥的AI對人類並不構成威脅,在許多書面測試中,機器也能正確打分,能夠愚弄神經網路的圖片似乎也不太容易產生。但一些研究者認為,這樣的圖片一定會出現的。克魯覺得把校車當做橄欖球隊服這種事情即使只發生了一次,也已經太多了:「如果你恰好坐在這樣一輛會把校車認成衣服的自動駕駛汽車上就更是如此。」
目前,我們還無法理解神經網路是如何得出這些令人費解的結論的。計算機科學家們最多只能觀察運行中的神經網路,記錄下一個輸入值會如何觸發內在運行單元的回應。這比什麼都不知道強,但離對機器內部到底在發生什麼的嚴謹數學解釋還差得很遠。換句話說,這個問題的難點不僅在於機器同人類的思維方式不同;而且還在於人們無法還原機器思考的過程,從而找到這種不同背後原因。
神經網路到底是什麼?諷刺的是,出現非人類的幻想性視錯覺的演算法,恰恰是為了模仿大腦中最有人類特徵的部分而設計的。神經網路最早提出於20世紀40年代,是一個粗糙的軟體模型,用來模擬大腦皮質——大部分感知和思考發生之處。作為人類大腦中物理神經元的替代品,神經網路運行的是由代碼組成的虛擬神經元。每一個虛擬神經元就是一個節點,它有許多通道來接受信息,有一個處理器用這些信息計算出一個函數結果,還有一個通道用來輸出這個結果。這些虛擬神經元,就像人類大腦皮質的細胞一樣,是按層次組織的。當信息輸入到某一層時,會激發該層神經元的集體反應(一些神經元被激活,並且與其他神經元產生信息交流,而另一些神經元則會保持沉默)。這一反應結果會傳導到下一層,成為該層進一步處理的原始材料。
就像人腦中的物理神經元一樣,虛擬神經元接收信息、處理信息,並輸出運算結果。圖片來源:scifi.stackexchange.com
儘管每一個神經元都只是簡單的信息處理器,但這種構架體系使得它們能夠用收集來的數據,集體完成驚人的壯舉。舉例來說,在真實的大腦中,當你看到窗戶玻璃上的倒影時,神經元會將視神經中數百萬次的電脈衝轉換為「看到玻璃上的倒影」的視覺感知。比如說,大腦皮質上負責對物體的輪廓做出反應的層次,將工作結果傳導給負責對信息進行進一步解讀的層次;即使輪廓是上下顛倒的,或者正處於暗光之中也沒關係。更深的層次繼續這一解讀過程,最終,這個視覺信息會被整合為一個複雜的認知:「這是一個陰影中的上下顛倒的香蕉。」
經過層層解讀後,大腦認出了陰影中的顛倒香蕉。圖片來源:tonedeaf.com.au
神經網路比大腦簡單多了。但隨著近年來計算機處理能力的提高,提供樣本的大數據集越來越容易獲得,現在的神經網路也能實現類似的成果。它們的層級化處理方式能從海量數據中識別出模式,運用這些模式,將「獵豹」或「海星」這樣的標籤同相應的圖片聯繫起來。
機器並沒有幾億年的演化時間教它辨別色彩、輪廓和形狀等特徵。與人類不同,神經網路是在人類程序員的「訓練」下實現這一能力的。舉個例子,程序員可以在神經網路中輸入大量潦草的筆跡,告訴它這些筆跡分別都是哪個英文字母;演算法會對它們進行識別,認錯的會被糾正,直到訓練數據中的所有字母都被正確分類。用上千個人類認為是字母d的樣本訓練過後,神經網路很快就能設計出一套判斷某個字母是不是d的規則。這是神經網路的架構中最為吸引人的特點之一:計算機科學家不需要窮舉出正確定義d的所有規則,就能設計出一套字跡識別機制。而且他們也不需要向計算機演示宇宙中所有的d:僅僅需要所有d的一個小小的子集——也就是計算機訓練過的那些d——神經網路就可以自學成才,並在未來遇到任何一個d時立刻將其識別出來。
這個體系的缺陷是,當機器將電視機的雪花屏判定為獵豹時,計算機科學家的手裡並沒有機器將它認成「獵豹」時所用的判斷標準的清單,好讓他們可以據此搜尋出系統判斷失靈的原因。神經系統並不在執行一套人類創建的指令,也沒有在一個包含了所有可能的獵豹的完整資料庫里搜索過。它只是在對接收到的信息作出反應。創造出神經網路的演算法只在廣義上對如何處理信息進行指導,而非解決個別問題的詳細指示。換句話說,神經網路的演算法並非精確的菜譜——拿到原料,做這個,等原料軟了再做那個;它們更像是在餐廳里點菜:「我要一份烤乳酪三明治和一份沙拉,謝謝。至於該如何製作,你請便。」巴羅卡斯解釋道,「如何探測數據得到結果,如何發現關係,這些都是計算機用自己創造的規則做到的。」
Google神經網路大作,魔性的平方……
人們現在還無法找到計算機創造的規則是什麼。在一個典型的神經網路中,人們能輕鬆辨認的層級只有輸入層,即數據進入系統的層面;和輸出層,即將其他層級處理的結果報道給人類世界的層面。在這兩個層級間,在那些看不見的層級中,虛擬神經元處理信息,並通過在彼此間形成連接來共享工作結果。和人類的大腦一樣,神經元操作的數量實在太過龐大,使得指出每個神經元對最終結果有何貢獻成了不可能的任務。「就算你知道一個60億人口的經濟體中每一個人的所有情況,你也不能預測接下來會發生什麼,甚至無法解釋過去的事情為何發生,」克魯說道,「這種複雜性是『湧現』的,來自數百萬個部分間複雜的相互作用,而我們人類還不知道要怎麼理解這些。」
不光如此,許多信息處理髮生在神經元間瞬息萬變的連接中,並不僅僅局限在單個神經元。所以,就算計算機科學家能夠確定在某一時間點上、網路中的每一個神經元正在做什麼,他們也依然無法說出整個系統是如何運行的。舉例來說,知道某一層的一部分神經元會被一張臉的輪廓激活,並不足以讓你明白這些神經元在判斷這張臉屬於誰時扮演著怎樣的角色。
這就是為什麼,正如克魯和他的同事所說:「神經網路長久以來都被稱為『黑箱』」,「因為要理解某個具體的、經過訓練的神經網路究竟如何工作非常困難;有太多相互作用著的、非線性的部分了。」5
克魯將試圖解釋神經網路的計算機科學家與試圖領悟全球經濟的經濟學家做比:「我們面臨的問題相當棘手,而且難以理解,」他說,「但是,你不能對每一件事都了如指掌,並不意味著你什麼都沒法理解。」關於神經網路內部的運行方式,他說,「我們正開始慢慢地理解它們,我們可能已經達到了艾倫·格林斯潘那樣的理解程度,但我們還沒能達到物理學家水平的理解。」
用神經網路分析圖片,不同層級的關注點截然不同,層級越高特徵越複雜,甚至會產生過度解讀。圖片來源:googleresearch.blogspot
去年六月,一支由亞歷山大·莫丁塞夫(Alexander Mordvinsev),克里斯托弗·奧拉(Christopher Olah)和麥克·泰卡(Mike Tyka)組成的谷歌研究團隊開發出了一種方法,能讓圖片識別網路顯示出它的某個特定層級的工作內容。「我們向這個網路輸入任意圖片或照片,並讓該網路對圖像進行分析,」三位研究者寫道,「然後我們選擇一個層級,並讓網路對在這一層級探測到的任何東西進行加強。」6他們得到的結果是一組驚人的圖片,外形隨被指定層級的關注點的改變而不斷變換(這就是網路上著名的「谷歌深夢」)。 「舉例來說,」這支團隊寫道,「低層次的層級傾向於產出粗線條、或者簡單的裝飾圖案般的樣式,因為這些層級對邊緣和方向這類簡單特徵比較敏感。」
在這之後不久,克魯、阮昂、約辛斯、加州理工學院的托馬斯·福克斯(Thomas Fuchs)和康奈爾大學的霍德·利普森(Hod Lipson)發表了另一種方法,這種方法可以顯示出活躍的神經網路中一個層級的某個部分、甚至單個的神經元正在做什麼。當人們向它輸入具體圖片後,他們的軟體可以追蹤到神經網路中各個層級上正在發生的事。用戶可以在物體或圖片邊上看到做出反應的神經元的實時地圖。「你可以看到一個具體的節點會對什麼作出反應,」克魯解釋道,「我們正開始著手向黑箱中照進一點光線,來理解裡面正在發生的事。」
換種方式看世界正當研究者們奮力鑽研為何用於錘鍊演算法的大量數據集仍無法反映出他們期待的現實時,另一些人則想到,這些彷彿是由演算法們臆想出的奇怪規則或許揭示出了現實的一些層面——我們憑自身的感官無法察覺到的層面。
畢竟,克魯說,對於人類和蜜蜂來說,一朵花看起來都很美,然而這並不意味這兩種生物看到的是相同的東西。「當我們在傳粉者能夠看到的光譜下觀察花朵時,看到的圖案是完全不同的,」他這樣說道。雖然在蜜蜂眼裡,人類對色彩的感知大概十分古怪,反之亦然,但二者的感知都不是錯覺。或許神經網路認知的奇怪之處可以教會我們一些東西,或許甚至讓我們愉悅。
在克魯及其同事的工作中,有這麼一些由演算法識別出的圖片,它們和那些被機器當成獵豹的雪花屏不同;相反,這些圖片與演算法對它們的歸類的確有某些聯繫。舉例來說,神經網路認為左圖是監獄,而右圖則是草莓。
神經網路眼中的「監獄」和「草莓」。圖片來源:nautilus
人們並不會做出相同的分類。但如果事先告訴人們告知機器的結論,人們也能看出圖片和命名間的聯繫。與將雪花屏判斷成獵豹那樣的錯判不同,這種機器判斷可以引導人們以新的方式看待草莓,或者以不同的方式思考「草莓」這個分類到底意味著什麼。
對研究者們來說,這聽起來很像是一種藝術。因此,他們將一些圖片提交給了懷俄明大學藝術博物館為一場展出舉辦的比賽。35%的投稿作品被評委接受並展出了,演算法的作品也是其中之一,之後還在博物館獲了獎。評委們在展出幾周後才知道這位藝術家並非人類。「我們向一項有評審的藝術競賽提交了作品,比賽不需要提交與作品有關的任何信息,」克魯說,「但一段時間後我們給他們發了一封郵件, 『哦,順帶一提,事情是這樣的……』」
因而,說人工智慧研究員是樂觀主義者顯然是公平的;但與此同時,他們也是一群覺得計算機寫詩或計算機編舞的前景可喜可賀的人。就算演算法編出的是人類無法做到的舞蹈動作,克魯說,「我們仍然能夠欣賞機器人翩翩起舞。」此時此刻,我們所能確定的是,人類目前還不能完全理解演算法的幻想性視錯覺,但已經越發依賴演算法執行的過程。
「這些問題並沒有對錯分明的答案,但無疑十分引人入勝,」克魯說,「這簡直就像當代神經科學一樣。我們對這些『大腦』進行研究,以期待能夠反解出它們工作的原理。」
無論如何,對機器「頭腦」更深入理解的需求不僅來自研究者們對神經網路的困惑。理解神經網路,對於整個人工智慧界,以及以此為基礎運行的社會來說,都是一項挑戰。(編輯:Ent)
Google人工神經網路畫作大賞
如果你還沒看夠刨根問底愛好者,你離答案只隔一道「果殼傳送門」而已!返回對話,戳這個按鈕→本文來自果殼網,謝絕轉載如有需要請聯繫sns@guokr.com
推薦閱讀:
※夫妻相處的智慧
※=如何運用風水增智慧助『考運』『陞官』『升職』』
※老子智慧與協調高手 ——陳平協調略談
※智慧人生:人生到底在苛求些什麼?
※封面|鄧中翰:自主創新晶元核心技術 在人工智慧時代實現中國夢