轉載 Mike Jordan - 人工智慧:革命尚未到來

轉載 Mike Jordan - 人工智慧:革命尚未到來

作者:Michael Jordan 譯者:Chiao-Yu Yang

作者簡介:邁克爾·喬丹(Michael Jordan)是加州大學伯克利分校的電子電機和計算機系以及統計系的教授。喬丹教授是美國國家科學院、美國國家工程院、美國文理科學院院士。他的工作涉及統計學、機器學習、認知科學,包括了非參貝葉斯分析、概率圖模型、非凸優化等等,為機器學習做出了奠基性的巨大貢獻,在 2015 年被 Semantic Scholars 的演算法認定為最有影響力的計算機科學家。

譯者註:當我和邁克提起把這篇文章翻譯成中文的時候,他很開心地接受了這個建議。事實上,邁克本人是螞蟻金服的科學智囊團(Scientific Advisory Board)的主席,也經常到訪中國,非常讚賞中國現在學術界和工業界對機器學習的熱情。這篇文章將從邁克本人十幾年前的一件往事開始,引入對一個即將出現的工程領域的討論。他將澄清一些公眾和媒體層面常有的對於人工智慧這個辭彙的誤解,並解釋人工智慧和機器學習的邊界,然後討論一些正在發生的重大變革和我們正面臨的機會與挑戰。為了清楚地討論這些問題,他將引入三個不同的概念:「類人智能」 (human-imitative AI),「智能強化」 (intelligence augmentation),」智能基建「 (intelligent infrastructure),而後他會著重討論智能強化和智能基建里的重大問題,以及它們深遠的意義。

希望我的翻譯沒有破壞文章的原意;如果大家感興趣的話,我強烈建議閱讀邁克發表在 Medium 里的原文,畢竟他的寫作水平遠遠在我之上。最後,邁克很感謝賈揚清博士轉發這些信息,希望大家能夠有所收穫。

原文鏈接: medium.com/@mijordan3/5e1d5812e1e7


人工智慧(AI)是當代的魔法:一個被學者,技術人員,風投資本家屢屢提及的事物。很多其他從學術界遷徙到公眾視野的名詞都引發了很大的誤解,這一次人工智慧也並不例外。但這一次,不僅僅是一般的公眾不理解科學家而已:不在相關領域工作的科學家和公眾這次一樣對這個概念產生了誤解。我們產生了這樣的想法:硅基智能足以匹敵我們自身--這個想法引起了極度的興奮,但也引起了同等的恐慌。與此同時,不幸的是,這個想法轉移了我們的注意力。

在這裡,我想先講一個關於人類,計算機,數據以及生死的故事,但這個故事和硅基智能無關。在14年前,我的妻子懷孕的時候做了一次超聲波檢測。一個基因專家指著胎兒心臟附近的一些白點,說到:「這些是唐氏綜合症的標誌,胎兒患上唐氏綜合征的危險已經上升到了二十分之一。」她還告知我們,我們可以通過羊膜穿刺術知道胎兒是否真的患有唐氏綜合征,但是羊膜穿刺術不是絕對安全的,它有大約三百分之一的概率會導致流產。接下來的故事大概是,我發現十年前英國有關於這些白點的一些統計分析,當時科學家發現這些白點反映了鈣的堆積,從而開始把這些白點用作預測唐氏綜合征的指標。與此同時,我也注意到了我們做超聲波的成像機器和英國的那個研究用的機器是不同的:在每平方厘米的面積上,我們用的機器大約多了幾十個像素點。我回去告訴了那個基因專家這些事情,並告訴她我相信這些白點可能只是假陽性:它們僅僅只是成像中的白噪音而已。她說,「啊,怪不得在前幾年新機器投入使用以後,我們開始發現越來越多的唐氏綜合症患兒。」

後來,我們沒有做羊膜穿刺術,一個健康的女孩子幾個月後誕生了。但這件事情讓我感到不安,一個簡單的計算讓我相信世界上每天都有數以千計的人得到相同的分析,他們中很多的人會選擇去做羊膜穿刺術,而那會導致很多嬰兒無辜地死去。同樣的事情不斷地發生,直到人們發現並解決這個問題。我講述這個故事,並不是為了表述我對個人醫療的擔心;這是一個醫學系統的事情,現有的醫學系統,在不同的時間和地點,測量了變數和結果,做出統計分析,然後把這些分析套用在其他的時間和地點。這裡牽涉到的不僅僅是數據分析的問題,還有一個數據起源的問題(資料庫專家稱之為「Provenance」):數據從哪裡來的,我們做了什麼樣的推論,這些推論在當下的場景是否適用?一個受過訓練的專家,可能可以對每一個個案做具體的分析,然後得出結論,但這很難推廣:我們需要設計一個覆蓋整個星球的醫療系統,讓它在沒有分析員對每一個個案進行非常耗時的監督的時候也能自動地完成這些分析。

我是一個計算機科學家,但在我的教育中,我沒有找到一些合適的原則來製造這個星球規模的推論和決策系統,來融合計算機科學和統計學,並且考慮到人類的福利。我開始認為,發展這些原則-不僅僅是在醫學領域,也在商業,交通,和教育-至少是和建造那些可以擁有酷炫的遊戲或者感覺技能的人工智慧系統同等重要的。

不管我們能否在短暫的未來理解「智能」是什麼,我們都已經面臨一個巨大的挑戰:如何把計算帶入到人類的生活之中,並使之改善人類的生活。有些人覺得這種挑戰蘊含了人工智慧的創造,但我們可以用一個更加平凡但同等富有敬意的看法,這種挑戰標誌著一個新的工程學分支。就像過去幾十年里的土木工程和化學工程一樣,這個新的學科嘗試融合幾個核心想法的力量,將新的資源和可能性通過一種「安全」的方式帶給人類。土木和化學工程的基石是物理和化學,而我們的這個新的工程的基石是上個世紀帶給我們的一些概念--比如信息,演算法,數據,不確定性,計算,推論,和優化。而且,因為這個學科的重點在於信息和人類,它的發展將需要來自社會科學和人文學科的參與。

雖然這些基石已經出現,但是把它們融合在一起的原則卻還沒有完備,因此,現在我們只能用一些暫時性的方法把這些基石放在了一起。

人類在土木工程出現之前,就已經開始建造樓房和橋樑。相似地,我們在這個新的工程出現之前,就已經開始建造社會規模的推論決策系統,並在其中包含了機器、人類、環境。當然了,就像早期的建築和橋樑有時候會不可預知地倒塌並帶來悲劇性的結果一般,我們很多早期的社會規模的推論決策系統也已經表現出了概念性的錯誤。

現在,公眾對話里太經常地把「人工智慧」當做一個萬能牌來使用,這種用法讓我們更難搞清楚這個新興科技的範圍和意義。現在,讓我們回過頭來,重新認真地從歷史和現代的角度來審視「人工智慧」這個概念。

很多現在被稱為「人工智慧」的東西(尤其是公眾領域裡),在過去幾十年里一直被稱為「機器學習」(Machine Learning, ML)。機器學習是一種演算法領域,它將統計學,計算機科學,和很多其他的領域(見下文)結合在一起,來開發可以處理數據,做出預測,幫助決策的演算法。從很多年前開始,機器學習就已經對真實世界產生了影響。事實上,機器學習會發展出工業上的大規模應用這件事在90年代就已經初現端倪了。到了世紀之交的時候,一些像亞馬遜一樣具有前瞻性的公司已經開始在他們的商務中應用機器學習來解決欺詐檢測中的後端問題,做出物流鏈中的預測,以及建造革新的面向用戶的服務,比如推薦系統。當數據和計算資源在接下來的二十年里突飛猛進,我們看到機器學習不止幫助了亞馬遜這樣的公司,還幫助了基本上所有業務中和大規模數據有關的公司。新的商業模式隨之出現,「數據科學」這個短語來開始被用來描述這些事情。某種意義上,這也反映了要完備這個系統,機器學習演算法專家需要和資料庫專家,分散式系統的專家一起將這個系統打造得可擴展且魯棒,而這個系統本身也在社會和環境層面上有著越來越大的影響。

但是,這些概念和技術在過去的數年裡,被包裝成了「人工智慧」。這種包裝是值得商榷的。

歷史上,「人工智慧」這個詞是在50年代後期被發明的,它被用來指代設想中的通過軟體和硬體來實現的具備類似人類智能的實體。我們將使用「類人智能「(human-imitative AI)來指代這種構想,從而強調這種人工智慧實體會和我們很相似(至少在心理層面上)。這主要是一個學術界的工作。一些如運籌學、統計、模式識別、資訊理論、控制理論之類的學科已經存在,並常常受到人類和動物的智能的啟發,但這些領域主要關注「底層」的信號和決策。比如一隻松鼠能夠感知一個三維的森林,並在樹枝之間跳來跳去的能力,對這些領域是具備啟發性的。但」人工智慧「關注的是不同的東西,它關注的是人類「高級」或者說「認知」層面上去「推理」和「思考」的能力。在人工智慧這個概念被提出後六十年後的現在,這些能力依然還是觸不可及的。這些現在被稱為「人工智慧」的工作,大多數出現在和底層的模式識別和動作控制相關的工程領域,也出現在統計學 - 一個關注數據中的預測、假設檢驗、決策的學科。

事實上,著名的「反向傳播」演算法,在80年代初期曾經被 David Rumelhart 重新發現,現在被認為是所謂的「人工智慧革命」的核心,但其實它最開始出現在50和60年代的控制理論(control theory)的研究中。它的一個早期應用就是在阿波羅號宇宙飛船飛向月亮的時候,優化它的推動力。

自從60年代以來,我們有了很多的進展,但這些進展並不是從追求發展類人AI中得來的。其實就像在阿波羅號的例子中這樣,很多這些方面的進展隱藏在一些工程問題的背後。工程界的研究人員在解決一些具體的問題的時候所提出的方案,實際上對後來的機器學習產生了深遠的影響。雖然那個時候機器學習還沒進入公眾視野,但是它已經在諸如文本提取、文本分類、欺詐檢測、推薦體統、個性化搜索、社交網路分析、規劃、診斷、還有A/B測試等領域取得了巨大的成功,而這些領域的進步,催化了諸如谷歌,Netflix,Facebook,亞馬遜這樣的公司的誕生。

我們可以簡單地把這些東西稱呼為「人工智慧」,而且事實上人們似乎正在這麼做。優化和統計學的研究者對這種標籤是有點令人驚訝的。一夜之間,他們發現自己從計算機科學家或者統計學家變成了人工智慧專家。但除了研究人員的標籤,更大的問題是這個簡單且定義模糊的短語,阻斷了我們對於學術問題和工業問題的清晰的理解。

過去的二十年,學術界和工業界在「強化智能」 (Intelligence Augmentation,IA)的領域得了巨大的進步。強化智能指的是利用數據和計算來加強人類的創造性和智力活動。一個搜索引擎是「強化智能」的一個例子,因為它加強了人類的記憶力和事實知識;語言翻譯引擎則加強了人類的交流能力;基於計算的產生聲音和圖像的軟體則成為了藝術家手裡全新的染色版。雖然強化智能的工具可以加入推理和思維,但是它們還做不到。現在這些工作能做的是去嘗試匹配字元,去進行數值計算,從而抓取一些人類可以使用的模式。

我希望讀者能夠忍受我再提出一個辭彙,讓我們考慮這個叫「智能基建」(Intelligent Infrastructure, II)的網路。它指的是由計算、數據和物理實體共同組成的網路,旨在讓人類所居住的這個社會更加有趣、高效、安全。這種基建開始出現在交通,醫藥,商業和金融等領域,並對個體和社會發揮了巨大的作用。人們有時會把這些事情稱之為一種網路,比如物流網路,但這種說法有時候指的是把這些東西輸入到互聯網而已,而非指代一個更廣大的挑戰:分析數據流從而發現更多的知識,和人類以及其他事物在一個比單純的比特更加抽象的層面上互動。

讓我們回到我文章開始時所提到的社會規模的醫療系統。這樣的一個系統,在醫生和患者佩戴的儀器之間建立起數據流和數據分析流,從而幫助人類的智能去做出更好的診斷和醫療。這個系統會結合體內細胞、DNA、血液檢測、環境、人群基因,和龐大科學文庫里對於藥物和治療的信息。它關注的不僅僅是一個患者和一個醫生的關係,而是人類之間相互的關係:就像現在的藥物試驗里一樣,它讓一群人或者動物的實驗對其他的人類產生更大的福利。它保持了數據的相關性、起源、可靠性,正如現在的銀行系統在金融和支付領域做的一般。我們可以預見到這個過程中會產生很多的問題,比如隱私,安全,和可靠性,但這些問題應當被視作挑戰,而非阻擋我們前進的理由。

現在,我們來到了這個問題面前:發展類人智能,是否是最好或是僅有的去克服這些挑戰的方法?機器學習領域最近有很多優秀的成果是和類人智能有密切聯繫的,比如計算機視覺,語音識別,遊戲,和機器人。所以我們也許應該期待這些領域有更多的好進展。但是,我們需要澄清兩點事情。第一,雖然我們未必能從新聞上讀到,但事實上類人智能的成功是非常有限的,我們離成功實現類人智能還有一段非常漫長的道路。但不幸的是,即使是非常有限的進步,也帶來了很多的興奮(和恐懼),而這在其他工程領域是不存在的。

第二點,也是更重要的一點,類人智能的成功,對於解決強化智能和智能基建的挑戰,既不是必要的,也不是充分的。我們先討論必要性。考慮一下自動駕駛的汽車。要實現這樣的科技,我們需要解決一系列的工程問題,而這些問題可能和人類作為司機的能力或者不足是沒有太大關係的。我們所設想的智能地面交通系統(也是一個智能基建系統)或許不該一味仿照現在地面上橫衝直撞,只能看得到前面,有時缺乏注意力的人類司機。理想的地面交通系統可能和現在的空中交通系統是更加類似的。它會比現有的空中交通交通系統複雜得多,特別是在應用海量的信息,並且應用一個自適應的統計模型來得出好的決策這方面上:這些才是我們需要面對的問題,在這個時候去研究一個像人一樣駕駛的司機,可能只是走了彎路。

我們現在討論充分性。有時候人們會說類人智能的雄圖已經包括了智能強化和智能基建,因為一個類人智能的系統不僅能解決一些經典的人工智慧問題(比如圖靈測試),也會成為我們通往智能強化和智能基建道路上最強力的助手。但是,這種想法沒有太多的歷史先例。土木工程的發展是通過創造一個人工智慧的木匠或者磚匠嗎?化學工程曾經靠預想一個人工的化學家來實現嗎?更加有爭議性的一點是:如果我們的目標是建造化工廠,難道我們應該先製造出一個人工化學家,再讓它去解決建造化工廠的問題嗎?

另一個論點是,人類智慧是我們已知的唯一一種智能,因此我們應該嘗試在最開始盡量去模仿它。但事實上人類並不是很擅長一些推理:我們會精神渙散、有偏見、有限制。更重要的是,我們並沒有進化出能夠解決智能基建問題所需要的大規模決策問題的能力,也不擅長應對智能基建里出現的各種各樣的不確定性。可能有人會爭論說,一個人工智慧系統不僅可以模仿人類智能,還可以「修正」它,並且能夠延展到任意大的問題。但這種說法會讓我們陷入科幻小說的領域:這種構想式的論點,雖然在小說里會很有趣,但不應該成為我們在面對智能強化和基建的時候的主要指導方針。我們應該嘗試直接去攻克這些領域的難題,而不是希望這些問題的解答會成為一個類人智能系統的副產品。

要找出類人智能研究中所遺漏的和智能基建相關的演算法或基建問題並不難。智能基建系統的建成需要一種能力:一種能夠管理分散式知識庫的能力,並且這個資料庫是快速演變的,更糟糕的是,它在全球範圍內未必一致。這種系統必須在應對雲端互動的時候,能夠做出及時的分散式決策,並且能夠處理長尾現象(有的個體有大量信息,但絕大多數個體只有少量的信息)。它們必須能夠解決在分項數據時所遇到的管理問題和競爭問題。最後,也是尤其重要的一點,智能基建系統必須把經濟學裡的一些如動機和定價之類的概念帶入到統計和計算的框架里,從而把人類和人類,人類和各種各樣的商品或服務連接起來。這種系統不應當只被視作提供了服務,事實上,它們創造了市場。諸如音樂、文學、新聞這些領域,都在迫切地期待這種把創作者和消費者通過數據分析緊密連接在一起的市場。而且,所有的這一切,都必須適應不斷演變的社會,道德,和法律體系。

當然了,經典的類人智能問題一樣有著巨大的價值。但是,現在人工智慧領域的中心是收集數據,使用「深度學習」框架,和展現一些具有很大限制性的人類技能,而不是在尋找一些解釋性原則。這種做法會讓我們忽視人工智慧里主要的開放問題:包括引入意義和推理到自然語言處理系統,推論和表達因果性,發展一些對不確定性的可計算的表達,發展一些可以規劃和追求長期目標的系統。這些是類人智能研究的經典目標,但在當下所謂的」人工智慧革命」的熱潮里,我們很容易遺忘這些問題從沒有被解決。

另一方面,除了智能基建之外,智能強化一樣是核心的,這是因為在可預見的未來里,計算機還不能達到人類一般的對現實世界的抽象思維能力。我們需要一些優良的人機互動來解決很多現在的問題。我們也希望計算機能夠引發人類的創造性,而不是取代人類的創造性。

很久以前,John McCarthy(時任達特茅斯學院的教授,但不久後他去了麻省理工學院)發明了「人工智慧」這個辭彙。顯然,他用這個詞來區分他和 Norbert Wiener(一位比較年邁的麻省理工學院的教授)的研究。Wiener 發明了控制論(cybernetics)來代指他自己設想的智能系統,這種視野和運籌學、統計、模式識別、資訊理論、控制理論(control theory)是密切相關的。McCarthy則是選擇了和邏輯的鏈接。有趣的是,Wiener 的構想最終在現代統治了這個領域,卻被冠以McCarthy使用的辭彙。(當然了,這種事情只是暫時的,人工智慧研究的變化節奏比大多數領域都要更快)

但是,我們需要放下這兩種歷史觀點。

我們需要意識到現在所發生的關於人工智慧的公眾對話,只關注到工業界和學術界的一個很小的子集。這可能會讓我們變得短視,無法看到人工智慧、智能強化、智能基建里的挑戰和機會。

這些挑戰與機會和實現科幻小說里的美好設想或者災難性後果無關。相反地,它們關注的是人類在這些技術變得更加現實,更加有影響力的時候,如何更好地去理解和塑造它們。而且,在這個理解和塑造的過程中,不僅僅只有科技行業的人,各行各業的人都需要發出他們的聲音。而狹隘地關注」類人智能「會讓我們錯過很多重要的觀點。

工業界會持續地推動很多這樣的發展,而學術界也會持續地發揮一個核心的作用。學術界不僅需要提供一些最創新的技術想法,也需要計算和統計學科的學者以及其他學科的學者一起合作,尤其重要的是社會科學、認知科學、人文學科的學者。

另一方面,雖然人文和科學都是我們前進道路上不可或缺的,我們應該認識到我們在討論的是一個規模和範圍都屬於前所未有的的巨大工程問題:整個社會在嘗試在建造一些新的人造物。這些人造物需要具有我們所希望的效果。我們不想建造出一大堆醫療選擇,交通選擇,和商務機會的系統,最終才發現這些系統是無效的,甚至發現它們做出了一些錯誤決策,而其代價為人類的快樂乃至生命。在這方面,正如我所強調的一般,有一個即將出現的以數據為核心,專註於學習的工程領域。雖然已經有很多令人興奮的發展,但這些內容尚未能夠被視作構成了一個完整的工程學科。

更進一步地,我們要去接受這樣一個事實:我們正在見證的,是一個嶄新的工程分支的誕生。「工程」這個辭彙,通常被以一種狹義的方式提起,不管在學術界里,還是學術界外,它聽起來都冷冰冰的,如同一個沒有感情的機器,並且有時會讓人想像出一副失去控制的畫面。但是,一個工程分支,可以是任何我們想要它成為的東西。

在這個年代,我們有一個真實的見證全新歷史的機會:一個圍繞著人類本身展開的工程分支。

我不想給這個新生的領域一個名字,但如果「人工智慧」這個詞一直被用作指代這個領域的專有名詞,那我們需要謹慎地看待這個詞的局限性。讓我們打開我們的視野,從狂熱中冷靜下來,並且意識到前方的嚴峻挑戰。

邁克爾·喬丹

作者致謝:在寫作的過程中,有很多人給了非常多的幫助,這其中包括了傑夫·貝佐斯,大衛·佈雷,羅德·布魯克斯,凱瑟琳·卡森,湯姆·迪特里奇,查理斯·埃爾坎,奧倫·艾特齊爾尼,大衛·海克曼,道格拉斯·豪富斯塔德,邁克爾·啟恩斯,塔米·科爾達,愛德·拉佐斯卡,約翰·馬科夫,依瑟·洛爾福,馬佳·馬塔力科,狄米崔斯·帕派力奧普魯斯,本·雷切特,西爾多羅斯·萊卡斯納斯,芭芭拉·洛薩里奧,和埃恩·斯托卡。我想再對 The House 的卡梅隆·巴拉達特别致謝,他是第一個鼓勵我去寫這篇文章的人。


推薦閱讀:

直觀理解正則化
強化學習——從Q-Learning到DQN到底發生了什麼?
製作假新聞?AI送你去喝茶!
五分鐘搞定Tensorflow

TAG:人工智慧 | 機器學習 | 深度學習DeepLearning |