人工智慧第三次浪潮以及若干認知
來源:科學雜誌(kexuemag),作者:徐雷,致遠講席教授,認知機器和計算健康研究中心主任,上海交通大學電子信息與電氣工程學院
從1956年夏在達特茅斯(Dartmouth)學院召開的研討會算起,人工智慧研究已過一甲子,潮起潮落,如今迎來了第三波浪潮。2017年是中國智能研究的重要年份,「人工智慧 2.0」和「腦科學計劃」兩個國家長期計劃即將啟動,眾多高科技企業競相參與。
長期以來,智能一直用來表示大腦思維的能力。智能究竟是什麼?這個問題至今沒有公認的答案,不斷有人試圖從本質上給出一個簡短而精確的定義。其實,早在60年前,就有一個接受度較高的提法——智能的本質是大腦的信息處理或計算能力。這比思維能力具體了一些,有信息理論和人造的計算機做參照,但仍太籠統,除了思辨沒有多大用途。追求智能的簡要精確定義可能是個迷思,因為大腦是一個非常複雜的系統,智能是該系統多種屬性、功能和外在表現的綜合。
1大腦智能的外在描述和內在探索
對大腦智能的了解,可以通過對大腦智能外在描述的觀察,及對其內在的進一步探索。
大腦智能的外在描述可以從廣義和狹義兩個角度來討論。廣義上,所有需要經過大腦的信息處理或計算都可以視作智能活動,主要包括心智方面的感知、注意、識別、反應、情緒、推理、理解、覺悟、發現、動機、意圖、規劃、搜索、評估、決策,以及更為一般的控制和通信活動等。狹義上,常用「智、慧、聰、能」等字描述大腦智能,多指人類大腦獨有的、而非人類大腦所不具有的能力。隨著時代發展,人們開始發現,過去被認為是 「智、慧、聰、能」的能力,人造計算機以及某些動物的大腦也具備。換言之,這種狹義的智能概念是隨著人們認識的擴展而不斷發展的。
大腦智能的內在探索至少應該包含信息處理和神經科學兩個方面。
信息處理方面,率先探索的是大腦的最基本元件。回顧歷史,對這方面存在一系列疑問,比如大腦系統究竟存在幾個基本單元?每個單元擔任什麼樣角色?這些基本元件將形成幾種不同的基本通路並發揮什麼作用?這些通路以怎樣的結構形成不同功能的模塊,並如何構成系統?更進一步,還想了解在這個系統里信息是如何流動的,有幾種機制協調管理這些流動實現各種智能活動等。與由電阻、電容、電感、互補金屬氧化物半導體(complementary metal oxide semiconductor,CMOS)等基本元件構成的電路系統相類似,腦信息系統也應該不止有一種元件。從1943年麥卡洛克(W. S. McCulloch)和皮茨(W. Pitts)提出的神經元模型,1959年羅森布拉特(F. Rosenblatt)的感知機,1985年美國加州大學聖迭戈分校的並行分布處理(parallel distributel processing, PDP)團隊的多層神經網路,到2006年多倫多大學欣頓(G. Hinton)團隊展示深度學慣用的受限玻爾茲曼機,他們考慮的都是一種元件,數學上用邏輯斯諦(Logistic)線性模型來近似其多輸入單輸出的關係。另外,從1960年代初維塞爾(T. Wiesel)和休伯爾(D. H. Hubel) 的特徵檢測理論,到現今深度學習中廣為使用的卷積神經網路,採用的是稱為S元(simple cell,簡單細胞)和C元(complex cell,複雜細胞)的兩種基本單元。
神經科學方面,也有許多問題引起眾人關注。例如神經元主要由哪些關鍵性物質構成?哪些物質調製神經元功能(神經科學稱其為調質)?哪些物質作為信息流載體(神經科學稱其為遞質)?近年來,已被發現的遞質和調質有近百種,有待鑒定的可能性更多,可分為膽鹼類、單胺類、氨基酸和神經肽。隨著時間的推移,還會發現更多種這樣的物質。
然而智能的內在探索在上述兩個方面的發展存在很大的不平衡,投入的力量相差懸殊。儘管在關於神經元的結構和物質組成上,已有不少研究發現,但這些成果對弄清智能行為少有幫助。筆者認為應該將兩方面的進展聯繫起來,並思考哪些生化物質對應哪種基本單元,哪些物質支撐信息流動,哪些物質可能影響神經元的生存和能耗,但並不直接起信息處理作用,找到這些問題的答案或許能加深對智能的理解。
近二三十年腦科學的研究進展與人工智慧第三次浪潮關係不大,不過,1960年代的特徵檢測理論和1980年代的多層神經網路對第三次浪潮頗有影響。
2智能研究歷史回溯
馮·諾依曼結構的計算機誕生後,人們產生了種種期待,覺得計算機像人一樣有智能,機器替代人完成各種工作的時代來臨了。著名的圖靈測試讓機器模擬人類智能行為,以此來判別機器是否擁有人工智慧。當時的研究兵分兩路,一路是人按照特別設計的語言編程,機器通過喬姆斯基(N. Chomsky)形式語法系統和相應的樹搜索技術讀懂並完成可編程求解的問題或活動;另一路針對那些難以編程的問題,主要是語言理解、機器視覺、知識表示、推理規劃等。智能研究的多個分支紛紛出現,並在1950年代掀起第一次研究浪潮。
巴洛(H. B. Barlow)、萊特溫(J. Y. Lettvin)、維塞爾和休伯爾關於特徵檢測器及其理論的研究,開創了計算神經科學。基於麥卡洛克和皮茨神經元模型的羅森布拉特的感知機,既是人工神經網路研究的起始標誌,也與統計決策理論、霍夫變換(Hough transform)一起成為模式識別和機器視覺的源頭。喬姆斯基形式語法系統影響巨大,不僅是計算機程序編譯和符號人工智慧的源頭,而且還推動心理學派生出計算心理學,令物理符號主義取代了起源於20世紀初的行為主義。
在其後一二十年里,這些分支分別自立門戶。符號人工智慧的發展規模最大,形成了知識表示、規則推理、啟發搜索的基本體系。但是符號人工智慧的知識和規則的獲取需要通過人工,然後才是機器進行演繹,整個流程其實是編程求解的「同宗兄弟」,因而有類似的局限。這一期間,人工神經網路的研究則受到符號人工智慧中某些大師的錯誤排擠,發展停滯。
經歷了那一段艱苦時期,曙光終於出現。1980年代中期,計算心理學逐步發展為認知科學,在加州大學聖迭戈分校PDP團隊的倡導下,建立在人工神經網路模擬大腦神經元及其聯結基礎上的聯結主義活躍起來,其部分主要旗手轉而扛起人工神經網路的旗幟,推動神經網路學習在其後十餘年間掀起高潮。同時,停滯了20餘年的行為主義在薩頓(R. Sutton)等人的推動下,以強化學習(reinforcement learning)為主題,再現活力。另外,模式識別和機器視覺研究也開始沿著多條線發展。一時間,人工智慧研究蓬勃發展,春色滿園。這一時期可以認為是智能研究的第二次浪潮。我國相應地進行了各種跟蹤研究,迎來了第一次浪潮[1]。
1990年代中末期開始,人工神經網路的一些主要研究力量轉向推動人工智慧發展。先以貝葉斯網路推理為主流,後又將神經網路學習研究進一步推廣為研究各種機器學習方法,智能研究的第三波浪潮掀起。此次浪潮帶動模式識別與機器視覺方向的研究再度趨熱。而集成電路、無線通信、互聯網、信息採集、感測控制、物聯網等多種技術的積累,尤其海量數據和超級計算能力的提升,為辛頓團隊在2006年重新審視深度神經網路創造了條件,他們很快在認識上有了新突破,由此推動人工神經網路急速升溫,促進了神經科學、認知科學的繁榮和相互融入。經過60年,智能研究相關各分支再度大整合。AlphaGo系統進一步成功整合深度學習和強化學習,並讓人們再次關注到一甲子以前曾風靡了一甲子的行為主義。
第三次浪潮與前兩次浪潮最為不同的是IBM、谷歌等科技巨頭的加入,它們以雄厚資源和大兵團作戰能力,雄踞龍頭,通過推出沃森(Watson)系統、AlphaGo系統等智能產品,持續推高第三次浪潮。這意味著針對超級複雜大系統的智能研究已從學者們個人的沙盤推演轉變為大規模團體作戰,這個轉變是必然的。
對於我國人工智慧的發展境遇,筆者有三點管見[2]:首先,研究的龍頭應是大科技公司或綜合體系,而非高校或事業單位的研究院所。龍頭企業的興起才是評判國家人工智慧發展水平的重要因素。第二,國家規劃有助於扶持這類綜合體系的產生,但關鍵是領導整合能力。第三,事業型研究單位和小的高科技公司應專註薄弱及重要環節的新方法、新技術,這樣會有效加快我國人工智慧前進的步伐。
3有關智能研究若干提法之梳理
智能研究各分支的這番大整合,產生了不少新術語,並出現了若干可能會引起誤解的新提法。為避免混淆,需要對它們進行系統梳理。
類腦計算(brain-inspired computing)最早在美國流行,是指受大腦神經元結構和機制啟發而研製的計算晶元,以及由這種計算晶元組建的計算系統。類腦計算主要包括神經形態晶元和脈衝神經元晶元,它的功耗遠低於CMOS晶元。2017年年初,《自然材料》(Nature Materials)報道了一種更接近大腦神經元機制的新型憶阻器晶元,或許由它組建的計算系統會更接近人類大腦智能。
類腦智能 (brain-like intelligence)在20多年前就經常出現在亞太神經網路學會的會議上。日本理化學研究所(RIKEN)前腦科學研究院院長甘利俊一(S. Amari)教授在建議用信息幾何理論對腦的學習建模時,也常使用這個詞。其實,它與大腦內在沒有直接關係,只是人工智慧的同義詞。它還有另外一層意思,指模擬智能的系統至少有一些與大腦內在類似的東西(brain-like system)[3]。現今該詞的用法多為後者,卷積神經網路和深度學習嵌入了維塞爾和休伯爾特徵檢測結構,也算一例。由此可見,可以認為類腦計算是類腦智能研究的一部分。但是,從神經科學得到的關於大腦內在的已有知識甚少,制約了類腦智能研究的發展,算得上是類腦智能的事例至今不多。
增強智能(augmented intelligence)又稱腦機智能或腦機合一,源於拓展大腦對外信息輸出的通道(語言、動作、表情、文字等)。先由機器如可穿戴設備直接獲取大腦的信息(目前主要是腦電信號),接著對其進行不同程度的處理。增強智能可以用於控制各種伺服機構,如假肢、輪椅、各種裝置、人造器官等,也可以實現機器的高水平智能活動,形成人腦—機器接續合一,甚至完成機器的信息輸出,通過人的自然感官或人工通道(如附加電極)反饋,從而影響大腦的智能。增強智能不同於模擬大腦能力的人工智慧,也非聳動視聽的「對抗人工智慧」,而是指「大腦智能+新的信息通道+人工智慧」以增強或延拓大腦的智能。
群體智能 (crowd intelligence)又稱群智計算,是指大量個體通過交流合作實現超越個體的智能。這個名詞源於30多年前對蟻群、蜂群等行為的研究,該研究主要是觀察沒有中心控制的分散式初級個體如何發生自組織。如今,群體智能關注的是高級智能個體,嚴格地說,大腦智能就是人類群體智能在每一個體大腦上的不同體現,現實中很難看到一個孤立大腦的智能。人類智能實質就是以大量個體大腦通過通信交流和儲存積累兩個基本要素,再由第三個要素——某些核心人物或團體進一步歸納提煉,逐步形成的;反之,它又會影響、教育、提升每一個體的大腦智能。當今超級互聯網和強大的伺服器大大提升了前兩個要素,而第三個要素也有人工智慧、類腦智能和增強智能為幫手,人類智能的後續發展非常令人期待。
認知計算(cognitive computing)這是IBM倡導的名詞,即其推出的超級計算機沃森的主題詞。它是近幾年IBM力推的發展方向。從概念上看,認知活動涵蓋感知、識別、推理、評估、決策、理解等,構成了大腦智能的主要部分。用機器實現這一部分的計算,當然屬於圖靈測試認可的人工智慧。IBM強調,與通常計算機的數據分析所面對的人工編程和人工製表的結構化數據不同,認知計算可以處理非結構化的大數據。其實,非結構化的數據處理也是人工智慧的原有目標之一,只不過之前符號人工智慧實現不了,而今可以用大數據驅動的深度學習來實現。從認知科學角度來看,認知計算是聯結主義和符號主義聯姻的成功案例,可大致視其為人工智慧1.5。
AlphaGo是谷歌 DeepMind研製的人工智慧圍棋系統。2016年3月,它4∶1戰勝李世石;2016年末和2017年初,它又在中國棋類網站與中日韓數十位圍棋高手進行快棋對決,連續60局無一敗績。該系統也是以代表聯結主義的深度學習作為驅動引擎。它利用大數據通過深度網路學習得出對當前棋局好壞的經驗評估和下一步各種落子的經驗概率分布;還利用大數據通過淺層網路學習得出快速走子策略,驅動蒙特卡洛樹搜索進行前瞻性偵察,獲得關於獲勝機會的前瞻評估。此外,代表行為主義的Q學習進一步綜合落子概率、經驗評估和前瞻評估後,系統才真正落子。不僅如此,它還要與過去的自己對弈,反覆內省之前所學,鞏固贏面。從認知科學角度來看,AlphaGo是成功整合聯結主義、行為主義、符號主義,甚至還有內省主義的經典案例,可以將其看作人工智慧1.8。
「人工智慧2.0」是中國「科技創新2030重大項目」的幾個專項之一,由潘雲鶴院士牽頭提出,旨在發展新一代人工智慧,最近已獲國務院批准,將在2017年下半年進入實施。該計劃提及的新方法和新技術,囊括了大數據智能、人機混合增強智能和群體智能等,敦促分類型處理多媒體數據(如視覺、聽覺、文字等)邁向認知、學習和推理的跨媒體智能,將研究的理念從機器人轉向更加廣闊的智能自主系統。「人工智慧2.0」在應用落地方面,致力於滿足智能城市、智能經濟、智能製造、智能醫療、智能家居、智能駕駛等從宏觀到微觀的智能化新需求。它的實施有望使我國的科研與產業從「跟跑」,轉變成「並跑」甚至「領跑」。
4深度學習成功的主要原因
多層最小平方自組織學習 圖(a)是一個監督和自組織雙向學習的模型,類似現今深度神經網路學習的典型方法[4,5]。為了便於理解,將圖(a)類比為圖(b)。圖(b)中,數據x類似光線,從輸入層傳入,在到達第一個層間界面時,一部分穿過進入下一層,另一部分反射回來,視為x的一個重建。可以通過改變媒介性質,使得重建誤差最小。對於穿入第二層的信息,情況相似,不過要注意的是,第二層的反射也可以穿過第一層並與第一層的反射疊加。逐層類似,最後直到監督層。需要指出的是,這個類比是粗糙的,實際情況更為複雜。
深度學習是人工智慧第三次浪潮的引擎,它成功的原因通常被歸結於三點:大數據、超級計算能力和新的數學方法。前兩個原因毋庸置疑,而對第三點原因的認識卻時有爭議。下面就兩個常見的觀點作一些探討。
一種觀點是,以前的神經網路學習只考慮三層(即只有一個隱單元層),而現在的深度學習考慮很多層。這種看法有悖於歷史事實。魯梅爾哈特(D. Rumelhart)和欣頓等人在1980年代中期提出的誤差反向傳播學習針對的就是多層網路,當時還有許多研究考慮的也是多層網路。西本科(G. Cybenko)、霍尼克(K. Hornik)等人從1980年代末應用函數逼近表示理論,指出三層網路有所謂數學上的通用近似能力,即只要隱單元數目足夠大,用它近似任何函數,都可把誤差控制得足夠小這類研究或許影響了一部分人只關注三層網路,但仍有很多人在研究多層網路。
另一種觀點是,以前的神經網路學習依靠的是誤差反向傳播,其缺陷是局部極值和誤差積累等因素導致反傳的深度有限。而深度學習反向行之,用無監督學習方法,從數據輸入層開始,先學第一層參數,並將數據傳到第二層,這樣第二層的情形就等同於第一層,如法炮製……最後直至監督層。然後根據監督標籤得到的誤差進行反向傳播學習,精調每一層的參數。他們認為這是突破過去的一個新數學方法。
其實這種觀點也與歷史不符。筆者在1990年代初提出的多層自組織學習[4,5],就包含數據從輸入層傳入的逐層自組織學習與從監督層進入的逐層反向傳播學習。在逐層反向傳播學習中,監督標籤由上而下從監督層進入,通過改變各層使得誤差不斷減小。這個反向的監督學習,可以與由下而上的自組織學習先後進行,也可同時實施線性疊加。這個雙向學習,還可用來解釋注意和想像機制[4,5]。遺憾的是,當時由於沒有如今出色的計算能力和大數據支撐,計算實驗只在單層上進行,無法繼續深入。
深度卷積神經網路是另一個主要的深度學習模型,也誕生於人工智慧第二次浪潮中,福島邦彥(K. Fukushima)和楊立昆(Y. LeCun)早期都做出了傑出貢獻。
筆者認為,儘管深度學習過去已有「深度」,也考慮過監督和非監督的協同雙向學習,但沒有大數據和超級計算支撐實際的計算,進展非常不盡如人意。2006年,欣頓團隊採用「大+超+深」(大數據+超級計算+深度)並輔以自組織的雙向學習(即監督學習+非監督預訓練),產生了認識上的突破,讓人們看清原來「路在腳下」。經過十餘年的發展,深度網路學習終於攀上了前所未有的高峰。
5探討深度和雙向對學習成效的意義
從模式層次表示理解深度學習中深度與監督+自組織雙向學習 現實中已被人類所認知的事物一般都具有如圖(a)所示的層次表示,對應一個如圖(b)所示的樹,也可以如圖(c)所示的立體樹。同一層的節點間,如圖(d)所示,可以有橫向的有向連接(B→C),甚至有逆向連接(E→C),但不允許有如圖(e)所示的任何閉環(A→B→E→C→A)存在。同一層節點間有橫向連接時,可通過將有橫向連接的層分成多層,令該樹變為圖(b)或圖(c)所示的形式。對應兩個模式概念的樹,可能會共享一些子樹結構。這時,任一個模式的根節點為真,都會驅動那些標註*號的節點及其後代為真。
在了解了深度學習成功的主要原因後,再進一步追問兩個問題,深度學習為什麼要深?監督學習+自組織雙向學習真的可以提升學習效果嗎?
簡單來說,監督誤差會隨著學習逐漸減小,這個過程常遇到一片局部極小值眾多的區域,一旦進入,就會很長時間走不出來。倘若深度加大到一定程度,就算進入此區域也不要緊,因為其中任一個局部極小點的誤差已與全局最小誤差相差不大。而輔以非監督預學習,可減少進入該區域的概率。如果採用隨機梯度下降演算法,效果會更好些。這個說法似乎解釋了為什麼要深,但又帶來一個新問題——太深是否會引起過擬合問題?
對此,一種解釋是,現在的深度學習採用海量的數據,不存在過擬合問題,關鍵是盡量增加層數以減少欠擬合誤差。而以前的機器學習是小樣本集學習,關鍵是控制模型複雜度以避免過擬合。但是,這個解釋需要證據來說明就算沒有其他輔助措施避免過擬合,「大+超+深」依然行得通。理論上,還需要分析估計深度神經網路的等效複雜度,由它來判斷數據的規模是否大到了使欠擬合轉變為主要矛盾。
筆者認為,還可以從模式層次表示的角度來回答本節開頭的兩個問題。維塞爾和休伯爾的特徵檢測理論認為,每個圖像模式都由不同層次的子結構和特徵構成。不僅是圖像,現實中那些已被人類所認知的事物一般都具有這樣有效的層次表示。基於這種層次表示,筆者對深度學習也曾給出過兩個解釋。
其一, 這類可層次化的模式或概念可對應一個因果樹(causal tree)[6,7]。只要知道因果樹的根節點為真(即已知某種模式),便可推斷必有子節點為真(即必有對應的子結構出現)。按此規則可以類推出所有節點。例如,根節點確定是眼睛,往下一層,應該有一個圓形和一個橢圓形子結構;更下一層,就應有若干弧形特徵片段。這種性質對應於馬爾科夫(Markov)條件獨立性,即若一個節點的值已知,其下各支子樹之間就會變成獨立。設想一個真實反映某個模式的樹,已知標籤告知根節點為真,那麼真值就可以一路下傳,到達位於不同層次的那些子結構或特徵片段。下傳得越深,底層上那些節點就越接近獨立或分組獨立。僅靠用監督誤差的反向傳播學習,難以滿足這種約束性很強的結構。
當年筆者在研究多層自組織學習時發現,每個神經元引入一個S型的非線性函數後,這種從數據層開始的逐層向上的自組織學習會使得同層的神經元變得盡量獨立或分組獨
立[4,5,8]。這個特徵與監督誤差的反向傳播學習結合,有利於發現和學習樹狀層次結構。換言之,監督學習+自組織雙向學習可以顯著提高學習效果,而且層次越多,監督學習+自組織雙向學習越有必要。分析發現,欣頓團隊所用的受限玻爾茲曼機的學習,情況類似。
不難發現,樹狀層次越近底層的特徵片段越小,這有利於自組織學習逐層向上變成獨立或分組獨立。不僅如此,對應兩個或多個模式概念的因果樹可能會在不同層次上共享一些子結構或特徵片段。這不僅將顯著裁剪掉多餘的結構複雜度,而且兩樹的共同節點被驅動為真的機會增加了,有利於它們下方底層上那些節點變成獨立或分組獨立。而神經網路的層次越多就越有利於多個模式的因果樹在不同層次上實現共享。
其二,基於上述模式層次表示,也可從分治—整合的角度來理解深度學習。即從監督層向下的過程,將模式的複雜結構分而治之地逐層分解為更簡單的子結構,直到底層的基本單元;而從數據層向上的過程,驅動與其相匹配的特徵逐層向上整合,實現對複雜模式的認知。按照丘奇—圖靈學說(Church-Turing Thesis),深度神經網路的計算能力應該與圖靈可計算等價[9]。
觀察由簡單基元遞歸產生的層次模式,會注意到,遞歸產生一個特定模式至少需要一定層數。若用少於這個層數的神經網路來表示這個模式,則無法準確描述該模式結構,只能是達到某種程度的近似。只要三層網路的隱單元數目足夠大,就可以近似任何函數輸入—輸出之間的點對關係,把誤差控制得足夠小。但是,這樣做不一定能保持其函數結構,要保持結構,就必須有足夠的深度。那麼,是否越深越好呢?可以把一層分為幾個更細的層,也可以把多叉樹變成深度增加的二叉樹,這些做法都不會降低準確描述層次結構的可能性,從這點看,似乎越深越好。不過,深度越深,對剪枝能力的要求越高,不然冗餘的層間連線將造成許多虛假分支,造成過擬合的表述錯誤。實際上,稀疏學習和嵌入特殊結構的各種現有努力,針對的就是過擬合問題,這些似乎並不支持關於 「大數據深度學習沒有過擬合問題,而只是欠擬合問題」 的說法。
(本文工作獲上海交通大學致遠講席教授啟動基金資助。)
推薦閱讀:
※關於AI和未來的碎片思考
※【人工智慧】2017「智能製造」產業鏈研究報告!
※AI詩人挑戰人類作者,看圖作詩比賽機器人能否撥得頭籌?
※從零開始PyTorch項目:YOLO v3目標檢測實現(上)
※地平線的新動作,邁向「嵌入式AI」之路的又一步