崛起中的機器文明

人工智慧技術現在炙手可熱,和石墨烯、超材料只在行業內「發熱」不同,人工智慧可謂是來勢洶洶,其影響遍及各個領域,並且愈演愈烈,極有可能引發一次新的技術革命。

目前行業內所說的人工智慧,其實是機器學習。最早的機器學習研究可以追溯到1805年,法國數學家勒讓德發表了《計算彗星軌道的新方法》,其原理就是現在數值計算教科書里的最小二乘法。勒讓德通過修改軌道方程的參數,使預測值和實測值之差的平方和逐漸縮小,預測值逐漸逼近實測值,這其中就包含了目前機器學習的核心思想:給定輸入值和期望的輸出值,尋找兩者之間的相關性。

勒讓德的方法在理論上沒有問題,但是,為了得到精確的結果,需要的數據量和計算量都非常大,在當時根本無法實現工程化的應用。100年以後的1909年,荷蘭的Debye簡化了勒讓德的演算法,提出了著名的梯度下降演算法,這是一種高效的優化演算法。直至今日,幾乎所有機器學習模型仍然離不開梯度下降演算法,並且仍有眾多研究人員致力於該演算法的優化。

20世紀50到60年代,計算機技術逐漸成熟,一批實驗經濟學家使用最小二乘配合梯度下降,在計算機上實現了計算量較大的回歸演算法,大數據技術開始萌芽。儘管如此,對於當時大多數人而言,計算機仍被認為只能處理數值計算問題,包括計算機科學之父阿蘭·圖靈在內的人工智慧先驅們也只是提出了圖靈測試、機器學習、神經網路、遺傳演算法、強化演算法等重要概念,但無法給出具體的研究和實現方法。

1956年,達特茅斯會議討論了計算機在幾何定理證明、自然語言處理、人工神經網路等領域應用的可能實現方法,約翰·麥卡錫正式提出了「人工智慧(AI)」的概念;1957年,Rosenblatt在神經元模型的基礎上,提出了感知器模型,被紐約時報等媒體和學術界熱炒,各行各業的研究人員趨之若鶩,紛紛將感知器引入各自的研究項目,認為找到了機器智能的突破口,人工智慧指日可待。直到1969年,MIT的兩位教授指出,感知器連電子管、晶體管電路中常用的「異或」運算都無法實現,而多層感知器構建的神經網路,參數實在太多,計算起來所耗費的時間成本根本無法接受,不具有實用性。該論斷一出,大量研究人員迅速從對感知器和神經網路的研究中撤出。儘管此後該領域仍不斷有新的理論和模型出現,但都不再被廣泛關注,神經網路的大廈搖搖欲墜,人工智慧的前景黯淡。

1986年,Runmelhart提出了一種自動計算多層感知器參數的演算法——反向傳播學習演算法(BP演算法),這種演算法解決了一大類多層神經網路的參數計算問題,而且還證明了多層網路具有強大的學習能力。神經網路再次引起眾多研究領域的關注,數百種神經網路模型如雨後春筍般構建。但是,神經網路的訓練所需的計算量仍然很大,局部最優解問題日益突出,同時,訓練結果的不可解釋性使很多學者對其可靠性嚴重存疑。90年代中期,支持向量機異軍突出,其模型簡單,通用性好,並且易於理解,在工程應用上迅速超越神經網路,成為最被看好的機器學習演算法。

2006年,一直固守神經網路陣地的多倫多大學教授Hinton首次明確提出了「深度學習」的概念,引入「預訓練」技術,大幅減小了計算量,使多層神經網路的訓練在工程上可行。

2012年,Hinton教授擔任首席科學家的Google X Lab實驗室Google Brain項目組發布了一個圖片識別的卷積神經網路,能夠從YouTube的視頻中識別貓和人類,非常震撼的向世人展示了機器如何「看懂」圖片和視頻,引爆了「深度學習」的研究,此後,圍繞「深度學習」,幾乎每周都有新技術和新成果被發表或發布,並且被迅速應用於圖像識別、語音處理、機器翻譯、關聯分析等領域,表現非常優異。在「深度學習」面前,包括支持向量機在內的其它眾多機器學習演算法簡直「弱爆了」。

2016年,Google DeepMind發布AlphaGo,通過精心的營銷造勢,再次震撼地向世人展示了機器強大的分析和思考能力。此時,有專家指出,圍棋是一種「完美信息遊戲」,參與遊戲的各方掌握對等的信息,而在實際生活中,這種情況是很少見的,我們不可能等到收集了所有信息再去做決策;還有專家表示,Google的這種神經網路基於人類的經驗,需要通過長時間的「訓練」,需要人類的「監督」和修正,這並非真正意義上的「學習」。總之,人工智慧距離實用還有很長的路要走。

2017年4月,經過五天的對決,德州撲克程序「冷撲大師」完勝由6名人類高手組成的「龍之隊」;2017年10月,Google DeepMind發布AlphaGo Zero,只用了三天時間,就以100:0戰勝2016年與李世乭對弈的AlphaGo Lee,40天以後,AlphaGo Zero超過與柯潔對弈的AlphaGo Master,再次震撼過了業界。

德州撲克是一種典型的「非完美信息遊戲」,參與各方掌握的信息是不對等的,機器必須隨機應變,學會處理難以預測的隱藏信息;AlphaGo Zero則是「無監督」的,它完全拋棄了人類的經驗,從自己對自己的亂下開始,一局一局地試錯,最終只用了幾天時間就超越了人類幾千年的圍棋經驗,還建立了人類無法參透的、全新的戰略。

有人說,雖然機器的能力很強,也可以做很多事,但是它們並不能「理解」這些事情,它們只是在「計算」。實際上,人類所謂的「理解」,本身就是一個難以「理解」的概念。人類科學是建立在一系列假設和定理基礎之上的,我們「理解」了這些假設和定理,才可以根據已經掌握的信息去預測事物發生和發展的趨勢,進而從所積累的經驗中提取相應的對策並判斷其效果。可以說,人類所有科研活動的最終目的,都是為了提高這種「預判」行為的準確性。對於智能機器而言,它們不斷地自動優化模型的參數,目的也是為了提高「預判」功能的準確性。「理解」對於這些機器而言,似乎並不必要。就像螞蟻群落,沒有跡象表明,兵蟻、工蟻、蟻后能夠「理解」它們所做的一切,其行為都出於它們的本能,但是它們的協同能力和繁衍能力,並不比人類弱。更何況,人類絞盡腦汁都無法「理解」和想像四維以上的空間,對於機器來說,萬維億維空間,也只是改個參數而已。

在Google發表的關於AlphaGo Zero的論文里,還有一點很有意思,AlphaGo Lee花了幾個月的時間學習人類經驗,才以4:1的戰績戰勝人類,而拋棄了人類經驗的AlphaGo Zero,只用了三天就超越了AlphaGo Lee,也就是說,實際上,人類是把機器教壞了!經過千年積澱,人類只徘徊在圍棋解法的一個局部最優解附近,而機器則從學習之初就直指全局最優解,孰強孰弱,一目了然。

不考慮計算量,理論上,在神經網路基礎上構建的人工智慧似乎可以完成任何指定任務,但是,人類還沒有能力為它們設定一個終極目標,因為,人類連自己存在的意義都還搞不清楚。如果人類存在的意義就是生成和繁衍,機器完全可以做的更好。倘若有好奇的黑客,真正將一部機器的目標設定為「生存和繁衍」,人工智慧和人類的衝突和戰爭就不可避免了。

機器學習面臨兩大難題,一個是計算量的問題。目前最複雜的人工神經網路所包含的神經元數量遠不及人腦,其所需的計算量卻已經超出了超級計算機的能力範圍。研究表明,人腦內部進行的運算可能是基於類似量子計算的機制,人工神經網路的進一步發展也需要藉助於量子計算的強大運算能力。量子計算已經不存在任何理論上的障礙,但對「量子態」的精確控制和操作還無法實現。國內外多家研究機構均在開展相關的研究,從公開的資料來看,IBM在該領域處於領先地位。無論如何,機器學習技術的發展受制於有限的計算能力,量子計算與機器學習的結合,才有可能孕育真正實用的人工智慧。

機器學習面臨的另外一個難題,是人類的倫理,這幾乎可以說是一個哲學問題。一個簡單的例子:無人駕駛在技術上已經接近可行性和實用性,而且已經在特定路段開始測試,但是,當無人汽車在遇到突發情況時,是優先保護車內的乘客還是路上的行人,聰明的工程師們一籌莫展。

機器學習已經被應用於分子生物學、材料學等科學研究。如2016年5月5日《Nature》的封面文章《Machine-learning-assisted materials discovery using failed experiments》,哈佛大學的研究人員將機器學習演算法引入材料學領域,通過處理標記了成功或失敗的實驗數據,精確預測了新材料的合成結果,其準確性超過具有多年從業經驗的化學家,展現了機器學習在材料學領域將可能具有的「研究」能力。不過,材料學本身是一門交叉學科,其概念表述方式各異,數據形式多樣,只有積累了豐富的實驗結果和測試數據,並建立起完善、有序的「材料學基因組」,才能夠開發具有通用性的材料學人工智慧機器。這些科研數據的積累和整理,需要各研究機構的通力合作,需要更多的行業標準,需要大數據技術的支持,儘管目前進展並不明顯,但假以時日,必將有所突破。

也許終有一天,脆弱的人類會像恐龍一樣從地球上甚至宇宙中消失,希望在此之前,人工智慧可以成長起來,只有這樣,人類文明才能以機器文明的形式,在這個我們無限眷戀的宇宙中延續、以至永存。


推薦閱讀:

鋼鐵直男的救世主來了!讓AI告訴你妹子到底是啥意思
機器學習入門之泰坦尼克案例
Paper Reading | 讓深度學習更高效運行的兩個視角
引領深度學習革命--CNN架構全解析
一文弄懂神經網路中的反向傳播法——BackPropagation

TAG:機器學習 | 人工智慧 |