AI Gossip
題記
這篇是將在公司的分享整理出來的文章。一直被催稿,從未被放棄。多謝厚愛。不過為了避免被頻繁催稿,還是截成了兩篇。哈哈~
還是同一個標題,「AI Gossip」,簡單聊聊人工智慧界的點點八卦。八卦沒有頭緒,沒有重點,各位看官開心就好。
為什麼要研究人工智慧
首先是我們研究人工智慧的原動力是什麼?這個問題,出門右轉,看專欄前一篇開篇文章。那篇文章短小精悍,清新優雅,完全不像本文又長又臭,定不負各位看官妙手一點。嘿嘿...
什麼是智能
回到幾萬年前的東非大草原,誰能意識到,那個到處被欺負的,被表哥從樹上趕下來只能很奇怪慢吞吞用兩條腿走路的靈長類動物,短短几萬年時間,怎麼就建立起了這個星球上的絕對話語權?
一開始的我們比各表親近鄰沒什麼優越感。可能只是來源於某一次基因突變,可能只是某位老祖宗爬著爬著直立起來打個呵欠發現站著很舒服,然後決定站著走路。總之是一個微小的擾動,從此地球踏上了一條不歸路。那這裡頭的根源是什麼呢?根源或者就在於我們的大腦和其它兄弟姐妹的大腦,有了那麼一點點的不同。或者,我們的智商,突然有了一點點優越感。科技改變生活!
根據傳統的觀點,智能來源於語言。只是問題在於,人類的語言不是世界上第一種語言。最近我看了一本書,叫「人類簡史」。書中提到,青猴就有不同的語言來表達不同的意思。比如「老鷹來了」和「獅子來了」就是兩種表達接近而含義不同的聲音。研究人員把「老鷹來了」放在一群青猴聽,猴子們立刻停下各種動作,恐懼地望著天空。而播放「獅子來了」,猴子就紛紛往樹上爬(科學家們都是沒有同情心的傢伙)。看到了吧,猴子對語言有明確的反應,它們能靈巧地運用不同的語言或者音節表達不同的意思,並能準確地相互傳遞。
所以說,如果人類的智能在於語言的話,那麼人的語言有什麼優越性呢?還是這本書提到了,使得人類語言與眾不同的,不是描述「老鷹來了」,「獅子來了」這類周圍世界信息的能力,而是描述人類社會信息的能力。這是什麼能力呢?--八卦!八卦的能力對於人類進行社會協作至關重要,可以說是在殘酷世界裡人類部落生存和繁衍的關鍵。為什麼呢?因為八卦的能力能夠告訴我們這個部落里誰和誰關係親密,誰討厭誰,哪個人靠譜,誰的老婆不能睡。據說在7萬年前,我們的祖先能夠靠這種技能八卦數個小時之久。千萬不能小看八卦能力,這個能力是使得人類部落的規模能夠擴大的關鍵因素。據說我們的祖先智人在10萬年前走出東非大草原跟尼安德特人打了一架,然後被干回了東非老家。可能是智商比不過別人,也可能是塊頭沒人家大,或者純粹是人家有主場優勢... 然而再過了3萬年,不知道為什麼掌握了「八卦」這一核心科技,再次出征亞歐大陸,就把其它鄰居表親都乾沒了。為什麼呢?因為八卦使得智人的協作能力和部落規模擴大了數倍。相當於本來大家都是差不多大的小公司,每天出門大家大眼瞪小眼,誰也奈何不了誰,反正市場也大,老死不相往來。然後突然有一天某小公司來了個哥們,讀過MBA,管理能力比人家強大了一截;然後他開始蹭蹭蹭地搞兼并收購,一下兼并了自己國內的數十家公司,然後輕鬆進入全球市場,輕鬆打垮國際小公司。這是一種維度打擊。OK,那麼通過八卦搞兼并,能夠把公司擴張到什麼規模呢?社會學家的研究表明靠八卦能力能夠維持的關係規模大約是150人。這點到了今天也基本沒有改變。比如我們七牛,在100多號人的時候,管理輕描淡寫,招到靠譜的人做靠譜的事,其樂融融天天向上;而現在到了500多人的時候,CEO就開始研究管理了,簡直比寫代碼還有趣呢!
顯然,150個人的部落距離今天我們人類社會的風貌還是相去甚遠。如果停留在這個層次,今天的地球可能是無數個小部落,可能跟我們今天看到的猩猩們的社會沒有太本質的區別。而今天這樣形成一個個的國家,民族,還需要智能或者語言的第三個層級的飛躍,就是傳達關於虛構概念的信息。也許這才是人與其它物種的最大的區別,人類是這個星球上唯一會相信虛構概念的物種。事實上構成我們今天社會穩定、推動世界發展的都是人類共同定義的一些虛構的概念,宗教、國家、公司、金錢、道德... 我們對這些非物質的概念深信不疑,建立起大量陌生人之間的合作關係;建立起了國家,建立了宗教;我們組建起數十萬人的公司,我們興起數百萬人的戰爭,都是因為我們堅信這些虛擬的概念,我們能相互傳達和理解這些虛擬概念。
什麼是人工智慧
官方有個說法,人工智慧是一個發展中的學科。其實潛台詞是,沒有非常精確的對人工智慧的描述。這個問題,搬個板凳看神仙吵架也是蠻有意思的。
圖靈測試
首先看被稱為「人工智慧之父」的圖靈怎麼看這個問題。圖靈獲得這個稱號的很大的原因在於寫了一篇論文《計算機器與智能》。在開篇的「Can Machine Think?」里,他提出了著名的圖靈測試:如果在一個回答遊戲中,機器能夠騙過問問題的人,使得對方覺得回答問題的是人而不是機器,那麼就認定這個機器是有智能的。
所以圖靈也不樂意正面回答這個問題,他也是從一個實驗結果來判斷說是不是有智能。在圖靈那一時代的人看來,人類的智能最偉大的能力在於對抽象符號的處理。比如「聽」和「說」,就是我們用恰當的語法規則對被稱為「詞」的概念符號的處理。視覺,我們是用概念符號代表物體以及物體的位置、名稱和其它屬性。像能下棋的AlphaGo就跟好理解了,處理的無非是棋子代表的不同屬性和位置的概念符號... 而計算機,我們恰好正是發明它來處理抽象符號的!所以將智能的能力簡化為抽象符號的處理(也就是計算)之後,就可以套入圖靈機的理論了:人工智慧,無非也就是一台圖靈完備的機器就能幹的事,對吧?所以,不必研究人腦,讓我們研究演算法吧!
神經元的數學模型
這個理論在今天看來不太靠譜,因為今天我們仍然為了深度學習對大腦的模擬而瘋狂。但是當時卻是另一幅光景。Warren McCulloch和Walter Pitts在1943年提出的神經元的數學模型,更是給這個思路提供了理論依據。該模型認為,大腦的神經元的工作方式跟數字電路中的邏輯門是一樣的。如圖,就是一個多輸入線性加權,然後通過一個符號函數輸出0或1。這個基本單元跟邏輯門是一樣的。這個模型現在已經被廣泛接受,我好像沒看到過有人針對這個問題提出過有說服力的質疑。
而我們知道,不論是CPU還是內存,現在計算機的所有晶元恰好也是這樣的邏輯門構成的。所以你看,人腦和計算機底層的工作方式是一致的,它們的工作內容也是一樣的 - 處理抽象符號。這下就更多的人覺得沒有必要研究大腦了!他們覺得應該把精力放在設計更好的演算法和理論的研究證明上。人腦有除了理性之外還有太多太多的主觀情感,本質上就是個混沌系統。研究混沌系統,對人工智慧毫無意義啊!
中文屋實驗
自然這個問題也有唱反調的。1980年代,UC Berkley的著名哲學教授John Searle專門設計了一個「中文屋實驗」來打臉圖靈測試。
實驗是這樣的:讓一個只懂英語的人坐在一個房間里,手頭有紙筆還有一本指令手冊,介紹如何處理漢字。這裡的處理只涉及複製、刪除、插入、重排等語法指令,而並不描述任何漢字的含義。外面的中文通向裡面遞進中文寫成的問題,裡頭的人按手冊的說明,將中文符號組合到一起寫到紙上,並最後按指令將紙條遞出去。最後別人再問中文通:這個人會不會中文?答曰「懂!」
而實際上,屋裡的人(CPU),不懂中文;指令手冊(人工智慧軟體),只是一堆正則,沒有任何漢字的含義,也不懂中文。在整個過程中我們看不到計算機的智能和理解力,但是這個組合通過了圖靈測試,對吧?
John Searle的意思的,無論怎麼設計這個程序,計算機都不可能具有理解力,也就不可能具有智能。他說「我也不知道智能是什麼,但不論智能是什麼,計算機都不具備」。
人工智慧的三個層次
以上是關於「什麼是人工智慧」的幾個重要思考,觀點南轅北轍,此之謂「發展中的學科」。就跟天朝的南海釣魚島等等問題一樣。吵吵吵到最後,結論只能是「擱置爭議,共同開發」。這個問題還有有很大的哲學屬性。多思辨有好處,但囿於爭論就沒有意義。我們從業人員,可以做一些更加實際的工作。比如給人工智慧問題分分層級:
最底層的層次是「感知」,又可以細分為「感」和「知」兩個層面。所謂「感」,就是將外部輸入轉換為大腦能夠接受的信息;如果用計算機的語言來說,就是感測器。視覺的感測器是攝像頭,聽覺的感測器是麥克風,觸覺的感測器可以是壓力感應器等等。計算機能接受的感測器信號是整數或浮點數,不論是攝像頭還是麥克風,最終是要通過模數信號轉換形成一串無聊的數字才能被計算機所接受;大腦也是一樣,不論是視覺信號還是聽覺觸覺,都需要轉換成生物電信號進入神經元,才能被感知。而所謂「知」,對計算機來說就已經比較費勁了。看到一個臉知道它是臉,看山是山看水是水,這個叫做「知」;聽到一串聲音,能辨認出它是「夢幻曲」,還是情人在喊你,這也是「知」;摸到一個圓圓的東西,知道它是雞蛋,這也是「知」。你一定已經發現,這裡的「知」,已經包含了基本的鑒別、判斷、語音到文字的轉換等過程。
第二個層次是「決策」。決策是在已知信息的基礎上進行更高層次的判斷。比如你走在街上,看到有個人向你跑來,你預測他的軌跡並不與你相交,不會撞上你;再看他體型瘦小,速度不快,哪怕要撞上你也有足夠的時間和能力反應並自保;走近了看到此人手捧鮮花,眼神放光,於是你判斷他是沉浸在歡愉的愛情之中,斷不會對你造成生理上的威脅。在不到一秒鐘的時間內,你已經根據「感知」層得到的各種信息,做出了三次以上的判斷,並且這個判斷,決定了你的行為,是避讓?還是迎上?或者忽略這個人。
第三個層次是「反饋」。為什麼反饋是一個獨立的層次?反饋有兩個重要的作用,一方面它是構成有執行能力的人工智慧系統的重要獨立環節。對於機器人系統來說,可以認為反饋就是執行機構的監控系統。無人駕駛的汽車執行剎車指令時,它需要反饋系統來傳達剎車是否成功。另一方面,反饋也是學習的重要手段:通過學習,達到人工智慧,或者說達到某種程度的智能,靠的就是反饋,這是它凌駕於感知和決策之上的原因。我們人腦學習所有知識也都是通過「預測 - 反饋」的路徑進行的。走進房間,看到我這個人,你腦子裡會先浮現出這個人的樣子,然後再與你看到的驗證。眼睛是眼睛,鼻子是鼻子,哦這是我認識的那個人。如果長眼睛的位置長了兩個鼻子,那你一定會驚覺,然後你腦子裡一些原本並不活躍的神經元開始變得活躍起來,開始學習遇到的新情況。我們腦子進行「預測 - 反饋」的頻率比你能意識到的要多的多,多到無時不在進行,這與我們所感受到的和我們傳統的概念不一樣。我們的大腦通過感受到的事物與預測的模式之間的匹配來學習。我們靠預測去泛化,用反饋來收斂。這是人腦學習的原理,也是我們設計人工智慧的重要方式。
人工智慧的發展
篇幅太長,譬如朝露。聊今天最後一個八卦,我們談一點歷史。
達特茅斯會議
如果要談人工智慧的起點,一般都會提到1956年的達特茅斯會議,這個會議現在公認為是人工智慧的研究起點。原因有二。一是會議的召集者麥卡錫給這個活動起了個名字叫「人工智慧夏季研討會(Summer Research Project on Artificial Intelligence)」。這是「Artificial Intelligence」這個詞第一次出現在大眾的視野中。二是當時參會的好多年輕人,後來都成了人工智慧界的泰山北斗。簡單介紹六位重量級人物:
麥卡錫是會議的召集者,當時是達特茅斯學院數學系的助理教授。後來發明了LISP語言。
明斯基,當時是普林斯頓的數學博士,論輩分麥卡錫是他的師叔。他的博士論文做的是神經網路,他設計了第一台能夠自我學習的人工神經網路計算機,他建立了MIT的人工智慧實驗室,他還發明了頭戴式顯示器(VR頭盔)。他是公認的人工智慧奠基人之一。他有個比他小一歲但是比他早4年博士畢業的師兄更加出名,就是因為「博弈論」獲得諾貝爾經濟學獎的納什。對!就是「美麗心靈」電影的主人公納什。
塞弗里奇是模式識別的奠基人,寫了第一個可工作的AI程序。他是維納(就是我們上學時候學的控制論里的那個維納濾波的維納)最喜歡的學生,他跟提出神經元數學模型的Warren McCulloch是同事。
克勞德 香農,資訊理論的創始人。這種和愛因斯坦、圖靈一個級別的大神應該不用多加介紹了,我們今天生活的手機、互聯網全都是他創立的資訊理論的功勞。他參會的時候已經是貝爾實驗室的大佬了,當時麥卡錫和明斯基都曾經在貝爾實驗室當香農的小弟。就跟今天我們開什麼會都想花大價錢請Hinton,Yann LeCun來當重磅嘉(花)賓(瓶)一個道理。
紐厄爾和西蒙(Herbert Simon):他們創立了卡內基梅隆大學(CMU)的人工智慧實驗室。搞計算機和搞機器人的都知道這個江湖地位了。他們倆開創了人工智慧的符號流派。所謂符號主義是人工智慧的一個重要流派,它的核心思想是用邏輯推理的法則,從公式定義出發推演整個理論系統。他們希望人工智慧能像經典力學領域的牛頓三定律一樣優雅,用三個公式解決經典力學的一切問題;能像電磁場領域的麥克斯韋方程組一樣優雅,用四個公式解釋電磁場領域的一切問題。只能說,「天行有常,不為堯存,不為桀亡」。這個世界的發展還是跟他們的想像不一樣,今天我們熱衷神經網路,這個流派已經沒有太多聲音了。
順便提一句,人工智慧的另外兩個流派直到今天仍然非常重要:分別是行為主義和連接主義。行為主義起源於控制論,鼻祖就是那個維納。控制論以前主要研究的是導彈的飛行軌跡控制、化學過程式控制制這類複雜的多變數複雜系統的優化問題。當它把魔爪伸入人工智慧領域時,主要研究如何模擬人和控制過程中的智能行為。人工智慧領域中的機器人控制領域就是它的大本營。也就是人工智慧三個層次中的「執行」部分。
也幸好行為主義的主要戰場是「執行」層,所以在今天神經網路大行其道的時候還能保留一小塊陣地而未淪陷。不像符號主義基本上已經潰不成軍了。沒錯,最後一個也就是今天最重要的一個流派,就是連接主義。各位看官一定已經猜出來了,連接主義流派的領銜主演就是今天的當紅炸子雞 - 深度神經網路。
噹噹當,主角正式登場。
有位著名的愛唱歌的老闆的歌是怎麼唱的來著,「怎麼大風越狠,我心越盪。。。」
你看深度神經網路今天風光無限,但是這半個多世紀可不是這樣走來的。看過了世事沉浮,或許你會對深度神經網路的未來有那麼一絲擔憂。為什麼古人要「以史為鏡」,因為歷史能給你提供遼闊的視角:眼看他起高樓,眼看他宴賓客,眼看他樓塌了。
簡單地說,開始是Warren McCulloch和Walter Pitts提出了神經元的數學模型。
然後一個叫Rosenblatt的年輕科學家提出了一個叫「感知器」的兩層神經網路,並演示了一下這個網路能學習識別簡單的圖像。1950年代的人民像今天的人民一樣單純善良,紛紛覺得神經網路好強大(AlphaGo好強大),智能的時代來到了,人類馬上要被機器取代了!於是企業和軍方都大力資助人工智慧項目,第一次高潮來到了!
這其實也不難理解,1950年代是冷戰剛開始的時候,美蘇雙方好多好多核彈頭對著對方。我們的星球隨時可能毀滅幾十遍。所以軍方對科技的狂熱是我們今天難以想像的。但是實際上從我們今天的角度看,這個感知器只能做簡單的線性分類任務。於是大量人力財力投入了幾年之後仍然沒什麼進展。終於耿直的明斯基看不下去了,站出來說「你們別鬧了,別不把錢當錢了」。1969年,他寫了一本書叫《Preceptron》,他用數學證明了感知器連簡單的異或問題都解決不了。大家紛紛表示不忿,但是無力反駁,紛紛轉向其它領域,比如生化人... 這是第一次人工智慧也是神經網路的第一次寒潮。
然後到了1986年,深度學習的鼻祖Hinton出馬了。他提出了兩層神經網路就能解決異或問題,而且提出了反向傳播演算法來解決了網路的計算。然後大家驚喜地發現,一層的感知器不夠牛逼但是二層的神經網路很牛逼啊,可以逼近各種函數,還可以做圖像識別自動駕駛呢!Magnificent!於是大家又開心地進入了這一領域。金錢、人才、美女都再次投入了這一領域。
但是很快大家發現了新的問題,網路一大,很難訓練很難優化啊...直到鄙人上大學那會,介紹神經網路的定語還是「調參困難」。
恰好這時,另一位大神Vapnik提出了一種叫做支持向量機(SVM)的演算法,老先生對神經網路深惡痛絕,聲稱發明SVM就是為了乾死神經網路的(一言不合就發明新演算法,好任性)。這種方法的自動學習能力確實要比當時的神經網路好,於是機器學習類的演算法迅速成為主流。神經網路再次進入低谷。但是這次,人工智慧仍然以自己的節奏前行著。
歷史的車輪滾滾向前,到了2006年,深度學習的鼻祖Hinton憋了20年,憋出了一個大招 - 深度置信網路(你不用管置信不置信,它就是神經網路)。不是調參困難嗎?他提出了兩個方法降低訓練難度,一個是預訓練加微調,一個是逐層優化。有了這兩個寶貝,網路層數可以大幅增加,兩層增加到兩百層,不在話下!然後Hinton還玩了個小心思,他怕「神經網路」招人恨(到底怎麼得罪人了),被拒稿,起了個名字叫深度學習(大神當年也是小媳婦~~~)。
雖然這篇文章發在了Science上,但是仍然沒有引起大家的重視。老人家生氣了,帶著學生搞語音,還搞CNN,親力親為參加ImageNet競賽。2012年的時候(為什麼是12年,因為06年沒有ImageNet,哈哈哈),他們的參賽結果直接超越第二名10個百分點以上(74% vs 85%)。這下大家不淡定了。紛紛開始研究為啥你的演算法這麼牛逼啊。加上這個時候大家紛紛玩開源,老人家也趕時髦,開源了一把。結果人家說「你的程序里有bug」。一看真的有bug,問題是有即使bug,效果還比人家好10個點。演算法魯棒性好成這樣,這讓人如何是好...
再後來的故事大家都知道了,無非是yesterday once more啦~ 人工智慧的時代來到了啦,人類馬上要被機器取代了啦,AI科學家的年薪趕上C羅梅西了啦...
結語
聊了好長的八卦。學術圈的八卦其實也挺多(這還是筆者做了濾波,放開了還能再聊一天一夜)。我們看學術圈的八卦就像小時候看希臘神話的感覺一樣。小時候看希臘神話感覺這些神跟中國神話中的神仙們乾的簡直不是同一份職業!中國神話中的神仙都是臉譜化的,好的壞的,涇渭分明。而希臘神話里的神,有偷看姑娘洗澡的,有搞大人家肚子的,有偷漢子的,還有無照駕駛開車失控摔死自己的...反正就沒有一個正常的。直到長大了我才開始慢慢體會了這叫人本主義...
我們看學術圈大神們的感覺也是一樣,拋開頭腦發達與否不談,他們的生活也是雞零狗碎,跟那些A睡了B的老婆,C嫁了D再離婚改嫁E最後跟F上床等搖滾樂隊故事沒什麼區別。他們的青春時代正是搖滾樂,抽大麻,反越戰,要做愛不要作戰。所以說,有時決定你能走多遠的,不是你生活的苟且與瑣碎,而是你是否志存高遠,能不能持續追求你的興趣所在。也許你對今天自己做的事情並不滿意,但如果你以宏大的時間跨度去看,只要志存高遠,思路清晰,腳踏實地,或許你就成為了某個領域的奠基人!
推薦閱讀:
※響鈴:人工智慧熱潮襲來,誰在薅羊毛,誰會享紅利?
※單身狗自救 人工智慧可以解圍嗎?
※簡單實用的pandas技巧:如何將內存佔用降低90%
※AI晶元開年
TAG:人工智慧 |