當前深度學習的局限和雜想
來自專欄遇見未來的世界6 人贊了文章
聲明:本人只是人工智慧科普級愛好者,讀過幾篇論文,有些基礎概念,僅此而已。本文記錄自己在觀察女兒從出生到上幼兒園階段智力發育過程中的一些不成熟的想法。
深度學習的局限
當前的深度學習,無論是監督學習還是所謂的無監督學習,其本質都是監督學習。只是數據標籤多寡的差異而已。完全不像人類嬰兒從環境中零基礎學習。
為什麼深度學習的收斂速度這麼慢?除了在視覺領域裡,目前部分深度學習應用超過了人眼水平,在絕大多數應用場景下,還遠遜於人的水平。針對這些問題目前似乎還沒有一個有效的回答。本質上,我們還沒有找到一個模擬人腦的學習方案。
NLP領域裡,當前的機器翻譯水平還和人的翻譯能力有很大差距。最新微軟出的機器翻譯,據說在新聞領域的翻譯已經接近人的水平,試用下來的確已經達到不錯的水平,但是還有不少詞不達意甚至完全相反的情況。語義理解在人工智慧音箱領域,被嘲笑為「人工智障」音箱。
為什麼深度學習在視覺領域比較出色,而在語音/語義應用上卻還不能讓人滿意?為什麼在新聞領域機器翻譯可以做的不錯,但是在其它文字翻譯上卻錯誤率高的驚人?究其根源,發現這些做的好的領域 ,其本質上都在做一件事情----模式識別。圖像識別,因為我們有海量數據源進行訓練,我們美其名曰為大數據。新聞翻譯,是因為總體而言新聞類型本身比較有限,換個名字重複發生。比如,今天日本地震,明天智利地震;08年奧巴馬當選總統,16年Trump入主白宮。用一個模式去套另外一個模式,照葫蘆畫瓢,而沒有理解其本身是什麼含義。
從嬰兒學習說起什麼是理解
剛出生的嬰兒,除了自帶不滿意就哭,餓了喝奶這兩個基本固件功能外,其它幾乎沒有任何功能了。然而就是這樣簡陋的基礎固件,卻能發展出各類花式能力:語言、數數、玩遊戲、玩音樂、做微積分、開發人工智慧。NB如牛頓、愛因斯坦的一不小心還給我們增加幾門課程。這中間到底發生了什麼?為啥小貓小狗就沒有這些能力?就連人類近親大猩猩也無法做到。成年大猩猩只能達到人類2,3歲智力的水平。
那麼嬰兒到底是如何在無監督環境下學會說話的?個人覺得其核心是多感測器的GAN系統。人類的多感測器分為五感「視覺」「聽覺」「觸覺」「味覺」「嗅覺」。以聽覺和說話為例子,這是一個典型的GAN系統,不停的聽,不停的說,發現說的不太像,再改進。那麼為什麼說多感測器系統是無監督學習的核心呢?因為多感測器系統,本質上形成了交叉引用標註的弱監督學習。舉個例子:嬰兒如何學會」媽媽「這個概念?」媽媽「這個人物,在不同的場景下交叉出現:可能和姥姥一起出現時說了一句「媽媽來了」;可能單獨出現時說了一句」媽媽給你餵奶「;可能爸爸出現時說一句」媽媽馬上回來了「。無論是在空域上還是時域上,」媽媽「這個音總是和」媽媽「這個人發生某種程度上的關聯。而媽媽身上又有特殊的味道,某種嗅覺、味覺總是和媽媽這個人或者「媽媽」這個音發生關聯,形成」音、像、味「等不同感官的交叉引用標註,用形式語言描述G(sound["mama"])=F(image[n], flavor[n], touch[n]...)。剛開始,小孩子總是先學會一個帶錯誤的概念,」媽媽「特指它自己的媽媽,這個固定的人。但是實際上「媽媽」是一種人際關係,而不是特指某個人。在學會這個帶錯誤的概念後,孩子又在不同場景下發現,其它小朋友也喊另外一個人媽媽,而這個人不是它的」媽媽「。發現自己的媽媽也喊另外一個人叫」媽媽「。發現」媽媽「不是指特定的人,而是一種人際間關係時,它就真正學會了」媽媽「這個詞的概念。這中間發生了什麼?先形成某一個帶錯誤的概念,將帶錯誤的概念應用到不同場景,被糾錯,再將其抽象、分化成多個概念或者裁剪成一個正確的概念。(有個有意思的例子是我女兒有個好朋友小寶。在其1歲多的時候,有次一起玩,她想向我描述小寶爸爸的情況,她總是說成「小寶的叔叔」,在她概念里,小寶的爸爸是她叔叔,她又很多個叔叔,所以為了特指這個人,引用成「小寶的叔叔」。等後來有一天她給我引用「小寶的爸爸」時,我就發現她徹底掌握「爸爸」這個概念了。)這個多任務學習過程,其核心是把其它感官的數據輸入同時作為某個感官輸入的數據標籤使用:視覺、聽覺、嗅覺、味覺、觸覺這些信息互相標註。同時這個大一統模型把物體識別,運動控制,語言,基礎邏輯等多個任務進行合併訓練,一次完成。
語言是人類智力突破性發展的根本,勞動只是其外在表現形式。
語言是自然界抽象能力發展的最高境界。如果我們把人類從自然界區分開來,那麼區分的硬標準就是語言。在發展出語言之前,人類是自然界芸芸眾生中的一員,一如老虎、大象:餓了進食,渴了喝水,洪荒精力來了就地來一發,老了等死。有了語言之後,人類就走向了上帝之路,一路狂飆。我們可以想像古人類的語言一定是蒼白無力的「老虎,那邊」,「那邊」這個詞應該還是手部動作示意;「蜂蜜,很多」,「很多」這個詞估計也是手部動作示意:)但是古人類一旦形成原始語言後,基於語言描述的分工合作形成一個類似GAN的訓練網路,不斷的進行優化。語言描述不準確,沒打到獵,LOSS函數是餓肚子,爭吵改進描述,接著打獵:)隨著語言在不同場景的應用,概念不斷細化,描述更加精確,形成一個自下而上的抽象機制。剛開始是」你去打兔子「,」你去打野雞「;到後來」你去打獵「,」你去採摘果子「。把」兔子「和「野雞」抽象成「獵物」,這是一個從具象到抽象的飛躍。我想此時人腦內應該進行了一個神經網路結構的調整。這並不是說我們大腦的物理結構發生了變化,而是腦神經網路的邏輯結構發生了變化,多了一個抽象層。同時因為語言能力的發展,用語言對感官的輸入數據有了更多的精確標籤,「這個做的不對」,「這個做的很好」,LOSS函數輸出更精準。伴隨語言的發展,基於語言的教育也產生了,相當於在抽象層做GAN訓練,自我強化,而不再單單依賴於環境輸入。
再來探討一下什麼是」理解「和」自我意識「
我們對事物的」理解「,不過是真實客觀世界在不同個體主觀經驗坐標繫上的投影而已。同樣是一塊樹根,在老婦眼裡它是柴火,在木匠眼裡它是做板凳的好材料,而在根雕大師眼裡就是藝術品。所謂盲人摸象也是如此。而科學最大的好處是,我們可以建立一個一致的坐標系來描述一些客觀事物,從而解決個體經驗不一致導致的無效、低效的交流問題。你永遠無法討論清楚豬肉到底是美味,還是人間罪惡;但是可以輕而易舉的形成地球是圓的,光速30萬公里每秒這些共識。
自我意識:自我意識是個體形成抽象能力後對環境客體進行區別的意識。我把意識的定義為,個體對客體的主動反饋能力。原始生物,只是在環境中被動的等待營養元素經過。到動物出現,開始有意識的進行捕獵。再到比較高級的哺乳動物會進行社會化合作捕獵。其意識從無到有,從弱到強。但是其是否具有自我意識,還有待考證。而人類具備了抽象思維能力(尤其是語言)後,其自我意識就具備了。我相信一個還不具備任何語言交互能力的嬰兒是不會有高級的自我意識(此處語言非特指可雙向交流語言,也包含幼兒自己發出的有強相關但他人無法理解的聲音,主要用於代表其具有抽象能力)。
模擬信號和數字信號
現在的深度學習模型是先建立一個固定層數和固定每層神經元數目的網路,然後訓練優化參數,這中間的神經網路結構是固定的。而人類的學習過程總似乎不總是這樣,而是先形成一個具象的概念,再形成一個抽象的概念,從具象到抽象的過程,除了調整神經元的權重參數外,我們還在不停的調整神經網路架構。我們目前的圖像識別和機器翻譯,本質上還是處於模擬信號時代,只是一個增強版的模式匹配,而人類真正的能力是抽象後的基於數字信號的行為決策。投籃是一個典型的模擬信號決策,投高了,低一點再試一下;投重了,輕點再試一下;偏右了,往左試試。而碰到需要過河的情況,採用游泳還是繞路從橋上過這是典型的基於數字信號的邏輯決策。目前的機器翻譯是模式識別,同樣一個單詞Apple,看到上下文有Farmer字樣或者Tree字樣就翻譯成水果的蘋果。碰到有以前的死對頭Microsoft的字樣就翻譯成蘋果公司。如果恰巧是Microsoft買了Apple做公司福利,翻譯成買了蘋果公司,那就貽笑大方了。其本質還是貝葉斯派。
同樣以無人駕駛為例,目前的無人駕駛車在裝備了如此多的感測器後(GPS, LIDAR, Camera, Radar),其可靠性大概還不及老司機水平。人們最擔心的是它的黑箱系統,一個End to End訓練出來的系統,不能顯式的說明控制策略,即使其平均事故率低於人類平均水平,但是大家可能還是不敢乘坐。而如果一個自動駕駛汽車,所有的邏輯決策如老司機一般,能顯式的說明情況,比如現在下雨,車速減慢。前方有車打雙跳燈,剎車減速等。有人會反駁說意外情況枚舉不完,確實如此,而我們人類就能枚舉完所有情況嗎?碰到意外情況,先停下來再求援也是個很好的方案。如果一輛無人駕駛車能對所有可得的訓練數據做出顯式判斷後做出駕駛決策,並安全到達。我想大家對其擔心就會少很多,甚至更信任。更明確的說就是,不要用模式匹配方案來開車,而是用邏輯來開車。
通用人工智慧突破點在哪裡?
回過頭來看,為什麼目前的神經網路訓練速度慢?需要迭代成千上萬遍才能進行收斂?還經常陷入局部最優解或者過擬合?我覺得採用多感測器的多任務系統神經網路,才能真正脫離手工標籤,而進行完全意義上的無監督學習。而用多任務同步激活,互相標註,可以極大的加快學習速度,因為一個任何一個數據可能有多個感測器值進行模糊標註。訓練速度優化,過擬合等問題的解決說不定也隱藏於這個多任務學習系統中。
推薦閱讀:
※先天風險規避行為的神經機制
※科學網—睡眠中的大腦神經細胞
※大腦神經元再生能力有個控制「開關」
TAG:腦神經 |