為什麼 Deep Learning 最先在語音識別和圖像處理領域取得突破?

為什麼在其他領域則進展沒有那麼大?是由於這種技術的什麼特徵導致的?

本題已收錄至知乎圓桌:人工智慧 · 機器感知,更多「知識產權」相關話題歡迎關注討論


以下觀點純粹為感受, 而非科學:

  • DL 適合處理感知, 而非邏輯(or結構)
  • 感知與邏輯的重要區別在於輸入數據在輸入空間中做連續變化還是離散變化

圖片/語音這類感知問題中, 輸入的都是裸的信號, 這一點的好處在於, 輸入數據具有連續性:
一個蘋果, 它稍微胖一點瘦一點紅一點, 點幾個噪點上去, 對於人類來說仍然是蘋果.
一句話, 稍微大聲一點尖銳一點卡頓一點加點雜訊變點音色, 對於人類來說仍然是這句話.
也即: 輸入數據可以在它的小鄰域內做連續變化而不改變自身意義, 或者說輸入點可以做小的擾動而不改變自身意義

然而對於其他問題, 如NLP, 推薦系統, 亂七八糟的DM問題, 輸入數據不再是裸的信號了, 人類還沒有找到很好對這些問題的輸入數據的描述方式, 也即feature, 使得這種描述的信息損失很小, 且具有連續變化, 或者說抗擾動的能力, 同時這種描述最好別在輸入空間中太sparse..
比如說, NLP 里如果要給document分類, 或者識別"情緒"什麼的, 還是有解決的比較好的..因為這個問題抗擾動: document里多幾個詞少幾個詞不影響分類. 同時對於人類來說, 它比很多問題更像一個感知問題: 掃一眼文章就可以大致知道它的類別. 最近比較火的image description, 也比較類似於這種.
反之, 如果給一句話, 標POS, 指代消解等等...這些邏輯問題實在是太不抗擾動了...
推薦問題的輸入算是抗擾動了吧..但是感覺又太sparse了. 你看一張圖片的輸入才幾千個dimension..

畢竟神經網路啊..還有其他不少ML演算法..其實就是在輸入空間中找一個很可能很扭曲的manifold把人標好的那些數據點強行連到一起. 當然manifold一定是連續的, 所以如果數據點和它鄰域的點就已經不在一類里了那這個manifold得多扭曲? 如果維度太高數據點太sparse這個manifold輕易就擬合上了那得多廢柴...

adversarial 相關的paper已經說了, 即使做圖像, 神經網路搞出來的manifold其實已經很扭曲了....比如最早的一篇http://arxiv.org/abs/1312.6199 對輸入做一做perturbation就可以分錯類..


【不好意思,由於前段時間被告知名稱不符合知乎命名規範,被要求強制改名,現在我們名稱改為「科研君」,歡迎大家繼續關注~另外由於改名期間不允許發送任何消息,導致我們這篇文章發布略晚,抱歉!】

瀏覽了其他同學的回答,很多人提到了題主的不嚴謹之處,即deep learning實際上同時推動了很多領域的發展。我也同意,而且一個我所知道的例子是自然語言處理NLP中詞向量(Word Embedding)方法對傳統語言模型的提升[1];而且我相信,deep learning還會進一步推動更多AI領域的發展。


當然,深度學習Deep Learning最為人所關注也表現最明顯的,就是使語音、圖像識別獲得了長足的進步。其實有的同學已經回答得很漂亮了,只是我忍不住再談談自己的理解,拋磚引玉,大家共同討論。


本著讀書人簡單問題複雜化……啊呸,是論證完整化的標準,我覺得可以從以下三點遞進地解決題主的疑問:

1. 為什麼深度學習突然間火起來了?

2. 為什麼深度學習會應用到語音識別和圖像識別中?

3. 為什麼深度學習能成功地應用到語音、圖像識別中,取得突破?


為了讓更多對深度學習感興趣的朋友看懂,下面我儘可能地用簡單的語言來闡述下我的看法(敘述中假設你已經大致知道什麼是深度學習和神經網路,了解神經網路的基本原理,順便認為你已經瀏覽了其他答案):

==============================我是分割線============================


1.為什麼深度學習突然間火起來了?


談到這個問題,如果在五六年之前,很多人肯定會說是因為Hinton在Science上的那篇論文「Reducing the dimensionality of
data with neural networks」。

雖然神經網路「號稱」自己可以擬合任何函數,並且可以模擬人腦的運作形式,但是這一切都是建立在神經網路足夠深足夠大的基礎上。沒有了規模,淺層的神經網路啥都達不到。而人們發現,優化多層神經網路是一個高度非凸的問題,當網路層數太多了之後,訓練就難以收斂,或者只能收斂到一個次優的局部最優解,性能反而還不如一兩層的淺模型。這個嚴重的問題直接導致了神經網路方法的上一次衰敗。


在2006年Hinton的那篇文章中,他提出了利用RBM預訓練的方法,即用特定結構將網路先初始化到一個差不多「好」的程度,再回到傳統的訓練方法(反向傳播BP)。這樣得到的深度網路似乎就能達到一個不錯的結果,從一定程度上解決了之前網路「深不了」的問題。在這個框架下,深度學習重新得到了人們重視,一批新方法被發明出來(Denoise Autoencoder,Dropout,ReLU……),都讓神經網路有了前所未有的「更深」的可能。


但是我們現在再回過頭來看這個問題,我們應該加入兩個甚至更加關鍵的元素:大數據高性能計算


在如今的互聯網時代,近十年來數據量的積累是爆炸式的。幾年後人們發現,只要有足夠多的數據,即便不做預訓練,也能使深層網路得到非常好的結果。而針對卷積神經網路CNN或者LSTM來說,預訓練本身也不像全連接那麼好做了。一個技術不能很大地提升性能,還需要researcher辛辛苦苦想演算法,需要程序員辛辛苦苦寫代碼,你說誰干呢……現在的語音識別或圖像識別系統,如果擁有大量的訓練樣本,基本都是沒有預訓練步驟的。


而高性能計算是與大數據相輔相成的,想像你有好多好多數據(百萬幅圖片,上萬小時語音),但是計算速度跟不上,訓練一個網路需要好幾年(做機器學習的人應該知道這個完全沒有誇張吧),那這個研究也完全不必要做了吧?這也是為什麼有人認為神經網路火起來完全是因為GPU使得計算方法更快更好了。從這個意義上,GPU並行計算的發展確實極大推動了深度學習的普及。


有大數據和高性能計算打下最堅實的基礎,人的聰明才智是無窮無盡的。那些篤信深度學習的學者們使用了各種各樣的演算法激發深度學習的潛能,比如微軟的殘差學習[2]。否則,再多的數據也不能把傳統的神經網路訓練到152層啊。


總得來說,大數據的快速積累、大規模並行計算的快速發展、新演算法的不斷出現共同促使了神經網路技術改頭換面,重出江湖。


2.為什麼人們會想到將深度學習應用到語音識別和圖像識別中?


眾所周知,深度學習的目標是模仿人類神經網路感知外部世界的方法。那麼很自然地,如果把人想像成計算機,那麼語音和圖像就是最主要的input形式(當然了,什麼氣味之類的,就屬於化學或者物理領域了……)。既然人能夠很好地識別圖像和語音,那麼自然地,我們也會希望這個試圖模仿人類大腦的深度學習演算法也能像我們一樣聽清語音、看清圖片。目前在許多重要的模式識別問題中,機器都遠遠沒有人表現得好。而如果這個方法能夠像人腦一樣工作,那它理應在這兩個領域得到接近或者乃至達到人的水平。這是非常讓人興奮,讓人覺得promising的。

(同理,文字也是重要的輸入,因此也有許多工作試圖在NLP領域應用深度學習演算法。)

深度學習熱潮率先在這兩個領域颳起,當然還有一個不可忽視的因素。一個機器是否具有智能,最最基礎的就是看它能否接收到外界的視頻音頻信號。如果有演算法號稱自己能夠做這件事,並且貌似靠譜的話,那麼研究機器學習的人當然是要一起從這上面下手了。你說,拉funding的人聽到你說你的機器能聽懂人說話,他能不感興趣么!當全世界的科學家都意識到語音、圖像識別中的深度學習是個坑之後,大家必須爭先往裡跳啊。


3.為什麼深度學習能成功地應用到語音、圖像識別中,取得突破?


當然,深度學習不是神,並不是無所不能。從上面的分析我們知道,是深度學習看起來無比光明的前景讓大家把它應用到語音、圖像領域。而它之所以能在語音和圖像領域獲得成功,又回過頭促進深度學習發展,背後必然是有一定的道理的。


第一個非常重要的原因就是問題1中提到的——大量數據(硬體裝備各個領域都一樣,就不考慮了)。為什麼這麼說?比如語音識別中用到的深度學習技術,除去最新的端到端技術,大部分都是在上世紀就已經有了的,但是到2012年,Li Deng和Hinton等人才寫出了語音識別中劃時代的文章「Deep Neural Networks for Acoustic Modeling in Speech Recognition」,中間差的是什麼,一個關鍵就是大量的數據。


舉個例子,一個語音識別系統,當訓練數據達到3000小時時能有較好的效果。3000小時什麼概念?可以想像一下自己聽一段演講,然後把它逐字逐句敲下來,這才多少小時?而谷歌、微軟他們的訓練數據則更是海量的幾萬個小時。同樣,在圖像識別領域,ImageNet則有百萬張圖片,這麼多的數據讓當年六萬張手寫數字的mnist情何以堪。正是這些大量的數據,使得深度學習應用到這兩個領域成為可能。


這裡可能有稍微了解語音識別的同學要提出疑問:「有很多研究單位現在研究小數據量下的深度學習,不是說必須要數據量大才管用么?」注意,這裡所謂的小數據只是某一類別的數據少,而全體「可用」數據仍然很多。比如在語音識別中,我可以說訓練粵語的數據量很少,但是我可以通過已有的大量普通話數據,還幫助我提高識別粵語的性能。因此,最終還是需要數據作為支撐。


第二個非常非常重要的原因是——特徵原始性的保留。在模式識別領域,一句重要的話是:「Features matter」。如何最大限度保留原始信息地表示輸入的特徵,對於識別是一個重要的問題。神經網路一個特點是它能夠作為特徵抽取器。什麼意思呢?比如在圖像識別中,人們發現神經網路每層的權重實際上學習到了圖像的某些「成分」;而且越高層,成分越具體。在第一層可能是一些「點」、「邊」、「拐角」等;再往上可能就是「眼角」、「嘴唇」;到最後一層可能就是臉的不同部分了。說明網路和人腦一樣,將原始信號經過逐層的處理,最終從部分到整體抽象為我們感知的物體。


因此這個特徵抽取器對輸入有一個不小的要求:應該足夠原始並包含目標任務的信息。顯然,假設你已經把一幅圖片根據你的理解變成了有多少張人臉,有多少朵花,有多少棵樹統計出來的向量的話,你還怎麼指望深度學習能給你學出來什麼嘴巴鼻子眼睛,來進行人臉識別呢。


我們發現,對於語音和圖像來說,這個要求實際上是相對容易滿足的,每一幅圖像、每一段語音幀,都屬於自然界的原始信號,並且能夠清晰地反映我們要識別的人臉或者音素,我們通過盡量簡單的預處理就能將其送入神經網路。把最主要的識別工作交給深度學習來完成。


反之,對於NLP問題來說,我們拿到的一段段文本,實際上都是由人腦處理過的,我們用什麼樣的特徵來刻畫它才足夠原始呢?再比如語音信號處理的另一個任務——說話人識別,應用深度學習也是有一定困難的,一段語音中有什麼特徵能夠反映一個說話人的身份,又沒有經過過多的人為處理呢?從這個角度看,這些領域深度學習的應用都沒有語音識別、圖像識別那麼簡單、自然,也沒有那麼成功。

就我感覺而言,如果你的任務能拿到原始的有效特徵,數據量足夠巨大,任務本身和感知相關(人也能完成相似的工作),那麼深度學習就極有可能帶你飛一會。只是圖像和語音是人們最感興趣的,人們花了大量努力讓它飛起來而已(那麼多大牛在努力填坑呢)。


如此看來,深度學習在語音、圖像識別中獲得成功,也是很自然的事情了。

=====================================================================


最後扯幾句。

深度學習之所以能夠如此廣泛的成功,現在已經絕不僅僅是簡單替換原先系統中的某些部件那麼簡單,端到端的熱潮正在到來,神經網路似乎準備接管系統的所有組成部分。


相信現在還有很多人和幾年前的我一樣,覺得深度學習只是神經網路方法打出的一個大噱頭,不過是用了幾十年的東西舊瓶裝新酒罷了。但是,作為一個研究語音識別的研究生,看到停滯了十年的識別率被深度學習再次(而且是一再)地提升後,你不得不承認它是如此的牛逼。另一個讓我再次對深度學習肅然起敬的事情,就是AlphaGO對人類的勝利。看到3:0時我的想法並不是很多人的:「哇塞,機器贏了,機器人是不是馬上就要統治世界了?AlphaGO會不會通過網路流動了每一台的電腦里,控制我們?BetaCat是不是要寫好了?」而是:「哇,深度學習居然能將圍棋模型訓練到這種程度,真的能達到人的水平!以後牛逼吹起來更有逼格了」曾經讓我覺得缺少傳統機器學習那種數學美的方法,確確實實(至少在性能上)達到了一個新的高度,真的是非常了不起。

圖1 語音識別正確率的變化。注意conversational speech近十年的停滯不前和2011年的那個五角星,那是深度學習帶來的大進步(圖片來源:The Speech Recognition Wiki)


我想,像Hinton這種見證了神經網路三十年來的風風雨雨、潮起潮落的學者,看到神經網路如今每一次豐碑式的成功,在心裡是會激動得老淚縱橫呢,還是早已笑看風捲雲舒。


上面所說的都是我自己個人的認識,從學術上說有的地方可能不是非常準確,而且限於篇幅討論得也不是那麼全面,歡迎大家批評指正。好了,不瞎扯了,我得去訓練網路了,看看實驗室的GPU有沒有空位置。。。

參考文獻:

[1] Collobert R,
Weston J, Bottou L. Natural Language Processing (Almost) from Scratch[J].
Journal of Machine Learning Research, 2011.

[2] He K, Zhang X, Ren S.
Deep Residual Learning for Image Recognition[J]. Clinical Orthopaedics and
Related Research, 2015.


【「科研君」公眾號初衷始終是希望聚集各專業一線科研人員和工作者,在進行科學研究的同時也作為知識的傳播者,利用自己的專業知識解釋和普及生活中的 一些現象和原理,展現科學有趣生動的一面。該公眾號由清華大學一群在校博士生髮起,目前參與的作者人數有10人,但我們感覺這遠遠不能覆蓋所以想科普的領域,並且由於空閑時間有限,導致我們只能每周發布一篇文章。我們期待更多的戰友加入,認識更多志同道合的人,每個人都是科研君,每個人都是知識的傳播者。我們期待大家的參與,想加入我們,進QQ群吧~:108141238】

【非常高興看到大家喜歡並贊同我們的回答。應許多知友的建議,最近我們開通了同名公眾號:PhDer,也會定期更新我們的文章,如果您不想錯過我們的每篇回答,歡迎掃碼關注~ 】


http://weixin.qq.com/r/5zsuNoHEZdwarcVV9271 (二維碼自動識別)


1.這兩個問題相對簡單
2.幾十年來 語音識別和圖像識別一直都在做基於神經網路的研究 比如 dengli和yudong很多年前就一直在嘗試用nn代替gmm
3.這兩個問題有一定的工業價值 也方便拿來炒作 公司花錢標註了許多數據

另外 語音識別中涉及到很多東西 神經網路的改進只是其中一小塊 所謂的突破 不過是某些人鼓吹的 其實用nn做語音這塊本是微軟的成果 但微軟也沒覺得有啥驚天大突破 結果被某些只會吹噓急功近利的公司抄去後 就天天沒完的吹 都是鬧劇而已!


在圖像上,也就是Hinton那幫人做了CUDA-CONVNET出來,能用GPU跑,才突然大火起來,今年ImageNet LSVRC2013 上一窩蜂都是用Deep Learning的。其實他們用的卷積網路從發明以來從來都是work的,而且天然就是個deep structure。最近的所謂「突破」,我想更可能是因為圖像天然的易於並行化適合了GPU或者分散式系統的計算特點,以及我們可以輕易獲得大量的圖像訓練樣本。


NLP方面也有些進展的,Manning實驗室在這方面也作出了一些成果。


感謝邀請!

深度學習源於人工神經網路(artificial neural network, ANN)的研究。人工神經網路是機器學習與人工智慧領域的一種模型,它的提出是為了模擬人類神經系統對事物的認知和學習能力。而人類的視覺系統和聽覺系統是最直觀的、也是受到最多關注的人類神經系統。

例如目前圖像處理領域最流行的模型--卷積神經網路,其就是受到神經科學對動物的視覺神經系統的研究而提出來的。所以將神經網路應用到語音識別以及圖像處理領域一直受到研究人員的關注。 另外深度學習本質上是利用深層的神經網路進行多層的非線性特徵提取和轉化。人類對語音信號以及圖像信號的處理和感知就是一個典型複雜的信號與信息處理過程,而且在生物學上是具有明顯的多層次或深層次處理結構。

所以,對於這種複雜信號採用深層的結構,利用多層的非線性變換提取語音及圖像信號中的結構化信息和高層信息,似為更合理的選擇。所以大量的語音以及圖像處理領域的專家和學者投入到深度學習的研究中,針對具體問題,提出大量的演算法和改進的網路結構,這使得基於深度學習的語音識別以及圖像處理獲得了突破性的進展。 此外另一個原因是計算能力以及數據量的問題。早在上世紀90年代就有大量關於神經網路應用到語音識別以及圖像處理領域的研究,但是當時沒有取得成功。因為神經網路是一個十分複雜的模型,包含大量的參數,所以需要大量的數據進行訓練,才可以保證模型的擴展性。以前計算機的計算能力達不到,這也限制了可以使用的訓練數據量。目前進入大數據時代,在語音以及圖像領域都可以獲得海量的用戶數據,同時計算機計算能力獲得了極大的提升,使得用海量數據訓練深度神經網路成為可能。這也促成了深度學習在語音識別以及圖像處理領域取得突破。


首先不確定是不是偽命題,因為在其他方面也有很多進步,比如,深度學習新演算法,完成字裡行間的情緒識別-CSDN.NET,還有http://licstar.net/archives/328
不過,仿人的AI演算法,大多強調於image processing和audio processing,因為這是人最能直接感知的東西...相信在課堂里學習基礎的機器學習演算法的時候,也是強調於此,至少我是這樣


深度學習只是類腦計算的一個支流。類腦計算實際上存在兩個技術層面:第1層面是「走出諾依曼框架」,主要屬於人工神經網路的大範疇;第2層面是「基於神經科學的計算機演算法」,試圖超越人工神經網路框架和擺脫權值計算模型,實現對生物腦的高逼真性模擬。所以歐盟都已經聯合開始研究人腦,都成立一個叫「人類腦計劃」,美國也開始關注類腦。所以從人腦開始研究,最先應該是人的感觸得到啟發。比如視覺,聽覺等!所以原先音頻和圖像是較好採集得到的,並且有一定的研究基礎在。後期在各個領域都會涉及到類腦,所以這個方向是前途無量的,希望我們這些新手可以一起互相交流學習,共同進步!


Deep Learning大概是現在的機器學習演算法里最接近人腦思維的一種,因為人腦的神經網路就是非常深層的。為什麼需要Deep?因為據說人腦對問題的認識和分類就是非常深的層級結構。
舉兩個例子:
看一幅圖時對特徵的提取大概是:像素--&>邊緣--&>基本形狀--&>紋理--&>各種複雜--&>各種複雜。
對於一句話:音節--&>單詞--&>分句--&>句子--&>各種複雜--&>各種複雜。

顯然,傳統神經網路演算法兩三層那樣是不行的,而傳統神經網路往往兩三層就能解決大多數問題(理論上三層網路可以逼近任意函數),當網路層數多了的情況下反而訓練誤差又難以接受。不夠Deep,另外一些比如有陣子很流行的SVM,不僅不夠Deep,還有很嚴重的Local Generalization的問題(因為support vector本質是某個training data)。

所以能夠解決Deep Architecture和對特徵的有效表徵,大概就是在語音識別領域和圖像識別領域,相對於其他辦法,取得巨大進展最主要的原因吧。

這背後的一些特點比如分散式的表徵(不知道是不是這麼翻譯,Distributed Representation),無監督學習的應用,也使得特徵的提取和容錯都變得更好,打個比方"He is good", "You are better",這種在傳統的辦法里是非常localized的(Markov Chain和一些相關性模型),也就是說「xx is/are xxx」這種模式不容易學習,而對於deep learning就相對容易。具體的可以參考06年的三篇讓deep learning崛起的paper(見鏈接),以及他們作者的一些文檔。

Introduction to Deep Learning Algorithms


Deep learning本質上是一個類似JPEG的變換域多媒體壓縮演算法,只不過核函數是統計出來的。


我感覺有兩方面:

1. 圖像識別比自然語言處理中的很多問題,比如詞義消歧本身要簡單。我自己個人判斷的土辦法是,如果人容易處理的(在人工智慧這方面),那麼計算機就相對容易處理,反之亦然。

2. 圖像處理比較容易並行化,適合GPU計算,計算周期較小,這樣可以更好地調整參數。語言處理一算就要好幾個星期,調整參數很難。從理論上而言,神經網路可以模擬任何潛在函數,如果數據太少就會過度擬合。但是我們目前還沒有這麼多計算能力來計算如此龐大的數據。


DL當然有它的優勢,有一些進展,對於AI有些貢獻。但是個人覺得,人工神經網路,還是人工湊出來的網路結構,打著模擬人腦的旗幟,不論你怎麼學習,我們還不知道大腦是到底如何處理信息,神經網路只是結構上的模擬,內部機制呢,所以最近搞生物研究結合計算機的挺熱的。最終還是得從生物方面弄清楚大腦機制才是王道。

所以個人不同的觀點是,大佬手一揮,大部隊往上涌,其實離人工智慧還遠著。不過畢竟研究就是各種新鮮的嘗試。一萬次實驗成功一次就是成功。DL應該是最近看來比較好的嘗試之一,不過稍稍熱多了一點。


我覺得主要是因為搞Machine Learning的人大部分集中在這個領域


降維和出色的模式識別能力 不能簡單的說Deep learning在這兩方面的應用 deep learning是一個框架,其中還有針對不同引用可以換模塊 比如深度卷積神經網路和深度可信度網路


跑題的答案。

個人認為,半黑箱框架,如果對某類效果好的話,會有兩個值得注意的地方:

1 存在一個全新的、更簡單的框架。
2 能找到一個更深層次的、更fundamental的原因來解釋,這類問題的具備哪些特徵,才正好適用於此個框架。

這兩個方向,都值得探究。

It is a capital mistake to theorize before one has data. - Sir Arthur Conan Doyle

但感覺現在是,有了data,卻很難theorize。也許深度學習本身會是終級theory?

其實不只深度學習了,現在火的在範數L1 norm到Lp norm上做文章也是。

說些題外話。

演算法細分的話:有產品型的,一般要求演算法夠魯棒,street smarts,什麼情況都能處理,雖然往往犧牲效果(因為很多時候是考慮最差情況,乃至最優最差情況,當然如何formulate也是問題);有精英項目型的,屬於溫室,要創造很好的條件才能成功;有做實驗發論文型的,屬於溫室中的溫室了,簡直就是沒有問題創造問題也要解決,不值得去說了。

簡而言之,可能又失偏頗:做產品的,最差情況要能接受;做精英項目的,一般情況要能接受;做實驗發論文的,最好情況,要能接受,至少針對某個問題來說。。。

但現在多見的卻是,為了發論文,到處找例子證明比別人好,就像拿著自己的斧子,看見螺絲也想鋸一下;也像射箭,先射了之後,再去畫耙子,當然百發百中,當然比別人效果好。


來一發。

首先,圖像語音應該是比較簡單的信號(分別是二維,一維,對每個樣本而言)。簡單的信號一般容易成為方法論的實驗對象,比如小白鼠。(其實也不完全對,圖像由像素組成,拉成列向量處理其實也是高維。)

第二,圖像是海量的啊,現在大家都有相機,隨手就能上傳照片。語音在翻譯,交流,交互方面也有很大需求。所以它們都有很大需求是另外一個原因吧。另外,語音應該說還有nlp的淵源。

第三,這兩種數據就是我們生活中最經常接觸的數據類型,如果可以實現智能理解,人工智慧可能就不遠了。而dl模擬多層神經網路的架構,其實也是希望實現一定程度的智能化。因此,生活中最經常接觸的數據自然成為了研究最多的數據。

所以這不僅是dl的廣泛研究對象,也是人工智慧研究的對象吧。

另外,其實dl除了這兩類數據外,應該還有很多對複雜文本的分析,對於行為的分析(高維數據)。所以問題本身可能有點ill-posed。想了解是否ill-posed其實只要谷歌學術一下就知道了。用手機我就不打算查了。

總結,由於數據類型比較簡單,與生活密切聯繫有極大需求,以及與人工智慧緊密聯繫,可能是讓題主有提出該問題的主要原因。(注意該問題可能是ill-posed)


有些時候我們神話了DeepLearning。在很多 IR 和NLP的領域,已有的模型已經取得了很好的效果。比如英語的Parser已經快95%了,你怎麼指望DNN去給你做的更高。很多時候明明可以用很簡單的模型就可以解決的,我們就別用DNN了。。。而自然語言正是很多事情簡單的模型已經搞定了,就不需要DNN了,不能很好的提升效果


對圖像不是很懂,就語音識別領域說一下吧。在語音識別領域有一則廣為人知的軼事,曾經提出基於統計的語音識別框架的賈里尼克教授在IBM工作時說:我們每開除一個語言學家,我們的語音識別系統識別率就上升一點。如今的語音識別,基於統計的方法佔據絕對的主流優勢,而三四十年前的基於規則的方法越來越式微。為什麼要說這個呢,其實DNN在語音識別中的應用很有限。整體的HMM框架是沒有人會動的,DNN只是其中的一部分,而DNN代替的這一部分,有很多優化策略是基於規則的,至少是基於經驗的,這正是統計學習方法裡面的大忌。當大家不能確定一件事情的對錯時,總是希望把它假設為隨機的,引入的知識越少就越靠譜,因為你無法保證你的引入是正確的。DNN很多時候都是在消除人為引入的先驗知識。至於說為什麼人們明知道有問題還會引入這些知識,那實在是因為以前的學習方法實在學習不了如此複雜的模型。至於圖像裡面,我個人的直觀印象應該與圖像鄰域結構有關吧。

而且你說進展很大或者進展不大,這個標準實在不好界定。現在很多地方都在用DNN,而且也有不少結果出現,只能說語音識別和圖像處理有比較完善的模型,在結果上也更好比較更加容易為人所知,但至少就語音識別領域而言,我個人的意見是,DNN的意義並沒有它所宣傳的那麼大。


biological analogy是胡扯的。dropout的analogy是什麼?人類的每個神經元有一半的隨機概率會失靈?
這個問題不應該先說DL有什麼技術特點,而應該先回答圖像和語音識別這類問
題的特性是什麼?

人工智慧類問題的特點是最優解的複雜程度較高,但是質量也很高(起碼人腦的識別率就很高,定量點說就是存在MSE很小的解),訓練樣本也不缺。

這就和某些最優解質量都很低以及樣本量很小的問題區別開來了,比如通過一個人的學歷、性別、族裔預測收入,或者通過昨天前天的股票量價預測今天的股票價格。

本質上來說就是目標函數不一樣,樣本信噪比不一樣,樣本大小不一樣,合適的方法不一樣。神經網路類的模型不可能包打天下。


不敢說因為所以, 但是deep learning的結構和咱們人腦的visual cortex處理視覺信號的模式很像.


推薦閱讀:

Moto X 的 Google Now 全程待命喚醒功能是如何實現的?
如何看待小米電視發布會上未提及出門問問對其相關技術支持?

TAG:機器學習 | 語音識別 | 深度學習(Deep Learning) |