深度學習在AI實現方法上是否已經形成了壟斷,這是不是一種不好的狀態?

我最近有想要進入AI領域的想法,正在自學Tensorflow,可能是我對這行關注的太晚,所以感覺學習深度學習理論是一件比較自然的事情。
不過昨天我看到新智元的一篇文章CVPR2016 主旨演講及焦點論文速覽,深度學習壟斷地位遭質疑
其中尤其是這麼一段話讓我覺得比較疑惑

文中提到曾經每個時期主導圖像識別的潮流方法:立體視覺、連續方法和分割組合(其實這是兩種方法嗎?我不太清楚因為我沒有Google到這兩個名詞,原文是continued methods and segmentation grouping),我就只找到了立體視覺,但是如果我的理解沒錯的話,立體視覺的目的僅僅是建立一個外界環境的三維信息,而深度學習除了構建信息還包含了理解信息的部分。而另外兩個方法看起來也只是一種或者兩種環境採樣(不知道這麼說對不對)的方法罷了,所以這兩者真的是衝突的嗎?
我個人其實覺得,關於AI的實現方法其實有一個最優解的,目前深度學習看起來就是這個最優解,所以大家自然會都去努力研究它,也不存在什麼多樣性和壟斷這樣的問題了。不過我也希望能有大神解釋一下立體視覺、連續方法和分割組合和深度學習之間的關係,它們中是否真的有有潛力的實現方法被埋沒了?


我只能感嘆一下這世界信息傳播的速度。。。我上周剛收到Nikos Paragios給INRIA研究所內部發的這封郵件,當時看了覺得很有道理,想著空下來在 科技蜘蛛 - 知乎專欄 上寫點自己的想法。沒想到才過了一周居然已經上知乎了,居然還有了中文版 lol

和Nikos Paragios類似, @田淵棟 大神在他的知乎專欄中這樣寫過 :

在這樣的壓力下,人的思維方式也發生了改變。目前為止,我們還沒有對深度學習有深層次的本質理解,大量的研究思路都是簡單粗暴的,在計算資源極大豐富的今天,對於它們質量的主觀判斷,經常遠不及寫代碼上機實驗來得快與准。很多想法不論對錯,不論它看起來有多離譜荒謬,先試一下再說,往往蒙得比想得快,動手比動腦快。和我們每天刷手機類似,思維方式的這種轉變是好是壞,目前還無從評判。這樣的做法,完全可以歸入浮躁和急功近利之流,與傳統學術做法背道而馳。

其實Nikos Paragios的擔憂,不在於深度學習的壟斷。深度學習在很多領域對SoA的大幅突破,已經證明其的實際有效性,就算壟斷也有一定合理性。擔憂主要在於深度學習目前缺少理論和數學基礎,而大量研究人員為了做成果發paper,無論什麼都拿深度學習的模型去套。科研的初衷,是理解模型的深層機理和含義,然後才能有新的idea去解決新的問題。而現在很多做深度學習的科研者,更像是在做工程 (而這也是不由自主,很正常,能取得好的測試結果總是好的,畢竟要發paper啊),失去了academic research的意義。

當年Hinton老先生在SVM的熱潮中堅持研究神經網路,才迎來了神經網路今天的復興。如今當然也需要保留其他方法的火種。只是跟以往不同,這波深度學習熱潮有了Google,Facebook這樣的大企業助力,讓那些堅守冷門方法的科研者更顯孤獨和無力。

小廣告
了解歐洲科技動態,敬請關注科技蜘蛛 - 知乎專欄 和同名公眾號。


只能說深度學習潛力沒被挖完之前大家還會繼續focus on深度學習……因為結果對之前的傳統方法都是碾壓性的……

而且調整和腦洞的餘地都很大

再多說一點個人的理解,DL很大程度上還是可以看做一個feature extractor,所以其實很多地方都是作為一個降維的中間過程,所以其實和傳統方法並不矛盾。就像現在大熱的Deep Reinforcement Learning一樣

7.1八點更新
其他答主提到「到處加層,到處連線」,我覺得這是大家對現在DL的一個很大的誤解。現在已經不存在所謂的調參和調結構就能發頂會paper了,每個會最後大家拎出來的精品文章大部分都是有自己的想法,在新問題上有新結構創新。所謂的調參在Batch Normalization和初始化問題解決之後越來越不重要。調結構直接取決於做的問題,單純的在ImageNet上在沒有任何insight的情況下調參調結構已經幾乎不可能成為新的SOA


天下大勢,分久必合,合久必分。深度學習一統天下的今天,孕育著新的百家爭鳴的明天。


【研究多樣化】是不需要【主張】的。
DL這個坑滿了自然有人挖別的坑。就看誰願意去做引領者了。

但是對新手而言,這段話點明了一個研究要點:
現在找個應用場景去搭個DL系統+調參數+大量訓練+比結果這套的做法已經過時了,
高校的研究者們再這麼搞不會有前途。


先做個無理的判斷,沒有壟斷,只是一種很有建設性的趨勢。(請不要問大群主為什麼,大群主只是YY一下)


-----------------------------------我是機智的分割線-------------------------------------


主要還是回答下深度學習為什麼會成為現在計算機視覺標配的方法。在此借用下Sensetime CTO 曹旭東老師的解讀:


首先,最重要的原因是深度學習可以做到傳統方法無法企及的精度,這是關鍵中的關鍵,如果說這個優點是1的話,其它的優點都是1後面的0。深度學習革命爆發在2011~2012年,11年的時候在語音識別領域有重大突破,12年的時候在圖像識別領域有重大突破。深度學習革命,使得計算機視覺在很多應用領域達到了實用水平,催生了工業界的大量應用。這也是為什麼在11年前,機器視覺人工智慧的博士生都是找不到工作的,但是12年之後,尤其是現在,都變成了被眾多公司高薪爭奪的寶貝。


另外深度學習成為標配,還有其它的優點。

  1. 深度學習演算法的通用性很強,剛才提到的檢測,在傳統演算法裡面,針對不同的物體需要定製化不同的演算法。相比來看,基於深度學習的演算法更加通用,比如faster RCNN在人臉、行人、一般物體檢測任務上都可以取得非常好的效果。
  2. 深度學習獲得的特徵(feature)有很強的遷移能力。所謂特徵遷移能力,指的是在A任務上學習到一些特徵,在B任務上使用也可以獲得非常好的效果。例如在ImageNet(物體為主)上學習到的特徵在場景分類任務上也能取得非常好的效果。
  3. 工程開發、優化、維護成本低。深度學習計算主要是卷積和矩陣乘,針對這種計算優化,所有深度學習演算法都可以提升性能。另外,通過組合現有的層(layer),我們可以實現大量複雜網路結構和一些演算法,開發維護的成本低。想想同時開發、維護Boosting,Random Forest等演算法是非常痛苦的一件事情。

再回答深度學習過於單一的問題。

深度學習過於單一的說法,我覺得是不準確的。就好比說一個包容萬象的宇宙過於單一了。


簡單來說,機器學習就是學習輸入到輸出的一個映射,傳統方法使用淺層的簡單映射,現在深度學習是多層的複合映射。深度學習有很多的自由度,學習目標和學習方法有很多種選擇,網路結構層與層之間有無數的可能連接方式,每一層映射的具體形式到底是卷積,還是全連接,還是其它的形式,並沒有限制,其實除了全連接和卷積之外,還可以用其它的映射形式,比如說去年ICCV上的一個工作:微軟研究院用Random Forest做為新的映射形式。

-----------------------------------------------------------------------

搜索公眾號ycopen就能找到大群主我啦,掃描二維碼(二維碼在這裡)查看喔~


quora在這方面有類似的問題,是說深度學習本身有什麼問題是不完善或者是未解決的。有個回答很有意思:
Deep learning itself is a missing, unsolved problem. It is an empirical success rather than a mathematical solution to the learning problem. Everybody says It imitates human brain, then why babies do not need millions of labelled examples to recognize a pattern in an image?

Nobody yet knows why It is working (or not), including its inventors like Yann LeCun. See his keynote speech at CVPR 2015 on the missing theory behind Convolutional Neural Networks (CNN)[1]. On page 58, LeCun explains some missing theories as:
Why are ConvNets a good architecture?How deep ConvNets should be? (aka how many layers)Local minima problem in training
Inventor of Support Vector Machines, Vladimir Vapnik, sees CNNs more of an engineering effort, rather than a research product [2]. He thinks current success of CNNs is due to the big-data (more data always beats wiser algorithms).


TLDR:深度學習和傳統演算法的區別不僅僅是表面上的演算法的差別,深層次地講是對待先驗知識建模的態度的區別:

  • 傳統演算法主要通過計算機視覺研究者的domain knowledge來對先驗知識建模
  • 深度學習盡量通過大量數據和目標函數來對先驗知識建模

舉個例子,如果我要做一個貓狗圖片識別器的話:

  • 傳統演算法:開發一種能表述圖片的特徵提取器(SIFT or whatever),提取特徵後encode(fisher encoding or whatever)然後傳到識別器(SVM or whatever)裡面。你問這些工具是怎麼設計的,為啥他們能夠很好的表徵/識別圖片?這些都是一代代的計算機視覺研究者的domain knowledge的結晶。
  • 深度學習:丟100M張貓狗圖片進一個二分類CNN,等中間層訓練好。你問CNN是怎麼設計的,為啥他們能夠很好的表徵/識別圖片?因為CNN中間的特徵提取,識別什麼的都是由大量data driven的。

深度學習再很多問題上對傳統演算法的碾壓揭示了這麼一個問題:你的domain knowledge再怎麼NB,你對問題的intuition再怎麼透徹,你的handcraft feature再怎麼representative,但是作為一個凡人,你對世界的認知是有局限的。你建模問題用的先驗知識並不如模型通過大量數據提取的先驗知識好。(個別tasks除外,但是現在這樣的tasks不是也越來越少嗎?)

結論:所以說除非發生什麼小概率意外,以後就算出了什麼ANN,BNN,DNN演算法超過了深度學習,它們馬甲下面的本質思想還是data-driven的,完全依靠domain knowledge的「傳統演算法」時代已經一去不復返了。


不是壟斷,而是熱潮,人工智慧還沒有成功的實現方法,還處於探索階段,那麼必然有不同角度的各種方法,大家一起向同一個目標出發,但它們會遇見各自的困難,如果被攔住了無法前進了,那麼就會流向還在前進的地方,但只要一天還沒實現,其他方法就還有研究的價值,仍然有人在默默地堅持,所以只有熱潮沒有壟斷,如果有一天這條路也被攔住了無法前進了,那麼熱潮就會消退,並且尋找下一個突破,醞釀下一個熱潮。


深度學習相比統計學方法來說,肯定是碾壓的。因為深度學習幾乎是所有統計學方法的超集。大多數統計學方法都可以直接看成複雜神經網路中的一個部分。
個人感覺可以把深度學習看成是聯結主義人工智慧的銀彈。

至於機器定理證明等符號主義的人工智慧方法,我覺得潛力還沒挖夠。日後,符號主義和深度學習的結合可能會迸發出難以想像的成果。

至於基於主體的人工智慧,我覺得是歪門邪道,和深度學習結合可能會導致人類滅亡。


舉個不恰當的例子:原始人在漫長的進化中終於意識到可以用水來清洗物品。於是他們無論什麼髒了都用水洗,手,腳,食物,器具,甚至最後車子房子都直接用水沖,只要水量夠大,時間夠長,總能洗乾淨。但如果一直這樣下去,那就不會有肥皂,也不會有人想到清潔房子只需要重新粉刷,也沒有所謂的乾洗一說了。

在我看來,以前對不同場景的研究的目的,是為了建立一個高效的數學模型。而現在,這個工作被深度學習替代了。我們只需要有足夠的時間,足夠的運算能力,深度學習總能給我們一個還能用的模型。但至於這個模型到底是怎麼來的,數學本質是什麼,我們都不關心了。甚至很多時候連模型的具體構型我們都不清楚。這也不得不說是一種悲哀吧。

最後說一下對立體視覺的看法。其實三維信息和理解信息並沒有實際清晰的界限。從人類的角度,我們能夠直觀認知的就算是三維信息,而沒法直接得到概念的往往歸為理解信息。所以其實對於機器視覺也是一樣。如果你的場景模型做得足夠好,信息處理得足夠細緻,那最終得到的雖然形式上是三維信息,但其實這些信息已經可以直接被機器理解了。我始終覺得深度學習其實是在普通演算法無力處理情況下的一種妥協。

非專業人士,不對的地方望海涵

以上


深度學習的核心思路是分層學習。觀察一些專業的發展,可以看出自然界的衍化也是分層模式的。例如數學,從公理開始,推演出一些基本定理,在定理基礎上,又可以推導出新定理,逐層發展,越來越複雜。語言衍化也有這個特點。

機器深度學習,是一層層提取特徵。我們能感知的特徵包括:空間(大小,長短),時間特徵,顏色特徵,明暗,速度變化,聲音(頻率,高低),嗅覺,味覺,觸覺。現在適合深度學習,具有大量數據的特徵只有:圖像,聲音。

移動感測器技術完善後,將有更多基礎特徵可以用來做深度學習。深度學習才剛剛開始,我在思考可以用人機交互方式做共生模式的機器學習。


深度學習能夠結合之前的幾乎所有方法,而之前的很多方法都是互相排斥的,從這個角度而言深度學習是有優越性的。
至於說深度學習沒有數學基礎什麼,那只是人類太菜了。關於深度學習,這個東西本身就沒有什麼很好的定義,我可以將其定義為任何一個含參的模型,那麼深度學習最大的價值就是人類可以不知道他發明的東西為什麼work。這才是深度學習的核心。中二一點,人類終於能開始創造人的大腦所無法理解的東西了。


科研的目的在於對生產力的推動,不僅僅是為了自身的滿足,為了科研而科研。設計很好的網路,很好地解決實際問題,這樣的科研難道沒有意義嗎?

深度學習的出現,很大程度上推動了人工智慧的發展,也創造出了實用的產品,從這一點上看深度學習是很有好處的。但是很多科研工作者為了刷文章,連BP公式都不會推導就做的話,這也不能怪到深度學習上。

btw,記得有一句很出名的話:「新的思想被大家接受,不是因為持有舊思想的人被說服,而是因為他們都死了。」


DL僅僅是學習機制上的優化而已,接下來還需要走很長的道路,如果一台人工智慧機器需要一間屋子那麼多的運算和寄存設備的話實用性又有多大的呢?能夠自主有選擇地發出學習指令的核心引擎才是最需要解決的問題吧?沒有自主「意識」的機器都不能稱作智能的呢。


我認為只要能AI推動技術進步,就是好的!


最終會過去的,豐富了各領域的打法,讓ai又往前走了一小步。


「壟斷」的意思是你不得不去做它。實際上並不是這樣。每個研究者都有獨立選擇研究方向的權利。這麼多人做說明它確實還有潛力。

不過,我覺得深度學習肯定不是實現人工智慧的最優解。


推薦閱讀:

深度學習在路徑規划上有哪些應用?
如何看待 Nervana 被 Intel 收購?
計算機方向學生 MacBook Pro 128GiB 是否夠用?
如何評價中科院山世光老師開源的Seetaface人臉識別引擎?
arxiv只能查看最近一周的論文嗎?

TAG:人工智慧 | 機器學習 | 機器視覺 | 神經網路 | 深度學習DeepLearning |