如何評價 UCLA 朱松純教授近日訪談中對深度學習的批評？

11-24

原文鏈接：初探計算機視覺的三個源頭、兼談人工智慧｜正本清源

文中寫道：
「比如神經網路和目前的深度神經網路的學習，他們的模型（表達）、演算法、和實現的結構三層是混在一起的。就變成一個特用的計算設備，演算法就是由這個結構來實現的。當它性能不好的時候，到底是因為表達不對，還是演算法不對，還是實現不對？這個不好分析了，目前的神經網路，或者是機器學習，深度學習，它的本源存在這個問題。

以前我們審稿的時候，會追問論文貢獻是提出了一個新的模型？還是一個新的演算法？在哪一個層級上你有貢獻，必須說得清清楚楚。2012年，我作為國際計算機視覺和模式識別年會（CVPR）的大會主席，就發生一個事件。收到神經網路和機器學習學派的一個領軍人物 LeCun的抱怨信，他的論文報告了很好的實驗結果，但是審稿的三個人都認為論文說不清楚到底為什麼有這個結果，就拒稿。他一氣之下就說再也不給CVPR投稿了，把審稿意見掛在網上以示抗議。2012 年是個轉折點。

現在呢？隨著深度學習的紅火，這三層就又混在一塊去了。一般論文直接就報告結果，一堆表格、曲線圖。我就是這麼做，然後再這麼做，我在某些個數據集上提高了兩個百分點，那就行了。你審稿人也別問我這個東西裡面有什麼貢獻，哪個節點代表是什麼意思，你別問，我也不知道。那演算法收斂了嗎？是全局收斂還是一個局部收斂？我也不知道，但是我就提高了兩個百分點。」

朱教授不少學生也是做深度學習的，不知道是否規避了文中的批評？

謝邀。

朱教授說的都是對的，現在確實有這個問題。但現實情況是，做理論需要的基礎知識多，困難，周期長，沒有直接經濟效益，還只能一兩個人單打獨鬥且無法使用大量計算資源，每個因素都和現在的主流發展方向（強調團隊合作，強調速度和新聞性，代碼開源，大數據，大量計算資源）背道而馳。更麻煩的是，辛苦幾年做出來也未必會有人欣賞，做的人累，看的人更累，於是好文就淹沒在大量的Arxiv裡面。偶爾有幾個人想去看看，費儘力氣卻發現某個假設太強，完全和現實扯不上，不免失望。相比之下做應用的文章實驗清楚效果明顯還立即可用，大家一望便知，名聲響，引用多，曝光率高。

所以理論是做給自己看的，有點情懷的人才做理論。一萬個碩士博士里有一個懷著這個理想，那遲早有一天會做出來的，大部分人不用費這個力氣的。這也符合市場需求，沒有什麼不好。要是大家都去做理論了，那沒有應用成果，深度學習還怎麼火下去？對做理論的人來說，競爭激烈了，就更沒有慢慢想的時間和空間了。

另外，最近我投的那篇二層ReLU的理論分析，從有了理論到成稿就做了兩個月，並沒有花幾年，之前一直方向不對在瞎搞。我的感觸是，真的有了感覺，出文章不會慢的，但是在有感覺之前，要做很多積累，花掉很多時間，這個階段又苦又難熬，現下很少有人願意。但若是真想做理論的話，不要被幾年這種話嚇住了，像我這種半路自學，肯定是走了彎路開悟晚的，就不用當例子了，科班出身的肯定會快很多。

最後感謝一下看過我文章的同學，辛苦了！

幾天前看到了朱教授這篇文章，當時就頗為感觸，今兒恰好刷到這個問題，強答一發。
實際上這並不是「最近學術界、機器學習界怎麼了」這樣的問題，而是自古以來就有的一個千古難題：
是理論重要，還是實驗（應用）重要？

如果一上來就用這個問題問大家，恐怕答案是滿滿的嗤之以鼻：「這難道還用問？顯然都重要！」
這不是明擺著么，沒有實驗，哪來的數據來假設和驗證理論；沒有理論，做再多的實驗都是在瞎碰。
同樣，應用和理論也是一對相愛相殺的好基友，沒有應用提供的環境，就沒有理論上的進步；理論不進步，應用遲早也要停滯。
老祖宗早就說了，學而不思則罔，思而不學則殆，就這個道理么。

然而應用和理論這一對好基友往往不是齊頭並進的，往往一個獨領風騷，萬千寵愛於一身，另一個卻在冷宮中苦苦掙扎，直到某一日一鳴驚人一飛衝天，情況便恰恰顛倒過來。

其實人類的科學發展史，往往都是這樣一條曲折的前進道路。

新現象-&>新實驗-&>新理論-&>新裝置-&>新現象-&>……

大概就是，一個新的發現，引發了很多人在這個基礎上做大量的擴展實驗，實驗積累足夠之後，憑藉大量積累或者個人的天才，提出了新的理論，理論指導新的進展，進展引發新的生產力進步，生產力進步提供了新的設備和資源，設備和資源支持著發現了新的現象。

深度學習或者叫神經網路這門學科，目前就處在這樣一個情況：
沒有足夠指明根本的理論指導，很多辦法大家也說不出究竟為什麼，就是悶頭試，偏偏還挺有效果。
也就是新現象-&>新實驗，還沒有新理論的狀態。

科學史上，類似如今這種狀態，幾乎發生在每個領域的開端：
人類從幾十萬年前就開始用火，各種用火，最後連燃燒彈都搞出來了，而「燃燒」這個事兒的本質，卻是幾百年前剛剛才搞明白。
從1859年本生和基爾霍夫搞出來光譜分析的辦法來發現新元素，短短時間一眾科學家發現了十來種新元素，而為什麼不同元素會有不同的光譜，則是量子力學出現之後才比較完整地解釋出來。而大夥用本生燈燒這個燒那個，燒出來好多新元素的時候，甚至連元素周期表都還沒有被提出！
從1911年發現了汞的超導性之後，大家不斷嘗試各種結構各種性質的材料，現在據說已經把超導溫度推高到200多k了，而這個超導的本質原因和模型，實際上似乎到現在也沒有一個足夠「本質」的解釋，終究還是要靠嘗試。

而這種狀況下，理論研究自然是絕對必要而且重要的，但是「一窩蜂」式的實驗也並非像朱教授所說的那麼不堪，更不可能會謀殺掉這個生機勃勃的領域，只不過是可能浪費了很多物質資源和聰明的頭腦而已。而且，如果沒有一個愛因斯坦那種天才的大腦來給人類節省跨越的時間，小步實驗，逐漸逼近恐怕是人類唯一的選擇（您瞧超導那幫人一百多年過去了還沒有理論指導呢，調參黨有什麼可叫苦的）。

另一個角度，當前的熱潮也並不僅僅是由於新現象引發的，正相反，從某種意義上，它實際上是一個沉澱的理論變現的過程。
機器學習理論不新，方法也不新，只是因為以前工業界不能提供足夠的算力，使很多辦法停留在純理論上。突然大家發現居然反向傳播/多層感知器能在有生之年算出來了，自然就開始摁著這個玩意，先玩上幾年再說……
而現在各種模型層出不窮，變著法的刷PR（朱教授還調侃說CVPR的PR就是precision/recall，真是貼切：），其實只能說是工業界的進展終於追上了理論沉澱，開始了理論嚮應用轉化的過程。

這種現象也不罕見，電子顯微鏡和粒子對撞機剛出來時候大家也都是玩命地掃掃掃撞撞撞，只不過人家那個理論基礎是相對清晰的，所以沒什麼值得詬病的地方（其實標準模型的提出也是在對撞機之後了，對撞機的出現對於標準模型也有很大助力）。

我的看法是，這個過程不會僅僅停留在大家刷刷PR，水水論文的程度，而是會更進一步，從學術界到工業界，甚至引發整個社會生產力的再一次進步，開始反哺學術界，直到之前的技術積累被吃空，而實驗又無法提供新的爆發點為止。

所以說，能把這個從科學原理或者數學上解釋明白的牛人，必然能名垂青史，朱教授呼籲大家往這條路上走，我是贊成的。然後在這個牛人沒有出現之前，覺著自己可能不是「The One」的人，也別閑著，該調參調參，該水論文水論文，該刷PR刷PR。

那句話怎麼說來著，誰誰誰研究量子退火凸優化，誰誰誰把ILSVRC刷高了0.3個百分點，誰誰誰被某司以七八位數年薪聘走了，我們都有光明的前途。

很多答案根本沒說到點上。
朱教授的質疑是：你們發的文章只是亂調參數一懵逼出了好效果，深度學習又是一團漿糊很多東西擰在一起，改參數究竟是改什麼也說不出所以然，你這跟玩有機合成瞎jb倒搞出的成果有什麼兩樣。
就算人家搞反應的有機化學家還會找幾個類似的反應物試試普遍性，到深度學習這就兩眼一懵逼，瞎。我反正不管我做出來了。
對工業來說，只要你能把這東西弄成，誰管理論怎樣。對科學來說，你如果搞不明白究竟為什麼出了好結果，那麼你的研究對之後其他系統出好結果，乃至整個科學界沒有任何助益。
最近看韓春雨笑話有不少人大義凜然的說「我聽說誰誰誰的實驗室那個反應釜神的一逼就那個能燒出來別的燒不出來」拿來抹黑科學界跟煉丹一樣和洗白韓春雨，就你能做，就你能用對別人有啥好處？
調參數不是原罪。相反，對於深度學習乃至很多自然學科這個黑箱，調參數是反編譯/理解黑箱的重要手段。但你光調參數有啥用？你得分析調這個參數會起哪些效果，導致你獲得更好的結果。

因此，說「理論實踐一樣重要」的看好了
朱教授的批評點有2個
1.深度學習的架構有待完善。模型演算法和結構混在一起，調參數根本不知道調的是哪個，讓調參數研究幾乎是兩眼一抹黑。
2.光瞎就算，還不是天才。調參數的不夠聰明推導不出調的參數究竟是怎麼影響結果的。這不叫研究這叫發現。
這倆加起來就是現在搞深度學習調參數，對深度學習學科理解毫無助益。

作為學數學的表示早就習慣了。看著你們五花八門的數值解pde的方法和模型有時只能感慨一句：

等…等會兒，我們還沒證明解存在呢…

這件事情上沒法說誰有道理誰沒道理。
對於一個新的研究點，論文很大程度上只是起到新發現的作用，並不是提供葵花寶典，或者寄希望於未來某個天才綜合了這些新發現後拍腦袋總結出葵花寶典，比如牛頓這種。因此論文本身並不需要解釋為什麼能達到這個效果，它可能是數據集好、數據清洗好，甚至是初始化的時候隨機數選得好等等原因(其實我能說能想到的路早就有人想到了，現在大部分論文outperformance的原因就是這個么，參數調得好都算是佼佼者)。極端點的例子在生物信息學，你只需要發現某個基因和某種癌症有關聯足以發nature，至於這個基因是怎麼一步步導致癌症的，不好意思沒人知道。
審稿人從嚴謹的角度要求作者給出原因也無可厚非，至少避免了一大波胡說八道堆數據的論文。但過於嚴格的要求在一定程度上反而是反作用，那就是把本來還不成熟的理論作為「為什麼會有這個效果」的原因(比如深度學習中被吐槽的各種tricks)，一旦形成思維定勢甚至是學術定勢，後來者想要創新必須基於這些tricks(學閥的勢力有多大，頂尖學者也能因為站錯隊被搞死)，導致整個研究方向誤入歧途(當然對於某些教授也許是好事，可以再開一個研究方向，又是大把的銀子)，對於整個學科的發展是不利的。
其實現在深度學習在看似百花盛開的局面下，能用的模型只有可憐的幾種，在新領域達不到業界期望的效果時便歸結為數據量不夠、參數調的不夠好等等，沒有人嘗試新的路，這是很危險的。
不要逼別人去編理由。

朱松純教授說的很在理啊，深度學習作為應用課題的話確實出了很多有意思的結果，但是有很多問題是沒有解決的。作為經過多年統計訓練的人，我們對一個高大上的方法往往會回答下面的問題：

1）這個方法怎麼做出參數估計
2）這個方法怎麼做預測
3）這個方法怎麼做模型顯著性檢驗，看模型是否顯著
4）這個方法得到的模型各個參數怎麼做顯著性檢驗
5）這個方法得到的模型參數可以怎麼解釋
6）這個方法有什麼的樣子的假設，假設不成立的時候該方法是否有效
7）這個方法對於缺失數據有什麼表現

很不幸，隔行如隔山，機器學習的人大多隻關心 1) 和 2)，當然有耀眼的結果是非常好的，但是無法回答 3-7）這些問題勢必限制深度學習的發展，貌似短期看起來沒有一個很好的解決方法。

當然有人提到3-7)是work in progress，我個人覺得很難持續出現發展啦，3-7中任何選一個，對於任何一個課題，幾乎都是一群統計領域人畢生研究的課題，要現在短平快的在深度學習領域趕上本來就很難。另外一方面，現在深度學習的風頭都被幾個工業界大牛搶去了，申請課題立項的時候很難拿到funding，誰會自己倒貼錢去做這個方向呢？

另外領域大牛已經熟悉了怎麼調參數忽悠人了，下圍棋的繼續下，學梵高的繼續學，已經可以忽悠到錢，誰還會去做費力不討好的假設檢驗呢？

所以這個就陷入了一個工業界、學術界、既得利益者、有心做事者的囚徒困境，到了最後可能每個人都是看一眼，呵呵一下，合計合計就不做了。

註：收到了許多贊，我覺得有必要說明一下這個答案不是一份完整的評價。這篇答案僅僅是對於「智能（包括視覺）現象是否可能歸約成嚴謹的描述」這一方面的討論，主要是在補充和平衡其他回答者的答案，並沒有評價朱教授在其他方面的意見。在其他一些方面，比如對於審稿人的期待，對於產業界過分宣傳的批評，對於視覺領域歷史的總結和對於學術論文應該更多應用科學方法論等方面，我覺得朱教授說的是非常有道理的（但在這些方面的一些細節上我持一定保留意見）。

我覺得這種討論的背後焦點要比理論和應用的關係更為深刻，它表明的是不同的學者對於智能（包括視覺在內）完全不一樣的學術方法論。這種爭論有一個並不明顯但是非常重要的假設上的不同，那就是實現智能「是否需要」和「是否有可能」像物理學那樣去將複雜的體系簡化成易於理解的嚴謹描述。這一描述在物理學裡面幾乎是一致地數學的，因為它是目前人類可以用於嚴謹描述規律的唯一方法。然而若是要研究智能現象本身，它是否能夠被歸約成（Reduce）嚴謹的規律還是一個未知的事情。

但是，絕大多數經過長期科研訓練的科學家在無意識的情況下將「所有現象都可以簡化成嚴謹描述」變成了類似公理的假設，然而他們卻從來沒有思考過這一假設是否適用於智能本身。這一思路較為極端的例子應該算是英國的羅傑·彭羅斯（Roger Penrose）爵士，他連續撰寫了三部書《皇帝的新腦》（The Emperor"s New Mind）、《意識的陰影》（The Shadow of the Mind）和《龐大，渺小，及人類意識》（The Large, the Small and the Human Mind），來闡明意識（我認為這裡的「意識」與「智能」沒有什麼定義上的差別）的解釋需要完整的量子引力（Quantum Gravity）理論，並且用圖靈機停機問題和哥德爾不完備性定理來說明目前基於經典物理的技術不可能創造出意識來。然而，完整的量子引力理論時至今日都是不存在的，不然就不會有《星際穿越》（Interstellar）這麼好看的電影存在了。以彭羅斯為代表的科學家在這方面僅僅是作了一些猜測，遠遠不能證明他們是對的。此外，彭羅斯對於圖靈機停機問題和哥德爾不完備性定理的使用是對於機器的，將人變成了第三方的視角。然而第三方的視角對於主體而言必然不會存在這些悖論，如果想要出現這些悖論，每個人類個體應該考慮的問題是他自己而不是別的邏輯系統。也許哪天外星人看到了我們人類，然後在人腦的某種模型中應用了一下康托爾的對角線原理，然後說「看，人類是沒有智能的，因為他有悖論」——這明顯是錯誤的思考方式。這一派的人其實還不少，比如施一公、饒毅（相關參考：巔峰對話：生命科學的欣賞、普及、升華）還有題主的朱教授，以及絕大多數理論學派的學者（註：這裡面其實只有一小部分人認為這個智能理論需要量子重力理論為前提，但他們都認為智能現象是可以歸約為嚴謹描述的）。不過他們也許並沒有意識他們使用了這一假設來看待智能。

這一派的特點是對一切都盡量追求完美的解釋，如果能夠將所有的智能現象都歸約成一個公式那是最好的了。不過，目前來講這樣的嘗試還沒有完全成功。一個例子是傳統的統計機器學習理論，應用到實際模型上因太過偏離實際應用而變得沒有辦法參考，不過這是因為這些理論都是對最壞情況的「上界的上界」，自然無法描述實際使用的一般狀況。深度學習的發展在一定程度上是跳出這種「上界的上界」的限制的過程，當然在這個過程中也受益於數據、計算量和模型等各方面的進步。不過我個人覺得這一派的研究其實是非常有用的，即使最終無法將智能歸約為幾個公式的理論，在這個過程中能夠搞清楚那些可以搞清楚的也是非常有價值的成果。

反過來，有另外的一些研究者則認為智能作為一種現象，實際上只是人類對自己生物系統（特別是神經系統）複雜性的一種直觀描述。因為複雜性是它的根本要求，因此它是不可能被歸約成（Reduce）嚴謹的規律的。這種不可歸約性甚至包括了「如何定義智能」這一問題。圖靈在1950年發表的著名哲學論文《計算機器與智能》（Computing Machinery and Intelligence）中所提出的「圖靈測試」（Turing Test）就是一種基於這種觀念的對智能的定義，即只要被測試者大體上（即統計上）無法與由判定人（Judge）一致認可的智能參考物（即人自己）有所區別，那麼就可以認為是有智能的（在我看來，這一描述實際上是一種早期且非嚴謹的PAC學習理論雛形）。我個人覺得這種承認智能複雜而不可歸約的看法才是樸素而有用的。深度學習的祖師爺辛頓（Geoffrey Hinton）在2016 IEEE/RSE James Clerk Maxwell獎章頒獎典禮上就曾說過，圖靈和馮·諾伊曼本來就不承認基於邏輯可以創造智能。如果聯繫歷史，我個人猜想他們拒絕的是整個認為智能可以歸約成嚴謹規律的思路，而類似神經網路這樣的工程化方法也許才是進步的源泉。更何況，我們互相承認每個人類個體都是是智能體，然而我們從來沒有要求我們每一個體都必須將另外的個體歸約成一個理論或者搞清楚他神經元的每個狀態才能去理解他——這在物理上是不現實的。隨著人造機器計算能力的提升，我們也許會不得不只能去關注系統的行為，而對其內部運作的機理則只能處於無法歸約的層次上。這當然也取決於人類智能的物質基礎，如果日後我們人類的生物大腦變得無比強大，那個時候看待現在的神經網路也許就跟我們看待過去的機械算盤一樣明白了。此外，就算個體智能可以歸約成嚴謹理論，還有比人類個體智能更為龐大的現象，那就是人類社會和人類的進化（如何創造機器實現社會和進化？）。

目前大多深度學習的研究都是基於這一思想的，主要在模型設計、優化演算法、應用領域等實際的方面來拓展。我個人覺得，既然這樣的嘗試目前來講還沒有看到盡頭（比如不斷的有新的任務通過深度學習方法變得可能），那麼就沒有必要以「發明一種理論來描述所有深度學習」作為目標，因為我們還不清楚深度學習這一系列方法在實用中的邊界在哪裡，更不清楚「將智能現象歸約成嚴謹的規律」在根本上是否可行。

在結束之前我想說明的是上面的兩種派別的區分並不是絕對和獨立的，有許多研究員在完成許多優秀實際工作的同時，也為理解這些模型提出了非常好的理論。儘管這些理論不像物理學科那樣有強大的歸約性，但是依然是非常重要的。

最後，奉上在之前某個答案裡面翻譯的圖靈論文片段（相關參考：深度學習的研究領域是否有被過度誇大？ - 張翔的回答 - 知乎）
「We also wish to allow the possibility that an engineer or team of engineers may construct a machine which works, but whose manner of operation cannot be satisfactorily described by its constructors because they have applied a method which is largely experimental. 」
「我們（在考慮圖靈測試中的機器時）也應當允許這樣一種可能，那就是一些工程師可能會建造一台機器，它能夠完成任務（通過圖靈測試），但其工作的原理卻未必能夠被其創造者所完全理解，這是因為他們採用了一種試驗的方式（來建造這台機器）。」

利益相關：目前在以深度學習為主的實驗室讀博。

完整地掃了一遍。。

文章的主體思想沒什麼大問題，很多都是目前暴露比較明顯，其他人也都在提的東西。我倒是覺得他說的這些計算機視覺的歷史不錯，有很多書也可以 mark 一下：

Vision：A Computational Investigation into the HumanRepresentation and Processing of Visual Information
Probability Theory: The Logic of Science
General Pattern Theory

有時間都可以。。看看。

（重點錯）

還有就是原文提到的：

現在的視覺就基本上被很多人錯誤地看成一個分類問題，你給我一張圖像，我說這個圖像里有一隻狗或者沒有狗，狗在哪兒都不知道。頭在哪？腳在哪？不知道。Marr框架是有秩序的，現在的秩序在做深度學習的人眼中還不存在，或者沒有忙過來。各人做各人的分類問題，比如說有人算這個動物分類，有的人算這個傢具的分類。各種分類以後，他們之間怎麼樣的關係呢？要對這個圖像或者場景要產生一個整體的語義解釋。

沒太看懂原文是否支持尋找一個統一性的分類方法。以語音學做類比，在結構主義提出之前，19世紀的語言學採取嚴格的經驗主義來研究聲音如何產生。他們記錄每一種不同的聲音，研究舌頭、嘴唇、牙齒在發出各種聲音時的位置，用相機、攝影機、X光片把發音的樣子記錄下來，並發展出用一套及其複雜的記號和標記方法來表示其不同的差異。表面上通過這樣兢兢業業的研究，他們累積下汗牛充棟的資料，然而實際上研究員快要被這種方法累垮了... 語音的本質也被浩如煙海的資料所淹沒。最終這種研究方法被結構語言學所替代。所以首先「每個人做每個人的分類問題」幾乎可以肯定是毫無意義的，因為不找尋彼此的內在聯繫的話這樣的任務是做不完的。其次從總體上講應該尋找一個銀彈去build a good model 來把各種分類問題囊括其中。至於原文中說的「狗在哪，頭在哪，腳在哪」，那又是經典的多任務問題。。。是不同層級的任務，而且可以相互促進的咧。

舉一個不太恰當但也同樣有趣的現象。流行音樂作曲。
說實話現在流行音樂作曲的門檻不高，人人都有機會寫出經典，寫出神曲，即使你並不是很懂音樂樂理。
而很多科班出身的音樂專業人不一定能寫出很好聽的音樂，即使這些人的音樂素養很高。
於是乎，在這個方向你會發現很多亂拳打死老師傅的現象。不過兩派人也並沒有產生嚴重的割裂。
回到問題。在我看來，這是深度學習快速發展所造成的一個短暫結果。現在便捷的數據加開源軟體的支持讓傳統意義上的論文目標變得容易實現，所以才會有這樣的矛盾。
所以以我粗淺理解，這就好像一位學院派的音樂大師在控訴為什麼現在的小年輕會彈幾個和弦就能發專輯有粉絲名利雙收，實際上他連自己作品中和聲的傾向性以及解決方法還沒搞明白……
當然，這不是件壞事，也不是個太好的事。長此以往容易會讓研究界像流行音樂界一樣，真的好歌越來越少，灌水歌越來越多。不過看上去這是事物發展的客觀規律，我們很難避免，就像經濟學家無法避免金融危機一樣，只有痛苦後才會開始解決問題。

這是典型的搞CV出身和搞ML出身的人的觀念差異。ML有設計模型解決general問題的傳統。追求的是end to end，數據直接到結果，中間靠模型學習，領域知識體現在模型設計上。CV本身屬於應用，喜歡case by case針對問題本身設計模型和演算法，好處是對問題或數據本身的理解更深刻，不是很漂亮的模型可以有很好的intuition，之後再去優化模型。這樣的風格在ML看來有點頭痛醫頭腳痛醫腳，最後的系統很容易A+B+C，看起來會比較ugly。另一方面，ML方向往往是對某個模型把領域知識加進去對模型做調整，有可能受到已有模型的限制intuition不能完全挖掘出來，或者隱藏在了模型之中，甚至有些東西就是瞎試出來的，背後的intuition是什麼，作者也說不清。對於CV問題來說，最終的目標還是end2end的模型，但中間過程一定需要糙一點但是對問題理解很深的東西去推動。事物的發展是螺旋上升的，缺哪個都不可。
總結起來，
ML直奔終極目標，end to end。
CV解決現有問題，case by case。
當然現在這兩個領域融合很深，大部分研究者也沒有那麼極端，多處在兩者之間的中間位置。

你好。我叫張拳石，是朱老師的博士後，長期帶隊研究interpretable representations of neural networks。關於問題"朱教授不少學生也是做深度學習的，不知道是否規避了文中的批評"，我來回答一下。

其實我已經在早前的知乎文章《可解釋性與deep learning的發展》zhuanlan.zhihu.com/p/30074544中回答了這個問題。

雖然基於目前的深度神經網路框架，完全清晰地拆分開模型（表達）、演算法、和實現的三層結構有一定的困難，但是我們一直在朝著構建一個清晰表達的方向上努力，而且已經沿著這個方向做了一些工作。

試想，未來神經網路的結構和loss的複雜度極度複雜，如何才能保證有效的訓練，保證網路學到了正確的表達，而不是建模了一種dataset bias (黑箱測試的高正確率無法保證網路建模了正確的知識，見論文arXiv:1710.10577)？如何才能建模一個universal net？需要在哪個層面上對網路知識進行整合？這些看似不著邊際的問題，其實本質上都與今天討論的網路模型的表達方式息息相關。

學者需要提高現有技術的精度，更需要找到瓶頸性的問題，更需要為多年後的發展找到新的方向。走新路的代價可能是經歷更多的失敗，或者文章數量減半。這就像生物進化，（如果僅僅從短期來看）最保險的策略就是「不要變異」，因為傳統的往往是最work的最受歡迎的，變異出來的多是怪胎。不過還好，沿著構建清晰表達的方向，經過大量的嘗試，還可以做出一些新東西。

比如在"Interpreting CNN knowledge via an Explanatory Graph" in AAAI 2018一文主要介紹了如何把一個CNN（pre-trained for object classification）的conv-layer內部知識轉化成一個graphical model。在另一篇文章"Interpretable Convolutional Neural Networks"中，我介紹了如何端對端的學習一個CNN，使得其內部高層conv-layer的每個filter自動的表示某個object part。演算法並不需要人為的標註object parts或texture作為額外的supervision，而是為這些filters添加一個prior constraint，使得在訓練過程中自動回歸的某種object part。

當然，這些方法只是一些初步的技術，還談不上是什麼解決方案，今後還會提出更多更好的方法。路漫漫其修遠兮。

目前black-box end-to-end learning有很多問題，deep learning如何進一步提升模型複雜度，在更加複雜的系統里如何有效的優化學習，這些都是擺在我們面前的切實的問題。如何跳出comfortable zone of research topics，如何解決DL發展道路的問題，是擺在我們這一代學者面前的問題。如何構建一個清晰的表達，是一個很大的問題，不是某個人或某一個技術在短期內就可以解決的，UCLA的團隊一直致力於解決這個問題，這也恰恰是研究的魅力。

說一個故事，算不上答題了。
我第一次見到我現在的導師的時候，我們聊了很久，他跟我抱怨說: 神經網路這幾年又重新火了起來，導致學者做視覺這塊，整天就想著去調網路參數。是，你神經網路在有些問題上確實有著非常好的效果，但到底有沒有人想過，你調出來的這些參數，到底是什麼意思？為什麼這組參數的結果好？不僅如此，神經網路就是被用濫了，大家都往這方面擠，在很多問題上都是大材小用，在顯著性檢測上，Itti上個世紀幾行代碼就搞定的事，你用CNN確實效果好了，但是顯著性這玩意只是一個預處理，要求迅速準確，你有必要花這麼大的代價去用大炮打蚊子嗎？現在的研究方向就跑偏了。
因為導師的這段話，我一直對神經網路懷揣著敬畏之心，現在當我碰到問題我會更喜歡那些傳統演算法，譬如我個人就很欣賞2016CVPR里一篇結合CNN與隨機森林去估計景深的文章，比2015年的一篇單純構建multi-task CNN 檢測深度紋理等信息的文章 (具體是哪篇忘了) 要更討喜。而我的室友，則經常把神經網路掛在嘴邊，之前我們討論論壇上看到的一個開發手機程序識別電錶數字的項目，我的第一反應這就是個二值化和細化再匹配的簡單思路，他張口就說我用一個神經網路去識別，效果會很好。我當時有點錯愕，我問他，這明明是個簡單的問題，為什麼殺雞焉用牛刀呢？他回我一句因為效果好，很多人都用呀。(有可能是我自己把問題想太簡單了，不過我們之後也沒再深入探究。)
回到這個問題上來，神經網路終究只是解決問題的工具，科研工作者們如果指望靠著調參數發文章，把神經網路當鐵飯碗，那恐怕祖師爺不會賞你這口飯吃。

朱老師的這篇訪談裡面乾貨很多，但就題主拿出來的這段來說，確實沒什麼道理。

搞理論的對搞應用的鄙視一直存在，只是現在理論界幾年拿不出像樣的成果，看著搞應用的瘋狂灌paper，心裡不爽而已。
像 @田淵棟，搞了多年的理論也只能在極為有限的情況下（二層、ReLU、無bias）推導出一些結論，搞過理論的人都知道這一步不易，但在搞應用的人眼裡，對這種模型的分析到底對我們現在用的動輒上百層、各種分支再合併的模型有多大幫助？而同樣是田淵棟本人搞RL、搞圍棋，輕輕鬆鬆就可以出好幾篇文章，我個人覺得對community的發展更有幫助。

我的看法是：數學的level確實高於科學，但也不要來鄙視科學實驗的成果。只要我們設置好baseline，做好對比實驗，在大規模數據集上得到的結論，總比醫學那邊幾百例臨床實驗就出來的結論要強很多倍吧？

另外，關於表達、演算法、實現上我不認為有什麼分不清的，現在大部分CNN論文都是在表達（模型）層面上進行設計，或是提出一個新的結構，或是提出一個新的loss。演算法大家都是bp+sgd（adam），實現上有caffe、torch、tensorflow等，這兩個大部分論文都是一筆帶過，也不會有人過多關注。反而是之前的很多CV文章，由於沒有統一的架構，統一的數據集（恩，數據也很重要啊，不比模型的重要性低，Marr在那個年代是看不到這一點的），是很難分清到底是表達、演算法、實現、數據哪一層起的作用的。

其實這幾個詞也實在是讓人摸不著頭腦，我覺得應該換成模型、優化演算法、框架、數據比較容易被新一代的CVer所接受。

微積分的思想在阿基米德的時代就有，牛頓萊布尼茲初步系統化，而魏爾斯特拉斯才算嚴格。

神經網路需要處理複合函數與線性疊加，我們現在沒有好的誤差估計。只能先積累經驗，等理論突破。

當一項技術越來越多地被市場所驅動時，它離科學就越來越遠了。科學追求的是搞懂為什麼，而市場只要求管用就行，兩者追求的目標不一樣，對深度學習技術的發展方向影響也不一樣。但不管怎麼樣，搞懂究竟為什麼還是很關鍵的，不然也不會有很大的突破。

深度學習現在在研究層面明顯遇到瓶頸，所以演變成拼資源、拼trick
在這個時候批評深度學習，並無過人之處
所以再次印證我的看法，自己遇到的問題，不能期待外來的高手來解決，人水平再高，也不會雪中送炭

「沒有理論」本身也是一種理論。
這一點對於老一輩是很難接受的。
意識的「不可規約」性現在缺一個證明，估計很快了。

我覺得朱教授真正看不慣的是，一群體力勞動者搖身一變成了社會公認的科學家

cv界的大佬看ml的東西自然是把他們當做工具來看，而這個工具很好用，對於一般的非大佬級cv學者肯定是高興的，性能上去了，paper發的多了，但是大佬們看得遠啊，你他媽這個東西自己都講不清為啥子好用，我怎麼能覺得你好呢（此處可以模仿一波朱巨巨罵人的口氣）