如何評價圖森科技連發的三篇關於深度模型壓縮的文章?

https://arxiv.org/abs/1707.01213
https://arxiv.org/abs/1707.01219
https://arxiv.org/abs/1707.01220


利益相關:圖森加州分部實習生

針對一些評論,先回答下為什麼自動駕駛需要模型壓縮。在實驗環境中,大家不會在意inference時間是10ms還是1s,大多是哪個模型性能好就用哪個。但在上車環境中,所有演算法都得做到25~30fps,於是40ms就成了一道坎。可以說大部分state-of-the-art模型,不經過壓縮是絕對無法做到實時的。同時另一方面,不同於固定台式機有寬裕的電源供給,車載系統能提供的能源有限,以至於卡的規格和數量都有很大的掣肘。即便是一些實時的模型,如果Flops需求過大(例如GoogleNet, ResNeXt為代表的寬模型),也無法應用實踐。所以模型壓縮是擺在正式上路前一道不得不過的坎,圖森北京研究這塊也是情理之中。

回到paper,Data-Driven Sparse Structure Selection for Deep Neural Networks 這篇文章給出了用sparsity regularization來訓練scale factor,實現一個類似於用「Gate」控制分支,實現模型壓縮的演算法。思路很清晰,首先先於對寬網路(文中是ResNeXt)的identity以外分支都加上一個scale factor,訓練過程中,用他們提出的APG + L1 norm來訓練,使得scale factor呈現於sparse的特性(大部分為0)。訓練完成後,scale factor接近0的分支被認為對網路貢獻不大,可以直接砍掉,就完成了pruning。

網路中引入Gate不是一件新鮮事,我在[1]和[2]中也見過類似的結構。[1]和[2]都是用gate在訓練時只訓練部分網路,而用於壓縮是第一次見,著實讓人眼前一亮。唯一遺憾是由於Gate本身的性質,按照這篇文章的做法只能壓縮寬網路結構(還得保留一條identity mapping?),在有些網路上無法適用。

第二篇 Like What You Like: Knowledge Distill via Neuron Selectivity Transfer. 233,這名字讓我想起了 WTFPL 協議,在眾多嚴肅的標題中特別醒目。這篇文章的思路明顯是繼承於 Hinton 那篇 distill knowledge[3]。[3]提出了一個讓student(小模型)去儘可能學習teacher(大模型)的策略:首先訓練多個teachers,然後在訓練student時,不僅有傳統的softmaxCrossEntropy Loss,還有與teacher們投票結果的一個constraint。這樣訓練出來的student模型既可以學到正確的label是什麼,又可以擬合出一個更合理的置信度,會比直接train from scratch的模型要好 [4]。

這篇文章的做法也類似,首先訓練好較大的teacher模型,再開始訓較小的student模型。不同於hinton那篇文章在最後output層做constraint,這篇文章在student模型和teacher模型的feature maps之間計算一個Maximum Mean Discrepancy作為constraint,希望student模型的features和teachers的儘可能相似。自然,這樣的student模型可以有接近teacher的性能,同時保持較少的參數,於是實現了model compression。

第三篇 DarkRank: Accelerating Deep Metric Learning via Cross Sample Similarities Transfer這篇跟第二篇一樣,也是繼承 hinton 的 KD[3] 的思想。同樣的,也有student和teacher模型。不同的是這次teacher和student的constraint形式定義為對相似物體也應有相似的結果,即student對於貓1,貓2,貓3的判別應當跟teacher給出的結果相似。還沒細讀,但覺得做法上和第二篇類似,壓縮也在情理之中。

最後仰慕下naiyan的高產,的確按照去年年末的承諾[4],連發了三篇,分享了Knowledge Transfer的技巧。最近我也在驗證一些KD相關的猜測,希望實驗順利,能早日成文和大家分享 :)

[1] : [1603.09382] Deep Networks with Stochastic Depth

[2] : The Sparsely-Gated Mixture-of-Experts Layer

[3] : [1503.02531] Distilling the Knowledge in a Neural Network

[4] : 如何理解soft target這一做法?


模型壓縮更多肯定是為了提高real time

說明了tusimple是真的打算把DL用到實際應用上

之前看了所謂知網的論文

使用deeplab做分割

然後論文裡面自己說:能夠滿足時事性

excuse me?

tusimple是家好企業,像我這種弱雞可望而不可及


我一直懷疑知乎上有人故意黑圖森,總是發這種看上去像營銷貼的問題,然後眾多知友出來嘲笑諷刺,太慘了。其實這家公司還是有些實力的


很早有人發過類似論文,我也早就在用了。因此只想問,你是圖森科技的員工嗎?


orz一下韜哥 每天跟我們談笑風生 出了這麼多成果


我們和1707.01220這篇的idea一樣,可惜人家先做出來了...


推薦閱讀:

奮進號歷險記(中)
分類演算法之鄰近演算法:KNN(理論篇)
Kmeans文本聚類
跟蹤置信度與Long-term

TAG:機器學習 | 深度學習DeepLearning |