如何評價 Caffe2go？

01-23

首先感謝賈大神，文章說將部分開源，會到什麼程度？該框架能做到在手機上進行深度學習，是怎樣進行模型尺寸縮減的？

不太清楚caffe2go是在移動設備上做train計算還是和之前mxnet tensorflow一樣的 load 模型做predict，如果是前者，有很多可以預見的問題：

0.誰家背書？英偉達做了那麼多工作才使得現在的DL設備上都使用他家的cuda+cudnn，移動設備上進行深度學習？至少也得有一家類似的公司（硬體支持）來為其背書吧

1.移動終端作為一個計算設備，存儲與cpu（gpu）交互是否能跟得上，要知道在標配的DL機器中都是需要ssd來做數據的存儲介質；

2.計算力，移動設備的計算力能夠滿足DL這種級別的運算嗎？

3.網路帶寬，單個GPU工作站尚且無法滿足計算力的要求，就算滿足其他的問題，在現有分散式框架下，基於PS的DL模型參數更新，ps與worker之間的網路帶寬消耗巨大，這個怎麼解決；

4.動則幾百g的訓練數據哪裡放？

5.電池怎麼辦 ^-^

DL是在海量數據下才保證模型的泛化能力，大數據下，移動設備估計夠嗆...不過還是希望快點開源，能夠run下

腦洞開一下，莫非是配有了專屬的神經網路計算晶元的黑科技？

以上個人觀點，望輕噴

本人一直很關注移動端CNN的實現，說下本菜鳥的看法。

1.首先，這個mxnet tensorflow本身都是支持的Android端的執行的。不過有點坑，我國產的手機都運行不了，兼容性真不好。(當然你自己寫的簡單的cnn，移植下也是可以的，就是效率問題)

2.但是這些框架都還沒有正式為mobile devices量身定做,Caffe2goo應該算是第一個。(估計很多公司早就做了，但是他們應該是不會開源的)

3.看賈大神的文章，說,是在cpu上跑的，之前的框架也很少去支持gpu，除非量身定做(使用opencl)。

4.賈大神之前的開源的caffe2 就提到了對android的支持。

5. in real time, on people"s devices。應該是該項目的一個亮點。

期待開源。

做嵌入式深度學習剛好一年，答一記來紀念一下。

用的是caffe。

首先先說明一下很多人的誤區，就是，嵌入式設備(手機等)的GPU,實際上要比CPU要慢得多，若gpu和cpu都沒有優化過，均使用開源庫，如cpu用openblas，gpu用clBLAS, CLBlast來做gemm(caffe的卷積的實現方式)，那麼我測試的網路，要普遍慢幾倍到幾十倍，沒錯，有幾十倍，那是因為嵌入式用的gpu，主要是mali的gpu，其架構和pc端gpu架構差別過大，而上面提到的庫並沒有針對mali的gpu優化，甚至影響更差，比如local memory的影響。gpu的優化比cpu要難很多，要考慮東西多很多。

回到caffe2go來，賈揚清的原話沒看過，不過看各位回答，大致是，在手機上用cpu來跑caffe2，有些人糾結於，是訓練網路還是應用，這個其實都可以，看需要，不過，假若能在pc端訓練好的網路，又何必在手機端訓練呢？因此大部分網路是不用在手機端訓練的，少數如根據用戶特性做的應用倒是需要。

賈的caffe2go在我看來，其實做了倆件事，一個是做了個將caffe2用於手機的應用，一個是用手機cpu來跑caffe2。這倆件事，github上，shr01早就做了(用的是caffe)，有源碼。那麼，賈為什麼還發布呢？最重要的是，shr01隻是移植了caffe，而賈針對手機的cpu做了優化，也就是，性能提高了。沒錯，優化，這個是深度學習應用最重要一環之一，也是我接下來要談的話題。

目前就我了解到的，在工業界，不少公司已經能將深度學慣用於實際，基本達到實時，而這些公司，幾乎用的都是cpu，為什麼我前面提到了，而賈也是基於cpu來做的。嵌入式設備性能有先限，因此優化是非常重要的。而cpu的優化要簡單直接多了。

那麼，gpu呢？其實這才是我想說的重點，我主要的優化工作是在mali gpu上的，也就是嵌入式設備的gpu。前面提到gpu性能要普遍差於cpu，甚至無法與之相比，主要原因，首先要從硬體上去分析了，這個額，我不是很懂，先挖個坑吧。還有一個重要方面就是，目前的嵌入式gpu使用的是opencl，(不要說有nvidia的cuda，nvidia的tk1等設備，nvidia放出聲明不做這方面的了，所以nvidia的東西不在討論範圍，畢竟現在我知道的手機中沒有用nvidia的顯卡，更何況那麼貴)，目前開源的庫中，很少有針對嵌入式端的opencl優化，導致mali等gpu不能達到其浮點運算該有的gflops。

所以，在我看來，硬體本身限制，加上沒有軟體優化支持是目前嵌入式端不用gpu來做深度學習的主要原因。而且，手機端的gpu更重要的是來做渲染，事實上手機端的圖形界面等渲染耗費了很多的gpu性能，gpu本身就半身不遂了，怎麼奢望它跑得快，gpu比cpu慢幾十倍的原因也在於此(這個原因是我猜測的，後來問了大牛，說有影響，但不是這個主要原因，而是android的方面沒有配合好，大致可以總結為，android沒調度好，差不多，就是沒優化好咯)。

那麼我為什麼還做gpu優化呢？因為在我看來，不久後肯定會有更強大適合的gpu出現來適應複雜繁多的計算。並且，我們現在做的gpu優化已經在部分設備趕上甚至超過cpu了(rk3288為例)，當然這也和我們cpu的優化不是重點有關，我們優化了cpu，但是沒有其他公司或者團隊優化那麼好。

因此，我覺得，caffe2go肯定也做了移動端的gpu版本，只是目前受限，性能表現不好，沒發布而已。

gpu還是有很多cpu不能替代的優點，只是現在整體表現不好而已。

以上僅是個人觀點，歡迎指出錯誤，一定虛心學習。

我在Github搜索了一下，目前還沒有發現Caffe2go的源碼，難道2017年12月了，還沒有開源碼嗎？

訓練還是通過pc來進行的，移動端只做預測運算量大大減少。並且高通也開始介入深度學習了，最新的835已經支持gpu加速，這樣手機端直接運行網路速度比雲端快速，並且可以離線運行。

我覺得你們忽略了一些技術的細節。

移動設備性能跟不上，但是也有巨大的優勢，那就是被頻繁使用，近年來個人pc業績下滑也是不爭的事實。手機不是幾乎已經淘汰了數碼相機了么。

還有更重要的一點，特別是樹莓派，你可以及其方便得命令他去執行一些事，比如閃個燈，驅動一個馬達等等。樹莓派天生就是干這個的。但是手機，pc等等就沒有這個優勢。樹莓派缺的就是一個智能的判斷所發出的指令，深度學習不就正好補位了么。

簡單說，物聯網特別需要深度學習的技術。