對於圖像識別和語音識別，其各自的深度學習框架的實現差異大嗎，假如理解了其中之一，轉向另一邊容易嗎？

01-08

剛剛開始準備學習深度學習，，向前輩們請教一下～另外求推薦一些入門級別的深度學習方面的開源代碼～謝謝，，我現在只知道caffe cuda-dnn kaldi 這些。。

其實不同應用背景的深度學習原理都相通（甚至就是一個東西），即一層一層從原始輸入（圖片的話就是原始圖片；文本的話就是單詞或字母）中抽取、剝離高層語義特徵。如果對圖像的深度學習很了解，轉去做文本猶如探囊取物。

開源軟體方面，除了caffe那些，還有最近VGG提供的MatConvNet

圖像識別與語音識別差別很大，圖像識別更接近語音識別中的聲學建模，而ASR有很大一部分是decoding；

ASR 更接近 image caption

語音的keyword spotting 與圖像的 object detection 也比較相似

語音和圖像都可以有 segmentation，語音分割不同音素，圖像分割不同物體；

開源其實都可以互相使用的，語音、圖像的數據格式互相轉換即可，今年語音界眼紅Deep CNN在CV中的成功，有不少工作嘗試Deep CNN做ASR；完全可以用CV中流行的DL框架如caffe tensorflow做聲學模型訓練，計算聲學得分之後送到kaldi的decoder中做解碼，快速跑個結果出來。

非常容易，實際上深度學習這麼火，就是因為某種程度上它弱化了領域知識，甭管什麼東西，deep就行了，而不用像原來一樣做特徵工程。特徵工程，那肯定是要領域專家才行的。

caffe、torch7、theano這些都是開源的。