對於圖像識別和語音識別,其各自的深度學習框架的實現差異大嗎,假如理解了其中之一,轉向另一邊容易嗎?

剛剛開始準備學習深度學習,,向前輩們請教一下~ 另外求推薦一些入門級別的深度學習方面的開源代碼~ 謝謝,, 我現在只知道caffe cuda-dnn kaldi 這些。。


其實不同應用背景的深度學習原理都相通(甚至就是一個東西),即一層一層從原始輸入(圖片的話就是原始圖片;文本的話就是單詞或字母)中抽取、剝離高層語義特徵。如果對圖像的深度學習很了解,轉去做文本猶如探囊取物。

開源軟體方面,除了caffe那些,還有最近VGG提供的MatConvNet


圖像識別與語音識別差別很大,圖像識別更接近語音識別中的聲學建模,而ASR有很大一部分是decoding;

ASR 更接近 image caption

語音的keyword spotting 與圖像的 object detection 也比較相似

語音和圖像 都可以有 segmentation,語音分割不同音素,圖像分割不同物體;

開源其實都可以互相使用的,語音、圖像的數據格式互相轉換即可,今年語音界眼紅Deep CNN在CV中的成功,有不少工作嘗試Deep CNN做ASR;完全可以用CV中流行的DL框架如caffe tensorflow做聲學模型訓練,計算聲學得分之後送到kaldi的decoder中做解碼,快速跑個結果出來。


非常容易,實際上深度學習這麼火,就是因為某種程度上它弱化了領域知識,甭管什麼東西,deep就行了,而不用像原來一樣做特徵工程。特徵工程,那肯定是要領域專家才行的。

caffe、torch7、theano這些都是開源的。


推薦閱讀:

行為識別(action recognition)目前的難點在哪?
基於深度學習的目標跟蹤演算法是否可能做到實時?
如何評價谷歌的xception網路?
怎麼看今天Amazon發布的16 GPU的p2.16xlarge EC2實例?

TAG:機器學習 | 語音識別 | 圖像識別 | 深度學習DeepLearning |