對於圖像識別和語音識別,其各自的深度學習框架的實現差異大嗎,假如理解了其中之一,轉向另一邊容易嗎?
01-08
剛剛開始準備學習深度學習,,向前輩們請教一下~ 另外求推薦一些入門級別的深度學習方面的開源代碼~ 謝謝,, 我現在只知道caffe cuda-dnn kaldi 這些。。
其實不同應用背景的深度學習原理都相通(甚至就是一個東西),即一層一層從原始輸入(圖片的話就是原始圖片;文本的話就是單詞或字母)中抽取、剝離高層語義特徵。如果對圖像的深度學習很了解,轉去做文本猶如探囊取物。
開源軟體方面,除了caffe那些,還有最近VGG提供的MatConvNet圖像識別與語音識別差別很大,圖像識別更接近語音識別中的聲學建模,而ASR有很大一部分是decoding;
ASR 更接近 image caption語音的keyword spotting 與圖像的 object detection 也比較相似語音和圖像 都可以有 segmentation,語音分割不同音素,圖像分割不同物體;開源其實都可以互相使用的,語音、圖像的數據格式互相轉換即可,今年語音界眼紅Deep CNN在CV中的成功,有不少工作嘗試Deep CNN做ASR;完全可以用CV中流行的DL框架如caffe tensorflow做聲學模型訓練,計算聲學得分之後送到kaldi的decoder中做解碼,快速跑個結果出來。
非常容易,實際上深度學習這麼火,就是因為某種程度上它弱化了領域知識,甭管什麼東西,deep就行了,而不用像原來一樣做特徵工程。特徵工程,那肯定是要領域專家才行的。
caffe、torch7、theano這些都是開源的。推薦閱讀:
※行為識別(action recognition)目前的難點在哪?
※基於深度學習的目標跟蹤演算法是否可能做到實時?
※如何評價谷歌的xception網路?
※怎麼看今天Amazon發布的16 GPU的p2.16xlarge EC2實例?
TAG:機器學習 | 語音識別 | 圖像識別 | 深度學習DeepLearning |