關於語音識別特徵提取該如何入門?

本人目前大三,做語音方面課程設計,我負責只需要將一段已經錄製好的音頻(直接存在PC上了)進行特徵提取然後轉為文本信息,不需要很系統的了解,實現方式是mathlab,請問問這需要看什麼書籍、資料之類的

目前懂得一些比較基礎的信號方面的知識,但是對語音這一方面的不怎麼了解。


想學習特徵提取的話,好好研究並實現一下MFCC, 可以參考一些開源的實現,github有,當然也可以參考HTK或者kaldi的源碼,kaldi的源碼還是邏輯比較清晰的。

如果只是想用的話,用 HTK 或者 kaldi 都可以,kaldi有工具可以直接用。

補充:

python提取mfcc特徵的話,sidekit,librosa 都比較好用,opensmile也可以吧。


Matlab不熟,不知道相關的庫。關於實現:

如果你擅長c語言,那就用劍橋出品老牌勁旅HTK Speech Recognition Toolkit,代碼成熟穩定,但更新較慢,目前支持GPU和前饋型神經網路FNN,windows和Linux環境均可:

如果你擅長c++,那就用閃閃發光支持深度學習多模型的Kaldi ASR,目前活躍,參考文檔請戳FeatureExtraction,開發效率高,Linux使用方便:

如果你擅長python,那就用 librosa,各種語音特徵,windows和Linux均可:

以上,自己選嘍。

最後,推薦一個中文語音數據集(30h,戳戳戳):


書籍建議如下:

  1. 信號處理基礎類
    1. 《語音信號處理》 趙力 著
  2. 語音識別類
    1. 《Automatic Speech Recognition》 A Deep Learning Approach, Dong Yu, Li Deng
    2. 《SPEECH RECOGNITION WITH WEIGHTED FINITE-STATE TRANSDUCERS》Mehryar Mohri

代碼工具建議如下:

  1. 牛逼哄哄的 Kaldi


在ilovematlab論壇上 有語音識別的特徵程序 或者我說幾個常用特徵 題主百度找找看吧mfcc plcc 基頻 短時能量 不夠我再給你補充


有本書叫Matlab在語音信號上的應用,有提mfcc的程序,可以看看,很簡單的。


推薦閱讀:

詞向量,LDA,word2vec三者的關係是什麼?_?
預測和回歸的區別是什麼?
語音識別中,如何理解HMM是一個生成模型,而DNN是一個判別模型呢?
如何高效地調整PID參數?
機器學習「判定模型」和「生成模型『有什麼區別?

TAG:演算法 | 機器學習 | 語音識別 | 特徵提取 |