關於語音識別特徵提取該如何入門?
01-06
本人目前大三,做語音方面課程設計,我負責只需要將一段已經錄製好的音頻(直接存在PC上了)進行特徵提取然後轉為文本信息,不需要很系統的了解,實現方式是mathlab,請問問這需要看什麼書籍、資料之類的
目前懂得一些比較基礎的信號方面的知識,但是對語音這一方面的不怎麼了解。
想學習特徵提取的話,好好研究並實現一下MFCC, 可以參考一些開源的實現,github有,當然也可以參考HTK或者kaldi的源碼,kaldi的源碼還是邏輯比較清晰的。
如果只是想用的話,用 HTK 或者 kaldi 都可以,kaldi有工具可以直接用。
補充:python提取mfcc特徵的話,sidekit,librosa 都比較好用,opensmile也可以吧。Matlab不熟,不知道相關的庫。關於實現:
如果你擅長c語言,那就用劍橋出品老牌勁旅HTK Speech Recognition Toolkit,代碼成熟穩定,但更新較慢,目前支持GPU和前饋型神經網路FNN,windows和Linux環境均可:
如果你擅長c++,那就用閃閃發光支持深度學習多模型的Kaldi ASR,目前活躍,參考文檔請戳FeatureExtraction,開發效率高,Linux使用方便:最後,推薦一個中文語音數據集(30h,戳戳戳):
書籍建議如下:
- 信號處理基礎類
- 《語音信號處理》 趙力 著
- 語音識別類
- 《Automatic Speech Recognition》 A Deep Learning Approach, Dong Yu, Li Deng
- 《SPEECH RECOGNITION WITH WEIGHTED FINITE-STATE TRANSDUCERS》Mehryar Mohri
代碼工具建議如下:
- 牛逼哄哄的 Kaldi
在ilovematlab論壇上 有語音識別的特徵程序 或者我說幾個常用特徵 題主百度找找看吧mfcc plcc 基頻 短時能量 不夠我再給你補充
有本書叫Matlab在語音信號上的應用,有提mfcc的程序,可以看看,很簡單的。
推薦閱讀:
※詞向量,LDA,word2vec三者的關係是什麼?_?
※預測和回歸的區別是什麼?
※語音識別中,如何理解HMM是一個生成模型,而DNN是一個判別模型呢?
※如何高效地調整PID參數?
※機器學習「判定模型」和「生成模型『有什麼區別?