能否用MFCC判斷兩個聲音是不是一個人的?

01-08

想做一個聲音解鎖的小project，已經提取除了音頻的MFCC特徵，但是突然發現找不到後面該怎麼做的資料論文了。。。所以知乎求問，用MFCC能否實現聲音判斷？

你要做的這件事叫說話人識別，你可以用speaker recognition / identification / verification作關鍵詞來搜索文獻。

目前前沿的方法是用i-vector，提取MFCC只是萬里長征第一步。

不能。你能發/a/ 我也能發/a/，MFCC特徵不具大的區分性。

文本無關 說話人驗證(speaker verification) 標準做法是提取speaker特徵，state of the art的技術是 ivector http://habla.dc.uba.ar/gravano/ith-2014/presentaciones/Dehak_et_al_2010.pdf
文本有關（若聲音解鎖要求指定命令（如：芝麻開門等等））沒看過文獻，不清楚具體做法。

@神牛。i-vector不也是對mfcc進行了降維么。所以本質上用mfcc是可以的，不是嗎？只是占空間太大，計算機處理負擔太大如果數據多的話。

我只是對這個有非常淺顯非常淺顯的了解。也不知道對不對。

有一篇論文叫做"robust text-independent speaker identification using gaussian mixture speaker modles "好像跟題主所問的問題有所幫助，雖然我也沒看。只看了摘要╮(╯▽╰)╭。題主可以看看

單獨用mfcc是不行的，mfcc只是頻域上的一種特徵，你要是想做說話人確認，可以參考一下interspeech上的論文，這是一個研究領域，可以使用在聲學模型上打分的方法，這種比較簡單，也就是說，先用某個人的聲音訓練一個聲學模型，然後再用數據測試在此模型上的得分，因為模型是用特定人數據訓練的，所以此人的數據測試得分會高，這是一種方法。