能否用MFCC判斷兩個聲音是不是一個人的?

想做一個聲音解鎖的小project,已經提取除了音頻的MFCC特徵,但是突然發現找不到後面該怎麼做的資料論文了。。。所以知乎求問,用MFCC能否實現聲音判斷?


你要做的這件事叫說話人識別,你可以用speaker recognition / identification / verification作關鍵詞來搜索文獻。

目前前沿的方法是用i-vector,提取MFCC只是萬里長征第一步。


不能。你能發/a/ 我也能發/a/,MFCC特徵不具大的區分性。

  • 文本無關 說話人驗證(speaker verification) 標準做法 是提取speaker特徵,state of the art的技術是 ivector http://habla.dc.uba.ar/gravano/ith-2014/presentaciones/Dehak_et_al_2010.pdf

  • 文本有關(若聲音解鎖要求指定命令(如:芝麻開門等等))沒看過文獻,不清楚具體做法。


@神牛。i-vector不也是對mfcc進行了降維么。所以本質上用mfcc是可以的,不是嗎?只是占空間太大,計算機處理負擔太大如果數據多的話。

我只是對這個有非常淺顯非常淺顯的了解。也不知道對不對。

有一篇論文叫做"robust text-independent speaker identification using gaussian mixture speaker modles "好像跟題主所問的問題有所幫助,雖然我也沒看。只看了摘要╮(╯▽╰)╭。題主可以看看


單獨用mfcc是不行的,mfcc只是頻域上的一種特徵,你要是想做說話人確認,可以參考一下interspeech上的論文,這是一個研究領域,可以使用在聲學模型上打分的方法,這種比較簡單,也就是說,先用某個人的聲音訓練一個聲學模型,然後再用數據測試在此模型上的得分,因為模型是用特定人數據訓練的,所以此人的數據測試得分會高,這是一種方法。


推薦閱讀:

如何看待小米科技在3月22日發布會的行為以及與出門問問的合作問題?
LBP (Local Binary Pattern) 是目前流行的模式識別、人臉識別演算法嗎?
人工智慧在哪些行業細分領域現在是投資最佳時機?
有監督和無監督學習都各有哪些有名的演算法和深度學習?
必須要在正規的人工智慧專業學習並獲得博士學位才能真正學會深度學習嗎?

TAG:人工智慧 | 語音識別 | 深度學習DeepLearning |