標籤:

為什麼一般語音識別系統要選擇25毫秒或25.6毫秒為一個標準幀長?

該超參數是如何制定出來的?求科普


幀長必須足夠長,使得一幀信號內有足夠多的周期;但又不能太長,因為需要保證一幀內的信號基本平穩。人聲的基頻範圍下限在100 Hz左右(有些男聲會更低),換算成周期是10 ms,所以一般幀長都選在20 ~ 50 ms。在這個範圍內選一個比較「整」的數,比如20、25、40、50,都很常見。

25.6 ms這個有點兒奇葩了……很明顯它的動機是讓每幀的採樣點數是2的冪,不過這隻有在採樣率為10 kHz、20 kHz或40 kHz的時候才能實現。這一系列並不是常見的採樣率。常見的採樣率系列有8 kHz、16 kHz和11025 Hz、22050 Hz、44100 Hz。在8 kHz或16 kHz採樣率下,可以選擇幀長為32 ms,使得每幀的採樣點數是2的冪。在後一系列中,就做不到了。


這個長度的語音,頻率特性是接近平穩的。


推薦閱讀:

前向後向演算法和baum-welch演算法區別是什麼?
準備學習研究一下語音識別 請問有哪些值得推薦的書籍 論文 及開源庫?
政府監控私人電話,記錄的主要是哪些信息?
如何理解語音識別的 lattice-free MMI 聲學訓練?
Kaldi里的DNN訓練時的輸入是什麼,三音素的GMM訓練好後為什麼要做數據的強制對齊?

TAG:語音識別 |