同是兩小時的錄音,能否對比哪個交談更多?能否數據化對比?

逐字逐句人工識別太沒效率,只希望對比錄音中交談的密度。


如果你只想比較談話的時長,那麼只需要進行簡單的VAD (voice activity detection),找出有說話聲的區間,計算總長度即可。

如果你還想考慮語速,那麼至少需要一個音素識別器(phone recognizer),以統計音節數。


推薦閱讀:

為什麼一般語音識別系統要選擇25毫秒或25.6毫秒為一個標準幀長?
前向後向演算法和baum-welch演算法區別是什麼?
準備學習研究一下語音識別 請問有哪些值得推薦的書籍 論文 及開源庫?
政府監控私人電話,記錄的主要是哪些信息?
如何理解語音識別的 lattice-free MMI 聲學訓練?

TAG:語音識別 | 中文語音識別 |