建立語音評價系統需要學習哪些知識?

這裡的語音評價系統是用於語言學習的(特指漢語),當識別了人的語音後該評價系統根據已有的標準語音庫與之相匹配,然後給出吻合度。

類似於羅塞塔石碑之類的語言學習軟體。想知道其中的語音識別和語音評價系統的原理和技術有哪些。


謝邀。

發音評測(pronunciation assessment)只做過一些調研,希望有實際做過這類產品的人給出state-of-the-art的技術與方法。裡邊相應術語主要用英文(方便Google及交流)。歡迎指正。

發音評測一般的流程是(phone-based):

1. 給定non-native speaker的一句語音(這裡只考慮一句話的情況),及其相應的標註(transcription)。

2. 用一個訓練好的speech recognizer 根據transcription 得到語音的forced alignment。forced alignment 得到的是每個 frame 對應的 phone。(如果你不知道這裡都是在說什麼請補補speech recognition的知識)

3. 利用上面的forced alignment 得到一些評測指標,如Goodness-of-pronunciation(GOP), segment duration score等。 其中GOP主要是一個HMM-based log-posterior probability scores。

4. 用一些線性或非線性方法組合上面的指標得到一個最終評價。 當然,最終評價的好壞與否需要有一些人工評價的數據作為參考。

主要參考文獻:

【1】Witt, Silke M., and Steve J. Young. "Phone-level pronunciation scoring and assessment for interactive language learning." Speech communication 30.2 (2000): 95-108.

【2】Franco, Horacio, et al. "Combination of machine scores for automatic grading of pronunciation quality." Speech Communication 30.2 (2000): 121-130.


謝邀。

我讀博士時就是做的發音質量自動評測,主要用於教育類產品上,水平不高,慚愧。科大訊飛的魏思等人,許多年前就是國內這個方向的牛人,如果要做這方面的工作,他們的博士論文是很好的教材。

目前主流的發音評測方法基本都是基於語音識別框架的。

語音識別要解決的問題是語音和發音空間中的哪一條路徑最接近,而發音評測要解決的問題是語音和指定的發音路徑有多接近。

如果對語音識別比較熟悉,可以很快的轉到發音評價的工作上來。


推薦閱讀:

語音識別技術為何涉及心理學?
導師讓做一個語音識別的系統,詳細步驟是什麼?
聽力時,在距離音源較近的位置用較低的聲音播放,或在距離較遠的位置播放較大的聲音,分辨能力是否近似?
訊飛和搜狗最近都在秀的實時翻譯,哪裡可以體驗到?

TAG:學習 | 語音識別 | 中文語音識別 | 語言學習 | 評價系統 |