語音合成領域有哪些未解決的問題?
04-06
以下總結自 Quora-unsolved-problems-in-tts
語音合成目前的問題
1. 合成的速度,工業界要求快速,但目前有些技術並不能做到實時合成
2. 不夠自然
3. 工業界和學術界的分別(工業界依然還是拼接合成,但是學術界已經不主要研究這個了)
4. 目前大量的語言仍然無法合成,而且針對不同的語言需要獨立分析,例如需要尋找一個合適的phoneset
5. 工業界中的語音合成仍然需要大量的人工介入,例如專業的發音員,需要在錄音棚錄音,人工轉換成文本,人工做align的檢查,添加特定的辭彙到發聲詞典
6. proper intonation 合適的語調(韻律)
7. 個性化語音合成(快速地模仿一個人的聲音
8. 歌唱以及情感語音合成
9. 兒童的語音合成
如何獲取當前語音合成的最新進展
1. 關注the Blizzard Challenge, 語音合成的年度比賽,例如2016年的比賽結果http://festvox.org/blizzard/bc2016/blizzard2016_overview_paper.pdf
2. 關注interspeech,例如2016年interspeech上的論文http://www.isca-speech.org/archive/Interspeech_2016/index.html
3. 關於大公司如谷歌、百度、科大訊飛,以及相關研究機構/學校的進展如中科院、愛丁堡大學等
推薦閱讀:
※有bioinformatics, ML, 或者phd生涯問題的同學,可以私信我
※機器學習數學:最小二乘法
※機器能像人一樣思考嘛? 金句領讀137
※機器學習萌新必學的Top10演算法
※[貝葉斯九]之EM演算法