亞馬遜在年會上推出的TTS系統Polly能用24種語言說出47音色的聲音

在拉斯維加斯11月30日召開AWS(Amazon Web Services)的年會上,亞馬遜推出Amazon Polly服務。Amazon Polly是TTS(Text-to-Speech)技術服務平台。現在的文字轉語音技術都是發展的比較機械,沒有達到情感語音合成的地步。但是在娛樂,遊戲,公共廣播系統,學習輔助,電話,及個人助理等等有強烈的需求,要求更人性化流暢性的進行聲音輸出。國內的科大訊飛等也在一直致力於這方面的研究,並在11月23日的年會上推出的配音閣和訊飛快聽也是類似的應用。

Polly基於亞馬遜強大的雲平台支撐,可以在這個界面上進行文本轉換為逼真的語音,已經支持24種語言(沒有包括中文),並有47中音色調整。亞馬遜表示會增加更多的語言和音色。

Polly旨在解決現在語音生成面臨的很多挑戰。例如,在「I live in Seattle」和「Live from New York.」 裡面「live」的發音的差異。Polly會根據不同的語言和背景下應該判斷「St」怎麼讀,例如「street」 或者「saint」。還有Polly會根據語境和動作知道正在做什麼,例如可以處理單位,分數,縮寫,貨幣,日期,時間和其他複雜的帶方言的演講。

Polly系統是在各種語言進行拆分到單個音節進行標註訓練過的。只需提供文本,Polly就會提供自然流暢的聲音。如果有混合語種(英語語言中夾雜法語),你可以使用SSML(語音合成標記語言)提供給Polly額外的信息就行。但是只能支持文字輸入,還不支持音頻輸入。

文字輸入後就 可以點擊聽演講:

也可以保存生成的音頻MP3文件或者直接到應用程序中。還可以簡單地用文本和SSML調用語言合成的API功能。這樣可以直接流的輸出到用戶,生成MP3或Ogg文件進行播放應。Polly能夠產生高品質的(高達22 kHz的採樣率)的MP3或Vorbis格式的音頻。

您也可以使用 AWS Command Line Interface (CLI) 來生成聲音。例如:

這會加密傳輸所有SSL連接的數據 ,會存儲6個月以上,並用於維護和改進Polly。

現在每月可以使用Polly 免費處理500萬字。以後會 每個字元0.000004美元或0.004美元每分鐘音頻進行收費。相當於6.40美元(43元人民幣)的全文《三國演義》。

只是現在Polly只在美國的弗吉尼亞北部 、俄勒岡州、俄亥俄州和歐洲的愛爾蘭才發售。

推薦閱讀:

中國唯一領先全球10年的商用技術——語音智能
西方語音學為什麼不屬於語言學?
大紮好,我系訊飛語記,介四里沒有體驗過的船新版本......

TAG:亞馬遜Amazoncom | 語音 | 人工智慧 |