亞馬遜在年會上推出的TTS系統Polly能用24種語言說出47音色的聲音

04-12

在拉斯維加斯11月30日召開AWS(Amazon Web Services)的年會上，亞馬遜推出Amazon Polly服務。Amazon Polly是TTS（Text-to-Speech）技術服務平台。現在的文字轉語音技術都是發展的比較機械，沒有達到情感語音合成的地步。但是在娛樂，遊戲，公共廣播系統，學習輔助，電話，及個人助理等等有強烈的需求，要求更人性化流暢性的進行聲音輸出。國內的科大訊飛等也在一直致力於這方面的研究，並在11月23日的年會上推出的配音閣和訊飛快聽也是類似的應用。

Polly基於亞馬遜強大的雲平台支撐，可以在這個界面上進行文本轉換為逼真的語音，已經支持24種語言（沒有包括中文），並有47中音色調整。亞馬遜表示會增加更多的語言和音色。

Polly旨在解決現在語音生成面臨的很多挑戰。例如，在「I live in Seattle」和「Live from New York.」裡面「live」的發音的差異。Polly會根據不同的語言和背景下應該判斷「St」怎麼讀，例如「street」或者「saint」。還有Polly會根據語境和動作知道正在做什麼，例如可以處理單位，分數，縮寫，貨幣，日期，時間和其他複雜的帶方言的演講。

Polly系統是在各種語言進行拆分到單個音節進行標註訓練過的。只需提供文本，Polly就會提供自然流暢的聲音。如果有混合語種（英語語言中夾雜法語），你可以使用SSML（語音合成標記語言）提供給Polly額外的信息就行。但是只能支持文字輸入，還不支持音頻輸入。

文字輸入後就可以點擊聽演講：

也可以保存生成的音頻MP3文件或者直接到應用程序中。還可以簡單地用文本和SSML調用語言合成的API功能。這樣可以直接流的輸出到用戶，生成MP3或Ogg文件進行播放應。Polly能夠產生高品質的（高達22 kHz的採樣率）的MP3或Vorbis格式的音頻。

您也可以使用 AWS Command Line Interface (CLI) 來生成聲音。例如：

這會加密傳輸所有SSL連接的數據，會存儲6個月以上，並用於維護和改進Polly。

現在每月可以使用Polly 免費處理500萬字。以後會每個字元0.000004美元或0.004美元每分鐘音頻進行收費。相當於6.40美元（43元人民幣）的全文《三國演義》。

只是現在Polly只在美國的弗吉尼亞北部、俄勒岡州、俄亥俄州和歐洲的愛爾蘭才發售。