這年頭,連和尚也開始賣萌了?!

和尚為什麼不能賣萌?!

說起賣萌的和尚,不少人的第一反應可能是那部經典的動畫片《聰明的一休》。隨著大家對這類人群有了更多的理解、關注,以及影視製作手段和腦洞的更新,可愛、有趣的和尚形象以不同的方式出現在形形色色的藝術作品中。

但如果你真的遇上了一個很會賣萌的小和尚,除了摸摸他的小光頭,你還想說點啥?

這個小和尚,就是大名鼎鼎的賢二機器僧——

從漫畫和動畫里跳出來的賢二機器僧出身於卧虎藏龍的龍泉寺,不僅能夠和你對話一些日常問題,還能和你討論佛學佛理,甚至還會偷偷抱怨一下自己的師父。今天,AI公開課將繼續上一課華山論AI:氣宗還是劍宗更強? - 知乎專欄語音合成的內容,帶你了解萌萌的賢二是怎麼和你侃天說地的。

賢二機器僧是如何開口賣萌的?

想讓賢二和你聊天,其實需要兩個過程。第一個是語音庫的製作過程,第二個是使用語音庫將文本變成音頻的過程。

語音庫的製作首先需要收集對方的需求,確定音色、風格、使用領域、產品特性、角色要求;然後找到配音員試音,根據需求設計試音文本,收集錄音,通過實驗分析確定發音人是否合適做音庫;然後確認實驗效果是否能接受;最後投入音庫生產線,錄音腳本設計、錄音資源訓練、效果優化。

當賢二的語音庫製作完成之後,我們就可以考慮讓賢二怎麼開口啦。

在輸入文本後,首先需要按照詞典規則對文本進行語言處理。這個過程主要模擬我們真人怎麼去理解自然語言,主要目的是為了讓機器人能完全明白輸入的文本在說什麼,還要給出機器後面步驟的發音提示。

接著是韻律處理。人們在說話的時候,聲音會根據不同情況有所變化;合成音也需要規劃音高、音長和音強上的的音段特徵,聽起來更加自然、真實。最後根據前兩部分處理結果的要求輸出語音,即合成語音。

自90年代中期以來,在歷次的國內外語音合成評測中,科大訊飛各項關鍵指標均名列第一;在第二代賢二機器人研發的過程中,科大訊飛參與了語音合成的工作部分,提供了相應的技術支持和優化,可愛又智慧的賢二機器僧也凝聚著訊飛的一份力量。

圖片來源於賢二官網

機器賣萌都無壓力了,語音合成還有什麼要努力的地方?

上節課,我們為大家梳理了語音合成派的江湖歲月,從語音合成派的發展歷史來看,表現力、音質、複雜度和自然度一直是合成技術所追求的四點。

其中,隨著技術的演進,複雜度、自然度、音質三個方面都已經取得了非常不錯的成績。目前,語音合成給大家留下的最大問題仍然在於合成音的表現力,如何能讓合成音的語氣和情感更加貼近真實、自然?看來這還是需要繼續努力和研究的重點。

哪裡可以體驗語音合成技術?

在鎚子科技2017春季新品發布會上,一個叫做「模擬來電」的功能吸引了不少人的眼光。在某些比較尷尬的時刻,可以通過模擬來電功能設定來電時間、名稱、音色、方言,還可以自定義輸入來電內容,就能用一通以假亂真的電話幫你「逃離苦海」了。這項功能的技術提供來源於科大訊飛旗下的配音閣,一款能夠輕鬆讓你體驗語音合成、玩轉特色配音的應用。

課後問答精選

Q1:從尋找聲優錄音,到標註再到訓練,一個成熟的商業可用的語音合成的時間成本大概是多少?

A:時間成本最快1個月左右,不包括客戶安排配音員的時間。

Q2:在線合成語音,每千字需要多少流量,可用自建轉換的語音庫嗎?

A:一般人的語速是是每秒2—3個字,千字的話就是500s,如果是16k16bit的音頻,壓縮後就是1563k左右的音頻,加上2k左右的文本,以及消息冗餘,大概約等於1.5M 。

Q3:中英文混排的文檔,合成效果明顯沒有單獨英文的或者單獨中文的好,有沒有什麼優化技術?

A:中英文混讀對發音人要求較高,需要原始發音人是雙語的。訊飛在考慮製作雙語發音人。演算法層面也一直在優化,目前已經開放的支持中英文混合合成的發音人:xiaoyuan。

Q4:我想問關於情感語音合成的問題,我現在主要是在中性語音的基礎上修改參數來合成情感語音的,但是效果不是很明顯,想請問一下訊飛對情感語音合成有沒有現階段一個比較好的解決方案呢?

A:情感合成我們現在已經是支持的了,了解訊飛開放平台SDK的同學也應該已經看到了相關的設置介面。但如果大家有需求的話可以付費定製。

語音合成的課程暫時告一段落,但關於語音技術的學習仍在路上。不知各位學員有什麼學習心得?歡迎大家在下方留言區評論,提交學習感言,也可以告訴我們你們還想聽什麼課程內容~下堂課,我們再見啦!

---------------------------------------------------------------------------------------------------------

以上內容整理自訊飛開放平台技術服務專家汪艦在AI公開課中的內容

訊飛開放平台是全球首個面向移動開發者提供智能交互的服務平台,全面開放業界最領先的語音合成、語音識別、語音喚醒、人臉識別、麥克風陣列等10多項核心能力,支持「雲+端」全環境應用,引入移動廣告、個性化彩鈴、酒店預訂等優質變現能力,提供一站式解決方案,旨在構建全新移動互聯網語音及交互生態。截止到2017年1月,訊飛開放平台在線日服務量超30億人次,合作夥伴達到25萬家,用戶數超9.1億。詳情請點擊:訊飛開放平台-以語音交互為核心的人工智慧開放平台


推薦閱讀:

胖·師說|戊戌新年,三類小工具助力智慧學習

TAG:人工智慧 | 語音合成 | 科大訊飛 |