Vocaloid中文(洛天依)的聲音是如何採集的?

我覺得該不會是配音演員需要把每個字都讀一遍吧- =還是只是採樣?(可惡完全不知道話題該怎麼分類啊


談到錄製就要說到合成原理....

通過某些朋友的黑科技(其實在iv論壇上就有)我是拆過洛的音源包的。提取出的數據中顯示,洛天依是一款三音錄製中文vc cv與vcv輔助連續音源,採樣大約為7600個。這個數量在應該算是v界最高的....當然,之後的言和比這個還要多一點。

這裡解釋一下三音錄製vcv是什麼。vocaloid如果按照 @陳捷 先生所說的方法,基本沒戲。如果稍微搜索一下可以知道,在語音合成上叫這種方式為psola合成,是上世紀八十年代左右的技術。目前的語音合成技術,很難達到對於單獨輔音和母音的完美拼接,尤其是輔音與母音之間的過渡部分。簡單來說,接點越多效果越不好,接點放在元輔音之間尤為不好。

為了降低接點的數量,vocaloid採用了一種在utau中稱為「連續音」的採樣方式。下面在下將通過一個簡單的演示說明連續音。

一句普通的「我有一個夢想」

wo you yi ge meng xiang

連續音拆解方法1 wo+ o-yo+ou-i+i-ge+e-me+eng-xia+ang vcv

拆解方法2 wo-i+iou-i+i-g+ge-m+meng-x+xiang cvc

拆解方法3 wo+o-i+io+ou-i+i-g+ge+e-m+me+eng-x+xiang cv-vc或叫做vc-cv

8.5更正

我八成認識樓下的father yang,但father yang這個用戶名從來沒見過....

他說的大部分是對的,但不能說完全對。

首先是vcv的話大概在cvvc的3倍左右...我曾經嘗試設計過一個vcv中文音表(當然失敗了...),成品的數量在4800個錄音/每音高左右吧。而cvvc大概在1600個錄音/每音高左右。

洛天依和言和的採樣數量是有據可查的,洛天依7748個,言和7746個。平均下來,每個音高上有2580個左右的採樣。這顯然不及vcv(是我分析不足)但也顯然超過一般的cvvc。

這是由於洛天依和言和中出現了多母音連續採樣(vcvcvcv這種結構。)和延長區段區分採樣。

這麼一說感覺好裝x(不知乎)的樣子......我儘可能簡單滴解釋一下。

1:多母音連續採樣:

這是vocaloid3以後才被加入到vocaloid音源中的。這種想法據說來源於utau(另一款人聲合成軟體)。道理很簡單,普通的以上說的那種合成方式,如果效果不好怎麼辦?

那就錄出來一個連續的增強下效果撒~

當然實際的原因可能不止這些。比如project575的二位(vocaloid史上最小音庫,每人平均460個音)也採用了許多多母音連續採樣,這可能是因為應用在ios上,會出現許多重複使用的語言段落的緣故(音樂遊戲中的對話什麼的,你懂)

2:延長區段區分採樣

這個可以舉個例子了。

比如ai,你是讀成aaaaaai好呢,還是aiiiiiii好呢?

顯然需要兩個不同的採樣來分別應付這兩種情況。(當然這其實應該算作是音標設計中應該考慮的部分吧。。。。)

再有,回father yang,採樣的文件大小只有220mb,剩下的都是.frm2的包絡控制文件。而且陳捷先生指出的論文是十分正確的,那個就是vocaloid的開發者撰寫的關於vocaloid原理的論文,在此感謝陳捷先生。不過應當指出的是論文中隱藏了許多雅馬哈在合成中使用的演算法,這一部分大概應該算作是機密吧。

當然,原理是永遠不可能成為秘密的。

如果想簡單的了解下原理,請移步下面的鏈接:

【科普向】Vocaloid原理「揭秘」_iVocaloid論壇

感謝sleepwalking在vocaloid及相關人聲合成(rocaloid)方面的研究與貢獻。


說機密我就笑了,參考一下Wiki的介紹 Vocaloid, 這是Music Technology Group的Jordi Bonada 帶頭的小組給Yamaha做的產品。樓上說的沒錯,這個東西說簡單了就是錄輔音和母音,然後用Concatenative synthesis 將採樣連接起來,但這裡面的技術細節可難得去了。隨便說幾點,錄的母音採樣要根據音符的時值做伸縮吧?輔音和母音的採樣不是拿來拼一起就完事的,要做平滑。這些細節的難度常人是無法想像的。


如何採集的:用麥克風采集的【x

回樓主,不嚴謹的說,是至少把所有可能的音節讀了一遍(有很多字是同音的,所以我們不看字,看發音),中文整體音節有400多個。但是錄製切分的時候還有一些選擇性,實際是被分成由各種各樣的「發音組合塊」,在合成的時候自動取用。

發音組合塊有那些呢?這就取決於語言本身有哪些,以及要採用的合成方案。合成的時候使用謎之技術把母音之間混一混,輔音之間接一接,就出來了。當然謎之技術相當高端。

這一塊需要一些語音學姿勢,這是一座大坑所以就不細說了……

然後說VCV的please面壁去……VCV的話音庫不是4G而是40G至少……拆開了聽仔細了么……

這裡是中文對應VCV的表:中文暴力連續音(VvCAVv)錄音表_farter_新浪博客

Vocaloid2起所有語言一直都是廣義CV+VC(+VV)(實際應該是C123+23C+23123,他們應該還沒囧到C123+123C+123123)。在他們的中文方案中,整個韻母並成一坨(而不像韓語聲庫韻頭韻腹為一坨,韻尾為一坨,估計因為韓語有mnNptkl`七種韻尾已經被嚇尿了,同樣西班牙語也是分開的輔音+j w介音+aeiou+I U n尾音),y、w聲母都是視作零聲母音節的,也就是沒有輔音的純母音(這也正是我覺得他們作死的地方)。這樣一來便會出現後者拼音開頭是y、w,前者是一個部分母音的兩個發音在一起作為一個塊,這是VV塊不是VCV好么……

更新

另一位說,「輔音和母音」……不知這是一個對錄音內容的概括還是表示錄製結構就是「輔音」和「母音」,直接輔音和母音中間連起來當然翔當的難。

他們也沒高端到那個程度,當然是母音之間連,輔音之間位置接好。

並且,輔音長度是需要調的。

再更新,把評論搬上來……

以[C123]表示中文音節結構的話,[C123]有400+個,[123]有34個,[23]有25個,[C]有21個,於是VC部分,即[23]*[C]就是500+個,而VV部分就有[23]*[123]就是850個,快趕上前面兩種的和了,如果算大致波形長短的話還得算兩份,也就是這一部分可能佔了整個聲庫大小的2/3……造成的問題,除了硬碟君,採樣量這麼大了之後中之人發音抽風的可能性就大大增加了(事實也是這樣(辛苦的山攻攻[蠟燭]))。

實踐中權衡得到的實用的方法……就是把y w韻頭看成聲母歸入C,這樣就只有C123+23C+2323了,這也就是UTAU中文歌聲目前用的方法(加上部分23C1)。


嘛,我用某位菊苣的程序拆過ddb…我說一下吧

從拆解的Voice Bank(後統稱VB)的結構來看,一個VB裡面有拓展名為. snd的raw的音頻文件,這裡就是所謂的,採樣音頻,一般的播放器和解碼器都識別不了,我嘗試了很多軟體,只有golgwave 可以打開。

從. snd文件的形式上分析,VB製程是這樣的↓

錄音

製作類似於oto的東西。也就是一個音素統計,包括某個採樣上有什麼東西,比如:

zhuang 這個錄音里,可以提取出: zhw wang ang。

根據oto剪輯採樣。

這一步就很迷了…不知道這個步驟是幹什麼的…直接讀取oto就好了啊,わざわざ寫個程序去分割不累嗎…

採樣種類其實很簡單,就是:CV, VCV, CVVC。這三種。

CV用於每個字,vcv用於母音銜接,cvvc用於母音接輔音。

不存在用VCCV的樣子,按照我理解的VCCV,拼字要這樣:zhuang=zhw+_wang+_ang,如果還有別的字,那就是_ang換成ang C。

VCCV一般適用於,發音種類繁多,發音數量不確定的語言…你想想英語,雖然有48音標,但是音標的組合,以及,合成時需要的發音,是不確定的,我們只能盡量完整的采出連續片段和已知音素,保證合成質量…漢語可以用,但是…emmm沒必要吧…拆音越複雜,修整包絡就越麻煩…

再說說,採樣質量吧,誒講真的我一直以為Vocaloid 的VB,都是專業公司在做,錄音質量會很高,但是聽了幾個歌手…甚至有些歌手的採樣聽起來會…掉幀…媽也


推薦閱讀:

如何看待Vsinger樂正綾的試聽曲 Scarlet Drop?
《萬神紀》為什麼沒有《九九八十一》火?
如何評價禾念,平四,望乘目前的運營?
為何中文vocaloid對商業內容與商業化如此反感?
如何評價17年6月17日晚Vsinger演唱會中徵羽摩柯和墨清弦的首次發聲?

TAG:VOCALOID | 洛天依 | 音樂技術 |