Vocaloid中文（洛天依）的聲音是如何採集的？

01-06

我覺得該不會是配音演員需要把每個字都讀一遍吧－＝還是只是採樣？（可惡完全不知道話題該怎麼分類啊

談到錄製就要說到合成原理....

通過某些朋友的黑科技（其實在iv論壇上就有）我是拆過洛的音源包的。提取出的數據中顯示，洛天依是一款三音錄製中文vc cv與vcv輔助連續音源，採樣大約為7600個。這個數量在應該算是v界最高的....當然，之後的言和比這個還要多一點。

這裡解釋一下三音錄製vcv是什麼。vocaloid如果按照 @陳捷先生所說的方法，基本沒戲。如果稍微搜索一下可以知道，在語音合成上叫這種方式為psola合成，是上世紀八十年代左右的技術。目前的語音合成技術，很難達到對於單獨輔音和母音的完美拼接，尤其是輔音與母音之間的過渡部分。簡單來說，接點越多效果越不好，接點放在元輔音之間尤為不好。

為了降低接點的數量，vocaloid採用了一種在utau中稱為「連續音」的採樣方式。下面在下將通過一個簡單的演示說明連續音。

一句普通的「我有一個夢想」

wo you yi ge meng xiang

連續音拆解方法1 wo+ o-yo+ou-i+i-ge+e-me+eng-xia+ang vcv

拆解方法2 wo-i+iou-i+i-g+ge-m+meng-x+xiang cvc

拆解方法3 wo+o-i+io+ou-i+i-g+ge+e-m+me+eng-x+xiang cv-vc或叫做vc-cv

8.5更正

我八成認識樓下的father yang，但father yang這個用戶名從來沒見過....

他說的大部分是對的，但不能說完全對。

首先是vcv的話大概在cvvc的3倍左右...我曾經嘗試設計過一個vcv中文音表（當然失敗了...），成品的數量在4800個錄音/每音高左右吧。而cvvc大概在1600個錄音/每音高左右。

洛天依和言和的採樣數量是有據可查的，洛天依7748個，言和7746個。平均下來，每個音高上有2580個左右的採樣。這顯然不及vcv（是我分析不足）但也顯然超過一般的cvvc。

這是由於洛天依和言和中出現了多母音連續採樣（vcvcvcv這種結構。）和延長區段區分採樣。

這麼一說感覺好裝x（不知乎）的樣子......我儘可能簡單滴解釋一下。

1：多母音連續採樣:

這是vocaloid3以後才被加入到vocaloid音源中的。這種想法據說來源於utau（另一款人聲合成軟體）。道理很簡單，普通的以上說的那種合成方式，如果效果不好怎麼辦？

那就錄出來一個連續的增強下效果撒~

當然實際的原因可能不止這些。比如project575的二位（vocaloid史上最小音庫，每人平均460個音）也採用了許多多母音連續採樣，這可能是因為應用在ios上，會出現許多重複使用的語言段落的緣故（音樂遊戲中的對話什麼的，你懂）

2：延長區段區分採樣

這個可以舉個例子了。

比如ai，你是讀成aaaaaai好呢，還是aiiiiiii好呢？

顯然需要兩個不同的採樣來分別應付這兩種情況。（當然這其實應該算作是音標設計中應該考慮的部分吧。。。。）

再有，回father yang，採樣的文件大小只有220mb，剩下的都是.frm2的包絡控制文件。而且陳捷先生指出的論文是十分正確的，那個就是vocaloid的開發者撰寫的關於vocaloid原理的論文，在此感謝陳捷先生。不過應當指出的是論文中隱藏了許多雅馬哈在合成中使用的演算法，這一部分大概應該算作是機密吧。

當然，原理是永遠不可能成為秘密的。

如果想簡單的了解下原理，請移步下面的鏈接：

【科普向】Vocaloid原理「揭秘」_iVocaloid論壇

感謝sleepwalking在vocaloid及相關人聲合成（rocaloid）方面的研究與貢獻。

說機密我就笑了，參考一下Wiki的介紹 Vocaloid，這是Music Technology Group的Jordi Bonada 帶頭的小組給Yamaha做的產品。樓上說的沒錯，這個東西說簡單了就是錄輔音和母音，然後用Concatenative synthesis 將採樣連接起來，但這裡面的技術細節可難得去了。隨便說幾點，錄的母音採樣要根據音符的時值做伸縮吧？輔音和母音的採樣不是拿來拼一起就完事的，要做平滑。這些細節的難度常人是無法想像的。

如何採集的：用麥克風采集的【x

回樓主，不嚴謹的說，是至少把所有可能的音節讀了一遍（有很多字是同音的，所以我們不看字，看發音），中文整體音節有400多個。但是錄製切分的時候還有一些選擇性，實際是被分成由各種各樣的「發音組合塊」，在合成的時候自動取用。

發音組合塊有那些呢？這就取決於語言本身有哪些，以及要採用的合成方案。合成的時候使用謎之技術把母音之間混一混，輔音之間接一接，就出來了。當然謎之技術相當高端。

這一塊需要一些語音學姿勢，這是一座大坑所以就不細說了……

然後說VCV的please面壁去……VCV的話音庫不是4G而是40G至少……拆開了聽仔細了么……

這裡是中文對應VCV的表：中文暴力連續音（VvCAVv）錄音表_farter_新浪博客

Vocaloid2起所有語言一直都是廣義CV+VC（+VV）（實際應該是C123+23C+23123，他們應該還沒囧到C123+123C+123123）。在他們的中文方案中，整個韻母並成一坨（而不像韓語聲庫韻頭韻腹為一坨，韻尾為一坨，估計因為韓語有mnNptkl`七種韻尾已經被嚇尿了，同樣西班牙語也是分開的輔音+j w介音+aeiou+I U n尾音），y、w聲母都是視作零聲母音節的，也就是沒有輔音的純母音（這也正是我覺得他們作死的地方）。這樣一來便會出現後者拼音開頭是y、w，前者是一個部分母音的兩個發音在一起作為一個塊，這是VV塊不是VCV好么……

更新

另一位說，「輔音和母音」……不知這是一個對錄音內容的概括還是表示錄製結構就是「輔音」和「母音」，直接輔音和母音中間連起來當然翔當的難。

他們也沒高端到那個程度，當然是母音之間連，輔音之間位置接好。

並且，輔音長度是需要調的。

再更新，把評論搬上來……

以[C123]表示中文音節結構的話，[C123]有400+個，[123]有34個，[23]有25個，[C]有21個，於是VC部分，即[23]*[C]就是500+個，而VV部分就有[23]*[123]就是850個，快趕上前面兩種的和了，如果算大致波形長短的話還得算兩份，也就是這一部分可能佔了整個聲庫大小的2/3……造成的問題，除了硬碟君，採樣量這麼大了之後中之人發音抽風的可能性就大大增加了（事實也是這樣（辛苦的山攻攻[蠟燭]））。

實踐中權衡得到的實用的方法……就是把y w韻頭看成聲母歸入C，這樣就只有C123+23C+2323了，這也就是UTAU中文歌聲目前用的方法（加上部分23C1）。

嘛，我用某位菊苣的程序拆過ddb…我說一下吧

從拆解的Voice Bank（後統稱VB）的結構來看，一個VB裡面有拓展名為. snd的raw的音頻文件，這裡就是所謂的，採樣音頻，一般的播放器和解碼器都識別不了，我嘗試了很多軟體，只有golgwave 可以打開。

從. snd文件的形式上分析，VB製程是這樣的↓

錄音

↓

製作類似於oto的東西。也就是一個音素統計，包括某個採樣上有什麼東西，比如：

zhuang 這個錄音里，可以提取出: zhw wang ang。

↓

根據oto剪輯採樣。

這一步就很迷了…不知道這個步驟是幹什麼的…直接讀取oto就好了啊，わざわざ寫個程序去分割不累嗎…

採樣種類其實很簡單，就是：CV, VCV, CVVC。這三種。

CV用於每個字，vcv用於母音銜接，cvvc用於母音接輔音。

不存在用VCCV的樣子，按照我理解的VCCV，拼字要這樣：zhuang=zhw+_wang+_ang，如果還有別的字，那就是_ang換成ang C。

VCCV一般適用於，發音種類繁多，發音數量不確定的語言…你想想英語，雖然有48音標，但是音標的組合，以及，合成時需要的發音，是不確定的，我們只能盡量完整的采出連續片段和已知音素，保證合成質量…漢語可以用，但是…emmm沒必要吧…拆音越複雜，修整包絡就越麻煩…

再說說，採樣質量吧，誒講真的我一直以為Vocaloid 的VB，都是專業公司在做，錄音質量會很高，但是聽了幾個歌手…甚至有些歌手的採樣聽起來會…掉幀…媽也