為什麼使用CeVIO Creative Studio製作的歌曲聽上去比Vocaloid製作的歌曲更加自然？

12-13

【佐藤莎莎拉】片翼之鳥【海貓鳴泣之時OPCover】Short Ver.

非大觸的看法：這個問題應分為幾個層面第一：技術或者說原理
CeVIO的引擎是hts-engine ，詳見 http://tieba.baidu.com/p/2537147807
簡單的來說，cevio的原理應該是概念合成，是採用HMM模型先訓練建模，它的聲源應該是一堆參數，主要是告訴軟體這個歌手聲音的波形長什麼樣，有什麼特點，然後cevio就根據聲源進行合成。至於為什麼這麼逼真，一是這個聲音的概念模型建的好，和cv的幾乎一樣，這是它的先天優勢。也就是說，如果讓cevio使用v+的聲庫，合成效果一樣渣。。。。而vocaloid，它的原理其實是聲音片段的拼接，把一個個音或音節組合成樂句和歌曲，首先聲庫本身的機械音就很重，這就制約了它的合成質量。其次，在拼接的過程中，技術也很重要。不是把一堆亂七八糟的母音輔音接在一起就可以了。人在唱歌時兩個音之間是有音高的複雜變化的，同時隨著感情的變化，力度和音高也會變化，cevio就很好的處理了這幾個問題，vocaloid則放心的交給使用者處理，so。。。。一句話：cevio像是一個高超的捏粘土大師，vocaloid只會拼拼圖。
第二個方面，前面提到真人在演唱時的聲音變化，cevio牛就牛在這裡。它有強大的自帶參數。如果你用過正式版帶參的cevio，它的各個參數都是很精妙的，如果把它的參數去掉，莎莎拉的聲音也不見得很真實，可能像你學機器人說話一樣。。。。。 vocaloid是讓使用者自己調參，當然也有調的好的，比如這個 http://www.bilibili.com/video/av11156/
是我目前看過的最強的神調教，400P大神的，但是這種大神畢竟少，大部分p主都不追求神調，只是把聲音調到「能聽」，但自然有很多人覺得好聽
所以，cevio僅僅「像」還不夠，還要有驚人的作品，因此還需努力啊

說下個人見解，目前我在做相關學學習(現在的層次不敢說自己是研究)
首先vocaloid是基於音頻片段拼接的，採樣的樣本就是音頻本身
而cevio可能是基於發音語音學和物理語音學的，這點題主可以百度百科下語音學
這種建模方式是構建了一個虛擬喉嚨模型，其實本來打算自己寫一個這樣的演算法，想要看看是否比基於音頻拼接的效果更好，結果懷疑是否和cevio不謀而合。。。

首先個人理解， vocaloid因為基於音頻採樣拼接，所以其音質的清晰度基本上可以直接和錄音的音質水平掛鉤（現在錄製一段歌手的聲音，設備差不多到位了音質基本上都說的過去吧），但是者帶來的一個問題就是，其音色本身機械單一。
這裡提出一個簡化的模型，語音給你帶來的感受以及感情色彩主要由以下幾個部分組成
1：低次音色主要是分布在較低次諧波，產生的效果是你能聽清這個人說的是什麼，比如說你聽到的是「a"而不是」i「這個音。
2：高次音色主要是分布在較高次諧波上，這個音色主要體現在，一個人是在吼？還是在低語？興奮還是哭泣低落？還有一個人在高音段唱歌時，你會聽到這個人實在努力的往上，而不是詭異的變調器帶來的效果，這些都是高次音色帶來的效果。
3.音高，你能聽出一個人的語調也就是因為這個，疑問上升語調，還有中文的四聲等等，以及低沉的聲音給你一種詭異感。
4.響度，你在說話的時候絕對不是大小一模一樣的吧，隨便說點什麼錄音之後發現你的波形峰谷值總是在變化的，也就是波形的振幅是變化的，這些也能體現感情色彩，比如說老師的怒喝會把你嚇尿233
拋去低次音色（因為這個主要是為了辨識這個人說的是什麼東西），帶給你的聽覺感受和感情色彩主要由後三者構成。
好，那麼我們現在來比較一下vocaloid和cevio這兩者的合成模型
vocaloid能搞定1 3 4,但是2他是怎麼也搞不定的，除非它把所有可能的音色都錄一遍，然後定義一個多維度的空間，比如說（興奮係數，嘶吼係數。。。）任何一種發音的情況都是這一組不同維度上的值的線性組合（比如說你高興的吼了一句，興奮度80 嘶吼度 50），然後對這些音色進行線性插值來得到，但是實際上真的會這麼簡單么？實際上的情況可能遠比理想中的模型複雜，找到一個合理的模型又需要一大波次採樣研究，音色很可能不一定是線性插值得到的。。。也就是說直接插值可能導致音色很詭異（自行腦補人一般不可能發出的效果）而且錄那麼多的音色無疑加大了vocaloid音庫的工作量。。所以現在基本上次級音色都是單一的（雖然append包里有不同的版本，但是每個版本音色就是那一種吧），最多通過後期處理稍微改一下聽的效果，使人聲聽起來圓潤一些，這差不多可以歸結到常規混音的範疇了
cevio
至於母音過度，vocaloid是錄出來的，這點可以類比UTAU，你做過聲庫就知道，通過這種方式的母音過渡就是你本身發出這個音的方式
而cevio要想做到這一點，舉個例子，你說a，然後轉換到i
cevio的模型需要知道a，i的嘴型，以及發聲體的情況，以及在中間轉換的嘴型
然後計算變化中每個離散時間點的狀態，根據這個模型，去計算聲帶發出的低次音色變化發出的聲波，然後再口腔中的反射，最後才得出要的聲音
這個技術難度也是很大的，畢竟想要精確的得到人發音轉換的喉嚨和口腔（唇，鄂，鼻等這些器官的情況，還是需要實驗很多次的，而且精度不一定可以保證。。。所以現在有停頓我認為是模型設計的不是太準確
但是我認為，cevio的合成引擎，是只要得到了一個人的喉嚨參數，是可以發出你能發出的任何音的，只要這個音是在人類喉嚨，唇，鄂處於某種情況下發出的，這種合成模式就可以做到，而不像vocaloid受語言的限制，你用日語調中文中覺得變扭。。