為什麼使用CeVIO Creative Studio製作的歌曲聽上去比Vocaloid製作的歌曲更加自然?
12-13
【佐藤莎莎拉】片翼之鳥【海貓鳴泣之時OPCover】Short Ver.
非大觸的看法:這個問題應分為幾個層面 第一:技術或者說原理
CeVIO的引擎是hts-engine ,詳見 http://tieba.baidu.com/p/2537147807
簡單的來說,cevio的原理應該是概念合成,是採用HMM模型先訓練建模,它的聲源應該是一堆參數,主要是告訴軟體這個歌手聲音的波形長什麼樣,有什麼特點,然後cevio就根據聲源進行合成。至於為什麼這麼逼真,一是這個聲音的概念模型建的好,和cv的幾乎一樣,這是它的先天優勢。也就是說,如果讓cevio使用v+的聲庫,合成效果一樣渣。。。。 而vocaloid,它的原理其實是聲音片段的拼接,把一個個音或音節組合成樂句和歌曲,首先聲庫本身的機械音就很重,這就制約了它的合成質量。其次,在拼接的過程中,技術也很重要。不是把一堆亂七八糟的母音輔音接在一起就可以了。人在唱歌時兩個音之間是有音高的複雜變化的,同時隨著感情的變化,力度和音高也會變化,cevio就很好的處理了這幾個問題,vocaloid則放心的交給使用者處理,so。。。。 一句話:cevio像是一個高超的捏粘土大師,vocaloid只會拼拼圖。
第二個方面,前面提到真人在演唱時的聲音變化,cevio牛就牛在這裡。它有強大的自帶參數。如果你用過正式版帶參的cevio,它的各個參數都是很精妙的,如果把它的參數去掉,莎莎拉的聲音也不見得很真實,可能像你學機器人說話一樣。。。。。 vocaloid是讓使用者自己調參,當然也有調的好的,比如這個 http://www.bilibili.com/video/av11156/
是我目前看過的最強的神調教,400P大神的,但是這種大神畢竟少,大部分p主都不追求神調,只是把聲音調到「能聽」,但自然有很多人覺得好聽
所以,cevio僅僅「像」還不夠,還要有驚人的作品,因此還需努力啊
說下個人見解,目前我在做相關學學習(現在的層次不敢說自己是研究)
首先vocaloid是基於音頻片段拼接的,採樣的樣本就是音頻本身
而cevio可能是基於發音語音學和物理語音學的,這點題主可以百度百科下語音學
這種建模方式是構建了一個虛擬喉嚨模型,其實本來打算自己寫一個這樣的演算法,想要看看是否比基於音頻拼接的效果更好,結果懷疑是否和cevio不謀而合。。。
這裡提出一個簡化的模型,語音給你帶來的感受以及感情色彩主要由以下幾個部分組成
1:低次音色 主要是分布在較低次諧波,產生的效果是你能聽清這個人說的是什麼,比如說你聽到的是「a"而不是」i「這個音。
2:高次音色 主要是分布在較高次諧波上,這個音色主要體現在,一個人是在吼?還是在低語?興奮還是哭泣低落?還有一個人在高音段唱歌時,你會聽到這個人實在努力的往上,而不是詭異的變調器帶來的效果,這些都是高次音色帶來的效果。
3.音高,你能聽出一個人的語調也就是因為這個,疑問上升語調,還有中文的四聲等等,以及低沉的聲音給你一種詭異感。
4.響度,你在說話的時候絕對不是大小一模一樣的吧,隨便說點什麼錄音之後發現你的波形峰谷值總是在變化的,也就是波形的振幅是變化的,這些也能體現感情色彩,比如說老師的怒喝會把你嚇尿233
拋去低次音色(因為這個主要是為了辨識這個人說的是什麼東西),帶給你的聽覺感受和感情色彩主要由後三者構成。
好,那麼我們現在來比較一下vocaloid和cevio這兩者的合成模型
vocaloid能搞定1 3 4,但是2他是怎麼也搞不定的,除非它把所有可能的音色都錄一遍,然後定義一個多維度的空間,比如說(興奮係數,嘶吼係數。。。)任何一種發音的情況都是這一組不同維度上的值的線性組合(比如說你高興的吼了一句,興奮度80 嘶吼度 50),然後對這些音色進行線性插值來得到,但是實際上真的會這麼簡單么?實際上的情況可能遠比理想中的模型複雜,找到一個合理的模型又需要一大波次採樣研究,音色很可能不一定是線性插值得到的。。。也就是說直接插值可能導致音色很詭異(自行腦補人一般不可能發出的效果)而且錄那麼多的音色無疑加大了vocaloid音庫的工作量。。所以現在基本上次級音色都是單一的(雖然append包里有不同的版本,但是每個版本音色就是那一種吧),最多通過後期處理稍微改一下聽的效果,使人聲聽起來圓潤一些,這差不多可以歸結到常規混音的範疇了
cevio
至於母音過度,vocaloid是錄出來的,這點可以類比UTAU,你做過聲庫就知道,通過這種方式的母音過渡就是你本身發出這個音的方式
而cevio要想做到這一點,舉個例子,你說a,然後轉換到i
cevio的模型需要知道a,i的嘴型,以及發聲體的情況,以及在中間轉換的嘴型
然後計算變化中每個離散時間點的狀態,根據這個模型,去計算聲帶發出的低次音色變化發出的聲波,然後再口腔中的反射,最後才得出要的聲音
這個技術難度也是很大的,畢竟想要精確的得到人發音轉換的喉嚨和口腔(唇,鄂,鼻等這些器官的情況,還是需要實驗很多次的,而且精度不一定可以保證。。。所以現在有停頓我認為是模型設計的不是太準確
但是我認為,cevio的合成引擎,是只要得到了一個人的喉嚨參數,是可以發出你能發出的任何音的,只要這個音是在人類喉嚨,唇,鄂處於某種情況下發出的,這種合成模式就可以做到,而不像vocaloid受語言的限制,你用日語調中文中覺得變扭。。
推薦閱讀: