六種不同的人聲合成軟體各有什麼樣的特點，怎樣的特色？

01-22

vocaloid、utau、cevio creative studio、muta、sharpkey、裊裊這六種人聲合成軟體各有什麼樣的特點，怎樣的特色？

瀉藥

我總的還是往發音那塊說吧……

vocaloid如果音源做得好，

算是這裡面處理得最乾淨的，

聲音一般都經得起調教和後期的各種蹂躪

默認輸入低音沒聲音或金坷垃高音上不去沒有點手段還真是救不起來［二哈］。

UTAU由於合成機制導致音質不怎麼好，

無論原聲音質如何也不會改善太多，

但好的原聲和差麥的對比起來差別還是有的，

儘可能保留採樣原特，直接暴力拚接加拉伸的合成的方案，使得聲庫默認發聲很多時候還是不錯的，就是混音後期得遷就vocal，聲音不耐後期大搞作。（如果不在意金坷垃音質的話例外）

裊裊

理論上余裊裊/琴歌應該是這個引擎內製作最有保障的兩個聲庫？

余裊裊發音尚可，就是發音像綠壩娘（方正的幼女聲音），發音太白，三韻音（yuan/liang）拉伸效果時常悲劇。

琴歌就比較悲劇了，單音拼接的痕迹暴露得……

裊裊的合成出來的音質其實我一直覺得是可以的，起碼比utau單聲庫或沒做過修正的單音擴展聲庫好，裡面的參數能調製的東西其實也還好。

但！是！有沒有可控性穩定的聲庫呢？沒有。

CEVIO

cevio很好啊，比起上面的使用上簡直是被捧上天的感受了。

可是吧，它也有bug很難修的，例如日文的ti這個音，就沒幾個聲庫模型能發得自然的（x）

還有就是音質也是硬傷，畢竟是低模，細節上真是做得完全沒有（x）

MUTA

我覺得muta現在僅有的一直音源，一開始默認發音蜜汁像余裊裊的，音質和效果也不上余裊裊，拉伸發音問題倒是學得挺像。

2.0的網頁版用過一下，發現發音的細節上完善了很多，但是音質和帶n/ng還有別的一些音上本來有的基本都還在杯具，可能是製作的人喜歡南方人偏向的發音吧（鼻音會重很多），這種方向的話，模型精度提不起的情況下，是很難做好的感覺呢，畢竟這種發音上沒啥豐富細節來堆積掉本身技術無法掩蓋的不自然，想靠調教後期來救也是挺困難的。

sharpkey

發聲有人的氣息感。

咬字的話一開始有點覺得奇怪，聽過的應該也有些聲庫了，但咬字上的變化並不大，希望之後能聽到不一樣咬字審美的聲庫出現作為調劑品？

很好奇如果採樣是蘿莉音，合成出來是什麼樣子哈……

音質上次某雙馬鞭妹紙更新後好了許多撒

軟體上的自由度也非常大，就是快捷鍵啥的一直都沒有，切換模式得手點的覺得有點累。

摸過v，u，spk。分彆強答幾句。

v是最早的也是目前編輯器性能最優的一個，擁有聲庫有基本質量保證，參數豐富，教程和前輩很多，容易展開學習和討論。

u也是老牌了，不過似乎開發者很懶的樣子很長時間沒有優化編輯器，需要靠大量插件堆砌……聲庫也是五花八門種類繁多魚龍混雜，對於新手絲毫不友好。不過因為自製聲庫而擁有各種可能性。

spk是最近的新生國產，也是咱唯一看到讓人想摸的國產貨。全新的音素概念讓人眼前一亮，替換字腹採樣這種功能也給人很大的調教空間，開發者目前也在很勤奮的更新各種新東西出來，很讓人期待的好東西。