為什麼computer music會成為一個研究方向 ,或者說它到底是一個怎麼樣的學科?
它會涉及到CS中的哪一些具體知識呢?
第一次被邀請,好榮幸!
試著答一下我的看法,很多方面自己都不甚了解,所以歡迎補充和更正。計算機音樂是計算機相關技術與音樂相關學科的交叉領域,因此涵蓋了比較廣泛的內容。我認為其目的是讓計算機技術或者相關的可計算方法介入到音樂從創作到欣賞,從學習到分析的方方面面,從而簡化人的勞動。
按照音樂的傳播順序- 自動創作及輔助創作:自動創作是指計算機通過一定演算法作曲,輔助創作是指通過計算機簡化創作過程。
- 演算法作曲(Algorithmic composition): 通過演算法創作音樂,比如David Cope(http://artsites.ucsc.edu/faculty/cope/)做的是模仿特定作曲家風格的演算法作曲,在前面的鏈接里點擊「Listening Room」可以看到一些demo。
- DAW及相關工具: DAW就是Digital Audio Workstation,一些常用的編曲、混音軟體都可以計入此列。值得一提的是Band in a Box,這個軟體可以對樂曲進行多種風格的自動化編曲和配器,降低了創作門檻。除此之外還有一些帶有遊戲娛樂性質的軟體(或者app)也都可以稱作輔助創作的工具,比如ipad上的Garage Band里有所謂Smart Drum,只要簡單的把相應樂器拖動到一塊8*8的面板的某個位置上就可以完成打擊聲部的製作(該面板的縱坐標是響度,橫坐標是節奏複雜度)
- 樂器、電子音色和人聲合成: 合成樂器音色對於創作者來說提供了即寫即聽的便利,也降低了演奏成本(比請演奏家錄音便宜得多)。電子音色則是一個尚在探索中的領域,不過已經應用的很廣了,對於電子音樂(Electronic music)來說也是非常重要的,這個方面從硬體的到軟體的都有很多很有名的合成器。而人聲合成是另一個比較有趣的方面,日本Crypton公司為YAMAHA的Vocoloid平台開發的初音ミク是一款非常流行的歌聲合成插件,除此之外還有諸多類似人聲音源,這些音源的存在使得憑個人之力完成完整歌曲的製作成為可能。
- 音樂的存儲、檢索與傳播
- 存儲。存儲涉及到的主要是信號處理領域的技術,涉及到有損壓縮編碼和無損壓縮編碼。mp3是典型的有損編碼方式,這種編碼方法利用了人的聽覺系統很多特點,把聲音中人注意不到的部分適當省略,得到了很高的壓縮比。無損壓縮編碼一般利用了音樂本身的信息冗餘。(個人認為如果有辦法將音樂本身的知識或者結構性的特點引入壓縮和編碼過程,壓縮比應該還可以繼續提高,哈哈這個是隨便想想的@@)
- 檢索。檢索方面,主要是除了利用meta信息(歌名、歌手名等)以外的檢索方法。比如,通過哼唱旋律檢索,通過敲打節奏檢索,通過歌曲風格(情緒)檢索,以歌搜歌等等。
- 音樂的欣賞和分析
- 欣賞是通過回放設備將音樂重現,現代的電子音樂和流行音樂我不甚了解,但音樂會錄音的重現(聲場的重現)是個挺重要命題,在這個方面有很多努力,比如立體聲,比如人頭錄音等等。(這個可能和計算機音樂有點距離)
- 自動化評測。用計算機去鑒別作品版本好壞;用計算機去鑒別演奏者水平高低(可以用於器樂考級的自動化)。
- 分析。計算機分析音樂的結構、配器、情緒、情感。
暫時只想到這些,下面試著說一說其中涉及到的技術(遠不局限於CS)。
演算法作曲和創作相關的領域大量應用的是機器學習中的很多方法;合成樂器音色有的完全基於採樣,有的應用物理模型,但信號處理方面的知識是必需的;合成人聲方面,初音ミク用的是基於大量樣本的波形拼接,這樣的好處是音質有保證,如果使用其他的方法,那麼和語音合成類似,需要機器學習的知識;壓縮編碼、聲音回放等方面可能都會涉及到心理聲學和音樂心理學;而所有的領域都需要對音樂方面知識和經驗的了解。有一個MIR (Musical Information Retrieval)方面的比賽,叫做MIRex (MIREX HOME - MIREX Wiki),其中有很多任務,看一看這些任務也有助於了解學術上目前大家的關注點。(拋磚引玉)
上面李老師所說的是正式正統的理解。最上面的范梓野同學介紹了相關的工程方面的事情。
Computer Music應該算是Electronic Music裡帶出來的概念。但現在這個詞跟電子音樂一樣,有很廣義和草根的理解,不僅限於原來的一開始的學術,藝術和實驗的東西。比如現在什麼Computer Music Magazine(google可至其官網),就是跟設備,軟體,編曲相關的諮詢,跟學術的電子音樂就沒啥關係。但Computer Music Journal就不一樣,純學術,裡面所說的computer music概念所指的跟老百姓理解的廣義電腦音樂當然也就不是一個東西。所以要根據Computer Music當時所在的上下文去理解它所值的確切是哪個computer music,是流行的工業上的概念,還是學院學術的概念。舉個學術界computer music/electronic music作品的例子,John Cage的HPSCHD,平凡百姓可GOOGLE這個作品鍛煉一下computer music概念。該曲子的目的是隨機,創作途中運用了易經和Fortran編程。這麼些八竿子打不著的概念,把他們弄一塊,嗯。說到這就得說Music Technology這個概念,現在國外很多學校以這個來囊括他們項目的所有研究方向,目前大體包括
1)各種sound arts(合成等製造聲音途徑)相關詞:synthesis, 加法,減法,FM,granular, physical modeling,等等
2)MIR(音樂信息檢索)相關詞:machine learning, 哼唱檢索qbh,樂紋檢索,等 樓上的楊同學做的歌詞相關的研究與本條目走得更近3)DSP相關詞:太多了,這個領域什麼都與這個有一些關係4)(其他我想不出來和難以概括的,以及是上面幾項組合的,比如machine musicianship, network music, interactive music/HCI)上面的1)其實包含了很多的東西,只是我知識有限,羅列不出來,也想不出如何很好地向下分類,基本上偏藝術向的music technology就囊括在那裡,意會吧。
總之,這個很小很專很鑽很交叉的領域,裡面的人群和方向目前大體分兩類,即藝術向,工科向。比如上面的李老師應該算藝術向(從所處機構推測),包括我在內的所有其他人都是工科向。可以認為我們這些工科向所研發的東西大多是服務於流行解釋的computer music的,跟學術computer music一般沒關係,比如開發音樂軟體,硬體合成器(Meng Qi ,這是國內的模擬硬體合成器的一個DIY製作者,他的東西有時也可從學術意義理解)。
我比較熟悉工科向的Music Tech內容,可以多說一些。
羅列一些國外的Music Tech(有的就就叫computer music)機構, 並補充上我知道的信息:
IRCAM ,與electronic music相關度爆表的機構,藝術技術都做CCRMA,斯坦福的實驗室,當然也與electronic music緊密相關的一個研究中心,招碩士和博士,藝術和工程兩個方向都很有建樹,相關詞:Max Mathews, John Chowning, FM, waveguide, Ge Wang (Smule), Soundhound, ShazamUCSD,它有computer music系,招碩士博士,較偏藝術,系裡有miller puckette (pure data, max msp)UCSB,它的MAT中心下面有聲音相關的分支,裡面有Curtis Roads(The Computer Music Tutorial, granular systhesis),招碩士博士Mcgill,有computer music,招碩士博士,有MIR和感知的方向,我了解不多CMU,由Roger Dannenberg (Nyquist語言,score following)創立的computer music group,招碩士博士Georgia Tech,有music technology項目,招碩士博士,方向有機器人(machine musicianship/listening machine),MIR和network music。Dartmouth,digital musics項目,碩士(三年)和博士,只知道它有人做MIR,其他不了解。NYU,有computer music,了解不多。。西班牙的UPF,有個MTG組,招碩士博士,我覺得是個與工業結合挺緊密的地方,相關詞: reactable, Steinberg的一些產品,vocaloid的一些研究,CompMusic(他們系的頭的項目)
英國的queen mary, 做MIR,DSP順帶鏈接國產吉他採樣音源amplesound.net~
感謝邀請。最近剛完成一個流行歌詞機器生成的demo,稍微寫一下當做整理好了。(嘖嘖,這個題目有點大啊喵&>_&<
樓上的回答很具體,這裡作一點點補充。舉個例子,大概能粗略地讓您看到具體用到了哪些CS知識。如果覺得這些知識很煩請直接跳到最後虛線的部分……按一首歌曲的生成流程走。分成詞和曲兩個部分。
就說說歌詞生成的部分吧。
1)確定主題。提取用戶輸入的關鍵字信息。
2)生成歌詞。
自然語言處理的方向。涉及機器翻譯。用到CS的基礎有神經網路,遺傳演算法,鏈表,資料庫,各種表示模型。分成三部分,語料庫的建立,統計和計算各種相關度的輔助分析,模型建立和遺傳演算法的實現。首先是語料庫的處理。所有對於歌詞的研究都依賴於語料庫的質量。毫無疑問語料庫越大,能提供的信息就越多,最終的效果也會更好。但是,直接拿來的生語料是不可以用的,而目前比較完善的庫只有人民日報的通用語料庫和一些詩詞的庫。所以只好自己建一個。&>_&<
建庫是一個滿滿都是淚的過程……QAQQQQQQ1)語料庫的設計。這其實就是對於自己用的資料庫的設計。包括數據存儲格式,搜集範圍,保留的信息,甚至在做中文歌詞的時候還要注意編碼的問題。2)管理功能的實現。這部分就是一般的資料庫編程咯。如果你也做過什麼圖書管理系統啊航空訂票系統之類的。原理是差不多的。分詞和詞性、音韻信息的標註也可以在這部分實現。分詞可以參考這個博客里的幾篇:ICTCLAS代碼學習筆記之ContextStat類 。(天書一般的代碼啊捂臉哭&>_&<中科院和我們真的生存在一個世界裡嗎……3)成熟的語料庫結果。好吧經過各種程序從幾千首(嗯,一開始做的庫確實不大但是後續可以擴充訓練的嘛……)歌詞里提取後續要使用的信息和各種詞表,比如我就提取了:時間標誌,平均字長,韻腳,主題,情感……一堆有的沒的。詞表就更麻煩了,要用資料庫里的東西整理出同義詞詞林,反義詞詞林,同韻詞庫,語義庫等等。加上自己寫的程序最後到底是怎麼出結果的我也忘記了……(咳咳,我開玩笑的才沒忘呢別當真啊喂&>_&<)
輔助信息的計算。主要做的事情是信息的整合和統計。運用到的基本知識有數據挖掘,演算法設計,特徵表示模型的建立和文本分類。
1)數據挖掘和演算法設計主要用於頻繁關鍵字的抽取和共現度的計算。直白地說,就是發現詞和詞之間的關係。例如兩個詞在大量文本中出現的概率比較高,那麼這兩個詞很大的概率是可以放在一起組成片語的。因為計算量很大的關係,所以需要進行演算法設計和優化。2)特徵表示模型的建立和基於模型的文本分類。分類可以用的就是平常我們用的KNN,SVM,樸素貝葉斯。這些在類似的實驗里我都有看到過他們在用。
3)風格評判。涉及到函數的設計了。如何用函數評價一句話的韻律,如何用函數來計算歌詞的情感偏向。然後通過編程實現。遺傳演算法生成。根據遺傳演算法的思路生成結果。可以涉及到的有初始種群的生成,適應度計算,選擇、交叉、變異。為了句子的通順通常我們還需要計算語義相關度,我們的流行歌詞demo裡面用到的是簡單的二元模型,所以最後的效果不是很好。
-------------------------------------------------------我是哲學的分割線---------------------------------------------------------------
好吧其實一點都不哲學^_^。
跨領域的學科交叉是計算機發展的一個重要趨勢。不僅僅是音樂,情感、生命的計算也漸漸成為研究方向。
兩年前我第一次看到宋詞自動生成的時候曾經嗤之以鼻。心說詩詞歌賦這種東西,機器怎麼可能領悟得來,既然不能領悟,就算做出來也一定毫無意義。工科生還是不要鬧了吧。兩年之後我自己居然做了流行歌詞的自動生成。sigh,果然我文藝的心就如同黃河的水一樣一去不回頭了吧ORZ其實音樂的創作究竟是什麼呢。計算機能做到的是詞和詞的組合,音符和音符的組合。通過設置一些規則讓這些組合變得有意義。人類的創作,不一樣的地方就在於人類以為自己懂得那些詞的意思。我自然認為機器不可能代替人類的大腦,但我同樣也認為人類的大腦是運行良好的機器。(好繞@_@)哎呀說多了要跑題……結構好像有點亂。涉及的東西太多了每一個點都可以去查論文哪&>_&<。怎麼辦好。
有一些問題我自己也還沒有解決,如果對這方面有興趣可以私下找我討論哪。有不對的地方歡迎指正。(提起裙子屈膝禮~
computer music是非常有意思的一個研究方向哦~^_^~
Computer Music(計算機音樂) 是電子音樂( Electroacoustic Music、Electronic Music)發展的一個新階段,電子音樂的發展階段經歷過Concrete Music(具體音樂)、Tape Music(磁帶音樂)、合成器音樂、Computer Music(計算機音樂)等階段。
1949年舍費爾(PierreSchaeffer)創造了他的《為一個孤獨者所作的交響樂》,這是第一件具體音樂作品。「具體音樂」是採集自然音響,通過剪切、粘貼、變形等技術製作音樂。後來艾默特在德國建立電子音樂實驗室,不用外部聲音,只是利用電子振蕩器產生的正弦波發聲,通過調製、濾波等手段製作音樂(pure music)。1956年施托克豪森(Stockhausen)錄製了 《青年之聲》(Gesang Der Juenglinge),對人聲進行加工,其中既有具體音樂也有pure music,從此一位電子音樂巨星誕生。 1958年在布魯塞爾世界博覽會上,法國音樂家瓦列茲(Edgard Varese)把電子噪音和飛機的聲音拼貼在一起,創作出了電子音詩。60年代電子音樂進入合成器時代,合成器將聲音的產生、處理結合在一起,十分方便。計算機的發展使電子音樂進入新的時代。美國的麥林斯利用數字構成波形,產生音響。
這些新手段產生的聲音其實同其它天然樂器的聲音一樣,都是音樂家的物質材料。有了電子的手段產生的聲音,作曲家只是手中材料更豐富而已。當然並不是材料越多,藝術性越強;能否創作出優秀的藝術品還是要依靠音樂家的創造性與天分。
現在電子音樂主要有兩類:一是探索聲音可能性的、學術性、藝術性的專業電子音樂(藝術音樂);二是商業性、流行性的電子音樂(通俗音樂)。電子音樂對音樂發展影響很大,專業上主要指第一種。初音未來全揭秘(舊文,這篇顯然不是直接回答題主的問題的,不過應該對題主有間接幫助,所以也貼過來) 按:這是還在前東家扛長工時,N年前,給公司內部寫的調研報告。某日整理硬碟的時候翻了出來,因為是內部調研報告,所以不可避免的有網上其他文章的引用,(如有侵權部分我放棄版權,對全息投影部分擁有全部的版權)。所以在這裡共享出來還算是發揮點餘熱回報社會,有需要的自取。我不是電腦音樂專家,有技術錯誤輕噴。------------------------------------------------------------------------
一、初音的形成背景和相關生態系統開發現狀
初音未來(初音ミク,中文簡稱為「初音」,「初音」兩個字的含義是指「第一次的聲音(初めての音)」、「出發點」、「最初的VOCALOID2」;「ミク」漢字寫作「未來」,指「VOCALOID所象徵的將來音樂之可能性」)
初音未來是CRYPTON FUTURE MEDIA公司(下略作「CRYPTON」)以Yamaha公司的的VOCALOID 2語音合成引擎為基礎開發販售的虛擬女性歌手系列軟體。是VSTi規格的電子樂器。於2007年8月31日開始發售。
軟體使用了Yamaha的VOCALOID 2語音合成引擎,這個引擎將人類的聲音採樣為音色庫,使用者可以用這個軟體或者與電腦相連接的的MIDI設備合成為酷似真正的歌聲,使用時只需輸入音調、歌詞則可發出聲音,可以調整震音、音速等的「感情參數」,最多能夠16人合唱,也支持即時演奏。製作完成後會以WAV格式輸出。
但軟體本身只可做出歌唱部分,伴奏音聲需要使用其他音樂軟體合成。歌詞輸入能辨認平假名、片假名和羅馬字,但不能辨認は、へ作為助詞和う、い作為長音時會分別轉為わ、え、お、え的發音,亦不能對應促音、漢字,需要自行修改
VOCALOID 的最新一版「VOCALOID 3」在2011年9月正式發售。
VOCALOID的軟體構成:管理器(Manager)、主程序(System Standalone)、歌手音源庫(Library) 共三個部分。
CRYPTON公司中負責初音未來企劃的職員有三、四人,實際開發的則為佐佐木涉和另一位兼職員工。初音的形象角色由插畫家KEI以動漫風格設計人物及繪畫。
初音的音色庫由聲優藤田咲提供原聲。CRYPTON最初是想由專業的歌手提供聲音,然而大多數接到的歌手基於擔心聲音被複制後的用途以及將來的版權相關問題而拒絕,所以CRYPTON公司隨後才轉向為接觸聲優,但最初進展不太順利,聲優事務所大多不太明白軟體的用途,其後ARTSVISION事務所答應合作。
經過近500位聲優的選拔(包括動畫配音和旁白),最後啟用了藤田咲。藤田咲以「清楚而可愛」的印象錄音,錄音時是配合當時播放的音樂唱出一些無特別意義的片假名,經過某些電腦軟體的處理成為VOCALOID引擎可用的音色庫。
2010年3月9號晚間世嘉公司舉辦了一場名為「初音未來日的感謝祭」「初音之日」(Miku"s Day)的初音未來全息投影演唱會。由於「39」的日語發音跟「未來(ミク)」和英語的「謝謝(thank you)」相近,所以定該日舉行「ミクの感謝祭」,晚上時於Zepp Tokyo舉行了初音未來的個人演唱會。這場演唱會使得初音未來成為第一個使用全息投影技術舉辦演唱會的虛擬偶像。
演唱會異常火爆,2500張演唱會門票在瞬間被搶購一空,演唱日當晚更有超過3萬名忠實的粉絲通過付費網路直播觀看了整場演唱會。
整個演唱會時長131分鐘。從演唱會開始至4分40秒是演唱會的開場介紹,第4分40秒至10分鐘只有歌聲,第10分鐘3D虛擬人物的完美出場引起全場歡呼。
2011年3月9日舉行了東京演唱會,這次演唱會沒有使用全息投影。
2011年7月2日舉行了洛杉磯演唱會,這次演唱會使用了全息投影
2011年8月16日舉行了札幌演唱會。
2011年11月11日舉行了新加坡演唱會。
2012年3月8日舉行了東京演唱會,在中國上海舉行了同步直播。
二、初音所涉及的技術支撐簡介
1.MIDI音樂到底是什麼?
音樂之所以能用計算機處理,是因為音樂有信息的屬性。音樂的基本要素包括音高、音強、音長和音色等。音樂在一個特定物理區域的呈現還包括各個音軌(聲部)的空間位置。這些基本要素都可以通過信息的形式表示。
音高,從聲學的角度看就是基頻值。只要能依據基頻值產生對應的正弦波,就產生了音調。當然,這種音調顯得十分「單調」,那是因為沒有進行複雜的音色合成的緣故。
音強,從聲學的角度看就是振幅。只要能依據振幅產生對應的輸出電平,就可以控制聲音的強弱。
音長,顧名思義是音的持續時間。只要能依據節奏速度和時值計算出音的持續時間,就可以控制音的長短。當然,在一段音樂中,節奏速度可能是動態變化的,這時音的實際持續時間就需要稍微複雜一些的計算。
音色,從聲學的角度看是由高次諧波構成。樂器音色的千差萬別,都是高次諧波構成的不同造成的。這是計算機合成音樂工作中最困難的一點。
多聲部音樂在一個特定物理區域的呈現模式,是由聲場的分布參數決定的。聲場的分布參數不同,聽覺上各音軌在空間的排列位置就不同。
早期的計算機音樂,由於以孤立的研究為主,並沒有互操作的要求,所以在表示上是比較隨意的。
最早的互操作要求始於電子樂器介面。由於需要從一台電子設備向另一台電子設備發出指令,精確指定音樂(音高、音強、音長、音色和聲場分布參數等)要素,必須建立相應的數據交換標準。於是,數字樂器介面(Music Instrument Digital Interface,MIDI)規範就誕生了。請注意,MIDI是發聲指令而不是具體的音頻信號,因此它不是 「所聽即所得」的。不同的設備,對MIDI指令的解釋有很大差異,特別是在音色上。
計算機音樂是一個廣泛的技術領域。但是狹義理解的「計算機音樂」,指的卻是「計算機合成音樂」。
從前面的分析實際上不難看出,要製作計算機合成音樂,音高、音強和音長這三個要素都不是問題,只要一個「音序器」就解決了,但是音色卻是一個老大難問題。在早期,完成這個任務的是「電子合成器」,裡面預置了各種與所需樂器的音色對應的高次諧波參數,俗稱「波表」。但問題是,合成器一經產出,所有的音色參數就是確定的。所以,這種音色是基於硬體的,不僅不利於按需更換、動態載入,而且非常笨重。
隨著音效卡技術的不斷發展,音效卡的處理能力不斷提高,於是出現了一種可能,即把「音序器」 部分實現在音效卡里,而「波表」部分則作為可動態載入和按需替換的系統數據。後者也稱為「軟波表」。專業化音效卡加上軟波表,已經能夠以很低的成本取得接近合成器的音效,逐步成為計算機合成音樂的主流模式。軟波表的質量直接決定MIDI文件在系統中播放時的音色質量,軟波表的配置也已經成為操作系統配置的一個不可或缺的選項。
實際上,自然是最好的老師。與其通過直接預置高次諧波參數來模仿現有樂器的音色,不如直接對現有樂器的音色進行採樣,通過一定的插補計算來現場獲得更加逼真的高次諧波參數。這就提示了一種可能,即可以不再使用預置的高次諧波參數,而是由一個「插補演算法」和一個「音色庫」組成軟波表。插補演算法相對固定,而真正需要動態載入、按需替換的部分,其實就是「音色庫」。只要定義出音色庫的標準數據格式,不同的音色庫就可以互換,甚至可以互相融合,取長補短,創造出豐富多彩的組合音色來。而這種由「插補演算法」和「音色庫」聯合構成軟波表的方式,已經成為專業化計算機音樂合成的主流方式。音色庫的主要格式有SoundFont和GIGA兩種。用這兩種格式製作的大大小小的音色庫層出不窮,也已經出現一些針對中國民族樂器的不錯的音色庫。
與器樂相比,聲樂的計算機合成具有更大的難度。一方面,這涉及音樂合成技術與語音合成技術的交融和集成;另一方面,對特定演唱者的音色特徵的採樣和插補更為複雜。不過隨著技術的發展,這些問題也逐漸被攻克了。
2. TTS又是什麼?
TTS就是語音合成(Text to SpeechSynthesis)。
基於PC應用的TTS一般用純軟體實現,主要包括以下幾部分:
●文本分析-對輸入文本進行語言學分析,逐句進行辭彙的、語法的和語義的分析,以確定句子的低層結構和每個字的音素的組成,包括文本的斷句、字詞切分、多音字的處理、數字的處理、縮略語的處理等。
●語音合成-把處理好的文本所對應的單字或短語從語音合成庫中提取,把語言學描述轉化成言語波形。
●韻律處理-合成音質(Qualityof Synthetic Speech)是指語音合成系統所輸出的語音的質量,一般從清晰度(或可懂度)、自然度和連貫性等方面進行主觀評價。清晰度是正確聽辨有意義詞語的百分率;自然度用來評價合成語音音質是否接近人說話的聲音,合成詞語的語調是否自然; 連貫性用來評價合成語句是否流暢。
市場上的TTS很多,實現方式也各式各樣,有的是商業應用需要收費的且比較昂貴(個人使用免費),如科大訊飛;有的相對便宜,如捷通華聲, InfoTalk;也有免費的,如微軟和谷歌的TTS產品。
相對於ASR(Automatic Speech Recognition,自動語音識別)來說,實現一個TTS產品所需要的技術難度不算特別高,那麼其實現原理是怎樣的呢怎麼做呢?
如果要做一個最簡單的TTS系統,就是把每個字都念出來,你會問,豈不要錄製6千多個漢字的語音?幸運的是,漢語的音節很少,很多同音字。我們最多只是需要錄製: 聲母數×韻母數×4,(其實不是每個讀音都有4聲),這樣算來,最多只需要錄製幾百個語音就可以了。
在合成的時候需要一張漢字對應拼音的對照表,漢字拼音輸入法也依賴這張表,這樣做出來的TTS效果已經是可以接受的了,特別是朗讀一些沒有特別含義的如姓名,家庭住址,股票代碼等漢語句子,聽起來足夠清晰。這要歸功於漢語通常都是單音節,從古代的時候開始,每個漢字就有一個詞,表達一個意思。而且漢字不同於英語,英語裡面很多連讀,音調節奏變化很大,漢字就簡單多了。
當然,讀出的句子能讓人充分理解的話仍然要處理一些細節,比如多音字,把「銀行」讀成「yin xing」就不對了;再比如,標點符號的處理,數字、字母的處理。
國內的一些語音板卡帶的TTS,不管是收費的還是免費的,大體都是這樣做出來的,也就是這樣的效果,只不過有的是軟體,有的固化在了板卡里而已。早期的TTS一般採用專用的晶元實現,如德州儀器公司的TMS50C10/TMS50C57、飛利浦的PH84H36等,但主要用在家用電器或兒童玩具中。隨著PC性能的發展,現在基本已經全部是軟體了。
如果要把TTS的效果做的更好,就需要把基本的詞錄製成語音,如常見的兩字詞,四字成語等,再做個詞庫和語音庫的對照表,每次需要合成時到詞庫裡面找。這樣以詞為單位,比以字為單位,效果會好很多。當然,這裡面還是有個技術,就是分詞的技術,要把複雜的句子斷成合理的詞序列,科大訊飛等效果比較好的TTS在分詞演算法上面有自己的深厚積累,所以其TTS的效果比起別的軟體要好很多。
3. TTS和MIDI音樂的區別到底是什麼?
那麼一定會有人去問,TTS和MIDI人聲音色(如初音)到底有什麼區別?
在兩種技術發展的初期,區別還是比較大的,但隨著技術的發展,其實兩種技術越走越近了,
在某種意義上說,現在的TTS發音就是一種特殊的MIDI人聲樂器。
下邊簡單比較一下兩種技術的異同點。
相同點:錄製音色庫都是要以真人原聲為基礎的,經過採樣,將基本音節分開存儲,最後使用時將基本音節拼合形成發聲。好的TTS系統和MIDI人聲音色一樣支持各種語氣的編輯,語調的編輯,延時的編輯等等功能。
不同點:初音這樣的音色庫在錄製時需要按照音樂曲調錄製,也就是說需要將基礎音節的讀音按照「多來米法索拉西」的音調及三個八度的需要都記錄下來。而TTS只記錄平時說話的語調即可。所以TTS的音色庫一般都比較小,因為記錄的信息少。而初音這樣的音色庫都比較大,因為記錄的信息多。初音在使用的時候是將基本音節當做樂器來處理的,一切按照順序預先人工鋪好,類似於播放視頻。而TTS是經過計算機程序分詞之後調用相關基本音節形成讀音的,是實時處理的,類似於電腦遊戲。
說的通俗一點,MIDI是做音樂的,人聲樂器只是它的一個分支功能,並且只能按照曲譜或者彈奏來進行。 TTS是專門做文字轉聲音的一種專用系統,輸入了文字立刻就會有結果出來。
4. 初音是TTS還是MIDI?
其實上一段已經回答了這個問題,初音仍然算是一種MIDI,就是用MIDI人聲音色庫所形成的特殊語音合成。雖然初音輸入了文字和曲調之後就可以唱歌,這一點符合TTS的要求,但是TTS一般是不考慮音樂音調的。或者說初音是TTS和MIDI人聲樂器的跨界產品。譬如將來科大訊飛等公司的合成軟體一旦支持唱歌和曲調的輸入,那麼也可以看做是和初音一樣的跨界之作。不過目前各種TTS的公司都還沒有類似產品出現。
所以這也是初音為什麼能在日本火起來的群眾基礎。
為什麼這樣說呢?初音這個形象之所以能夠在日本如此受歡迎,主要的原因就是因為有許許多多參與的人。愛好者們自己在初音軟體中,手動輸入歌詞、曲調、音節的長度、顫音等等參數,從而形成一首真正的歌曲,並在各種網路論壇上上傳歌曲,在愛好者圈子之間互相欣賞。慢慢的,一些製作水平非常高的歌曲被人加上了FLASH動畫等形成動畫MV並在各種視頻網站上廣為傳播,或者形成了流行的彩鈴。
這是一種根基在互聯網「眾包」模式下的成功:因為眾人參與,有眾多的作品,在眾人間流傳,被眾人欣賞。因為很多人付出了心血,所以會更深的關注自己的努力。最後官方在這些作品當中選擇了部分非常優秀的作品形成了初音的音樂會。
群眾基礎如此,所以才有虛擬形象的受歡迎,否則毫無感情因素的商業偶像,需要投入的傳播推廣費用將是一個天價,並且過氣的也很快。各種真人偶像(尤其是韓國模式)可以印證這一點。而初音則是一種「自由生長」的結果,瓜熟蒂落。
5. 初音演唱會的全息投影又是什麼?
現在所謂的全息投影實際上我可以稱作它為「偽全息投影」。
因為所謂真正的全息圖像是由激光全息照相技術,使用分光鏡形成多路激光,利用激光相干性好的特點形成衍射,所完成的一種特殊照相術,具體原理這裡不再贅述了。真正的全息底片無論碎成多少塊,當使用激光進行重放時任一小塊都可以看到完整的拍攝圖像,並且可以看到被拍攝物的方方面面而不是一個平面。這個現在已經屬於是大學物理課實驗內容之一,沒有什麼神秘之處。
那麼現在展覽展示行業當中所流行的「全息投影」是怎麼回事呢?
這僅僅是一個通俗的叫法而已,這就類似於是立體視覺電影,一般通俗的叫法是」3D電影」一樣。而且很多大眾是分不清楚此3D和3D動畫的兩個3D的區別的。
現在展覽展示行業當中的全息投影(偽全息),實際上就是一種特殊的投影幕,這種投影幕採用透明的片基,在片基製造當中夾入了一個夾層,這個夾層有很多種做法:高端高價格的採用激光蝕刻工藝來產生顯微尺度的稜鏡以改變光路,低端低價格的採用非常細但密的線網以阻擋光路。無論是哪一種手段,其目的就是要投影機的光束投在這個幕上的時候,遠看是透明的片基,但其中的夾層又對入射光產生了反應從而在透明的片基上產生了清楚的影像。
這樣做的結果就是稍遠(大約數米到十數米之外)觀看的人,只能看到空中漂浮的影像,而基本看不到那個透明的片基。這樣造成一種視覺錯覺,覺得影像非常神奇的脫離了顯示介質存在於空氣中一樣。甚至在比較理想的舞台光環境下,會讓人產生錯覺,以為這就是真實的東西而不是影像。
不過說到底這就是一種特殊的投影幕,所以其投射的畫面依然是平面的,從原理上並沒有「全息」。所以也就註定了以下幾個缺憾:觀眾不能離太近,觀眾也不能太偏離畫面中軸,因為片基仍然是會反光的所以背景不能很亮,因為是用投影機所以演出場地的整體光環境也不能很亮。
三、初音中國版——「洛天依」的歷史、現狀、粉絲群體
1、洛天依是誰?
洛天依是VOCALOID-CHINA(代理商:上海禾念信息科技有限公司)以Yamaha的VOCALOID 3語音合成引擎為基礎而開發和銷售的虛擬女性歌手軟體角色主唱系列製品之一(日本雅馬哈株式會社出品的VOCALOID 3 中國形象之一),軟體演唱語言為中文。軟體於2012年7月12在第八屆CCG(中國國際動漫遊戲博覽會)上正式發售。
「VOCALOID 3」,是YAMAHA的音效技術開發中心製作的語音合成系統。它可以把錄製的人類各種聲音做為基礎,進過編輯合成後可以發出歌聲等內容。這款軟體與2007年開發的VOCALOID 2相比,除了保留原本的複合音效,還改良了合成音的品質、優化了操作的界面,更大的特色還是增加了多語言對應。從原先的日本語和英語對應增加到了漢語(普通話)、韓國語、西班牙語三種語言。並且其可以導入V2歌手的音色庫。這次最新的系列名稱定為「VOCALOID3 Editor」,軟體於2011年10月21日正式發售。
以前,曾經有過愛好者用初音(也就是日文的五十音)來拼出中文發音,效果不忍卒聽。而現在有了洛天依,是真正的中文音色庫,所以原本國內動漫愛好者圈子當中的初音粉絲們迅速的開始轉向了洛天依。並對洛天依形象有了一個可愛的、非官方的、二次的闡釋------「吃貨」。
為什麼天依最大的特點會是吃?為什麼大家總是稱洛天依為「吃貨」?
這是因為在天依正式發售之後,國內著名音樂人H.K.君為其量身打造了一首《千年食譜頌》。
2012年7月13日,由作者H.K.君製作的原版完整曲,及其朋友們(由PV,3D製作師 - 平安夜的噩夢 策劃帶隊)合作製作的 《千年食譜頌》PV 正式於Bilibili彈幕視頻網發布。正式因為這首歌成功將初次發售的洛天依定位成了一個吃貨。這首天依的原創曲中寫道,「世界很大很亂,地球在轉,數不清各種悲和歡,總是想太多還不如什麼都別想;簡單的吃一頓,再一餐,吃的那雙眼都發亮,然後做運動,消耗掉,多餘的脂肪。」「回鍋肉燉酸菜,還有蘭州燒餅,讓我們一起吃,全世界都得吃,就不要掙扎了,趁熱吃」歌詞最開始更是以一系列中國耳熟能詳的食譜開篇,讓聽完的網友大呼「聽著口水都要流下來啦(ˉ﹃ˉ)」
洛天依也因為此曲被封為 「世界第一吃貨殿下」。也正是因為這首獨特的吃貨之歌,使得洛天依開始進入大家的視線,這首《千年食譜頌》對於天依的宣傳可謂是功不可沒。
除了《千年食譜頌》,洛天依還有另外一首極其著名的洗腦歌——《洛天依投食歌》,由P主西瓜吃柏曉傾情製作,原曲改編自FamilyMart的入店音,經過中文填詞,朗朗上口的旋律,質樸直白地一連串「好餓好餓我真的好餓,吃呀吃呀吃呀吃……」,重複在你耳邊循環,使得網友聽完直吼,「不餓都被她唱餓了= =」「剛吃完飯聽完這歌瞬間又餓了!」更有網友說,這首歌的洗腦程度不亞於日本虛擬歌姬初音未來的《甩蔥歌》,足見這首的洗腦程度可謂不一般。
也正是這首傳播極廣的洗腦歌《洛天依投食歌》,進一步把洛天依的設定朝吃貨靠近,以致於後面很多作品之中都有提到洛天依是個不折不扣的「大吃貨」。吃貨殿下的位置也就這麼延續了下來。
所以天依之所以這麼能「吃」,《千年食譜頌》和《洛天依投食歌》的出現以及後來其他關於「吃」的歌是著實有著至關重要的作用。
2、VCP
這裡要提到的一個重要的事件是:VOCALOID? CHINA PROJECT。
VOCALOID? CHINA PROJECT(簡稱VCP)是由雅馬哈正式授權予上海禾念信息科技有限公司,在中國地區進行有關博歌樂系列產品的推廣及市場運營的活動項目。
2011年11月20日:
VOCALOID? CHINA PROJECT啟動,公布徵集人物形象的活動計劃
2011年12月1日:
正式開放徵集人物形象用的網站。[3]正式開始徵集
2012年1月3日:
徵集結束
2012年2月:
公布評選結果。 VOCALOID?商品開發開始
2012年3月22日:
VOCALOID? CHINA PROJECT公布中文形象最終定樣[4]
在2012年3月22日VOCALOID CHINA PROJECT公開了其5位形象代表人物設定。分別是:
墨 清弦 (MO QINGXIAN)...............................................女
徵羽 摩柯 (ZHIYU MOKE) ............................................男
洛 天依 (LUO TIANYI) ..................................................女
樂正 綾 (YUEZHENG LING) .........................................女
樂正 龍牙 (YUEZHENG LONGYA)...............................男
鏈接在此:VOCALOID? CHINA PROJECT 中文形象正式公布
因為在人工智慧蓬勃發展的今天,機器隨時都可能具有完全獨立的思考能力。那麼機器的思考要通過何種方式來表達呢?人類最基本的表達方式之一就是語言。因此讓機器擁有語言變得重要。(大概
推薦閱讀: