標籤:

有沒有可能把一首歌曲的人聲和伴奏分離?它的原理是什麼?主要用到什麼技術?


理論上來講是不可能的,工程上目前是通過對兩種特徵進行提取。

這兩種特徵,一種是基於人類本身發音的特點,但是由於每個人的聲音特徵都不一樣,所以很難建立一種精確模型;另一種是基於語言的特徵,比如中國人的漢語,美國人的英語的一些典型發音作為模板來進行匹配。但是語言嘛,特徵就更多了,這樣的模型也很難建立。

最後小小吐個槽,一般只有在自己私自想錄製一些音樂的時候才會冒出從歌曲中分離出伴奏這種想法吧?這種能分離伴奏和人聲的演算法就算真研究出來也不會有市場的,因為音樂在錄製過程中人聲和伴奏本來就是分開錄製的嘛,至少我就「非法」下載過一些日本動漫單曲專輯,裡面包含有同一首歌曲的伴奏版本和清唱版本~


這個問題在時間線上蹦達了一整天了,忍不住爪機來答。

不是科技黨,只能說優秀的能實現人聲伴奏分離的軟體應該都是演算法實現的,類似的軟體有不少,國內用來輔助扒帶用的比較多。(扒帶=做山寨伴奏,多為新人練習或者市場需要,水平高的幾可亂真。)各家的演算法不一樣,原理也就介紹頁會說一點點。去英文官網看看介紹估計可以學到一點。簡單粗暴如流傳最廣的cooledit,AU之流的消人聲都有點不夠看。

曾經發現過一個很神奇界面很酷的軟體(10年左右),外觀像個很時尚的播放器,可以把一首音樂的所有元素都分離出來,注意是所!有!元!素!是的,跟原始工程文件一樣,鼓一軌,琴一軌,人聲一軌,除了包絡線這種沒辦法還原的,其他全部拆的乾乾淨淨,還能像autotune一樣任意變調。記得當年剛發現的時候群里有人感嘆以後工程文件就再也沒有秘密了,扒帶做伴奏樂的要失業了。

------------

燈燈燈燈~!!!找到了。下面介紹上文提到的神器——Hit"n"Mix Play。所有的元素都分離開來,扒得乾乾淨淨......(略誇張了,真那麼完美我早買了。)

很好奇這麼好的扒帶練習軟體為什麼沒有廣泛流傳開來(難道因為太貴了??),百度連個中文結果都沒有,整個網路只有優酷一個渣畫質的視頻......官網有比較完善的介紹視頻。

官網在這裡↓

Hit"n"Mix DJ Mashup Software

視頻封面Hit"n"Mix Play將cd或mp3聲音分解的軟體視頻

重新下載了截圖如上,載入了Rolling in the Deep,分解的有點碎,雙擊人聲時斷時續,不過斷掉的部分其實也分解在附近並且被自動標示為代表人聲的黃色,購買過後可以在右下選擇mute掉任意一種樂器or人聲。軟體收費的,$120,因為太偏門所以沒有國人喜歡的破解版。不購買只能拆開音樂,調節某個部分的音高和位置,但不能單獨調節各個樂器的音量也不能保存,當時還是窮學生的鄙人試用了一下,拆了艾薇兒一首歌,然後等破解等到連名字都忘了。想要嘗試的可以去官網下一個30天試用版的玩玩......遇到Paid Version Only的別問我怎麼破,我也還沒買過呢......


這個基本上很難,即便有些軟體可以做到也是很爛的效果


題主可以參考andrew ng的網易機器學習公開課,其中第二課有一個例子是用機器學習演算法來提取人聲和背景音,效果十分理想。這種取聲的任務真的是更適合用機器學習的演算法來做,用大量數據訓練之後取聲可以基本滿足要求。反對第一名說這種技術沒有用處,因為這種技術並不只會用在音樂上,在手機通話的時候進行去噪是可以發揮很大作用的。


耳機拔出來一點點。


傅里葉變換,用頻率分離,把樂曲從時域變換到頻域,人聲頻率和大部分樂器不一樣,所以可以將其消除,再反向變換回去,音樂可能會有部分失真,不過一般夠用了,常用的音頻軟體如Audition可以直接實現這個功能。


有一個方法是把音頻中頻率在人聲頻率範圍內那部分聲音剝離出來,然後波形取反,再疊加回原來的音頻。

這個方法的問題是,想從一首歌里精確地提取人聲是很困難的。所以最終得出的結果不會很完美。


轉載的。


一般調一下左聲道或者右聲道人聲就會消掉很多,剩下來的可能就是一點和聲。

完全消掉是沒有,如果聽到音質特別好的伴奏,除了官方出的純音樂版本之外,還有一種辦法是用編曲還原歌曲的伴奏,如果有這個能力的話。


sony有個mp3直接有這個功能,你感受一下,我覺得效果還不錯,很多演唱的伴奏下載不到買不到的時候我都是用這個mp3解決的型號是s755


對音源有一定要求,雙麥克風錄音,人聲在中間,樂器在兩側,人聲剛好可以用兩個聲道取反想加得到,不過樂器也有一定損失。cool edit,audecity等都有提供類似功能。


有的音樂,人聲和伴奏在兩個聲道中的混音比例不同(簡單的比例比如說 75%/25%),這樣就可以通過簡單的計算還原出原來的兩個軌。

至於沒法這樣做的音樂,那就只好根據頻率慢慢調了,效果很差。


還是有點用的,尤其研究結構化音頻內容的時候


有adobe 公司的wavestiuo軟體,分離的原理是頻率


winamp有個卡拉OK插件 可以達到一定效果


edius和ai


推薦閱讀:

foobar2000 之後幾乎沒音頻播放器再提音質了,為什麼?
Windows如何將一個播放器的音頻同時輸出到兩個音效卡?
為什麼通常的聲音格式,每個採樣點都是用整形?
如何搭配萬元以下麥克風與音效卡做唱歌錄音與樂器錄音用?
Steinberg ur242和Focusrite 2i4 哪個音效卡好呢??

TAG:音頻 |