在技術上如何把一首歌里的不同樂器,人聲分開?可行么?


這是作為錄音師經常被問道的一個問題,現在的分離技術主要技術來自於頻率和相位。正好最近比較新的分離軟體ROLAND 的R-MIX是我做的評測,所以可以稍微說一下,評測原文——
ROLAND R-MIX――用眼睛做音樂

先說說技術部分

頻率分離,現在一般作為一種輔助手段,因為樂音的泛音列一般都比較豐富,強度上也不差,即便是一個DOUBLE BASS高頻延伸到6kHz到10kHz有明確的能量也很正常,徹底在頻譜角度清楚不大現實。所以通過頻率分離更多的只能針對BASS,BELL這些本身能量集中的樂器,而且還是只能清除掉能量集中的部分,一些泛音會漏網,然後比如用於REMIX的話,就用別的聲音把清不幹凈的蓋上,比如洞次洞次…………

相位分離,就是我們平時說的消聲版的來源,其實是因為人聲一般在混音的時候放在正中,雙聲道立體聲的概念里中間聲像意味著左右揚聲器擁有相同的信號,那麼把一側反向疊加另一側就出現了波峰對波谷徹底抵消的結果,當然這是理想狀態,只要你加了任意的一個立體聲混響,左右聲道的混響是有隨機演算法的,也就是說混響的左右信號是不同的,於是人聲的混響有一部分就消不掉了,如果喜歡用DOUBLE的各種方式處理成帶有一定寬度的人聲,那麼能通過抵消消掉的會更少,所以這個手法現在對於大部分成品音樂都是差強人意。MS的提取方式也近似,就是先重新編碼立體聲文件,左右聲道相同的部分成為M,不同的為S再做調整。通常細緻些的消聲版消除人生後可能要重做補充一些中間聲部讓伴奏聽上去更健康一些。

現在用的方式基本都是兩個手法聯動作業,比如先進行頻率階段的濾波,在某些頻率上再使用相位抵消,上邊的評測用的就是這樣的技術,可以把圖示看做光學頻譜儀,而滑鼠圈的位置就是在整個立體聲呈像上的位置。原理上比如說要提取人聲就先做MS編碼,M聲部濾掉低頻去除同樣在中間聲部的BASS,但是跟人聲重合頻率過多的軍鼓一般就很難分離了,雖然音色不同(泛音列構成)但是在現有技術上的頻率和相位上確實基本相同的。


如果沒有分軌的工程文件的情況是這樣的:

現在的工具可以根據聲音的特殊屬性進行拆分,但如果不同樂器之間有高度接近的部分基本就拆不出來了,比如鍵盤模擬的打擊樂和現場的打擊樂。

至於人聲,除非你是特殊的聲音比如呼麥之類的,基本都問題不大。最起碼可以抹掉或者單獨提出來。

做電影后期的同學會很有發言權。

比如@張小北 同學。


看你怎麼定義「一首歌」,如果是工程文件就可以。

如果是雙聲道的mp3或者wav,那麼分離人聲和配樂沒有問題。

但如果單音軌的話很難,原來試過一些聲稱能自動扒某樂器音軌的效果都很差,無非就是些模式識別和過濾的技術。


謝邀……不可行,就好比你不僅想把一張照片中前面的人和後面的背景分出來,而且連背景中被人擋住的部分也可以還原出來一樣。


瀉藥,葯葯切克鬧

貌似很難做到讓人滿意,分軌的工程文件另當別論。

還有一個辦法就是花錢找音樂學院的孩子們給扒個midi出來,好的音源可以做到很高的近似度,也不很貴。


相關學科叫MIR, Music information retrieval

把樂器分離是信號處理的一個難點,要完美達到非常難。現在用的一些方法都是從頻域上分析相關音色來分離,比如用FMCC演算法。但是說要完美分離還有很大距離。

另外一個思路是,比如用兩個距離不同的麥克風拾取兩個揚聲器的聲音,可以從演算法角度分離出兩個聲音,但是現實中的樂器通常遠大於錄音的軌道數,而且樂器聲學的各向異性比揚聲器大而複雜得多,所以從商業作品裡分離出指定的聲音,可以做到,但是質量不能很好。


有一首歌曲很喜歡其中的一個小段樂器演奏的想分離出來做手機來電鈴聲看來這個工程是相當的龐大了我還是放棄算了。


可以,見過類似成熟技術,給個鏈接吧深入揭發:Prosonic 聲音分離工具 sonicWORX Pro

這個應該挺成熟的。

再舉個常見的簡單例子,現在很多手機中的雙話筒設計尤其是——iphone降噪技術最出色,在嘈雜背景聲中使用時,雙話筒會過濾掉背景聲。這就是簡單的提取人聲。

在歌曲中提取人聲或者樂器,原理如上相似,只是演算法、技術上更加複雜。


推薦閱讀:

有沒有分貝不高但很有穿透力的聲音?
藍牙音響和普通有線音響相比,在傳輸過程中會更損耗音質嗎?
為什麼鋼琴的低音和高音區容易走音?
如何看懂頻譜圖?
為什麼許多蟬在一起,叫聲聽起來是同步的?

TAG:音樂 | 歌曲 | 聲學 | 音頻 | 音階 |