如何切割出音頻文件中的音樂段落與人聲段落?
01-28
廣播節目mp3,主持人說一段話放幾首歌,現在我想把說話和歌曲分開,分別生成「說話.mp3」和「音樂.mp3」 編程小白覺得應該不難實現,請教達人指點一些方向! 多謝!
啊啊,我審錯題了,題主要做的是把音頻文件切割成人聲和音樂(其實還有靜音)的段落,是diarization而不是separation……
關於這個任務,我並不知道現在最前沿的方法是什麼,就想到哪裡說到哪裡吧。
首先,有兩大類方法:有監督的和無監督的。
有監督的意思就是你已經有一些數據,標好了哪些段落是人聲,哪些段落是音樂,哪些段落是靜音。
在這種情況下,你可以對這些訓練數據逐幀提取一些聲學特徵(多多益善,比如用OpenSMILE提取幾千維的特徵),訓練一個分類器。然後對測試數據同樣提取特徵,用分類器對每一幀進行分類,再把輸出平滑一下。鑒於這是一個相對簡單的任務,分類器用SVM或者logistic regression應該就差不多了,當然如果你想用DNN甚至RNN也可以。不過我估計題主是沒有訓練數據的,所以只能採用無監督的方法。這時,就需要設計有用的聲學特徵,來區分人聲、音樂和靜音。
靜音比較容易區分,最簡單的方法就是給幅度設個閾值。人聲和音樂有兩點主要的不同:- 人聲是單個聲源發出的,大部分時間有一個單一的基頻(當然發清輔音時沒有),而音樂一般是多個聲源發出的,有多個混在一起的基頻。
- 人聲的基頻不穩定,而音樂的基頻較穩定。
針對這兩點不同,我覺得可以使用如下兩種聲學特徵:
- 基頻提取器(pitch tracker)對提取結果的信心——人聲部分會較高,音樂部分會較低;
- 基頻變化率(fundamental frequency variation, FFV)——人聲部分會偏離0,音樂部分會接近0。
對每一幀提取出這些聲學特徵後,可以進行聚類(clustering),來得到哪些幀是人聲,哪些幀是音樂;當然,結果也需要平滑。
=========原答案=========
有許多音頻文件(大約一半以上?),人聲在兩個聲道中是相同的,但伴奏不同。
對於這樣的文件,把兩個聲道相減就可以去掉人聲,得到伴奏。不過,這樣做只能得到伴奏,不能得到人聲;而且伴奏就不再是立體聲了。對於單聲道音頻,或者上述方法無效的雙聲道音頻,分離人聲與伴奏就不是一個trivial的問題了。這是音頻處理領域一個研究課題,稱為source separation。題主可以以這個關鍵詞去搜論文。
begeekmyfriend/ezfm_diarisation
有個叫好工具箱的網站可以在線截取音樂的一部分,不用安裝軟體,用起來很簡單。http://www.haogongjuxiang.com/ypbfjq/
推薦閱讀: