icassp2018的搬運工——DCT域做分離

文章題目:END-TO-END SOUND SOURCE ENHANCEMENT USING DEEP NEURAL NETWORK IN THE MODIFIED DISCRETE COSINE TRANSFORM DOMAIN (看起來就很厲害end-to-end耶)

------------------000000000000000000000000000--------------------------------------

作者:來自NTT的Yuma Koizumi1, Noboru Harada (看到NTT感覺作者名字上有光環)還有幾個人不認識

------------------mmmmmmmmmmmmmmmmm---------------------------------------

首先介紹一下文章主要幹了個什麼事:用離散餘弦變換(DCT)代替傳統的離散傅里葉變換(DFT),在DCT域估計T-F掩蔽的真實值。

回顧傳統的T-F掩蔽:總結起來就是訓練一個時頻域的維納濾波。cIRM的提出使得幅度和相位都可以在網路中估計。但是這樣做的問題是相位和幅度不是獨立的變數,需要大量的訓練數據防止過擬合。

本文採用的方法:end-to-end DNN-based source enhancement with a T-F mask in the MDCT-domain. (modified DCT)

操作步驟:

1)將時域的信號分成K-blocks,每個block長L,沒有overlap

2)第k幀的時域信號由兩個block聯合組成,其MDCT 和逆變換分別為

但是直接這樣做得到的兩個時域信號 x_k , x_{k+1} 在時域上會有混疊。通過加上兩subsequent IMDCT vector components 來解決。

用這個方法加上end-to-end的模型,成功的解決了混疊問題。模型就是這樣式的~

實驗結果:神奇神奇~

推薦閱讀:

音頻信號通過演算法提升採樣率和採樣精度,聽感上會得到真正的提升么?
舍友到了12點了還用音響放音樂,多次提醒沒用,能否推薦一款價格學生承受範圍內最好的降噪耳機?
如何使用Logic Pro X 里的Noise Gate進行降噪?
倒計時|2017降噪Ⅴ演唱會,你想和誰一起去聽他的歌呢?
對於信號處理,濾波和降噪有什麼區別和聯繫?

TAG:深度學習DeepLearning | 降噪 |