icassp2018的搬運工——DCT域做分離
文章題目:END-TO-END SOUND SOURCE ENHANCEMENT USING DEEP NEURAL NETWORK IN THE MODIFIED DISCRETE COSINE TRANSFORM DOMAIN (看起來就很厲害end-to-end耶)
------------------000000000000000000000000000--------------------------------------
作者:來自NTT的Yuma Koizumi1, Noboru Harada (看到NTT感覺作者名字上有光環)還有幾個人不認識
------------------mmmmmmmmmmmmmmmmm---------------------------------------
首先介紹一下文章主要幹了個什麼事:用離散餘弦變換(DCT)代替傳統的離散傅里葉變換(DFT),在DCT域估計T-F掩蔽的真實值。
回顧傳統的T-F掩蔽:總結起來就是訓練一個時頻域的維納濾波。cIRM的提出使得幅度和相位都可以在網路中估計。但是這樣做的問題是相位和幅度不是獨立的變數,需要大量的訓練數據防止過擬合。
本文採用的方法:end-to-end DNN-based source enhancement with a T-F mask in the MDCT-domain. (modified DCT)
操作步驟:
1)將時域的信號分成K-blocks,每個block長L,沒有overlap
2)第k幀的時域信號由兩個block聯合組成,其MDCT 和逆變換分別為
但是直接這樣做得到的兩個時域信號 在時域上會有混疊。通過加上兩subsequent IMDCT vector components 來解決。
用這個方法加上end-to-end的模型,成功的解決了混疊問題。模型就是這樣式的~
實驗結果:神奇神奇~
推薦閱讀:
※音頻信號通過演算法提升採樣率和採樣精度,聽感上會得到真正的提升么?
※舍友到了12點了還用音響放音樂,多次提醒沒用,能否推薦一款價格學生承受範圍內最好的降噪耳機?
※如何使用Logic Pro X 里的Noise Gate進行降噪?
※倒計時|2017降噪Ⅴ演唱會,你想和誰一起去聽他的歌呢?
※對於信號處理,濾波和降噪有什麼區別和聯繫?
TAG:深度學習DeepLearning | 降噪 |