截至2017年3月，音樂和人聲分離的研究有哪些最新進展？

01-15

問題背景類似於，如何將背景音樂和人聲「分離」？ - 知乎；最近關注一篇號稱比肩「state-of-the-art」的工作，Deep Convolutional Neural Networks for Musical Source Separation。Github上開源MTG/DeepConvSep，但是提問者基於作者的提供的code及model做測試時，發現效果並不是特別好。最近的進展還是這麼差嗎？或者是code出bug導致？
補充細節：根據 reaedme 文件.「Separate music into vocals, bass, drums, accompaniment in examples/dsd100/separate_dsd.py 」,the model is "model_dsd_fft_1024.pkl",但是結果混雜的很厲害，感覺沒有分清楚。
The sample is"100 - Young Griffo - Pennies",and the result is "http://pan.baidu.com/s/1bpaOpxt".

沒在做這方面的研究，但每年的ICASSP都會去關注一下。

今年ICASSP上，Yi Luo, Zhuo Chen, Jonathan Le Roux, John Hershey, Nima Mesgarani, 「Deep Clustering andConventional Networks for Music Separation: Stronger Together」, submitted to ICASSP 2017，這篇論文讓人印象深刻，一些demo在這裡：ChimeraNet

工作主要是基於Deep clustering，一個很有前景的通用單通道語音/音頻分離的演算法，音源個數不限制在兩個，原理上，其他相關工作主要通過DNN直接預測純凈的音源或直接估計mask得到純凈音源，deep clustering則是通過DNN學習一個到embedding space的映射，通過在這個embedding space上做clustering來估計mask進而得到純凈音源。相關的論文：

John R. Hershey, Zhuo Chen, Jonathan Le Roux, Shinji Watanabe, Yusuf Isik, 「Deep clustering:Discriminative embeddings for segmentation and separation」, in Proc.ICASSP, Shanghai, April 2016.

Yusuf Isik, Jonathan Le Roux, Zhuo Chen, Shinji Watanabe, John R. Hershey, 「Single-Channel Multi-Speaker Separation Using Deep Clustering」, in Proc. Interspeech, San Francisco, Sep 2016.

Yi Luo, Zhuo Chen, Jonathan Le Roux, John Hershey, Daniel P.W Ellis, 「「Deep Clustering For Singing Voice Separation」, MIREX, task ofSinging Voice Separation, 2016(1st and 2nd performance).

更新一下，之前看過幾篇單聲道的語音分離的論文，@屠明提到的那篇也正好看過，簡單的說一下：

DPCL 確實是首次將分離任務不再當作分類任務來做，確實是很大的進步，但是有一個很大假設條件，就是每一個T-F bin 僅屬於一個說話人。其實這個之前有理論依據，但是一個bin的能量在mixture的地方肯定是有其他說話人所貢獻的一部分，所以這個理論上是不準確的。

Yu Dong, 17年ICASSP的一篇 PIT （permutation invariant training）後期還有一篇文章在PIT的基礎上，加上了speaker tracing，其實處理方法很簡單，就是由幀級別改成句級別，分離，tracing 都交給網路去做。解決了DPCL的問題，另外還解決了一個問題，就是網路可以直接設置為三個頭，這樣可以分離三個或者兩個都可以，兩個的話，第三個輸出就是靜音。

然後DPCL的作者 chen zhuo, 分析了DPCL 和 PIT的優缺點之後又提出 Deep Attractor Network，也是17年的ICASSP。這個不是很清楚，評論區有位對這個比較熟，大家可以問這位大神。

題主問題主要針對不同數目的混音的情況，音樂分離這個任務應該用不到。

陳卓和俞老師人都特別好，有問題可以直接發郵件問。

具體自己看文章吧，思路都比較清晰，復現的話還是有很多細節的，雖然我沒復現成功，但是還可以交流一下。

A Regression Approach to Speech Enhancement Based on Deep Neural Networks

Yong Xu, Jun Du, Li-Rong Dai, and Chin-Hui Lee, Fellow, IEEE

輸入為何是雜訊和純凈信號，配對輸入？