鬧市中的科學問題
請想像一下這樣一個場景:
在一個普普通通陽光明媚的下午,你獨自走在街上,前面有兩個人,他們正在討論著附近新開的一家便利店。突然,身後傳來了一陣急促的狗叫聲,「汪汪汪」,你趕緊回頭看看是怎麼回事。這時,街道的那頭傳來了警車的鳴笛聲,「嗚哇兒,嗚哇兒,嗚哇兒」。
過了一會兒,你晃過神來,發現狗的叫聲似乎並沒有停歇,而行人的討論聲依然還在耳旁,警車的鳴笛聲漸行漸遠。
你也許還沒有意識到,其實你剛剛遇到並輕鬆完成了一個困擾計算科學半個多世紀的難題——雞尾酒會問題。
圖1.一個街道上的聽覺場景,圖片來自 IEEE Spectrum
雞尾酒會問題(cocktail party problem),是英國認知科學家 Edward ColinCherry 於1953年在研究注意力機制時提出的。它指的是人類在複雜聽覺環境下的一種聽力選擇能力。
在多種聲音出現的情況下,人可以把注意力集中在某一個聲音刺激上,而忽略其他的背景聲音。也就是說,人類可以集中在某一個人的談話之中,而忽略背景中其他的對話或噪音。
回想一下剛才我們假設的這個場景,當警車鳴笛聲出現時,我們可能迅速將注意力集中到這個聲音上面,而忽略了其他聲音的干擾,比如說行人的說話聲和狗叫聲。當然,你可以隨意測試在多個聲源環境下的聽覺行為,事實會告訴你,你總是可以自然而完美地聽到你想要聽到的部分,但是卻總是無法同時關注到多個聲源。
圖片來自網路
事實上,面對複雜環境的聽覺注意力選擇能力是人類聽覺系統表現出來的一項驚人天賦。雞尾酒會效應的產生機制雖然複雜,但對於我們人類來說,在多個聲源之間轉換注意力是一件非常輕鬆的事,以至於我們甚至感受不到這個過程的存在。然而,對於我們的計算機或者各種智能設備來說,如何在複雜的環境中選擇想要聽的聲音,這就是一個很大的難題了。
針對這個問題,科學家們一直在進行分析和研究。在過去60年中,科學家們針對雞尾酒會問題提出了很多的方法。大致可以形成這三種不同的流派:基於信號處理的方法、基於規則的方法,以及基於分解的方法。然而,這些方法卻依然受限於其各自理想情況下的假設,或者較為穩定的數據條件。對於計算系統而言,真正較為複雜環境下的聽覺選擇仍然難以得到理想的效果。
幸運的是,隨著技術的發展和數據的積累,深度神經網路的方法也開始在解決雞尾酒會問題的領域大顯身手。
雞尾酒會問題旨在從被干擾的語音信號中分離出有用的信號,這個過程能夠很自然地表達成一個監督學習問題。深度神經網路作為當前監督學習最有力的一種方法,可以被用做學習一個從帶噪原始數據信號到分離目標(例如理想掩蔽或者感興趣語音的幅度譜)的映射函數。
日前,中科院自動化所聽覺模型與認知計算團隊在這方面有了新的進展。科研人員提出一種聽覺注意性選擇模型,將雞尾酒會的問題聚焦在「注意力」這一關鍵和出發點上。
圖片來自網路
科研人員讓這個模型分別完成「主動傾聽」和「被動刺激」兩個任務。在執行任務的過程中,模型記錄下好幾個說話人的聲紋特徵,把這些聲音都混合疊加到同一個頻率通道上。然後讓機器不斷的去學習和提取這些特徵,積累出豐富的知識經驗,讓機器根據這些信息去辨識和抽取出所自己所「感興趣」的聲音。
聽覺注意性選擇示意圖。(a)模型總體框架圖;(b)用於存儲說話人聲紋特徵的長時記憶單元結構圖。
在中、英文兩個公開語音數據集上的對比實驗表明,這個聽覺注意性選擇模型在含噪音的多說話人聽覺場景下具有更好的魯棒性。
這項研究為未來在複雜環境下處理各種語音的相關問題上提供了新一條新的通道。
想像一下,在不久的將來中,在嘈雜的地鐵里,我們只要報上目的地就可以在售票機上準確快速完成購票;在響亮的電視機聲音下,我們仍然輕鬆地指揮遠處的智能機器人通過語音進行操作;在吵鬧的人群中,我們依然毫無障礙地使用手機里的語音助手……這一切「聲」機勃勃的精彩操作,都將可能不再成為我們的障礙。
該工作詳細內容請查看
jacoxu/ASAM作者: 石晶
來源:中國科學院自動化研究所
推薦閱讀:
※播客領域的微笑曲線
※Applied Speech and Audio Processing 第一章讀書報告(其實是差不多是純翻譯
※如果聲音也會死亡,你會怎麼做?
※關於聲音,你可能需要知道這些