現在機器視覺這麼火,那機器聽覺被人忽視了?
其實也不是說忽視機器聽覺,而是感覺沒機器視覺這麼火…
當然有機器聽覺啦。一切以聲音為輸入的機器學習任務,都可以納入「機器聽覺」的範疇。這樣的任務太多、太雜,所以一般不把它們統稱為「機器聽覺」而已。
最為大眾熟知的「機器聽覺」任務,就是語音識別了,它的具體含義是把語音轉化成文字。
從語音中能夠獲得的信息遠遠不止文字,還包括語種、說話人身份、說話人情緒等等,相應的任務分別稱為語種識別、說話人識別、情感識別。
上面說的「語音」都是指人的聲音。而世界上能夠「聽」到的聲音也不只有語音。一種典型的其它的聲音是音樂,那麼就可以有旋律識別、和弦識別、體裁識別、情感識別等多種任務;考慮到有些音樂是有歌詞的,那麼就還可以進行歌詞識別。廣義的聲音還包括動物、機械、自然界發出的各種聲音。識別這些聲音的任務,稱為「聲音事件檢測」,這正是我的博士論文課題。
前面所說的各種任務,都屬於「識別」類型,即輸入是聲音,輸出不是聲音。當然還有輸入和輸出都是聲音的任務,比如降噪、分離等等,也都可以算「機器聽覺」。
反過來,以聲音為輸出的機器學習任務,就可以算是「機器嘴巴」了(這個名字有點怪……),包括語音合成、語音轉換等等。
==========2017. 9. 19 更新==========
原文提到的師哥剛寫了一篇A Tutorial on Deep Learning for Music Information Retrieval,還屬於「草稿」階段,他非常歡迎各路人士的建議!
==========原答案==========
據我所知,語音識別方向已經有許許多多機器聽覺的研究了。
而我們實驗組的方向主要是做音樂方面的識別,即music transcription或music information retrieval,因為大部分任務可以用傳統的信號處理技術就能實現,所以感覺機器聽覺也是最近幾年才在這個領域內興起的一種方法。
機器聽覺以及深度機器聽覺火爆的主要原因就是準確率可以大大提高,但同時要求資料庫量大且准,而目前音樂方面的資料庫只能說……一般般……,許多數據由於涉及版權問題還不是說能拿來用就拿來用的。同時機器聽覺也不是萬能的,在特殊的音樂識別任務面前,如情緒識別,即使準確率有提高但依然不出眾。
拿來我師哥Keunwoo Choi剛發的ISMIR文章Transfer learning for music classification and regression tasks的截圖舉個例子。在以下六個分類任務面前,卷積神經網路提取出的convnet特徵會優於MFCC,和state-of-the-art的方法相比也有一定的競爭力。
已經在悉尼舉辦的ICML還專門有一個關於探索音樂的工作坊(machine learning for music discovery workshop),另外在其他關於信號處理的國際會議上比如ICASSP, MLSP,每年都有把機器聽覺應用在各個領域的文章,所以說吧,其實還挺火的……
另外,對音樂信息檢索感興趣的朋友們歡迎來參加ISMIR 2017會議呀!今年十月末會在蘇州辦:) 估計又是一次音樂概率統計模型與機器學習技術的交鋒……
@王贇 Maigo 的回答很全面,我這裡從狹義上的「機器聽覺」補充一些內容吧。
如果做computer vision的研究者以David Marr的《Vision》作為開山之作的話,做computer audition的或許可以以Albert Bregman的《Auditory Scene Analysis》作為開山之作。
但這是比較狹義的說法,因為實際上目前機器的音頻感知的主流領域包括語音識別,cocktail party problem,music transcription等問題,從模型選擇上並沒有follow人的感知過程。基於HMM的ASR的研究也只是把這個問題描述成序列建模的數學問題,包括後續的CTC,attention model。
如果說MFCC是有一定的心理聲學的基礎的話,實際上Mel濾波器並不是刻畫耳蝸傳函的最佳濾波器組,比如Gammatone filter bank就被證明是更接近人耳蝸的選擇 (PNCC用的是Gammatone filter bank,但並不是主流的ASR特徵)。目前的研究方向甚至到了直接用時域信號做ASR,即使用Mel filter bank feature,似乎也只是作為一個frequency warping的降維或者提升運算速度的方法,這就與真正的人耳感知相去甚遠了。
狹義上的computer audition,一般包括以下研究方向,binaural sound source localization, binaural source separation, binaural speech enhancement,應用領域主要在hearing assistant,cochlear implant,機器人聽覺,以及audio reality。之所以都帶著binaural是因為人的聽覺感知就是雙耳啊。在這個方向上Deliang Wang的《computational auditory scene analysis》做了很全面的介紹。雖然他們組現在也是DNN玩的飛起,但涉及到助聽器人工耳蝸AR的研究方向,還是不能避開人耳感知的基本原理。
至於目前CV的研究方法和《Vision》相去多遠我不是很了解,據說CNN的convolution還是受到人的reception field的啟發的。
語音識別不火…?
題主你大街上隨便找幾位,問問看是認識Siri的多還是認識Kinect的多…
怎麼沒有,語音識別,深度學習的機器作曲,NLP
不是有么?如著名的雞尾酒會問題,通過ICA進行處理啊…現在還有很多語音助手啊。你當Siri不存在嗎?
音頻就是需要時間序列模型進行處理啊,在cv裡面,像素就是基本單位。那麼我想音頻的基本單位就是一小段的時間的波形吧?通過波形,我們就可以進行處理啦(LSTM模型可以派上用場啦)而且有些東西還是通用的,如傅立葉變換,小波變換,這些一直都可以用來對聲音和圖像進行去燥和壓縮啊~大部分模型都是通用的,把它們組織起來應該可以有不錯的效果啊。(雖然我沒有實驗過…只能大膽猜測,小心求證就留給大家啦 哈哈)
我想這大概是我心中的機器聽覺吧。大概是自然語言處理的子領域或者計算感知的子領域吧,另外如果叫計算機視覺我感覺更舒服一點
有啊, 語音識別是深度學習第一個大放異彩的領域, 其次才是計算機視覺.
對不起,你這真不能叫腦洞。且不說現在國內外大廠都在搶的下一個風口——語音操作入口;且不說這一波deep learning大潮起於語音識別的爆炸性突破;且不說科大訊飛這一年股價的漲幅;單說我05年本科的畢業論文就是說話人聚類相關的,哦,雖然這篇論文很渣。
對於聽覺的研究,是大大領先於視覺的,只是沒有『機器聽覺』這樣一個詞反覆拿出來說,一般只是叫做語音處理。
語音助手很多的。
真正沒有的是機器嗅覺,這個才是藍海,如果能做出來絕對有人買,裝一個在電梯里,能解決千古難題
「誰放了屁!」
集體沉默
耿直的機器嗅覺從天花板打下來一道光照亮了放屁的人
這天,題主剛剛起床,打開聽歌找歌的軟體,哼了一首之前在唱吧唱到100分的歌,下載下來,當成今早的背景音樂。
然後題主點開微信語音,說道:「現在機器視覺這麼火,為啥沒機器聽覺?」再用語音轉文字,把轉好的文字貼到知乎里,點擊提問。
等待回答的時間裡,題主打開電腦看看youtube。由於有的視頻沒有字幕,題主只好打開youtube的自動生成字幕功能。中間遇到了一個不認識的詞,題主點開了google翻譯,把詞讀了出來,果然立刻出現了翻譯結果。
「差不多該有人回答了吧?」看完視頻後,題主準備邊出門邊看知乎,但是卻突然找不到手機了。題主只好叫了一聲「Hi, Siri!」,於是從沙發下傳來了Siri的回答。「Siri, 打開知乎。」題主撿起手機,命令到。
siri:
Cortana:
echo:
GoogleAssistant:
若琪:
科大訊飛:
「
」
20多年前,聽過一次在昆明的講座,日本人(早稻田教授),就開始搞機器聽覺、觸覺、嗅覺。
上面的同學對機器聽覺有了一定的回答。
實際上,不光有這個,還有機器觸覺呢
NLP
其實我更想關注機器味覺,但估計和化學生物學有很大關係,想像一下玩vr的時候除了看和聽還有味道,那身靈奇境的感覺不是更棒?生化危機一股喪屍味,絕地求生火藥味,那豈不是美滋滋。或者說點外賣的時候聞聞味道也是不錯的!
其中一個方向叫musical information retrieval。
說明攝像頭比麥克風靠譜。。。何況信息來自視覺比聽覺要多得多。。。
那不叫機器聽覺,叫自然語言處理,已經是一個幾十年的領域了
推薦閱讀:
※如何計量「火候」?
※l1 相比於 l2 為什麼容易獲得稀疏解?
※計算機碩士期間如何發力,畢業後能衝擊30-40w年薪的offer?
※用於數據挖掘的聚類演算法有哪些,各有何優勢?
※為什麼 LR 模型要使用 sigmoid 函數,背後的數學原理是什麼?