聲音識別的 ImageNet 誕生了，大家想用它做什麼呢？

01-08

歡迎加入知乎Esquirrel創建的qq群「2017跨界AI應用交流—571384061」一起深度交流。
谷歌機器感知研究小組（Machine Perception Research）最新發布了一個大規模的音頻數據集AudioSet。根據谷歌在官網的介紹，AudioSet 包括 632 個音頻事件類的擴展類目和從YouTube視頻繪製的 2,084,320 個人類標記的10秒聲音剪輯的集合。類目被指定為事件類別的分層圖，覆蓋廣泛的人類和動物聲音，樂器和風格以及常見的日常環境聲音。發布者寫道：通過發布AudioSet，我們希望為音頻事件檢測提供一個常見的，現實層面的評估，同時開始提供一個全面的聲音事件辭彙表。
大家說說看可以用什麼策略進行分類學習？可以遷移到哪些應用場景？

問題來的好快！

Google發剛剛布的AudioSet資料庫在音頻處理領域具有重大意義，可以說，AudioSet資料庫是音頻領域的ImageNet。可以預見，未來幾年音頻領域將有大量研究和突破。

音頻處理一直處於一個比較尷尬的地位，由於缺少大的資料庫，所以不能用足夠深的深度學習模型。由於缺少商業驅動，音頻處理的數據很少。即使是2016年最新的音頻分類和檢測競賽DCASE2016[1]也僅僅有數小時的訓練數據。遠遠不夠訓練複雜的深度學習模型。

與音頻處理十分相似的是語音識別，IBM和微軟等公司收集了大量數據用於訓練語音識別模型。在2000小時的數據集上，IBM和微軟分別用LSTM, VGG, ResNet, WateNet, LACE等模型將語音識別錯誤率降到5%-6%，已經十分接近人的識別準確率了。他們還指出，幾小時是訓練深度學習所需的最少數據，但也只能搭一個玩具模型，用200小時數據訓練可以達到good水平，用2000小時才可以very good水平[2]。

圖像，音頻，視頻這三個領域中，圖像已經有了ImageNet這個大資料庫。Google最近製作的YouTube-8M資料庫和AudioSet資料庫填補了音頻和視頻領域的大數據空白。這兩個資料庫的來源都是和YouTube網站上的視頻。我們可以把這兩個資料庫和ImageNet比較一下。

ImageNet資料庫，包含1500萬張圖片，22000個類別。其子集對應的是目前最權威的圖片分類競賽LSVRC，包含100萬張圖片和1000個類別。

YouTube-8M資料庫[3]，包含800萬個視頻，總長度約50年。共4700+個類別。由於數據巨大無比，Google除了給出了下載鏈接，還把提取好的特徵打包好了供使用者下載，特徵提取方法是對每秒截圖用預訓練的CNN最後一層作為特徵，總大小也有1.7 TB！進一步還有精簡版的特徵，提取方法是整個視頻所有截圖特徵的統計量，如均值，方差等，總大小為31 GB。Google非常仁慈地只用線性分類做了一個基準結果，留下的改進空間當然是給別人去做了（然而我等單機狗最多只能跑個線性分類。。）。YouTube-8M對應的競賽是今年的YouTube-8M視頻理解競賽[4]。

在介紹AudioSet之前，得先提一下Google的一個未公開的資料庫YouTube-100M [5]，包含了包含1億個YouTube視頻（但並沒指出和YouTube-8M資料庫的關係），總長度約600年，包含3萬個類別的視頻。Google在這個巨大無比的資料庫上殘暴地直接套用圖像識別中的深度學習模型，如Fully connected, AlexNet, VGG, Inception V3和50層ResNet等，在3000類分類的AUC（準確率的一種）達到了92%，把之前小數據集上的方法遠遠甩在了身後！更無恥的是Google還舔著臉說這是baseline。。

AudioSet資料庫[6]，包含200萬個10秒音頻，總長度5000小時，共527類。音頻來源同樣是YouTube視頻中截取的10秒音頻（未指出與YouTube-8M資料庫和YouTube-100M資料庫的關係）。Google除了提供音頻下載鏈接，同樣提供了提取好的特徵供下載，特徵提取方法是用YouTube-100M預訓練的CNN的最後一層作為特徵，5000小時音頻的特徵大小為2.1 GB。對於一般工作者完全可以跑得起來。此外，AudioSet還有一個精簡版的子集，僅包含2萬個10秒音頻，但包含了所有527類音頻，每類約60個10秒音頻，可以說是麻雀雖小五臟俱全。作為入手再容易不過了！

AudioSet數據集挖了很多坑給研究者們，回顧ImageNet的挖的坑，AudioSet能夠預見的坑有
* 音頻識別, 對應圖像分類
* 音頻事件檢測, 對應圖像目標檢測
* 音頻分割, 對應圖像分割
* 音頻生成, 對應圖像生成
* 音頻盲源分離問題
* 用AudioSet pre-train模型，然後在特定任務和數據集上fine-tune模型參數。
* 弱標籤學習（weakly label data learning）

* 等等。。

音頻處理終於迎來大灌水時期！

[1] Mesaros, Annamaria, Toni Heittola, and Tuomas Virtanen. "TUT database for acoustic scene classification and sound event detection." Signal Processing Conference (EUSIPCO), 2016 24th European. IEEE, 2016.

[2] ICASSP 2017 conference

[3] Abu-El-Haija, Sami, et al. "Youtube-8m: A large-scale video classification benchmark." arXiv preprint arXiv:1609.08675 (2016).

[4] https://research.google.com/youtube8m/

[5] Hershey, Shawn, et al. "CNN Architectures for Large-Scale Audio Classification." arXiv preprint arXiv:1609.09430 (2016).

[6] Gemmeke, Jort F., et al. "Audio Set: An ontology and human-labeled dartaset for audio events." IEEE ICASSP. 2017.

看了下論文和官網簡介，做以下回答，可能跟題主問題不太對應。

1. 無疑，google 發布這個數據集合的意義是巨大的，按照論文的說法，所有samples都是經過至少三個人人工標註label，600+ classes（保證100+樣本數的類有485個,170萬+ samples），如此浩大的工程值得每個研究者點贊。

2. 但是現在其實是有種無處下手的感覺的，為什麼這麼說呢？官方提供了兩個版本的數據供研究者下載。

第一種，提供了所有的sample的video id，從第幾秒到第幾秒的時間戳，label 。但是全是youtube的視頻，想要扒下來也不是容易的事情。
第二種，提供了實現提取好的特徵，可惜這個特徵並不是傳統的如mel 頻譜之類的，而是google 從Resnet的bottleneck層提取出來的128 dimension的「deep feature」，這意味著現階段研究者只能在分類器和一些後處理方面進行探索。而特徵工程是非常重要的一環，但是看到這個情況的時候還是挺失望的。

任務目標定位是 Audio Event Detection，其應用場景其他答主也都講過了。總體來說，希望google 後續可以放出原始audio吧（雖然google 說他們會把提bottleneck 特徵的網路給放出來，但是還是希望可以拿到音頻文件）。希望Google 爸爸好人做到底啊！

作為一個做過過環境聲音識別的設計師，我要怒答一篇。

先上圖吧，就是這貨。

簡單的說，它是一個通過環境聲音識別事件，並推送給手機或其他智能家居設備的產品。

裡面有一套麥克風模組，可以識別10kHz－25kHz環境聲音以及聲音的方向，他通過用戶自己對聲音的標記進行學習和識別。

為什麼這是一個有趣的應用？

在很多智能家居產品當中，大多數是基於感測器對事件進行監控的，無論是窗戶，門，煤氣，門鎖等等事件，但說實話很少有用戶是能夠對這類產品進行仔細的研究，並搞清楚應該在自己家裡的什麼地方放什麼感測器的。所以Eddy 誕生了，Eddy只需要在屋子裡，插上電源，就能夠對家中有聲音的事件進行識別。

說說技術方面的考慮，識別率是一個大坑，所以我們做了以下幾件事：

1. Contextual engine（場景引擎）

不是在一天中的任何時候，任何聲音都會發生，所以可以根據具體的場景，時間，家中是否有人來調整contextual engine，這樣就有了一個動態的資料庫，系統所需要比對的事件就非常有限了。

2. Spatial Awareness（空間感知）

聲音在一個固定的空間中，有很多都是有固定的來源的，那麼如果可以判斷聲音來源的方向，那麼識別也會變的更加簡單。

3. Target User（確定目標用戶）

如果這個產品是面向所有人，那麼所有人關心的所有事就是一個很難全部滿足的需求。所以在產品角度考慮，要細化目標用戶群，讓設備去聽特定的事件。

最後想說，很多人都在看NLP，但實際上環境聲音識別能做的事情還有很多，很多，非常多。

就說個應用場景。

我很想有一款智能識別演講的筆記本。現在一般聽lecture都只能用筆記，用iPad pro/surface也是。

但要是能把lecturer的講話從整個聲音信號中分離出來，並且把它轉化為文字，直接一句一句出現在記事本屏幕上。然後我們想記下哪句只要它上面劃一下，同時結合現有的主動筆記功能，這款設備應該能大大提升工作學習效率。

這些功能應該已經在實驗室里實現大部分了，但實際應用場合貌似還沒有成熟的產品出來。

之前應該有許多實驗室苦於沒有資料庫，沒能在這領域深入研究。現在目測一大波論文正在到達戰場。

作為搞聲音事件監測的來說，簡直高興壞了。一直持續在興奮狀態。

現在的公開AED數據集都太小，DCASE那個數據集只有幾個小時的數據。隨便一個網路隨便一跑就過擬合了。這個數據集可以做好多事情，視覺的很多工作都可以在這裡搞一搞。灌水神方向。

另外，他們研究組還有一篇大規模CNN在這個數據集上的實驗論文在axiv上。可以看到精度還有很大的提升空間。

另外，這個數據集可以作為很多事件監測的base。像VGG那樣遷移到特定事件檢測上去，我檢測咳嗽檢測了半天。試試看這個數據集能不能顯著提高檢測性能。

多希望這個數據集能早幾年放出來，攤手。

現在看也沒那麼high，沒放出原始音頻，而且也不會放出原始音頻。想要的話需要自己去YouTube上扒....

前段時間一直苦於沒有較大的語音標籤數據集使得實驗沒得做，索性把那段時間的想法說來聽聽吧。

首先，在大量語音數據集面前，我們可以訓練出較好的語音數據分類器，之後便可以像圖像pretrain模型師兄方法一樣，遷移到多種語音任務上。當然，這些是單模型。

對於多模型而言，可以做到像image caption那樣，對於視頻中的場景:

如多人說話，交談，分別利用圖片預訓練模型和語音預訓練模型提取高層語義特徵，做一些相關操作:如通過語音來檢索當前場景的真正的說話人，有點tracking的味道有木有，這個任務叫做Speaker Naming.

再者，如2016年ECCV上論文SoundNet,利用視頻語音聯合訓練，達到可以利用語音檢索視頻的效果。

因此，在擁有大型語音數據之後，像CNN的熱潮會隨之而來，到時候就不知道是哪個網路會引領。

深度學習還是在朝著多模態的方向前進，Image caption, Visual question and answer,是CV和NLP的結合，是時候來波CV和語音，或者NLP和語音了。當然，你肯定會問為啥不三者結合，因為LipNet已經結合過了，這波節奏已經被人家帶起來了。。。

分析一下高潮是真是假？

叫做聲音分類更恰當一些，沒有文本標籤你拿什麼做識別。。。

加不進去，要問群主學校名稱。

這個跟語音識別沒一點關係吧……

可以語音解鎖手機和電腦了。

如果聲音識別能做到速記、翻譯、繪圖等智能應用，那世界會變得更小，我們不用再寫字、打字、學外語，任何國家的人都可以無障礙交流，只要用語言描述出來內心的想法，就能自動繪製成圖片，音樂等等，藝術創作也會上升到一個頂峰，期待人工智慧全面爆發的那一天吧！

我們的哭聲檢測可以上一個台階了

不小心放了個屁，智能助理嘲笑了我一下。

不小心打了個嗝，智能助理關心我一下。

不小心肚子咕嚕嚕，智能助理幫我叫了外賣。

回到家，智能助理告訴我不會說話的寶寶發出的聲音表示她很高興。

吃飯時，智能助理聽到聲音說我吃得太快。

拉屎時，智能助理說我肚子不太好，建議看醫生。

打了個啵，智能助理給我推薦了最新的愛情電影。