請問各位專家，以目前語音識別技術而言，可以精準識別出動物的聲音嗎？比如貓狗，豬馬的聲音。？

12-19

我是一名移動互聯網創業者，我想請教兩個關於語音識別技術的問題：一，以目前語音識別技術而言，可以精準識別出動物的聲音嗎？比如貓狗，豬馬的聲音。二，如果可以的話，能夠精準識別同一種動物不同性別的聲音嗎？我不知較真，因為有的動物它們確實叫聲不一樣。我想在一個綜合環境中，比如動物園的猴山上，有人群的雜音和猴子，可以精準識別公猴，母猴，小猴的聲音。能夠實現嗎？本人在行啊，就是想請教下大神這個問題，見笑了。

非常有趣的的問題。既然題主問到了動物聲音的識別，不妨從鳥類不同種類語音識別的應用的參考開始。通過鳥類的鳴聲來判定鳥的種類是一項鳥類鑒別的重要技能，通過反覆的記憶和訓練，可能大致識別出不同種類鳥鳴聲的節奏、音高、反覆、音色、音節長短等區別。當然也有一些鳥類還可以通過鳴叫以外的聲音來識別，比如啄木鳥的敲擊聲。

從發音原理上來講，鳥類的發聲是氣流通過鳴管形成的。那麼不同種類鳥類在進化過程中的分歧導致了鳴管結構的不同是鳴聲鑒別的重要依據。同一種類的鳥類不同性別的鳴聲是有差別的，但是實驗表明這種差別在於一些叫聲通常只會由某種性別產生，但是在特殊情況下這樣的叫聲也可以由另一性別發出 (Hoelzel 1986 Song)，這主要取決於對相似結構鳴管運用模式的不同。另外，在幼鳥成熟過程中鳴管的結構性變化也會導致成鳥和幼鳥鳴叫聲音的不同。

從腦神經控制上來講，一些鳥類（例如鳴禽目、燕雀目、鸚形目、蜂鳥科、雨燕目）的鳴叫聲是有意識模仿習得的，並且有一定的特徵節奏，這種鳴叫更類似於鳥類界的「歌聲」。這種歌聲的學習是與腦前葉的控制以及與性激素的分泌有關的，很多時候這類歌聲起到求偶、領域爭奪等社交作用。另一部分的鳥叫聲並非習得，而是先天的下意識的鳴叫。

當然了，目前對於鳥類發聲原理的了解大部分都是大致的、具普遍性的。對於特定種類或是特定個體的情況，也存在不少例外。例如並不是所有鳴禽都會學習歌聲的；還有在特定的誘導下（實驗控制、迷路、雜交鳥），一些種類的鳥會學習不屬於自己種群歌聲；一些種類的鳥例如棕三趾鶉 (Turnix suscitator) (Madge 2002 Pheassants)，黑胸鴉鵑 (Centropus grillii) (Goymann 2004 Competing) 在歌聲習得上會有性別反轉的情況，即雌性為雄性保護領地而發出通常的雄性歌聲。

通過對鳥類發音原理的背景了解，很多鳥類學家就逐漸著手解決一個「聽聲辨鳥」的實際問題。其中比較有代表性的是鳥類歌聲而不是普通叫聲的研究。傳統的方法是將鳥類歌聲分為四個層次，音符(notes)、音節 (syllables)、章節 (phrases)和全歌 (song) (Catchpole 1995 Bird)。其中具有代表性的基本單位是音節 (Anderson 1996 Template)，因此赫爾辛基大學的Harma認為適於採用音節作為鳥類歌聲自動識別的特徵 (Harma 2003 Automatic)。採用音節的另一個好處是，因為每個音節持續時間只有幾百毫秒，易於從野外很多不同種類的混合鳥叫聲中提取出來。並且鳥類歌聲的節奏和重複等特徵可能存在地域性差異，而音節在同種鳥類中不容易產生較大的變化。Harma對14種相似鳴禽的歌聲通過簡單的正弦表示 (sinusoidal representation) （因為鳴管發音的實質就是正弦震動），能夠從僅僅一段音節中加以區分。

(Fagerlund 2007 Bird)

McIlraith等人也曾在1997年研究過通過人工神經網路和統計分析進行鳥類歌聲的識別 (McIlraith 1997 Bird)。他們選用了節奏（即歌聲中出現聲音和沉默兩種信號的時間序列）以及功率譜密度 (Power Spectral Density) （通常用於人類語音識別）這兩種特徵信號建立人工神經網路，對133段來自6種鳥類的歌聲分類，準確率高達93%。

在2007年，同在赫爾辛基大學的Fagerlund用支持向量機對鳥類鳴聲識別進行了研究。他們首先用一種頻域迭代演算法 (Fagerlund 2004 Automatic) 將鳥類聲音分解成音節，然後用兩種方法對音節信息建模。一種是梅爾倒頻譜 (Mel-frequency cepstrum) (Davis 1980 Comparison)模型，將信號分解成幾個重複的幀，然後用32個三角濾波器組成的濾波器組將每幀的頻率譜轉化成對數的梅爾頻譜。對應的第i幀梅爾倒頻係數 (MFCC)由以下公式計算出。

$MFCC_i = sum ^K _{k=1} X_k cos[i(k-frac{1}{2}) frac{pi}{K}],$

其中 $X_k$ 是第k個梅爾頻譜的能量的對數，K是梅爾頻率條帶的數量。另一種是將音節時域和頻域中11個低階信號參數提取出來，包括光譜矩心 (spectral centroid)、信號帶寬、譜滾降頻率 (spectral roll-off frequency)、譜通量 (spectral flux)、譜平坦度 (spectral flatness)、頻率範圍、過零率 (zero crossing rate)、短時平均能量 (short time energy)、音節持續時間和調製頻譜 (modulation spectrum)。然後通過支持向量機分類器構建決策樹，對兩組共14種鳥類進行識別，少部分識別率達100%，大部分在90%以上，識別正確率最低也達到85%（灰雁 graylag goose）。

2009年Acevedo等人比較了不同自動語音識別的機器學習方法在九種鳥類和三種兩棲類動物中的識別正確率。通過將10,061條叫聲樣本參數化分類 (Acevedo 2009 Automated)，支持向量機的正確率達到94.95%，決策樹識別正確率為89.20%，線性判別分析正確率僅為71.45%。

2012年，昆士蘭科技大學Towsey等人報道了一種普遍的用於動物叫聲識別的技術，用於監測野外自然環境中動物種群棲息地的變化情況。報道中的方法解釋了三點動物叫聲識別的關鍵問題，一是在自然環境中會混雜有噪音，包括不同的環境因素（大風、降雨等）；第二是現有的分類器很難做到分辨所有動物種類的大量不同叫聲；第三是有很多瀕臨滅絕的物種能夠獲得的樣本數非常少，而機器學習方法通常需要大量的樣本進行訓練。一項對昆士蘭附近的8種動物叫聲和2種環境雜訊的測試中顯示，這一方法的識別正確率在75%-99%之間。

綜合以上幾年前的研究可以發現，合適的參數化模型、降噪優化方法和分類器已經可以對於小樣本的鳥類叫聲識別的產生比較準確的結果。考慮到實際應用的需要，以及近些年來計算能力的提升和大數據流行，還需要將已經成熟的研究上運用的方法推廣到大樣本的實際數據中去。2014年，倫敦瑪麗王后大學的Stowell和Plumbley對4個鳥類聲音資料庫（其中最大的資料庫包含501種鳥類共9688條樣本）通過無監督特徵學習極大地提高了識別分類的準確率 (Stowell 2014 Automatic)。與其使用事先人工設定好的梅爾倒頻係數 (MFCC)特徵進行匹配，不如直接用原始的梅爾頻譜 (raw Mel spectra)數據讓機器自動生成特徵進行匹配。這樣不僅不需要人工調整分類標籤，還提高了分辨的準確率，進行計算的複雜度也並未增加。研究結果顯示，對SABIOD採集的巴西鳥類聲音資料庫 (LifeCLEF) (Vellinga 2014 LifeCLEF)的分析中，用特徵學習方法對原始梅爾頻譜數據分類的方法準確率達到85.4%，有監督學習的方法只有82.2%，如果用人工標記的MFCC數據，準確率只有69.3%。

一篇關於生物信息存儲技術評論文章 (August 2015 Emerging)指出，現今社交媒體，手機應用，低成本感測器，搜索引擎和大數據分析正在改變傳統生物信息記錄技術。自上世紀60年代以來生物信息從存在打孔卡上，到如今的智能手機和虛擬現實穿戴設備。

文章也總結了一些典型的生物信息相關的平台和網站。

文中指出，自動化生物聲音識別最直接的例子就是鳥類歌聲識別。由於鳥類發聲的頻率與人類大致相同，鳥類愛好者們可以通過便宜的錄音設備和手機直接進行數據的採集。Xeno-canto ( xeno-canto :: Sharing bird sounds from around the world )是由全世界的愛好者、研究者共同維護的鳥類聲音數據共享網站。迄今不到10年已經記錄了超過9000種鳥類聲音數據，大致包含了80%已知發聲鳥類。對鳥類發聲識別的研究也逐漸從傳統的模式匹配 (Anderson 1996 Template)過渡到如今的統計機器學習方法 (Stowell 2014 Automatic)。一些聲音識別的國際競賽也不斷展開，包括2012 UCR昆蟲分類競賽 ( Contest )，多標籤鳥類分類 NIPS 2013 ( Description - Multi-label Bird Species Classification )，2013信號處理機器學習 - 鳥類分類挑戰 ( Description - MLSP 2013 Bird Classification Challenge ) 等等。一些App應用也在不斷被開發出來，包括Echometer touch app ( Wildlife Acoustics ) 以及 iBatsID ( https://www.sites.google.com/site/ibatsresources/iBatsID )。SoundID ( SoundID Home Page ) 以及 Isoperla ( Isoperla - Wildlife Apps ) 等公司也開發出野生動物聲音識別的電腦程序和手機應用。眾籌項目例如 Warblr項目 ( Kickstarter &>&> Warblr: an app that recognises birds from their song by Florence Wilkinson ) （截至目前已經籌集22000歐元），BioSound項目 ( http://oxlel.zoo.ox.ac.uk/research/projects/biosound ) 都正在推廣鳥類歌聲識別。

筆者還搜索了一些目前可以在手機應用商店下載到的不同生物種類聲音自動識別的應用。Isoperla開發的Bird Song Id Automatic Recognition and Reference (Bird Song Id USA Automatic Recognition and Reference) 在蘋果商店和Google Play上可以下載到，在app store上有超過4星的評價。Warblr的iPhone應用Warblr: Identify UK bird songs and calls (Warblr: Identify UK bird songs and calls on the App Store) 可以識別220種英國鳥類，不過在App Store的評價較低。University of Southampton開發的Cicada Hunt (Cicada Hunt on the App Store) 可以識別不同種類的蟬鳴叫聲，在App Store有非常不錯的五顆星評價。

綜合以上的信息來回答題主的問題，我認為第一個問題識別出貓、狗、豬、馬等親緣關係較遠的不同動物的聲音從技術上講並沒有困難，因為這些動物的發聲器官相差很大，發出聲音的頻率等特徵差異非常明顯，在有監督學習的情況下，只要提供足夠的樣本，區分到綱、目都不難。一些發出聲音超出人耳聽覺範圍的動物包括蝙蝠、海豚等，通過合適的錄音手段，也不難判別。Towsey 2012年報道的研究中，也可以在野外有雜訊環境中區別黑噪鍾雀、大石鴴、雄性考拉、海蟾蜍、亞洲家壁虎、地棲鸚鵡、綠嘯冠鶇、澳洲鴉的聲音。

題主的第二個問題包括兩個子問題。一個是區別同一物種不同性別、年齡段的聲音，另一個是在有噪音情況下區別這些聲音。在有雜訊環境下區別動物叫聲區別的是可行的 (Towsey 2012 Toolbox)，但實際情況不同對識別的準確率影響肯定是不一樣的，我也沒有搜這方面的資料，不過我覺得直接用對人聲識別中降噪優化的方法是一個不錯的思路。

至於性別和發育在動物叫聲中的區分，我覺得目前基於已知種類生物，單獨拿出來識別性別和年齡還是可以的，比如這個研究匈牙利馬地犬叫聲的研究 (Larranaga 2015 Comparing)，識別性別就有85.13%的準確率，識別發育程度（幼年、成年、老年）有80.25%的準確率。但是要是放在一個大環境里，判定一個動物物種的同時再判斷性別和發育階段，我認為目前還沒有成熟的研究。另外，一些經驗表明，相比於性別識別，通過聲音進行年齡識別更加困難，比如我以前一直不知道江戶川柯南的配音聲優竟然是一位51歲的女性，高山南。

參考文獻

Acevedo, M. A., Corrada-Bravo, C. J., Corrada-Bravo, H., Villanueva-Rivera, L. J., Aide, T. M. (2009). Automated classification of bird and amphibian calls using machine learning: A comparison of methods. Ecological Informatics, 4(4), 206–214. Automated classification of bird and amphibian calls using machine learning: A comparison of methods
August, T., Harvey, M., Lightfoot, P., Kilbey, D., Papadopoulos, T., Jepson, P. (2015). Emerging technologies for biological recording. Biological Journal of the Linnean Society, 115(3), 731-749. Emerging technologies for biological recording
Bardeli, R., Wolff, D., Kurth, F., Koch, M., Tauchert, K. H., Frommolt, K. H. (2010). Detecting bird sounds in a complex acoustic environment and application to bioacoustic monitoring. Pattern Recognition Letters, 31(12), 1524–1534. Detecting bird sounds in a complex acoustic environment and application to bioacoustic monitoring
Cheng, J., Sun, Y., Ji, L. (2010). A call-independent and automatic acoustic system for the individual recognition of animals: A novel model using four passerines. Pattern Recognition, 43(11), 3846–3852. A call-independent and automatic acoustic system for the individual recognition of animals: A novel model using four passerines
Fagerlund, S. (2007). Bird Species Recognition Using Support Vector Machines. EURASIP Journal on Advances in Signal Processing, 2007(1), 038637. Bird Species Recognition Using Support Vector Machines
Fox, E. J. S., Roberts, J. D., Bennamoun, M. (2008). Call-Independent Individual Identification in Birds. Bioacoustics, 18(1), 51–67. CALL-INDEPENDENT INDIVIDUAL IDENTIFICATION IN BIRDS
Gahr, M. (2007). Sexual Differentiation of the Vocal Control System of Birds, 59(07), 67–105. Sexual Differentiation of the Vocal Control System of Birds
Harma, A. (2003). Automatic identification of bird species based on sinusoidal modeling of syllables. 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003. Proceedings. (ICASSP 』03)., 5, 0–3. IEEE Xplore Abstract
H?rm?, A., Jakka, J., Tikander, M., Karjalainen, M., Lokki, T., Hiipakka, J., Lorho, G. (2004). Augmented reality audio for mobile and wearable appliances. AES: Journal of the Audio Engineering Society, 52(6), 618–639.
Larra?aga, A., Bielza, C., Pongrácz, P., Faragó, T., Bálint, A., Larra?aga, P. (2015). Comparing supervised learning methods for classifying sex, age, context and individual Mudi dogs from barking. Animal Cognition, 18(2), 405–421. http://doi.org/10.1007/s10071-014-0811-7
Mcilraith, A. L., Card, H. C. (1997). Bird Song Identification Using Artificial Neural Networks, 63–66.
Somervuo, P., H?rm?, A., Fagerlund, S. (2006). Parametric representations of bird sounds for automatic species recognition. IEEE Transactions on Audio, Speech and Language Processing, 14(6), 2252–2263. IEEE Xplore Abstract
Stowell, D., Plumbley, M. D. (2014). Automatic large-scale classification of bird sounds is strongly improved by unsupervised feature learning. PeerJ, 2, e488; DOI 10.7717/peerj.488. Automatic large-scale classification of bird sounds is strongly improved by unsupervised feature learning [PeerJ]
Towsey, M. W., Planitz, B., Nantes, A., Wimmer, J., Roe, P. (2012). A toolbox for animal call recognition. Bioacoustics, 21(2), 107–125. A toolbox for animal call recognition
Vellinga, W., Planqu, R., Joly, A., Vellinga, W., Planqu, R., Rauber, A., … Task, I. (2014). LifeCLEF Bird Identification Task 2014

有生之年能看到我們實驗室的研究方向不僅僅是研究方向了，好開心。

針對動物聲音，我們實驗室測試過MFCC/PNCC/+HMM/SVM/RF這類比較傳統的特徵與分類器，還實現過比較新的，如SPD，MP等方法，也提出過一些特徵提取方法、去噪方法、VAD等。簡單來說不是難事，現在的技術完全可以實現。

最後感嘆下@Hongcheng的回答真是仔細。

你可以去查一下ICA，它在語音識別方面用的挺多，舉個例子就是在一個宴會上，有好多人在講話，每個人講話的音頻是不同的，這時你只要有n個採集音頻的麥克（n=宴會上說話的人），理論上就可以從總的嘈雜的聲音中分離出每個人說話的聲音。放在你這個問題中應該也是適用的。

只要你真正的理解了語音識別，其實這些都可以做，我正在用說話人識別做鳥聲識別，原理是一樣的，但是當然不如小樣本的傳統方法好，畢竟特徵還是有差別的，這就需要研究這個領域的一些特徵提取方法

涉及兩個問題，第一，聲源分離，第二，聲音分類。兩個都可以做到。一個關鍵問題，人的性別聲音主要有頻率決定，動物是否也一樣？或者動物不同性別的聲音是否可以從人耳來判別，可以考慮，第一構建頻率特徵，最低最高頻率範圍特徵，第二使用深度學習（其實感覺沒必要。這個有沒有用不好說，你需要大量樣本來學習特徵，因為這就是頻率相關）。然後你到哪裡搞這麼多聲音？

可以

不過離自動智能識別還很遠

目前是有多少人工，就有多少智能