語音識別和圖像識別的區別?

我是做語音識別的,知道這是模式識別的一個子方向;想了解一下和圖像識別有什麼區別呢?謝謝。


在模式識別中分類器的設計方面兩者有很多相似之處,例如神經網路,SVM,deep learning等典型的分類器在兩者的識別中都可以使用。因此主要區別在於特徵提取演算法的不同。

語音是一維時域信號,圖像是二維空域信號。

語音採樣頻率相對於採樣時長而言是很高,而且考慮到聲波的震動特性與持續性,語音信號在有聲區域是一種稠密信號,因此一段語音信號中的局部信息,或者說相鄰的某幾個採樣點的信息量是很少的,因此在語音特徵提取通常採用窗口模式,對窗口內的信號的統計特性進行分析,基於頻域變換的特徵提取演算法十分常見。

圖像的空間頻率相對於圖像大小而言並不高,而且圖像中存在大量的平滑區域,特徵分布相對稀疏,局部特徵的價值也就更加重要。近幾年來廣泛得到應用的SIFT、HOG、稀疏編碼等都是基於這一理念。圖像特徵更加強調旋轉、縮放、光照等方面的不變性,相對於語音信號,圖像特徵的模式一般來講更加複雜,冗餘信息的分離難度也比較大。

從研究的角度看,我個人認為圖像識別研究中對於圖像特徵提取演算法的研究空間更加廣闊,難度也更大。而語音信號對於一種固定的語言來說,比如漢語,單音節的模式類數量相對較少,因此語音識別相對簡單,而且已經基本上實現並達到了產品級標準。難度主要在於後端的基於上下文的語義識別,也就是自然語言理解,當然這一點對於文本也是一樣的,並不一定局限於語音。所以如果你是打算搞研究的話,我建議你要麼直接去做自然語言理解(甚至可以是基於文本的),要麼去做圖像,單純的語音識別發展前景一般。

PS:相比之下,我倒是覺得語音信號處理裡面盲源分離與去噪更有研究價值,儘管ICA已經提出多年了,但是應用仍然停留在結構化環境下,真正複雜非結構化環境中的語音提取還是很有應用價值的,尤其是在軍事領域,而且相關研究還跟無線感測器網路中的非視距感知,雷達陣列以及「穿牆」探測等技術有緊密的聯繫,不過這方面的研究對於電子工程專業的信號處理理論基礎要求較高,一般學計算機出身的難度要大些,而圖像處理和識別的話在國外大多還是CS出身的人在搞。


語音識別與圖像識別的區別:

1)語音識別分很多種:命令識別,離散/連續語音識別,特定人/非特定人+離散/連續+語音識別

2)命令、離散識別,有些方法 跟 圖像識別 還有些像,連續語音識別差得就很多了

連續語音識別常用識別方法:

GMM/DNN/CNN+HMM,HMM用來處理時間維度上的關係,GMM/DNN/CNN用來做聲學建模,解碼還需要用到語言模型(Language Model);非特定人,跟transfer learning還有點關係。

總之:語音識別要比圖像識別複雜得多,圖像識別的基本套路就是「特徵提取+訓練分類器(神經網路把這倆統一了)」,語音識別還需要處理時間維度上信息的變化。

寫了這麼多,才發現你是做語音的。。。那我再說點圖像吧:

圖像的特徵提取有SIFT、HOG、Fisher kernel等基本是手動設置提取方式,,然後輸入到分類器來訓練分類器參數;神經網路一類的演算法(Deep learning)把特徵提取與分類器放在一個模型里統一特徵提取+分類器,特徵提取不再是手動設定,而是學習得到(可以一想像下,CNN的卷積操作)。

如果做個類比的話:

語音識別≈圖像標註(image labeling≈detection+classification).


語音,短時傅里葉,語譜圖,就變成圖像啦,直接看諧波結構。


圖像識別,是指利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術。結合用戶使用場景,能夠在複雜背景條件下準確地識別和提取圖片中的主體信息,並使用當前人工智慧領域較為先進的深度學習技術對獲取到的圖片信息進行語義分析,最終由搜索引擎研發團隊進行大數據分析和處理,形成以圖像元素為核心的高度智能的資料庫。目前做圖像識別這方面的不是太多,南京輕搜這家公司就是做這方面的,你可以去了解一下圖像識別這方面的內容


推薦閱讀:

如何看待科技部公布的首批國家新一代人工智慧開放創新平台?
如何調戲微軟小娜?
現在是否有故意不通過圖靈測試的 AI ?
如何評價科大訊飛·譯唄 隨身翻譯器?

TAG:人工智慧 | 中文語音識別 | 圖像識別 |