模式識別
這兩天一直在看深度學習的東西,看的頭暈腦脹,不過暈乎歸暈乎,感覺對模式識別中的特徵提取有了更深一點的小理解,暫時記載下來。
突然覺得,模式識別的所有問題都繞不過兩個關鍵門檻,第一是分類器,第二便是特徵提取。而且幾乎所有模式識別方面的研究都是在優化這兩個問題,要麼是造一個更牛的分類器,要麼是找出一些表現力更高的特徵形式。
然而這個問題再最近幾年變得不那麼明朗了,分類器的研究不用多說,從剛開始的K近鄰分類器,貝葉斯分類器,到曾經風靡一時的SVM,再到目前處在浪潮之巔的DeepLearning(谷歌大腦主要就是用的這個,與其說是分類器,這應該更傾向於特徵提取),分類器越來越複雜,性能越來越高。特徵提取呢,大致也是如此。但存在這樣一個問題,就是對經典的模式分類問題,比如指紋識別,文字識別等等,有規矩可循,特徵提取自然舉足輕重(角點,拐點之類的);但對於那些更抽象、更智能、更擬人的模式分類問題,比如美麗度識別、警覺度識別、表情識別等等,我們用什麼特徵來描述它們呢?特徵提取充當什麼樣的角色?
其實對於沒搞過模式識別或者是模式識別的初學者來說,這的確值得思考。做慣了傳統的識別,再去研究美麗度、表情、警覺度這些抽象的東西,確實有點不適應。究其原因,就是找不到實實在在的東西去描述美麗度、表情、警覺度這些抽象的概念,提不到特徵,分類識別自然也就無從談起。
難道抽象形式的分類問題無從解決了嗎?這個命題顯然是錯的,但提不到特徵怎麼解決呢?這就是問題的關鍵,不是提不到特徵,只是提取不到客觀的、可見的、可衡量的特徵。按照稀疏表示人臉識別的先驅Ma Yi的觀點:「圖像本身是圖像內容信息表示最冗餘、也是最全面的存在」,也就是說,圖像本身就是特徵的存在。換句話說,感覺實在提取不到特徵了,那就千拳歸一路,把圖像本身直接送給分類器去吧。
用分類器直接處理圖像本身,看似魯莽,其實蘊藏著真正至簡的大道理。每種特徵都有自身的局限性,都是有意突出圖像某些方面的特徵,簡化甚至忽略別的方面的特徵,導致的最終結果就是信息的丟失。Gabor特徵搞人臉識別效果好,但它直接忽略了整體的亮度特徵,那白人和黑人怎麼辦?所以只要能提去出具體的、客觀實在的特徵,就不可避免的存在著信息的丟失,那些丟失的次要信息,對於某些問題的影響可以忽略(如指紋識別、文字識別),但對有些主觀問題的影響卻是不可估量的。總之,這種機械的選擇特徵來替代原圖像,是機器的思維方式,不是人的思維方式。
當今對於那些無法用具體特徵描述的分類問題,存在兩種主流的處理方式,要麼乾脆直接把圖像送給分類器去,這是稀疏表示問題(Ma Yi在文章《Robust Face Recognition via Sparse Representation》中證實稀疏表示分類器的人臉識別性能對特徵選擇的依賴程度很小);要麼然機器自己去學習該用那些特徵,機器根據樣本自己決定特徵的取捨,這更是一種類人的智能化的做法,這也就衍生出了當今如火如荼的東西:深度學習(Deep Learning),名噪一時的谷歌大腦就是這樣弄出來的。換句話說,如果不能判斷解決一個識別問題應該用哪些特徵,那就讓機器自己去找好了。就好像支持向量機一樣,既然人工找不到最優的分類超平面,就讓機器自己去映射,自己去找。恰巧的是,人的大腦也是這麼乾的。
總之,在當今這個面向數據的年代,特徵選擇這個任務越來越不適合人工來做了,典型費力不討好的工作,讓機器自己去找,更符合人的思維。但特徵提取是不存在了嗎?不是的,因為Deep Learning就是在提特徵,只不過讓機器自己來做。
推薦閱讀:
TAG:模式識別 | 深度學習DeepLearning |