模式識別

04-18

這兩天一直在看深度學習的東西，看的頭暈腦脹，不過暈乎歸暈乎，感覺對模式識別中的特徵提取有了更深一點的小理解，暫時記載下來。

　　突然覺得，模式識別的所有問題都繞不過兩個關鍵門檻，第一是分類器，第二便是特徵提取。而且幾乎所有模式識別方面的研究都是在優化這兩個問題，要麼是造一個更牛的分類器，要麼是找出一些表現力更高的特徵形式。

　　然而這個問題再最近幾年變得不那麼明朗了，分類器的研究不用多說，從剛開始的K近鄰分類器，貝葉斯分類器，到曾經風靡一時的SVM，再到目前處在浪潮之巔的DeepLearning（谷歌大腦主要就是用的這個，與其說是分類器，這應該更傾向於特徵提取），分類器越來越複雜，性能越來越高。特徵提取呢，大致也是如此。但存在這樣一個問題，就是對經典的模式分類問題，比如指紋識別，文字識別等等，有規矩可循，特徵提取自然舉足輕重（角點，拐點之類的）；但對於那些更抽象、更智能、更擬人的模式分類問題，比如美麗度識別、警覺度識別、表情識別等等，我們用什麼特徵來描述它們呢？特徵提取充當什麼樣的角色？

　　其實對於沒搞過模式識別或者是模式識別的初學者來說，這的確值得思考。做慣了傳統的識別，再去研究美麗度、表情、警覺度這些抽象的東西，確實有點不適應。究其原因，就是找不到實實在在的東西去描述美麗度、表情、警覺度這些抽象的概念，提不到特徵，分類識別自然也就無從談起。

　　難道抽象形式的分類問題無從解決了嗎？這個命題顯然是錯的，但提不到特徵怎麼解決呢？這就是問題的關鍵，不是提不到特徵，只是提取不到客觀的、可見的、可衡量的特徵。按照稀疏表示人臉識別的先驅Ma Yi的觀點：「圖像本身是圖像內容信息表示最冗餘、也是最全面的存在」，也就是說，圖像本身就是特徵的存在。換句話說，感覺實在提取不到特徵了，那就千拳歸一路，把圖像本身直接送給分類器去吧。

　　用分類器直接處理圖像本身，看似魯莽，其實蘊藏著真正至簡的大道理。每種特徵都有自身的局限性，都是有意突出圖像某些方面的特徵，簡化甚至忽略別的方面的特徵，導致的最終結果就是信息的丟失。Gabor特徵搞人臉識別效果好，但它直接忽略了整體的亮度特徵，那白人和黑人怎麼辦？所以只要能提去出具體的、客觀實在的特徵，就不可避免的存在著信息的丟失，那些丟失的次要信息，對於某些問題的影響可以忽略（如指紋識別、文字識別），但對有些主觀問題的影響卻是不可估量的。總之，這種機械的選擇特徵來替代原圖像，是機器的思維方式，不是人的思維方式。

　　當今對於那些無法用具體特徵描述的分類問題，存在兩種主流的處理方式，要麼乾脆直接把圖像送給分類器去，這是稀疏表示問題（Ma Yi在文章《Robust Face Recognition via Sparse Representation》中證實稀疏表示分類器的人臉識別性能對特徵選擇的依賴程度很小）；要麼然機器自己去學習該用那些特徵，機器根據樣本自己決定特徵的取捨，這更是一種類人的智能化的做法，這也就衍生出了當今如火如荼的東西：深度學習（Deep Learning），名噪一時的谷歌大腦就是這樣弄出來的。換句話說，如果不能判斷解決一個識別問題應該用哪些特徵，那就讓機器自己去找好了。就好像支持向量機一樣，既然人工找不到最優的分類超平面，就讓機器自己去映射，自己去找。恰巧的是，人的大腦也是這麼乾的。

　　總之，在當今這個面向數據的年代，特徵選擇這個任務越來越不適合人工來做了，典型費力不討好的工作，讓機器自己去找，更符合人的思維。但特徵提取是不存在了嗎？不是的，因為Deep Learning就是在提特徵，只不過讓機器自己來做。