識圖搜索是怎麼做到的？

12-26

像搜狗、百度、谷歌那樣通過上傳圖片等方式搜索找到相似其他圖片是怎麼做的？

幾年之前很熱的一個研究點--基於內容的圖像檢索（Content Based Image Retrieval-CBIR）。
相關介紹以及比較綜述的論文：http://en.wikipedia.org/wiki/CBIR

基本過程可以分為--圖像預處理--提取圖像底層視覺特徵(顏色、紋理、形狀、空間位置關心等)--與庫里的圖像計算距離（看看是否匹配的上）---排序返回結果。

個人認為，對於web圖像，有一個特點就是數據量十分龐大，那麼可能相似的圖像數量也會多，所以檢索的效果會因為候選圖像的增多而會提升。當然來解決展示時候還要考慮視覺多樣性的問題，等等。

當然，過程中為了提高計算和檢索的效率，會用到一些其他的技術，例如hadoop等技術。

上面是膚淺的路子，不知道業界真正是怎麼做的，棘手的問題都有哪些？都怎麼解決的？

python有個開源庫 imagehash，樓主感興趣可以了解下

其實我更好奇美圖秀秀windows版的那個消除怎麼做到的。

入樓上的看法一致，關鍵還是在於提取圖像底層視覺特徵，遺憾的是雖然各種圖像底層視覺特徵的paper非常多，但是這些特徵是否正的反應了人對視覺的理解還是個未知數。個人覺得提取的特徵是整個圖像檢索工程的關鍵，至於使用什麼預處理，使用什麼匹配，完全可以借鑒其他搜索技術。