把類pinterest的人工圖片分類標籤,如堆糖、花瓣的圖片分類,投到機器學習訓練,能夠自動化的準確的產生「萌」「清新」「森女系「這種情感化的分類嗎?搜索引擎的圖片搜索是不是也可以做這種訓練,然後改進搜索結果呢?

在看了堆糖、花瓣等類pinterest的基於圖片的社交分類後,突然想到的。不知道圖片處理的能力能不能做到。這樣做對搜索引擎的基於視覺的搜索結果應該是有所改進吧?疑惑中。


總體上,同意Rancho-Fang的觀點。下面提一下自己的 理解:

圖像理解分為不同的語義層次:

最底層的是特徵(feature),比如對圖像進行顏色,紋理,形狀等信息的表示;

中層是簡單概念層次,比如圖像中是否存在人臉,是否存在動物,是否存在花或者樹木等;

高層則是人對圖像的理解,對應的是人對圖像打的tag,比如圖像的風格是「萌」,「清新」還是「森女系「等;

我們可以先對圖像進行最底層(特徵層的表示),比如利用顏色直方圖,或者Bag-of-word模型對圖像進行表示;然後定義一系列中層語義的分類器,比如定義分類器A,圖像中是否是人臉,定義分類器B,圖像中是否存在花朵,分類器C,圖像中是否存在文字,分類器D,圖像色彩是鮮亮的還是灰暗的,等等,很多很多分類器,定義中層分類器的原則是,只要這個分類器能夠提供比較可信的信息就可以,而分類器的定義則可以通用一些,不受具體問題的限制,只要是圖像能提供的一些簡單信息都可以;最終,根據問題,利用上述的得到的中層語義的分類器的輸出(可以是二值的也可以是帶有置信度的),融合後訓練高層語義的分類器;

將上述這個方案和baseline進行對比(baseline就是直接用底層特徵訓練高層語義輸出),baseline存在特徵維度高,要求樣本量大,同時,如果存在多個高層語義的輸出要求,各個高層語義不好共享信息和模塊;而上面提到的這個框架的好處是,對於中層語義的分類器,單個分類器的樣本可以少一些,同時,不同高層語義之間可以共享中層語義分類器,此外,由於中層語義分類器的數目總是限定的,可以人工進行一些基於規則的調整,也就是說模型具有更好的可解釋性,而這一點在baseline中是根本不可能做到的。

此外,想做好這個問題,需要結合圖像相關的其它信息,比如tag信息,比如周邊文字信息等,當然這些信息可以看作是中層語義的範疇,最終對這些其它信息和圖像得到的中層語義信息做融合,得到最終的模型。


最近我也做了一些圖片分類、搜索、推薦方面的工作,主要是類Pinterest的國內圖片分享網站。有幾點感想。首先要達到普遍意義上情感化的圖片分類,並且達到接近人的認知判斷水平,就當前技術而言是非常難的,技術上存在無法避免的語義鴻溝問題(Semantic Gap)。普遍意義上的很難做,我們可以簡化問題,就是限定在一個合適、較小的範圍內,然後利用相關圖像處理技術,可以達到一個實用、滿意的結果。用機器學習的方法來處理,需要保證訓練集中的圖片有一定的模式,也就是這些圖片相同類的圖片盡量關聯而不同類的圖片有較少的關聯度,這樣訓練得到的模型才可以真正學到東西,具備預測分類能力。

關於圖片搜索技術,我覺的有兩個關鍵的部分,一是圖像特徵表達,就是提取圖像內容信息,包括顏色、形狀、紋理等,成為計算機可以處理的數值特徵向量。二是索引匹配排序,是用合適的搜索演算法兼顧效率和效果來搜索近鄰或相關的圖片並用排序返回給用戶。基本的有線性匹配,基於樹結構的搜索,Hash 映射匹配等。


可以根據已有的分好類或屬性來分析圖片信息,將其做成指紋信息,然後進行指紋匹配,這樣的話,可以將搜索引擎的圖片搜索實現出較好的分類。

當然,除此之外,各種方法很多很多。我對圖片搜索的研究也不是很好。

建議你多看看搜索引擎圖片檢索系統裡面所採用的相關技術啦,嘿嘿嘿。。。


學術界很多用Flickr中的圖像做實驗的, 也許會有越來越多人開始用Pinterest. 分類到情感是非常難的, 很少有人做, 能分類到具體的物體就不錯了, 英國有個博士專門做過花的分類.


基礎特徵,相關聯繫,知識表示的維度劃分.


題主現在還關注這個問題嗎。。。可以交流交流不?


很難


lz的問題不可能解決。


推薦閱讀:

微軟Bing:全球化浪潮下的搜索選擇
基於百科語料優化搜狗圖片搜索的方法實踐
[Paper Reading] 基於文檔主題結構的關鍵詞抽取方法研究
360搜索推廣效果怎麼樣?
風雲再起!360搜索在資訊端+視頻搜索領域奪魁

TAG:搜索 | 機器學習 | Pinterest | 搜索引擎 | 堆糖 | 花瓣網 |