圖片搜索中的有趣技術
01-29
從16年年中開始對圖片搜索效果進行優化,網路中關於圖片搜索的優化的資料基本沒有,優化初期進展舉步維艱,經過幾個月的不斷的探索,深入的分析了圖片搜索自身的業務特點,展開了一系列的有挑戰、有趣、有效的工作,使得圖片搜索的整體效果得到了明顯的提升。以下一系列文章是組內同學在圖片搜索項目做的一系列非常有效、有創新性的落地工作,包括:
- 查詢詞-圖像相關性計算
- 查詢詞-站點相關性計算
- 頁面文本-頁面圖像相關性計算
- 圖片搜索中的關鍵詞抽取技術
- LTR
- 文本語意相關性計算
- 文本匹配相關性計算
- 查詢詞分析
- 點擊模型
- 圖像質量分析
- 高質量結果構建
- 頁面解析中的學習方法
- ...不斷更新中
以上工作,涉及到多方面的機器學習技術,包括NLP、文本分析、Graph Mining、深度學習、多模態學習、用戶行為分析、LTR等技術。通過下面兩個query的效果變化來體會一下加入這些技術後的效果變化,具體的實現方法看以上相關文章(部分工作還在進行,敬請期待),希望對大家有借鑒價值,歡迎批評指正。
[銳角]
優化前:
優化後:
[南山滑雪場]優化前:
優化後:
通過最近一年的工作,對搜索有兩點體會:1. 圖片搜索技術確實難,表現在三點:需要對query有深入的理解,而用戶表達需求的query紛繁複雜,表達千變萬化;需要對結果doc有深入理解,而結果doc千變萬化,每個站點、每個頁面都有自己的特點;對query和doc有深入理解後,需要有技術去理解這兩個理解,不簡單。
2. 圖片搜索技術確實有趣,因為確實難,所以確實有趣,搜索技術可以說能夠涵蓋絕大部分的機器學習技術,提供了非常寬廣的發揮自身能力的空間。
推薦閱讀:
※分散式資料庫與搜索引擎的搜索效率,區別在哪裡?
※教你分析知乎用戶系列之陸
※App搜索功能探析(附原型模板)
※把飛機「黑盒」塗上顯眼顏色可行嗎?