圖片搜索中的有趣技術

從16年年中開始對圖片搜索效果進行優化,網路中關於圖片搜索的優化的資料基本沒有,優化初期進展舉步維艱,經過幾個月的不斷的探索,深入的分析了圖片搜索自身的業務特點,展開了一系列的有挑戰、有趣、有效的工作,使得圖片搜索的整體效果得到了明顯的提升。以下一系列文章是組內同學在圖片搜索項目做的一系列非常有效、有創新性的落地工作,包括:

  • 查詢詞-圖像相關性計算
  • 查詢詞-站點相關性計算
  • 頁面文本-頁面圖像相關性計算
  • 圖片搜索中的關鍵詞抽取技術
  • LTR
  • 文本語意相關性計算
  • 文本匹配相關性計算
  • 查詢詞分析
  • 點擊模型
  • 圖像質量分析
  • 高質量結果構建
  • 頁面解析中的學習方法
  • ...不斷更新中

以上工作,涉及到多方面的機器學習技術,包括NLP、文本分析、Graph Mining、深度學習、多模態學習、用戶行為分析、LTR等技術。通過下面兩個query的效果變化來體會一下加入這些技術後的效果變化,具體的實現方法看以上相關文章(部分工作還在進行,敬請期待),希望對大家有借鑒價值,歡迎批評指正。

[銳角]

優化前:

優化後:

[南山滑雪場]

優化前:

優化後:

通過最近一年的工作,對搜索有兩點體會:

1. 圖片搜索技術確實難,表現在三點:需要對query有深入的理解,而用戶表達需求的query紛繁複雜,表達千變萬化;需要對結果doc有深入理解,而結果doc千變萬化,每個站點、每個頁面都有自己的特點;對query和doc有深入理解後,需要有技術去理解這兩個理解,不簡單。

2. 圖片搜索技術確實有趣,因為確實難,所以確實有趣,搜索技術可以說能夠涵蓋絕大部分的機器學習技術,提供了非常寬廣的發揮自身能力的空間。

推薦閱讀:

分散式資料庫與搜索引擎的搜索效率,區別在哪裡?
教你分析知乎用戶系列之陸
App搜索功能探析(附原型模板)
把飛機「黑盒」塗上顯眼顏色可行嗎?

TAG:搜索 | 机器学习 |