基於百科語料優化搜狗圖片搜索的方法實踐

01-29

轉載請註明出處：8層會議室 - 知乎專欄
原文鏈接：基於百科語料優化搜狗圖片搜索的方法實踐

背景

　　在檢索任務中，特徵的優劣直接影響最終的排序效果。研究者們一直孜孜以求的，就是希望能在浩如煙海的網路中，找到和query最相關的doc，展示給用戶。

　　在實際的工作中，我們發現有很大一部分搜索排序的效果不好，是由於query的語義理解不夠好導致。在常用的排序特徵中，如PageRank、bm25、matchrank等，都很難表達出query的具體語義。比如檢索詞「神門」，就有穴位、地名、小說等多種意義。這幾年深度學習火熱，研究者們開始嘗試使用embedding的方式來表達query的語義，在詞義的表達上確實去的了很好的效果，但針對一詞多義的情況，目前多義詞的詞向量表達的研究還比較少。

　　本文希望通過百科語料的先驗知識能夠優化query的歧義問題，主要分為三個部分，第一部分介紹本文想法來源的論文；第二部分是具體的實現方式；第三部分是總結和展望。

論文介紹

　　考慮使用百科語料作為先驗知識對query進行擴展和定位，源於論文《 Word-Entity Duet Representations for Document Ranking》中的一些方法。

　　在該論文中，作者提出了基於word和entity來對query和doc進行表達，其中entity是對query和doc中word的擴展，比如「奧巴馬」的entity包含有「白宮」、「總統」等。而entity的擴展是依據entity網路結構生成的，相當於知識圖譜的作用。當然，構建知識圖譜的成本是較高的，好在目前有一些開源的知識庫、或者半結構化的語料集能夠使用，至於針對具體任務是否合適就需要具體分析了。

　　在此基礎上，計算query和doc的相關性時，就可以去計算四個部分的特徵，① query words to document words ② query entities to document words ③ query words to document entities ④ query entities to document entities。在每一部分的具體特徵表達上，又使用了傳統的一些計算方式，特徵維度情況如下圖所示，４個ｔａｂｌｅ分別對應四個部分的特徵：

前三部分的特徵計算相對比較直觀，理解了作者的整體思路，基本就能根據不同特徵的具體意義進行計算。在第四部分query entity和doc entity的特徵計算上，需要考慮到entity之間的相關性，作者使用了TransE模型來得到網路結構中的entity向量表達，並對特徵值進行了直方圖的pooling操作，得到了離散化的特徵。

　　在此基礎上，作者還加入了attention特徵，旨在通過attention特徵來對前面的四部分特徵做優化，主要是起到增強word部分特徵作用，減弱了entity部分特徵作用，整體的計算流程如下圖所示：

　　至此，該論文中整個檢索排序演算法部分已經介紹完畢，看起來並不複雜，但是在測試上取得了較為不錯的效果。其中的細節大家有興趣可以再精讀下論文。

　　該論文的主要亮點在於提供了一種如何結合現有的知識圖譜，或者說半結構化數據來對排序特徵進行優化和擴充的方法。因為先驗知識是人為總結得到的，準確率較高，很多機器無法區分的實體詞，人類根據語境能夠很清晰的分辨出來。因此利用先驗知識優化排序是一種很好的方式。

實現方法：

　　在第一部分的論文中，作者結合先驗的方法很有效，但是當需要應用於實際線上產品的時候，卻會出現各種各樣的問題。因為搜索引擎對耗時非常敏感，同時由於數據量大，對doc信息的存儲、召回過程中特徵計算的複雜度都有要求，因此該方案很難直接應用。同時又考慮到實際要解決的一些問題及現有特徵的重複，最終筆者決定結合百科語料拓展tag語義空間來優化排序。具體如下：

1.目標問題：

　　在圖片檢索中，針對模糊意義檢索詞的檢索一直是個挑戰。模糊意義檢索詞指的是檢索詞為多義詞或指向性不夠明確，比如「李娜」可以指網球運動員李娜，也可以是歌手李娜；「神門」一般指穴位，但也可能召回小說或地名相關的圖片。

　　為了優化這一問題，筆者嘗試使用百科語料給現有詞條創建語義特徵，根據語義空間特徵優化召回圖片的排序結果。比如檢索詞「飛機頭」在正常檢索下會召回大量飛機頭部的照片，但通過語義空間可知，它跟「時尚」、「髮型」相關性很強，就可以將「飛機頭」時尚髮型的圖片排序更靠前，從而優化排序效果。

2.方法步驟：

　　基本方法是通過語義空間對檢索詞進行語義解析和定位，比如在檢索詞「飛機頭」的召回圖片中，通過語義空間特徵可以將和「時尚」、「髮型」相關的圖片排名靠前。在此過程中，使用了百科詞條的半結構化數據，來構建詞條的語義空間向量，從而計算檢索詞和圖片的語義空間特徵，主要分為以下步驟：

　　１.建立基礎語義空間

　　２.對百科詞條構建語義空間向量

　　３.檢索詞的語義空間向量定位

　　４.計算語義空間特徵

2.1 建立基礎語義空間

　　2.1.1 語義空間概念

　　在人類語言中，詞和詞之間是有關聯且相互解釋的，比如「鏟球」的語義是足球，「投籃」的語義是「籃球」。我們人腦在進行實體區分的時候也是利用了這樣的信息，比如當說「歐文」的時候我們不知道是誰，但說「籃球歐文」我們就知道說的是NBA運動員歐文。而語義空間的使用就是為了更好的定位和表達實體詞。

　　2.1.2 利用百科數據建立語義空間

　　語義空間應該是由一組比較固定、詞義明確的組成，比如」籃球」、」足球」、」演員」、」歌手」等。在百科頁面的中，經過網友編輯已經有了類似標籤，以「鏟球」為例，就有如下標籤：

　　2.1.3 構建語義空間

　　百科的詞條標籤一共有10W+，構建過程是對百科詞條標籤的篩選過程。通過將百科頁面的所有詞條的所有標籤按tf排序，選擇了top1W作為語義空間的候選詞，通過百科的anchor表述詞對這1W維的語義空間進行了過濾等，最終剩下了1800+維語義空間。在此基礎上對標籤詞進行同義詞和近義詞擴展，如「北京」擴展為「帝都」、「京城」等。

2.2 對百科詞條構建語義空間向量

　　在這一步中，我們希望在上面建立的語義空間的基礎上，能夠對每個百科詞條建立語義向量，這個向量是能夠很好的描述這個百科詞條的文本。

　　首先，我們將所有的百科詞條的正文內容取出來，進行分詞，統計詞頻，對關鍵區域如abstract和標籤部分適當增加權重，計算得到詞條語義空間的tf；然後載入全局df文件，計算標籤對應詞條的tfidf權重，即為這個詞條的語義空間。

　　詞條「大寶」語義空間結果如下：

2.3 檢索詞的語義空間向量定位

　　語義固定的詞條一般具有唯一的語義空間向量；如果詞條語義多樣，如「李娜網球」，則根據檢索詞命中語義空間tag和詞條熱度情況進行計算，就可以識別出檢索詞中詞條的語義空間特徵。

　　此外，在信息不夠的情況下，比如直接檢索「運動員李娜」，在百科詞條中有就有網球運動員、擊劍運動員、跳水運動員三個李娜，此時我們就結合詞條的熱度來進行篩選，這也是符合我們日常生活的實體詞判斷模式。比如提到「科比」一般指nba籃球員動員科比·布萊恩特而不是成都動物園的大熊貓科比。

2.4 計算語義空間特徵

　　語義空間特徵計算是根據從上面得到的檢索詞（query）的語義空間向量，再對召回doc進行特徵統計，結合bm25的變形公式計算檢索詞和pic在語義空間的相似程度。

3.優化結果：

　　在測試試驗中，通過增加基於百科的擴展特徵，使用ＬambdaＭＡＲＴ模型進行排序，ｎｄｃｇ＠１０在原來基礎上提高了０.５個百分點，在一些ｃａｓｅ上能夠體現優化效果，基本符合預期。

總結展望

　　雖然增加該特徵確實對排序效果優化起到了一定的作用，但在實際運用過程中卻同樣發現了很多問題。

　　１.特徵覆蓋度較低。在實驗數據上，該特徵的實際存在數量只佔樣本的２５％左右，大量的匹配特徵為０，這也是使用類似ｏｎｅ　ｈｏｔ方式的弊端，這使得相似性ｄｏｃ在特徵計算上存在巨大劣勢。

　　２.語義空間構建問題。在該特徵的計算上，語義空間的覆蓋能力和表達能力很大程度上決定了特徵計算的優劣。雖然通過各種過濾和擴展的方式來優化該空間，但不得不說目前的空間表達依然是簡陋的，且很難量化去評價語義空間的性能。

　　除了上述兩點問題，在具體實現上，為了節省計算量，需要將一些基本信息保留在索引中，增加了製作成本。

　　針對這些問題，在實際應用中也得到一些啟發，大致的努力方向是在結合百科語料的前提下，使用ｅｍｂｅｄｄｉｎｇ的方式來表示ｔａｇ，對ｄｏｃ和ｑｕｅｒｙ也都可以映射到向量空間中，從而達到歧義消解的目的，這樣就不需要具體的語義空間，同時特徵覆蓋也可以得到提升。

　　目前設想很好，如果能夠得到不錯的結果會繼續分享。本文中的一些問題也歡迎大家指摘，共同探討。