基於圖像搜索引擎的圖文無關識別方法
一、摘要
目前互聯網知識問答社區正在蓬勃發展,例如國外的quora,國內的悟空問答、知乎。一般來說,在這些知識問答社區,答案排序演算法會預測用戶對於不同答案的偏好進行排序,其排序模型往往會考慮答案在一段時間內的點擊率、點贊率、分享率、用戶平均閱讀時間等進行排序。大部分情況下,這樣的排序演算法是比較有效的,也能篩選出符合用戶需求的答案。 但有時候這樣的演算法也會被一些內容迷惑,比如有一些答案放了一些比較博眼球的內涵圖片,吸引了大量用戶的點擊和點贊,但是並沒有提供更多有價值的信息,這樣對於正常的內容來說就不太公平了。這是一種典型的圖文無關案例。所謂的圖文無關指的是內容(此演算法主要在悟空問答上進行嘗試,後面用答案代稱此處的內容)中的配圖、和內容文字不匹配,比如一個很嚴謹的歷史問題,配了一個美女圖片,或者一個科技領域的答案,配了一張風景圖片。這樣的答案往往點擊率不低,雖然內容可能寫得還可以,但是相對於沒有圖片的答案來說,是相當不公平的。對於社區來說,這樣亂配圖會嚴重帶壞社區的氛圍。
傳統的圖文無關內容識別方法往往基於圖像識別技術並針對某一類特定問題,比如色情圖片識別,可以識別出有色情意味的圖片,如果用戶發布的文字內容沒有色情詞,就可以認定為圖文無關。再比如OCR(Optical Character Recognition) 技術,可以從圖片中抽取出現在圖片中的文字信息,然後通過比對抽取的文字信息和用戶發布的文字內容,確認是否圖文無關。另外對於特別是大型的網路社區,由於用戶發布的圖文無關內容五花八門,我們需要一種通用方法,能夠低成本的解決各種圖文無關問題。一個比較容易想到的方法是用近年來不斷成熟的圖像分類技術,對圖像分類然後再用文本分類器判別用戶發布的文字內容是否和圖片屬於同一類,但是實際中缺乏一個和圖像分類對應的文本分類體系(典型的圖像分類標籤包括:猴子、貓、人物等;而文本內容的分類標籤的例子包括:歷史、財經、股票、互聯網等),導致這種方法理論上可行,實際上效果很差。
由於在問答社區中,作者配圖大部分是通過搜索引擎去搜索圖片,粘貼過來,所以答案中的配圖,大部分都來至於互聯網;本文提出了一種基於圖像搜索引擎的圖文無關內容通用識別方法,實際應用中識別準確率和準確率都非常高。
二、演算法流程
搜索引擎天生的優勢就是索引了全網的內容,擁有豐富的資源,本演算法也是充分利用搜索引擎這一特性來獲取圖片的關鍵信息。給定圖片G和文字文本W,該方法的流程如下:
- 把圖片G上傳到圖片搜索引擎,查找圖片的來源
- 提取前K個來源的網頁title
- 將此K個title分詞以及詞性標註,合併得到圖片的關鍵詞描述M
- 計算M和W的相關性,得到一個打分S
- 如果相關性打分S低於一個閾值,則認為圖片G和文本W不相關
本質上,該方法是利用圖片搜索引擎查找到用戶給內容配圖時,通過搜索引擎關鍵字搜索到的圖片的網頁;通過這些網頁來獲取該圖片的關鍵描述信息,再對比這些關鍵信息,來達到判斷是否圖文相關。
三、相關性計算
在本文提及的方法中,我們採用GBDT演算法來訓練一個相關性打分模型;特徵主要有:
- 命中關鍵詞個數
- 關鍵詞中名詞個數
- IDF
- BM25
- 平均命中個數
- 同義詞命中個數
- 等等
四、訓練集構造
文中涉及相關性打分採用的是GBDT訓練的打分模型,必然涉及到訓練集如何構造,經過分析,具有高分享量的回答,以及高評級作者寫的回答,配圖都比較相關;我們選擇這一部分回答並去掉首尾兩張圖作為正樣本;這些圖隨機匹配一個回答作為負樣本。
五、實驗效果
隨機sample被識別出來的107個答案,通過人工評測,準確率達到0.9。
推薦閱讀:
※如何設計一個定向Web爬蟲?
※google搜索高級命令語法?
※微軟是否應該放棄必應?
※這樣使用搜索引擎,真的爽爆了!
※請問卡飯網是怎麼欺騙搜索引擎的?
TAG:搜索引擎 |