搜索引擎評價體系應該分幾個方面?建立怎樣的指標?


只說搜索質量,召回率,索引量和相應速度是技術指標,在此不討論
干這活兒累計兩年半.
一年的Google quality rater,一年半淘寶搜索評測.

Google的做法:
1.單個item與關鍵詞匹配度(相關性)
五個等級:
vital:官方網站類
useful:極其相關,或包含大量相關信息
relevant:相關的
slightly relevant:有點相關,提及的
Off-Topic:完全無關
附加:spam,porn等幾個附件選項,獨立可選,但與以上不衝突

網上流傳的那份Google的 &< Quality Rater Guidelines &> 說的就是這部分.
http://jianghaiming.com/seo/google-quality-rater-guildlines/

2.side by side(ranking)
黑盒測試,兩組排序對比:
同序位不同item的相關性對比
同item不同排位對比
偏主觀,兩組關係評級分為about the same,slightly better,better,much better.

其餘還有針對圖片的,視頻的評測,基本只做相關性評測.
PS:還有專門的色情網站評測,不過那個項目的活兒我沒接. :)

淘寶的做法:
因為是購物搜索,基本只做相關性評測,但也做A/B對比
相關性等級基本只分為good,fair,bad.
根據不同質量結果在A/B抽樣數據中的佔比,評價演算法調整的好壞.
並根據bad case做進一步調優.
side by side測試也做,但投入產出比太小.只在部分特殊項目中嘗試.

另外,Yahoo!是以DCG指標來衡量搜索結果質量
http://baike.baidu.com/view/1668961.htm


最基本的兩個指標是準確率和召回率。

準確率為檢索出的相關文檔數與檢出文檔數的比值。
召回率為系統檢索出的相關文檔數與實際相關文檔數的比值。
舉個例子,假設查詢q為一個給定的查詢式,而包含q的相關文檔集Rq為下面的文檔集:
{d2,d5,d9,d12,d23}
而針對q,搜索系統檢索出的相關文檔集為:
Aq={d3,d4,d5,d6,d8,d10,d12,d19,d20,d23}
則搜索系統搜索到的,能呈現給用戶的正確文檔的結果集為
Ra={d5,d12,d23}
那麼針對此次查詢,準確率P=3/5=0.6,召回率R=3/15=0.2。
從這個例子可以看出,準確率和召回率是基於對檢出文檔集中的所有文檔都進行檢查的基礎上得到的。但實際上,由於檢索系統對檢索詞返回的結果比較多,系統一般不會一次性地將檢出文檔集中的所有結果都返回給用戶,而是先對A中文檔根據相關度進行排序,然後由用戶從第一篇文檔開始查看排序列表。在這種情況下,準確率和召回率指標會隨著用戶對排序列表的檢查而變化。這個時候,準確率/召回率曲線更能清晰地描述評價結果。
一般情況下,隨著準確率的增加,召回率一般呈下降趨勢。
大致是這樣一個曲線http://images.51cto.com/files/uploadimg/20100817/0930024.jpg

隨著測試集規模的擴大以及人們對評測結果理解的深入,更準確地反映系統性能的新評價指標也出現了,主要下面幾個,都是基於pooling技術的單值評價方法:

  1. MAP(Mean Average Precision,已檢出相關文獻的平均準確率均值)。這個是近幾年常用的評價標準。單個查詢的平均準確率是逐個考察排序中每個新的相關文檔,然後對其準確率值進行平均後的平均值。查詢集合的平均準確率是每個查詢的平均準確率MAP的平均值。平均準確率是反映系統在全部查詢上性能的單值指標。系統檢索出來的相關文檔蚊紙越靠前(rank越小),MAP就可能月高。如果系統沒有返回相關文檔,準確率默認為0.
  2. P@10,是系統針對查詢返回的前10個結果的準確率。
  3. R準確率,單個查詢的R準確率是檢索出R篇文檔時的準確率。
  4. 準確率直方圖,在多個查詢下,分別計算每一查詢下的R準確率,計算其差值,並用直方圖表示。

這些方法都是只考慮經過相關性判斷後的相關文檔排序,對判斷不相關文檔與未經判斷的文檔的差別並沒有考慮。

一些特殊的評價方法(此處略去N個字,有興趣的自己去google一下好了)——

  • bpref(binary preference-based measure)
  • N(D)CG(Normalized (Discounted) Cumulated Gain)
  • 單一相關文檔檢索評價

在國際信息檢索評測方面,有影響的是由美國NIST和DARPA主持的TREC(Text REtrieval Conference)、日本NII(National Insitute of Informatics)主持的NTCIR(NII Test Collection for Information Retrieval Systems)以及歐盟的CLEF(Cross Language Evaluation Forum)。其中TREC涉及文本檢索的多個任務或側面,例如常規檢索、文本過濾、互動式檢索、視頻檢索、網路檢索、跨語言檢索等等。NTCIR評測的重點是日語和其他亞洲語言的跨語言檢索。CLEF的評測重點是歐洲語言之間的跨語言檢索。雖然他們仨的測試主題和側重點有差別,但是都有共同之處——

  • 提供科學的統一的測試標準、訓練語料、測試語料和評測軟體,似的被測試系統在公開工作的基礎上進行,從而真實地反映各個被測試系統的性能。
  • 提供一個供大家交流研究開發經驗的論壇。

國內的信息檢索評測比較有名的有863信息檢索評測和SEWN中文Web評測。

當然,還包括大家說的查詢速度、呈現的網頁質量、網頁更新速度、結果去重、系統穩定性,從用戶的使用角度來說,也是很重要的指標~怎麼對檢索系統進行這些方面的評價,還木有研究過…

上面很多指標和方法沒有作詳細介紹,不然就太多了~大家有興趣的自己去搜搜看吧: )

話說知乎的答案編輯不能上圖也不能編輯公式,是個問題~

大家請指正,指正,各種指正……


借用開復老師的答案:

搜索的質量評估通常是看幾個指標:

  1. 相關度 -- 請受過訓練的人來評估每個引擎的前幾個結果是否相關,評估時不參考結果的來源、引擎的品牌等。指標有DCG等[1]。
  2. 索引規模 -- 每個引擎知道自己的規模,也就是有多少網頁(除去重複的),但是不知道對方的規模,可是可以根據兩方搜索結果的爬取,得知有多少網頁是我有他無,或他有我
    無,從此得知大約兩個引擎的索引規模。比較有挑戰的一點是如果索引規模大了可能導致相關度下降(因為有些長尾結果會排序太靠前)。成熟的商業全網搜索引擎索引規模在10billion以上.
  3. 速度 -- 就是輸入搜索詞,得到結果的時間。很多測試告訴我們0.2秒的速度會導致用戶滿意度的落差,和未來使用的頻率。
  4. 新鮮度 -- 就是能爬到多新的內容,而且要有一定規模(只有新聞內容不算夠新)。

【1】http://baike.baidu.com/view/1668961.htm


搜索引擎重要的兩個參數是準確率和召回率
假設有100素材,和你搜索關鍵詞相關的素材是80篇。
當你搜索時,返回了90篇,其中相關的素材是70篇
那麼搜索準確率是70/90,召回率是70/80


補充一個MRR,用於導航型搜索測量查准性。翻譯成中文就是第一個正確結果的平均排名倒數,根據用戶點擊得到。比如,用戶搜索詞A,希望找到相關結果B,B出現位置越靠前,用戶會對結果排序越滿意。如果B出現在第一位,RR=1/1=1,出現在第二位,RR=1/2=0.5.如果用戶滿意的結果,可以認為結果出現在無窮大的位置,那麼其RR=0.MRR就是綜合考慮多個主題的RR值求平均即為MRR。MRR是0到1之間的一個數,越接近1表明搜索排序越好。


我最近也在看搜索引擎的書籍,整理了一些筆記,影響網頁排名的若干因素,歡迎共同交流學習。


Mark,有時間來填坑,現在答不知道還有沒有人看得到了~


推薦閱讀:

如何提高情報收集能力?
李彥宏是一個怎樣的人?
自然語言搜索引擎 Lexxe 怎麼樣?
搭建一個無線領域的全網通用搜索,需要多少核心技術人員?買這麼個團隊要多少錢?

TAG:搜索引擎營銷SEM | 搜索引擎優化SEO | 本地購物搜索引擎 | 搜索引擎 |