ElasticSearch相關性打分機制

01-30

攜程運動是攜程旗下新業務，主要給用戶提供羽毛球、游泳等運動項目的場館預定。最近我們在做場館搜索的功能時，接觸到elasticsearch（簡稱es）搜索引擎。

我們展示給用戶的運動場館，在匹配到用戶關鍵詞的情況下，還會綜合考慮多種因素，比如價格，庫存，評分，銷量，經緯度等。

如果單純按場館距離、價格排序時，排序過於絕對，比如有時會想讓庫存數量多的場館排名靠前，有時會想讓評分過低的排名靠後。有時在有多家價格相同的場館同時顯示的情況下，想讓距離用戶近的場館顯示在前面，這時就可以通過es強大的評分功能來實現。

本文將分享es是如何對文檔打分的，以及在搜索查詢時遇到的一些常用場景，希望給接觸搜索的同學一些幫助。

一、Lucene的計分函數（Lucene』s Practical Scoring Function）

對於多術語查詢，Lucene採用布爾模型（Boolean model）、詞頻/逆向文檔頻率（TF/IDF）、以及向量空間模型（Vector Space Model），然後將他們合併到單個包中來收集匹配文檔和分數計算。只要一個文檔與查詢匹配，Lucene就會為查詢計算分數，然後合併每個匹配術語的分數。這裡使用的分數計算公式叫做實用計分函數（practical scoring function）。

score(q,d) = #1n queryNorm(q) #2n · coord(q,d) #3n · ∑ ( #4n tf(t in d) #5n · idf(t)2 #6n · t.getBoost() #7n · norm(t,d) #8n ) (t in q) #9n

#1 score(q, d) 是文檔 d 與查詢 q 的相關度分數
#2 queryNorm(q) 是查詢正則因子（query normalization factor）
#3 coord(q, d) 是協調因子（coordination factor）
#4 #9 查詢 q 中每個術語 t 對於文檔 d 的權重和
#5 tf(t in d) 是術語 t 在文檔 d 中的詞頻
#6 idf(t) 是術語 t 的逆向文檔頻次
#7 t.getBoost() 是查詢中使用的 boost
#8 norm(t,d) 是欄位長度正則值，與索引時欄位級的boost的和（如果存在）

詞頻（Term frequency）

術語在文檔中出現的頻度是多少？頻度越高，權重越大。一個5次提到同一術語的欄位比一個只有1次提到的更相關。詞頻的計算方式如下：

tf(t in d) = √frequency #1n

#1 術語 t 在文件 d 的詞頻（tf）是這個術語在文檔中出現次數的平方根。

逆向文檔頻率（Inverse document frequency）

術語在集合所有文檔里出現的頻次。頻次越高，權重越低。常用詞如 and 或 the 對於相關度貢獻非常低，因為他們在多數文檔中都會出現，一些不常見術語如 elastic 或 lucene 可以幫助我們快速縮小範圍找到感興趣的文檔。逆向文檔頻率的計算公式如下：

idf(t) = 1 + log ( numDocs / (docFreq + 1)) #1n

#1 術語t的逆向文檔頻率（Inverse document frequency）是：索引中文檔數量除以所有包含該術語文檔數量後的對數值。

欄位長度正則值（Field-length norm）

欄位的長度是多少？欄位越短，欄位的權重越高。如果術語出現在類似標題 title 這樣的欄位，要比它出現在內容 body 這樣的欄位中的相關度更高。欄位長度的正則值公式如下：

norm(d) = 1 / √numTerms #1n

#1 欄位長度正則值是欄位中術語數平方根的倒數。

查詢正則因子（Query Normalization Factor）

查詢正則因子（queryNorm）試圖將查詢正則化，這樣就能比較兩個不同查詢結果。儘管查詢正則值的目的是為了使查詢結果之間能夠相互比較，但是它並不十分有效，因為相關度分數_score 的目的是為了將當前查詢的結果進行排序，比較不同查詢結果的相關度分數沒有太大意義。

查詢協調（Query Coordination）

協調因子（coord）可以為那些查詢術語包含度高的文檔提供「獎勵」，文檔里出現的查詢術語越多，它越有機會成為一個好的匹配結果。

二、查詢時權重提升（Query-Time Boosting）

在搜索時使用權重提升參數讓一個查詢語句比其他語句更重要。查詢時的權重提升是我們可以用來影響相關度的主要工具，任意一種類型的查詢都能接受權重提升（boost）參數。將權重提升值設置為2，並不代表最終的分數會是原值的2倍；權重提升值會經過正則化和一些其他內部優化過程。儘管如此，它確實想要表明一個提升值為2的句子的重要性是提升值為1句子的2倍。

三、忽略TF/IDF（Ignoring TF/IDF）

有些時候我們不關心 TF/IDF，我們只想知道一個詞是否在某個欄位中出現過，不關心它在文檔中出現是否頻繁。

constant_score 查詢

constant_score 查詢中，它可以包含一個查詢或一個過濾，為任意一個匹配的文檔指定分數，忽略TF/IDF信息。

function_score 查詢（function_score Query）

es進行全文搜索時，搜索結果默認會以文檔的相關度進行排序，如果想要改變默認的排序規則，也可以通過sort指定一個或多個排序欄位。但是使用sort排序過於絕對，它會直接忽略掉文檔本身的相關度。

在很多時候這樣做的效果並不好，這時候就需要對多個欄位進行綜合評估，得出一個最終的排序。這時就需要用到function_score 查詢（function_score query），它允許我們為每個與主查詢匹配的文檔應用一個函數，以達到改變甚至完全替換原始分數的目的。 ElasticSearch預定義了一些函數：

weightn為每個文檔應用一個簡單的而不被正則化的權重提升值：當 weight 為 2 時，最終結果為 2 * _score
field_value_factorn使用這個值來修改 _score，如將流行度或評分作為考慮因素。
random_scoren為每個用戶都使用一個不同的隨機分數來對結果排序，但對某一具體用戶來說，看到的順序始終是一致的。
Decay functions — linear, exp, gaussn以某個欄位的值為標準，距離某個值越近得分越高。
script_scoren如果需求超出以上範圍時，用自定義腳本完全控制分數計算的邏輯。n它還有一個屬性boost_mode可以指定計算後的分數與原始的_score如何合併，有以下選項：
multiplyn將分數與函數值相乘（默認）
sumn將分數與函數值相加
minn分數與函數值的較小值
maxn分數與函數值的較大值
replacen函數值替代分數

field_value_factor

field_value_factor的目的是通過文檔中某個欄位的值計算出一個分數，它有以下屬性：

field：指定欄位名
factor：對欄位值進行預處理，乘以指定的數值（默認為1）
modifier將欄位值進行加工，有以下的幾個選項：

none：不處理
log：計算對數
log1p：先將欄位值+1，再計算對數
log2p：先將欄位值+2，再計算對數
ln：計算自然對數
ln1p：先將欄位值+1，再計算自然對數
ln2p：先將欄位值+2，再計算自然對數
square：計算平方
sqrt：計算平方根
reciprocal：計算倒數

假設有一個場館索引，搜索時希望在相關度排序的基礎上，評分(comment_score)更高的場館能排在靠前的位置，那麼這條查詢DSL可以是這樣的：

{n "query": {n "function_score": {n "query": {n "match": {n "name": "游泳館"n } },n "field_value_factor": {n "field": "comment_score",n "modifier": "log1p",n "factor": 0.1n },n "boost_mode": "sum"n } }}n

這條查詢會將名稱中帶有游泳的場館檢索出來，然後對這些文檔計算一個與評分(comment_score)相關的分數，並與之前相關度的分數相加，對應的公式為：

_score = _score + log(1 + 0.1 * comment_score)n

隨機計分（random_score）

這個函數的使用相當簡單，只需要調用一下就可以返回一個0到1的分數。

它有一個非常有用的特性是可以通過seed屬性設置一個隨機種子，該函數保證在隨機種子相同時返回值也相同，這點使得它可以輕鬆地實現對於用戶的個性化推薦。

衰減函數(Decay functions)

衰減函數（Decay Function）提供了一個更為複雜的公式，它描述了這樣一種情況：對於一個欄位，它有一個理想的值，而欄位實際的值越偏離這個理想值（無論是增大還是減小），就越不符合期望。有三種衰減函數——線性（linear）、指數（exp）和高斯（gauss）函數，它們可以操作數值、時間以及經緯度地理坐標點這樣的欄位。三個都能接受以下參數：

originn代表中心點（central point）或欄位可能的最佳值，落在原點（origin）上的文檔分數為滿分 1.0。
scalen代表衰減率，即一個文檔從原點（origin）下落時，分數改變的速度。
decayn從原點（origin）衰減到 scale 所得到的分數，默認值為 0.5。
offsetn以原點（origin）為中心點，為其設置一個非零的偏移量（offset）覆蓋一個範圍，而不只是原點（origin）這單個點。在此範圍內（-offset <= origin <= +offset）的所有值的分數都是 1.0。

這三個函數的唯一區別就是它們衰減曲線的形狀，用圖來說明會更為直觀衰減函數曲線

如果我們想找一家游泳館：

它的理想位置是公司附近
如果離公司在5km以內，是我們可以接受的範圍，在這個範圍內我們不去考慮距離，而是更偏向於其他信息
當距離超過5km時，我們對這家場館的興趣就越來越低，直到超出某個範圍就再也不會考慮了

將上面提到的用DSL表示就是：

{n "query": {n "function_score": {n "query": {n "match": {n "name": "游泳館"n } },n "gauss": {n "location": {n "origin": { "lat": 31.227817, "lon": 121.358775 },n "offset": "5km",n "scale": "10km"n } },n "boost_mode": "sum"n } }}n

我們希望租房的位置在(31.227817, 121.358775)坐標附近，5km以內是滿意的距離，15km以內是可以接受的距離。

script_score

雖然強大的field_value_factor和衰減函數已經可以解決大部分問題，但是也可以看出它們還有一定的局限性：

這兩種方式都只能針對一個欄位計算分值
這兩種方式應用的欄位類型有限，field_value_factor一般只用於數字類型，而衰減函數一般只用於數字、位置和時間類型

這時候就需要script_score了，它支持我們自己編寫一個腳本運行，在該腳本中我們可以拿到當前文檔的所有欄位信息，並且只需要將計算的分數作為返回值傳回Elasticsearch即可。

註：使用腳本需要首先在配置文件中打開相關功能：

script.groovy.sandbox.enabled: truenscript.inline: onnscript.indexed: onnscript.search: onnscript.engine.groovy.inline.aggs: onn

現在正值炎熱的夏天，游泳成為很多人喜愛的運動項目，在滿足用戶搜索條件的情況下，我們想把游泳分類的場館排名提前。此時可以編寫Groovy腳本（Elasticsearch的默認腳本語言）來提高游泳相關場館的分數。

return doc[category].value == 游泳 ? 1.5 : 1.0n

接下來只要將這個腳本配置到查詢語句：

{n "query": {n "function_score": {n "query": {n "match": {n "name": "運動"n } },n "script_score": {n "script": "return doc[category].value == 游泳 ? 1.5 : 1.0"n } } }}n

當然還可以通過params屬性向腳本傳值，讓推薦更靈活。

{n "query": {n "function_score": {n "query": {n "match": {n "name": "運動"n } },n "script_score": {n "params": {n "recommend_category": "游泳"n }， "script": "return doc[category].value == recommend_category ? 1.5 : 1.0"n } } }}n

scirpt_score 函數提供了巨大的靈活性，我們可以通過腳本訪問文檔里的所有欄位、當前評分甚至詞頻、逆向文檔頻率和欄位長度正則值這樣的信息。

同時使用多個函數

上面的例子都只是調用某一個函數並與查詢得到的_score進行合併處理，而在實際應用中肯定會出現在多個點上計算分值併合並，雖然腳本也許可以解決這個問題，但是應該沒人願意維護一個複雜的腳本。

這時候通過多個函數將每個分值都計算出再合併才是更好的選擇。在function_score中可以使用functions屬性指定多個函數。它是一個數組，所以原有函數不需要發生改動。同時還可以通過score_mode指定各個函數分值之間的合併處理，值跟最開始提到的boost_mode相同。

下面舉個例子介紹多個函數混用的場景。我們會向用戶推薦一些不錯的場館，特徵是：範圍要在當前位置的5km以內，有停車位很重要，場館的評分（1分到5分）越高越好，並且對不同用戶最好展示不同的結果以增加隨機性。

那麼它的查詢語句應該是這樣的：

{n "query": {n "function_score": {n "filter": {n "geo_distance": {n "distance": "5km",n "location": {n "lat": $lat,n "lon": $lng } } },n "functions": [n {n "filter": {n "term": {n "features": "停車位"n } },n "weight": 2n },n {n "field_value_factor": {n "field": "comment_score",n "factor": 1.5n } },n {n "random_score": {n "seed": "$id"n } }n ],n "score_mode": "sum",n "boost_mode": "multiply"n } }}n

註：其中所有以$開頭的都是變數。這樣一個場館的最高得分應該是2分（有停車位）+ 7.5分（評分5分 * 1.5）+ 1分（隨機評分）。

總結

本文主要介紹了 Lucene 是如何基於 TF/IDF 生成評分的，以及 function_score 的使用。實踐中，簡單的查詢組合就能提供很好的搜索結果，但是為了獲得具有成效的搜索結果，就必須反覆推敲修改前面介紹的這些調試方法。

通常，經過對策略欄位應用權重提升，或通過對查詢語句結構的調整來強調某個句子的重要性這些方法，就足以獲得良好的結果。有時，如果 Lucene 基於詞的 TF/IDF 模型不再滿足評分需求（例如希望基於時間或距離來評分），則需要使用自定義腳本，靈活應用各種需求。

【作者簡介】孫咸偉，後端開發一枚，在攜程技術中心市場營銷研發部負責「攜程運動」項目的開發和維護。

沒看夠？更多來自攜程技術人的一手乾貨，歡迎搜索關注「攜程技術中心」微信公號哦~