全文搜索+語義向量
來自專欄論文閱讀筆記
Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines
摘要
提出做法,向量相似度 結合 倒排索引,基於Elasticsearch
引言
基於倒排索引的IR系統有Sphinx、Lucene以及其擴展Elastic-Search、Solr。
文檔的語義表示僅僅是靠TF-IDF和BM25,deep learning可以把整段文本表示成向量。
我們需要把語義向量encoding成倒排索引可用的樣子。
為了倒排索引而把語義向量編碼
我們用Latent Semantic Analysis (LSA), Latent Dirichlet Allocation (LDA), Locality-sensitive hashing(LSH)來把特徵空間映射到小的空間
Vector to String Encoding Method
文本向量(編碼為文本)作為query的候選k個,
再用向量相似度重排這k個
具體的編碼方法
比如原始向量是[0.12 ,?0.13 , 0.065]
然後用rounding方法編碼出
[0P2i0d12 , 1P2ineg0d13, 2P2i0d07]
interval方法:
[ 0I10i0d1, 1I10ineg0d2, 2I10i0d0]
combined方法:
[ 0P3i0d120, 1P3ineg0d130, 2P3i0d065 ,
0I5i0d0, 1I5ineg0d2, 2I5i0d0]
High-Pass Filtering Techniques
就是去掉原始vector里太小的值,或取最大的值
Space and Time
每個文本用 LSA over TF-IDF 表示成n維向量
結果
其中MLT是baseline
未來工作,可能考慮圖像或音頻數據,或者文本的其他向量表示,如doc2vec,以及嘗試在問答領域應用。
推薦閱讀:
※實用網站推薦:你可能不知道的幾個搜索引擎
※基於圖像搜索引擎的圖文無關識別方法
※網頁如何判斷一個請求來自於爬蟲?又應該如何繞過?
※辣雞搜狗,吃棗藥丸
※風雲再起!360搜索在資訊端+視頻搜索領域奪魁