全文搜索+語義向量

全文搜索+語義向量

來自專欄論文閱讀筆記

Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines

摘要

提出做法,向量相似度 結合 倒排索引,基於Elasticsearch

引言

基於倒排索引的IR系統有Sphinx、Lucene以及其擴展Elastic-Search、Solr。

文檔的語義表示僅僅是靠TF-IDF和BM25,deep learning可以把整段文本表示成向量。

我們需要把語義向量encoding成倒排索引可用的樣子。

為了倒排索引而把語義向量編碼

我們用Latent Semantic Analysis (LSA), Latent Dirichlet Allocation (LDA), Locality-sensitive hashing(LSH)來把特徵空間映射到小的空間

Vector to String Encoding Method

文本向量(編碼為文本)作為query的候選k個,

再用向量相似度重排這k個

具體的編碼方法

比如原始向量是[0.12 ,?0.13 , 0.065]

然後用rounding方法編碼出

[0P2i0d12 , 1P2ineg0d13, 2P2i0d07]

interval方法:

[ 0I10i0d1, 1I10ineg0d2, 2I10i0d0]

combined方法:

[ 0P3i0d120, 1P3ineg0d130, 2P3i0d065 ,

0I5i0d0, 1I5ineg0d2, 2I5i0d0]

High-Pass Filtering Techniques

就是去掉原始vector里太小的值,或取最大的值

Space and Time

每個文本用 LSA over TF-IDF 表示成n維向量

結果

其中MLT是baseline

未來工作,可能考慮圖像或音頻數據,或者文本的其他向量表示,如doc2vec,以及嘗試在問答領域應用。

推薦閱讀:

實用網站推薦:你可能不知道的幾個搜索引擎
基於圖像搜索引擎的圖文無關識別方法
網頁如何判斷一個請求來自於爬蟲?又應該如何繞過?
辣雞搜狗,吃棗藥丸
風雲再起!360搜索在資訊端+視頻搜索領域奪魁

TAG:自然語言處理 | 搜索引擎 |