全文搜索+語義向量

07-17

全文搜索+語義向量

來自專欄論文閱讀筆記

Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines

摘要

提出做法，向量相似度結合倒排索引，基於Elasticsearch

基於倒排索引的IR系統有Sphinx、Lucene以及其擴展Elastic-Search、Solr。

文檔的語義表示僅僅是靠TF-IDF和BM25，deep learning可以把整段文本表示成向量。

我們需要把語義向量encoding成倒排索引可用的樣子。

我們用Latent Semantic Analysis (LSA)， Latent Dirichlet Allocation (LDA)， Locality-sensitive hashing(LSH)來把特徵空間映射到小的空間

文本向量（編碼為文本）作為query的候選k個，

再用向量相似度重排這k個

比如原始向量是[0.12 ,?0.13 , 0.065]

然後用rounding方法編碼出

[0P2i0d12 , 1P2ineg0d13, 2P2i0d07]

interval方法：

[ 0I10i0d1, 1I10ineg0d2, 2I10i0d0]

combined方法：

[ 0P3i0d120, 1P3ineg0d130, 2P3i0d065 ,

0I5i0d0, 1I5ineg0d2, 2I5i0d0]

就是去掉原始vector里太小的值，或取最大的值

每個文本用 LSA over TF-IDF 表示成n維向量

其中MLT是baseline

未來工作，可能考慮圖像或音頻數據，或者文本的其他向量表示，如doc2vec，以及嘗試在問答領域應用。