有什麼比較好的開源搜索引擎?

搜索引擎,開源


被邀請回答這個問題,但是似乎問錯人了,問的是開源的搜索引擎,但是很抱歉,我對此領域並不熟悉。

我所知道的搜索引擎方案僅有:

1. Nutch (http://nutch.apache.org/)

2. Datapark search http://www.dataparksearch.org/

以下列表不是一個完整的搜索引擎方案,一般都不包括爬蟲,確切的說是IR或者全文檢索引擎更為恰當:

1. Zettair http://www.seg.rmit.edu.au/zettair/

2. Indri http://www.lemurproject.org/indri/

3. Terrier http://terrier.org/

4. Galago http://www.galagosearch.org/

5. Zebra https://www.indexdata.com/zebra

6. Lucene 及其變種

  • Lucene http://lucene.apache.org/
  • Solr http://lucene.apache.org/solr/
  • Elasticsearch http://www.elasticsearch.org/

7. Sphinx http://sphinxsearch.com/

8. Xiapian http://xiapian.org/


我知道三個,

  1. Lucene,http://lucene.apache.org/
  2. Xapian,http://xapian.org/
  3. Sphinx,http://sphinxsearch.com/


目前主流的開源搜索引擎主要有兩個,一個是基於Java的Apache Lucene,另一個是基於C++的Sphinx。在建立索引所需時間方面,Sphinx只需Lucene時間的50%左右,但是索引文件Sphinx比Lucene要大一倍,即Sphinx採用的是空間換時間的策略。在全文檢索速度方面,二者相差不大。全文檢索精確度方面,Lucene要優於Sphinx。另外,在加入中文分詞引擎的難易程度上,Lucene要優於Sphinx。因此,在一般情況下,選擇Lucene作為全文搜索引擎是比較好的選擇。


可以看一下悟空引擎

huichen/wukong · GitHub


太多選擇了。我只想說solr是目前最為成熟的選擇了。很多一線的互聯網公司都在使用solr。


可以看看xapian,http://xapian.org/,基於c++的,類似lucene,今年下xipian正好參加Google"s Summer of Code,加入會有人指導。


個人最看好elasticsearch。


Riot search,是一個 Go 實現的開源、分散式、簡單高效的搜索引擎。go-ego/riot


可以考慮ithunder https://github.com/sounos/ithunder

官方站點:http://xunsu.co/


lucene系, 包含solr 和 elasticsearch;

sphinx,c++開發, 簡單高性能,

Xapian,c++開發, 國內的 xunsearch 基於Xapian


Whoosh:a fast pure-Python search engine http://whoosh.ca


lucene 不錯,其他的沒用過


推薦閱讀:

我公司開發的軟體使用到了開源軟體(如消息中間件)但不修改它,有版權問題嗎,自己的代碼是否也必須開源?
每個軟體都可以開源嗎?
有什麼適合提高 C/C++ 網路編程能力的開源項目推薦?
那些開源軟體真的會有人去閱讀嗎?
開源軟體的開發是如何進行的?

TAG:開源軟體 | 搜索引擎 |