有什麼比較好的開源搜索引擎?
01-09
搜索引擎,開源
被邀請回答這個問題,但是似乎問錯人了,問的是開源的搜索引擎,但是很抱歉,我對此領域並不熟悉。
我所知道的搜索引擎方案僅有:
1. Nutch (http://nutch.apache.org/)
2. Datapark search http://www.dataparksearch.org/
以下列表不是一個完整的搜索引擎方案,一般都不包括爬蟲,確切的說是IR或者全文檢索引擎更為恰當:
1. Zettair http://www.seg.rmit.edu.au/zettair/2. Indri http://www.lemurproject.org/indri/
3. Terrier http://terrier.org/4. Galago http://www.galagosearch.org/5. Zebra https://www.indexdata.com/zebra6. Lucene 及其變種- Lucene http://lucene.apache.org/
- Solr http://lucene.apache.org/solr/
- Elasticsearch http://www.elasticsearch.org/
7. Sphinx http://sphinxsearch.com/
8. Xiapian http://xiapian.org/我知道三個,
- Lucene,http://lucene.apache.org/
- Xapian,http://xapian.org/
- Sphinx,http://sphinxsearch.com/
目前主流的開源搜索引擎主要有兩個,一個是基於Java的Apache Lucene,另一個是基於C++的Sphinx。在建立索引所需時間方面,Sphinx只需Lucene時間的50%左右,但是索引文件Sphinx比Lucene要大一倍,即Sphinx採用的是空間換時間的策略。在全文檢索速度方面,二者相差不大。全文檢索精確度方面,Lucene要優於Sphinx。另外,在加入中文分詞引擎的難易程度上,Lucene要優於Sphinx。因此,在一般情況下,選擇Lucene作為全文搜索引擎是比較好的選擇。
可以看一下悟空引擎huichen/wukong · GitHub
太多選擇了。我只想說solr是目前最為成熟的選擇了。很多一線的互聯網公司都在使用solr。
可以看看xapian,http://xapian.org/,基於c++的,類似lucene,今年下xipian正好參加Google"s Summer of Code,加入會有人指導。
個人最看好elasticsearch。
Riot search,是一個 Go 實現的開源、分散式、簡單高效的搜索引擎。go-ego/riot
可以考慮ithunder https://github.com/sounos/ithunder官方站點:http://xunsu.co/
lucene系, 包含solr 和 elasticsearch;sphinx,c++開發, 簡單高性能,Xapian,c++開發, 國內的 xunsearch 基於Xapian
Whoosh:a fast pure-Python search engine http://whoosh.ca
lucene 不錯,其他的沒用過
推薦閱讀:
※我公司開發的軟體使用到了開源軟體(如消息中間件)但不修改它,有版權問題嗎,自己的代碼是否也必須開源?
※每個軟體都可以開源嗎?
※有什麼適合提高 C/C++ 網路編程能力的開源項目推薦?
※那些開源軟體真的會有人去閱讀嗎?
※開源軟體的開發是如何進行的?