nlpir-ictclas發布lucene/solr分詞支持包
近日,在北京理工大學大數據搜索與挖掘實驗室團隊成員的不懈努力下,為了方便大家使用,NLPIR-ICTCLAS發布了lucene/solr的分詞支持包功能。系統通過此次升級進一步提升了功能效果,為數據的提取提供了保障。
NLPIR-ICTCLAS分詞系統前身為2000年發布的ICTCLAS詞法分析系統,由張華平博士在多年研究工作積累的基礎上研發出來,從2009年開始,為了和以前工作進行大的區隔,並推廣NLPIR自然語言處理與信息檢索共享平台,調整命名為NLPIR分詞系統,主要功能包括中文分詞;英文分詞;詞性標註;命名實體識別;新詞識別;關鍵詞提取;支持用戶專業詞典與微博分析。
詞法分析是自然語言處理的基礎與關鍵。在中文自然語言處理中,詞是最小的能夠獨立活動的有意義的語言成分。漢語是以字為基本書寫單位,詞語之間沒有明顯的區分標記,因此進行中文自然語言處理通常是先將漢語文本中的字元串切分成合理的詞語序列,然後再在此基礎上進行其它分析處理。中文分詞是中文信息處理的一個基礎環節,已被廣泛應用於中文文本處理、信息提取、文本挖掘等應用中。
NLPIR-ICTCLAS系統支持多種編碼(GBK編碼、UTF8編碼、BIG5編碼)、多種操作系統(Windows, Linux, FreeBSD等所有主流操作系統)、多種開發語言與平台(包括:C/C++/C#,Java,Python,Hadoop等。這次升級可以直接把lucene/solr支持包功能內嵌到分詞系統里,增強了系統的搜索速度和分詞的準確率,是為了適應系統需求,提高客戶使用的效率。
Lucene是一個開放源代碼的全文檢索引擎工具包,即它不是一個完整的全文檢索引擎,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎。Lucene的目的是為軟體開發人員提供一個簡單易用的工具包,以方便的在目標系統中實現全文檢索的功能,或者是以此為基礎建立起完整的全文檢索引擎.
Solr是一個高性能,採用Java5開發,基於Lucene的全文搜索伺服器。同時對其進行了擴展,提供了比Lucene更為豐富的查詢語言,同時實現了可配置、可擴展並對查詢性能進行了優化,並且提供了一個完善的功能管理界面,是一款非常優秀的全文搜索引擎。它對外提供類似於Web-service的API介面。用戶可以通過http請求,向搜索引擎伺服器提交一定格式的XML文件,生成索引;也可以通過Http Solr Get操作提出查找請求,並得到XML格式的返回結果。
NLPIR-ICTCLAS系統在長時間的實驗和總結中,以滿足客戶的需求為基礎,不斷的提高系統的流暢性和準確率,為廣大使用者提供一個安全、高效的使用環境。
推薦閱讀: