Apache Lucene 5.4.0 发布,Java 搜索引擎

2015年12月16日 08:10 232 次阅读 来源: 开源中国 作者: 路人甲
摘要 Lucene 是apache软件基金会一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。 Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene 最初是由Doug Cutting所撰写的,是一位资深全文索引检索专家,曾经是V-Twin搜索...

        Lucene 是apache软件基金会一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。 Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。


        Lucene 最初是由Doug Cutting所撰写的,是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎的主要开发者,后来在Excite担任高级系统架构设计师,目前从事 于一些INTERNET底层架构的研究。他贡献出Lucene的目标是为各种中小型应用程式加入全文检索功能。


Apache Lucene™ 5.4.0 发布,此版本包括大量的 bug 修复,优化和改进,现已提供下载:

http://lucene.apache.org/core/mirrors-core-latest-redir.html 


更新说明:https://lucene.apache.org/core/5_4_0/changes/Changes.html  


Lucene 5.4.0 值得关注的改进:

API 改进

 * Query.getBoost and Query.setBoost are deprecated in favour of the 
   new BoostQuery
 * The Filter class is deprecated in favour of FILTER clauses in a 
   BooleanQuery
 * DefaultSimilarity has been renamed to ClassicSimilarity to 
   prepare for the move to BM25 in Lucene 6

新特性

* New Serbian token filter
 * New DecimalDigitFilter, to fold unicode digits to latin digits
 * New UnicodeWhitespaceTokenizer, that uses Unicode's whitespace 
   definition and splits on NBSP
 * New GeoPointDistanceRangeQuery to search for geo-points within 
   a ring
 * Query caching is now enabled by default in IndexSearcher, use 
   IndexSearcher.setQueryCache(null) to disable

优化

* MatchAllDocsQuery got faster
 * Doc values now use less memory for multi-valued fields and 
   less disk in case of sparse fields
 * Two-phase iterators got a match cost API so that the costly 
   bits can be checked last

Bug 修复

* PatternTokenizer no longer hangs onto heap sized to the maximum input 
   string it's ever seen.


还可以输入136 讨论区:
评 论