Java堂  


Lucene中文分词 “庖丁解牛”

归档在: JavaPlateform, SearchEngine — Jet @ 3:56 下午
Tags: ,
原文出处: http://www.javatang.com/archives/2007/03/03/5603105.html
作者: Jet Mah from Java堂
声明: 可以非商业性任意转载, 转载时请务必以超链接形式标明文章原始出处、作者信息及此声明!

一位网名为Qieqie的网友在JaveEye上发布了自己写的Lucene中文分词包-庖丁解牛。

高效率:我的赛扬PC 1 秒解析 >>> 20000汉字的词语 (实际测试结果数据,可达1秒10万+汉字。)
高可维护性:使用“庖丁”隐喻,形象明晰
高灵活性,可扩展:OOD

主要发布文件如下:

Paoding.rar
中文分词“庖丁解牛”,面向对象,高效率,高扩展性

HashBinaryDictionary.java.rar
原来的HashBinaryDictionary.java使用对第一个字符hash+二份查找。这个算法已经不错。但下面的更新使用了更好的策略。可连续hash词语的字符。理论上这个词典算法应该到达极致了。覆盖HashBinaryDictionary.java在com/sohospace/dictionary下

Main1.java.rar
对一个长度2185856的字符串(4,347,520字节)的分词效率测试。 下载解压后添加到源文件中

没有评论 »

还没有评论。

发表您的评论