Lucene中文分词 “庖丁解牛”

一位网名为Qieqie的网友在JaveEye上发布了自己写的Lucene中文分词包-庖丁解牛。

高效率:我的赛扬PC 1 秒解析 >>> 20000汉字的词语 (实际测试结果数据,可达1秒10万+汉字。)
高可维护性:使用“庖丁”隐喻,形象明晰
高灵活性,可扩展:OOD

主要发布文件如下:

Paoding.rar
中文分词“庖丁解牛”,面向对象,高效率,高扩展性

HashBinaryDictionary.java.rar
原来的HashBinaryDictionary.java使用对第一个字符hash+二份查找。这个算法已经不错。但下面的更新使用了更好的策略。可连续hash词语的字符。理论上这个词典算法应该到达极致了。覆盖HashBinaryDictionary.java在com/sohospace/dictionary下

Main1.java.rar
对一个长度2185856的字符串(4,347,520字节)的分词效率测试。 下载解压后添加到源文件中

发表评论

电子邮件地址不会被公开。 必填项已用*标注