首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > Java > MMSEG java中文分析器,或发布

MMSEG java中文分析器,或发布

  • 资源大小:1.95 MB
  • 上传时间:2021-06-29
  • 下载次数:0次
  • 浏览次数:0次
  • 资源积分:1积分
  • 标      签: 中文 发布 分析器

资 源 简 介

代码迁移到 Github https://github.com/chenlb/mmseg4j-solr mmseg4j-solr-2.0.0.jar 兼容 lucene/solr [4.3.0, 4.7.1] com.chenlb.mmseg4j mmseg4j-solr 2.0.0 有问题优先 https://github.com/chenlb/mmseg4j-solr/issues 报告。 mmseg4j 1.8.6 支持 maven 依赖,代码从 git svn 迁移的地址是 https://github.com/chenlb/mmseg4j-from-googlecode 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。 2、MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。 * 1.5版的分词速度simple算法是 1100kb/s左右、complex算法是 700kb/s左右,(测试机:AMD athlon 64 2800+ 1G内存 xp)。 * 1.6版在complex基础上实现了最多分词(max-word)。“很好听” -> "很好|好听"; “中华人民共和国” -> "中华|华人|共和|国"; “中国人民银行” -> "中国|人民|银行"。 * 1.7-beta 版, 目前 complex

文 件 列 表

mmseg4j-1.9.1
dist
mmseg4j-analysis
mmseg4j-core
mmseg4j-solr
CHANGES.txt
LICENSE.txt
README.txt
build.properties
build.xml
pom.xml
VIP VIP
0.227849s