首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > PHP > 基于ICTCLAS的中文分词程序MyCLAS和用户词典管理程序MyDict

基于ICTCLAS的中文分词程序MyCLAS和用户词典管理程序MyDict

资 源 简 介

基于ICTCLAS的中文分词程序MyCLAS和用户词典管理程序MyDict 1. 介绍: 1) 中科院计算所开发的中文分词和词性标注程序*ICTCLAS,在性能和准确性上都较优;但是由于使用C语言开发,因此如果需要在Web应用程序使用ICTCLAS分词结果的话,将不是很方便。 为了解决该问题,我借助于共享版ICTCLAS提供的API使用C语言开发了简易的中文分词和词性标注程序: MyClas 。 它可以从标准输入中获取要处理的字符串,然后进行分词和词性标注,并将结果输出到标准输出中。 这样,假如需要在PHP编写的Web应用程序中对一个字符串进行中文分词和词性标注,可以使用如下代码: $content="要处理的字符串";$command="print ".$content."|myclas.exe";$outputArray=null;exec($command,$outputArray); 处理后的结果将保存到数组$outputArray中,便于使用PHP进行下一步操作。 由于如上是直接调用myclas.exe对字符串进行处理,而myclas.exe使用ICTCLAS提供的API进行编写,因此在性能上会和直接使用ICTCLAS处理几乎一样。 2) 共享版的ICTCLAS还提供了*用户自定义词典*的功能,大大方便了用户来订制符合自己需求的用户词典。 为了便于用户自定义词典的管理,我借助于共享版ICTCLAS提供的API使用C语言开发了简易的用户词典管理程序: MyDict。 它可以方便地对用户的自定义词典进行:词汇搜索;单个词汇添加;单个词汇删除;多个词汇添加;多个词汇删除;重新导入词典等功能 。 MyDict在命令行下运行,用户通过添加不同的参数实现相应的功能。 3) 目前MyClas和MyDict仅适用于

文 件 列 表

myclas+mydict
Data
Configure.xml
ICTCLAS30.dll
ICTCLAS30.log
myclas.exe
mydict.exe
VIP VIP
0.168680s