首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > 其他 > 中文分词系统

中文分词系统

  • 资源大小:3.01 kB
  • 上传时间:2021-06-30
  • 下载次数:0次
  • 浏览次数:0次
  • 资源积分:1积分
  • 标      签: 中文 分词 系统

资 源 简 介

2013-06-25更新 1.修改高频词输出时的idf到weight,原本输出的就是权重 2.高频词输出增加关键词在文章中出现的次数times 2011-12-24更新 在得到高频词时,同时返回IDF值 2011-06-26更新至2.0版 2.0更新说明 1.规范参数提交(与上一版本不再兼容) 2.json格式返回数据 3.可指定词性分词 安装说明: 1.默认安装libevent scws-1.1.7 configure make make install 2.解压http-scws make http-scws(基于scws的http协议中文分词) 软件基于scws 1.1.7版本二次开发 基于libevent进行http封装,请求更简单 功能: 1.词库为文本文件方式,增加、删除更方便 2.支持gbk与utf-8(基于scws功能) 3.运行中可修改词库,不停服务只需一个命令即可使新词库生效 4.最大150K文本提交 5.可分词、提取高频词 6.支持GET与POST方式 7.支持短词、二元、主要单字、全部单字(基于scws功能) 8.支持标点过滤(基于scws功能) 简单测试结果: AMD 64位台式机四核CPU,程序加载词库后占用21M内存,使用10进程不间断请求请求,内存无增加,CPU使用率在30%多 此项目开源,压缩包里有源代码及编译后的程序,有特殊需要的可自行修改源程序,编译后程序的编译环境为:amd 64位 4核CPU,centos 5.5 64位系统,内核为:2.6.18-194.el5 下载地址:
VIP VIP
0.180051s