首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > Matlab > 基于词性的文本预处理及其聚类

基于词性的文本预处理及其聚类

  • 资源大小:8.90 MB
  • 上传时间:2021-06-29
  • 下载次数:0次
  • 浏览次数:0次
  • 资源积分:1积分
  • 标      签: Matlab matlab

资 源 简 介

由于传统的文本特征提取是基于建停用词表(库)进行文本的特征选择,该方式在文本 篇幅和数量巨大的情况下,其建立的停用词表将非常庞大,文本特征词的提取效率非常 低下,本算法采用基于词性的文本特征提取,由于中文词性数量有限,因此文本特征提 取效率很高,便于后期的文本聚类或分类。本算法分词依赖中科大的分词组件ICTCLAS50, 我在matlab版本为2011b上成功编译运行。

文 件 列 表

基于词性的文本预处理及其聚类
实验文本
中科院分词组件
mainTextPreprocess.m
rid_POS_tagging.m
rid_POS_tagging.txt
tfidf.m
读我.txt
VIP VIP
0.188134s