首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > 其他 > 停止词删除

停止词删除

  • 资源大小:398.22 kB
  • 上传时间:2021-06-30
  • 下载次数:0次
  • 浏览次数:0次
  • 资源积分:1积分
  • 标      签: information retrieval java 停止

资 源 简 介

标题:执行停用词删除,并对于给定的文档而产生的话。 目的: 1.研究信息检索。 2.去除停止词和词干。 理论: 信息检索 - 术语信息检索的含义可以是非常广泛的。刚开信用卡了你的钱包,让你可以在卡号码类型是信息检索的一种形式。然而,随着研究的学术领域,信息检索可能被这样定义: 信息检索(IR)是寻找材料非结构化的性质(通常是文本),满足下面的信息(通常是文件)从内大的集合需要(通常存储在计算机上)。 停用词: 在计算中,停止字是哪个先被过滤掉或之后,自然语言数据(文本)处理的话。没有一个明确的,所有的工具使用,这样的过滤器并非总是用于停用词列表。一些专门工具取出避免他们支持词组搜索。 任何组词可以被选择作为停止词对于给定的目的。对于一些搜索机,这些都是一些最常见的,短的功能的话,如,是在,这和上。在这种情况下,停止搜索词组,包括他们,特别是在名称,如“谁的”,“在本”或“接招”的话时,可能会造成问题。其它搜索引擎中删除了一些最常见的词语包括词法词语,如从查询“想要”,以提高性能。 为什么我们需要删除停用词? 减少索引(或数据)的文件大小 停用词占的总字数的20%-30%。 提高效率 停止的话是不适合的搜索和文本挖掘有用 停用词总是有大量的点击率 词干: 在语言形态和信息检索,所产生的过程是减少屈折(有时得到的)的话自己干,基部或根部形式一般以书面文字的形式。阀杆不必相同于字的形态根;它通常是足够了相关字映射到相同的茎,即使这干本身并不是一个有效的根。算法而产生自1960年以来一直在研究在计算机科学。很多搜索引擎对待相同的干同义词作为一种查询扩展的,一个叫混为一谈过程字。 我们为什么需要堵截? 改善IR和文本挖掘的有效性 匹配相似的单词 减少索引大小 梳理的话用同样的根可以减少索引的大小高达40-50%。 基本遏制方法 删除结束 1.如果一个词比个辅音另一端, 2.其次是一个“s”,然后删除的“。 3.如果一个词在“E

文 件 列 表

STSM
STOP WORD DOCUMENT
OUTPUT DOCUMENT
INPUT DOCUMENT
DICTIONARY
CODE
dicta.txt
dictb.txt
dictc.txt
dictd.txt
dicte.txt
dictf.txt
dictg.txt
dicth.txt
dicti.txt
dictj.txt
dictk.txt
dictl.txt
dictm.txt
dictn.txt
dicto.txt
dictp.txt
dictq.txt
dictr.txt
dicts.txt
dictt.txt
dictu.txt
dictv.txt
dictw.txt
dictx.txt
dicty.txt
dictz.txt
Help.txt
stem.txt
stop.txt
StopStem.class
STSM.class
STSM.java
swords.txt
texts.txt
VIP VIP
0.170779s