首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > 其他 > 中文分词系统

中文分词系统

  • 资源大小:2.60 MB
  • 上传时间:2021-06-30
  • 下载次数:0次
  • 浏览次数:0次
  • 资源积分:1积分
  • 标      签: 中文 分词 系统

资 源 简 介

SegWord是一个开放项目 ,由其小组成员进行开发维护,稳定版本软件(包括程序与文档)将公开在网络上供参考与交流。下面是其简单介绍: SegWord为一个分词系统,满足: (1)分词 (2)获得义性分布 (3)词表自调整 三个目的。 其中 (1)表明该系统可对汉语文本进行分词;这是这个系统的基本属性之一。但是,设计者认为不能为分词而分词,故本系统的研究重点为目的(2)和(3)。 (2)更广泛的看,分词的实质是“组合”,即由小结构组合为大结构并对结构的属性同时进行组合与变换。也就是说,分词不仅要给出词的分割,也应给出这种结构所对应的属性,例如语法词性,语义选项,未登录词属性等,本系统统称为义性分布。这是后续处理的重点依据。 (3)一般而言分词依赖于一定的词表。但是,词表本身若由人来提供,总是存在一定的应用局限。考虑机器学习的运用,寻找词表自调整——通过机器学习的方式来获得新词以及词语概念的新的义性——的方法与思路。这也是本项目的难点。 例如,对于输入: 这是一种烤制猪排、羊排和牛排的方法。 希望经SegWord处理后,可以获得切分方式: 这 是 [一种] [烤制] [猪排] 、 [羊排] 和 [牛排] 的 [方法]。 同时,各个词语单位的义性可以自动习得,如“烤制”是v,“牛排”是n,若词库中没有收录“羊排”,计算机可以习得这是一个和“牛排”近似的结构,经一定的策略可以对词库进行更新;最理想的情况下,可以习得“猪排”、“羊排”和“牛排”都是一种食物,且能表示和“猪”、“羊”、“牛”的关系。 综上,本分词系统将是一个挑战,也是对中文信息处理进行突破的一种新尝试。

文 件 列 表

segTrain
label_peopleDaily
corpors_reader.cpp
corpors_reader.h
corpors_reader.o
define.h
dict.txt
main.cpp
main.o
Makefile.win
segTrain.dev
segTrain.exe
segTrain.layout
VIP VIP
0.190907s