首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > Java > 抄袭检测算法和同义词的识别与筛选

抄袭检测算法和同义词的识别与筛选

资 源 简 介

应用背景这是一个程序来检测在印尼语词文本抄袭,尤其是PDF文件。在这个项目中,我使用Java作为编程语言,采用风选法来检测类似的词语,并使用滚动哈希算法计算哈希值。对于同义词,我使用同义词识别算法。它可以处理任何同义词,但不能处理相反的话;关键技术一个Java的Windows应用程序。 ;我使用db4o(数据库对象)来存储数据字典。我使用面向对象程序设计作为结构程序。为主要的算法,我用风选算法检测抄袭的字符串计算哈希值。每个字符串将被转换为哈希值,并且每个哈希值将被另一个哈希值检查。如果他们有相似的哈希值,和相似性值超过50%,那么它可以被称为抄袭

文 件 列 表

DeteksiDuplikasiDokumen-TA
test
src
Results
new
nbproject
lib
dist
build
artikel-komputer2.pdf
build.xml
en-sent.bin
en-sent.zip
HelloWord1.docx
KamusKataDasar.db4o
KamusSinonim.db4o
KamusStopwords.db4o
manifest.mf
manifest.properties
opennlp-tools-1.5.0-bin.zip
opennlp-tools-1.5.0-src.zip
result 1.txt
result 2.txt
result 3.txt
result k-grams kata1.txt
result k-grams kata2.txt
result k-grams kata3.txt
result1.txt
result2.txt
sent.model
VIP VIP
0.171476s