首页| JavaScript| HTML/CSS| Matlab| PHP| Python| Java| C/C++/VC++| C#| ASP| 其他|
购买积分 购买会员 激活码充值

您现在的位置是:虫虫源码 > Python > 网页中的语义文本提取

网页中的语义文本提取

资 源 简 介

应用背景这个代码是我们在我们学院的语义网技术学科中的一部分。这个代码是一个非常基本的尝试,试图从网页中删除广告,只显示相关的文本。我们删除广告、Flash及其他JavaScript等,只用文字显示。此代码使用Python语言因为它减少程序员的编码工作提供了许多图书馆侧。关键技术Web 已经成为最大的信息来源,有数十亿网页。然而, web 页通常包含一些与主题无关的内容。例如, 有这么多的多媒体广告段、 不必要的图像或导航链接 在 Web 页中。这些部件可以严重损害 Web 数据挖掘,分散注意力从主要用户 主题,并影响 PageRank。有一些现有的方法来发现翔实的内容块。最简单的方法是辨识和消除杂波,广告、 装饰等。

文 件 列 表

test.py
VIP VIP
0.174934s