乐尔金融新闻
 
咨询电话:
Q Q: 77807
E-mail:77807@qq.com
您的位置:主页 > 乐尔金融新闻 > 公司动态 >
搜索引擎系统的预处理:网页净化和元数据提取
发布时间:2019-04-25 作者:佚名 浏览:

网页净化和减肥是大规模搜索引擎系统预处理的重要组成部分。。

降噪:识别并去除噪声内容(例如。g。 广告、版权信息等。)中,并提取网页主题和与该主题相关的内容。

复制或近复制检测:删除收集的页面集合中主题内容重复的页面。

在主题搜索领域,大量诸如广告和乐尔金融导航条之类的嘈杂内容会导致主题分裂它是计算机获取网页语义信息的直接手段互联网上的美国读者文摘 这说明传统主题搜索算法中以网页为粒度构建的网络图不够精确,必须降低处理单元的粒度以提高内容分析的准确性。在(查克拉巴蒂等人。 2001年),提出了一套解决方案。首先,将网页表示为DOM数字结构,并找到与主题高度一致的子树。然后,对这些子树进行特殊处理,以提高主题的提取效果。

在网络信息检索领域,检索结果的相关性和检索速度是评价网络检索系统的两个指标。如果原始网页中的噪声内容没有被去除,检索系统还必须索引噪声内容,结果导致网页返回,这仅仅是因为查询项出现在网页的噪声内容中,并且网页的主题内容可能与查询项完全无关。可以看出,噪声内容不仅增加了索引结构的规模,而且导致检索系统的精度降低。针对这个问题(林等人。 2002年),提出了一种从网页中去除噪声内容的方法。首先,根据标签构建网页的标签树,从而根据标签将网页规划为嵌套的内容块。 然后,对于使用相同模块制作的网页集。找出网页中多次出现的内容作为剩余内容,网页集中出现频率较低的内容快速成为有效信息块。实验表明,该方法是有效的,但是该方法必须限于同一模板的网页集,并且网页上有无数的网页模板,因此该方法显然不够通用。

在网页分类领域,由于噪声内容与主题无关,训练集中的噪声内容会导致每个类别的特征不明显,而待分类网页中的噪声内容会导致网页类别的变化不明显,从而影响网页自动分类的效果。(杨1995,李等人。 2002 )提出了一种通过去除网页中的噪声内容来提高网页分类质量的方法。

在网页信息抽取领域,自动识别无关性的方法必须从整个网页中抽取模式,而不仅仅是为了主题内容的抽取。因此,对净化后的网页进行信息提取,不仅可以消除噪声信息对信息提取的干扰,提高信息提取的准确性,还可以简化网页结构,提高信息提取的效率。

噪音内容对基于网络的研究工作室来说是常见且严重的。虽然不同领域使用的方法不同,但处理的目的是去除网页的噪声内容,获得真实的主题内容。

随着网络研究和应用的发展,简单的网页内容已经不能满足需求,网页元数据的应用越来越广泛。在网络检索领域,单纯依靠关键词匹配的检索方法过于单一。合理使用内容类别和摘要等元数据信息,不仅使用户能够从不同角度进行查询,而且提高了查询的准确性。然而,主题搜索、个性化信息服务和数字图书馆也强烈依赖于资源的元数据信息。因此,准确有效地提取必要的元数据是网络各研究领域的一个重要问题。

在元数据和主题内容提取方法方面,我们可以从信息提取领域的研究成果中得到很多启示(尤其是从网页中提取语义信息)。为了从网页中提取语义信息,早期的方法是手动提取特定类型网页的内容组织模式。然后,信息提取系统提取相应的内容(哈默等人。 1997年,Ashish等人。 1997年)。同样的方法。2001 )提出了一种基于视觉相似性的网页语义结构自动分析方法。 该方法首先比较网页内容的视觉相似性,然后使用模式发现算法来确定这些视觉相似内容最可能的组织模式,最后根据该模式重组内容。html _ docview模型:。 包括:网页标识、网页类型、内容类别、标题、关键词、摘要、文本、相关链接等元素。文本和相关链接属于网页的内容数据,而其他6项属于网页的元数据。

网页类型:根据网页内容的表现形式分为三种类型,即主题网页、中心网页和图片网页。内容类别:对网页内容进行语义分类。

标题、关键词和摘要:是描述网络文档内容的重要元数据。

文本:它是原始网页中真正总结主题的部分。。。

资料来源:基层网络( www。

20 ju。

。。

乐尔金融
返回
二维码

    友情链接:

Copyright © 2002-2019 沈阳乐尔金融租赁股份有限公司 版权所有  ICP备案编号: 粤ICP备15006986号-1