网页净化和消重是大规模搜索引擎系统预处理环节的重要组成部分。所谓网页净化(noise reduction)就是识别和清除网页内的噪音内容(如广告、版权信息等),并提取网页的主题以及和主题相关的内容;消重(replicas or near-replicas detection)是指去除所搜集网页集合中主题内容重复的网页。建索引一般是在消重后的网页集上进行的,这样就可以保证用户在查询时不会出现大量内容重复的网页。
上述论述了一种HTML网页净化与元数据提取的方法,通过它我们可以从一个网页源文件中自动提取网页的一些主要元素,包括网页标识、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等信息。下次将分享给出了五种转载网页的消重算法,通过这些方法可以消除绝大多数主题内容重复的转载网页。