搜索引擎对网页内容的筛选原则

手册/FAQ (405) 2015-12-17 10:06:40

       随着网络时代的到来,越来越多的人依赖网络,依赖网络获取信息,解决疑问。用户通过网络获取信息有两种主要方式:如果已经知道网站的网址,则用户可以直接输入网址进行访问,如果不了解网址,则通过搜索引擎查询。我们经常会听到一个人问一个问题时,其他人会推荐说去问“度娘”(百度)“谷哥”等等,也即是通过搜索引擎找答案去。那搜索引擎是怎样为我们筛选信息的呢?

       搜索引擎可以说是网上天然的过滤器。用户通过搜索引擎中关键词的查找过滤出自己想要的信息,企业公司则通过锁定不同关键词得到准确有效的目标客户。正是由于搜索引擎这一双向过滤特性,搜索引擎营销在网络营销中占据极其重要地位,成为一个传递网络营销信息的基本工具。

       搜索引擎是以词为单位的关键词集合,它会把包含某个关键词的文件排成一列,即一个关键词对应多个文件,当用户搜某个关键词的时候,就在这个关键词对应的所有文件夹中进行计算和匹配,然后返回给用户最佳的搜索结果,也就是说搜索引擎的过滤机制有两个主要步骤。

首先是:文件匹配

在搜索引擎蜘蛛系统中,蜘蛛是无时无刻都在爬行和抓取,待爬取URL队列是很关键的部分,需要蜘蛛爬取的网页URL在其中顺序排列,形成一个队列结构,调度程序每次从队列头取出某个URL,发送给网页下载器页面内容,每个新下载的页面包含的URL会追加到待爬取URL队列的末尾,如此形成循环,整个爬虫系统可以说是由这个队列驱动运转的。 简单的说是搜索引擎spider不断爬行抓取信息,整理归类存储,当用户搜索某个关键词时,搜索引擎从自己的数据库(如下图所示)中进行查找匹配的网页呈现给用户。 当用户搜索某几个关键词的时候,搜索引擎就会在这几个关键词对应的所有文件夹中进行简单的计算和匹配,找到包括这几个关键词的所有页面。 

其次是:初始子集过滤

         当所有的页面都被搜索出来了,那么呈现给用户的排列顺序是怎样的呢,子集就是为了更加快速满足用户的需要,从所有搜索出来的页面中,计算出权重稍高的页面返回给用户,这个过程就是初始子集过滤的过程。

         大家知道当我们搜集一个关键词的时候,往往会出现好多含有关键词的页面,页面的数量是巨大的,甚至几十万、上百万。如果搜索引擎从这么大的数据库中进行匹配的话,时间肯定会很长,所以有了初始子集过滤,我们可以快速得到权重较高的页面!

        搜索引擎过滤过程的理论是很简单的,但是在技术上涉及的东西是很多也很复杂,我们只需了解大体的原理进而对我们网站的建设和seo起到一定的指导作用。

 

THE END