大家都知道robots.txt是为爬虫协议,是针对搜索引擎规则设置的文件。理论上搜索引擎的爬虫蜘蛛在爬行你的网页之前都会先访问这个文件。看看你具体设置了哪些规则,哪些内容希望内收录,哪些内容禁止被收录。这些都是通过根目录下的robots.txt文件来操作完成,这个文件相当于与搜索引擎对话的指定文件。其实robots开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。
大家对robots.txt接触的比较多,然而对the robots meta标签可能使用的比较少。其实两者各有利弊组合搭配使用的话对优化来说效果才最好。the robots meta也可用作禁止搜索引擎收录和传递权重,就连国内的知名网站也会使用这些标签。如下图是网易首页代码:
The Robots META标签
实例:<meta name="robots" content="nofollow" />
需要注意的是The Robots meta标签是放在<head></head>之间的标签。
实例2:<meta name="robots" content="nofollow,noindex" />
The Robots meta标签可以同时设置几个属性
实例3:<meta name="robots" content="nofollow" />
<meta name="robots" content="noindex" />
The Robots meta标签可以几条一起使用
实例4:<meta name="googlebot" content="nofollow" />
The Robots meta标签name值可以改成搜索引擎爬虫
默认是all
其中的属性说明如下:
设定为all:文件将被检索,且页面上的链接可以被查询;
设定为none:文件将不被检索,且页面上的链接不可以被查询;
设定为index:文件将被检索;
设定为follow:页面上的链接可以被查询;
设定为noindex:文件将不被检索,但页面上的链接可以被查询;
设定为nofollow:文件将不被检索,页面上的链接可以被查询。
顺便提一下revisit-after (重访)
<META name="revisit-after" CONTENT="7 days" >
通知搜索引擎多少天访问一次
提醒大家:搜索引擎可以理解任何大小写的组合,所有大小写都是同样的效果。如果包含多内容的数值,数值之间需要使用逗号分隔。