网站的robots文件

手册/FAQ (520) 2016-11-30 13:35:57

 

我们在seo优化操作的时候,有时候会遇到过不想让蜘蛛爬行和抓取网站的一些页面,或者新建网站上线,由于种种原因暂时不想让搜索机器人程序抓取网站内容,我们该怎么办呢?方法很简单,这里就要用到robots.txt了,这个robots.txt文件是搜索蜘蛛进入一个网站后首先要爬行的文件,它的作用就是告诉搜索机器人,网站那些页面可以爬行抓取,哪些页面不可以抓取。Robots 的具体网页源码表现形式为:<meta name="robots" content=" ">。
 
Robots 的 content 部分文字可以填写的内容为:all、none、index、noindex、follow 和nofollow。对于 Robots 的 content 部分填充内容有如下说明解释:

 设定为 all:文件将被检索,且页面上的链接可以被查询;
 
 设定为 none:文件将不被检索,且页面上的链接不可以被查询;
 
 设定为 index:文件将被检索;
 
 设定为 follow:页面上的链接可以被查询;
 
 设定为 noindex:文件将不被检索,但页面上的链接可以被查询;
 
 设定为 nofollow:文件将不被检索,页面上的链接可以被查询。
 
       一般来说,大部分网站并没有太多的内容禁止搜索引擎机器人索引,Robots 的通用写法都 是:<meta name="robots" content="all">。如果想对 Robots 做一些个性化的设置,可以参照上面的 相关说明来完善 Robots 的 content 部分内容。

THE END