我将wordpress 由博客主题换成CMS主题后,发现文章收录数量明显增加,并由此得出一个结论:百度不爱搜录具有博客特征的网页。由于当时考虑不周到,发表之后,受到个别网友批评指正。事实上,博客特征的网页容易产生重复内容,高度重复才是引起百度不收录wordpress的真正原因。经过深思熟虑,以及对蜘蛛访问日志的观察和分析,我对百度收录wordpress博客异常的原因得出新的结论。
1.安装SEO插件后,百度不收录页面。
很多采用wordpress建站的朋友都接触过All in One SEO这个插件。这个插件可以让新手一键搞定wordpress的站内优化。事实证明,这款插件对google优化非常的完美,但百度却总容易出现不收录的情况。我曾经一度怀疑百度会认为All in One SEO 插件存在优化过度的问题,从而导致网站降权,不收录。实际上,All in One SEO 的网页并没有被百度降权,导致百度不收录的罪魁祸首是它的noindex设置。
noindex标签的作用是向搜索引擎申明该网页禁止被搜录和索引,谷歌蜘蛛爬行到这样标签的页面,会自动丢弃掉该页并继续爬行其他页面,从而减小文章重复度,利于站内目标文章页权重的集中。百度蜘蛛遇到noindex标签的页面后,同样会丢弃掉该页。与谷歌不同的是,百度蜘蛛一般不再爬行该页面包含的文章链接,直接返回上一级目录。由于包含在该页中的文章无法被百度蜘蛛爬行到,所以页目录之下的文章将不会被索引。
解决办法:
取消All in One SEO 中 noindex设置。
2.wordpress模板导致的原因。
wordpress之所以流行,与其强大的插件扩展能力和数量丰富的主题模板密不可分。我曾经说过,使用wordpress建站的人,百分之99%都直接采用现成的主题来建站。同样的模板必然导致网络中出现大量高度重复网站结构和内容。百度不喜欢重复的内容,这些重复内容当然也包含网站模板的HTML代码。
SEOer通常会选择一些使用人数较少的模板来做SEO博客,同时还会对代码部分做一些更改,如ID部分名称,title 描述,CSS名称等等。这些操作的目的,是使得网页模板代码尽量避免与其他网站重复,从而更有利于文章的搜录。当博客正文内容字数越少时,模板重复对收录的影响就会变得越大。
解决办法:
1).增加文章字数。
2).选择非热门wordpress主题。
3).对现有主题进行修改。
3.wordpress摘要设置不当造成站内文章重复。
百度也好,谷歌也罢,没有哪一家搜索引擎喜欢重复的文章。当一篇文章出现在同一网站内多个不同的页面中,搜索引擎将花费更多的处理时间来判断哪一篇文章才是正文。当搜索引擎从程序上难以无法判断主次时,会降权收录文章第一次被索引的页面,或者直接K掉这些重复的页面。于是很多wordpress站长在百度里site自己的网址,然后惊讶的发现:出现在结果前面的,竟然全都是日历页,归档页或分类目录,而文章正文内容却被百度隐藏而作为补充内容而存在,甚至压根就不被索引。
导致这样的原因是因为你在录入文章数据的时候,既没有采用more标签对文章进行截断,也没有手动添加摘要。wordpress默认情况下,会将more标签之前的内容作为摘要输出到首页,标签目录,分类目录,归档目录,日历目录下。如果没有用more标签进行截断,也没有手动输入摘要,那么文章正文会同时出现在首页,几个目录页,以及文章页中。由于首页比目录页权重高,目录页比文章页权重高,百度以为文章页权重最低,便优先舍弃掉了。google的真正从技术上实现了文章的筛选机制,能保文章页被正常的收录,而百度这方面的技术尚需进一步完善。
解决办法:
1).每个文章前一两段后添加more标签。
2).手动添加文章摘要,不能与more标签之前相同。
3).精简标签数量。
4.URL设置不合理,不利于收录。
在很多SEO教程里,都提出过目录不宜过深。受到这一思想影响,许多站长就将目录页,文章页都控制在二级目录以内,以为这样可以让网页更好的被收录。殊不知,这样的URL方式其实并不利于SEO。搜索引擎蜘蛛爬行算法不光包含URL深度,同时还包括URL的重复度。当蜘蛛需要爬行一个网站时,首先需要根据网站的权重算出索引的深度和重复数,当网站权重越高时,蜘蛛爬行的深度就越深,允许的重复数就越大。蜘蛛在索引某一网站的时候,当深度操过一定层次后就会终止爬行其子目录。在爬行某个层次链接的过程中,URL重复数度超过一定数量,就会结束对该层目录的爬行。
如果你的站内除了根目录就是2级页面,文章数量少时还好,如果文章数量一多,便会加大搜索引擎引擎服务器的负荷,从而引起蜘蛛反感。
解决办法:
一般而言,搜索引擎对于新站爬行层次都在三层左右。最佳的目录设置方案应当是目录/时段/正文。虽然这样的分类方式在建站初期收录处在劣势,但对网站(尤其是对靠长尾关键词取胜的站点)的长期发展百利而无一害。我个人认为,这种目录结构是对搜索引擎最友好的,最容易被收录的结构。