Googlebot 是 Google 的网页抓取机器人(有时称为“信息采集软件”)。抓取是 Googlebot 发现新网页和更新的网页以将这些网页添加到 Google 索引中的过程。
我们使用许多计算机来提取(或“抓取”)网站上的大量网页。Googlebot 使用算法确定抓取过程:计算机程序确定要抓取的网站、抓取频率以及从每个网站抓取的网页数量。
进行抓取时,Googlebot 会先查看以前的抓取过程所生成的一系列网页网址,包含网站站长提供的站点地图数据。Googlebot 在访问其中的每个网站时,会检测各网页上的链接(SRC 和 HREF),并将这些链接添加到要抓取的网页列表。它会记录新出现的网站、现有网站的更新以及无效链接,并据此更新 Google 索引。
谷歌Google用来抓取网页内容的程序,叫做Googlebot,抓取其他内容的蜘蛛,则是新的名字:
产品名称 对应user-agent
网页搜索 Googlebot
无线搜索 Googlebot-Mobile
图片搜索 Googlebot-Image
Mediapartners-Google:抓取网页中的文字内容,用于Google Adsense分析关键词。只有投放了Google Adsense的网页才会被 Mediapartners-Google 探测器爬取。
Adsbot-Google:抓取网页中的文字内容,用于为Google AdWords提供参考。只有Google AdWords的目标网页才会被 Adsbot-Google 探测器爬取。