Google 官方详解 Googlebot 抓取机制：2MB 字节限制与爬虫架构

Google 搜索倡导者 Gary Illyes 最近发布了一篇重要博文，首次系统性地解释了 Googlebot 的爬虫系统是如何运作的。这篇文章深入介绍了字节限制、内容抓取行为以及 Google 爬虫架构的具体细节。

Googlebot：统一爬虫平台的一个客户端

很多人可能不知道，Googlebot 并不是一个独立的爬虫系统，而是 Google 统一爬虫平台的众多用户之一。Google Shopping、AdSense 等其他产品线都通过这个统一的平台发送抓取请求，只是使用不同的爬虫名称。

当我们在服务器日志中看到 Googlebot 时，那是 Google 搜索的爬虫。其他产品的爬虫会以各自的名称出现，这些名称都可以在 Google 的爬虫文档中查到。每个客户端都可以设置自己的配置，包括 User Agent 字符串、robots.txt 令牌和字节限制等。

Googlebot 对每个网址的抓取限制是 2MB，但 PDF 文件是个例外，限制为 64MB。如果爬虫没有指定限制，则默认使用 15MB 的上限。需要注意的是，HTTP 请求头也计入这 2MB 的限制中。

当页面超过 2MB 时，Googlebot 不会完全拒绝抓取，而是会在到达限制时停止，并将截断的内容发送给 Google 的索引系统和网页渲染服务（WRS）。这些系统会将截断的文件视为完整内容，超出 2MB 的部分将永远不会被抓取、渲染或索引。

HTML 中引用的外部资源，如 CSS 和 JavaScript 文件，都会单独计算字节限制，不计入父页面的 2MB 配额。而媒体文件、字体文件等”特殊文件”则不会被 WRS 抓取。

WRS 会处理 JavaScript 并执行客户端代码，以理解页面的内容和结构。它会加载 JavaScript、CSS 和 XHR 请求，但不会请求图片和视频。值得注意的是，WRS 采用无状态运行模式，每次请求之间都会清除本地存储和会话数据。

Google 建议将大型 CSS 和 JavaScript 代码移至外部文件，因为它们有独立的字节限制。Meta 标签、标题标签、链接元素、规范标签和结构化数据应该放在 HTML 的较前位置。对于大型页面，放在文档底部的内容可能会因为超出限制而被截断。

需要特别注意的是，内联的 base64 图片、大块的内联 CSS 或 JavaScript 代码、过大的导航菜单等都可能导致页面超过 2MB 限制。不过，Google 表示这个 2MB 的限制并非永久性的，可能会随着网络发展和 HTML 页面规模的增长而调整。

-=||=-收藏赞 (0)