在2026年3月20日,Google悄然在其官方网页抓取工具列表中加入了一项新成员——Google-Agent。它并不是一个常规的爬虫,也不是训练机器人,而是一个代理。这一工具的出现为用户代理字符串增添了新的定义。Google-Agent专为在Google基础设施上运行的AI系统设计,能够代替用户浏览网页。当有人让AI助手研究产品、填写表单或比较各网站选项时,Google-Agent就是实际访问页面的工具。Project Mariner是首个使用该代理的实验性AI浏览工具。
Robots.txt 规则不再适用
与传统的Googlebot不同,Googlebot持续抓取网页以进行索引,而Google-Agent只有在用户请求时才会出现。这一区别完全改变了它的运行方式。Google将Google-Agent分类为用户触发的抓取工具,与Google Read Aloud(文本转语音)、NotebookLM(文档分析)和Feedfetcher(RSS)等工具同属一类。它们的共同特点是请求由人发起。Google的立场是,用户触发的抓取工具“通常忽略robots.txt规则”,因为抓取是由个人请求的。
这就像在Chrome中输入URL,浏览器会无视robots.txt的指示抓取页面。Google-Agent的运作原理与此相同,它是用户的代理,而不是自主的爬虫。
加密身份:Web Bot Auth
Google-Agent的重要发展体现在Google文档中的一行:该代理正在使用身份https://agent.bot.goog实验web-bot-auth协议。Web Bot Auth是IETF的草案标准,类似于机器人的数字护照。每个代理持有私钥,并在目录中发布其公钥,使用加密签名每个HTTP请求。网站通过验证签名,能够以加密的方式确定访问者的身份。
虽然用户代理字符串可以被伪造,但Web Bot Auth无法被轻易仿冒。Google采用这一协议,即使是实验性地,也预示了代理身份的发展方向。Akamai、Cloudflare和Amazon(AgentCore Browser)已经支持该协议。Google的加入带来了关键的影响力。
这对您网站的影响
随着代理流量的增加,网站需要区分代表真实用户的合法AI代理和假冒代理的爬虫。IP验证有所帮助,但加密签名更具扩展性且难以伪造。Google-Agent为网络创建了三层访客模型:爬虫、代理和人类访问者。每一层都拥有不同的访问规则、意图和期望。爬虫希望索引您的内容,而代理则希望完成特定任务,比如阅读产品页面、比较价格、填写联系表单或预约。
监控您的日志。Google-Agent通过包含compatible; Google-Agent的用户代理字符串进行身份识别。Google发布了IP范围以供验证。开始跟踪代理访问的频率、访问的页面以及它们的操作。
混合网络已经来临
检查您的CDN和防火墙规则。如果您的安全工具对非浏览器流量进行严格阻挡,Google-Agent可能在到达您的服务器之前就被拒绝。验证Google发布的IP范围是否被允许。
Google-Agent的出现标志着网络访客身份的一个新阶段,网站需要适应这一变化,以确保对合法代理的有效管理。

TopsTip