随着科技的发展,各大AI平台现在都能自主浏览网页。Chrome自动浏览器会滚动和点击,ChatGPT Atlas可以填写表单并完成购买,Perplexity Comet则能够跨标签进行研究。但这些AI代理看你的网站的方式与人类截然不同。
AI代理如何“看”你的网站
目前,AI代理浏览网站主要有三种方式,每种方式都对网站结构有不同的要求。
视觉:读取截图
Anthropic的Computer Use采取最直观的方法。Claude会截取浏览器的屏幕截图,分析视觉内容,并根据它“看到”的内容决定点击或输入什么。这个过程是一个连续的反馈循环:截图、推理、行动、再截图。代理在像素层面操作,通过视觉外观识别按钮,并从渲染的图像中读取文本。
Google的Project Mariner采用类似的“观察-计划-行动”循环:观察捕捉视觉元素和底层代码结构,计划制定行动序列,行动模拟用户交互。在WebVoyager基准测试中,Mariner取得了83.5%的成功率。然而,这种视觉方法计算量大,对布局变化敏感,且受限于屏幕上的视觉渲染。
可访问性树:读取结构
OpenAI的ChatGPT Atlas则选择了一条不同的路径。他们使用ARIA标签,这些标签和角色支持屏幕阅读器,来解读页面结构和交互元素。Atlas依托于Chromium,但不分析渲染的像素,而是查询可访问性树中的特定角色(如“按钮”、“链接”)和可访问名称。这与屏幕阅读器如VoiceOver和NVDA帮助视觉障碍者浏览网页的方式相同。
微软的Playwright MCP也采取相同的方法,提供可访问性快照而非截图,为AI模型提供结构化的页面表示。
混合:同时使用
实际上,最强大的代理通常结合使用多种方法。OpenAI的Computer-Using Agent(CUA),支持Operator和Atlas,结合了截图分析、DOM处理和可访问性树解析。它优先使用ARIA标签和角色,当可访问性数据不可用时,退而求其次使用文本内容和结构选择器。
Perplexity的研究也证实了这种模式。他们的BrowseSafe论文详细描述了Comet浏览器代理背后的安全基础设施,描述了“结合可访问性树快照和选择性视觉的混合上下文管理”。
可访问性树是你的AI代理接口
根据2025年Imperva Bad Bot报告(Imperva是一家网络安全公司),自动化流量在2024年首次超过人类流量,占所有网页交互的51%。虽然这并不全是AI代理浏览,但趋势已经很明显:你网站的非人类受众已经超过了人类,并且还在增长。因此,理解AI代理如何感知网站是构建适合它们的网站的基础。
可以说,优化AI代理兼容性的最有效方法,就是多年来网页可访问性倡导者一直推进的工作。最初为屏幕阅读器构建的可访问性树,正在成为AI代理和你的网站之间的主要接口。
在实践中,使用语义HTML和ARIA标签可以为AI代理提供更好的导航和操作指南。虽然ARIA标签不是万能的,但在构建对AI友好的网站时,它们是非常有用的工具。
总之,随着AI代理的广泛应用,理解它们如何“看”网站将帮助你打造更智能、更具适应性的网站。

TopsTip