随着AI技术的迅猛发展,各大AI平台已经能够自主浏览网站。无论是Chrome的自动浏览功能,还是ChatGPT Atlas的表单填写与购买完成,这些AI代理访问网站的方式与人类截然不同。那么,AI代理究竟如何“看”你的网站?本文将深入探讨这个问题,并提供相应的优化建议。
AI代理浏览网站的三种方式
目前,主要的AI平台采用三种截然不同的方式浏览网站,这些差异直接影响到你的网站结构设计。
视觉:读取截图
Anthropic的Computer Use采取了最为直接的方式。Claude通过抓取浏览器截图,分析视觉内容,进而决定点击或输入的内容。这一过程是一个连续的反馈循环:截图、分析、操作、再次截图。然而,这种方法计算量大,对布局变化十分敏感,并且受限于屏幕上呈现的内容。
结构:利用可访问性树
与视觉方法不同,OpenAI的ChatGPT Atlas选择了另一条路径。他们利用ARIA标签来解释页面结构和交互元素。这种方法依赖于可访问性树,提供了页面的结构化表示,类似于屏幕阅读器帮助视觉障碍用户浏览网页的方式。
混合:双管齐下
最强大的AI代理通常结合了上述两种方法。OpenAI的Computer-Using Agent(CUA)将截图分析与可访问性树解析结合在一起,优先使用ARIA标签和角色,当可访问性数据不可用时,才使用文本内容和结构选择器。
可访问性树是你的AI代理接口
根据2025年的Imperva Bad Bot报告,自动化流量在2024年首次超过了人类流量,占据了所有网络交互的51%。虽然并非所有流量都是AI浏览,但趋势已经显现:AI代理正成为网站流量的主力军。因此,理解可访问性树的作用至关重要。
微软的Playwright MCP同样采用了这种方法,为AI模型提供页面的结构化表示。可访问性数据被选为浏览器自动化标准,证明了其在AI代理中的重要性。
在实践中,Perplexity的研究也证实了这种模式。他们的BrowseSafe论文详细描述了Comet浏览器代理背后的安全基础设施,使用了“结合可访问性树快照与选择性视觉的混合上下文管理”。
通过理解AI代理的工作方式,尤其是可访问性树的核心作用,你可以更好地为AI代理优化你的网站,迎接未来的挑战。

TopsTip