如何让AI代理更好地理解你的网站？

随着科技的发展，各大AI平台现在都能自主浏览网页。Chrome自动浏览器会滚动和点击，ChatGPT Atlas可以填写表单并完成购买，Perplexity Comet则能够跨标签进行研究。但这些AI代理看你的网站的方式与人类截然不同。

AI代理如何“看”你的网站

目前，AI代理浏览网站主要有三种方式，每种方式都对网站结构有不同的要求。

视觉：读取截图

Anthropic的Computer Use采取最直观的方法。Claude会截取浏览器的屏幕截图，分析视觉内容，并根据它“看到”的内容决定点击或输入什么。这个过程是一个连续的反馈循环：截图、推理、行动、再截图。代理在像素层面操作，通过视觉外观识别按钮，并从渲染的图像中读取文本。

Google的Project Mariner采用类似的“观察-计划-行动”循环：观察捕捉视觉元素和底层代码结构，计划制定行动序列，行动模拟用户交互。在WebVoyager基准测试中，Mariner取得了83.5%的成功率。然而，这种视觉方法计算量大，对布局变化敏感，且受限于屏幕上的视觉渲染。

可访问性树：读取结构

OpenAI的ChatGPT Atlas则选择了一条不同的路径。他们使用ARIA标签，这些标签和角色支持屏幕阅读器，来解读页面结构和交互元素。Atlas依托于Chromium，但不分析渲染的像素，而是查询可访问性树中的特定角色（如“按钮”、“链接”）和可访问名称。这与屏幕阅读器如VoiceOver和NVDA帮助视觉障碍者浏览网页的方式相同。

微软的Playwright MCP也采取相同的方法，提供可访问性快照而非截图，为AI模型提供结构化的页面表示。

混合：同时使用

实际上，最强大的代理通常结合使用多种方法。OpenAI的Computer-Using Agent（CUA），支持Operator和Atlas，结合了截图分析、DOM处理和可访问性树解析。它优先使用ARIA标签和角色，当可访问性数据不可用时，退而求其次使用文本内容和结构选择器。

Perplexity的研究也证实了这种模式。他们的BrowseSafe论文详细描述了Comet浏览器代理背后的安全基础设施，描述了“结合可访问性树快照和选择性视觉的混合上下文管理”。

可访问性树是你的AI代理接口

根据2025年Imperva Bad Bot报告（Imperva是一家网络安全公司），自动化流量在2024年首次超过人类流量，占所有网页交互的51%。虽然这并不全是AI代理浏览，但趋势已经很明显：你网站的非人类受众已经超过了人类，并且还在增长。因此，理解AI代理如何感知网站是构建适合它们的网站的基础。

可以说，优化AI代理兼容性的最有效方法，就是多年来网页可访问性倡导者一直推进的工作。最初为屏幕阅读器构建的可访问性树，正在成为AI代理和你的网站之间的主要接口。

在实践中，使用语义HTML和ARIA标签可以为AI代理提供更好的导航和操作指南。虽然ARIA标签不是万能的，但在构建对AI友好的网站时，它们是非常有用的工具。

总之，随着AI代理的广泛应用，理解它们如何“看”网站将帮助你打造更智能、更具适应性的网站。

-=||=-收藏赞 (0)

如何让AI代理更好地理解你的网站？

AI代理如何“看”你的网站

视觉：读取截图

可访问性树：读取结构

混合：同时使用

可访问性树是你的AI代理接口

相关推荐

万能视频防暂停扩展插件

关注我们

近期热门