如何让AI代理更好地理解你的网站?

随着科技的发展,各大AI平台现在都能自主浏览网页。Chrome自动浏览器会滚动和点击,ChatGPT Atlas可以填写表单并完成购买,Perplexity Comet则能够跨标签进行研究。但这些AI代理看你的网站的方式与人类截然不同。

AI代理如何“看”你的网站



目前,AI代理浏览网站主要有三种方式,每种方式都对网站结构有不同的要求。

视觉:读取截图

Anthropic的Computer Use采取最直观的方法。Claude会截取浏览器的屏幕截图,分析视觉内容,并根据它“看到”的内容决定点击或输入什么。这个过程是一个连续的反馈循环:截图、推理、行动、再截图。代理在像素层面操作,通过视觉外观识别按钮,并从渲染的图像中读取文本。

Google的Project Mariner采用类似的“观察-计划-行动”循环:观察捕捉视觉元素和底层代码结构,计划制定行动序列,行动模拟用户交互。在WebVoyager基准测试中,Mariner取得了83.5%的成功率。然而,这种视觉方法计算量大,对布局变化敏感,且受限于屏幕上的视觉渲染。

可访问性树:读取结构

OpenAI的ChatGPT Atlas则选择了一条不同的路径。他们使用ARIA标签,这些标签和角色支持屏幕阅读器,来解读页面结构和交互元素。Atlas依托于Chromium,但不分析渲染的像素,而是查询可访问性树中的特定角色(如“按钮”、“链接”)和可访问名称。这与屏幕阅读器如VoiceOver和NVDA帮助视觉障碍者浏览网页的方式相同。

微软的Playwright MCP也采取相同的方法,提供可访问性快照而非截图,为AI模型提供结构化的页面表示。

混合:同时使用

实际上,最强大的代理通常结合使用多种方法。OpenAI的Computer-Using Agent(CUA),支持Operator和Atlas,结合了截图分析、DOM处理和可访问性树解析。它优先使用ARIA标签和角色,当可访问性数据不可用时,退而求其次使用文本内容和结构选择器。

Perplexity的研究也证实了这种模式。他们的BrowseSafe论文详细描述了Comet浏览器代理背后的安全基础设施,描述了“结合可访问性树快照和选择性视觉的混合上下文管理”。

可访问性树是你的AI代理接口

根据2025年Imperva Bad Bot报告(Imperva是一家网络安全公司),自动化流量在2024年首次超过人类流量,占所有网页交互的51%。虽然这并不全是AI代理浏览,但趋势已经很明显:你网站的非人类受众已经超过了人类,并且还在增长。因此,理解AI代理如何感知网站是构建适合它们的网站的基础。

可以说,优化AI代理兼容性的最有效方法,就是多年来网页可访问性倡导者一直推进的工作。最初为屏幕阅读器构建的可访问性树,正在成为AI代理和你的网站之间的主要接口。

在实践中,使用语义HTML和ARIA标签可以为AI代理提供更好的导航和操作指南。虽然ARIA标签不是万能的,但在构建对AI友好的网站时,它们是非常有用的工具。

总之,随着AI代理的广泛应用,理解它们如何“看”网站将帮助你打造更智能、更具适应性的网站。

-=||=-收藏赞 (0)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《如何让AI代理更好地理解你的网站?》
文章链接:https://topstip.com/how-to-help-ai-agents-understand-your-website/
转载说明:请注明来自“TopsTip”并加入转载内容页的超链接。
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。