上市云服务提供商 Cloudflare 推出了一个新的免费工具,以防止机器人抓取其平台上托管的网站数据来训练 AI 模型。该工具旨在解决那些不遵守 robots.txt 文件的 AI 抓取器问题,robots.txt 文件会上告诉机器人哪些页面可以访问。尽管一些 AI 供应商允许网站通过 robots.txt 文件来阻止抓取,但并非所有 AI 抓取器都会遵守。为了解决这个问题,Cloudflare 分析了 AI 机器人流量,以优化检测模型,并设立了报告表格。
Cloudflare 新防护工具的主要特点和功能
- 机器人检测模型:Cloudflare 通过分析 AI 机器人和抓取器流量,优化了自动机器人检测模型。这些模型可以识别模仿合法用户外观和行为的机器人;
- 简易屏蔽:一个新的“简易按钮”允许客户一键屏蔽所有 AI 机器人。此功能对所有客户开放,包括免费用户;
- 持续更新:该工具将随着时间推移进行更新,以识别新的机器人指纹。
AI 机器人活动
- 热门 AI 机器人:在 Cloudflare 网络上最活跃的 AI 机器人包括 Bytespider、Amazonbot、ClaudeBot 和 GPTBot。由字节跳动运营的 Bytespider 在请求量上领先,并经常被屏蔽;
- 屏蔽趋势:尽管 AI 机器人访问了约 39% 使用 Cloudflare 的前一百万个互联网属性,但只有 2.98% 的这些属性采取措施屏蔽或挑战这些请求。排名较高的属性更有可能屏蔽 AI 机器人。
检测和预防
- 伪装用户代理:Cloudflare 的机器学习模型可以检测使用伪装用户代理的机器人,使其看起来像合法浏览器。这些模型对流量进行评分,以识别可能的机器人活动;
- 全球信号:Cloudflare 使用其网络的全球信号,该网络每秒处理超过 5700 万次请求,以准确识别和标记机器人指纹。
Cloudflare 的新工具为网站所有者提供了一个强大的解决方案,以保护其内容免受未经授权的 AI 抓取。通过利用先进的检测模型和提供易于使用的屏蔽功能,Cloudflare 有助于维护一个安全和公平的互联网环境。
随着生成式 AI 的兴起,尽管许多网站选择屏蔽 AI 抓取器,但一些供应商无视标准规则,以在 AI 竞赛中获利。像 Cloudflare 这样的工具可能会有所帮助,但前提是它们能准确检测到隐秘的 AI 机器人,同时也不会解决失去推荐流量的问题。
看完文章,如果你觉得有需要出一个“如何使用Cloudflare 防护工具”的教程,请在文章下方点赞,点赞数超过 10 就出教程。
-=||=-收藏赞 (3)
评论前必须登录!
立即登录 注册