OpenAI最近在其公开的爬虫文档中新增了OAI-AdsBot,这个新爬虫专门用于访问ChatGPT广告的页面,以确保其符合政策并评估广告的相关性。这使得OpenAI文档中记录的爬虫数量增加到四个,包括之前的OAI-SearchBot、GPTBot和ChatGPT-User。
OAI-AdsBot的工作原理
根据OpenAI的说明,OAI-AdsBot只访问作为广告提交的页面。它会在广告提交后访问广告的着陆页,检查页面是否符合OpenAI的广告政策。此外,它可能利用着陆页的内容来帮助决定何时向ChatGPT用户展示广告。
OAI-AdsBot通过用户代理字符串进行标识:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-AdsBot/1.0; +https://openai.com/adsbot。
OAI-AdsBot不做的事情
值得注意的是,OAI-AdsBot收集的数据并不用于训练OpenAI的生成式AI基础模型,这使得它与负责数据收集的GPTBot区分开来。OAI-AdsBot专注于广告验证,与其他OpenAI爬虫的功能不同。
OAI-SearchBot和GPTBot可以通过robots.txt文件独立控制,然而ChatGPT-User是用户触发的,OpenAI指出robots.txt规则可能不适用于它。OAI-AdsBot目前的文档中没有说明它如何处理robots.txt。
目前尚无公开的IP列表
OpenAI已经为之前的三个爬虫发布了IP范围文件,但目前还没有为OAI-AdsBot提供类似的文件。这使得验证真正的OAI-AdsBot访问变得更加困难,因为用户代理字符串可能被伪造,而IP列表则提供了一种交叉检查的方法。
为什么这很重要
OAI-AdsBot对两个群体很重要:购买ChatGPT广告投放的广告商需要确保爬虫能访问其着陆页,否则广告可能无法验证。与此同时,监控服务器日志中AI爬虫活动的人也会注意到这个与付费广告相关的新用户代理。
强力的爬虫保护工具如Cloudflare或Akamai可能会在OAI-AdsBot访问页面之前将其拦截,这可能会给使用严格爬虫防护工具的广告商造成验证障碍。
展望未来
自从OpenAI在2月9日开始测试广告以来,ChatGPT的广告项目发展迅速。随着更多广告商的加入,OAI-AdsBot的流量将在更多的服务器日志中出现。关注OpenAI是否会发布一个IP范围文件,当前可用的信息仅有用户代理字符串。

TopsTip