谷歌最近悄然推出了一款新的爬虫,名为 Google-CloudVertexBot,专门为其 Vertex AI 产品的商业客户服务。
Google-CloudVertexBot 是谷歌新增的爬虫,与其他与谷歌搜索或广告相关的爬虫不同,它专门为 Vertex AI 客户抓取网站内容。根据官方文档,该爬虫似乎仅在网站所有者的请求下抓取受控网站,但这一点并不完全明确。
Vertex AI 代理
在 Vertex AI 代理构建器中,有多种类型的数据存储。每个数据存储只能包含一种类型的数据。文档列出了六种数据类型,其中之一是公共网站数据。
网站抓取类型
文档提到,网站抓取分为两种类型,每种类型都有特定的限制:
- 基本网站索引
- 高级网站索引
文档中的混淆
关于网站数据的说明如下:
“包含网站数据的数据存储使用从公共网站索引的数据。您可以提供一组域名,并在抓取的域名上设置搜索或推荐。该数据包括带有元数据的文本和图像。”
上述描述未提及域名验证。基本网站索引的描述也未提到网站所有者验证。然而,高级网站索引的文档要求域名验证,并施加索引配额。
但关于爬虫本身的文档表示,新爬虫是在“网站所有者请求”下进行抓取,因此可能不会抓取公共网站。
更新日志中的混淆
谷歌更新日志提到,这款新爬虫的引入是为了帮助网站所有者识别来自新爬虫的流量。具体内容如下:
“新爬虫的引入旨在帮助网站所有者识别新爬虫流量。”
新的 Google 爬虫信息
新爬虫被称为 Google-CloudVertexBot。以下是关于它的新信息:
- 用户代理令牌:
- Google-CloudVertexBot
- Googlebot
文档不明确
文档似乎表明新爬虫不会索引公共网站,但更新日志指出其添加是为了让网站所有者能够识别新爬虫的流量。是否应通过 robots.txt 阻止新爬虫?考虑到文档在是否仅抓取受控域名方面的不明确性,这种担忧并不无道理。
谷歌的新爬虫功能虽然旨在为商业客户提供服务,但其文档的模糊性可能会引发网站所有者对其抓取行为的疑虑。
参考内容来源:Google-CloudVertexBot
评论前必须登录!
立即登录 注册