Google 悄悄推出全新的 AI 爬虫工具

谷歌最近悄然推出了一款新的爬虫，名为 Google-CloudVertexBot，专门为其 Vertex AI 产品的商业客户服务。

Google-CloudVertexBot 是谷歌新增的爬虫，与其他与谷歌搜索或广告相关的爬虫不同，它专门为 Vertex AI 客户抓取网站内容。根据官方文档，该爬虫似乎仅在网站所有者的请求下抓取受控网站，但这一点并不完全明确。

Vertex AI 代理

在 Vertex AI 代理构建器中，有多种类型的数据存储。每个数据存储只能包含一种类型的数据。文档列出了六种数据类型，其中之一是公共网站数据。

网站抓取类型

文档提到，网站抓取分为两种类型，每种类型都有特定的限制：

基本网站索引
高级网站索引

文档中的混淆

关于网站数据的说明如下：
“包含网站数据的数据存储使用从公共网站索引的数据。您可以提供一组域名，并在抓取的域名上设置搜索或推荐。该数据包括带有元数据的文本和图像。”

上述描述未提及域名验证。基本网站索引的描述也未提到网站所有者验证。然而，高级网站索引的文档要求域名验证，并施加索引配额。

但关于爬虫本身的文档表示，新爬虫是在“网站所有者请求”下进行抓取，因此可能不会抓取公共网站。

更新日志中的混淆

谷歌更新日志提到，这款新爬虫的引入是为了帮助网站所有者识别来自新爬虫的流量。具体内容如下：
“新爬虫的引入旨在帮助网站所有者识别新爬虫流量。”

新的 Google 爬虫信息

新爬虫被称为 Google-CloudVertexBot。以下是关于它的新信息：

用户代理令牌：
Google-CloudVertexBot
Googlebot

文档不明确

文档似乎表明新爬虫不会索引公共网站，但更新日志指出其添加是为了让网站所有者能够识别新爬虫的流量。是否应通过 robots.txt 阻止新爬虫？考虑到文档在是否仅抓取受控域名方面的不明确性，这种担忧并不无道理。

谷歌的新爬虫功能虽然旨在为商业客户提供服务，但其文档的模糊性可能会引发网站所有者对其抓取行为的疑虑。

参考内容来源：Google-CloudVertexBot

-=||=-收藏赞 (0)

Google 悄悄推出全新的 AI 爬虫工具

Vertex AI 代理

网站抓取类型

文档中的混淆

更新日志中的混淆

新的 Google 爬虫信息

文档不明确

Conrad 

相关推荐

评论抢沙发

评论前必须登录！

万能视频防暂停扩展插件

作者介绍

Conrad

关注我们

文章目录

近期热门

Vertex AI 代理

网站抓取类型

文档中的混淆

更新日志中的混淆

新的 Google 爬虫信息

文档不明确

Conrad

相关推荐

评论 抢沙发

评论前必须登录！

万能视频防暂停扩展插件

作者介绍

Conrad

关注我们

文章目录

近期热门

Conrad 

评论抢沙发