关注全球
专注海外

Google 悄悄推出全新的 AI 爬虫工具

谷歌最近悄然推出了一款新的爬虫,名为 Google-CloudVertexBot,专门为其 Vertex AI 产品的商业客户服务。

Google-CloudVertexBot 是谷歌新增的爬虫,与其他与谷歌搜索或广告相关的爬虫不同,它专门为 Vertex AI 客户抓取网站内容。根据官方文档,该爬虫似乎仅在网站所有者的请求下抓取受控网站,但这一点并不完全明确。

Google-CloudVertexBot

Vertex AI 代理

在 Vertex AI 代理构建器中,有多种类型的数据存储。每个数据存储只能包含一种类型的数据。文档列出了六种数据类型,其中之一是公共网站数据。

网站抓取类型

文档提到,网站抓取分为两种类型,每种类型都有特定的限制:

  • 基本网站索引
  • 高级网站索引

文档中的混淆

关于网站数据的说明如下:
“包含网站数据的数据存储使用从公共网站索引的数据。您可以提供一组域名,并在抓取的域名上设置搜索或推荐。该数据包括带有元数据的文本和图像。”

上述描述未提及域名验证。基本网站索引的描述也未提到网站所有者验证。然而,高级网站索引的文档要求域名验证,并施加索引配额。

但关于爬虫本身的文档表示,新爬虫是在“网站所有者请求”下进行抓取,因此可能不会抓取公共网站。

更新日志中的混淆

谷歌更新日志提到,这款新爬虫的引入是为了帮助网站所有者识别来自新爬虫的流量。具体内容如下:
“新爬虫的引入旨在帮助网站所有者识别新爬虫流量。”

新的 Google 爬虫信息

新爬虫被称为 Google-CloudVertexBot。以下是关于它的新信息:

  • 用户代理令牌:
  • Google-CloudVertexBot
  • Googlebot

文档不明确

文档似乎表明新爬虫不会索引公共网站,但更新日志指出其添加是为了让网站所有者能够识别新爬虫的流量。是否应通过 robots.txt 阻止新爬虫?考虑到文档在是否仅抓取受控域名方面的不明确性,这种担忧并不无道理。

谷歌的新爬虫功能虽然旨在为商业客户提供服务,但其文档的模糊性可能会引发网站所有者对其抓取行为的疑虑。

参考内容来源:Google-CloudVertexBot

-=||=-收藏赞 (0)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《Google 悄悄推出全新的 AI 爬虫工具》
文章链接:https://topstip.com/google-launches-new-ai-crawler-tool/
转载说明:请注明来自“TopsTip”并加入转载内容页的超链接。
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

评论 抢沙发

评论前必须登录!

立即登录   注册