Google计划扩展robots.txt不支持规则列表

Google正在考虑扩展其文档中robots.txt不支持规则的列表，这一变化基于对HTTP Archive收集的真实robots.txt数据的分析。在最近一期的“Search Off the Record”播客中，Gary Illyes和Martin Splitt详细描述了这个项目的进展。

研究是如何进行的

项目的起因是社区成员向Google的robots.txt代码库提交了一个请求，希望将两个新标签加入到不支持列表中。Illyes解释说，团队没有只关注这两个标签，而是决定研究使用最频繁的前10到15个不支持规则。

为此，团队利用HTTP Archive分析网站在robots.txt文件中使用的规则。HTTP Archive每月通过WebPageTest抓取数百万个URL，并将结果存储在Google BigQuery中。

数据揭示了什么

在初次尝试中，团队发现默认抓取过程中没有请求robots.txt文件，这意味着HTTP Archive的数据集通常不包含robots.txt的内容。经过与Barry Pollard及HTTP Archive社区的讨论，团队编写了一个自定义的JavaScript解析器，逐行提取robots.txt规则。

解析器提取了所有符合字段-冒号-值模式的行。Illyes描述道：“在allow、disallow和user-agent之后，使用频率急剧下降。”这表明除了这三个字段之外，其他规则的使用频率较低。

错别字容忍度可能扩大

目前，Google在robots.txt中支持四个字段：user-agent、allow、disallow和sitemap。文档中提到其他字段“不被支持”，但没有列出哪些不支持字段在实际中最常见。Illyes表示，分析中还发现了disallow规则的常见拼写错误。

为什么这很重要

这一项目的重要性在于为网站管理员提供了一份更清晰的指南，帮助他们理解哪些robots.txt规则对SEO没有影响。Google计划将使用最频繁的10到15个不支持规则添加到其不支持规则列表中。

Google明确表示不支持的字段将被忽略，而当前的项目则是通过识别Google计划记录的具体规则来扩展这一工作。

这一变化可能会帮助SEO专业人士更好地优化他们的网站，确保他们的robots.txt文件仅包含有效的、被支持的规则，为网站的搜索引擎优化提供支持。

-=||=-收藏赞 (0)

Google计划扩展robots.txt不支持规则列表

研究是如何进行的

数据揭示了什么

错别字容忍度可能扩大

为什么这很重要

相关推荐

万能视频防暂停扩展插件

关注我们

近期热门