Google正在考虑扩展其文档中robots.txt不支持规则的列表,这一变化基于对HTTP Archive收集的真实robots.txt数据的分析。在最近一期的“Search Off the Record”播客中,Gary Illyes和Martin Splitt详细描述了这个项目的进展。
研究是如何进行的
项目的起因是社区成员向Google的robots.txt代码库提交了一个请求,希望将两个新标签加入到不支持列表中。Illyes解释说,团队没有只关注这两个标签,而是决定研究使用最频繁的前10到15个不支持规则。
为此,团队利用HTTP Archive分析网站在robots.txt文件中使用的规则。HTTP Archive每月通过WebPageTest抓取数百万个URL,并将结果存储在Google BigQuery中。
数据揭示了什么
在初次尝试中,团队发现默认抓取过程中没有请求robots.txt文件,这意味着HTTP Archive的数据集通常不包含robots.txt的内容。经过与Barry Pollard及HTTP Archive社区的讨论,团队编写了一个自定义的JavaScript解析器,逐行提取robots.txt规则。
解析器提取了所有符合字段-冒号-值模式的行。Illyes描述道:“在allow、disallow和user-agent之后,使用频率急剧下降。”这表明除了这三个字段之外,其他规则的使用频率较低。
错别字容忍度可能扩大
目前,Google在robots.txt中支持四个字段:user-agent、allow、disallow和sitemap。文档中提到其他字段“不被支持”,但没有列出哪些不支持字段在实际中最常见。Illyes表示,分析中还发现了disallow规则的常见拼写错误。
为什么这很重要
这一项目的重要性在于为网站管理员提供了一份更清晰的指南,帮助他们理解哪些robots.txt规则对SEO没有影响。Google计划将使用最频繁的10到15个不支持规则添加到其不支持规则列表中。
Google明确表示不支持的字段将被忽略,而当前的项目则是通过识别Google计划记录的具体规则来扩展这一工作。
这一变化可能会帮助SEO专业人士更好地优化他们的网站,确保他们的robots.txt文件仅包含有效的、被支持的规则,为网站的搜索引擎优化提供支持。

TopsTip