Google最近正在研究扩展其robots.txt文档中不支持的规则列表。通过分析HTTP Archive收集的真实网站数据,Google希望更清楚地记录常见的未支持标签。这一项目的进展如何,又会对SEO产生哪些影响呢?
研究如何展开
在最近一期的“Search Off the Record”节目中,Gary Illyes和Martin Splitt详细介绍了这一项目。项目的起因是一位社区成员向Google的robots.txt代码库提交了一个请求,建议新增两个不支持的标签。为了不做出武断决定,团队决定通过数据收集来扩展研究范围。
团队使用HTTP Archive研究网站在robots.txt文件中使用的规则。HTTP Archive每月通过WebPageTest对数百万个URL进行爬取,并将结果存储在Google BigQuery中。然而,首次尝试遇到了困难,因为默认爬取中没有请求robots.txt文件。
经过与Barry Pollard和HTTP Archive社区的讨论,团队编写了一个自定义JavaScript解析器,逐行提取robots.txt规则。这个自定义指标在二月爬取前合并,数据现已在BigQuery的custom_metrics数据集中可用。
数据揭示了什么
解析器提取了每一行符合字段-冒号-值模式的内容。Illyes描述了结果的分布情况:在allow、disallow和user-agent之后,规则使用量急剧下降。除了这三个字段,其他规则的使用量则落入了不常见的指令长尾,以及因文件损坏而返回HTML而非纯文本的垃圾数据。
目前,Google在robots.txt中支持四个字段:user-agent、allow、disallow和sitemap。文档说明其他字段“不被支持”,但并未列出哪些未支持字段在实际中最常见。
错字容错或将扩大
分析还发现了disallow规则的常见拼写错误。Google目前澄清,不支持的字段将被忽略。当前项目通过识别Google计划记录的具体规则来扩展这一工作。
预计除了四个支持的字段之外,使用最频繁的10到15个规则将被添加到Google的不支持规则列表中。Illyes并未透露将包含哪些具体规则。
为什么这很重要
通过扩展不支持的规则列表,Google希望为网站管理员提供更清晰的指导,帮助他们更有效地管理网站爬取。对于SEO从业者来说,了解哪些规则被忽略可以帮助优化网站的robots.txt文件,确保搜索引擎更好地抓取和索引网站内容。
总的来说,Google的这一举措将为SEO从业者提供更多的信息和工具,以优化他们的robots.txt文件,从而提升网站的搜索引擎表现。

TopsTip