Google计划扩展robots.txt不支持规则列表，这对SEO意味着什么？

Google最近正在研究扩展其robots.txt文档中不支持的规则列表。通过分析HTTP Archive收集的真实网站数据，Google希望更清楚地记录常见的未支持标签。这一项目的进展如何，又会对SEO产生哪些影响呢？

研究如何展开

在最近一期的“Search Off the Record”节目中，Gary Illyes和Martin Splitt详细介绍了这一项目。项目的起因是一位社区成员向Google的robots.txt代码库提交了一个请求，建议新增两个不支持的标签。为了不做出武断决定，团队决定通过数据收集来扩展研究范围。

团队使用HTTP Archive研究网站在robots.txt文件中使用的规则。HTTP Archive每月通过WebPageTest对数百万个URL进行爬取，并将结果存储在Google BigQuery中。然而，首次尝试遇到了困难，因为默认爬取中没有请求robots.txt文件。

经过与Barry Pollard和HTTP Archive社区的讨论，团队编写了一个自定义JavaScript解析器，逐行提取robots.txt规则。这个自定义指标在二月爬取前合并，数据现已在BigQuery的custom_metrics数据集中可用。

数据揭示了什么

解析器提取了每一行符合字段-冒号-值模式的内容。Illyes描述了结果的分布情况：在allow、disallow和user-agent之后，规则使用量急剧下降。除了这三个字段，其他规则的使用量则落入了不常见的指令长尾，以及因文件损坏而返回HTML而非纯文本的垃圾数据。

目前，Google在robots.txt中支持四个字段：user-agent、allow、disallow和sitemap。文档说明其他字段“不被支持”，但并未列出哪些未支持字段在实际中最常见。

错字容错或将扩大

分析还发现了disallow规则的常见拼写错误。Google目前澄清，不支持的字段将被忽略。当前项目通过识别Google计划记录的具体规则来扩展这一工作。

预计除了四个支持的字段之外，使用最频繁的10到15个规则将被添加到Google的不支持规则列表中。Illyes并未透露将包含哪些具体规则。

为什么这很重要

通过扩展不支持的规则列表，Google希望为网站管理员提供更清晰的指导，帮助他们更有效地管理网站爬取。对于SEO从业者来说，了解哪些规则被忽略可以帮助优化网站的robots.txt文件，确保搜索引擎更好地抓取和索引网站内容。

总的来说，Google的这一举措将为SEO从业者提供更多的信息和工具，以优化他们的robots.txt文件，从而提升网站的搜索引擎表现。

-=||=-收藏赞 (0)

Google计划扩展robots.txt不支持规则列表，这对SEO意味着什么？

研究如何展开

数据揭示了什么

错字容错或将扩大

为什么这很重要

相关推荐

万能视频防暂停扩展插件

关注我们

近期热门