AI搜索的自我吞噬：SEO行业是罪魁祸首？

“`html

去年九月，Lily Ray向Perplexity询问关于SEO和AI搜索的最新消息。它自信地告诉她有关“2025年9月‘视角’核心算法更新”的信息，但这次更新根本不存在。事实上，Google已经多年没有为核心更新命名，“视角”早已是一个SERP功能。如果真的有更新，她的邮箱早在Perplexity之前就会通知她。

她查看了引用来源，发现它们都指向SEO代理博客上由AI生成的帖子：这些网站通过内容流水线构思出一个更新，并将其发布为报道。Perplexity阅读了这些内容，将其视为来源材料，并将其回传给她作为新闻。

AI搜索中的自我循环现象

今年二月，BBC的Thomas Germain在他个人网站上花了20分钟写了一篇博客，标题为“吃热狗的顶级科技记者”。这篇文章让他排名第一，并虚构了一场从未发生过的2026年南达科他国际热狗锦标赛，且没有任何实际引用。在24小时内，Google的AI概览和ChatGPT都在传播他的虚构内容。Claude没有上当，而Google和OpenAI却上当了。

这种现象被称为“模型崩溃”。模型在网络文本上训练，网络充满AI输出，下一代模型在越来越多的自身产物上训练，最终分布趋于平庸。创新来自例外，而概率系统设计上就削弱了例外。我曾将其称为“数字蛇吞尾”。

检索污染的快速蔓延

这种问题并不是训练周期的问题。Lily和Germain记录的现象，以及《纽约时报》量化的结果，都不是训练方面的。涉及的模型在幻觉出现在博客上并被当作有引用依据的事实提供时，并没有重新训练。污染以爬行的速度传播。蛇吞尾不是在世代间自食，而是在查询时自食，每次有人向这些系统提问时都会发生。

模型崩溃是训练语料库的问题。合成内容渗入预训练数据，下一代模型继承它，能力退化。研究人员已经警告了两年。他们是对的，但描述的过程太慢，以至于每个人都能郑重地点头并继续前行。

SEO行业的角色

检索污染比想象中更快。RAG系统——如Perplexity、Google AI概览、具有搜索功能的ChatGPT——并不单纯依赖参数记忆生成答案。它们从实时网络中获取文档，将其纳入上下文，并基于检索内容生成响应。如果检索器展示的是幻觉的SEO帖子，答案就会继承这个幻觉，无需重新训练。

学术文献对此有明确的描述。《中毒RAG》（Zou等人，2024）表明，在检索语料库中注入少量精心编写的段落就足以控制RAG系统在目标查询上的输出。《坏RAG》（Xue等人，2024）使用语义后门展示了同类攻击。这两篇论文都将其视为对抗性问题：当攻击者故意毒害语料库时会发生什么。

Germain和Lily无意中证明了对抗性模型就是正常的操作模型。你不需要精心编写的对抗性段落，只需要一篇博客文章。开放网络是语料库，任何拥有域名的人都可以向其写入。

《纽约时报》委托的Oumi分析对其成本进行了量化。在4,326个SimpleQA测试中，Google的AI概览在Gemini 2上正确回答了85%的问题，在Gemini 3上为91%。按Google的规模——每年超过五万亿次搜索——9%的错误率每小时仍然转化为数千万个错误答案。但更具揭示性的数据是：在Gemini 3上，56%的正确答案是没有实际依据的，高于Gemini 2的37%。升级提高了表面准确性，使引用变得更差。当模型正确时，超过一半的时间，它指向的来源并不支持其主张。

检索层不是过滤器，而是感染媒介。SEO行业是最积极生产它的行业，然后又最积极地撰写关于消费后果的文章。我曾写过内容扩展只是语法更好的内容旋转，以及从非确定性系统输出构建仪表板的AI可见性工具复合体。这是同一个循环，只是更深一层。SEO代理运行AI内容流水线，因为AI概览削减了他们客户的流量。在核心更新仍在推出期间，流水线发布猜测的“赢家和输家”帖子，不引用任何东西。另一家代理的流水线将其作为来源。输出涌入检索索引。AI概览引用了其中之一。原来的代理然后写了一份案例研究，关于AI概览如何“展示”他们的内容。

“`

-=||=-收藏赞 (0)

AI搜索的自我吞噬：SEO行业是罪魁祸首？

AI搜索中的自我循环现象

检索污染的快速蔓延

SEO行业的角色

相关推荐

万能视频防暂停扩展插件

关注我们

近期热门