“`html
去年九月,Lily Ray向Perplexity询问关于SEO和AI搜索的最新消息。它自信地告诉她有关“2025年9月‘视角’核心算法更新”的信息,但这次更新根本不存在。事实上,Google已经多年没有为核心更新命名,“视角”早已是一个SERP功能。如果真的有更新,她的邮箱早在Perplexity之前就会通知她。
她查看了引用来源,发现它们都指向SEO代理博客上由AI生成的帖子:这些网站通过内容流水线构思出一个更新,并将其发布为报道。Perplexity阅读了这些内容,将其视为来源材料,并将其回传给她作为新闻。
AI搜索中的自我循环现象
今年二月,BBC的Thomas Germain在他个人网站上花了20分钟写了一篇博客,标题为“吃热狗的顶级科技记者”。这篇文章让他排名第一,并虚构了一场从未发生过的2026年南达科他国际热狗锦标赛,且没有任何实际引用。在24小时内,Google的AI概览和ChatGPT都在传播他的虚构内容。Claude没有上当,而Google和OpenAI却上当了。
这种现象被称为“模型崩溃”。模型在网络文本上训练,网络充满AI输出,下一代模型在越来越多的自身产物上训练,最终分布趋于平庸。创新来自例外,而概率系统设计上就削弱了例外。我曾将其称为“数字蛇吞尾”。
检索污染的快速蔓延
这种问题并不是训练周期的问题。Lily和Germain记录的现象,以及《纽约时报》量化的结果,都不是训练方面的。涉及的模型在幻觉出现在博客上并被当作有引用依据的事实提供时,并没有重新训练。污染以爬行的速度传播。蛇吞尾不是在世代间自食,而是在查询时自食,每次有人向这些系统提问时都会发生。
模型崩溃是训练语料库的问题。合成内容渗入预训练数据,下一代模型继承它,能力退化。研究人员已经警告了两年。他们是对的,但描述的过程太慢,以至于每个人都能郑重地点头并继续前行。
SEO行业的角色
检索污染比想象中更快。RAG系统——如Perplexity、Google AI概览、具有搜索功能的ChatGPT——并不单纯依赖参数记忆生成答案。它们从实时网络中获取文档,将其纳入上下文,并基于检索内容生成响应。如果检索器展示的是幻觉的SEO帖子,答案就会继承这个幻觉,无需重新训练。
学术文献对此有明确的描述。《中毒RAG》(Zou等人,2024)表明,在检索语料库中注入少量精心编写的段落就足以控制RAG系统在目标查询上的输出。《坏RAG》(Xue等人,2024)使用语义后门展示了同类攻击。这两篇论文都将其视为对抗性问题:当攻击者故意毒害语料库时会发生什么。
Germain和Lily无意中证明了对抗性模型就是正常的操作模型。你不需要精心编写的对抗性段落,只需要一篇博客文章。开放网络是语料库,任何拥有域名的人都可以向其写入。
《纽约时报》委托的Oumi分析对其成本进行了量化。在4,326个SimpleQA测试中,Google的AI概览在Gemini 2上正确回答了85%的问题,在Gemini 3上为91%。按Google的规模——每年超过五万亿次搜索——9%的错误率每小时仍然转化为数千万个错误答案。但更具揭示性的数据是:在Gemini 3上,56%的正确答案是没有实际依据的,高于Gemini 2的37%。升级提高了表面准确性,使引用变得更差。当模型正确时,超过一半的时间,它指向的来源并不支持其主张。
检索层不是过滤器,而是感染媒介。SEO行业是最积极生产它的行业,然后又最积极地撰写关于消费后果的文章。我曾写过内容扩展只是语法更好的内容旋转,以及从非确定性系统输出构建仪表板的AI可见性工具复合体。这是同一个循环,只是更深一层。SEO代理运行AI内容流水线,因为AI概览削减了他们客户的流量。在核心更新仍在推出期间,流水线发布猜测的“赢家和输家”帖子,不引用任何东西。另一家代理的流水线将其作为来源。输出涌入检索索引。AI概览引用了其中之一。原来的代理然后写了一份案例研究,关于AI概览如何“展示”他们的内容。
“`

TopsTip