GPT 写稿，Claude 评审：AI 界正在流行”互挑毛病”

2026年3月30日，AI 圈同时炸出两条新闻，指向同一个趋势——AI 公司不再闷头造模型，而是开始让竞争对手的模型给自己「挑毛病」。

微软：GPT 和 Claude 联手做研究

Microsoft 365 Copilot 的 Researcher 功能上线了一个叫 Critique（批评）的新架构。核心逻辑很清晰：一个模型负责生产，另一个模型负责评审，形成一套类似学术同行评审的工作流。

具体来说，GPT 做初稿——规划任务、检索资料、撰写报告；Claude 做评审——检验事实准确性、核实引用来源、挑剔论证漏洞。两模型各司其职，不互相抢戏。

评审维度有三个：

这基本上就是学术期刊发论文时那种「外审」流程的 AI 版本。

效果如何？微软在 DRACO 基准测试（100 个跨领域复杂研究任务）上跑了一遍，结果显示：Critique 比单一模型方案提升 7.0 分，比 Perplexity Deep Research 高出 13.88%。评审不是走形式，是真的能找出问题。

除了 Critique，微软还搞了一个叫 Council（委员会）的功能——GPT 和 Claude 同时独立完成各自的研究报告，然后由第三个裁判模型生成一封「封面信」，总结两份报告在哪些结论上一致、在哪些地方有分歧（包括数据量级、分析框架、解读方式的差异），以及各自贡献了哪些独特视角。

同一天，OpenAI 在 GitHub 上线了一个官方插件 codex-plugin-cc，让 Claude Code 用户可以直接调用 Codex 做代码评审。发布 4 小时，斩获 3000 颗星、114 个 Fork，火速登上 GitHub Trending。

这个插件的核心命令有三个：

有意思的是这个对抗性评审的设计。它不是温和地提建议，而是主动质疑：「你确定这个缓存策略是对的？」「有没有考虑过竞态条件？」「这个方案比另一种更简单吗？」——像是一个专门来给你泼冷水的资深评审。

OpenAI 的工程师 Dominik Kundel 在插件说明里写得很坦白：这个插件就是让 Claude Code 用户能「无缝使用 Codex」，不需要离开现有工作流。

这两条新闻放在一起看，指向一个有意思的格局变化。

微软让 OpenAI 的模型和 Anthropic 的模型在同一个产品里配合，一个出力，一个挑刺。OpenAI 则主动让自己的模型钻进 Anthropic 的 Claude Code 里当评审。两个曾经的「对家」，正在互相嵌入对方的生态。

对微软来说，这意味着 Copilot 的优势不在于自己训练了最强的模型，而在于能用最好的模型组合。对 OpenAI 来说，主动给 Claude Code 做插件，则等于承认 Claude Code 在编程辅助领域的领先地位，同时也在建立自己在多模型协作生态里的枢纽位置。

当 AI 公司开始互相调用、互当评审，「AI 军备竞赛」的叙事正在悄悄变成「AI 工作流协作」的新故事。

参考来源：Microsoft Tech Community（2026年3月30日）、GitHub openai/codex-plugin-cc

-=||=-收藏赞 (0)