GPT 写稿,Claude 评审:AI 界正在流行"互挑毛病"

2026年3月30日,AI 圈同时炸出两条新闻,指向同一个趋势——AI 公司不再闷头造模型,而是开始让竞争对手的模型给自己「挑毛病」。

GPT 写稿,Claude 评审:AI 界正在流行

微软:GPT 和 Claude 联手做研究



Microsoft 365 Copilot 的 Researcher 功能上线了一个叫 Critique(批评)的新架构。核心逻辑很清晰:一个模型负责生产,另一个模型负责评审,形成一套类似学术同行评审的工作流。

具体来说,GPT 做初稿——规划任务、检索资料、撰写报告;Claude 做评审——检验事实准确性、核实引用来源、挑剔论证漏洞。两模型各司其职,不互相抢戏。

评审维度有三个:

  • 来源可靠性(Source Reliability Assessment):是否引用了权威、适合研究语境的资料
  • 报告完整性(Report Completeness):最终报告是否全面满足用户的研究意图
  • 严格证据锚定(Strict Evidence Grounding Enforcement):每个关键论点是否都有精确来源引用

这基本上就是学术期刊发论文时那种「外审」流程的 AI 版本。

效果如何?微软在 DRACO 基准测试(100 个跨领域复杂研究任务)上跑了一遍,结果显示:Critique 比单一模型方案提升 7.0 分,比 Perplexity Deep Research 高出 13.88%。评审不是走形式,是真的能找出问题。

除了 Critique,微软还搞了一个叫 Council(委员会)的功能——GPT 和 Claude 同时独立完成各自的研究报告,然后由第三个裁判模型生成一封「封面信」,总结两份报告在哪些结论上一致、在哪些地方有分歧(包括数据量级、分析框架、解读方式的差异),以及各自贡献了哪些独特视角。

OpenAI:给 Claude Code 做了个官方插件

同一天,OpenAI 在 GitHub 上线了一个官方插件 codex-plugin-cc,让 Claude Code 用户可以直接调用 Codex 做代码评审。发布 4 小时,斩获 3000 颗星、114 个 Fork,火速登上 GitHub Trending。

这个插件的核心命令有三个:

  • /codex:review — Codex 做常规代码评审
  • /codex:adversarial-review对抗性评审,专门挑战开发者的设计选择、实现逻辑和潜在风险点
  • /codex:rescue — 把任务委托给 Codex 处理

有意思的是这个对抗性评审的设计。它不是温和地提建议,而是主动质疑:「你确定这个缓存策略是对的?」「有没有考虑过竞态条件?」「这个方案比另一种更简单吗?」——像是一个专门来给你泼冷水的资深评审。

OpenAI 的工程师 Dominik Kundel 在插件说明里写得很坦白:这个插件就是让 Claude Code 用户能「无缝使用 Codex」,不需要离开现有工作流。

一个趋势:AI 公司开始互相嵌入

这两条新闻放在一起看,指向一个有意思的格局变化。

微软让 OpenAI 的模型和 Anthropic 的模型在同一个产品里配合,一个出力,一个挑刺。OpenAI 则主动让自己的模型钻进 Anthropic 的 Claude Code 里当评审。两个曾经的「对家」,正在互相嵌入对方的生态。

对微软来说,这意味着 Copilot 的优势不在于自己训练了最强的模型,而在于能用最好的模型组合。对 OpenAI 来说,主动给 Claude Code 做插件,则等于承认 Claude Code 在编程辅助领域的领先地位,同时也在建立自己在多模型协作生态里的枢纽位置。

当 AI 公司开始互相调用、互当评审,「AI 军备竞赛」的叙事正在悄悄变成「AI 工作流协作」的新故事。

参考来源:Microsoft Tech Community(2026年3月30日)、GitHub openai/codex-plugin-cc

-=||=-收藏赞 (0)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《GPT 写稿,Claude 评审:AI 界正在流行"互挑毛病"》
文章链接:https://topstip.com/gpt-writing-claude-review-ai-trend/
转载说明:请注明来自“TopsTip”并加入转载内容页的超链接。
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。