前沿科技
测评指南

OpenAI 新模型给自己挑刺!GPT-4 的代码审查员

OpenAI 发布了新的 AI 模型 – CriticGPT,旨在识别由 ChatGPT 生成的代码中的错误。通过 Reinforcement Learning from Human Feedback (RLHF:来自人类反馈的强化学习),CriticGPT 可以帮助人类审查员提高大语言模型 (LLM) 的输出准确性。

由于模型变得更有知识,错误变得更加微妙,人类培训师难以准确评估。而 CriticGPT 是基于 GPT-4 的模型,用于撰写 ChatGPT 响应的批评,用以帮助人类培训师在 RLHF 过程中发现错误。

CriticGPT 训练方式

CriticGPT 的训练方式与 ChatGPT 类似,使用 RLHF,但重点是批评包含故意错误的输入。AI 培训师手动在 ChatGPT 代码中插入错误并提供示例反馈。CriticGPT 的表现通过评估插入的和自然发生的错误来衡量。由于 CriticGPT 产生的无用批评和幻觉问题更少,其批评在 63% 的情况下比 ChatGPT 的批评更受欢迎。

CriticGPT 帮助培训师撰写比没有帮助时更全面的批评,同时比模型单独工作时产生的幻觉更少。

优势

  • 增强培训师表现:使用 CriticGPT 的培训师能产生更全面的批评并捕捉更多错误;
  • 减少幻觉:CriticGPT 帮助减少与模型单独工作时相比的虚假错误;
  • 改进 RLHF 数据:在 RLHF 过程中使用 CriticGPT 有助于生成更高质量的 GPT-4 训练数据。

以上左图比较了“人类(绿色)”、“CriticGPT(橙色)”和“人类与 CriticGPT(粉色)”对代码批评的完整性。可以看出,CriticGPT 的批评比人类的批评更全面。

以上右图比较了“代码批评中包含虚假信息(幻觉)的比例”。可以看出,人类使用 CriticGPT 时,虚假信息的比例最低。

限制

  • 短答案:CriticGPT 在短的 ChatGPT 答案上进行训练,未来需要处理更长更复杂的任务;
  • 幻觉:模型和培训师仍可能因幻觉而犯错误;
  • 复杂错误:当前关注的是单点错误,未来需要解决分散在多个部分的错误;
  • 复杂性限制:即使是专家和模型辅助,极其复杂的任务仍可能难以评估。

OpenAI 计划将 CriticGPT 类模型进一步整合到他们的 RLHF 标注流程中,以更好地对齐日益复杂的 AI 系统。这包括进一步的研究和实际应用,以改进评估高级 AI 输出的工具。

赞(2)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《OpenAI 新模型给自己挑刺!GPT-4 的代码审查员》
文章链接:https://topstip.com/finding-gpt4s-mistakes-with-gpt-4/
转载说明:请注明来自“TopsTip”并加入转载内容页的超链接。
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

评论 抢沙发

登录

找回密码

注册