GPT-5-Codex:OpenAI 的程序和代码审查代理

  • GPT-5-Codex 是 GPT-5 的一个变体,针对 Codex 中的基于代理的编码进行了优化。
  • 根据任务动态调整思考时间,从几秒到七个多小时。
  • 改进代码审查和关键错误检测,减少错误注释。
  • 适用于 Plus、Pro、Business、Edu 和 Enterprise;API 稍后推出。

GPT-5 Codex 的通用图像

OpenAI 已经提出 GPT-5-Codex是其通用模型的一个变体,专注于 Codex 中基于代理的编程任务。其目标是使团队能够在交互式会话和长期后台工作之间切换,而不会丢失上下文或结果质量。

该公司强调,该模型 调整你推理的时间 基于复杂性:对简单请求可在几秒钟内响应,并可在任务需要时投入数小时。这种方法面向软件工程,包括以下高级功能: 代码审查和关键错误检测.

GPT-5-Codex 是什么?它有什么用途?

与通用 GPT-5 相比,此版本已 经过真实开发场景的训练 使用类似框架 PyTorch 从头开始创建项目,添加功能和测试,调试、重构并持续监控变化。

根据 OpenAI 的说法,该模型更 严格遵守代理指南(AGENTS.md),所以最好按照说明操作,类似于 打开助手,并且使用短提示生成更高质量的代码,而无需编写长提示。

除了编程之外,GPT-5-Codex 还可以 通过运行代码和测试来评估正确性并在投入生产之前标记影响问题,这对于审查要求严格的团队特别有用。

在接口工作中,公司认为这是 前端任务的可靠合作伙伴 以及桌面应用程序的创建,并根据内部人类偏好评估改进移动体验的生成。

以上所有内容均已集成到通常的流程中: 终端 (CLI)、IDE、Web、GitHub 和 ChatGPT 应用程序,云和本地环境之间具有上下文连续性。

绩效和适应性“思考时间”

此次发布的关键之一是 动态推理管理:模型本身实时决定投入多少“精力”,并在检测到任务复杂性增加时延长执行时间。

OpenAI 声称已经观察到 超过七小时的独立会议 在大规模重构中,通过迭代来纠正测试失败并验证结果,直到达到目标。

这种行为与基于 预先确定资源的路由器;在这里,模型会随着进展重新评估努力,将敏捷对话与持续执行相结合。

从实践层面来看,这意味着 对具体请求的快速响应 当工作涉及协调多个模块之间的变更或解决复杂的依赖关系时,需要投入更多时间。

对于软件团队来说,这种方法有望 减少不相关的迭代 并更加关注高影响力的步骤,特别是在审查大型存储库或处理跨领域任务时。

代码代理的概念图

工具和集成:CLI、IDE、Web 和 GitHub

Codex 命令行界面已 围绕基于代理的流程重新设计现在可以直接在 CLI 中附加图像,以促进设计决策或检测视觉不一致。

系统可以 使用待办事项列表监控进度 并集成了网络搜索和 MCP 等工具,MCP 是一种将 LLM 安全地连接到外部数据和实用程序的开放标准。

该界面还改进了 工具调用格式和比较,这有助于更清楚地跟踪代理的推理和审查差异。

在开发环境中,IDE 扩展和 GitHub 集成允许 在不丢失上下文的情况下在本地和云之间移动工作,依靠编辑器中的开源来获得更精确的答案。

OpenAI 表示代理运行于 默认受控环境 并且可以调整权限,以限制对敏感项目的潜在破坏性行动。

可用性和访问权限

GPT-5-Codex 已启用 ChatGPT Plus、Pro、Business、Edu 和 Enterprise,此外还有终端、Web、IDE、GitHub 方面的 Codex 经验。

该公司计划将其提供给 稍后提供 API 客户端,尽管目前还没有公布该频道的具体时间表或具体价格。

GPT-5 Codex 测试和指标

根据 OpenAI 分享的信息和外部报告,GPT-5-Codex 提供 在面向代理的场景中比 GPT-5 有更好的结果,例如 SWE-bench Verified 基准。

具体数字如下: SWE-bench Verified 中性能提升高达 74,5% 重构测试的比例从 GPT-33,9 的 5% 跃升至 GPT-51,3-Codex 的 5%,这表明多文件维护和编辑方面取得了进步。

该公司还强调其 评审意见错误或不相关程度较低,从而将注意力集中在关键问题上并减少 PR 中的噪音。

GPT-5 Codex 对技术团队意味着什么

对于开发商来说,拥有一个代理人 结合快速交互和自主工作 为缩短周期和更有效地确定复杂任务的优先级打开了大门。

在组织中,模型能够花费数小时完成一项任务的能力需要企业 AI 战略、明确的成本和执行限制政策,以及在多种语言和具有广泛背景的单一存储库中验证其性能。

实践 安全地集成到现有流程中,具有权限控制、代理决策跟踪和可读差异以保持质量和可追溯性。

专注于软件工程, GPT-5-Codex 的目标是成为技术贡献者 能够创建、审查和维持复杂的项目,根据问题的实际规模调整计算工作量,并提高人工智能编码工具的标准。

红帽
相关文章:
Red Hat 通过 OpenShift AI、F5 和智能代理生态系统加强其企业 AI 战略。