OpenAI发布GPT-5，强化程序开发及代理任务

OpenAI周四（8/7）正式发布了GPT-5，ChatGPT版本采用统一系统架构，同时集成了快速回应与深度思考模式，并可通过即时路由器自主切换，也提高了整体的性能、效率与可靠性，GPT-5 API版本则大幅强化程序开发及代理任务，已被集成到OpenAI API平台、Codex CLI、Microsoft 365 Copilot、GitHub Copilot及Azure AI Foundry上等平台上。

根据OpenAI的说法，GPT-5提高了ChatGPT中最常见之3种用途的性能，包括写作、程序设计与健康，也于减少幻觉、强化指令遵循，以及减少阿谀奉承上有了重大改进。例如只需要一个提示就能生成美观且回应讯速网站、应用程序及游戏；在健康上它可主动标记潜在的问题并提出问题，也能有更精确与更可靠的回应；在文本上则具备更有意境的创作风格。

GPT-5在有关数学的AIME 2025基准测试分数为94.6%，与程序设计相关的SWE-bench Verified及Aider Polyglot分别达到74.9%与88%，涉及多模态理解的MMMU为84.2%，健康领域的HealthBench Hard为46.2%，以GPT-5 Pro进行科学推理的GPQA为88.4%。

图片来源／OpenAI

相较于OpenAI o3，GPT-5的输出Token少了50-80%；相较于GPT-4o，GPT-5的事实错误少了45%；在开放式的事实查询中，GPT-5的幻觉率是OpenAI o3的1/6；在缺少图片的多模态测试中，o3有超过86%的比例会给出虚假答案，GPT-5只有9%；GPT-5的谄媚回应也从GPT-4o的14.5%降至6%以下。

OpenAI还开始于GPT-5中预览不同的聊天机器人个性，包括愤世嫉俗型（Cynic）、机器人型（Robot）、倾听者型（Listener）与书呆子型（Nerd），初期仅支持文本聊天，之后将支持语音，用户可自行于设置中调整。

而在程序设计上，OpenAI于内部测试GPT-5的前端开发，发现它有70%的时候都优于o3，输出Token减少了22%，工具调用减少了45%，且性能更好。Windsurf说它的工具调用错误率比其他先进模型少了一半。

至于GPT-5在与代理任务有关的τ2-bench telecom基准测试分数为96/7%，Scale MultiChallenge为69.6%，长文本的检索能力也优于o3及GPT-4.1，代表它能够更可靠地调用并串联各种工具。

GPT-5有3种API规格，包括GPT-5、GPT-5-mini与GPT-5-nano，每100万个输入Token的价格分别是1.25/0.25/0.05美元，输出则是10/2/0.4美元。

有些媒体试用后认为GPT-5属于重大更新，有些则觉得它比不上从GPT-3到GPT-4所带来的惊喜，而根据路透社（Reuters）的报道，OpenAI内部正在讨论如何让员工手上的股票套现，且对该公司的估值高达5,000亿美元。OpenAI在今年3月底宣布要融资400亿美元，融资后的估值为3,000亿美元。

OpenAI发布GPT-5，强化程序开发及代理任务

微信扫一扫：分享