OpenAI周四(8/7)正式发布了GPT-5,ChatGPT版本采用统一系统架构,同时集成了快速回应与深度思考模式,并可通过即时路由器自主切换,也提高了整体的性能、效率与可靠性,GPT-5 API版本则大幅强化程序开发及代理任务,已被集成到OpenAI API平台、Codex CLI、Microsoft 365 Copilot、GitHub Copilot及Azure AI Foundry上等平台上。
根据OpenAI的说法,GPT-5提高了ChatGPT中最常见之3种用途的性能,包括写作、程序设计与健康,也于减少幻觉、强化指令遵循,以及减少阿谀奉承上有了重大改进。例如只需要一个提示就能生成美观且回应讯速网站、应用程序及游戏;在健康上它可主动标记潜在的问题并提出问题,也能有更精确与更可靠的回应;在文本上则具备更有意境的创作风格。
GPT-5在有关数学的AIME 2025基准测试分数为94.6%,与程序设计相关的SWE-bench Verified及Aider Polyglot分别达到74.9%与88%,涉及多模态理解的MMMU为84.2%,健康领域的HealthBench Hard为46.2%,以GPT-5 Pro进行科学推理的GPQA为88.4%。
图片来源/OpenAI
相较于OpenAI o3,GPT-5的输出Token少了50-80%;相较于GPT-4o,GPT-5的事实错误少了45%;在开放式的事实查询中,GPT-5的幻觉率是OpenAI o3的1/6;在缺少图片的多模态测试中,o3有超过86%的比例会给出虚假答案,GPT-5只有9%;GPT-5的谄媚回应也从GPT-4o的14.5%降至6%以下。
OpenAI还开始于GPT-5中预览不同的聊天机器人个性,包括愤世嫉俗型(Cynic)、机器人型(Robot)、倾听者型(Listener)与书呆子型(Nerd),初期仅支持文本聊天,之后将支持语音,用户可自行于设置中调整。
而在程序设计上,OpenAI于内部测试GPT-5的前端开发,发现它有70%的时候都优于o3,输出Token减少了22%,工具调用减少了45%,且性能更好。Windsurf说它的工具调用错误率比其他先进模型少了一半。
至于GPT-5在与代理任务有关的τ2-bench telecom基准测试分数为96/7%,Scale MultiChallenge为69.6%,长文本的检索能力也优于o3及GPT-4.1,代表它能够更可靠地调用并串联各种工具。
GPT-5有3种API规格,包括GPT-5、GPT-5-mini与GPT-5-nano,每100万个输入Token的价格分别是1.25/0.25/0.05美元,输出则是10/2/0.4美元。
有些媒体试用后认为GPT-5属于重大更新,有些则觉得它比不上从GPT-3到GPT-4所带来的惊喜,而根据路透社(Reuters)的报道,OpenAI内部正在讨论如何让员工手上的股票套现,且对该公司的估值高达5,000亿美元。OpenAI在今年3月底宣布要融资400亿美元,融资后的估值为3,000亿美元。