OpenAI最近宣布推出全新GPT-4.1模型系列,除了首度支持高达100万token的上下文窗口,性能也有所提升。不过,这三款新模型的命名——GPT‑4.1、GPT‑4.1 mini、GPT‑4.1 nano——又让人一头雾水,延续了OpenAI一贯的命名混乱。

根据OpenAI表示,这些模型在多个方面上都超越GPT-4o,但特别的是,GPT-4.1仅开放给开发者通过API使用,一般用户无法在ChatGPT界面中直接体验。

这次最大亮点是“100万token上下文窗口”,约可处理3,000页文本的资讯量,与Google的Gemini模型相当,后者早已支持类似的长内容处理能力。

同时,OpenAI也宣布将在API停用GPT-4.5 Preview模型,这款2025年2月上线、曾被批为“灾难”的过渡型产品,将在2025年7月退役,开发者需提早转移。不过在ChatGPT中,GPT-4.5仍会暂时保留。

你如果觉得命名乱七八糟,其实OpenAI首席执行官Sam Altman早在今年2月就已坦承这点。他在X(原Twitter)表示,OpenAI的产品线和命名方式确实变得太过复杂。

举例来说,OpenAI在ChatGPT界面中提供的每一种模型,都有各自的优势与限制,包含是否支持图片处理或产生等附加功能,但对用户来说,要搞清楚哪一款最适合某种任务并不容易。以下是这些模型的简要整理:

GPT-4o:OpenAI目前的“标准版”语言模型,也是目前综合表现最强的通用型AI。

GPT-4o with search(含搜索功能):在GPT-4o的基础上加入即时网页搜索功能。

GPT-4o with deep research(深度研究模式):这个版本会通过特殊架构,让GPT-4o能在网络上多次搜索并汇集整理成一份报告。

GPT-4o with scheduled tasks(调度任务模式):允许GPT-4o定期执行特定任务(如网页搜索),并定时提供更新内容给用户。

o1:OpenAI的“模拟推理(Simulated Reasoning, SR)”模型,设计上会主动使用“逐步思考”的方式解决问题,在处理逻辑推理或数学题时表现优于GPT-4o,但在写作或创意表现上相对较弱。

o3-mini:未公开的“o3”模型的小型化快速版本,是o1的后继机型,但因为“o2”商标无法使用而跳过命名。

o3-mini-high:o3-mini的高端版本,推理更深入但运行速度较慢。

o1 pro mode:目前OpenAI所提供最强的模拟推理模型,速度最慢,但逻辑与思考能力最完整,仅限付费Pro账户使用。

GPT-4o mini:旧版GPT-4o的轻量版,当初设计给免费用户使用,速度快、成本低。OpenAI保留此版本,主要是为了兼容一些特定提示词的需求。

GPT-4:OpenAI在2023年首次推出的GPT-4传统版本,现在属于较旧的型号。

Advanced Voice Mode(高端语音模式):专为语音互动设计的GPT-4o版本,支持即时语音输入与输出。

目前ChatGPT已塞满各种型号:GPT-4o、GPT-4o mini、o1-pro、o3-mini、GPT-4、GPT-4.5……每款之间的差异让用户雾煞煞。

Altman当时说,未来会以GPT-5为契机,整理GPT系列与o系列。不过这次推出GPT-4.1,显然与“整合品牌”的方向相违,反而更像是“暂时性”过渡模型,不够重大却又值得发布的那种。

就某些表现来说,GPT-4.1确实胜过GPT-4.5,例如在SWE-bench Verified程序代码测试中,GPT-4.1得分为54.6%,远高于GPT-4.5的38.0%,而且生成程序代码也更稳定。

但在其他方面,如学术知识测验、指令理解、图像任务等,GPT-4.5表现仍略胜一筹。OpenAI表示,GPT-4.1虽非全方面更强,却在速度更快、成本更低之下,仍能达到“足够好”的实用效果。

GPT-4.5的运行成本惊人,每百万input token售价75美元,output则高达150美元;而GPT-4.1则便宜得多,input为2美元,output为8美元

至于mini和nano版本则更便宜:

GPT-4.1 mini:input $0.40(约NT$13),output $1.60(约NT$52)

GPT-4.1 nano:input $0.10(约NT$3),output $0.40(约NT$13)

OpenAI表示,GPT-4.1等研究模型的改进,会“逐步集成”进ChatGPT使用的GPT-4o版本,让ChatGPT保持在一个不断更新的状态。换句话说,ChatGPT使用的是一个动态演进的统一模型,而开发者通过API则能精准选用符合需求的具体模型版本。

这形成一种双轨策略:ChatGPT用户获得统一旦模糊的体验,而开发者则享有更细致、明确的选项。

只是命名上的混乱仍未解决,其实这也是一个谜团:OpenAI怎么没有想过让ChatGPT来帮他们解决命名规则的问题?