Google在本周二(6/17)正式发布已预览数月的Gemini 2.5 Flash与2.5 Pro稳定版,同时宣布预览入门级的Gemini 2.5 Flash-Lite。

首个具备思考(Thinking)能力的Gemini模型是Google是在去年12月发布的Gemini 2.0 Flash Thinking Mode,而今年开始测试的Gemini 2.5家族则是首个内置Thinking能力的Gemini模型家族,包括Gemini 2.5 Pro与Gemini 2.5 Flash。

该Thinking能力指的是模型在生成回应之前,会先进行内部推理、分析与规划,以产生更精确也更深入的回答,旨在支持复杂任务的处理,回应时间也会比较久,内置思考能力的大型语言模型也被外界称为推理模型。

在Gemini 2.5模型家族中,2.5 Pro与2.5 Flash内置并激活Thinking能力,而Gemini 2.5 Flash-Lite的Thinking能力虽然也是内置的,但默认值是关闭的。

一般而言,开发者可以通过API来设置thinkingBudget参数,以决定模型所投入的Thinking资源。在目前的Gemini 2.5模型家族中,2.5 Pro版的thinkingBudget最低阈值是128个Token,意味着它不论如何都会发挥Thinking能力,也代表着它无法被关闭。

至于2.5 Flash虽然也是默认激活Thinking,但可将thinkingBudget设为0,以关闭其思考功能;至于Gemini 2.5 Flash-Lite默认值则是关闭了Thinking,可借由thinkingBudget设置来激活。而且在2.5 Flash与Gemini 2.5 Flash-Lite中,不管有没有激活Thinking的费用都是一样的。

最新的Gemini 2.5 Flash-Lite就是讲求成本与效率,每100万个Token的输入费用为0.1美元,输出为0.4美元。而2.5 Flash的输入/输出费用则是0.3/2.5美元,2.5 Pro则是1.25/10美元。

而在Google的各式基准测试中,可以发现激活Thinking的测试结果绝大多数都优于未激活。

除了Thinking功能之外,3个模型都支持多模态输入,包括文本、程序代码、图片、声音、视频与PDF等,在输出上,2.5 Pro与2.5 Flash支持文本、程序代码,以及文本+图片的输出,2.5 Flash-Lite则仅支持文本与程序代码的输出。

此外,2.5 Pro适用于高端决策、商业分析、复杂的程序代码生成及调试;2.5 Flash可支持即时聊天、客服、快速摘要或图片标注等;入门款的Gemini 2.5 Flash-Lite则适用于大规模内容摘要、高吞吐量的数据处理、基本问答与低延迟应用。