Google发布Gemini 2.5 Flash与2.5 Pro稳定版，预览入门级Gemini 2.5 Flash-Lite

Google在本周二（6/17）正式发布已预览数月的Gemini 2.5 Flash与2.5 Pro稳定版，同时宣布预览入门级的Gemini 2.5 Flash-Lite。

首个具备思考（Thinking）能力的Gemini模型是Google是在去年12月发布的Gemini 2.0 Flash Thinking Mode，而今年开始测试的Gemini 2.5家族则是首个内置Thinking能力的Gemini模型家族，包括Gemini 2.5 Pro与Gemini 2.5 Flash。

该Thinking能力指的是模型在生成回应之前，会先进行内部推理、分析与规划，以产生更精确也更深入的回答，旨在支持复杂任务的处理，回应时间也会比较久，内置思考能力的大型语言模型也被外界称为推理模型。

在Gemini 2.5模型家族中，2.5 Pro与2.5 Flash内置并激活Thinking能力，而Gemini 2.5 Flash-Lite的Thinking能力虽然也是内置的，但默认值是关闭的。

一般而言，开发者可以通过API来设置thinkingBudget参数，以决定模型所投入的Thinking资源。在目前的Gemini 2.5模型家族中，2.5 Pro版的thinkingBudget最低阈值是128个Token，意味着它不论如何都会发挥Thinking能力，也代表着它无法被关闭。

至于2.5 Flash虽然也是默认激活Thinking，但可将thinkingBudget设为0，以关闭其思考功能；至于Gemini 2.5 Flash-Lite默认值则是关闭了Thinking，可借由thinkingBudget设置来激活。而且在2.5 Flash与Gemini 2.5 Flash-Lite中，不管有没有激活Thinking的费用都是一样的。

最新的Gemini 2.5 Flash-Lite就是讲求成本与效率，每100万个Token的输入费用为0.1美元，输出为0.4美元。而2.5 Flash的输入/输出费用则是0.3/2.5美元，2.5 Pro则是1.25/10美元。

而在Google的各式基准测试中，可以发现激活Thinking的测试结果绝大多数都优于未激活。

除了Thinking功能之外，3个模型都支持多模态输入，包括文本、程序代码、图片、声音、视频与PDF等，在输出上，2.5 Pro与2.5 Flash支持文本、程序代码，以及文本+图片的输出，2.5 Flash-Lite则仅支持文本与程序代码的输出。

此外，2.5 Pro适用于高端决策、商业分析、复杂的程序代码生成及调试；2.5 Flash可支持即时聊天、客服、快速摘要或图片标注等；入门款的Gemini 2.5 Flash-Lite则适用于大规模内容摘要、高吞吐量的数据处理、基本问答与低延迟应用。