Google于周四(11/20)发布了Nano Banana Pro(Gemini 3 Pro Image),这是一款专业级图像生成模型,强调高画质输出、具备推理能力、改善文本渲染,并能处理复杂构图。

Google在2025年8月正式推出图像生成模型Gemini 2.5 Flash Image,内部代号为Nano Banana,可用于修复照片或生成图像,供用户通过Gemini App使用。上线10天内,全球用户就利用它生成超过2亿张图片,其中最热门的提示为生成公仔。自此,其代号“纳米香蕉”就取代了原本的Gemini Image正式名称,连Gemini 3 Pro Image的发布,Google都直接在标题上称它为Nano Banana Pro。

Nano Banana Pro与前一代最大的差异在于推理能力与文本品质。作为Gemini 3 Pro Image,此模型可利用Search grounding将现实世界的内容直接可视化,包括食谱流程、植物资讯、天气变化、历史背景与数据图表等。Google指出,新版模型能理解更多脉络,使教育、科普与商业应用的图像更贴近事实与内容逻辑。

文本渲染是此次升级的重点之一。前一代容易出现错字或变形,Nano Banana Pro则可在图像中生成清晰、可阅读的多语言文本,并支持字体样式、粗细与排版控制。模型能在海报、产品包装、资讯图表与界面原型中呈现段落级内容,也能将图片中的英文翻译成其他语言,同时保持原本版面,可用于跨市场视觉测试。

构图与合成能力也获得强化。Nano Banana Pro可同时处理最多14张图片,并保持最多5个人物的光线、材质与外貌一致性,适用于场景视觉、时尚图像、团体照与品牌概念示意。Google表示,新版模型能维持角度、阴影与表面反射的完整性,可用于将草图转换为产品原型或创建复杂3D构图。

Nano Banana Pro还加入许多专业级图像控制功能,包括局部编辑、光线调整、景深切换、焦点击择、相机角度设置与色彩分级。用户可切换日夜场景、重新设置前景对焦,或输出1K、2K与4K分辨率,以对应广告、打印、演示文稿与社交媒体需求。

Google提出了Nano Banana Pro的使用技巧,建议在提示语中同时描述主体、构图、动作、场景与风格,以提升画面一致性;若需专业效果,可加入光线、镜头角度、景深与长宽比等参数。进行多图合成时,建议分别注明每张图片的角色与用途,如人物、背景或姿势来源,有助于模型维持外观一致并控制整体构图。

目前Google已在多个产品上供应Nano Banana Pro。一般用户可通过Gemini App中的Create images功能使用;开发者则可通过Gemini API、AI Studio与Vertex AI取得;企业与营销端可在Google Ads、Google Slides与Vids中使用;Flow则提供分镜与视频场景控制功能。不同方案具有不同的使用额度,免费用户在用完额度后会回到前一代Nano Banana,而Google AI Plus、Pro与Ultra订阅者可取得较完整的功能。图片来源/Google