Google周四(10/2)宣布,代号为纳米香蕉(Nano Banana)的图像生成模型Gemini 2.5 Flash Image正式进入生产阶段,并添加10种长宽比、支持批处理,也开始提供商业授权。
过去的AI图像工具大多只靠文本生成,缺乏对形象的深层理解,而Nano Banana可同时理解文本与图像,能够直接修改用户上传的照片,也能理解自然语言命令,还能保持角色的一致性,再加上生成速度快(少于10秒),让它在8月底开放预览之后迅速形成风潮。根据Google的统计,这段期间光是Gemini程序中的Nano Banana就被用来创作超过50亿个作品。
本周的宣布代表Gemini 2.5 Flash Image模型已从预览阶段转为正式产品,可安全地应用于生产环境中,受到商业条款的保护,也会开始收费,价格为每100万个输出Token的费用为30美元,由于每张图平均会用上1,290个Token,所以每张图的生成费用为0.039美元。
正式版除了开放商用与收费之外,也同步带来多项升级。预览时的Nano Banana只能生成16:9的固定比例图像,而正式版则支持21:9、16:9、4:3、3:2、1:1、9:16、3:4、2:3、5:4、4:5等10种比例,让用户可更灵活地针对不同平台与用途生成内容,包括电影级横幅、方形社交媒体贴文,或是直式短影音封面等。
其次它支持批处理,可一次生成多张图像,大幅提升工作效率,以支持营销、商品图或游戏角色的大量制作。
Google也提供了Nano Banana的4个使用技巧,包括利用它能保持角色一致性的特色来创建虚拟形象或公仔化自拍;利用自然语言来修改图像中的特定细节,如“让狗的嘴巴闭起来”;利用简单且口语化的命令来探索Nano Banana的创意潜力;以及利用Gemini App的Canvas模式或Google AI Studio来创建新应用程序。
其中,最后一点允许用户或开发人员完全不必撰写程序,只要输入一句提示语,就能生成一个完整的AI图像应用程序,例如:“帮我创建一个可以上传照片并套用滤镜的形象编辑App”。Google团队示范了许多应用,其中的PictureMe让用户上传一张照片,选择“80年代商场写真”主题,系统就会自动生成6张风格不同的照片;或是可将图片变成GIF动画的Bananimate;以及能够预览不同穿搭效果的Fit Check。
用户或开发人员可以通过Gemini App、Google AI Studio、Gemini API或Vertex AI访问Nano Banana模型,其中的Gemini App与Google AI Studio目前仍提供少量免费体验额度。