形象生成模型Veo和图像生成模型Imagen 3日前登上Google的Vertex AI平台,提供企业客户加以运用。负责开发的Google DeepMind 16日进一步发布Veo 2新模型和最新版本的Imagen 3。

Veo 2 & Imagen 3

Veo 2对现实世界的物理原理以及人类动作和表情的细微差异有更深入的理解,有助于提高生成形象的整体细节和真实感。

Google DeepMind指出,Veo 2理解电影拍摄的独特语言,用户能够指定风格类型、拍摄镜头、电影效果等。如果用户需要一颗滑过场景中央的低角度镜头,或者一颗观察科学家使用显微镜的脸部特写镜头,Veo 2皆能满足特定需求;甚至在文本提示写道“18mm镜头”,Veo 2知道如何模拟这颗广角镜头来拍摄,或在文本提示加入浅景深(shallow depth of field),可聚焦在拍摄对象并模糊背景。不只如此,Veo 2支持最高4K分辨率,生成形象长度增长至数分钟。

形象生成模型可能有“幻觉”,产生不需要的细节,比方说多余手指或意外物体等,Google则强调Veo 2发生这类细节的频率更低,使输出形象更真实。此外,Veo 2的生成视频包含一个肉眼看不见的SynthID数字浮水印,帮助识别形象是否为AI生成,减少传播不实资讯等状况。

Veo 2产生的示范短片。

Google DeepMind也改进Imagen 3推出最新版本,能够产生更明亮、构图更好的图像,它能准确变化出多种艺术风格,从写实派、印象派再到动画风格都有,产生更丰富的图像细节和纹理。

Google将Veo 2导入Google Labs的形象生成工具VideoFX,同时扩大访问模型的用户数量,还计划明年将Veo 2拓展至YouTube Shorts及其他产品。至于Imagen 3最新版本导入图像生成工具ImageFX,提供给全球100多个国家的用户。

值得一提的是,OpenAI Sora模型上周正式发布,能够产生速度更快、品质更高的形象,目前优先提供给美国及部分国家的ChatGPT Plus/Pro付费用户。面对形象生成竞赛,Google加快脚步来与OpenAI竞争。

Whisk

Whisk是Google Labs最新实验的新工具,可让用户根据自己想要的主题、场景及风格进行图像生成,将许多样素组合在一起或重新设计,创造出独特的东西。

Whisk运行原理是结合Imagen 3最新版本与Gemini视觉理解和描述功能,Gemini主动描述图像变成详细的文本提示,再输入Imagen 3进行图像生成,于是打造出这项新工具,目前先提供美国用户使用。

Google Labs推出新工具Whisk。

(首图来源:Google Blog)