Gemini可说贯穿Google I/O 2024整场主题演讲,Google也对Gemini系列其中几款模型进行更新。

Gemini 1.5 Flash

首先,Gemini 1.5 Flash是Gemini系列模型新成员,特别针对大规模、高频率的运算任务进行优化,可降低成本,并提供大幅扩展的脉络长度,更是API里速度最快的一款。

Gemini 1.5 Flash虽然比Gemini 1.5 Pro轻量,但是处理庞大资讯量具备强大的多模态推理能力。Gemini 1.5 Flash擅长摘要、聊天应用、提供图说和视频字幕、从长篇文件和表格截取数据等工作。由于Gemini 1.5 Flash通过提取(distillation)过程由Gemini 1.5 Pro训练而成,是将较大模型中最核心知识和技能,转移到较小、较高效的模型。

Gemini 1.5 Pro

Google大幅改善Gemini 1.5 Pro,不仅将脉络长度扩展至2M token,并通过数据和算法强化,提升Gemini 1.5 Pro编写程序代码、逻辑推理和规划、多轮对话及理解音频和图像方面的能力。此外,Gemini 1.5 Pro现在能够理解越来越复杂和具有细微差异的指令。Google将向Gemini Advanced订阅用户推出Gemini 1.5 Pro,支持超过35种语言。

Google也在Gemini API和Google AI Studio加入理解音频的功能,因此Gemini 1.5 Pro可对上传至Google AI Studio的视频进行跨音频和图像的推理。

Gemma 2

称作“开放模型”的Gemma,采用Gemini系列模型相同的研究和技术。自2月以来,Gemma 2B(20亿参数)和Gemma 7B(70亿参数)下载量已达数百万次,到了4月为开发者和研究人员提供变体如CodeGemma和RecurrentGemma。

Google借这次开发者大会预告Gemma 2,具有270亿参数和全新架构,可带来突破性的性能和效率。

Gemma系列正在持续扩展,包括第一个依据PaLI-3构建的视觉语言模型PaliGemma即将推出。Google也运用LLM比较器升级负责任生成式AI工具包(Responsible Generative AI Toolkit),可用来评估模型回复的品质。

(首图来源:Google Blog)