生成式AI模型进化快速,比较各模型性能除了通过成果评价,更量化标准也有必要。DeepMind最近发布产图AI的评估标准,能更有效评估模型性能。

Google DeepMind团队发表在arXiv论文提出“Gecko”基准评估法,针对图片生成AI模型提供更全面可靠的基准。

DeepMind论文表示:“虽然文本产图模型无处不在,但未必产生与提示一致的图片。”目前主要评估DALL‧E、Midjourney和Stable Diffusion等模型能力的数据库和自动指标未能反映全貌,小型人工评估只能提供有限见解,自动指标可能忽视重要细节,甚至与人工判断互相矛盾。

为解决问题,研究员开发Gecko基准测试组件,以2千条涵盖各技能和复杂度的文本提示,大量指示文本产图模型。Gecko之后会细分提示涉及的独特技术,精准指出模型弱点。

共同主要作者Olivia Wiles解释:“这种基于AI技能的基准测试将提示分类为子技能,让开发者不仅找出哪些技能有挑战性,更能掌握哪种复杂度会构成挑战。”

(首图来源:Google DeepMind)