由马斯克(Elon Musk)所创办的AI创业公司xAI在本周二(8/13)发布了Grok-2测试版(Beta),包括Grok-2与Grok-2 mini,新版支持图像生成能力,并已可供X平台上的订阅用户使用。Grok-2在LMSYS平台上的测试结果优于Claude 3.5 Sonnet及GPT-4-Turbo,不过,许多已开始试用Grok-2的用户发现,该版本的安全护栏并不牢靠,允许他们生成许多不当内容,例如生成美国总统候选人川普(Donald Trump)拿着两把枪开火的画面。

xAI曾经以sus-column-r为名在盲测的LMSYS聊天机器人平台上进行测试,在1.2万名社交媒体成员的投票中,它取得了第三名,排名仅次于ChatGPT-4o的最新版、Gimini-1.5 Pro,并与今年5月出炉的GPT-4o相当。且其表现优于Claude 3.5 Sonnet与GPT-4。

图片来源/Large Model Systems Organization

xAI也采用一系列的学术基准来评估Grok-2,发现Grok-2与Grok-2 mini明显优于Grok-1.5,在研究生水准科学知识(GPQA)、常识(MMLU、MMLU-Pro)及数学竞赛问题(MATH)等领域可与GPT-4 Turbo、Claude 3 Opus及Gemini Pro 1.5等模型媲美,并在视觉数学推理(MathVista)及基于文件的问题(DocVQA) 上提供了最先进的性能。

付费的X Premium与Premium+用户可率先访问Grok-2与Grok-2 mini。xAI表示,Grok-2在各种任务上都更为直觉,也更通用及更容易操作,也集成来自X平台上的即时资讯,而Grok-2 mini为一精简版模型,以于速度及品质间取得平衡。xAI也计划于8月通过新的企业API平台发布Grok-2与Grok-2 mini。

不过,已经有人发现Grok-2图像生成功能的安全护栏不太牢靠,例如AI开发人员Benjamin De Kraker不仅利用Grok-2生成了拿着两把枪的川普, 也用它生成正在吸毒的美国前总统布什(George Bush)。

The Verge的测试则发现,即使Grok-2承诺它具备安全护栏,可避免生成色情、暴力、仇恨或危险图片,但事实上它并未拒绝许多涉及暴力、吸毒或名人裸露的图像生成要求。不过,缺乏护栏的图像生成模型并不只Grok-2,开源的Stable Diffusion对于危险内容的生成也几乎毫无防备。