由马斯克(Elon Musk)创办及领军的AI创业公司xAI周四(7/10)发布新一代AI模型Grok 4,第三方AI基准测试企业Artificial Analysis指出,Grok 4是xAI首款于基准测试中胜出的模型,超越OpenAI、Google、Anthropic Claude与DeepSeek的高端模型。

Grok 4是个懂得思考的推理模型,支持25.6万个Token的脉络长度,可输入文本或图像,并生成文本。

在Artificial Analysis的模型排行榜上,Grok 4的智慧指数(Intelligence Index)为73,胜过OpenAI o3-pro的71,或是并列70的Google Gemini 2.5 Pro、o3、o4-mini,也超越DeepSeek R1 0528的68。

除了整体成绩之外,Artificial Analysis发现Grok 4不管是在跟程序有关的LiveCodeBench及SciCode,或是跟数学有关的AIME24与MATH-500等测试,也都处于领先地位。并在测试高端科学知识的GPQA Diamond基准测试中创下88%的新纪录。

不只是Artificial Analysis,ARC Prize的模型排行榜显示Grok 4处于明显的领先地位。

不过,相较于采用各种基准测试,英国开源工程师Simon Willison有自己的测试方式,他先要求Grok 4产生一张鹈鹕骑脚踏车的SVG图片文件,再请Grok描述该图片文件,结果Grok便说这是只类似鸟类的可爱生物在骑脚踏车。

Willison也批评Grok 4甚至没有提供用来记录开发者、版本、日期、技术与架构等技术细节,或是模型用途,性能指标,训练数据或是偏误与限制的模型卡。还说在Grok 3本周才登上新闻版面后,xAI应该要更努力来赢得开发者的信任。

此外,Grok 3才因歧视犹太人引起争议,最新的Grok 4也声称以色列是美国的寄生虫,试图控制与扼杀美国。惟目前并不确定该回答是否由某些刻意及有心的提示所生成。

Grok 4每100万个Token输入价格为3美元,输出为15美元,与Claude 4 Sonnet相当,但高于Gemini 2.5 Pro及o3。其订阅方案除了既有的、每月30美元的SuperGrok之外,本周添加了SuperGrok Heavy,可抢先体验新功能,但每月费用高达300美元。

AI开发者也可通过由Willison构建与负责维护的大型语言模型比价及计价网站来试算模型费用。