xAI发布Grok 4，首度于基准测试中称冠

由马斯克（Elon Musk）创办及领军的AI创业公司xAI周四（7/10）发布新一代AI模型Grok 4，第三方AI基准测试企业Artificial Analysis指出，Grok 4是xAI首款于基准测试中胜出的模型，超越OpenAI、Google、Anthropic Claude与DeepSeek的高端模型。

Grok 4是个懂得思考的推理模型，支持25.6万个Token的脉络长度，可输入文本或图像，并生成文本。

在Artificial Analysis的模型排行榜上，Grok 4的智慧指数（Intelligence Index）为73，胜过OpenAI o3-pro的71，或是并列70的Google Gemini 2.5 Pro、o3、o4-mini，也超越DeepSeek R1 0528的68。

除了整体成绩之外，Artificial Analysis发现Grok 4不管是在跟程序有关的LiveCodeBench及SciCode，或是跟数学有关的AIME24与MATH-500等测试，也都处于领先地位。并在测试高端科学知识的GPQA Diamond基准测试中创下88%的新纪录。

不只是Artificial Analysis，ARC Prize的模型排行榜显示Grok 4处于明显的领先地位。

不过，相较于采用各种基准测试，英国开源工程师Simon Willison有自己的测试方式，他先要求Grok 4产生一张鹈鹕骑脚踏车的SVG图片文件，再请Grok描述该图片文件，结果Grok便说这是只类似鸟类的可爱生物在骑脚踏车。

Willison也批评Grok 4甚至没有提供用来记录开发者、版本、日期、技术与架构等技术细节，或是模型用途，性能指标，训练数据或是偏误与限制的模型卡。还说在Grok 3本周才登上新闻版面后，xAI应该要更努力来赢得开发者的信任。

此外，Grok 3才因歧视犹太人引起争议，最新的Grok 4也声称以色列是美国的寄生虫，试图控制与扼杀美国。惟目前并不确定该回答是否由某些刻意及有心的提示所生成。

Grok 4每100万个Token输入价格为3美元，输出为15美元，与Claude 4 Sonnet相当，但高于Gemini 2.5 Pro及o3。其订阅方案除了既有的、每月30美元的SuperGrok之外，本周添加了SuperGrok Heavy，可抢先体验新功能，但每月费用高达300美元。

AI开发者也可通过由Willison构建与负责维护的大型语言模型比价及计价网站来试算模型费用。