在多家开发AI的企业之中,马斯克(Elon Musk)的xAI算是比较特别的一个,主力产品Grok拥有社交平台X上的内容作为辅助数据,也加入罕有的“有趣模式”可以开玩笑。最近他们更在开发者文件中表示,即将升级模型到多模态版本,支持图像输入。

xAI在上个月已经预告将会推出Grok-1.5V模型,为目前的Grok聊天机器人加入多媒体处理能力,据称新版本将会可以处理多种形象资讯,包括文件、图表、屏幕截屏和照片等等。他们更声称新版本在多个基准测试中都相当接近甚至超越目前其他竞争对手,例如GPT-4、Claude 3和Gemini Pro 1.5。

(Source:xAI)

而在最新公开的开发者文件中,xAI更提供了Python脚本范例,展示了开发者如何使用xAI的软件开发工具包(SDK)库来生成基于文本和图像的回应。该脚本可以读取图像,设置文本提示,并利用xAI SDK产生回应。Grok-1.5V到底在实际应用上能否业界顶级标准仍然有待观察,不过相信不用等很久就可以知道了。

(首图来源:xAI)