xAI旗下人工智能聊天机器人Grok推出全新功能,添加视觉识别及多语言语音支持。Grok Vision允许用户通过iOS应用程序以智能手机摄影机扫描对象,如产品、标签或文件,并即时提出问题。同时,Grok的语音模式添加实时搜索及多语言功能。

GROK CAN SEE WHAT YOU SEE—LITERALLY

Grok's voice mode comes with camera access, letting users point their phone at something and ask, “What am I looking at?”

The Vision feature on iOS allows the chatbot to analyze real-world objects, text, and environments through your…

— Mario Nawfal (@MarioNawfal) April 20, 2025

Grok Vision功能让用户可利用手机摄影机即时识别周围环境,与Google Gemini及ChatGPT的实时视觉功能相媲美。例如用户可扫描商品条码查询价格,或拍摄路牌获取导航资讯。Grok Vision功能现仅限iOS平台,xAI表示将于未来数月扩展至Android。

Grok的语音模式添加多语言支持,包括印度语,方便不同地区用户。实时搜索功能则允许用户以语音查询即时资讯,惟此功能需订阅SuperGrok计划。 xAI强调,功能可提升用户互动体验,并计划优化语音识别准确度。

Introducing Grok Vision, multilingual audio, and realtime search in Voice Mode. Available now.

Grok habla español

Grok parle français

Grok Türkçe konuşuyor

グロクは日本语を话す

ग्रोक हिंदी बोलता है

— Ebby Amir (@ebbyamir) April 22, 2025

Grok于本月先前添加记忆功能,记录以往对话细节,提供更个性化的回应。此外Grok Studio工具也于4月16日推出,支持用户创建文件、程序代码及浏览器游戏,并集成Google Drive功能,方便上传文件。工具对免费及付费用户均开放,大幅提升Grok的实用性。

Grok的快速更新显示xAI致力追赶OpenAI及Google等竞争对手。随着视觉及语音功能的推出,Grok有望在人工智能市场占据更大份额。未来数月xAI或将推出Android版Grok Vision,并扩展多语言支持,特别针对亚洲市场本地化需求。

数据源:Tech Crunch