Hugging Face昨(6)日公布会使用工具的AI代理人Open Computer Agent,能帮用户查询Google Map、维基百科或生成图片。
Open Computer Agent是结合函数库smolagents、语言模型Qwen2-VL-72B及虚拟PC机E2B Desktop开发而成。Open Computer Agent类似OpenAI的Operator代理人,目前为一Web服务,允许用户输入自然语言文本提示,代用户执行任务。例如利用Google Maps查询某公司位置、从瑞士伯恩搭火车到巴塞尔所需时间,或是到Hugging Face Space寻找图片生成模型Flux 1,再输入提示让它生成GPU图片。
Hugging Face的代理人部门主管Aymeric Roucher说明,日愈强大的视觉模型可用于复杂的代理人工作流程,而且Qwen-VL支持内置grounding功能,可识别出图片中任一元素的位置(坐标),进而做到点击屏幕截屏中的任何项目,好比人用鼠标点击画面上的按钮或图标。这代表模型不只是“看得懂图片内容”,还能对图片进行互动,这也实现Open Computer Agent自动化代理人的能力。
Hugging Face提醒,Open Computer Agent会存储用户活动,若不想被记录,用户可以在左边栏的“store task and agent trace?”取消勾选。而且Open Computer Agent使用的VM会被前往的网页侦测而以CAPTCHA阻挡,这时需要人力解决。此外,目前Open Computer Agent反应时间有点慢,可能要等上数秒,有时还会卡住不动,重刷网页即可重新启动。
其他主要AI公司也都推出能使用工具的代理人。OpenAI的Operator开放付费用户使用,Google Gemini则有Project Astra,能在混合及多种语言环境下转换语言,以多种语言解决复杂主题的问题、或使用Circle to Search翻译菜单文本。