Hugging Face发起一项挑战,尝试在24小时内重现OpenAI最新发布的Deep Research系统,并开源其关键技术。OpenAI在2月初推出Deep Research,结合大型语言模型与代理框架,能够通过网页浏览、资讯整理与多步推理来回答复杂问题。Hugging Face的开源挑战不仅试图验证这套技术的可行性,也希望提供开源替代方案,让开发者能自行部署类似系统。

OpenAI的Deep Research之所以备受瞩目,在于它在GAIA(General AI Assistants)基准测试的表现大幅超越单纯依赖语言模型的人工智能系统。根据OpenAI发布的数据,Deep Research在GAIA测试中的单次提示作答准确率达到67%,而即便是最具挑战性的第三级多步推理与工具使用问题,仍可维持47.6%的正确率。不过,OpenAI并未公开其代理框架的细节,这让Hugging Face决定尝试重现相关技术,并发布开源版本,让更广泛的开发者社交媒体能够参与改进。

Hugging Face在24小时内完成第一个版本,以自家开发的smolagents框架为基础,搭配大型语言模型来执行搜索、资讯整理与多步推理。这个系统能够自主规划解题流程,决定何时查询额外资讯,并以程序代码的方式表达执行步骤。相较于OpenAI未公开的技术,这项开源项目强调模块化设计,允许开发者选择不同的语言模型,并且结合使用其他开源工具。

特别的是,Hugging Face的团队选择使用CodeAgent技术来提升代理系统的效率。相较于常用的JSON格式,通过程序代码来表达执行步骤,能使推理过程更精简,并减少API调用次数,根据研究团队测试结果,改用CodeAgent之后,代理系统在GAIA测试中的表现从46%提升至55.15%。此外,与JSON格式相比,使用Python来描述行动流程也能更直觉地表达逻辑关系,让代理系统能够有效处理多步推理问题。

这项开源计划仍处于早期阶段,尽管在部分测试中已有所进展,但要完整实例OpenAI Deep Research的功能,仍存在许多挑战。特别是在浏览器操作方面,OpenAI采用了名为Operator的高端网页浏览器,使Deep Research不仅能够深入解析网页内容,还能进行互动式操作。相比之下,Hugging Face的初版开源系统目前仅支持基础的文本网页浏览,尚未具备视觉识别或更精细的网页互动能力。此外,OpenAI的系统可能还包括内部优化的提示词工程与数据检索技术,这些重点细节在开源社交媒体中仍需通过试验逐步改进。