
在红帽年会主题演讲后,三位红帽高层,红帽首席执行官Matt Hicks、首席技术官Chris Wright和首席产品官Ashesh Badani也亲自回答全球媒体的问答,红帽今年为了瞄准企业大规模GenAI应用浪潮,推出了多项新AI战略和产品,为何红帽坚持不做自己的LLM,在未来的企业GenAI发展中,将如何持续扮演关键角色,像RHEL在企业基础架构的影响力一样。
我们整理了红帽首席技术官Chris Wright对于自家新GenAI定位和战略的说明。他披露了如何在GenAI世界中找到自己的新定位,GenAI新战略背后有哪些思考,以及下一步方向又是如何,以下是他现场回答的整理。
红帽的重点是将十多年来努力实现的混合云愿景带入AI领域,有一件事非常重要就是提供“选择”。
各种模型不断出现,感觉每天都有新模型,这是高速创新的速度,这些开源授权的模型,对用户开放,可以自己下载,自己优化硬件,自己决定AI技术堆栈要有多大的弹性,连关键组件都能自己决定,而加速芯片则位于技术堆栈的底层。
操作系统背景的红帽,对硬件支持非常熟悉,与云计算供应商、硬件芯片供应商有很好的合作伙伴关系。所以,他强调:“将底层硬件和热门模型的软件架构串联起来,是红帽在整个GAI世界中的位置。”
举例来说,为了扩大企业AI落地规模,让不同AI想法实现,红帽今年发布了一款新产品,红帽AI推论服务器。这套产品架构的上层是各种模型,红帽与不同模型的创立者都有长期合作关系,在他们新版模型第一天发布之前,红帽就可以和他们合作,进行大量优化。红帽与Meta的合作就是一个例子。红帽也和模型供应商合作,在红帽平台上验证企业的模型。Chris Wright在媒体问答中也多次强调,红帽不会自己打造LLM模型。
红帽AI推论服务器,不只是一款社交媒体可用版本,而是可以用于关键任务的运行环境。这款服务器也可以说是一套操作系统,核心是Linux,可以用来构建和执行不同的模型。红帽AI推论服务器是红帽AI产品组合的成员之一,可以部署成一台独立的服务器,支持不同硬件,也能部署到OpenShift上,也可以部署到第三方的基础设施,灵活度很高。
LLL过去的话题,一直聚焦于超大模型、数兆参数等级的模型,但是,开源或开放模型已经出现了,800亿到4500亿参数等规模的小模型,也证明可以做到很多不输大型语言模型价值的工作。红帽正在优化和压缩这些模型,在不牺牲模型准确性的情况下,更有效率地运用硬件。
各种开源模型不断出现,相互竞争,而且开源模型与大型专用前瞻模型之间的差距越来越小,红帽会将这些开源模型带到规模更小的部署环境,这是一种在执行阶段提高效率的方式,来降低成本。
今年初,开源模型更进一步具备了推理能力,推论时间扩展技术(Inference time scaling)是实现推理能力的关键做法。原本是靠更多数据,更大参数的模型来提高准确性,现在可以扩展、延长推论时间来产生更好的结果,让你可以用更小的模型,像大型模型一样,同样产生高价值的结果。
这么做的代价是,要花更多时间来进行计算,而且过程中,所产生的每一个Token都有成本。为了提供更好的时间扩展能力,需要降低每一个Token的成本,并且从整体角度来思考每一瓦特的Token成本。(编按:一瓦特电力可以产生多少Token,数值越高越好),如何让所有企业都能更有效率,这是红帽关注的领域。去年,红帽关注企业自有的数据,今年也开始关注,如何让企业自有基础架构性能最大化,来降低每一个Token的成本。
可是,许多企业大量投资GPU集群,设备非常昂贵,却难以将GPU利用率最大化,甚至经常很低。
红帽正对推论的运行流程展开研究,主要有两个关键阶段,一个是运算密集的预填充( Prefill )阶段,要对整个上下文数据进行处理。另一个则是解码(Decode)阶段,需要庞大内存的来生成一个个Token。
如何将整套系统的内容吞吐能力最大化是提高性能的关键,若能用更好的方式来分散处理不同的请求,就可以大幅提高GPU的利用率。红帽新发布的llm-d项目,就是以推论引擎为核心,利用K8s来执行各种分布式的做法。红帽也与许多重要供应商合作,像是Google、Nvidia等。Chris Wright比喻,就像K8s将分布式架构带来了Linux服务器,llm-d项目也同样将分布式架构带来了LLM服务器。
虽然AI代理在2024年受到高度关注,但没有太多企业知道如何在自己的环境中打造AI代理。直到今年,代理AI开始成为企业的现实课题。
Chris Wright指出,未来的发展上,红帽的计划是支持代理AI的发展,Red Hat AI将会集成Meta的Llama Stack技术架构和Anthropic推出的MCP协议。这两项先期标准,可以驱动代理AI的部署。
MCP提供了一套标准做法,来连接模型,工具、资源和提示命令,让企业可以将LLM与任何既有商业所用的工具集成。而Llama Stack则提供了一套平台,让开发者用来创建一套运用模型的应用开发流程,包括了构建、部署和支持一只AI应用执行的整套软件应用架构,也涵盖了模型微调、评估、建模等不同模型运行关键,能打造出一只可部署,也能连接到模型的应用程序。
MCP仍旧不断演化中,安全性将是持续不断的改进过程,MCP下个阶段要开始处理授权的议题。MCP的使用方式将有很大的不一样。红帽自己也正在思考,如何通过MCP,让LLM如何和我们的产品集成。
MCP协议提供三种不同的LLM互动方式,可以和数据、工具或提示等不同类型的资源来互动。Chris Wright观察,目前大多数人聚焦于LLM与工具的互动,工具概念就像是在现有企业应用上叠加一层可以让模型访问的API,已有一些企业开始研究这件事对他们的意义。
就像早期Ansible自动化引擎发展早期,同一项工作,可能有10种不同的自动化方式来实现。同样用MCP访问天气数据,现在也有很多天气MCP服务器可用。“这正是令人兴奋之处,企业也要学习,什么才是对自己有用的做法。”Chris Wright兴奋地提醒。











