坚持不做模型！红帽CTO亲自剖析，GenAI新战略背后的关键

在红帽年会主题演讲后，三位红帽高层，红帽首席执行官Matt Hicks、首席技术官Chris Wright和首席产品官Ashesh Badani也亲自回答全球媒体的问答，红帽今年为了瞄准企业大规模GenAI应用浪潮，推出了多项新AI战略和产品，为何红帽坚持不做自己的LLM，在未来的企业GenAI发展中，将如何持续扮演关键角色，像RHEL在企业基础架构的影响力一样。

我们整理了红帽首席技术官Chris Wright对于自家新GenAI定位和战略的说明。他披露了如何在GenAI世界中找到自己的新定位，GenAI新战略背后有哪些思考，以及下一步方向又是如何，以下是他现场回答的整理。

红帽的重点是将十多年来努力实现的混合云愿景带入AI领域，有一件事非常重要就是提供“选择”。

各种模型不断出现，感觉每天都有新模型，这是高速创新的速度，这些开源授权的模型，对用户开放，可以自己下载，自己优化硬件，自己决定AI技术堆栈要有多大的弹性，连关键组件都能自己决定，而加速芯片则位于技术堆栈的底层。

操作系统背景的红帽，对硬件支持非常熟悉，与云计算供应商、硬件芯片供应商有很好的合作伙伴关系。所以，他强调：“将底层硬件和热门模型的软件架构串联起来，是红帽在整个GAI世界中的位置。”

举例来说，为了扩大企业AI落地规模，让不同AI想法实现，红帽今年发布了一款新产品，红帽AI推论服务器。这套产品架构的上层是各种模型，红帽与不同模型的创立者都有长期合作关系，在他们新版模型第一天发布之前，红帽就可以和他们合作，进行大量优化。红帽与Meta的合作就是一个例子。红帽也和模型供应商合作，在红帽平台上验证企业的模型。Chris Wright在媒体问答中也多次强调，红帽不会自己打造LLM模型。

红帽AI推论服务器，不只是一款社交媒体可用版本，而是可以用于关键任务的运行环境。这款服务器也可以说是一套操作系统，核心是Linux，可以用来构建和执行不同的模型。红帽AI推论服务器是红帽AI产品组合的成员之一，可以部署成一台独立的服务器，支持不同硬件，也能部署到OpenShift上，也可以部署到第三方的基础设施，灵活度很高。

LLL过去的话题，一直聚焦于超大模型、数兆参数等级的模型，但是，开源或开放模型已经出现了，800亿到4500亿参数等规模的小模型，也证明可以做到很多不输大型语言模型价值的工作。红帽正在优化和压缩这些模型，在不牺牲模型准确性的情况下，更有效率地运用硬件。

各种开源模型不断出现，相互竞争，而且开源模型与大型专用前瞻模型之间的差距越来越小，红帽会将这些开源模型带到规模更小的部署环境，这是一种在执行阶段提高效率的方式，来降低成本。

今年初，开源模型更进一步具备了推理能力，推论时间扩展技术（Inference time scaling）是实现推理能力的关键做法。原本是靠更多数据，更大参数的模型来提高准确性，现在可以扩展、延长推论时间来产生更好的结果，让你可以用更小的模型，像大型模型一样，同样产生高价值的结果。

这么做的代价是，要花更多时间来进行计算，而且过程中，所产生的每一个Token都有成本。为了提供更好的时间扩展能力，需要降低每一个Token的成本，并且从整体角度来思考每一瓦特的Token成本。（编按：一瓦特电力可以产生多少Token，数值越高越好），如何让所有企业都能更有效率，这是红帽关注的领域。去年，红帽关注企业自有的数据，今年也开始关注，如何让企业自有基础架构性能最大化，来降低每一个Token的成本。

可是，许多企业大量投资GPU集群，设备非常昂贵，却难以将GPU利用率最大化，甚至经常很低。

红帽正对推论的运行流程展开研究，主要有两个关键阶段，一个是运算密集的预填充（ Prefill ）阶段，要对整个上下文数据进行处理。另一个则是解码（Decode）阶段，需要庞大内存的来生成一个个Token。

如何将整套系统的内容吞吐能力最大化是提高性能的关键，若能用更好的方式来分散处理不同的请求，就可以大幅提高GPU的利用率。红帽新发布的llm-d项目，就是以推论引擎为核心，利用K8s来执行各种分布式的做法。红帽也与许多重要供应商合作，像是Google、Nvidia等。Chris Wright比喻，就像K8s将分布式架构带来了Linux服务器，llm-d项目也同样将分布式架构带来了LLM服务器。

虽然AI代理在2024年受到高度关注，但没有太多企业知道如何在自己的环境中打造AI代理。直到今年，代理AI开始成为企业的现实课题。

Chris Wright指出，未来的发展上，红帽的计划是支持代理AI的发展，Red Hat AI将会集成Meta的Llama Stack技术架构和Anthropic推出的MCP协议。这两项先期标准，可以驱动代理AI的部署。

MCP提供了一套标准做法，来连接模型，工具、资源和提示命令，让企业可以将LLM与任何既有商业所用的工具集成。而Llama Stack则提供了一套平台，让开发者用来创建一套运用模型的应用开发流程，包括了构建、部署和支持一只AI应用执行的整套软件应用架构，也涵盖了模型微调、评估、建模等不同模型运行关键，能打造出一只可部署，也能连接到模型的应用程序。

MCP仍旧不断演化中，安全性将是持续不断的改进过程，MCP下个阶段要开始处理授权的议题。MCP的使用方式将有很大的不一样。红帽自己也正在思考，如何通过MCP，让LLM如何和我们的产品集成。

MCP协议提供三种不同的LLM互动方式，可以和数据、工具或提示等不同类型的资源来互动。Chris Wright观察，目前大多数人聚焦于LLM与工具的互动，工具概念就像是在现有企业应用上叠加一层可以让模型访问的API，已有一些企业开始研究这件事对他们的意义。

就像早期Ansible自动化引擎发展早期，同一项工作，可能有10种不同的自动化方式来实现。同样用MCP访问天气数据，现在也有很多天气MCP服务器可用。“这正是令人兴奋之处，企业也要学习，什么才是对自己有用的做法。”Chris Wright兴奋地提醒。