IBM发布Granite 4.0语言模型家族,主打以Mamba-2与Transformer结合的混合式(Hybrid)架构,目标在长上下文与高并行场景,降低内存占用并维持输出品质。官方将此系列定位为可在一般数据中心与边缘环境稳定部署的小型模型,适用多任务具代理、客服自动化与长文件处理等企业工作流程,同时维持开源与治理强度。
Granite 4.0的核心变化是采用混合设计,以Mamba-2层为主,周期性穿插Transformer自注意力层,两者约9比1串联。Mamba能以线性计算方式处理输入,避免Transformer在长上下文的平方级(Quadratic)资源消耗的计算特性,搭配不依赖位置编码(Positional Encoding)的做法,主要对应长上下文与高批次需求,Transformer则用于补强局部语境判断。
IBM强调Granite 4.0在长上下文与多批次并行时,可较传统Transformer模型大幅降低内存需求,并在相同硬件上维持较高吞吐能力,特别适合成本敏感的自建运算集群与多会话服务。官方同时指出,模型可在更平价的GPU上完成可用的延迟与产出,降低导入门槛,混合系列兼容于AMD Instinct MI300X,有利于在内存密集工作负载下扩展。
Granite 4.0目标是以更小参数,接近或优于同级开源模型的水准,特别在指令遵循、工具调用与复杂RAG任务。IBM表示,H-Small型号在Stanford HELM的IFEval与Berkeley Function Calling v3等基准测试中具竞争力,并计划在年内补充更大与更小的型号,以及独立的思考推理强化变体。
Granite 4.0采Apache 2.0授权,模型可于IBM watsonx.ai与多个平台取得与运行,包括Hugging Face、LM Studio、Nvidia NIM和Ollama等。在推论框架与执行端,vLLM与Hugging Face Transformers已提供对Granite 4 Hybrid架构完整支持,而llama.cpp与MLX的吞吐优化仍在持续进行,便于开发者以既有堆栈快速验证与上线。
治理与供应链信任方面,Granite 4.0全部检查点提供数字签名(model.sig)以供来源与完整性验证,IBM同时与HackerOne合作启动漏洞奖金计划,聚焦越狱与其他对抗手法的实务风险通报。IBM并表示Granite为第一个取得ISO/IEC 42001(2023版)认证的开源语言模型家族,将安全、隐私与可解释等要求纳入人工智能管理系统流程,目标支持高约束与关键任务场景的采用决策。