AI开发资源平台Hugging Face昨(29)日宣布使用Nvidia NIM技术的云计算推论即服务(inference-as-a-service)上线,支持企业生成式AI应用。
这项名为Hugging Face Inference-as-a-Service powered by NVIDIA NIM的服务,是以Nvidia NIM为底层核心,现在已加入Hugging Face Enterprise Hub服务。这新服务让企业用户可以无服务器方式,在Hugging Face Hub中,通过API和写几行程序代码使用最新Meta Llama和Mistral模型执行推论。Inference-as-service也可搭配Hugging Face的AI训练服务Train on DGX Cloud使用。
NIM是Nvidia于今年3月公布的容器化推论微服务,它内置预建的容器、预训练的AI模型、标准API、Nvidia的软件与推论引擎等,目的是让企业在容器中执行模型推论,且可将其部署到想要的环境,包括云计算、数据中心或工作站上。NIM的设计是结合Nvidia GPU加速的基础架构,来加快模型部署和推论,支持企业开发的助理服务(copilot)、聊天机器人等生成式AI应用程序。今年6月Nvidia提供40多个NIM微服务,供企业试用包括Meta Llama 3、Microsoft Phi-3、Mistral Large、Google Gemma等开源模型,而在Hugging Face上,也已可试用支持Meta Llama 3的NIM服务。
Hugging Face Inference-as-a-Service则是双方合作的最新结果,为执行在DGX Cloud的NIM服务,全部使用Nvidia H100 Tensor Core GPU。这服务采用依使用量计价(pay-as-you-go),提供API供企业用户使用生成式AI模型进行推论,Hugging Face强调灵活计价模型使其适合各种规模的企业。模型方面则支持Llama及Mistral AI主要模型,包括Llama 3、3.1版8B、70B,以及Mistral 7B和Mixtral-8x22B模型。
Hugging Face Inference-as-a-Service已成为Hugging Face企业平台Enterprise Hub的最新服务。费用依企业使用的模型而定。例如使用Llama-3-8B-Instruct时,一般回应时间(输入500 token、输出100 token)下费用为1秒0.0023美元。若使用Meta-Llama-3-70B-Instruct,费用为2秒0.0184美元。