苹果与英伟达合作，AI模型运算速度提高三倍

外媒报道，苹果最新机器学习技术，可将英伟达GPU产生指令速度提高近三倍，更快为Apple Intelligence创建模型。

Appleinsider报道，创建大型语言模型 (LLM) 的关键，就在产生LLM效率低下，因机器学习训练模型本身就是资源密集且缓慢的过程，只能用更多硬件及增加能源成本消除劣势。

今年初苹果发布Recurrent Drafter，是提高推测训练表现的解码法。结合搜索和动态树RNN（循环神经网络）草稿模型，预测验证多路径草稿标记，与典型自回归指令生成相比，可将每生成步骤LLM指令产生速度提高3.5倍。

苹果机器学习网站文章，解释除了使用Apple Silicon现有任务，并没有停止，新报告详细介绍如何应用此研究创建ReDrafter，与英伟达GPU一起生产。英伟达GPU通常用于LLM服务器，但高性能硬件成本高昂，单多GPU服务器硬件成本就超过25万美元，更不用说其他基础设施或连接成本。

苹果与英伟达合作，将ReDrafter集成至英伟达TensorRT-LLM推理加速框架。ReDrafter使用其他推测解码，英伟达必须添加额外元素才能正常运行。集成后使用GPU的ML开发人员，现在可用TensorRT-LLM进行生产时使用ReDrafter的加速指令生成，而不只用Apple Silicon的开发人员。英伟达GPU基准测试数百亿个参数模型后，编码每秒产生速度提高2.7倍。

结果是该过程可用于最大限度的减少用户的延迟，并减少所需的硬件数量。简而言之，用户可以期望从以云计算为主的查询中获得更快的结果，而公司可以在花费更少的情况下提供更多服务。而显卡生产商表示，此次合作使TensorRT-LLM更强大、更灵活，也使得LLM社社交媒体够创新更复杂的模型，并轻松部署它们。”

(首图来源：Pixabay)