外媒报道,苹果最新机器学习技术,可将英伟达GPU产生指令速度提高近三倍,更快为Apple Intelligence创建模型。
Appleinsider报道,创建大型语言模型 (LLM) 的关键,就在产生LLM效率低下,因机器学习训练模型本身就是资源密集且缓慢的过程,只能用更多硬件及增加能源成本消除劣势。
今年初苹果发布Recurrent Drafter,是提高推测训练表现的解码法。结合搜索和动态树RNN(循环神经网络)草稿模型,预测验证多路径草稿标记,与典型自回归指令生成相比,可将每生成步骤LLM指令产生速度提高3.5倍。
苹果机器学习网站文章,解释除了使用Apple Silicon现有任务,并没有停止,新报告详细介绍如何应用此研究创建ReDrafter,与英伟达GPU一起生产。英伟达GPU通常用于LLM服务器,但高性能硬件成本高昂,单多GPU服务器硬件成本就超过25万美元,更不用说其他基础设施或连接成本。
苹果与英伟达合作,将ReDrafter集成至英伟达TensorRT-LLM推理加速框架。ReDrafter使用其他推测解码,英伟达必须添加额外元素才能正常运行。集成后使用GPU的ML开发人员,现在可用TensorRT-LLM进行生产时使用ReDrafter的加速指令生成,而不只用Apple Silicon的开发人员。英伟达GPU基准测试数百亿个参数模型后,编码每秒产生速度提高2.7倍。
结果是该过程可用于最大限度的减少用户的延迟,并减少所需的硬件数量。简而言之,用户可以期望从以云计算为主的查询中获得更快的结果,而公司可以在花费更少的情况下提供更多服务。而显卡生产商表示,此次合作使TensorRT-LLM更强大、更灵活,也使得LLM社社交媒体够创新更复杂的模型,并轻松部署它们。”
(首图来源:Pixabay)