今年3月鸿海披露自家首款繁体中文大型语言模型(LLM)FoxBrain,宣称具备优秀的繁体中文能力及推理能力,鸿海近期准备在5月底之前开源FoxBrain供外界使用。

鸿海去年宣布将打造智能制造、智能电动汽车、智慧城市三大平台,在这样的策略之下,鸿海从硬件涉足到智能平台服务,然而,在硬件与平台之间缺乏基础模型,为此,鸿海研究院投入训练本地化的大语言模型,训练模型学习更多资讯,以模型为基础开发模块,再打造平台服务。今年3月鸿海首个繁中大型语言模型FoxBrain亮相,为700亿参数语言模型。

“我们的策略是在现在的AI时代,成为平台的提供者、打造者”,鸿海研究院人工智能研究所所长栗永徽今天在一场AI论坛上说,鸿海深知开发基础模型需要投入大量资源,并非一般企业可以负担,因此鸿海决定以自身的资源投入自主训练大语言模型FoxBrain,未来将会通过开源,让平台策略伙伴及外界都能够使用基础模型。

许多人可能会问国际上已有很多LLM,台湾为什么需要打造自己的LLM?栗永徽提出几个原因,首先是语言文化不对等,国际的模型对繁中、本地的用语、文化理解有限,其次是安全风险,使用国际大语言模型通常掌控在海外企业,如果使用国际模型可能导致敏感数据外流风险,最后是模型掌控在海外企业,难以针对本地的需要定制化,其他原因还有掌握自己的大语言模型,需要加强数据治理,创建数据主权,同时在过程中有助于培养AI人才。

“保护核心技术、创建领域内独特数据、培育AI人才、掌握AI关键技术是鸿海自主训练模型四大重要因素”,他说。

栗永徽表示,鸿海从ChatGPT后,历经20多个月训练出第一代的模型,将其命名为FoxBrain,这个模型具备台湾的价值观、优秀的繁体中文能力,更重要的是,它是第一个具备推理能力的繁体中文LLM。

他表示,在模型的训练中秉持用AI训练AI,一开始数据量不足,同时也有许多的数据治理项目正在进行,因此可用的繁中数据并不是很多,为扩张数据,鸿海团队提出自己的Data Pipeline,从数据清理、增强、评估三个阶段,以最小化人力,最大化数据品质,生成针对台湾使用的语种数据,驱动模型的预训练。

团队采用低成本、高效率训练,以开源的Llama 3.1 70B模型为基础,持续预训练、微调,利用AI作数据治理、数据品质筛选,结合多GPU协同运算技术,训练完成FoxBrain后,正在测试应用于鸿海的三大平台。

栗永徽指出,在境内常用的TMMLU+评测中,测试模型在数学、机器学习、化学、科学等几个领域的表现,以FoxBrain和另外两个模型Taiwan-Llama、Meta Llama 3.1相比,FoxBrain在数学、科学几个领域有比较好的表现;另外,在Taiwan MTBench的测试中,比较三个模型的多轮对话、指令遵循、推理、多语言、台湾当地知识,评测表现也相当好。FoxBrain未来可用于文字处理、决策辅助、数据分析等工作。

目前FoxBrain 70B模型为1.0阶段,强调输出控制、安全测试,鸿海披露未来的发展蓝图,在未来的1.x版本里将增强模型的工具调用能力、蒸馏小模型,2.0版模型将向100B发展,以多模态模型为目标,以理解三大平台的问题,并且强化学习。

栗永徽表示,未来FoxBrain的下个版本将会用于自动驾驶汽车,自动驾驶汽车集成大语言模型,不仅可以自动驾驶,而且可将驾驶行为变为AI可解释性,可解释自动驾驶汽车为什么停下来、往前行驶或转弯,将人的智慧应用于辅助驾驶,创建自驾系统和用户间的信任。

他表示,在分工、分享及合作、共荣的愿景下,通过模型开源协助台湾的产业,在AI时代下携手向前走,未来预期在5月底之前,于Hugging Face开源,包含8B与70B模型、相关技术文件。另外,也会在Computex中与Nvidia合作,说明如何将模型集成进Nvidia的NIM微服务框架,让使用Nvidia平台的开发社交媒体能够使用FoxBrain开发应用。