联发创新基地(MediaTek Research)最近开源2款繁中多模态基础模型,分别是能在手机上执行的羽量级Llama-Breeze2-3B版本,以及能在个人计算机上执行的轻量级Llama-Breeze2-8B版本。这系列模型不只具备繁中能力,还有多模态和函数调用功能,能看懂图像、调用外部工具。
他们还以Llama-Breeze2-3B为基础,打造一款Android App并开源,要来强化手机AI助理的能力,比如读取图片、调用外部工具。同时,联发科也一并发布可以合成台湾口音的语音合成模型BreezyVoice。以上3款模型和App的开源内容包括模型权重和部分执行用程序。
以Llama 3.2大模型为基础,优化出繁中多模态语言模型Llama-Breeze2
进一步来说,Llama-Breeze2是基以Llama 3.2大型语言模型为基础,再以繁中数据来优化模型繁体中文理解力,并集成视觉语言模型、函数调用(Function Calling)功能,让Llama-Breeze2具备繁中优化、能看图、可调用外部工具等3大特色。
就繁中能力来说,联发科列出对比,相较于同参数量的Llama 3.2 3B Instruct模型,Llama-Breeze2-3B撰写的台湾夜市小短文,能准确列出著名夜市,如士林夜市、饶河街夜市和罗东夜市,而Llama 3.2 3B Instruct只正确说出士林夜市,但生成了两个不存在的夜市(电信夜市和世贸夜市)。
就多模态能力来说,Llama-Breeze2-3B除了理解文本,还能分析图像,如图表、光学文本识别(OCR)或景点照片,模型都能理解和回答。
不只如此,Llama-Breeze2因为具备调用函数功能,因此可以调用外部工具,来完成特定任务。比如,用户询问天气情况时,模型可以调用天气应用程序API来获取最新资讯,再回复给用户。
以Llama-Breeze2-3B模型驱动的Android App
除了开源2款多模态语言模型,联发创新基地还开源可直接部署到手机、以Llama-Breeze2-3B为基础的Android App。这个App可作为AI助理,来协助即时翻译、景点推荐等任务(如下图),甚至还能生成语音,用户只要输入文本,模型就能生成自然的语音回应,可用于智能导航等场景。
只需5秒,就能生成台湾口音的语音合成模型BreezyVoice
这次,联发科创新基地还开源了语音合成模型BreezyVoice,特别以繁中加强训练而成。这个模型采轻量架构,只需输入5秒的范例音频,就能即时产出拟真的语音,可作为AI助理语音输出。联发科表示,BreezyVoice现已能在笔记本上使用,也能结合任何LLM或语音转文本架构,来发展更多应用。