数发部携手工研院、安全院成立的AI产品与系统评测中心(Artificial Intelligence Evaluation Center,AIEC),3日首次公布语言模型基准评测结果,期望推动台湾AI本地化评测与第三方验证,强化产业信任AI。
AIEC这次评测依语言模型规模,对海内外模型进行系统性检测,国人常见到的GPT-5、Gemini 2.5 Flash、DeepSeek-R1以及台湾研发的TAIDE等模型入围,评测结果将会定期公布在AIEC官网上。除采用“高中学测国文科”、“高中学测社会科”指标外,更纳入“台湾价值观”评测指标,符合国际AI主权发展趋势,并作为未来构建当地模型或调校国际模型的重要基准。
这次评测42款公开的语言模型,安全院副院长龚化中点出,TAIDE(Gemma-3-TAIDE-12b)在小模型(130亿参数以下)表现名列前茅,比原基础模型Google的Gemma-3-12b-it表现更好,展现台湾AI研发实力。
大模型(130亿参数以上)方面,OpenAI GPT-5的整体表现最佳,而Google Gemini 2.5 Flash在“台湾价值观”评测表现最优异,显示其对台湾主流价值观具备较高的理解与对应能力。龚化中也指出,中国部分语言模型在“台湾价值观”评测项目表现也不错,研判可能是模型采蒸馏技术,以欧美基础模型的输出作为训练数据,因此取得较高准确率。
对公开模型而言,部分欧美语言模型可能没有使用台湾繁体中文语料进行训练,在“台湾价值观”评测表现较差,凸显推动本土化语料构建的重要性。
台湾AI评测体系成形AIEC自2023年底成立后,逐步构建AI评测体系,已有“AI测试实验室”(工研院负责)、“AI验证机构”(安全院负责)两大架构,预计明后2年分别通过TAF。如此一来,AIEC公布的评测报告、及日后推出的评测标章,就能作为海内外企业的评估依据。
实际上,包括鸿海等科技大厂已向AIEC申请送测。AIEC接获14个案子,有8家厂商、超过80款模型进行评测,送测模型多以Llama、Gemma等开源模型为基础。厂商期望确认技术方向正确、找出改善空间或为标案需求送测。
工研院资讯与通信研究所组长王邦杰鼓励厂商送测,不仅做出评测结果,AIEC还有咨询辅导,能与厂商交流,共同提升产品能力、接轨国际市场
数发部积极推动台湾主权AI语料库,提供具当地语境与本土价值的繁体中文数据,作为语言模型的训练基础。另一方面,AIEC广泛征求各界专家提供评测题目,经审查后,评测题库目前有1,725题,符合台湾文化、市场需求以及国际标准指引,这些都有助于创建值得信赖的AI评测体系
左起工研院资讯与通信研究所组长王邦杰、安全院副院长龚化中。
(图片来源:科技新报)