在非洲,语言的多样性是全球最丰富的之一,然而在人工智能(AI)的发展中,许多非洲语言却被忽视。

这一现象的根本原因在于缺乏投资和可用数据,导致许多非洲语言在AI工具的训练中缺乏足够的文本数据。大多数当前使用的AI工具,如ChatGPT,主要基于英语及其他欧洲语言和中文进行训练,这使得非洲语言的用户面临被排除在外的风险。

为了解决这一问题,研究人员最近发布了被认为是目前最大的非洲语言数据集。这一项目由南非比勒陀利亚大学的Vukosi Marivate教授主导,他指出,科技必须反映人们的语言和文化,否则将有一整个群体被遗忘。这个名为“非洲下一代声音”的项目,集合了语言学家和计算机科学家,旨在为18种非洲语言创建AI准备的数据集。

尽管这仅仅是超过2,000种语言中的一小部分,但参与者希望未来能够扩展。该团队在两年内录制了9,000小时的语音,涵盖了肯尼亚、尼日尔利亚和南非的日常场景,包括农业、健康和教育等领域。录制的语言包括肯尼亚的基库尤语和多卢语、尼日尔利亚的豪萨语和约鲁巴语,以及南非的祖鲁语和蒂维达语(Venda),这些语言的用户数以百万计。

这项研究得到了220万美元的比尔和梅琳达·盖茨基金会的资助,数据将以开放访问的方式提供,让开发者能够创建能够翻译、转录和回应非洲语言的工具。根据Marivate教授的说法,已有一些小型案例显示,原住民语言在AI中的应用能够解决非洲的实际挑战。

例如,南非的农民Kelebogile Mosime利用一款名为AI-Farmer的应用,该应用支持多种南非语言,帮助她解决农业中的各种问题。Mosime表示,能够使用她的母语Setswana进行交流,让她在面对挑战时能够获得有用的建议。

此外,南非初创公司Lelapa AI也在为银行和电信公司开发非洲语言的AI工具。该公司的首席执行官Pelonomi Moiloa指出,现有的服务对于不会说英语的南非人来说,并不仅仅是方便的问题,还可能导致他们错过重要的服务,如医疗、银行或政府支持。

Marivate教授强调,语言不仅是交流的工具,更是想象力的信道,缺乏非洲语言的倡议将使我们失去的不仅仅是数据,还有文化和历史的理解。

(首图来源:pixabay)