人工智能(AI)近年迅速发展,主要依赖神经网络规模扩大和训练数据增加。然而,这种增长模式正面临数据耗尽的挑战,研究人员正积极寻求应对方案。根据Epoch AI的研究,预计到2028年AI模型训练数据的规模将达到网上公开文本的总量,意味着未来四年内AI可能面临数据耗尽危机。

目前,大型语言模型(LLM)训练所需的数据规模正以爆炸式增长,例如支持ChatGPT的模型。与此同时,可用数据的增长速度却相对缓慢。Villalobos的研究指出,网络内容每年增长不足10%,但AI训练数据的规模却每年倍增。此外,数据来源受到越来越多限制,许多数据拥有者如报纸出版商,开始限制内容的使用方式。部分网站则通过软件程序代码或修改服务条款来阻止AI公司获取数据。数据版权问题也引发更多诉讼,例如《纽约时报》控告OpenAI和微软侵犯版权,这令资金有限的学术界更难获取所需数据。

面对这些挑战,AI领域正探索多种解决方案。研究人员尝试使用非公开数据,如WhatsApp消息和YouTube视频的文本稿,但这类数据可能涉及版权及隐私问题。此外,部分研究聚焦于特定领域的数据,如天文和基因组数据,虽然这些数据增长迅速,但用于训练LLM的效用仍然异议。另一方面,多模态数据或成为新的发展方向,通过提升AI模型处理未标记视频或图像的能力,扩展更多样的数据来源。此外,生成合成数据也是可行方案之一,AI公司可以付费让人类创作内容,或利用AI生成合成数据。然而,合成数据可能存在偏差和错误,影响模型训练效果。

目前,多数AI模型主要依赖文本数据进行训练,但仅靠文本数据可能难以达到人类级别的智慧。未来AI的发展关键在于采取多样化的数据,通过集成视频、图像及感官体验等数据形式,使AI更接近人类智能。这需要开发更强大且高效的AI模型和算法有效处理和学习这些多样数据,推动AI技术持续进步。

来源:cnyes