今年5月底的科勒-杜立德奖(Coller-Dolittle Prize),为破译动物声音密码的突破性研究提供高达1,000万美元的奖金奖励,反映出科学界越来越乐观地预估,2025年AI与机器学习将会出现重大进展,长久以来动物发声真正含义的谜团有可能被解开。

当前有许多研究计划致力于开发能够解读动物声音的算法,例如Ceti项目便持续专注于破译抹香鲸复杂的点击声模式及座头鲸的旋律歌声。但这些研究莫不受到某个关键问题的限制,也即当代机器学习技术需要庞大的数据集,但由于缺乏高品质动物声音的注解数据,所以这方面的大型数据集很难取得。

从AudioMoth到CNN/DNN的加持,突破物种声音大型数据集的取得瓶颈

就以Ceti项目为例,其在研究抹香鲸沟通时仅能使用8,000多段的声音数据,这和ChatGPT等大型语言模型(LLM)动辄超过500 GB的训练数据量相比就像天壤之别。这种数据量上的差距,凸显了研究者在创建对动物沟通全面理解过程中充满了困境与挑战。

所幸,随着AudioMoth等经济实惠录音技术的兴起,高品质声音捕捉的门槛大幅降低,研究团队因此能全天候在各种物种的自然栖息地进行录音,大量数据集的取得与使用从此变得更加容易。

如今通过由卷积神经网络(CNN)驱动的自动检测算法,能高效处理巨量音频数据,并根据动物声音的独特声学特征有效识别和分类动物声音。此外,研究人员还可利用深度神经网络(DNN)分析汇集整理好的大型数据,挖掘动物发声串行中的模式与结构。这些分析甚至可能揭示出与人类语言结构相似的潜在架构。

未来能将动物声音转化成人类语言vs. 动物声音根本不具备语言结构

然而科学界也存在一个根本性的疑问,也即通过技术进步来解码动物声音的最终目标为何?对此,一些组织,如Interspecies.io,明确表示其目的是将跨物种沟通转化为人类可以理解的信号,甚至提出了将动物声音转化成人类语言的雄心勃勃目标。

针对这样的目标,科学界也存在另一种截然相反的普遍共识:非人类动物可能并不具备类似于人类语言的结构化语言。对此,科勒-杜立德奖在确立寻求解读或理解各种生物交流信号方法之目标的同时,也承认动物沟通可能并不遵循结构化语言模型的可能性。这样的观点也促使人们对动物互动的细微差别,进行更具探索性的调查研究。

不论如何,2025年有望成为人类运用突破性AI技术进展增进对动物沟通更全面理解的关键一年。在AI技术不断突飞猛进的带动下,未来我们和动物以及大自然间的关系将会有彻头彻尾的改变。

(首图来源:pixabay)