Nvidia本周开源支持语音识别及听写专用的AI模型Parakeet TDT 0.6B,可用于对话式AI、语音助理或是需要生成字幕的服务。

Parakeet TDT 0.6B为6亿参数的自动语音识别(automatic speech recognition,ASR)模型,专为高品质英语听写(transcription)而设计。

Parakeet TDT 0.6B为FastConformer架构的XL变种,集成TDT解码器,并以全注意力(attention)机制训练而成,它具有很高的语音听写速度,一次single pass最长可听写24分钟语音。Parakeet TDT 0.6B在HF-Open-ASR得分榜上达RTFx 3380,词错误率(word error rate)为6.05%,优于其他开放模型。

在功能上,Parakeet TDT 0.6B,支持自动断句、首字母大写及精准预测字时戳,在口语数字和歌词的听写性能尤佳。支持音源文件格式涵盖.wav和.flac文件。

Parakeet TDT 0.6B以宽松的CC-BY-4.0授权开源,现在已在Hugging Face网站公开。

Nvidia表示,该模型支持使用场景涵盖需要文本听写的开发人员、研究人员、学术和产业人士,其应用包括对话式AI、语音助理、听写服务、字幕生成和语音分析平台。

Parakeet TDT 0.6B经过优化,适合执行在Nvidia硬件如GPU,及软件框架(像是CUDA函数库)上,能比在纯CPU环境上获致更快的训练和推论时间。它支持Linux及NVIDIA Ampere、Blackwell、Hopper与Volta等架构的硬件平台,RAM最少要2GB。

若要操作Parakeet TDT 0.6B或训练、微调,系统必须安装Nvidia NeMo工具组件,最好也安装最新PyTorch版本。