Nvidia开源AI语音识别模型Parakeet TDT 0.6B

Nvidia本周开源支持语音识别及听写专用的AI模型Parakeet TDT 0.6B，可用于对话式AI、语音助理或是需要生成字幕的服务。

Parakeet TDT 0.6B为6亿参数的自动语音识别（automatic speech recognition,ASR）模型，专为高品质英语听写（transcription）而设计。

Parakeet TDT 0.6B为FastConformer架构的XL变种，集成TDT解码器，并以全注意力（attention）机制训练而成，它具有很高的语音听写速度，一次single pass最长可听写24分钟语音。Parakeet TDT 0.6B在HF-Open-ASR得分榜上达RTFx 3380，词错误率（word error rate）为6.05%，优于其他开放模型。

在功能上，Parakeet TDT 0.6B，支持自动断句、首字母大写及精准预测字时戳，在口语数字和歌词的听写性能尤佳。支持音源文件格式涵盖.wav和.flac文件。

Parakeet TDT 0.6B以宽松的CC-BY-4.0授权开源，现在已在Hugging Face网站公开。

Nvidia表示，该模型支持使用场景涵盖需要文本听写的开发人员、研究人员、学术和产业人士，其应用包括对话式AI、语音助理、听写服务、字幕生成和语音分析平台。

Parakeet TDT 0.6B经过优化，适合执行在Nvidia硬件如GPU，及软件框架（像是CUDA函数库）上，能比在纯CPU环境上获致更快的训练和推论时间。它支持Linux及NVIDIA Ampere、Blackwell、Hopper与Volta等架构的硬件平台，RAM最少要2GB。

若要操作Parakeet TDT 0.6B或训练、微调，系统必须安装Nvidia NeMo工具组件，最好也安装最新PyTorch版本。