影音处理框架FFmpeg在即将发布的8.0版本中,加入一项名为Whisper的音频过滤器,让开发者在视频转换或流媒体处理的流程中,可直接进行语音转录。这项功能集成了OpenAI的Whisper语音识别模型,通过内置的过滤器机制,能在不中断处理流程的情况下,将音频内容转换成文本,并输出为字幕或结构化数据。
Whisper过滤器的实例依赖whisper.cpp函数库,用户必须先在系统中安装并激活对应支持,编译时以—enable-whisper选项激活功能。该过滤器支持多种输出模式,包括纯文本、SRT字幕格式及JSON,输出目标可以是文件,也能通过HTTP等协议直接送往其他系统。当不指定输出位置,转录结果会以元数据的形式附加在音频帧上,供后续处理或分析使用。
Whisper过滤器提供队列参数让用户设置累积多少音频数据再进行识别,默认约为3秒。时间设置越长,准确率相对提高且处理频率降低,适合批处理,而时间设置越短,则可降低延迟,适合即时应用。过滤器也支持激活Silero语音活动侦测(VAD),在长音频流媒体中自动切分语音片段,提高识别效率与段落准确度。
Whisper过滤器支持GPU加速,并可指定运算设备编号,配合FFmpeg本身的多线程处理,在高性能环境下提升转录速度。
对影音开发者而言,这项更新让同一条影音处理管线可完成编码、转码与语音转录,不需额外调用外部工具或进行中间文件处理,简化了流程与系统集成工作。无论是视频上传平台需要自动产生字幕,还是流媒体应用想在即时转播中附加逐字稿,这项功能都能直接嵌入现有FFmpeg工作流程中使用。