影音处理框架FFmpeg 8.0添加Whisper过滤器，让视频转换可同步语音转录

影音处理框架FFmpeg在即将发布的8.0版本中，加入一项名为Whisper的音频过滤器，让开发者在视频转换或流媒体处理的流程中，可直接进行语音转录。这项功能集成了OpenAI的Whisper语音识别模型，通过内置的过滤器机制，能在不中断处理流程的情况下，将音频内容转换成文本，并输出为字幕或结构化数据。

Whisper过滤器的实例依赖whisper.cpp函数库，用户必须先在系统中安装并激活对应支持，编译时以—enable-whisper选项激活功能。该过滤器支持多种输出模式，包括纯文本、SRT字幕格式及JSON，输出目标可以是文件，也能通过HTTP等协议直接送往其他系统。当不指定输出位置，转录结果会以元数据的形式附加在音频帧上，供后续处理或分析使用。

Whisper过滤器提供队列参数让用户设置累积多少音频数据再进行识别，默认约为3秒。时间设置越长，准确率相对提高且处理频率降低，适合批处理，而时间设置越短，则可降低延迟，适合即时应用。过滤器也支持激活Silero语音活动侦测（VAD），在长音频流媒体中自动切分语音片段，提高识别效率与段落准确度。

Whisper过滤器支持GPU加速，并可指定运算设备编号，配合FFmpeg本身的多线程处理，在高性能环境下提升转录速度。

对影音开发者而言，这项更新让同一条影音处理管线可完成编码、转码与语音转录，不需额外调用外部工具或进行中间文件处理，简化了流程与系统集成工作。无论是视频上传平台需要自动产生字幕，还是流媒体应用想在即时转播中附加逐字稿，这项功能都能直接嵌入现有FFmpeg工作流程中使用。