Apple语音转录Speech API有惊喜　速度较OpenAI Whisper快2.2倍

Apple在AI方面一直被认为落后竞争对手，但在小型模型方面原来有惊喜。最近有媒体测试Apple的全新Speech框架中SpeechAnalyzer和SpeechTranscriber模块，发现在语音转录速度方面大幅超越基于OpenAI Whisper的现有工具。

MacStories编辑John Voorhees在报告中指出，他长期面对语音转录工具速度缓慢的困扰，特别是在制作AppStories、NPC和Unwind等Podcast节目时，需要为YouTube上传字幕文件。目前市面上大部分转录工具都基于OpenAI于2022年发布的开源语音转文本模型Whisper，虽然成本低廉（每百万token不足1美分），但速度较慢。

为了测试Apple新技术的性能，Voorhees的儿子Finn开发了一个名为Yap的命令行工具，该工具利用SpeechAnalyzer和SpeechTranscriber处理音频和视频文件，并输出SRT和TXT格式的转录文件。Finn表示开发该工具仅需约10分钟时间。

测试采用了AppStories第441集的7GB 4K视频，长度约34分钟。Voorhees分别使用Yap、VidCap和MacWhisper（V2 Large和V3 Turbo模型）进行转录测试，结果显示Apple新技术的明显优势。

具体测试结果显示，Yap仅需45秒完成转录，MacWhisper Large V3 Turbo模型需要1分41秒，VidCap需要1分55秒，而MacWhisper Large V2模型则需要3分55秒。Yap的表现比速度最快的竞争对手快2.2倍。

在转录准确性方面，三种工具的表现相近，都在处理姓氏和“AppStories”等专有名词时遇到相似困难，语言模型倾向将这些词汇分拆为两个单词而非驼峰式命名。Voorhees表示这些问题可通过寻找和取代规则轻松修正。

Voorhees强调速度提升的重要性，虽然45秒与1分41秒的差异看似微小，但对于需要处理大量视频内容的用户而言，累积效果显著。他以处理Apple Developer在YouTube发布的数小时视频为例，指出2.2倍的速度提升将节省大量时间。

SpeechAnalyzer和SpeechTranscriber技术采用本机处理方式，无需依赖云计算服务，可在iPhone、iPad、Mac和Vision Pro等Apple设备上运行。这种设计不仅提升了处理速度，也确保了用户数据的隐私保护。

Voorhees预测，Apple的新语音转录技术将取代Whisper成为Apple平台上转录应用程序的默认模型。他认为这项技术在转录速度方面的重大突破，对于需要为YouTube视频制作字幕、为学校讲座生成转录文本等用途的用户而言，将带来显著改善。

该技术目前仅在Apple的OS测试版本中提供，开发者需要拥有Apple开发者账户才能访问。Voorhees建议有兴趣测试的用户安装macOS Tahoe测试版，并从GitHub页面安装Yap工具。

来源：MacStories

Apple语音转录Speech API有惊喜 速度较OpenAI Whisper快2.2倍

微信扫一扫：分享

Apple语音转录Speech API有惊喜　速度较OpenAI Whisper快2.2倍