Apple在AI方面一直被认为落后竞争对手,但在小型模型方面原来有惊喜。最近有媒体测试Apple的全新Speech框架中SpeechAnalyzer和SpeechTranscriber模块,发现在语音转录速度方面大幅超越基于OpenAI Whisper的现有工具。

MacStories编辑John Voorhees在报告中指出,他长期面对语音转录工具速度缓慢的困扰,特别是在制作AppStories、NPC和Unwind等Podcast节目时,需要为YouTube上传字幕文件。目前市面上大部分转录工具都基于OpenAI于2022年发布的开源语音转文本模型Whisper,虽然成本低廉(每百万token不足1美分),但速度较慢。

为了测试Apple新技术的性能,Voorhees的儿子Finn开发了一个名为Yap的命令行工具,该工具利用SpeechAnalyzer和SpeechTranscriber处理音频和视频文件,并输出SRT和TXT格式的转录文件。Finn表示开发该工具仅需约10分钟时间。

测试采用了AppStories第441集的7GB 4K视频,长度约34分钟。Voorhees分别使用Yap、VidCap和MacWhisper(V2 Large和V3 Turbo模型)进行转录测试,结果显示Apple新技术的明显优势。

具体测试结果显示,Yap仅需45秒完成转录,MacWhisper Large V3 Turbo模型需要1分41秒,VidCap需要1分55秒,而MacWhisper Large V2模型则需要3分55秒。Yap的表现比速度最快的竞争对手快2.2倍。

在转录准确性方面,三种工具的表现相近,都在处理姓氏和“AppStories”等专有名词时遇到相似困难,语言模型倾向将这些词汇分拆为两个单词而非驼峰式命名。Voorhees表示这些问题可通过寻找和取代规则轻松修正。

Voorhees强调速度提升的重要性,虽然45秒与1分41秒的差异看似微小,但对于需要处理大量视频内容的用户而言,累积效果显著。他以处理Apple Developer在YouTube发布的数小时视频为例,指出2.2倍的速度提升将节省大量时间。

SpeechAnalyzer和SpeechTranscriber技术采用本机处理方式,无需依赖云计算服务,可在iPhone、iPad、Mac和Vision Pro等Apple设备上运行。这种设计不仅提升了处理速度,也确保了用户数据的隐私保护。

Voorhees预测,Apple的新语音转录技术将取代Whisper成为Apple平台上转录应用程序的默认模型。他认为这项技术在转录速度方面的重大突破,对于需要为YouTube视频制作字幕、为学校讲座生成转录文本等用途的用户而言,将带来显著改善。

该技术目前仅在Apple的OS测试版本中提供,开发者需要拥有Apple开发者账户才能访问。Voorhees建议有兴趣测试的用户安装macOS Tahoe测试版,并从GitHub页面安装Yap工具。

来源:MacStories