Meta发布其最新音频分离模型SAM Audio,主打以提示方式从混合音频中抽离特定音源,并支持文本提示、画面点击与时间区段标记3种互动。Meta表示,SAM Audio与其背后的技术引擎PE-AV(Perception Encoder Audiovisual)即日起提供使用,同时也把SAM Audio放进Segment Anything Playground,让用户可直接选用平台素材或上传自己的影音内容操作。另外,Meta也提供模型下载,模型权重则需申请访问。

SAM Audio提供3种提示,对应不同素材与工作场景。文本提示适合直接描述目标声音,例如输入狗叫声或歌声来抽取声源。视觉提示则针对影音内容,用户可在视频画面上点击正在发声的人或对象,让系统利用画面线索协助锁定声音。时间段提示则让用户在时间轴上标记目标声音出现的区段,Meta称这是业界首见的时间段提示设计,且3种提示可单独使用,也能混合搭配以取得更符合需求的分离结果。

Meta举例可在乐团演出视频中点击吉他以抽离其声音,也可用文本提示过滤户外录像的车流噪音,或用时间段提示一次处理整段Podcast录音中的特定干扰声。Meta表示,这些能力可用于音频清理、背景噪音移除等声音编辑。

SAM Audio为统一音频分离模型,核心采用生成式架构,会把混合音频与一个或多个提示编码到共享特征中,再产生目标音轨与其余残留音轨。Meta也说明为了取得足够的训练数据,创建数据引擎,结合音频混音、自动产生多模态提示,以及以模型辅助创建标注的流程,产生更贴近真实场景的训练数据。

支撑SAM Audio的另一个关键是PE-AV,Meta指出,PE-AV创建在其今年稍早发布的开源Perception Encoder之上,并延伸到视觉与音频的集成,用来强化SAM Audio在依赖画面线索时的分离能力。PE-AV会抽取逐格的视频特征,并与音频特征进行时序对齐,把看到的与听到的在同一时间点连接起来,让系统能更准确分离画面中可被指认的声源,例如屏幕上的讲者或乐器,也能从场景线索推测画面外的事件。

Meta列出SAM Audio的限制,包括目前不支持以音频作为提示,且模型并非设计在没有提示的情况下,自动分离混合音频中的所有声源。对于高度相似的声音事件分离,例如从合唱中挑出单一歌手或从管弦乐中分离单一乐器,仍是较具挑战的场景。