By accepting you will be accessing a service provided by a third-party external to https://www.incgmedia.com/

Meta 推出 SAM Audio,用文字指令就能分離聲音的全新 AI 模型

Meta 日前發布 SAM Audio,一種生成式音訊分離模型,可透過文字、視覺或時間提示,從混合音訊中同時擷取目標聲源(target stem)與剩餘聲音(residual stem),大幅簡化過去需要專業音訊工具的工作流程。


什麼是 SAM Audio?

SAM Audio 是 Meta 最新推出的多模態 AI 模型,它可以從混合音訊素材中精準識別並分離出特定的聲音來源。使用者只要輸入如「吉他聲」、「狗吠」、「人聲」等文字提示,就能讓系統進行音訊分離;此外也支援「視覺提示」(從影片中點選聲源)、「時間區段擷取」以及「多模態」等互動方式。


SAM Audio 可應用的場景

此技術預計可為聲音分離技術立下全新標準。使用者將可用更直接快速的方式,將聲音、音樂、演說等有複雜情境中做到音源分離。

  • 快速從錄音中抽出和聲、樂器或鼓聲。
  • 一鍵消除背景噪音或提取人物對白。
  • 隔離或強化特效聲、環境聲,更快完成混音流程。

SAM Audio 背後的技術

該模型採用 Flow-matching Diffusion Transformer 架構,並在 DAC-VAE 的潛在空間(latent space)中運作,使其能夠高品質地聯合生成目標音訊與剩餘音訊。此外,還使用了 PE-AV(Perception Encoder Audio Video), 一款全新的開源模型,強化了音訊處理能力,使其能同時理解並處理音訊與影像資訊。

SAM Audio 更同步釋出一套全球首創的開源(OSS)音訊分離評測資料集,專門用於評估「提示式音訊分離(prompted audio separation)」的效能,並提供一個與人類主觀聽感評分高度相關的評審模型(judge model),作為客觀評測依據。


如何使用 SAM Audio 模型?

Meta 在 Github 上提供 SAM Audio 模型的相關程式碼,包含已訓練完成的模型權重下載,以及 Notebook 範例,展示如何使用此模型。也可以到 Meta 的 Segment Anything 自行測試喔!

文章授權聲明

  • 映CG 編輯整理
  • 文章為映CG所有,如需轉載請標明出處
Mocha Pro 2026 登場,以 AI 強化 Roto 與追蹤,全面加速 VFX 工作流程
《即刻刺殺》突破台灣動作電影極限!金馬獎動作指導聯手執導 :朱栢康、傅孟柏搭檔演殺手,三大看點搶先了...

相關文章

訂閱電子報

還沒有帳號嗎? 點此立即註冊!

登入您的帳號