By accepting you will be accessing a service provided by a third-party external to https://www.incgmedia.com/
Meta 推出 SAM Audio,用文字指令就能分離聲音的全新 AI 模型
小編實測之後,不論是中文還是英文,在分離人聲與背景音的效果真的非常乾淨,更可輕鬆將聲音從環境音抽離!
Meta 日前發布 SAM Audio,一種生成式音訊分離模型,可透過文字、視覺或時間提示,從混合音訊中同時擷取目標聲源(target stem)與剩餘聲音(residual stem),大幅簡化過去需要專業音訊工具的工作流程。
什麼是 SAM Audio?
SAM Audio 是 Meta 最新推出的多模態 AI 模型,它可以從混合音訊素材中精準識別並分離出特定的聲音來源。使用者只要輸入如「吉他聲」、「狗吠」、「人聲」等文字提示,就能讓系統進行音訊分離;此外也支援「視覺提示」(從影片中點選聲源)、「時間區段擷取」以及「多模態」等互動方式。
SAM Audio 可應用的場景
此技術預計可為聲音分離技術立下全新標準。使用者將可用更直接快速的方式,將聲音、音樂、演說等有複雜情境中做到音源分離。
- 快速從錄音中抽出和聲、樂器或鼓聲。
- 一鍵消除背景噪音或提取人物對白。
- 隔離或強化特效聲、環境聲,更快完成混音流程。
SAM Audio 背後的技術
該模型採用 Flow-matching Diffusion Transformer 架構,並在 DAC-VAE 的潛在空間(latent space)中運作,使其能夠高品質地聯合生成目標音訊與剩餘音訊。此外,還使用了 PE-AV(Perception Encoder Audio Video), 一款全新的開源模型,強化了音訊處理能力,使其能同時理解並處理音訊與影像資訊。
SAM Audio 更同步釋出一套全球首創的開源(OSS)音訊分離評測資料集,專門用於評估「提示式音訊分離(prompted audio separation)」的效能,並提供一個與人類主觀聽感評分高度相關的評審模型(judge model),作為客觀評測依據。
如何使用 SAM Audio 模型?
Meta 在 Github 上提供 SAM Audio 模型的相關程式碼,包含已訓練完成的模型權重下載,以及 Notebook 範例,展示如何使用此模型。也可以到 Meta 的 Segment Anything 自行測試喔!
文章授權聲明
-
映CG 編輯整理
-
文章為映CG所有,如需轉載請標明出處


