By accepting you will be accessing a service provided by a third-party external to https://www.incgmedia.com/

NVIDIA 發表全新生成式語音 AI 模型,輸入文字或音訊即可創造出各種音樂、語調與聲音組合

NVIDIA Research 團隊發表其最新產品— Fugatto(Foundational Generative Audio Transformer Opus 1),能根據提示來生成或轉換任何音樂、聲音或聲音混合,提示來源可以是文字,或是音源檔案任意組合。此外,還可以根據文字的提示來創作音樂片段,或是從現有歌曲中移除或添加樂器、改變聲音的口音或情感,甚至讓人們創造出前所未聞的聲音。在下列的影片中,部分的音樂、聲音,以及 NVIDIA 創辦人黃仁勳的聲音,皆是由 AI 技術所生成的。


深刻理解聲音

Fugatto 支援多種音訊生成與轉換任務,是第一個能展現突現性質(emergent property)的基礎生成式 AI 模型,也就是由各種經過訓練的能力進行互動所產生的能力,以及結合自由形式指令的能力。NVIDIA 應用音訊研究部門經理 Rafael Valle 表示,希望創造一個能夠像人類一樣理解和生成聲音的模型。Valle 為 Fugatto 數十位幕後推手之一,同時也是一位管弦樂指揮家與作曲家。

Fugatto 是我們邁向未來的第一步,未來,音訊合成與轉換的無監督多任務學習將從資料與模型規模中浮現。

Rafael Valle / NVIDIA 應用音訊研究部門經理

使用者可以進行藝術性控制

Fugatto 的新奇之處在於它的幾項功能。模型在推論的時候,會使用一種稱為 ComposableART 的技術,將只在訓練期間單獨出現的指令組合起來。舉例來說,提示的組合可以要求用法國口音說出帶有傷感情懷的文字。此模型在指令之間進行「插值」的能力,讓使用者可以極細微地控制文字指令,在這個例子中即是可以控制口音的輕重或悲傷的程度。設計該模型這些方面的 AI 研究員 Rohan Badlani 表示:「我想讓使用者以主觀或藝術的方式結合屬性,選擇他們對每個屬性的重視程度。」


擁有史丹佛大學電腦科學碩士學位且主攻 AI 的 Badlani 指出,這個模型還能夠產生「隨時間變化的聲音」,他將此項功能稱為時間插值(temporal interpolation)。譬如它可以產生出暴風雨經過某個區域時的聲音,而漸強的雷聲則慢慢消失在遠方。它還能讓使用者精細控制聲景的演變方式。此外,與大多數模型只能重現所接觸過的訓練資料不同,Fugatto 能讓使用者創作出從未見過的聲景,例如雷雨伴隨著鳥鳴聲緩緩進入黎明。


未來的應用情境

在未來,音樂製作人可以使用 Fugatto 快速製作聲音的原型或編輯歌曲的構想,嘗試各種風格、聲音和樂器,也能夠加入效果來提升現有曲目的音訊品質。曾多次拿下白金唱片的製作人兼詞曲創作者 Ido Zmishlany 表示:「音樂史也是一部科技史。電吉他為這個世界帶來了搖滾樂。當採樣器出現時,嘻哈音樂便誕生了。借助 AI,我們正在譜寫音樂的下一個篇章。我們有了一種新的樂器、一種製作音樂的新工具,這實在是太讓人期待了。」此外,廣告公司也可以運用 Fugatto 快速針對多個地區或情境的現有廣告內容,對配音套用不同的口音和情感。或是讓線上課程變成任何一個家人或朋友的聲音來講述。遊戲開發人員,也可以使用這個模型來修改遊戲裡預先錄好的資產,配合玩家在玩遊戲時不斷變化的動作。又或是根據文字指令及選用的音訊輸入方式,即時動態地創造出新的資產。

針對 Fugatto 技術何時可開放測試還未有任何資訊公佈,欲了解更多關於 Fugatto 的背後,請點擊此連結

文章授權聲明

  • 新聞稿
  • 文章為映CG所有,如需轉載請標明出處
2025 台北電玩展「Indie Game Award」入圍名單出爐!52 國 340 組團隊創新高...

相關文章

還沒有帳號嗎? 點此立即註冊!

登入您的帳號