NVIDIA 發表全新生成式語音 AI 模型，輸入文字或音訊即可創造出各種音樂、語調與聲音組合

2024年11月27日, 星期三

NVIDIA Research 團隊發表其最新產品— Fugatto（Foundational Generative Audio Transformer Opus 1），能根據提示來生成或轉換任何音樂、聲音或聲音混合，提示來源可以是文字，或是音源檔案任意組合。此外，還可以根據文字的提示來創作音樂片段，或是從現有歌曲中移除或添加樂器、改變聲音的口音或情感，甚至讓人們創造出前所未聞的聲音。在下列的影片中，部分的音樂、聲音，以及 NVIDIA 創辦人黃仁勳的聲音，皆是由 AI 技術所生成的。

深刻理解聲音

Fugatto 支援多種音訊生成與轉換任務，是第一個能展現突現性質（emergent property）的基礎生成式 AI 模型，也就是由各種經過訓練的能力進行互動所產生的能力，以及結合自由形式指令的能力。NVIDIA 應用音訊研究部門經理 Rafael Valle 表示，希望創造一個能夠像人類一樣理解和生成聲音的模型。Valle 為 Fugatto 數十位幕後推手之一，同時也是一位管弦樂指揮家與作曲家。

Fugatto 是我們邁向未來的第一步，未來，音訊合成與轉換的無監督多任務學習將從資料與模型規模中浮現。
Rafael Valle / NVIDIA 應用音訊研究部門經理

使用者可以進行藝術性控制

Fugatto 的新奇之處在於它的幾項功能。模型在推論的時候，會使用一種稱為 ComposableART 的技術，將只在訓練期間單獨出現的指令組合起來。舉例來說，提示的組合可以要求用法國口音說出帶有傷感情懷的文字。此模型在指令之間進行「插值」的能力，讓使用者可以極細微地控制文字指令，在這個例子中即是可以控制口音的輕重或悲傷的程度。設計該模型這些方面的 AI 研究員 Rohan Badlani 表示：「我想讓使用者以主觀或藝術的方式結合屬性，選擇他們對每個屬性的重視程度。」

擁有史丹佛大學電腦科學碩士學位且主攻 AI 的 Badlani 指出，這個模型還能夠產生「隨時間變化的聲音」，他將此項功能稱為時間插值（temporal interpolation）。譬如它可以產生出暴風雨經過某個區域時的聲音，而漸強的雷聲則慢慢消失在遠方。它還能讓使用者精細控制聲景的演變方式。此外，與大多數模型只能重現所接觸過的訓練資料不同，Fugatto 能讓使用者創作出從未見過的聲景，例如雷雨伴隨著鳥鳴聲緩緩進入黎明。

未來的應用情境

在未來，音樂製作人可以使用 Fugatto 快速製作聲音的原型或編輯歌曲的構想，嘗試各種風格、聲音和樂器，也能夠加入效果來提升現有曲目的音訊品質。曾多次拿下白金唱片的製作人兼詞曲創作者 Ido Zmishlany 表示：「音樂史也是一部科技史。電吉他為這個世界帶來了搖滾樂。當採樣器出現時，嘻哈音樂便誕生了。借助 AI，我們正在譜寫音樂的下一個篇章。我們有了一種新的樂器、一種製作音樂的新工具，這實在是太讓人期待了。」此外，廣告公司也可以運用 Fugatto 快速針對多個地區或情境的現有廣告內容，對配音套用不同的口音和情感。或是讓線上課程變成任何一個家人或朋友的聲音來講述。遊戲開發人員，也可以使用這個模型來修改遊戲裡預先錄好的資產，配合玩家在玩遊戲時不斷變化的動作。又或是根據文字指令及選用的音訊輸入方式，即時動態地創造出新的資產。

針對 Fugatto 技術何時可開放測試還未有任何資訊公佈，欲了解更多關於 Fugatto 的背後，請點擊此連結。

文章授權聲明

文章類型
新聞稿
資料來源
NVIDIA
版權聲明
文章為映CG所有，如需轉載請標明出處

Tags:

NVIDIA AI

最新活動

NVIDIA 發表全新生成式語音 AI 模型，輸入文字或音訊即可創造出各種音樂、語調與聲音組合

文章授權聲明

TOP HITS

視效素材下載

© 映CG媒體 / InCG Media All rights reserved.

最新活動

NVIDIA 發表全新生成式語音 AI 模型，輸入文字或音訊即可創造出各種音樂、語調與聲音組合

文章授權聲明

TRENDING

TOP HITS

視效素材下載

© 映CG媒體 / InCG Media All rights reserved.