NOVE MOGUĆNOSTI UMJETNE INTELIGENCIJE

Nvidia predstavlja najnaprednije AI audio rješenje

AI sada može stvoriti glazbeni isječak na temelju tekstualnog upita, ukloniti ili dodati instrumente iz postojeće pjesme, promijeniti naglasak ili emociju u glasu, pa čak i omogućiti ljudima da proizvedu zvukove koje prije nisu čuli.

Nvidia predstavlja najnaprednije AI audio rješenje
Depositphotos

Ateam istraživača GenAI-ja stvorio je novi zvučni alat koji korisnicima omogućuje kontrolu audio izlaza jednostavno pomoću teksta. Nazvan Fugatto (skraćeno od Foundational Generative Audio Transformer Opus 1), generira ili transformira bilo koju mješavinu glazbe, glasova i zvukova opisanih upitima koristeći bilo koju kombinaciju tekstualnih i audio datoteka. Može stvoriti glazbeni isječak na temelju tekstualnog upita, ukloniti ili dodati instrumente iz postojeće pjesme, promijeniti naglasak ili emociju u glasu, pa čak i omogućiti ljudima da proizvedu zvukove koje prije nisu čuli.

Glazbeni producenti mogli bi koristiti Fugatto za brzi prototip ili editiranje ideje za pjesmu, isprobavajući različite stilove, glasove i instrumente. Također mogu dodati efekte i poboljšati ukupnu kvalitetu zvuka postojeće pjesme. Oglasna agencija može primijeniti Fugatto za brzo ciljanje postojeće kampanje za više regija ili situacija, primjenjujući različite naglaske i emocije na glasovne snimke. Alati za učenje jezika mogu se personalizirati za korištenje bilo kojeg glasa govornika. Razvojni programeri videoigara mogli bi koristiti model za izmjenu unaprijed snimljenih sredstava u svojim naslovima kako bi odgovarali radnji koja se mijenja dok korisnici igraju igru. Ili bi mogli kreirati nova sredstva u hodu iz tekstualnih uputa i izbornih audio ulaza.

Tijekom zaključivanja, model koristi tehniku ​​nazvanu ComposableART za kombiniranje uputa koje su se vidjele zasebno samo tijekom obuke. Sposobnost modela da interpolira između uputa daje korisnicima preciznu kontrolu nad tekstualnim uputama, u ovom slučaju, težinom naglaska ili stupnjem tuge. Model također generira zvukove koji se mijenjaju tijekom vremena. Može, na primjer, stvoriti zvukove kišne oluje koja se kreće područjem s krešendom grmljavine koja polako nestaje u daljini. Korisnicima također daje preciznu kontrolu nad razvojem zvučne slike. Osim toga, za razliku od većine modela, Fugatto omogućuje korisnicima stvaranje zvučnih pejzaža kakve dosad nisu vidjeli, poput grmljavinske oluje koja jenjava u zoru uz zvuk pjevanja ptica.

Fugatto je temeljni model generativnog transformatora koji se nadovezuje na prethodni rad tima u područjima kao što su modeliranje govora, audio vokodiranje i razumijevanje zvuka. Puna verzija koristi 2,5 milijardi parametara i obučena je na nizu NVIDIA DGX sustava koji sadrže 32 GPU-a H100 Tensor Core. Jedan od najtežih dijelova napora bilo je generiranje kombiniranog skupa podataka koji je sadržavao milijune audio uzoraka korištenih za obuku. Tim je primijenio višestruku strategiju za generiranje podataka i uputa koje su znatno proširile raspon zadataka koje je model mogao obavljati uz postizanje preciznijih performansi i omogućavanje novih zadataka bez potrebe za dodatnim podacima. Također su pažljivo proučili postojeće skupove podataka kako bi otkrili nove odnose među podacima. Cjelokupni rad trajao je više od godinu dana.