NOVE MOGUĆNOSTI UMJETNE INTELIGENCIJE

Nvidia predstavlja najnaprednije AI audio rješenje

01.12.2024.

Veličina fontaPrint

AI sada može stvoriti glazbeni isječak na temelju tekstualnog upita, ukloniti ili dodati instrumente iz postojeće pjesme, promijeniti naglasak ili emociju u glasu, pa čak i omogućiti ljudima da proizvedu zvukove koje prije nisu čuli.

Nvidia predstavlja najnaprednije AI audio rješenje

Ateam istraživača GenAI-ja stvorio je novi zvučni alat koji korisnicima omogućuje kontrolu audio izlaza jednostavno pomoću teksta. Nazvan Fugatto (skraćeno od Foundational Generative Audio Transformer Opus 1), generira ili transformira bilo koju mješavinu glazbe, glasova i zvukova opisanih upitima koristeći bilo koju kombinaciju tekstualnih i audio datoteka. Može stvoriti glazbeni isječak na temelju tekstualnog upita, ukloniti ili dodati instrumente iz postojeće pjesme, promijeniti naglasak ili emociju u glasu, pa čak i omogućiti ljudima da proizvedu zvukove koje prije nisu čuli.

Glazbeni producenti mogli bi koristiti Fugatto za brzi prototip ili editiranje ideje za pjesmu, isprobavajući različite stilove, glasove i instrumente. Također mogu dodati efekte i poboljšati ukupnu kvalitetu zvuka postojeće pjesme. Oglasna agencija može primijeniti Fugatto za brzo ciljanje postojeće kampanje za više regija ili situacija, primjenjujući različite naglaske i emocije na glasovne snimke. Alati za učenje jezika mogu se personalizirati za korištenje bilo kojeg glasa govornika. Razvojni programeri videoigara mogli bi koristiti model za izmjenu unaprijed snimljenih sredstava u svojim naslovima kako bi odgovarali radnji koja se mijenja dok korisnici igraju igru. Ili bi mogli kreirati nova sredstva u hodu iz tekstualnih uputa i izbornih audio ulaza.

Tijekom zaključivanja, model koristi tehniku nazvanu ComposableART za kombiniranje uputa koje su se vidjele zasebno samo tijekom obuke. Sposobnost modela da interpolira između uputa daje korisnicima preciznu kontrolu nad tekstualnim uputama, u ovom slučaju, težinom naglaska ili stupnjem tuge. Model također generira zvukove koji se mijenjaju tijekom vremena. Može, na primjer, stvoriti zvukove kišne oluje koja se kreće područjem s krešendom grmljavine koja polako nestaje u daljini. Korisnicima također daje preciznu kontrolu nad razvojem zvučne slike. Osim toga, za razliku od većine modela, Fugatto omogućuje korisnicima stvaranje zvučnih pejzaža kakve dosad nisu vidjeli, poput grmljavinske oluje koja jenjava u zoru uz zvuk pjevanja ptica.

Fugatto je temeljni model generativnog transformatora koji se nadovezuje na prethodni rad tima u područjima kao što su modeliranje govora, audio vokodiranje i razumijevanje zvuka. Puna verzija koristi 2,5 milijardi parametara i obučena je na nizu NVIDIA DGX sustava koji sadrže 32 GPU-a H100 Tensor Core. Jedan od najtežih dijelova napora bilo je generiranje kombiniranog skupa podataka koji je sadržavao milijune audio uzoraka korištenih za obuku. Tim je primijenio višestruku strategiju za generiranje podataka i uputa koje su znatno proširile raspon zadataka koje je model mogao obavljati uz postizanje preciznijih performansi i omogućavanje novih zadataka bez potrebe za dodatnim podacima. Također su pažljivo proučili postojeće skupove podataka kako bi otkrili nove odnose među podacima. Cjelokupni rad trajao je više od godinu dana.

#glazba #umjetnainteligencija #Nvidia #audio #AI

Nvidia predstavlja najnaprednije AI audio rješenje

SPONZORIRANO

Dnevnik sportskog fanatika

Otvorene prijave za A1 STEMfemme program prakse za studentice STEM fakulteta

Partnerstvo Hrvatskog Telekoma i Wolta - 12 mjeseci bez naknade za Wolt+ pretplatu

Samsung predstavio novi bežični štapni usisavač - Bespoke AI Jet Lite

Kvantna prijetnja već kuca na vrata, a sigurnost se gradi danas

NAJNOVIJE

Ofcom planira D2D Boost za britanske operatere

Značajan rast globalnih provjera digitalnog ID-a

Potrošnja poduzeća za internet stvari u regiji EMEA porast će za 11 posto CAGR do 2028.

Broj 57: Univerzalni odgovor za život, svemir i navigaciju pomoraca

Snažan rast prihoda od pristupa internetu

NAJČITANIJE

Nulti korak prilagodbe Zakonu o kibernetičkoj sigurnosti: Upravljanje promjenom kao strateška osnova

Njemački poluvodički div Infineon kupuje automobilski ethernet poslao Marvell Technologya

U prvom kvartalu ove godine ICT javne nabave veće 21,9 posto

Održana HAKOM-ova konferencija Dan novih tehnologija

Microsoft pauzirao projekt podatkovnog centra vrijedan milijardu dolara

Prijavi se na newsletter

PONUDA POSLOVA U ICT SEKTORU

Prati nas i na Facebooku

Nvidia predstavlja najnaprednije AI audio rješenje

Više vijesti iz kategorije

SPONZORIRANO

NAJNOVIJE

NAJČITANIJE

Prijavi se na newsletter

PONUDA POSLOVA U ICT SEKTORU

Prati nas i na Facebooku