Microsoftovi stručnjaci najavili su novi model pretvaranja teksta u govor baziran na umjetnoj intelgenciji i nazvan VALL-E. Može iznimno precizno simulirati glas osobe temeljem uzorka od samo tri sekunde. Temelji se na tehnologiji nazvanoj EnCodec, koju je Meta najavila u listopadu 2022.
Nakon što nauči određeni glas, VALL-E može sintetizirati zvuk te osobe na način koji pokušava sačuvati emocionalni ton govornika. Ujedno, njegovi kreatori nagađaju da bi se VALL-E mogao koristiti za visokokvalitetne aplikacije pretvaranja teksta u govor, uređivanje govora, gdje bi se snimka osobe mogla uređivati i mijenjati iz transkripta tekstate stvaranje audio sadržaja u kombinaciji s drugim generativnim AI modelima poput GPT-3.
Za razliku od drugih metoda pretvaranja teksta u govor koje obično sintetiziraju govor manipulirajući valnim oblicima, VALL-E u osnovi analizira kako osoba zvuči, rastavlja tu informaciju u diskretne komponente zvane "tokeni" zahvaljujući EnCodecu i koristi podatke kako bi uskladio ono što "zna" o tome kako bi taj glas zvučao da je izgovorio druge fraze.
"VALL-E za sintetiziranje personaliziranog govora generira odgovarajuće akustične tokene uvjetovane akustičnim tokenima upisane snimke od tri sekunde i odzivnika fonema, koji ograničavaju govornika i informacije o sadržaju. Konačno, generirani akustični tokeni koriste se za sintetiziranje konačnog valnog oblika s odgovarajućim dekoderom neuralnog kodeka", stručno je objašnjenje iz Microsofta.
Microsoft je uvježbao VALL-E-ove mogućnosti sinteze govora na audiobiblioteci koju je sastavila Meta, a koja se zove LibriLight. Sadrži 60.000 sati govora na engleskom jeziku od više od 7000 govornika, većinom izvučenih iz LibriVox audioknjiga u javnoj domeni. Kako bi VALL-E generirao dobar rezultat, glas u uzorku od tri sekunde mora biti vrlo sličan glasu u podacima o vježbanju.
"Budući da VALL-E može sintetizirati govor koji održava identitet govornika, može nositi potencijalne rizike u zlouporabi modela, kao što je krivotvorenje identifikacije glasa ili oponašanje određenog govornika. Kako bi se ublažili takvi rizici, moguće je izgraditi model detekcije za diskriminaciju je li audiozapis sintetizirao VALL-E. Također ćemo primijeniti Microsoftova AI načela u praksi pri daljnjem razvoju modela", odgovor je Microsofta na potencijalnu zlonamjeru pri korištenju ove tehnologije.
Predviđa se da će IT potrošnja u Europi u 2025. iznositi ukupno 1,28 trilijuna dolara, što je povećanje od 8,7 posto u odnosu na 2024., prema Gartneru. IT potrošnja u Europi je na putu da dosegne 1,18 trilijuna dolara do kraja 2024.
Google je najavio da njegov najnoviji kvantni čip Willow može obavljati računalne funkcije u djeliću vremena potrebnog tradicionalnom stroju. Pretraživački div je rekao da također donosi eksponencijalno smanjenje pogrešaka.
Umjetna inteligencija, nekad carstvo znanstvene fantastike, zauzela je svoje mjesto na vrhuncu znanstvenih dostignuća u Švedskoj. Na povijesnoj ceremoniji u Konserthusetu u Stockholmu, John Hopfield i Geoffrey Hinton primili su Nobelovu nagradu za fiziku za svoj pionirski rad na neuralnim mrežama.