BOLJI OD PRETHODNIKA

OpenAI predstavio glasovne AI modele koji u nekoliko sekundi ispisuju što im se kaže

Modeli su varijante postojećeg modela GPT-4o koji je OpenAI lansirao u svibnju 2024. godine.

OpenAI predstavio glasovne AI modele koji u nekoliko sekundi ispisuju što im se kaže
Depositphotos

OpenAI se odlučio na novi pokušaj s modelom glasovne umjetne inteligencije, koji su mu ranije upali u probleme zbog glumice Scarlett Johansson, čiji se glas pokušao iskoristiti u stilu filma Her, gdje ga je posudila. No, nije dozvolila i bila je poprilično gnjevna jer se to učinilo bez pitanja. Sve to nije obeshrabrilo OpenAI.

Stoga, predstavio je tri nova vlastita glasovna modela - gpt-4o-transcribe, gpt-4o-mini-transcribe i gpt-4o-mini-tts. Ovi će modeli u početku biti dostupni putem sučelja za programiranje aplikacija (API) kako bi developeri mogli graditi vlastite aplikacije. Također će biti dostupni na prilagođenoj demo web stranici, OpenAI.fm, kojoj pojedinačni korisnici mogu pristupiti za ograničeno testiranje i zabavu.

Nisu besplatni. Primjerice, gpt-4o-transcribe košta šest dolara jednom milijunu ulaznih audio tokena, gpt-4o-mini-transcribe tri dolara i gpt-4o-mini-tts 0,60 dolara za milijun ulaznih, ali i 12 dolara za milijun izlaznih audio tokena.

Ujedno, glasovi modela gpt-4o-mini-tts mogu se prilagoditi iz nekoliko unaprijed postavljenih opcija putem tekstualnih uputa kako bi se promijenili naglasci, visina, ton i druge vokalne kvalitete - uključujući prenošenje bilo kojih emocija koje korisnik zatraži, što bi trebalo uvelike pomoći u rješavanju svih zabrinutosti da OpenAI namjerno oponaša glas bilo kojeg određenog korisnika. Sada je na korisniku da odluči kako želi da njegov glas umjetne inteligencije zvuči prilikom povratnog govora.

Modeli su varijante postojećeg modela GPT-4o koji je OpenAI lansirao u svibnju 2024. godine i koji trenutno pokreće tekstualno i glasovno iskustvo ChatGPT-a za mnoge korisnike, ali tvrtka je taj osnovni model dodatno obučila s dodatnim podacima kako bi se istaknuo u transkripciji i govoru. Tvrtka nije precizirala kada bi modeli mogli doći u ChatGPT.

Namijenjen je zamjeni OpenAI-jevog dvogodišnjeg otvorenog izvornog modela za pretvaranje teksta u govor, Whisper, nudeći niže stope pogrešaka riječi u industrijskim standardima i poboljšane performanse u bučnim okruženjima, s raznolikim naglascima i različitim brzinama govora na više od stotinu jezika.

OpenAI također organizira natjecanje za širu javnost kako bi pronašao najkreativnije primjere korištenja demo stranice za glas OpenAI.fm. Pobjednik će dobiti prilagođeni radio Teenage Engineering s logotipom OpenAI-ja, za koji je voditelj proizvoda, platforme OpenAI-ja, Olivier Godement, rekao da je jedan od samo tri u svijetu.

Poboljšanja ih čine posebno prikladnima za aplikacije kao što su korisnički pozivni centri, transkripcija bilješki sa sastanaka i pomoćnici s umjetnom inteligencijom.

Gledajući unaprijed, OpenAI planira nastaviti usavršavati audio modele i istraživati mogućnosti prilagođenog glasa, istovremeno osiguravajući sigurnost i odgovorno korištenje umjetne inteligencije. Osim zvuka, OpenAI također ulaže u multimodalnu umjetnu inteligenciju, uključujući video, kako bi omogućio dinamičnija i interaktivnija iskustva temeljena na agentima.