BOLJI OD PRETHODNIKA

OpenAI predstavio glasovne AI modele koji u nekoliko sekundi ispisuju što im se kaže

27.03.2025.

Veličina fontaPrint

Modeli su varijante postojećeg modela GPT-4o koji je OpenAI lansirao u svibnju 2024. godine.

OpenAI predstavio glasovne AI modele koji u nekoliko sekundi ispisuju što im se kaže

OpenAI se odlučio na novi pokušaj s modelom glasovne umjetne inteligencije, koji su mu ranije upali u probleme zbog glumice Scarlett Johansson, čiji se glas pokušao iskoristiti u stilu filma Her, gdje ga je posudila. No, nije dozvolila i bila je poprilično gnjevna jer se to učinilo bez pitanja. Sve to nije obeshrabrilo OpenAI.

Stoga, predstavio je tri nova vlastita glasovna modela - gpt-4o-transcribe, gpt-4o-mini-transcribe i gpt-4o-mini-tts. Ovi će modeli u početku biti dostupni putem sučelja za programiranje aplikacija (API) kako bi developeri mogli graditi vlastite aplikacije. Također će biti dostupni na prilagođenoj demo web stranici, OpenAI.fm, kojoj pojedinačni korisnici mogu pristupiti za ograničeno testiranje i zabavu.

Nisu besplatni. Primjerice, gpt-4o-transcribe košta šest dolara jednom milijunu ulaznih audio tokena, gpt-4o-mini-transcribe tri dolara i gpt-4o-mini-tts 0,60 dolara za milijun ulaznih, ali i 12 dolara za milijun izlaznih audio tokena.

Ujedno, glasovi modela gpt-4o-mini-tts mogu se prilagoditi iz nekoliko unaprijed postavljenih opcija putem tekstualnih uputa kako bi se promijenili naglasci, visina, ton i druge vokalne kvalitete - uključujući prenošenje bilo kojih emocija koje korisnik zatraži, što bi trebalo uvelike pomoći u rješavanju svih zabrinutosti da OpenAI namjerno oponaša glas bilo kojeg određenog korisnika. Sada je na korisniku da odluči kako želi da njegov glas umjetne inteligencije zvuči prilikom povratnog govora.

Modeli su varijante postojećeg modela GPT-4o koji je OpenAI lansirao u svibnju 2024. godine i koji trenutno pokreće tekstualno i glasovno iskustvo ChatGPT-a za mnoge korisnike, ali tvrtka je taj osnovni model dodatno obučila s dodatnim podacima kako bi se istaknuo u transkripciji i govoru. Tvrtka nije precizirala kada bi modeli mogli doći u ChatGPT.

Namijenjen je zamjeni OpenAI-jevog dvogodišnjeg otvorenog izvornog modela za pretvaranje teksta u govor, Whisper, nudeći niže stope pogrešaka riječi u industrijskim standardima i poboljšane performanse u bučnim okruženjima, s raznolikim naglascima i različitim brzinama govora na više od stotinu jezika.

OpenAI također organizira natjecanje za širu javnost kako bi pronašao najkreativnije primjere korištenja demo stranice za glas OpenAI.fm. Pobjednik će dobiti prilagođeni radio Teenage Engineering s logotipom OpenAI-ja, za koji je voditelj proizvoda, platforme OpenAI-ja, Olivier Godement, rekao da je jedan od samo tri u svijetu.

Poboljšanja ih čine posebno prikladnima za aplikacije kao što su korisnički pozivni centri, transkripcija bilješki sa sastanaka i pomoćnici s umjetnom inteligencijom.

Gledajući unaprijed, OpenAI planira nastaviti usavršavati audio modele i istraživati mogućnosti prilagođenog glasa, istovremeno osiguravajući sigurnost i odgovorno korištenje umjetne inteligencije. Osim zvuka, OpenAI također ulaže u multimodalnu umjetnu inteligenciju, uključujući video, kako bi omogućio dinamičnija i interaktivnija iskustva temeljena na agentima.

#ChatGPT #openai #GenAI #audio

OpenAI predstavio glasovne AI modele koji u nekoliko sekundi ispisuju što im se kaže

SPONZORIRANO

Dnevnik sportskog fanatika

Otvorene prijave za A1 STEMfemme program prakse za studentice STEM fakulteta

Partnerstvo Hrvatskog Telekoma i Wolta - 12 mjeseci bez naknade za Wolt+ pretplatu

Samsung predstavio novi bežični štapni usisavač - Bespoke AI Jet Lite

Kvantna prijetnja već kuca na vrata, a sigurnost se gradi danas

NAJNOVIJE

Ofcom planira D2D Boost za britanske operatere

Značajan rast globalnih provjera digitalnog ID-a

Potrošnja poduzeća za internet stvari u regiji EMEA porast će za 11 posto CAGR do 2028.

Broj 57: Univerzalni odgovor za život, svemir i navigaciju pomoraca

Snažan rast prihoda od pristupa internetu

NAJČITANIJE

Nulti korak prilagodbe Zakonu o kibernetičkoj sigurnosti: Upravljanje promjenom kao strateška osnova

Njemački poluvodički div Infineon kupuje automobilski ethernet poslao Marvell Technologya

U prvom kvartalu ove godine ICT javne nabave veće 21,9 posto

Održana HAKOM-ova konferencija Dan novih tehnologija

Microsoft pauzirao projekt podatkovnog centra vrijedan milijardu dolara

Prijavi se na newsletter

PONUDA POSLOVA U ICT SEKTORU

Prati nas i na Facebooku

OpenAI predstavio glasovne AI modele koji u nekoliko sekundi ispisuju što im se kaže

Više vijesti iz kategorije

SPONZORIRANO

NAJNOVIJE

NAJČITANIJE

Prijavi se na newsletter

PONUDA POSLOVA U ICT SEKTORU

Prati nas i na Facebooku