POMIČU GRANICE

Tehnološke kompanije koriste titlove filmova i serija za obuku AI modela

21.11.2024.

Veličina fontaPrint

Chatbotovi su izuzetno vješti u referenciranju filmova, a čini se da se treniraju na svim dostupnim izvorima.

Tehnološke kompanije koriste titlove filmova i serija za obuku AI modela

Otkad su generativni AI chatbotovi prisutni na internetu, scenariste u Hollywoodu zanima koriste li se chatbotovi za pisanje scenarija. Odnedavno se čini da jesu.

Naime, chatbotovi su izuzetno vješti u referenciranju filmova, a čini se da se treniraju na svim dostupnim izvorima. Konkretnije, na više od 53.000 drugih filmova i 85.000 epizoda TV serija. Dijalozi iz svega toga uključeni su u skup podataka za obuku AI-ja koji su koristile kompanije poput Applea, Anthropica, Mete, Nvidije, Salesforca, Bloomberga i drugih.

Novinar Atlantica Alex Reisner preuzeo je skup podataka koji se spominje u radovima o razvoju različitih velikih jezičnih modela (LLM-ova) i u njemu našao dijaloge iz svih filmova nominiranih za Oscara od 1950. do 2016., barem 616 epizoda Simpsona, 170 epizoda Seinfelda, 45 epizoda Twin Peaksa te svaka epizoda serija Wire, Sopranos i Breaking Bad. Uključeni su čak i unaprijed napisani "živi" dijalozi s ceremonija dodjele Zlatnih globusa i Oscara.

Datoteke u tom skupu podataka nisu scenariji. Umjesto toga, to su titlovi preuzeti s web stranice OpenSubtitles.org. Korisnici te stranice obično izdvajaju titlove s DVD-ova, Blu-ray diskova i internetskih prijenosa koristeći softver za optičko prepoznavanje znakova (OCR). Zatim rezultate postavljaju na OpenSubtitles.org, koja sada sadrži više od devet milijuna datoteka titlova na više od stotinu jezika i dijalekata.

Titlovi su vrijedni jer predstavljaju sirovu formu pisanog dijaloga. Oni odražavaju ritam i stil govora, omogućujući tehnološkim kompanijama da prošire repertoar generativnog AI-ja izvan akademskih tekstova.

Prema istraživačkim radovima, titlove su koristili Anthropic za obuku Claudea, Meta za obuku Open Pre-trained Transformer (OPT), Apple za obuku LLM-ova koji mogu raditi na iPhoneima i Nvidia za obuku NeMo Megatron LLM-ova. Još su ih koristili Salesforce, Bloomberg, EleutherAI, Databricks, Cerebras i razni drugi AI developeri za izgradnju najmanje 140 otvorenih modela distribuiranih na platformi za razvoj AI-ja Hugging Face. Mnogi od tih modela mogli bi potencijalno konkurirati ljudskim scenaristima, a izgrađeni su bez dopuštenja tih scenarista.

Dvije godine nakon izlaska ChatGPT-a, možda nije iznenađujuće da se kreativni rad koristi bez dopuštenja za pokretanje AI proizvoda. Ipak, ta ideja ostaje uznemirujuća mnogim umjetnicima i profesionalcima koji osjećaju da su njihova vještina i sredstva za život ugroženi programima. Transparentnost je općenito slaba. Tehnološke kompanije obično ne oglašavaju čije radove koriste za obuku svojih proizvoda. Zakonitost obuke na zaštićenim radovima također ostaje otvoreno pitanje.

Brojne tužbe podnijeli su protiv tehnoloških kompanija scenaristi, glumci, umjetnici i izdavači, tvrdeći da su njihova autorska prava prekršena u procesu obuke AI-ja. U jeziku zakona o autorskim pravima, titlovi se vjerojatno smatraju izvedenim djelima, a sud bi ih općenito vidio kao zaštićene istim pravilima protiv kopiranja i distribucije kao i filmovi iz kojih su preuzeti.

Isto tako, skup podataka OpenSubtitlesa kruži među AI developerima od 2020. i dio je The Pilea, zbirke skupova podataka za obuku generativnog AI-ja. The Pile također uključuje tekstove iz knjiga, patentne prijave, internetske rasprave, filozofske radove, titlove YouTube videa i više. To je jednostavan način za kompanije da počnu graditi AI sustave bez potrebe za pronalaženjem i preuzimanjem mnogih gigabajta visokokvalitetnog teksta koji su potrebni LLM-ovima.

Skup podataka OpenSubtitles dodaje još jednu komplikaciju složenoj priči o AI-ju, u kojoj su pristanak umjetnika i sama osnovna premisa tehnologije točke sporenja. Sve donedavno, nijedan scenarist ne bi pomislio da bi njegov kreativni rad mogao biti korišten za obuku programa koji bi ga mogli zamijeniti. A ni sami titlovi izvorno nisu bili namijenjeni za tu svrhu.

OpenSubtitles sadrži titlove na 62 različita jezika i 1782 jezične kombinacije, namijenjen je za obuku modela iza aplikacija poput Google Translatea i DeepL-a, koje se mogu koristiti za prevođenje web stranica, prometnih znakova u stranoj zemlji ili cijelog romana.

Dakle, tehnološke kompanije ponovno koriste tuđi trud, višegodišnji, kako bi višestruko profitirale. I to čine potpuno besplatno. Ali, to je tako jer zakonski okviri to ne sprečavaju...

#ChatGPT #openai #OpenSubtitle #titlovi

Tehnološke kompanije koriste titlove filmova i serija za obuku AI modela

SPONZORIRANO

Dnevnik sportskog fanatika

Otvorene prijave za A1 STEMfemme program prakse za studentice STEM fakulteta

Partnerstvo Hrvatskog Telekoma i Wolta - 12 mjeseci bez naknade za Wolt+ pretplatu

Samsung predstavio novi bežični štapni usisavač - Bespoke AI Jet Lite

Kvantna prijetnja već kuca na vrata, a sigurnost se gradi danas

NAJNOVIJE

Ofcom planira D2D Boost za britanske operatere

Značajan rast globalnih provjera digitalnog ID-a

Potrošnja poduzeća za internet stvari u regiji EMEA porast će za 11 posto CAGR do 2028.

Broj 57: Univerzalni odgovor za život, svemir i navigaciju pomoraca

Snažan rast prihoda od pristupa internetu

NAJČITANIJE

Nulti korak prilagodbe Zakonu o kibernetičkoj sigurnosti: Upravljanje promjenom kao strateška osnova

Održana HAKOM-ova konferencija Dan novih tehnologija

U prvom kvartalu ove godine ICT javne nabave veće 21,9 posto

Microsoft pauzirao projekt podatkovnog centra vrijedan milijardu dolara

ICT na Ti: Qelo uspješno izdao svoje 3 milijuna eura vrijedne obveznice

Prijavi se na newsletter

PONUDA POSLOVA U ICT SEKTORU

Prati nas i na Facebooku

Tehnološke kompanije koriste titlove filmova i serija za obuku AI modela

Više vijesti iz kategorije

SPONZORIRANO

NAJNOVIJE

NAJČITANIJE

Prijavi se na newsletter

PONUDA POSLOVA U ICT SEKTORU

Prati nas i na Facebooku