LG otvara Thinq API kako bi ga developeri bezbrižno koristili
Za poduzeća ThinQ Business API podržava partnere koji upravljaju uredskim ili stambenim zgradama u integraciji i upravljanju različitim LG proizvodima.
Chatbotovi su izuzetno vješti u referenciranju filmova, a čini se da se treniraju na svim dostupnim izvorima.
Otkad su generativni AI chatbotovi prisutni na internetu, scenariste u Hollywoodu zanima koriste li se chatbotovi za pisanje scenarija. Odnedavno se čini da jesu.
Naime, chatbotovi su izuzetno vješti u referenciranju filmova, a čini se da se treniraju na svim dostupnim izvorima. Konkretnije, na više od 53.000 drugih filmova i 85.000 epizoda TV serija. Dijalozi iz svega toga uključeni su u skup podataka za obuku AI-ja koji su koristile kompanije poput Applea, Anthropica, Mete, Nvidije, Salesforca, Bloomberga i drugih.
Novinar Atlantica Alex Reisner preuzeo je skup podataka koji se spominje u radovima o razvoju različitih velikih jezičnih modela (LLM-ova) i u njemu našao dijaloge iz svih filmova nominiranih za Oscara od 1950. do 2016., barem 616 epizoda Simpsona, 170 epizoda Seinfelda, 45 epizoda Twin Peaksa te svaka epizoda serija Wire, Sopranos i Breaking Bad. Uključeni su čak i unaprijed napisani "živi" dijalozi s ceremonija dodjele Zlatnih globusa i Oscara.
Datoteke u tom skupu podataka nisu scenariji. Umjesto toga, to su titlovi preuzeti s web stranice OpenSubtitles.org. Korisnici te stranice obično izdvajaju titlove s DVD-ova, Blu-ray diskova i internetskih prijenosa koristeći softver za optičko prepoznavanje znakova (OCR). Zatim rezultate postavljaju na OpenSubtitles.org, koja sada sadrži više od devet milijuna datoteka titlova na više od stotinu jezika i dijalekata.
Titlovi su vrijedni jer predstavljaju sirovu formu pisanog dijaloga. Oni odražavaju ritam i stil govora, omogućujući tehnološkim kompanijama da prošire repertoar generativnog AI-ja izvan akademskih tekstova.
Prema istraživačkim radovima, titlove su koristili Anthropic za obuku Claudea, Meta za obuku Open Pre-trained Transformer (OPT), Apple za obuku LLM-ova koji mogu raditi na iPhoneima i Nvidia za obuku NeMo Megatron LLM-ova. Još su ih koristili Salesforce, Bloomberg, EleutherAI, Databricks, Cerebras i razni drugi AI developeri za izgradnju najmanje 140 otvorenih modela distribuiranih na platformi za razvoj AI-ja Hugging Face. Mnogi od tih modela mogli bi potencijalno konkurirati ljudskim scenaristima, a izgrađeni su bez dopuštenja tih scenarista.
Dvije godine nakon izlaska ChatGPT-a, možda nije iznenađujuće da se kreativni rad koristi bez dopuštenja za pokretanje AI proizvoda. Ipak, ta ideja ostaje uznemirujuća mnogim umjetnicima i profesionalcima koji osjećaju da su njihova vještina i sredstva za život ugroženi programima. Transparentnost je općenito slaba. Tehnološke kompanije obično ne oglašavaju čije radove koriste za obuku svojih proizvoda. Zakonitost obuke na zaštićenim radovima također ostaje otvoreno pitanje.
Brojne tužbe podnijeli su protiv tehnoloških kompanija scenaristi, glumci, umjetnici i izdavači, tvrdeći da su njihova autorska prava prekršena u procesu obuke AI-ja. U jeziku zakona o autorskim pravima, titlovi se vjerojatno smatraju izvedenim djelima, a sud bi ih općenito vidio kao zaštićene istim pravilima protiv kopiranja i distribucije kao i filmovi iz kojih su preuzeti.
Isto tako, skup podataka OpenSubtitlesa kruži među AI developerima od 2020. i dio je The Pilea, zbirke skupova podataka za obuku generativnog AI-ja. The Pile također uključuje tekstove iz knjiga, patentne prijave, internetske rasprave, filozofske radove, titlove YouTube videa i više. To je jednostavan način za kompanije da počnu graditi AI sustave bez potrebe za pronalaženjem i preuzimanjem mnogih gigabajta visokokvalitetnog teksta koji su potrebni LLM-ovima.
Skup podataka OpenSubtitles dodaje još jednu komplikaciju složenoj priči o AI-ju, u kojoj su pristanak umjetnika i sama osnovna premisa tehnologije točke sporenja. Sve donedavno, nijedan scenarist ne bi pomislio da bi njegov kreativni rad mogao biti korišten za obuku programa koji bi ga mogli zamijeniti. A ni sami titlovi izvorno nisu bili namijenjeni za tu svrhu.
OpenSubtitles sadrži titlove na 62 različita jezika i 1782 jezične kombinacije, namijenjen je za obuku modela iza aplikacija poput Google Translatea i DeepL-a, koje se mogu koristiti za prevođenje web stranica, prometnih znakova u stranoj zemlji ili cijelog romana.
Dakle, tehnološke kompanije ponovno koriste tuđi trud, višegodišnji, kako bi višestruko profitirale. I to čine potpuno besplatno. Ali, to je tako jer zakonski okviri to ne sprečavaju...