Svijet umjetne inteligencije trenutačno je zaokupljen razvojem generativne AI izvan jednostavnih testova koje modeli lako prolaze. Čuveni Turingov test je, na neki način, već nadmašen, a u tijeku su rasprave o tome grade li se najnoviji modeli isključivo kako bi nadmudrili standardne testove koji mjere njihove sposobnosti.
Problem, tvrde stručnjaci iz Googleova DeepMinda, nije u samim testovima, već u ograničenom načinu na koji se modeli razvijaju. Podaci koji se koriste za treniranje umjetne inteligencije previše su ograničeni i statični, te nikada neće dovesti do istinski novih i naprednijih sposobnosti.
U radu koji je DeepMind objavio prošlog tjedna, a koji će biti dio nadolazeće knjige izdavačke kuće MIT Press, istraživači predlažu da AI mora dobiti mogućnost stjecanja iskustava, odnosno, interakcije sa svijetom kako bi mogao oblikovati vlastite ciljeve na temelju signala iz okoline.
"Nevjerojatne nove sposobnosti pojavit će se kada se u potpunosti iskoristi potencijal iskustvenog učenja", pišu David Silver i Richard Sutton iz DeepMinda u radu pod nazivom "Dobrodošli u eru iskustva" (eng. Welcome to the Era of Experience).
Oba autora su legende u području AI-ja. Silver je najpoznatiji po vođenju tima koji je razvio AlphaZero, DeepMindov AI model koji je nadmašio ljude u igrama šaha i Goa. Sutton je dobitnik Turingove nagrade i jedan od tvoraca pristupa zvanog učenje potkrepljenjem (eng. reinforcement learning), koji je Silver sa svojim timom iskoristio u razvoju AlphaZeroa.
Pristup koji zagovaraju temelji se upravo na učenju potkrepljenjem i lekcijama naučenim iz AlphaZeroa. Nazvali su ga streams (hrv. tokovi) i namijenjen je rješavanju nedostataka današnjih velikih jezičnih modela (LLM), koji su trenirani isključivo kako bi odgovarali na pojedinačna ljudska pitanja.
Silver i Sutton navode da su nakon pojave AlphaZeroa i njegovog prethodnika AlphaGo, generativni AI alati poput ChatGPT-a postali dominantni - i odbacili učenje potkrepljenjem. Taj zaokret imao je i koristi i nedostataka.
Generativna AI predstavljala je važan iskorak jer je AlphaZeroovo učenje potkrepljenjem bilo primjenjivo samo u ograničenim situacijama - primjerice, u igrama s potpunim informacijama poput šaha, gdje su sva pravila unaprijed poznata.
S druge strane, generativni AI modeli mogu odgovarati na spontane, nikad ranije viđene ljudske upite, bez eksplicitnih pravila o tome kako bi trebali izgledati odgovori.
"Međutim, napuštanjem učenja potkrepljenjem, nešto se izgubilo: sposobnost agenta da samostalno otkriva vlastita znanja", pišu autori.
Umjesto toga, oni ističu da se LLM-ovi oslanjaju na ljudsku prosudbu, odnosno na ono što korisnik želi kroz prompt. Taj pristup je, kažu, previše ograničen. Smatraju da ljudska prosudba nameće neprobojan strop agentovim sposobnostima: agent ne može otkriti bolje strategije koje ljudski ocjenjivač nije prepoznao.