OPSEŽNO ISTRAŽIVANJE

Anthropic analizirao 700.000 Claudeovih razgovora i otkrio da AI ima svoj moralni kod

Analiza je obuhvatila 700.000 anonimiziranih razgovora te pokazala da Claude uglavnom poštuje okvir koristan, iskren, bezopasan dok istovremeno prilagođava vrijednosti kontekstu.

Anthropic analizirao 700.000 Claudeovih razgovora i otkrio da AI ima svoj moralni kod

Kompanija Anthropic, koju su osnovali bivši zaposlenici OpenAI-ja, predstavila je dosad neviđenu analizu načina na koji njihov AI asistent Claude izražava vrijednosti u stvarnim razgovorima s korisnicima. Novoobjavljeno istraživanje otkriva i ohrabrujuće usklađenosti s ciljevima kompanije, ali i zabrinjavajuće rubne slučajeve koji bi mogli ukazati na ranjivosti u sigurnosnim mehanizmima umjetne inteligencije.

Analiza je obuhvatila 700.000 anonimiziranih razgovora te pokazala da Claude uglavnom poštuje okvir koristan, iskren, bezopasan dok istovremeno prilagođava vrijednosti kontekstu - od savjeta o vezama do povijesnih analiza. Ovo predstavlja jedan od najambicioznijih pokušaja empirijskog ispitivanja podudara li se ponašanje AI sustava u stvarnom okruženju s njegovim predviđenim dizajnom.

Tim je razvio novu metodu evaluacije kojom su sistematizirano kategorizirali vrijednosti izražene u stvarnim Claudeovim razgovorima. Nakon filtriranja subjektivnih sadržaja, analizirali su više od 308.000 interakcija, stvarajući ono što nazivaju prvom velikom empirijskom taksonomijom AI vrijednosti.

Taksonomija je organizirala vrijednosti u pet glavnih kategorija - praktične, spoznajne, društvene, zaštitne i osobne. Na najdetaljnijoj razini, sustav je prepoznao 3307 jedinstvenih vrijednosti - od svakodnevnih poput profesionalnosti do složenih etičkih pojmova poput moralnog pluralizma.

Istraživanje dolazi u ključnom trenutku za Anthropic, koji je nedavno lansirao Claude Max, premium pretplatu od 200 dolara mjesečno. Kompanija je proširila Claudeove mogućnosti uključivanjem integracije s Google Workspaceom i funkcijom autonomnog istraživanja, čime ga pozicionira kao pravog virtualnog suradnika za poslovne korisnike.

Studija je pokazala da Claude općenito slijedi pro-socijalne težnje Anthropica, naglašavajući vrijednosti poput osnaživanja korisnika, spoznajne poniznosti i dobrobiti pacijenata u raznim kontekstima. Međutim, istraživači su otkrili i uznemirujuće slučajeve u kojima Claude izražava vrijednosti suprotne treniranju.

Ti su anomalni slučajevi uključivali izraze poput dominacije i amoralnosti - vrijednosti koje Anthropic izričito želi izbjeći. Istraživači vjeruju da su rezultat sofisticiranih tehnika korisnika za zaobilaženje zaštitnih mjera, što sugerira da bi ova metoda evaluacije mogla poslužiti kao sustav ranog upozoravanja.

Zanimljivo je i to što se Claudeove izražene vrijednosti mijenjaju ovisno o kontekstu, slično ljudskom ponašanju. Kada su korisnici tražili savjete o vezama, Claude je naglašavao zdrave granice i međusobno poštovanje. U analizama povijesnih događaja naglasak je bio na povijesnoj točnosti.

Studija je također proučila Claudeovu reakciju na vrijednosti izražene od strane korisnika. U 28,2 posto razgovora Claude je snažno podržavao korisničke vrijednosti - što bi moglo potaknuti pitanja o pretjeranoj popustljivosti. U 6,6 posto interakcija, Claude je preoblikovao vrijednosti korisnika dodajući nove perspektive, najčešće u kontekstu psiholoških ili međuljudskih savjeta.

Znakovito je da je u tri posto razgovora Claude aktivno odbacio vrijednosti korisnika. Istraživači smatraju da ti rijetki slučajevi otpora mogu otkriti Claudeove najdublje i nepromjenjive vrijednosti - slično načinu na koji ljudi otkrivaju svoje temeljne vrijednosti kada se suoče s etičkim izazovima.

Studija o vrijednostima dio je šireg napora tvrtke Anthropic u objašnjavanju načina na koji veliki jezični modeli funkcioniraju, kroz pristup koji nazivaju mehanistička interpretabilnost.

Za one koji donose tehničke odluke o primjeni AI-ja u organizacijama, istraživanje Anthropica donosi nekoliko ključnih zaključaka. Prvo, sugerira da AI modeli izražavaju vrijednosti koje nisu izričito programirane, što može predstavljati problem u poslovnim kontekstima s visokim ulogom. Drugo, studija pokazuje da usklađenost s vrijednostima nije binarna već kontinuirana - i ovisi o kontekstu. To dodatno otežava odluke o korištenju AI-ja, osobito u reguliranim sektorima gdje su etički standardi presudni.

Naposljetku, istraživanje naglašava važnost praćenja vrijednosti u stvarnim primjenama, a ne samo kroz testiranja prije implementacije. Ovakav pristup može pomoći u prepoznavanju etičkih odstupanja ili manipulacija kroz vrijeme.