
Link: https://www.ictbusiness.info / vijesti / umjetna-inteligencija-jos-uvijek-ne-zna-razmisljati-kao-programeri
Umjetna inteligencija još uvijek ne zna razmišljati kao programeri
AI modeli tvrtki OpenAI, Anthropic i drugih vodećih AI laboratorija sve se više koriste za pomoć pri programerskim zadacima. Izvršni direktor Googlea Sundar Pichai izjavio je u listopadu da 25 posto novog koda u tvrtki generira umjetna inteligencija, a izvršni direktor Mete Mark Zuckerberg izrazio je ambicije šire primjene AI modela za kodiranje unutar kompanije.
Međutim, čak se i neki od najboljih današnjih modela muče s rješavanjem softverskih grešaka koje ne bi zbunile iskusne programere.
Novo istraživanje Microsoft Researcha, odjela za istraživanje i razvoj Microsofta, otkriva da modeli, uključujući Anthropicov Claude 3.7 Sonnet i OpenAI-jev o3-mini, ne uspijevaju otkloniti mnoge probleme u referentnom testu za razvoj softvera nazvanom SWE-bench Lite. Rezultati su otrežnjujući podsjetnik da, unatoč smjelim izjavama tvrtki poput OpenAI-a, AI još uvijek nije dorastao ljudskim stručnjacima u domenama kao što je kodiranje.
Koautori studije testirali su devet različitih modela kao okosnicu "agenta temeljenog na jednom upitu" koji je imao pristup brojnim alatima za otklanjanje pogrešaka, uključujući Python debugger. Zadali su ovom agentu rješavanje kuriranog skupa od 300 zadataka za otklanjanje softverskih pogrešaka iz SWE-bench Litea.
Prema koautorima, čak i kada je bio opremljen jačim i novijim modelima, njihov agent rijetko je uspješno riješio više od polovice zadataka otklanjanja pogrešaka. Claude 3.7 Sonnet imao je najvišu prosječnu stopu uspješnosti (48,4%), a slijede ga OpenAI-jevi o1 (30,2%) i o3-mini (22,1%).
Zašto tako razočaravajući rezultati? Neki su se modeli mučili s korištenjem dostupnih alata za otklanjanje pogrešaka i razumijevanjem kako bi različiti alati mogli pomoći kod različitih problema. Međutim, veći je problem, prema koautorima, bila oskudica podataka. Oni nagađaju da u podacima za obuku trenutnih modela nema dovoljno podataka koji predstavljaju "procese sekvencijalnog donošenja odluka" - to jest, tragove ljudskog otklanjanja pogrešaka.
Nalazi nisu baš šokantni. Mnoga su istraživanja pokazala da AI koji generira kod obično uvodi sigurnosne ranjivosti i pogreške, zbog slabosti u područjima poput sposobnosti razumijevanja programske logike. Jedna nedavna evaluacija Devina, popularnog AI alata za kodiranje, otkrila je da je mogao riješiti samo tri od 20 programerskih testova.
No, Microsoftovo istraživanje jedan je od detaljnijih pogleda na uporno problematično područje za modele. Vjerojatno neće umanjiti entuzijazam investitora za alate za pomoć pri kodiranju pogonjene umjetnom inteligencijom, ali natjerat će programere - i njihove nadređene - da dvaput razmisle o prepuštanju glavne uloge u kodiranju umjetnoj inteligenciji.
Usput rečeno, sve veći broj tehnoloških lidera osporava ideju da će AI automatizirati programerska radna mjesta. Suosnivač Microsofta Bill Gates izjavio je da misli da će programiranje kao profesija ostati. Slično su rekli i izvršni direktor Replita Amjad Masad, izvršni direktor Okte Todd McKinnon i izvršni direktor IBM-a Arvind Krishna.