Grafičke procesorske jedinice (GPU) u podatkovnim centrima mogu trajati samo jednu do tri godine, ovisno o stopi njihove iskorištenosti, navodi visokorangirani stručnjak iz Alphabeta, kojeg citira Tech Fund.
S obzirom da GPU-ovi obavljaju sav težak rad pri obuci i inferenciji umjetne inteligencije, oni su komponente pod velikim opterećenjem u svakom trenutku pa se zbog toga troše brže od ostalih dijelova infrastrukture.
Stope iskorištenosti GPU-ova za AI zadatke u podatkovnim centrima kojima upravljaju pružatelji usluga u cloudu (CSP) kreću se između 60 posto i 70 posto. Uz takve stope iskorištenosti, GPU obično traje između jedne i dvije godine, najviše tri.
Ta tvrdnja ima osnovu, budući da moderni GPU-ovi za AI i HPC aplikacije u podatkovnim centrima troše i disipiraju 700 W snage ili više, što predstavlja značajan stres za male komade silicija.
No, postoji način da se produži životni vijek GPU-a - smanjiti njihovu stopu iskorištenosti. Međutim, to znači da će se oni sporije amortizirati i sporije vraćati uloženi kapital, što nije osobito dobro za poslovanje, zbog čega će većina pružatelja usluga u cloudu radije koristiti svoje GPU-ove koliko god mogu.
Ranije ove godine, Meta je objavila studiju koja opisuje treniranje svog Llama 3 405B modela na klasteru pogonjenom s 16.384 Nvidia H100 80GB GPU-a. Stopa iskorištenosti flopa (MFU) klastera bila je oko 38 posto (koristeći BF16), a od 419 neplaniranih prekida tijekom 54-dnevnog pretreniranog snapshota, 148 (30,1%) uzrokovali su različiti kvarovi GPU-ova, uključujući kvarove NVLink-a, dok je 72 (17,2%) uzrokovao HBM3 memorijski flop.
Čini se da su rezultati Meta-e prilično povoljni za H100 GPU-ove. Ako GPU-ovi i njihova memorija nastave otkazivati po Metinoj stopi, tada će godišnja stopa kvarova ovih procesora biti oko devet posto, dok će godišnja stopa kvarova za ove GPU-ove u tri godine biti približno 27 posto, iako je vjerojatno da GPU-ovi češće otkazuju nakon godinu dana korištenja.