DO TRI GODINE

Životni vijek GPU-a u podatkovnim centrima je iznenađujuće kratkotrajan

29.10.2024.

Veličina fontaPrint

Moderni GPU-ovi za AI i HPC aplikacije u podatkovnim centrima troše i disipiraju 700 W snage ili više.

Životni vijek GPU-a u podatkovnim centrima je iznenađujuće kratkotrajan

Grafičke procesorske jedinice (GPU) u podatkovnim centrima mogu trajati samo jednu do tri godine, ovisno o stopi njihove iskorištenosti, navodi visokorangirani stručnjak iz Alphabeta, kojeg citira Tech Fund.

S obzirom da GPU-ovi obavljaju sav težak rad pri obuci i inferenciji umjetne inteligencije, oni su komponente pod velikim opterećenjem u svakom trenutku pa se zbog toga troše brže od ostalih dijelova infrastrukture.

Stope iskorištenosti GPU-ova za AI zadatke u podatkovnim centrima kojima upravljaju pružatelji usluga u cloudu (CSP) kreću se između 60 posto i 70 posto. Uz takve stope iskorištenosti, GPU obično traje između jedne i dvije godine, najviše tri.

Ta tvrdnja ima osnovu, budući da moderni GPU-ovi za AI i HPC aplikacije u podatkovnim centrima troše i disipiraju 700 W snage ili više, što predstavlja značajan stres za male komade silicija.

No, postoji način da se produži životni vijek GPU-a - smanjiti njihovu stopu iskorištenosti. Međutim, to znači da će se oni sporije amortizirati i sporije vraćati uloženi kapital, što nije osobito dobro za poslovanje, zbog čega će većina pružatelja usluga u cloudu radije koristiti svoje GPU-ove koliko god mogu.

Ranije ove godine, Meta je objavila studiju koja opisuje treniranje svog Llama 3 405B modela na klasteru pogonjenom s 16.384 Nvidia H100 80GB GPU-a. Stopa iskorištenosti flopa (MFU) klastera bila je oko 38 posto (koristeći BF16), a od 419 neplaniranih prekida tijekom 54-dnevnog pretreniranog snapshota, 148 (30,1%) uzrokovali su različiti kvarovi GPU-ova, uključujući kvarove NVLink-a, dok je 72 (17,2%) uzrokovao HBM3 memorijski flop.

Čini se da su rezultati Meta-e prilično povoljni za H100 GPU-ove. Ako GPU-ovi i njihova memorija nastave otkazivati po Metinoj stopi, tada će godišnja stopa kvarova ovih procesora biti oko devet posto, dok će godišnja stopa kvarova za ove GPU-ove u tri godine biti približno 27 posto, iako je vjerojatno da GPU-ovi češće otkazuju nakon godinu dana korištenja.

#datacentar #podatkovnicentri #Alphabet #GPU

Životni vijek GPU-a u podatkovnim centrima je iznenađujuće kratkotrajan

SPONZORIRANO

Dnevnik sportskog fanatika

Otvorene prijave za A1 STEMfemme program prakse za studentice STEM fakulteta

Partnerstvo Hrvatskog Telekoma i Wolta - 12 mjeseci bez naknade za Wolt+ pretplatu

Samsung predstavio novi bežični štapni usisavač - Bespoke AI Jet Lite

Kvantna prijetnja već kuca na vrata, a sigurnost se gradi danas

NAJNOVIJE

Broj 57: Univerzalni odgovor za život, svemir i navigaciju pomoraca

Snažan rast prihoda od pristupa internetu

Online potrošnja doseže 6,6 bilijuna dolara do 2029.

Samsung očekuje pad operativne dobiti

Rekordan broj pravih kupaca i velikih kompanija na NEM Dubrovnik 2025

NAJČITANIJE

Nulti korak prilagodbe Zakonu o kibernetičkoj sigurnosti: Upravljanje promjenom kao strateška osnova

U prvom kvartalu ove godine ICT javne nabave veće 21,9 posto

Njemački poluvodički div Infineon kupuje automobilski ethernet poslao Marvell Technologya

Održana HAKOM-ova konferencija Dan novih tehnologija

Microsoft pauzirao projekt podatkovnog centra vrijedan milijardu dolara

Prijavi se na newsletter

PONUDA POSLOVA U ICT SEKTORU

Prati nas i na Facebooku

Životni vijek GPU-a u podatkovnim centrima je iznenađujuće kratkotrajan

Više vijesti iz kategorije

SPONZORIRANO

NAJNOVIJE

NAJČITANIJE

Prijavi se na newsletter

PONUDA POSLOVA U ICT SEKTORU

Prati nas i na Facebooku