AMD „Instinct GPU“ serija populiarėja kompiuterių ir AI bendruomenėje. Štai kodėl.

Nėra jokių abejonių, kad NVIDIA ir toliau dominuoja lygiagrečiojo skaičiavimo erdvėje su įvairiomis populiariomis GPU serijomis. Tačiau naudojant AMD „Instinct AI“ greitintuvus, aprūpinančius du naujausius ir didžiausius superkompiuterius („Frontier“ ir „El Capitan“) ir augant bendruomenės palaikymui atvirojo kodo ROCm platformai, NVIDIA galėjo rasti didžiausią savo konkurentą.

Taigi, kas tiksliai yra AMD „Instinct AI“ greitintuvai? Kas daro juos galingus ir kaip juos palyginti su NVIDIA Tensor GPU?

Kas yra AMD Instinct procesorius?

AMD Instinct procesoriai yra įmonės lygio aparatinė įranga, naudojama didelio našumo skaičiavimui (HPC) ir dirbtinio intelekto pagreitintam apdorojimui. Skirtingai nuo įprastų, vartotojams skirtų GPU, „Instinct GPU“ yra specializuoti, kad būtų galima geriau atlikti AI mokymąsi ir kitas didelio našumo užduotis pasitelkiant programinės ir aparatinės įrangos naujoves.

AMD „Instinct“ GPU serija buvo naudojama maitinti pirmąjį superkompiuterį, kuris pralaužė „Exascale“ barjerą, atlikdamas 1,1 EFLOP ir dvigubo tikslumo operacijas per sekundę. Superkompiuteriai, naudojantys Instinct GPU, šiuo metu naudojami vėžio gydymo, tvarios energijos ir klimato kaitos tyrimams.

instagram viewer

Kaip instinktų procesoriai pagreitina AI ir HPC

Dėl galingiausi pasaulyje pagrindiniai serveriai ir superkompiuteriai norint pasiekti Exascale lygio apdorojimą, AMD Instinct greitintuvuose turėjo būti įdiegta keletas technologinių patobulinimų ir naujovių.

Aptarkime kai kurias naujas ir atnaujintas technologijas, naudojamas AMD Instinct GPU.

1. Apskaičiuokite DNR (CDNA)

Vaizdo kreditas: Pascalis Liebartas/AMD biblioteka

Naujausiuose AMD Instinct greitintuvuose (pradedant nuo MI100) buvo naudojama bendrovės CDNA architektūra.

CDNA daugiausia dėmesio skiria tokioms funkcijoms kaip lygiagretusis apdorojimas, atminties hierarchija ir optimizuotas skaičiavimo našumas naudojant „Matrix Core“ technologiją. Netgi HPC ir AI arba mašininis mokymasis, kuris veikia pavieniuose serveriuose, gali būti palaikomas naudojant CDNA, taip pat didžiulius Exascale kompiuterius.

AMD Matrix Core technologija pagreitina AI mokymąsi, palaikydama mišraus tikslumo operacijas. Galimybė skaičiuoti skirtingu tikslumu leidžia Instinct GPU efektyviai apskaičiuoti matricos operacijas pagal reikalingą tikslumo lygį.

Populiariausi skaičiavimo tikslumo formatai yra FP64, FP32, FP16, BF16 ir INT8. FP – slankusis kablelis, BF – smegenų slankusis kablelis, o INT – sveikasis skaičius. Kuo didesnis skaičius atitinkantis formatą, tuo tikslesnis skaičiavimas. 64 bitų veikimas yra žinomas kaip dvigubas tikslumas. 32 bitų tikslumas yra vienas, 16 bitų – pusiau tikslumas ir pan.

Kadangi didelė dalis gilaus mokymosi modelių mokymo nereikalauja didelio tikslumo, turint galimybę apskaičiuoti matricą operacijos pusės ar net ketvirčio tikslumu išvadoms daryti žymiai sumažina darbo krūvį ir taip pagreitina AI mokymasis.

2. Didelio pralaidumo atmintis (HBM)

Vaizdo kreditas: Jasonas De Vosas/AMD biblioteka

Kiekvienas AMD Instinct AI greitintuvas turi iki 880 matricos branduolių. Su AMD Matrix Core procesoriais, galinčiais atlikti 383 TFLOP pusės tikslumo skaičiavimus, būtina turėti itin sparčią atmintį. Naujausiuose AMD „Instinct“ pasiūlymuose vietoj įprastos DDR4 arba DDR5 RAM yra didelės dažnių juostos atmintis (HBM).

Skirtingai nuo įprastos atminties, HBM naudoja vadinamąją 3D sudėtinę architektūrą. Šio tipo architektūra reiškia projektavimo metodą, kai DRAM štampai yra vertikaliai sukrauti vienas ant kito. Tai leidžia štampuoti ant vertikalios ir horizontalios ašies, todėl terminas 3D krovimas.

Naudojant šią 3D kaupimo technologiją, HBM fizinės atminties talpa gali siekti kelis šimtus gigabaitų viename modulyje, o DRR5 – tik iki dešimčių gigabaitų vienam moduliui. Be talpos, HBM taip pat pasižymi didesniu perdavimo greičiu ir geresniu energijos vartojimo efektyvumu nei įprasta DDR atmintis.

3. Infinity audinys

Kita naujovė, įtraukta į Instinct GPU, yra AMD Infinity Fabric technologija. „Infinity Fabric“ yra sujungimo sistema, kuri sumaniai dinamiškai susieja CPU ir GPU. Tai leidžia komponentams efektyviai bendrauti tarpusavyje.

Naudojant „Infinity Fabric“, užuot sujungę komponentus su įprasta magistrale, komponentai dabar sujungiami į tinklinį tinklą, kuriame pralaidumas gali siekti iki kelių šimtų gigabaitų per sekundę.

Be tinklinio jungties, Infinity Fabric taip pat naudoja jutiklius, įtaisytus kiekviename štampelyje, kad dinamiškai valdymo dažnis, duomenų perdavimo spartos ir kiti prisitaikantys veiksmai, optimizuojant našumą ir sumažinant delsos laikas.

4. ROCm plėtros platforma

NVIDIA CUDA (angl. Compute Unified Device Architecture) yra plačiausiai naudojama DI modelių kūrimo platforma. CUDA problema yra ta, kad ji veikia tik su NVIDIA GPU. Tai viena iš pagrindinių priežasčių, kodėl NVIDIA turi didžiąją dalį HPC ir AI GPU spartintuvų rinkos dalių.

Kadangi AMD norėjo gauti didesnę HPC ir AI rinkos dalį, jie turėjo sukurti savo platformą ROCm (Radeon Open Compute). ROCm yra atvirojo kodo programinės įrangos platforma, leidžianti Instinct GPU naudoti kaip AI greitintuvus.

Nors ROCm nebūtinai yra „Instinct“ aparatinės įrangos dalis, jis yra esminis dalykas, kai kalbama apie „Instinct“ GPU linijos išlikimą. Su ROCm, kūrėjai ir mokslininkai gauna ROCm įrankius, kompiliatorių, branduolio tvarkykles, daugybę bibliotekų ir prieigą prie tokių sistemų kaip TensorFlow ir PyTorch, kad galėtų kurti su savo pageidaujama AI programavimo kalba.

Kaip „Instinct AI“ greitintuvai lyginami su „Radeon“ GPU AI greitintuvais?

AMD siūlo savo Instinct GPU seriją įmonėms ir Radeon GPU paprastiems vartotojams. Kaip aptarta anksčiau, „Instinct GPU“ naudoja AMD CDNA architektūrą, HBM ir „Infinity Fabric“ sujungimą. Ir atvirkščiai, „Radeon“ naudoja AMD RDNA architektūrą, DDR6 atmintį ir „Infinity Cache“.

Nors „Radeon“ AI greitintuvų serija yra mažiau pajėgi, ji vis tiek pasižymi vienu ar dviem AI spartintuvais viename skaičiavimo vienete. Naujausias Radeon RX7900 XT GPU turi du AI greitintuvo branduolius vienam skaičiavimo vienetui, leidžiantį atlikti 103 TFLOP didžiausio pusinio tikslumo ir 52 TFLOP didžiausio vieno tikslumo skaičiavimus.

Nors Instinct serijos GPU geriau tinka LLM ir HPC, Radeon AI greitintuvai gali būti naudojami iš anksto paruoštiems modeliams reguliuoti, daryti išvadas ir atlikti daug grafinių užduočių.

AMD Instinct vs. NVIDIA Tensor

Pasak a „TrendForce“ apklausa, NVIDA užima 80 % serverių GPU rinkos, o AMD – tik 20 %. Ši didžiulė NVIDIA sėkmė kyla dėl to, kad jie yra GPU projektavimo ir surinkimo įmonė. Tai leidžia jiems sukurti žymiai geresnius GPU, kuriems neprilygsta kiti pasiūlymai.

Palyginkime AMD Instinct MI205X ir NVIDIA H100SXM5 naudodami specifikacijas iš AMD oficiali svetainė ir NVIDIA duomenų lapas:

GPU modelis

FP64 (TFLOP)

FP32 (TFLOP)

FP16 (TFLOP)

INT8 (TFLOP)

AMD Instinct MI250X

30.0

60.0

1000

2000

NVIDIA H100SXMS

47.9

95.7

383.2

383

Kaip matote lentelėje, AMD MI250X veikia geriau dvigubo ir pusiau tikslumo požiūriu skaičiavimai, o NVIDIA H100SXMS yra daug geresnis pusės tikslumo ir ketvirčio tikslumo matricos požiūriu skaičiavimai. Dėl to AMD MI250X geriau tinka HPC, o NVIDIA H100SXMS su AI mokymusi ir išvadomis.

AMD instinktų procesorių ateitis

Nors naujausias AMD pasiūlymas, MI250X, yra skirtas HPC, jų būsimas MI300 yra labiau orientuotas į DI mokymą. Skelbiama, kad šis AI greitintuvas yra APU, sujungiantis GPU ir CPU viename pakete. Tai leidžia MI300 naudoti savo CNDA3 Unified Memory APU architektūrą, kur GPU ir CPU naudos tik vieną atmintį, padidins efektyvumą ir sumažins kainą.

Nors AMD šiandien nekonkuruos su NVIDIA AI greitintuvų rinkoje, kai tik MI300 bus išleistas ir ROCm taps Nušlifuota, AMD „Instinct“ serija gali būti pakankamai gera, kad išplėštų didelę dalį AI greitintuvų rinkos. NVIDIA.