Nvidia GPU nuėjo ilgą kelią ne tik žaidimų našumo, bet ir kitų programų, ypač dirbtinio intelekto ir mašininio mokymosi, srityse. Du pagrindiniai veiksniai, lemiantys Nvidia GPU našumą, yra CUDA ir Tensor branduoliai, esantys beveik kiekviename šiuolaikiniame Nvidia GPU, kurį galite įsigyti.

Bet ką tiksliai daro šie branduoliai ir jei jie abu naudojami dirbtinio intelekto ir mašininio mokymosi programose, kuo jie skiriasi?

Kas yra CUDA šerdys ir kam jos naudojamos?

CUDA reiškia Compute Unified Device Architecture, kuri nelabai paaiškina jų buvimą GPU. Šie branduoliai buvo įtraukti į Nvidia GPU seriją 2014 m. Maxwell architektūroje ir specializuojasi lygiagrečiame apdorojime.

Pagal savo veikimą jie yra gana panašūs į procesoriaus branduolius, tačiau geriau susidoroja su kai kuriais užduotis, įskaitant kriptografines maišas, fizinius variklius, su duomenų mokslu susijusius projektus ir net žaidimą plėtra.

Vaizdo kreditas: Nvidia

Nors mes jau aptarėme kaip CUDA branduoliai veikia jūsų kompiuterio žaidimų našumą

instagram viewer
, jie taip pat padeda mažinti skaičius. Nors net ir galingiausi CPU branduoliai turi dviženklį skaičių, Nvidia GPU yra su keliais tūkstančiais CUDA branduolių, todėl jie yra daug greitesni esant skaitiniam darbo krūviui. Be to, kadangi jie atlieka šiuos skaičiavimus lygiagrečiai, su CUDA branduoliais gaunate daug didesnį greitį.

CUDA branduoliai yra greitesni nei paprasti procesoriaus branduoliai, kai kalbama apie mažus skaičius, tačiau jie vis tiek nėra idealus sprendimas. Taip yra todėl, kad jie niekada nebuvo skirti naudoti tokiu būdu. CUDA branduoliai buvo specialiai sukurti grafiniam apdorojimui ir tam, kad „Nvidia“ GPU geriau veiktų žaidimuose.

Kas yra tenzorinės šerdys ir kam jos naudojamos?

Pradėjus naudoti GPU dirbtiniam intelektui ir mašininiam mokymuisi, „Nvidia“ savo duomenų centro GPU „Volta“ architektūroje pristatė „Tensor“ branduolius nuo 2017 m.

Tačiau prireikė iki Nvidia Turing architektūros (RTX 20 serijos GPU), kol šie branduoliai pateko į vartotojų GPU. Prisiminti kad nors GTX 16 serijos kortelės taip pat yra pagrįstos Turing architektūra, jose nėra spindulių sekimo ar Tensor šerdys.

Nors CUDA branduoliai geriausiu atveju buvo tinkami skaičiavimo apkrovoms, „Tensor“ branduoliai padidino ante, nes buvo žymiai greitesni. Nors CUDA branduoliai gali atlikti tik vieną operaciją per laikrodžio ciklą, Tensor branduoliai gali atlikti kelias operacijas, suteikdami neįtikėtiną našumo padidėjimą. Iš esmės visi Tensor branduoliai padidina matricos dauginimo greitį.

Šis skaičiavimo greičio padidėjimas kainuoja dėl tikslumo, o CUDA branduoliai yra žymiai tikslesni. Tačiau kalbant apie mašininio mokymosi modelių mokymą, „Tensor“ branduoliai yra daug efektyvesni skaičiavimo greičio ir bendrų sąnaudų požiūriu; todėl tikslumo praradimas dažnai nepaisomas.

Kaip Tensor ir CUDA branduoliai veikia GPU našumą?

Kaip tikriausiai jau spėjote, nors CUDA ir Tensor branduoliai gali apdoroti tuos pačius darbo krūvius, jie abu yra atitinkamai specializuoti branduoliai, skirti grafikos atvaizdavimui ir skaitiniams darbo krūviams.

Tai reiškia, kad priklausomai nuo vartotojo, kuriam skirtas konkretus GPU, jis turės skirtingą branduolių skaičių. Pavyzdžiui, jei atsižvelgsime į RTX 4090, Nvidia naujausią ir geriausią vartotojams skirtą žaidimų GPU, gausite daug daugiau CUDA branduolių nei Tensor branduolių. Tiksliau, nuo 16 384 CUDA branduolių iki 512 Tensor branduolių.

Palyginimui, duomenų centrams skirtas Nvidia L40 GPU, pagrįstas ta pačia Ada Lovelace architektūra kaip ir RTX 4090, turi 18 176 CUDA branduolius ir 568 Tensor branduolius. Tai gali neatrodyti toks didelis skirtumas, tačiau tai gali labai paveikti šių GPU našumą.

Kalbant apie teorinį našumą, L40 turi 90,52 TFlops FP16 ir FP32 našumą, taip pat 1 414 GFlops FP64 našumą. Tai yra didžiulis našumo padidėjimas, palyginti su RTX 4090 82,58 TFlops FP16 ir FP32 našumu ir 1 290 GFlops FP64 našumu.

Jei nesate gerai susipažinę su skaitmeniniais GPU našumo skaičiais, aukščiau pateikti Nvidia GPU slankiojo kablelio našumo skaičiai jums gali nereikšti daug. Tačiau trumpai tariant, jie rodo, kad L40 yra daug greitesnis nei RTX 4090, kai kalbama apie skaitinius skaičiavimus – tuos, kurie reikalingi dirbtiniam intelektui ir mašininiu mokymusi pagrįstiems darbo krūviams.

Našumo pagerėjimas tampa dar įspūdingesnis, kai atsižvelgiama į dviejų GPU energijos suvartojimą. RTX 4090 turi vardinį TGP (nereikia painioti su TDP, yra nedidelis skirtumas) 450 W, o L40 – tik 300 W.

Abu šie GPU puikiai leis žaidimus ir tobulins jūsų mašininio mokymosi modelį. Tačiau RTX 4090 geriau leis žaisti žaidimus, o L40 – mašininio mokymosi modelius.

CUDA branduoliai vs. Tenzoriaus šerdys: kas svarbiau?

Abu branduoliai yra vienodai svarbūs, nepaisant to, ar perkate savo GPU žaidimams, ar dedate į duomenų centro stovą. „Nvidia“ vartotojams skirti žaidimų GPU naudoja daugybę dirbtinio intelekto funkcijų (ypač DLSS), todėl gali būti naudinga turėti „Tensor“ branduolius.

Kalbant apie duomenų centrų GPU, CUDA ir Tensor branduoliai dažniausiai veikia kartu, todėl jūs gausite abu, nepriklausomai nuo pasirinkto GPU. Užuot sutelkę dėmesį į konkretų savo GPU branduolio tipą, turėtumėte daugiau dėmesio skirti grafikos plokštės veikimui kaip visumai ir naudotojo tipui, kuriam ji skirta.

CUDA branduoliai specializuojasi tvarkant grafinius darbo krūvius, o Tensor branduoliai yra geresni skaitiniuose. Jie dirba kartu ir tam tikru mastu yra pakeičiami, tačiau jie susitvarko su savo specializacijomis, todėl pirmiausia egzistuoja.

Skirtingi GPU specializuojasi skirtingais aspektais. RTX 4090 lengvai sutriuškins bet kokį žaidimą, o RTX 4060 gali valdyti tik 1080p žaidimus. Jei nežaidžiate naudodami GPU, o jo reikia tik skaičiams tirti ar neuroniniams tinklams treniruoti, geriausias pasirinkimas yra A serijos duomenų centro GPU, pvz., A100 ar net L40.

Jūsų GPU branduoliai yra svarbūs

Daugiau GPU branduolių užtikrins geresnį bendrą našumą, nes jūsų GPU bus universalesnis ir turės specialių išteklių įvairioms užduotims atlikti. Tačiau aklai įsigyti GPU su didžiausiu branduolių skaičiumi nėra geriausias sprendimas. Skirkite šiek tiek laiko ir atidžiai apsvarstykite savo naudojimo atvejį, pažvelkite į visas GPU galimybes ir tada pasirinkite.