Jak vybrat GPU pro HPC, ML, AI server? ~ COOLHOUSING s.r.o

Jaké GPU vybrat pro HPC, ML či AI server?

23. září, 2024 7 min. čtení

Víte, jakou grafickou kartu s GPU procesorem zvolit, když si plánujete pořídit server na strojové učení (ML)? A jakou zase při práci s High Performance Computing serverem? Na trhu se s rozvojem GPU serverů objevilo několik typů velmi výkonných GPU procesorů. Ovšem, který typ GPU vybrat, abyste měli jistotu, že investice v řádech desítek tisíc korun měla pro vás maximální úžitek?

V našem předchozím článku jsme se věnovali terminologii a dvěma případovým studiím týkajících se GPU hostingu, který jsme (mimo jiné) tento rok v našem datovém centru realizovali pro naše klienty. Ale z jakého důvodu jsme u jedné sestavy upřednostnili GPU L40S před H100 a v jiném případě využili H100? Proto vám přinášíme základní přehled výhod a nevýhod nejpopulárnějších grafických procesorů H100, A100 a L40S od společnosti NVIDIA, abyste se při výběru GPU technologie nespálili. Začneme nejjednodušší otázkou, která vám i budoucímu poskytovateli serveru ušetří nemalý čas a finanční prostředky.

K čemu GPU server budete používat?

Ať už si chcete pořídit VPS, dedikovaný server, nebo GPU server, je pro nás i pro vás klíčovou otázkou: „K čemu má server s grafickými kartami sloužit?“. Bude určen na strojové učení, nebo na trénování umělé inteligence, nebo potřebujete HPC server? Na základě této otázky jste jak vy, tak my schopni sestavit vhodné serverové řešení a vybrat takový typ GPU procesoru, aby výkonnostně obstál u komplikovaných a vysoce složitých výpočtů v rámci vašeho projektu.

GPU procesory a rozdíl mezi nimi

S exponenciálním vývojem a popularitou generativních jazykových a statistických modelů roste v ruku v ruce i poptávka po grafických kartách a čipech, které by tak vysoký výkon dokázaly zvládnout. Špičkou v této oblasti jsou poslední rok grafické karty NVIDIA s procesory H100, A100 a L40S. Každý z těchto grafických procesorů disponuje odlišnou infrastrukturou, pracuje a zpracovává data jinak, a tím pádem se hodí k jinému účelu. Pojďme si tedy s každým z nich blíže seznámit.

1) NVIDIA A100 Tensor Core GPU – věda a všestrannost

Vědecké výpočty

Pokud hledáte server pro HPC či vědecké účely jako je pokročilá simulace a modelování, výpočet náročných úloh, nebo trénování jednodušší umělé inteligence a jazykových modelů, A100 je pro vás ideálním řešením. Díky architektuře Ampere v kombinaci se silnou a šířkou pamětí a výkonem 64-bitové plovoucí desetinné čárky FP64 získáte GPU procesor, který dobře zvládá širokou škálu úloh. Mimo svoji všestrannost je tento čip kompatibilní se stávající infrastrukturou serverů díky formátu SXM4 a spotřebuje maximálně 400W, což je střední hodnota ze všech tří GPU.

Nevýhody: tento starší typ grafického procesoru nedisponuje ani výstupem pro video, ani Ray tracing jádry, tudíž není tolik efektivní při práci s mediálními a grafickými formáty a úlohami. Další nevýhodou je jeho relativně vysoká cena a také již docela vysoká nedostupnost na trhu.

Použití: Microsoft Azure, Selene Supercomputer

2) NVIDIA H100 Tensor Core GPU – excelentní výkon s neomezeným rozpočtem

Výkonné vědecké simulace

Zdali hledáte skutečně maximální výkon bez ohledu na rozpočet, grafický čip H100 je skvělou sázkou na jistotu. Díky architektuře Hopper a výkonu FP64 a FP8 nabízí nejvyšší výkon z analyzovaných GPU, který se hodí pro AI úlohy nové generace. V praxi H100 můžete dále využít na strojové učení (ML), při práci s rozsáhlými neuronovými sítěmi, více umělými inteligencemi či nejnáročnějšími vědeckými simulacemi.

Jedná se o nejvýkonnější grafický procesor ze všech uvedených typů, což si vybírá svoji daň v rámci ceny, dostupnosti a spotřeby. Ta dosahuje vysokých hodnot: 700W na jednu jednotku. H100 tak jako A100 nedisponuje jádry pro Ray Tracing a video výstup. Tudíž s grafikou se raději obraťte až na třetí model L40S. Rovněž tento čip není možné instalovat do stávající serverové infrastruktury, jelikož je kompatibilní s novější architekturou SXM5.

Příklady použití: AGI od Meta, AI bot Pi od Microsoftu, meteorologie.

3) Čip NVIDIA L40S – král v oblasti grafiky

Práce s grafikou a zeleným pozadím

Poslední zástupcem GPU čipů je v našem porovnání L40S. Tato GPU jednotka, postavená na architektuře Ada Lovelace s pamětí GDDR6, je excelentní pomocnicí pro zpracování jakéhokoliv grafického obsahu. To znamená renderování videa, 3D modelování, zpracování obrázků, animací a médií všeho druhu. Tudíž tento čip je často první volbou nejen pro společnosti zabývající se grafikou, vizuálními efekty a hrami, ale také má široké uplatnění v oblasti farmacie, zdravotnictví a lékařství, kdy je primární vizuální diagnostika. Na rozdíl od H100 a A100 má tento čip výstup pro RT jádra a je nejméně energeticky náročný. Maximální spotřeba tohoto čipu je 350W a je ideální pro své chladící vlastnosti i do starších datových center a je možné jej díky formátu PCIe osadit do všech typů serverů.

Oproti GPU čipům H100 a A100 chybí L40S podpora FP64, což znamená, že se nehodí na vědecké výpočty s velkou mírou přesnosti. Rovněž zaostává v rámci kompletního výkonu tensorů, tudíž není vhodný pro trénování umělé inteligence a složitější výpočty. Nicméně při zohlednění spotřeby, ceny, dostupnosti a možnosti implementace se jedná o velmi zajímavý čip.

Možnosti uplatnění: Grafika, vizuální afekty, zpracování obrazu a analýza médií.

Závěr

Každý grafický procesorový čip má své přednosti a nedostatky, které je potřeba brát na vědomí při sestavování nového serveru nebo superpočítače. Pokud potřebujete všestranné GPU, který můžete využít na vícero činností, A100 je pro vás kandidátem číslo 1. V případě, že budete pracovat s grafikou/obrazem a potřebujete výkon a zajímavou cenu, L40S je ideálním řešením. H100 dává zase smysl, pokud vyžadujete extrémní výkon bez kompromisů. Nicméně velmi záleží, pro jaké účely budete server a dané čipy používat, jaká data máte k dispozici, kde se nacházejí a jak je celkový program napsaný.

Vývoj v oblasti grafických karet a procesorů se díky trendům v oblasti umělé inteligence, těžení kryptoměn a herního průmyslu dynamicky mění každým rokem. A nebude překvapením, když se v roce 2025 dočkáme dalšího a mnohem výkonnějšího modelu GPU od NVIDIA, nebo AMD. Ovšem není nikde napsáno, že si musíte při startovacím projektu se strojovým učením, nebo umělou inteligencí okamžitě vybrat jeden z nejnovějších GPU. Rádi vám poradíme a navrhneme alternativní hostingové řešení, díky kterému nemusíte na začátku vašeho byznysového plánu utratit statisíce korun.

Váš Coolhousing

Nejlepší články