Hosting GPU serveru od A až po I ~ COOLHOUSING s.r.o

Hosting GPU od A až po I (případová studie)

14. srpna, 2024 7 min. čtení

Hledáte GPU server pro AI a strojové učení? Komplexní řešení hostingu GPU serverů od A až po I (Z) v našem datovém centru.

AI server hosting

V Coolhousingu poskytujeme server hosting ve formě pronájmu dedikovaných serverů od roku 2006 a virtuálních serverů od roku 2015. Za tu dobu jsme se setkali s mnoha zajímavými serverovými řešeními a „exotickými“ požadavky na hardware ze strany našich klientů. V posledních třech letech zaznamenáváme zvýšený zájem o hosting serverů pro účely umělé inteligence, strojového učení a hloubkové analýzy dat.

Tento trend jde v ruku v ruce s celosvětově populárními nástroji na bázi jazykových modelů a statisticky generovaného obsahu jako je ChatGPT, Claude, Copilot, Bard, Stable Diffusion, Runway a stovkami dalších aplikací, které každý den vznikají. Ovšem na rozdíl od běžného server hostingu je pro provoz analýz, strojového učení a AI aplikací potřeba mnohem vyšší výkon v kombinaci s grafickými kartami a velmi kvalitní konektivitou. Proto se v odborné komunitě vytvořila nová terminologie, se kterou se budeme setkávat čím dal tím častěji jak v oblasti hostingu, administrace, tak kolokace.

Nová terminologie kolem umělé inteligence

1) AI Hosting (Artificial Intelligence hosting)

Možnosti umělé inteligence

Neboli hosting umělé inteligence se zaměřuje na hostování aplikací a systémů, které využívají techniky a algoritmy umělé inteligence. Takové servery vyžadují efektivní zpracování dat v reálném čase, analýzu a interpretaci komplexních datových sad.

Příklady použití: Chatboti, zpracování přirozeného jazyka, rozpoznávání obrazu, hlasoví a virtuální asistenti, automatizace rozhodovacích procesů a řízení či personalizovaná medicína.

2) ML hosting (Machine Learning hosting)

Hosting určený pro strojové učení je podkategorií AI hostingu, která se specificky zaměřuje na hostování programů a systémů využívajících strojové učení. Strojové učení zahrnuje algoritmy, které se učí z dat a zlepšují svou výkonnost v průběhu času bez explicitního programování. Pro tento typ hostingu je potřeba opravdu velké množství diskové kapacity v kombinaci s GPU kartami pro paralelní zpracování dat.

Praktické příklady: Trénování modelů strojového učení (předpověď počasí), prediktivní analýza pro finanční, strojírenské, marketingové a e-commerce účely, nebo klasifikace a shlukování dat pro detekci podvodů.

3) HPC hosting (High-Performance Computing hosting)

Tento druh hostingu je zaměřen na poskytování výpočetních zdrojů, které umožňují řešení velmi náročných a komplexních výpočetních úloh. HPC systémy využívají paralelní zpracování a distribuované výpočetní systémy k dosažení vysokého výkonu.

Použití v praxi: Vědecké simulace, výzkum a vývoj (analýza DNA, vývoj nových léků), modelování a simulace (simulace dynamiky tekutin, astrologie), analýza velkých dat (například síťového provozu), provoz superpočítačů nebo extrémně výkonných clusterů s mnoha výpočetními uzly.

Případové studie aneb GPU server od A až po I (Z)

Grafická karta

Metoda strojového učení není ve světě techniky ničím novým, lze zmínit koncepty Alana Turinga a Arthura Samuela z 50. a 60. let minulého století. Postupně se tato metoda dostávala do širšího povědomí, nicméně plnohodnotná implementace byla limitována technologickou úrovní lidstva. Což se změnilo s rozvojem výkonných procesorů a superpočítačů v posledních 10 let.

A proto není divu, že v našem datovém centru máme s hostováním a housingem AI, ML i HPC serverů již 4 roky zkušeností. Našimi klienty jsou experti v oblasti umělé inteligence a hloubkové analýze dat a nyní vám představíme dvě případové studie, které jsme s nimi řešili a které můžete si můžete objednat i vy.

1) Supermicro server s CPU Intel, 1 TB RAM a GPU Ada

Níže uvedená konfigurace byla realizovaná na základě požadavku od stálého klienta, který u sestavy vyžadoval procesory od společnosti Intel. Pro dosažení optimálního výkonu pro strojové učení byla zvolena dvojice procesorů Intel Xeon Gold 6438M, který dosahuje v kombinaci s DDR5 paměťmi výborných výpočetních výsledků. Pro rychlou odezvu při zpracování dat byly vybrány SSD disky s NVMe řadičem o velikosti téměř 16 TB, které dosahují rychlosti zápisu 4 GB za sekundu.

U všech typů AI hostingu je klíčová odezva a množství dat pro zpracování a učení. Z tohoto důvodu byla do sestavy zvolena síťová karta s SFP kartou, která je připravena na rychlost až 100 Gbps. Aby zpracování dat probíhalo skutečně hladce a efektivně, byl server doplněn o osm grafických karet výrobce NVIDIA řady Ada L40S. GPU karta Ada L40S disponuje vyrovnaným výkonem s poměrně nízkou spotřebou a je velmi vhodná, pokud plánujete pracovat s video renderováním, 3D modelováním a mediálními výstupy.

CPU: 2x Intel Xeon Gold 6438M (2x 32C, 64T, 60M, 2,2 – 3,9 GHz)
RAM: 8x 128GB DDR5 4800MHz ECC REG
NVMe: 4x 3.8TB Samsung PM9A3 NVMe PCIe G4 V4 TLC 2.5″ 7mm
NUC: 1x AIOM 2-port 100GbE QSFP28, Mellanox CX-6 DX
GPU: 8x 48GB GDDR6 NVIDIA Ada L40S PCIe Gen 4th

2) Supermicro server s CPU AMD a přes 0,6 TB výkonu GPU

Druhou případovou studií je pro našeho nového klienta, který preferoval procesory od výrobce AMD, jejíž popularita na úkor Intelu výrazně roste. Tuto sestavu jsme vyzbrojili duálními procesory nové řady EPYC Zen4, která poskytuje skvělý a efektivní výkon každého jádra. Oproti variantě číslo 1 byl tento server osazen 8 operačními paměťmi DDR5, každá o velikosti 64 GB. Pro dosažení optimálního výkonu byly opět zvoleny SSD disky s řadičem NVMe od Samsungu, se kterými v datovém centru máme dlouhodobě ty nejlepší zkušenosti. O rychlost až 100 Gbps se opět stará síťová karta značky Mellanox se dvěma porty a SFP kartou.

Server sice disponuje polovičním výkonem operačních pamětí, ale celkový výkon pro účely strojového učení vynahrazuje osmice grafických karet řady H100 zajišťující extrémní výkon. Nvidia H100 představuje skutečně špičku v oblasti GPU karet pro práci s umělou inteligencí a není divu, že jak společnost Microsoft, tak Meta, s grafickými kartami této řady spustili jejich AI bota Pi, respektive plánují spustit open source umělou obecnou inteligenci (AGI).

CPU: 2x AMD EPYC4 Genoa (SP5 LGA) 9334 (2x 32C, 64T, 128M, 2,7 – 3,9 GHz)
RAM: 8x 64GB DDR5 4800 MHz ECC REG
NVMe: 4x 3.8TB Samsung PM9A3 NVMe PCIe G4 V4 TLC 2.5″ 7mm
NUC: 1x AIOM 2-port 100GbE QSFP28, Mellanox CX-6 DX
GPU: 8x 80GB NVIDIA H100 PCIe 5.0

Účel a výběr GPU je klíčový

Pokud se rozhodnete začít využívat AI hosting v našem datovém centru, které vám mimo GPU server zajistí optimální chladící infrastrukturu s technologií Freecooling, výbornou konektivitu do rychlosti až 100 Gbps a veškerý HW servis, je potřeba si rozmyslet pro jaký účel budete server využívat a dle toho zvolit vhodný typ grafické karty. Každá GPU karta má své výhody, ale také nevýhody, které je potřeba při konfiguraci serveru a tvorbě rozpočtu brát na zřetel. Na tohle téma chystáme koncem srpna článek, který se bude výhodám a nedostatkům nejpopulárnějších řad GPU karet značky Nvidia podrobněji věnovat.

Pokud máte o GPU hosting zájem, nebo byste chtěli tohle řešení prokonzultovat, napište nám na info@coolhousing.net. Rádi s vámi probereme všechny možnosti, které tento nový a dynamický druh hostingu nabízí.

Coolhousing tým

Nejlepší články