Středověk žil svým problémem kvantifikace neuchopitelného, materiálním přiblížením abstraktního ve slavné disputaci scholastiků o tom „Kolik andělů se vejde na špičku jehly?“ Kdybychom znali odpověď a zároveň věděli kolik je andělů celkem, mohli bychom si snadno odvodit počet jehel potřebných k uskladnění všech andělů. Převedeno do dnešního světa by mohla otázka znít: „Kolik serverů je potřeba k uložení všech informací tohoto světa?“
Zdá se Vám to jako zvláštní otázka?
Možná. Podvědomě tušíme, že výsledek, ať již jakkoliv zajímavý, leží za hranicemi obzoru tvořeného českou kotlinou. Nicméně jsou lidé, kteří si podobnou otázku dnes nejenom kladou, odhadují či vypočítávají výsledek, ale jsou i tací, kteří ten výsledek realizují.
V případě, že budeme hovořit o někom, kdo má ambici uložit, uspořádat a zpřístupnit „všechny informace tohoto světa“, pak je nasnadě, že firem nebo institucí s možností dostát těmto ambicím nebude mnoho. Na prvním místě, opět znovu a znovu notoricky diskutovaný Google.
Ale zpět k andělům: což se zeptat jiným abstraktním způsobem: „Kolik jehel je potřeba, abychom kteréhokoliv anděla našli – řekněme – do půl vteřiny?“ A proč půl vteřiny? Nepřipomíná vám to něco?
Web | Results 1 – 10 of about 935 for kolik andělů se vejde na špičku jehly. (0.41 seconds) |
Google oficiálně nesděluje počet svých serverů. Můžeme jen dohadovat a tipovat. Stovky tisíc? Milion? Připadá vám to opravdu přehnané? Zkusme chvíli počítat:
Datové centrum Lenoir, v Severní Karolíně, má velikost 100 000 sq ft – místo pro 5000 racků. Řekněme, že nejběžněji použité budou 2U stroje, tedy 100 000 serverů jen v tomto jednom DC. Google má po celém světě 36 datových center. Jistě, nebudou všechny tak velké jako DC v Lenoir, ale určitou představu o kapacitě nám to dává…
Tím se nabízí další otázka: „A co peníze?“ Přeci jen, milion serverů .. to je opravdu hodně! Na to nemá ani Google. Nebo snad ano?
Podle čtvrtletní zprávy pro akcionáře utratil Google, od začátku roku do konce března 2008, celkem 355 734 000 USD za informační technologie. Do této kategorie spadá vše, od notebooku a desktopu, přes tiskárny až k serverům.
Ovšem pokud ještě vezmeme na zřetel, jak si Google libuje v nízkorozpočtovém HW a SW, lze za miliardu dolarů ročně pořídit o hodně víc serverů, než co nakupují, byť se slevami, velké firmy od zavedených dodavatelů serverového vybavení.
Pro srovnání, roční produkce největších výrobců serverového HW: HP – 600 000, DELL – 460 000, IBM – 300 000.
Ještě jednou za půl vteřiny…
Kolik serverů by tedy Google potřeboval na to, aby byl schopen udržet dobu odpovědi pod oněmi magickými 500 milisekundami?
Při počtu obyvatel planety Země 6 707 035 000 (Wikipedie, stav k 1.7.2008) v případě, že by Google měl milion serverů určených jen k tomu hlavnímu, tedy k vyřizování dotazů, je to jeden na 6 707 lidí.
Jestliže vyřízení jednoho dotazu by trvalo půl vteřiny, mohl by za den (2*60*60*24 = 172 800) každý člověk na světě poslal 25 dotazů za vteřinu (172 800/6 707=25,764), každou vteřinu, po celý den.
Kolik dat Google skladuje?
Podle vlastních publikovaných informací Google skladuje svá data v distribuovaném databázovém systému zvaném BigTable. V roce 2006 byly velikosti datových souborů následující:
Google Data v roce 2006
Data | Velikost (TB) |
---|---|
Crawl Index | 800 |
Google Analytics | 200 |
Google Base | 2 |
Google Earth | 70 |
Orkut | 9 |
Personalizované hledání | 4 |
(Zdroj: Bigtable: A Distributed Storage System for Structured Data)
Již přede dvěma lety potřeboval Google celkovou kapacitu přes 1 petabyte uloženého prostoru.
Pokud jsou správné informace uniklé zevnitř Googlu, tak vetšina jejich serverů před rokem 2006 byly stroje PC na platforme x86, interně sestavené, s operačním systémem Linux, a s parametry v průměru 80GB HDD a 2GB RAM.
Při těchto parametrech na databázi o velikosti 1 PetaByte, tedy 1000 TeraByte, by bylo potřeba v roce 2006 cca 120.000 serverů.
Z dalších informací uniklých zevnitř Googlu je známo, jak rostl počet serverů v čase:
2000 – 6.000 serverů
2003 – 15.000 serverů
2005 – 200.000 serverů
2006 – 450.000 serverů
Pokud provedeme aproximaci v čase podle růstového faktoru, vychází nám v roce 2008 hodnota 2.2mio serverů:
Rok | Počet serverů | Růstový faktor |
---|---|---|
2000 | 6 000 | |
2001 | 8 000 | 133,33% |
2002 | 11 000 | 137,50% |
2003 | 15 000 | 136,36% |
2004 | 50 000 | 333,33% |
2005 | 200 000 | 400,00% |
2006 | 450 000 | 225,00% |
2007 | 1 000 000 | 222,22% |
2008 | 2 200 000 | 220,00% |
(Zelené – uniklá data z Googlu, fialové – aproximace, odhad)
I Google má svůj limit
Existuje vůbec nějaký limit na množství dat Google je schopen obsáhnout? Ano, existuje! Limit ja dán architekturou vlastního databázového systému zvaného „BigTable“ který Google používá pro uložení dat. Jde o distribuovaný databázový systém pro strukturovaná data. Popis jeho architektury a funkcionality přesahuje záběr tohoto článku, omezíme se proto v tuto chvíli pouze na konstatování, že BigTable je schopna obsáhnout 2 na 61 Bytu, tedy 2 305 843 TeraBytu nebo 2 305 PentaBytu. Pokud by tedy měl systém pracoval se servery s typickou kapacitou disku 100GB, dokázal by využít přes 20 milionů takových serverů.
Ing. Karel Umlauf, COOLHOUSING.NET