středa 23. května 2012

Greenplum: analytika velkých dat

Jednou z novějších akvizicí EMC (léto 2010) je Greenplum. Startup, který vyletěl bleskově vzhůru díky své orientaci na velmi aktuální problematiku analyzování velkých datových objemů (zkusím se tomu obratu Big Data vyhnout aspoň chvílemi).

Greenplum má svůj vlastní databázový engine a nad ním analytický software. Protože se předpokládá, že půjde o objemově náročné úlohy (big je holt big), je systém postaven tak, aby pracoval paralelně. Jeho základem je prostředí Hadoop, dnes nejpoužívanější nástroj pro paralelizaci datových úloh.

Podrobnosti jindy a asi jinde: pokud to znáte, pak o tom asi víte víc než já, pokud to neznáte, pak je to s Hadoopem zhruba následujícím způsobem. Máte obsáhlou úlohu, která by při sekvenčním zpracování trvala hodně dlouho, třeba indexování obsahu webových stránek (přesně pro ten účel byly algoritmy tvořící základ Hadoopu původně vyvinuty) nebo počítání, kolikrát se které slovo vyskytuje v encyklopedii (to se dá líp představit). Abyste čas zkrátili, rozdělíte ji na mnoho menších úloh, z nichž každá poběží na samostatném procesoru nebo počítači bez komunikace s ostatními. Dostanete mnoho dílčích výsledků, a dostanete je rychle. A jsou nepoužitelné, dokud je nějak nesloučíte dohromady (máte dílčí součty počtu slov z každé stránky encyklopedie zvlášť). Což se dá udělat. Té první části algoritmu se říká Map, té druhé (slučování dílčích výsledků) Reduce, protože v ní skutečně jde o redukování výsledků, o eliminaci (a třeba sčítání počtu) duplicit. Reduce se dá podle množství dílčích výsledků dělat opakovaně, v několika krocích. Jde o stařičký algoritmus pocházející z Lispu, nehodí se na všechny typy paralelních úloh, ale právě v analýze dat většinou vyhovuje. Proto je Hadoop dnes tak známý a používaný.

Hadoop, jak je z extra stručného popisu snad jasné, není databáze, je však možné nad ním databázi postavit. Třeba Google používá svou databázi Big Table. Greenplum má nenápaditě pojmenovanou Greenplum Database.

EMC má tendenci všechno dát do krabice. Ta související se Nezralou švestkou (kde ta jména berou?) se jmenuje EMC Greenplum Data Computing Appliance. V podstatě to je datový sklad spojený s výpočetním clusterem - tedy se strojem na paralelní počítání. Má vestavěný VMAX Symmetrix, veškerý potřebný software od Greenplum, čtyři nebo čtyřidvacet výpočetních uzlů („samostatných počítačů“) a dá se doplňovat dalším softwarem třetích stran. Datová analytika plug & play! (Sotva. Ale je to důležitý krok ke standardizaci a komoditizaci. Postupuje to rychle. Věda v krabici.)

Greenplum tady na EMC Worldu ohlásil celkem zajímavou věc: spuštění tisíciuzlového klastru pod svou správou. Jmenuje se Analytics Workbench a je otevřený zdarma pro vývojáře třetích stran - pro testovací účely, nikoli pro komerční provoz (aspoň tak jsem to pochopil). Hezký dárek komunitě, bez níž by koneckonců nic z výše popsaného nebylo. Ti, kdo si díky jejím výsledkům vydělali, jí to vracejí.

Žádné komentáře:

Okomentovat