neděle 20. května 2012

Škálovatelnost

EMC pořádá letos konferenci pro třináct tisíc návštěvníků.

To je z logistického hlediska naprosté šílenství. Už jen najít, byť i v Americe, konferenční centrum, které to pojme, není jen tak. Zařídit registraci, podávání obědů, přesuny mezi přednáškovými halami, aby se to nikde nezaseklo. Má hluboká úcta. (Chválím předčasně, ale: v USA jsem už na několika akcích podobné velikosti byl, jednu z nich pořádala právě EMC. Klapalo to vždy. Dokonale.)

Je to vlastně pěkný náznak toho, co se děje v digitálním světě. Je to připomínka toho, proč je dnes tak důležitým slovem scalability, škálovatelnost.

Všichni víme, že došlo k datové explozi, že dat přibývá stále rychleji a že to asi přináší jakési potíže. Málokdo ale přemýšlí nad skutečnými rozměry problému, už jen proto, že není lehké si je představit.

Rozhlédněte se kolem sebe. Internet; prima. Mobilní data a smartphone; jasně. GPS a polohové služby; samosebou. Datové senzory v budovách, v autech, na ulicích. Bezpečnostní systémy. Nakupování, služby, bankovnictví - online i offline, protože z hlediska vytváření digitální stopy je to dnes už skoro jedno, poskytovatelé si zaznamenávají všechno v obou případech. Fotky a videa. Sociální sítě jako malá třešnička na dortu. Wi-fi všude, například už i v letadlech. To vše po čtyřiadvacet hodin denně a pro několik miliard lidí.

Tak se neustále generují data. Hodně hodně moc dat. Za rok 2011 jich přibylo 1,8 zettabajtu. Zettabajt je miliarda terabajtů. Meziroční tempo nárůstu je něco přes čtyřicet procent. Ze stovky máte sto čtyřicet za rok a sto devadesát šest za dva roky a 275 za tři, k tisícinásobku se takhle dostanete za sedm let... ve skutečnosti ještě dříve, protože ten meziroční nárůst se taky pomalu zvětšuje.

Aby to bylo zábavnější, 95 % těch dat je v nestrukturované podobě, tedy nikoli v přehledných databázových tabulkách, s nimiž se počítačům dobře pracuje.

Definice, jedna z mnoha: jakmile objem dat představuje specifický problém sám o sobě, jakmile není zvládnutelný dosavadními metodami, jde o Big Data.

Nevím, kdo ten termín vymyslel. Zní to spíš jako povzdech než jako marketingový slogan. Je to ale jeden z nejfrekventovanějších výrazů v dnešním IT a pořád ještě dost dobrý na to, abyste s ním udělali dojem. (Cloud už pro tento účel nestačí a Web 2.0 ani nezkoušejte, nechcete-li být za mimoně.)

Big Data je problém i příležitost. Problém, protože: kam ta data uložíme, jak v nich budeme hledat, jak se v nich neutopit? Příležitost, protože: ač většina těch údajů vypadá jako odpad a šum, jsou v nich neuvěřitelně cenné informace. Jen je umět najít, vytáhnout, objevit správné korelace a vzorce chování. Pro banku poskytující úvěry to dnes může představovat rozdíl mezi prosperitou a krachem.

Někdy kolem roku 2000 mě informatika přestala bavit. Asi před pěti lety znovu začala, protože se dějí úžasné věci. Zůstaňte naladěni, tady to teprv začne!

Žádné komentáře:

Okomentovat