English

Jak vybrat platformu pro Data science, datovou analytiku a machine learning v roce 2020

Autor: Jan Matoušek, pondělí, 15. duben 2019

Tak je to tu. Padlo rozhodnutí dělat data science. Posvětil to šéf a peníze na to jsou. Za měsíc to máme. Počkat. Na čem to bude chodit? Plánujete, že v roce 2020 bude data science hlavní tepna firmy, ovšem zatím nemáte ani šroub? Začněte s výběrem ihned a máte šanci, že to vyjde.

Revoluce v datech se děje snad každý den. Alespoň tak to hlásí obchodníci, kteří se v datech pohybují. Jen je třeba oddělit signál od šumu a zabývat se skutečně revolučními přechody, nikoli vlnami na moři, ale celkovou hladinou a stavem technologií.
Výběr datových technologií pro pokročilou analytiku nebyl lehký ani v roce 2010, kdy jsem tento blog psal poprvé, a nyní je moře technologií násobně větší a pro toho, kdo v něm neplave, zásadně nepřehlednější. Je třeba říci, že tento pohled píšu z pohledu analytika, data scientisty. Pohled člověka z reportingu nebo databázového specialisty bude nutně jiný, s jinými prioritami.

Platforma. Cloud nebo plech?

V roce 2010 byl výběr základní platformy nasnadě a sestával se pro malé firmy z nakoupení plechu v alze, případně u větších firem z „interního nákupu“ v IT. Nebudeme se zde zabývat tím, nakolik je těžší a pomalejší interní nákup než nákup externí, ale řekněme si, že v rozhodování o analytické platformě přibyl prvek výběru platformy, který není právě jednoduchý.
Na výběr je mezi on-premise řešením (tj. fyzický hardware), které zaměstnává dodatečné síly na údržbu a provoz, a zdánlivě bezúdržbovým cloudem, který slibuje se o vše postarat sám.
Zatímco v roce 2010 byl cloud pro pokročilou analytiku okrajová možnost, pokud budujeme infastrukturu pro roky 2020-2030, je cloud již zcela realistická možnost a pro mnohé scénáře ta nejvýhodnější. Je i pro vás? To záleží na strategických plánech se stávající datovou infrastrukturou. Pokud máte moderní serverovnu a skvělé lidi, minimálně 5-10 let vám vydrží on-premise jako nejvýhodnější varianta. Pokud jste právě vyhodili šéfa IT operations a servery s rotujícími disky pomalu korodují v zastaralých „racích“, je čas přejít na cloud, a to nejlépe ihned.
Z velkých cloudových providerů pro pokročilou analytiku v zásadě stojí za úvahu dvě. Amazon a jeho AWS je nesporným lídrem v oblasti cloudových řešení. Rozsáhlá infrastruktura Amazon AWS však znamená dlouhý adaptační proces a potřebu specialistů. Začátky nejsou právě lehké. Na paty Amazonu šlape Microsoft Azure, které se vyplatí zejména, když vaše firma jede na Microsoftu a tedy máte výhodu o poznání snazší integrace. Výhoda lehké integrace je zejména u SQL serveru, Windows serveru a aplikací Office. Pro linuxový server pochopitelně stále ještě nepředstavuje Microsoft Azure takovou výhodu proti konkurenci. 

Hadoop - zmapovat a zredukovat 

Zvláštní kapitolou je Hadoop, který je v roce 2018 již za fází konce nadšení, alespoň na západních trzích. Tato složitá technologie se většině firem v první fázi nevyplatila z hlediska flexibility a nákladů na správu. Správná lekce z toho, že co je bezplatné, není tak úplně zdarma, se uskutečnila. Pro velké a datově založené firmy má Hadoop svůj nezastupitelný smysl, ale pro střední firmy se stal mnohokrát i pastí pro svoji náročnou údržbu a požadavky na obsluhu. Také analytické nástroje mají na Hadoopu stále ještě pár nekompatibilit, i když ty se časem vyřeší. Pokud nejste telco, sociální síť nebo webová mediálka, které potřebují obrovskou masu paralelního výkonu, s Hadoopem raději opatrně. Když už se i v takovém případě rozhodnete pro Hadoop, nebudete v tom chtít být sami. Sjednejte si profesionální podporu nebo rovnou provozovatele této náročnější platformy. Ideální pro malou a střední firmu je, když vás od Hadoopu někdo odizoluje, tak jako to dělá platforma Databricks založená na Spark, která vás nasměruje do uživatelské vrstvy.

Staré železo patří do šrotu?

Stále nám tu zůstává starý dobrý on-premise (pracovně nazývaný server, comp nebo plech), který vychází v mnoha případech levněji než cloud, zejména tam, kde se hardwarové náklady optimalizují a s hlídáním cloudových plateb nejsou zkušenosti. Problémem on-premise je, že není věčný a výměny disků nebo celých serverů přece jen zdržují. Asi tak, jako když nakupujete v Kauflandu a ne na Rohlik.cz. Koupíte levněji, ale se spoustou ruční práce. Na druhou stranu, za služby se platí a výjimkou není ani Amazon, kde se musíte pečlivě zabývat pravidly pro efektivní využití zpočátku neviditelných, ale později vysokých, nákladů.

Hybridní řešení

Kompromis je vždy špatná volba? Omyl! I IBM tvrdí, že na následujících 10 let je fajn moci přecházet mezi exekucí v cloudu a na vlastním železe. Situace připomíná automobilový průmysl, výhody a nevýhody spalovacích a elektrických pohonů je vhodné na přechodnou dobu zkombinovat. A je zde nejméně deset scénářů, kde se to vyplatí.
Pokud jste někdy zkoušeli vypočítat 1+1 v cloudu víte, že odezva takového příkladu je překvapivě pomalá. To se týká všech triviálních prototypů modelů, analýz, náčrtů a skic, pro které je fabrika příliš těžkopádná. Vybavit se nejrychlejšími disky (NVMe SSD) a pálit prototypy lokálně proto není vůbec od věci. Musíte mít ale zajištěnou hladkou cestu migrace do cloudu, a to od začátku vaší práce. Dobrou volbou je svatá trojice analytických jazyků SQL, R, Python, s jejichž podporou v cloudu je to dobré.

Předpoklady – zdraví IT i marketingu

Datové služby nejsou ve vzduchu, a end-to-end implementace musí končit v oddělení připraveném na změny. Vezměme třeba oblíbenou data science pro marketing. Pokud budu v následujícím roce začínat schůzky otázkou, zde má firma zdravý marketing, mohu se se zlou potázat. Nicméně otázka o připravenosti marketingového a IT oddělení je zcela zásadní pro implementační snahy. Alternativou k interní síle je samozřejmě marketing a IT si najmout externě. Pronájem datového IT není takový problém, jak se zdá. Zejména u cloud platforem nemusí být od věci zcela se zbavit starostí s údržbou serverů nákupem platformy jako je Keboola, která řeší propojení všeho se vším sama. U marketingových specialistů se někteří z těch nejlepších vyskytují jako freelanceři nebo vystupují jako nezávislé firmy. Vlastnictví procesu je ale i zde na místě. Když někomu půjčujete hotel, nechte si klíč. Sledovat a rozumět tomu, co dodavatel dělá je podmínka téměř nutná. A jsme zpátky u předpokladu kvalitních lidí.

Poměry v táboře data science řešení

Pokud máme vyřešenou platformu, podíváme se na nástroje pro data science. V táboře analytických řešení to vře. Vzestup Pythonu je potvrzen ve dvou po sobě následujících letech. Nicméně ani R to nevzdává a bude tu s námi ještě dlouho. Bývalý startup Rapidminer chce být dominantním řešením, a ovlivňuje výsledky všech anket a „nezávislých studií“ seč to jde, takže mu není co věřit. A víte, co dělá SQLExcel? Ani se nehne! Po pětadvaceti letech v absolutní kondici!
Z novějších platforem se stala standardem Anaconda pro Python a platforma pro cloudovou analytiku Apache Spark, která propojuje Hadoop, R a Python.


Obrázek: 3-letý vývoj softwaru pro data science Zdroj Kdnuggets
KDnuggets - 3 roky používání analytického software pro data mining, machine learning a analytiku

Kdo v pokročilé analytice ztrácí, jsou podle zdrojů z Gartner (grafika níže) tradiční hráči. Trochu to připomíná propad tradičních politických stran. SAS, kdysi silný, se u Gartnerů potácí na hranici lídrů. Další giganti IBM a Microsoft padají do vizionářské kategorie (viz obrázek níže), která by slušela spíše startupům, ale kravaťákům spíše přidělává vrásky. Čistě akademický projekt KNIME si naopak vede dobře. Tam se však přepokládá natolik poučený uživatel, že masivní rozšíření mezi začátečníky příliš nehrozí. Mnohým projektům došel dech a nezáleží přitom na tom, zde pochází z korporace nebo z garáže. Peníze na trhu jsou, ale skutečně funkčních řešení nejsou stovky.

Obrázek: Zdroj KDnuggets a Gartner – posuny v magickém kvadrantu data science řešení 2017-2019

Gartner magic quadrant , grafika KDnuggets, vývoj magického kvadrantu za 3 roky

Padá hvězda, něco si přej?

Padající hvězdy jsou ve skutečnosti jen drobné částice meziplanetární hmoty. Mezi ty se řadí spousta investorských nápadů podpořených ve více kolech startup-yardů a tvořících rychlé prototypy pro nová kola investic. Bohužel, není v mých silách projít si všechny a zhodnotit pravděpodobnost, že zde budou napořád. Prostudovat věci jako Dataiku, Mathworks či H2O musím s těžkým srdcem nechat napříště. Na čas, kdy budou některé z nich zářit nepřehlédnutelným stálým světlem a ostatní se ztratí. Kompletní zhodnocení analytického nástroje totiž netrvá hodinu, ale spíše pár dní dřiny.

Klikací a psací nástroje – rovnováha bude obnovena

V roce 2016 bylo jasné, že v následujících letech vyhrají uživatelská rozhraní pro kódování (tj. psaní) nad klikacími hračkami. Problém je, že mezi psaním kódu a klikáním se neustále pohybuje kyvadlo, které jde doleva i doprava.  Do následujících let můžeme počítat s tím, že klikací i psací nástroje budou koexistovat stejně jako cloud a on-premise. Různí průvodci data science se budou hodit pro začátečníky, kterých je právě nová vlna ve školních lavicích. Pro pokročilé a nové úlohy zde bude kód.

Až opadne voda

Až opadne voda, tedy spíše peníze startupových investorů, bude vidět, které lodi se na oceánu machine learning udrží. S jistotou tu bude pár matadorů, počínaje ExcelemSQL standardem, se kterými nehne ani trhavina.
Cloud, ten zázračně lehký název pro těžkotonážní fabriky plné serverů, je zde napořád. Uživatelé, kteří si ho oblíbili, už zpátky na on-premise nepřejdou. Hybridní prostředí přepínatelné z cloudu na lokální zdroje, budou na dalších 10 let, než se cloud zdokonalí, celkem rozumnou volbou. Nadšencům do hardwaru a hard core praktikům, zůstanou plechové farmy přímo ve firmách, ale bude to méně obvyklý přístup než dříve. A dovednosti jako je marketing, data science a zdravý rozum signifikantně podraží. 

Honza Matoušek

Honza je data scientista již od roku 2003. Od roku 2009 vede svoji firmu Data Mind a řeší s firmami využití dat. Postavil desítky prediktivních i segmentačních modelů, které vydělávají skutečné peníze pro klienty.

Blog
Oblíbené
20192018201720162015201420132012201120102009
Zpět na hlavní menu
Kontakt:

Data Mind s.r.o.

E-mail: info@datamind.cz
Sídlo: Pobřežní 18 / 16, Praha 8 - Karlín, 186 00
IČO: 28953789

face.png, 26 kB Mgr. Jan Matoušek

Telefon: +420 720 705 639
E-mail: jan.matousek@datamind.cz


linkedin.com
Napište nám vzkaz:
captcha