English

2020: Vrchol datové revoluce

Autor: Jan Matoušek, čtvrtek, 9. červen 2016

Kde bude datová revoluce za 4 roky? Dočkáme se pokusů o zkopírování lidského mozku. Funkční rozpoznání lidské tváře i přirozeného jazyka bude již tou dobou samozřejmostí. Umělá inteligence ještě nepředčí kvalitou tu lidskou, ale výpočetním výkonem se jí bude blížit. Propojení open-source a komerčních řešení přinese obrovský pokrok v datové analytice.
 
Pro svoji firmu, která již sedm let úspěšně působí v businessu prediktivní analytiky, potřebuji nutně mít vizi a plán nejméně na rok 2020. I když se nehlásím k vizionářům, je nyní nad sluce jasné, že se na poli využití dat děje revoluce, a je třeba se na ni připravit. Když chcete hrát hokej, odhadnout, kde bude puk, je nakonec užitečnější, než následovat jeho minulé umístnění. 
V roce 2020 zcela nepochybně dozrají tyto technologie: 
  • Rozpoznání řeči (mluvené i psané)
  • Rozpoznání lidských obličejů a jejich přiřazení k jménu člověka
  • Zpracování obrazových dat
Pro uživatele to bude znamenat, že bude vskutku pohodlné mluvit se svým Googlem, Amazonem, Microsoftem či s IBM, a mimo jiné to přinese i zkrácení front na pasové kontrole. Lidská řeč bude rozpoznána bez nutnosti neustálých oprav a přepisování. Naše mobily a počítače nám prostě budou rozumět. 
To vše se stane běžně dostupnou komoditou, a nikoli hračkou pro vizionáře. Navíc zde bude prediktivní analytika na každém kroku. Bude hlídat, kdy vám dojde mléko v lednici, kdy se vaše sako nebude dát vzít do společnosti či kdy máte obnovit své chytré hodinky. 
Vůbec již nebude řeč o personalizované reklamě, protože e-blast ve formě zahlcení e-mailové schránky nepochybně bude muset zmizet; z důvodů technologických, legislativních i marketingových půjde o přežitek. Téměř každá elektronická reklama tak bude personalizovaná a cílená na míru svým příjemcům. Citlivější spotřebitelé se i nadále budou cítit ohroženi a prosadí si zajisté mnoho legislativních opatření na obranu svého soukromí. 

Pod kapotou velké změny – analytika roku 2020

Podívejme se nyní na inovace, které se chystají. V analytické oblasti nastane zcela nevyhnutelně revoluce, na kterou zbrojí strartupy i zavedené korporace. 
Již nyní je zřejmé, že v roce 2020 bude existovat poměrně silný proud open-source nástrojů pro umělou inteligenci. Paradoxně to budou právě velké firmy, které open-source opečují, dovedou k dokonalosti, a v určitém smyslu i vyvlastní komunitám nezávislých vývojářů. Otevřený přístup v dlouhém horizontu zvítězí nad uzavřenými řešeními, ovšem korporace nezůstanou stranou. 
Facebook například již v současné době udělal open-source ze své platformy hlubokého učení. Hluboké učení je podmnožinou strojového učení či data miningu. Ve snaze napodobit lidský mozek při něm vzniká programatická neuronová síť, kde si neurony postupně předávají signály a interpretují realitu, například obrázky či zvuky. V roce 2020 bude dozajista hluboké učení ovládat i začínající analytik na vysoké škole. 
V populární aplikaci rozpoznání obličejů, kterou můžete vidět na Facebooku již dnes, algoritmus nejprve rozpozná čáry, potom z nich složí geometrické tvary, a nakonec obličeje. Právě takový algoritmus může mít v roce 2020 vaše lednička či televizor, protože namísto serverů zvládne rozpoznání obličeje čip o velikosti hrášku.
Další z velkých projektů strojového učení - samořiditelná auta - potkáme alespoň na letištích a v uzavřených areálech. Na silnicích mu totiž nestojí v cestě technologie, ale právní oddělení automobilek, které celkem pochopitelně odmítají převzít zodpovědnost za stovky obětí na silnicích. Protože právní oddělení pracují pomalu, technologickou revoluci na silnicích nepochybně přibrzdí.
Obrázek: Neuronová síť pro rozpoznání objektů s mnoha vrstvami. V první vrstvě jsou rozpoznány čáry, v dalších vrstvách je identifikován objekt, například obličej či zvíře. Zdroj: Google

Šílené předpovědi inženýra z Googlu 

Pokud jde o předpovědi budoucnosti, je zřejmé, že nemůžeme vynechat nejznámějšího futurologa Raye Kurzweila, který stojí za mnohými vynálezy i za částí technologického vývoje Googlu. Mnoho z jeho neuvěřitelných předpovědí z říše sci-fi se již splnilo, mnohá další má v kapse, například na rok 2029. Pro tento rok mimo jiné předpovídá, že rozsáhlé neuronové sítě založené na napodobení lidského mozku budou již v běžném použití. Počítače mají mít tou dobou podle Kurzweila vyšší výpočetní kapacitu než lidský mozek. Digitální asistenti budou akumulovat veškeré lidské vědění. 
Ačkoli je Kurzweil optimista, koncept singularity, kdy se umělá inteligence bude sama zlepšovat a překoná tak lidskou inteligenci, umísťuje „až“ do roku 2045. Podle mého názoru je i taková predikce silně přehnaná. Samoučící se algoritmy jsou k dispozici sice již teď, učí se však velmi těžkopádně a jen v předem definovaných strukturách. Uvidíme, zda i ten největší z Kurzweilových sci-fi snů se splní.

Datový vědec – Superman s klávesnicí 

Datový průmysl si již kolem roku 2010 vymyslel datového superhrdinu. Datového vědce, který je schopen geniálně programovat, řešit promptně obchodní otázky a zároveň mít nejvyšší dostupné vzdělání na poli statistiky a umělé inteligence. Jedná se samozřejmě o mix od sebe tak vzdálených schopností, že živočišný druh „datového vědce“ bude i přes masivní tlak personalistů a firem velmi vzácný. Nabídky statisícových platů sice donutí kandidáty na datové pozice tvářit se jako datoví vědci a mít v jedné ruce MBA a v druhé medaile za programování, avšak právě široké rozkročení bude kandidáty na datové vědce poněkud dekoncentrovat a nebudou excelovat ani v jedné oblasti. Pravý datový vědec „superhrdina“, šampion v programování i v businessu, nebude možná běžně na trhu ani v roce 2020.

Klikači a psavci 

„Psát skripty v dnešní době je anachronismus,“ řekl mi jednou klient. Musel jsem se hluboce zamyslet, na čem se jeho názor zakládá. Vzdělání v devadesátých letech ho muselo vést k tomu, že klikání je nové a skriptování staré. Klikání ovšem je, podle mého názoru, jen lokální vrchol jedné technologické vlny. Záleží jen na úhlu pohledu, zda je objektová orientace novější než skripty. Klikání se totiž nápadně podobá fyzické manipulaci s předměty známé nejméně 1.000.000 let a psaní je tu pouhých 7.000 let. Skripty jsou tedy novější a používání objektů starší. Jedni odjakživa psali do kamenných desek a druzí „klikali“ oštěpy do nepřátel. Práce obou pronárodů zanechala následky do dnešní doby. O něco více si ale historicky ceníme „skriptovačů“ než „klikačů“. Po době „ikon“ je tedy načase dát zase slovo skriptovacím jazykům. V roce 2020 bude nepochybně ještě na vrcholu periodická vlna skriptování namísto klikání. Opět budou na nějakou dobu určovat pravidla psavci a klikači je pouze následovat. Po technologické proměně se nové skriptovací jazyky promění opět v předpřipravené „ikony“ a klikačům bude zase hej. Je však třeba pořád mít na paměti, že funkci ikony, na kterou zběsile klikáme, někdo napsal. Středověcí nepřátelé byli koneckonců také zabíjeni podle svatých „skriptů“. 

Trendy a jejich vrcholy - analýza 

Těžko můžeme predikovat budoucnost bez důkladné analýzy současných trendů. 
Při konstrukci již zmíněných neuronových sítí si vyžádaly korporace pomoc od open-source komunity nezávislých a neplacených vývojářů. Google zveřejnil open-source projekt TensorFlow, Facebook svůj FAIR. Stranou nezůstal ani Microsoft s open source platformou hlubokého učení CNTK. Cílem je získat více (lidských) mozků do vývoje učících se algoritmů. 
V druhé řadě je zde tradiční analytický software, který se historicky rozděluje na open-source a komerční software. Ačkoli byl historicky otevřený software (zdarma) vnímán jako nouzová varianta „pro chudé“, nyní se jednací pozice korporátů a svobodných vývojářů změnily. Jak vidíme na níže uvedeném grafu z Google Trends, otevřený programovací jazyk pro analýzu dat a data mining „R“ má v počtu vyhledávání na Google navrch nad komerčními řešeními. Můžeme namítnout, že uživatelé kvalitního a jasného komerčního software nepotřebují tolik nápovědy jako uživatelé vjádru experimentálního open-source, a graf tedy mírně nadržuje open source. Trend je však nepochybný a kolem roku 2020 to bude právě kvalitní integrace open-source, která bude rozhodovat o úspěchu komerčních řešení, a nikoli naopak. 
Obrázek: Trendy v datové analytice podle Google Trends. Čas dává za pravdu otevřeným řešením. 
Povedené mixy open source a naleštěných komerčních řešení se právě chystají na trh. Microsoft SQL Server 2016 bude v pokročilých analytických službách obsahovat kvalitní integraci s open-sourcem „R“, koupeným v rámci akvizice firmičky Revolution Analytics. Další budoucí trumf korporátů je opět mix mezi open-source a komerčním softwarem. Ten má v kapse IBM v podobě Netezza appliance. Jedná se o fyzický server, který obsahuje radikálně zrychlené jádro open-source databáze PostgreSQL včetně integrace s již zmíněným analytickým open-source „R“. Osud business gigantů tak v zásadě závisí na akceleraci a využití open-source řešení. Sázky jsou tak vysoké, že již nelze opustit stůl a vrátit se k čistě komerčním řešením. 
Obrázek: Gartner Magic Quadrant -  postavení výrobců pokročilého analytického softwaru z hlediska vize (osa x) a akceschopnosti (osa y). Obrázek byl serverem KDNuggets upraven tak, aby ukazoval změny mezi lety 2015 a 2016. (Zdroj: Gartner, KDNuggets)
Přesto mám za to, že tradiční komerční analytické platformy SAS a SPSS zůstanou i v roce 2020 nejefektivnějším řešením rychlého doručení analytických výsledků. Jejich integrace s open-source se se však radikálně zlepší, takže přechody mezi open-source a komerčními algoritmy se stanou pro uživatele nepostřehnutelnými. 
Obrázek: Vývoj používaného software mezi pokročilými analytiky dle ankety serveru KDNuggets. 
Autor: Jan Matoušek, hlavní analytik Data Mind s.r.o., firmy pro data mining a datové analýzy
(Původně pro časopis Connect!, přílohu časopisu computer a euro)
O Data Mind 
Firma Data Mind s.r.o. je specializovaná na dolování dat z databází neboli data mining. Soustředí se na segmentace zákazníků z transakčních dat. Přináší svým zákazníkům přesné cílení komunikačních kampaní. Kromě toho provádí marketingové analýzy a angažuje se v rozšiřování analytického softwaru a znalostí.
Blog
Oblíbené
201720162015201420132012201120102009
Zpět na hlavní menu
Kontakt:

Data Mind s.r.o.

Telefon: +420 720 705 639, +420 220 386 449
E-mail: info@datamind.cz
Sídlo: U Průhonu 22 / 466, Praha 7 – Holešovice, 170 00
IČO: 28953789

face.png, 26 kB Mgr. Jan Matoušek

Telefon: +420 720 705 639
E-mail: jan.matousek@datamind.cz


linkedin.com
Napište nám vzkaz:
captcha