I bezdomovec má datovou stopu

Autor: Jan Matoušek, 23. května 2017

V rozhovoru pro server Objevit.cz vám Honza Matoušek z Data Mind řekne, jak se těží data a jestli v dnešním světě můžete existovat zcela anonymně. Řekne vám, jak dělat datovou analytiku a dotkne se i aktuálních témat neuronových sítí a strojového učení. Rozhovor vedl Ondra Kolda z Objevit.cz 

Ahoj Honzo. Jsem rád, že jsi kývnul na náš rozhovor.
Jsem rád, že můžu předat něco ze své práce.

Mohl bys stručně vysvětlit našim čtenářům, co se skrývá pod termínem data mining?
Data mining je dolování znalostí z dat. Obvykle máš na začátku hromadu transakcí, ze které je  třeba vytěžit informace. Nejčastěji „těžíme“ charakteristiky zákazníků. Hledáme mezi zákazníky jasné typy jako jsou „mladí frajeři“ „maminky na mateřské“ apod., kterým říkáme segmenty. Používáme k tomu data o nákupech.


Kdy tento fenomén vznikl? Myslím v masivní podobě. Je logické, že lidé sbírali informace od nepaměti, ale dřív se asi zaměřili spíše na intuici. Dnes je možné získat tolik informací, že už na to běžný selský rozum pravděpodobně nestačí.
Data mining vyrostl na základech statistických metod, které jsou zde od padesátých let. V devadesátých letech nastal boom ve spojení s telekomunikacemi a bankami, které měly tou dobou dost peněz, a ještě větší chuť je zmnožovat. Jasný klíč k tomu, jak vydělat ještě více, poskytují právě data o zákaznících a jejich využití k prodeji produktů. Nejlépe se prodá produkt, který souvisí s tím, co člověk už má nebo souvisí s charakterem zákazníka. Další aplikací je prevence výpovědí zákazníků. Základem ovšem zůstává zákaznická segmentace, typologie klientů, která slouží ke strategickému marketingu i k cílení konkrétních sdělení dobře popsaným zákaznickým skupinám.

Co se v této branži za poslední léta nejvíce změnilo?
Nejrychleji se v data miningu mění nálepky. Kolem roku 2010 se oboru začalo říkat „big data“. Ještě později v roce 2015 se vžil pro data mining termín „machine learning“ a nyní se prosazuje nálepka z oblasti science fiction - „umělá inteligence“ (anglicky: AI, artificial intelligence). Zatímco název oboru se často mění, aby byl atraktivní pro investory, spoustu metod je tu od roku 1950. V posledních letech ovšem nastal i druhý technologický boom, v jehož rámci jsou na tahu hluboké neuronové sítě. Moderní technika umí rozpoznávat obrázky a určovat, co na nich je, umí diagnostikovat vadný motor nebo rozpoznávat mluvenou řeč. To jsou oblasti, které zažívají skutečný vývoj a které mají konkrétní zpeněžitelné aplikace. Stroje se také naučily hrát společenské hry na úrovni velmistrů, nicméně to nepovažuji za příliš podstatné z ekonomického hlediska.

K čemu jsou vlastně získaná data dobrá?
Zjednodušeně: Data jsou peníze. Dobře to vidíš na firmách jako je Google či Facebook, kde data představují vedle algoritmů jejich nejcennější majetek. Data umožňují přesné cílení reklamy, a tedy nejefektivnější prodej bez zbytečného obtěžování. To činí „datově bohaté“ firmy skutečně bohatými.

Komu všemu mohou data pomoci? Vyplatí se i malým subjektům získávat informace a těžit z nich důležitá data?
Data mohou pomoci každému podnikatelskému subjektu. Tomu, kdo má obrat 100.000 Kč ovšem stačí sledovat náklady a výnosy. Kdo má 1.000.000 Kč obratu sleduje obraty po produktech. Teprve nad 50.000.000 Kč obratu se vyplatí definovat si odlišné zákaznické segmenty a rozdělit marketingovou komunikaci do více větví nebo si hrát s algoritmy na doporučování zboží. Ačkoli se snažíme data mining demokratizovat, vždy se nejvíce vyplatí silným hráčům s dobrým finančním, technologickým a marketingový zázemím. Lidská práce nad milionovou databází je relativně stejná jako nad pár řádky. Je tedy efektivní, aby metody práce s daty odpovídaly velikosti dat. Malým firmám proto říkáme, začněte s kvalitními malým daty a reportingem. Teprve později zapojte „umělou inteligenci“ neuronových sítí. Výjimkou jsou samozřejmě start-upy přímo založené na data miningu, na analýze zvuku či obrazu. Druhou výjimkou je online svět, který dokáže zapojovat datové modely daleko levněji než tradiční obchodníci.

Kde všude je možné získat data pro další analýzu? Jaké kanály jsou podle tebe nejefektivnější?
V dnešním světě jsou volně k dispozici miliony datasetů jen tak – na hraní. Na nich je možné se naučit jakoukoli statistickou metodu či celý data mining. Pak tady jsou státní data, která by měla být dostupná zdarma každému. I v České republice máme k dispozici několik desítek volně dostupných datasetů například výsledky voleb, Sčítání lidu či registr firem. Nakonec jsou zde data komerční, která vám nikdo nedá, pokud nepodepíšete dohodu o důvěrnosti se statisícovými pokutami. Tato data tvoří majetek společností a firmy jsou velmi opatrné v tom, komu je svěřují. I z toho pravidla však existuje pár výjimek, například americká firma Lending club dává většinu dat k dispozici, a může se jí to vyplatit, protože dostává zpět řadu otevřených analýz. Otevřenost je tedy způsob, jak přimět datové analytiky sem tam pracovat i zadarmo.

datarestard, Jan Matoušek, Datamind, datamining


Působí to na mě, že pro kvalitní data mining, který opravdu pomůže ke kýženému výsledku, musí člověk rozumět mnoha věcem a dávat si je do souvislostí. Je to tak? Co všechno musí dobrý data miner ovládat?
Pro dobrého data minera se vžilo označení „data scientist“. Původně šlo o nedostižný ideál člověka, který umí velmi dobře statistiku, programování a ještě má business vzdělání na úrovni kvalitního MBA. Postupně se z tohoto vysokého standardu slevovalo a dnes má každá banka desítky „data scientistů“ nižší úrovně, kteří umí data mining jen uživatelsky a k businessu nějakým způsobem přičichli. Přišlo se na to, že kombinace obchodního génia, statistika a programátora je v přírodě pořád ještě vzácná.

Čistě teoreticky. Kdybych se rozhodl, že se ve své firmě začnu věnovat data miningu, doporučil bys mi využít externích služeb, nebo hledat přímo specialistu, kterého bych zaměstnal?
Doporučujeme každému začít s expertní firmou jako je náš Data Mind. V první fázi to ušetří spoustu pokusů a omylů. Vývoj vlastních oddělení je značně dražší a doporučujeme ho až poté, co jsou nastaveny základní procesy uvnitř firmy tak, aby analytické oddělení uživila. Tou dobou už musí být marketing schopný pracovat se segmenty a posílat do světa více různých sdělení paralelně. Důležitá je také technologická vyspělost firmy. Není příliš šťastné mít jednoho interního data minera, protože osamocený „expert“ pohřebený v korporátu se toho moc nového nenaučí a časem se dostane do smyčky rutiny. Životaschopným způsobem je tedy začít s externím data miningovým týmem a časem začít budovat vlastní interní tým s experty i výkonnými pracovníky.

Několik výzkumných zpráv a analýz jsem v rámci studia také přečetl, proto vím, že některé studie a analýzy je nutné brát s nadhledem a číst je kritickým okem. Nemůže se stát, že by specialista na data mining byl odtržen od reality? Myslím tím, že by přehlédl nějaké souvislosti, případně si nějaká data špatně interpretoval, a přitom by si nevšiml, že je něco špatně. I když by ostatní měli podezření.
Existují dobrá jablka a špatná jablka. Ostré a tupé nože. S analytiky je to stejné, někteří jsou dobří a jiní špatní.

Jakou budoucnost předpovídáš oboru data miningu a zpracovávání dat? Může se v tom nějak projevit tendence legislativního omezování internetu?
Nyní zažíváme boom a moc nevidím jeho konec. Data jsou a budou důležitým orientačním bodem pro vlády, politiky a zejména pro firmy. Z firem nejvíce pro ty z nové ekonomiky. Takže co se týče využití dat, jsem naprosto klidný. Jiný názor mám na desítky nafouknutých a přefinancovaných „start-upů“, které jsou založené na „umělé inteligenci“. Některé přežijí, jiné skončí. Nadšení investorů však bude krotit odliv levných peněz i reálné zkušenosti s tím, že datová oblast negarantuje zisk pro každého. Co se týče nových směrnic na ochranu dat uživatelů, aktuální nařízení EU, GDPR je docela velký zásah do fungování všech firem. Co jsem z ní četl, nezakazuje data mining, jen omezuje nakládání s osobními údaji. Rámcově smysl dává, protože regulace v oblasti dat je nutná. Některá opatření budou však pro firmy velice bolestivá a neefektivní, například nově povinná pozice „pověřence pro osobní údaje“.  A ještě jiná ustanovení budou zastaralá dříve, než dosáhnou platnosti. Například prohlášení IP adresy za osobní údaj mělo možná nějaký smysl kolem roku 1998, kdy to byl hlavní způsob identifikace lidí na internetu. Do legislativy se ovšem IP adresa jako osobní údaj dostane až v roce 2018, kdy je tento způsob identifikace velmi zastaralý a v zásadě se již nepoužívá, protože ho nahradily efektivnější způsoby.

Osobně nemám rád, když o mně kdokoliv sbírá jakékoliv informace. O to míň, když je to stát. Nemůže nás moderní technologie a přístupy k získávání, třídění a analyzování dat zavést až k další totalitě? K plošnému sledování lidí, zneužívání informací a represím?
Informace a politická totalita nejsou dokonale korelovány. Je například známo, že vláda USA operuje největším špehovacím aparátem na světě. Přesto ji málokdo pouvažuje za méně demokratickou, než vládu v Zimbabwe, která o svých lidech neví skoro nic.

Je vůbec možné z tohoto rozjetého vlaku vystoupit? Co bych měl udělat, abych za sebou nechával co nejmenší informační stopu?
Pokud používáš služby, kdy část soukromí vyměňuješ za nějakou funkcionalitu, těžko se sledování zbavíš. Používání Googlu či Facebooku je obchod – tvoje data za jejich služby. Spoustu dat pro operátory s sebou nese i pouhé používání „hloupého“ mobilního telefonu, o smartphonech vůbec nemluvě. Pokud bys tedy chtěl žít zcela bez datové stopy, budeš se muset vzdát nejen internetu, telefonie a bankovních služeb, ale i své občanské identity. Takovou věc již není snadné provést a ani to není legální. V zásadě lze říci, že nejmenší datovou stopu má bezdomovec postrádající občanský průkaz, protože tomu datově zbývá jen poslední adresa a záznam v matrice.

Abychom neskončili jen u černých scénářů. Pomocí obrovských balíků dat se daří vyvíjet nové technologie, které mnoha lidem pomáhají. V posledních dnech rezonuje v médiích zejména problematika zmíněných neuronových sítí. Pokud se nepletu, obdobný mechanismus nově používá také překladač od společnosti Google. Pokroky jsou na tomto poli poměrně velké. Myslíš, že jednoho dne budeme mít podobný překladač jako ve Star Treku? Kdy zhruba bychom se mohli této doby dočkat?
Na poslední konferenci machine learningu v Praze se prezentovala 95% úspěšnost v rozpoznání lidského hlasu. Technologie překladů je také rozumně přesná a hodně rychle se učí. Univerzální překladač ze „Star Treku“ tak nejspíš budeš mít ve svém mobilu někdy v dekádě 2020 - 2030.

Honzo, děkuju za přínosné informace. Přeju ti, ať se daří. A doufám, že nám v budoucnu ještě něco zajímavého řekneš. Měj se hezky.
 

Tyto webové stránky používají k poskytování svých služeb soubory Cookies. Používáním těchto webových stránek souhlasíte s použitím souborů Cookies.
Nastavení Souhlasím
Souhlas můžete odmítnout zde.
×
Nastavení cookies

Zde máte možnost přizpůsobit soubory cookies dle kategorií, jak vyhovují nejlépe Vašim preferencím.

Technické cookies

Technické cookies jsou nezbytné pro správné fungování webové stránky a všech funkcí, které nabízí a nemohou být vypnuty bez zablokování funkcí stránky. Jsou odpovědné mj. za uchovávání produktů v košíku, přihlášení k zákaznickému účtu, fungování filtrů, nákupní proces nebo ukládání nastavení soukromí. Z tohoto důvodu technické cookies nemohou být individuálně deaktivovány nebo aktivovány a jsou aktivní vždy

Analytické cookies

Analytické cookies nám umožňují měření výkonu našeho webu a našich reklamních kampaní. Jejich pomocí určujeme počet návštěv a zdroje návštěv našich internetových stránek. Data získaná pomocí těchto cookies zpracováváme anonymně a souhrnně, bez použití identifikátorů, které ukazují na konkrétní uživatelé našeho webu. Díky těmto cookies můžeme optimalizovat výkon a funkčnost našich stránek.

Preferenční cookies

Preferenční cookies umožňují, aby si webová stránka zapamatovala informace, které mění, jak se webová stránka chová nebo jak vypadá. Je to například Vámi preferovaný jazyk, měna, oblíbené nebo naposledy prohlížené produkty apod. Díky těmto cookies Vám můžeme doporučit na webu produkty a nabídky, které budou pro Vás co nejzajímavější.

Marketingové cookies

Marketingové cookies používáme my nebo naši partneři, abychom Vám dokázali zobrazit co nejrelevantnější obsah nebo reklamy jak na našich stránkách, tak na stránkách třetích subjektů. To je možné díky vytváření tzv. pseudonymizovaného profilu dle Vašich zájmů. Ale nebojte, tímto profilováním zpravidla není možná bezprostřední identifikace Vaší osoby, protože jsou používány pouze pseudonymizované údaje. Pokud nevyjádříte souhlas s těmito cookies, neuvidíte v reklamních sděleních obsah ušitý na míru Vašim zájmům.

DALŠÍ ČLÁNKY