Data Mining neboli získávání znalostí z databází již není jen doménou velkých firem. Pokročilé datové služby si nyní může dovolit každý. Přinášíme čtenářům našeho blogu nezkrácený rozhovor o data miningu, který se odehrál dnes na facebooku. Autorem otázek je Robert Vlach - expert na podporu podnikání. Odpovědi zajišťoval Jan Matoušek, data miner a podnikatel v tomto oboru. Přeji příjemné čtení.
Honzo zdravím.
Dobrý den Roberte.
Jako laik si pod dolováním dat představím získávání nových informací ze stávajících souborů dat. Chápu to správně?
Ano, jde o získávání něčeho, čemu říkáme akční znalost. To znamená, že naše práce končí, když místo mrtvého datového skladu máte znalosti, co komu prodat, a kolik různých typů zákazníků s jakými charakteristikami obsluhujete. Aby byla znalost akční, přiřazujeme k jednotlivým koncovým zákazníkům jejich profily – segmenty, a pravděpodobnosti nákupu různých věcí.
Co od Vás firmy nejčastěji požadují? Jak vypadá typická zakázka?
Typickou zakázkou je například analýza nákupního košíku. Při ní se díváme na souvislosti mezi produkty, a doporučujeme zákazníkům zboží, které souvisí s tím, jež právě prohlížejí. Podobně jako amazon pak dokážete doporučit svým zákazníkům příslušenství, doplněk, nebo jinou související položku v katalogu.
Většinu čtenářů by asi nyní zajímalo, kolik taková služba stojí? Jaká je například Vaše hodinová sazba?
Hodinové sazby jsou v rozmezí 600-1250 Kč. Typický projekt stojí od 10.000 Kč do 100.000 Kč. Ceny jsou nastaveny jako znatelně nižší, než mají konkurenti v oboru. Podstatnější než absolutní cena je ale návratnost vložených prostředků, která je obvykle několikanásobná.
Jak vypadá výstup práce data-minera? Porozumí prezentaci výsledků i laický zadavatel?
Ano, součástí naší práce je doručit výsledek těm, kdo si ho objednali, ve srozumitelné podobě. Management musí výsledky pochopit, a věřit jim. To je podmínkou dalšího použití výsledků uvnitř firmy, nelze proto vysvětlování přeskočit ani vynechat.
Oblast dolování dat je velmi specifická. Kolik máte v Česku konkurentů a jak těžké je získávat zakázky?
Velké konkurenty můžete spočítat na prstech ruky, malých je o něco více. Cestou, jak získávat zakázky u velkých firem, jsou dohody s jinými firmami, které doručují ostatní části marketingové komunikace. Druhou cestou je rozšiřování trhu o střední firmy, které zatím data mining nemají.
Hádám, že většina zákazníků je na svá data citlivá. Přenášíte data k sobě, a pokud ano, jak jsou zabezpečena?
Ano, u většiny projektů je praktické data přenést k nám. Pro přenos dat používáme šifrovací programy, takže data při přenosu nemůže nikdo zachytit ve srozumitelné podobě. Data jsou u nás opět uložena na šifrovaných discích, takže v případě krádeže hardwaru jsou opět pro zloděje nepoužitelná. Data pro data mining obvykle neobsahují žádné osobní údaje typu jméno, email apod., takže je nelze využít jinak než ve spojitosti s databází klienta.
Dostává zákazník nějakou smluvní garanci, že jeho data nebudou kompromitována?
Zákazníci obvykle požadují smluvní garance o důvěrnosti dat a předaných informací. Poslední dobou tuto smluvní garanci nabízíme aktivně.
V našem katalogu navolnenoze.cz je mnoho expertů z různých oborů. Pro které z nich může být data miner užitečný jako smluvní partner či subdodavatel?
Jako vitální se ukazuje spojení s experty na přímý marketing a reklamu. Řekl bych, že provozovat marketing bez čísel a měření je nesmysl. Můžete spustit kampaň, ale neznáte její výsledek nad jednotlivými komunikačními kanály, tím pádem v delším horizontu přicházíte o peníze. Pokud neznáte své zákazníky a souvislosti mezi produkty, taktéž přicházíte o finance. Marketéři nás tedy potřebují, a naopak naše služby se neobejdou bez funkčního marketingu, interního nebo externího.
Vedle toho pro neziskový sektor děláme průzkumy potřebnosti jejich služeb a audity jejich fungování. Je příjemné si občas odpočinout od přísné logiky financí a zkoumat na chvíli něco „obecně prospěšného“.
Informatiky by možná zajímalo, s jak velkými soubory dat umíte pracovat? Terabajty, petabajty, exabajty? :)
Normální česká firma si vystačí s gigabajty dat (:-). Pouze největší giganti na českém trhu mají jeden nebo několik terabajtů. Ovšem jak je dnes extrémně levné terabajt uložit, je pořád extrémně drahé provozovat terabajtovou databázi tak, abyste dostával odpovědi na své dotazy v řádu sekund. Pro účely data miningu je vhodné si z extrémně velkých databází udělat vzorek, na kterém se znalosti vytvoří a pak aplikují zpět na velkou databázi.
V Čechách tedy neexistuje soubor dat, se kterým bychom nedokázali efektivně pracovat kvůli jeho velikosti. Občas si „nesportovně“ pomůžeme vytvořením vzorku dat v nějaké výpočetně náročné fázi. Cílem naší činnosti není totiž roztočit zbytečně co nejvíce pevných disků, ale naopak doručit znalosti v rozumné době.
A poslední otázka: Můžete uvést nějaký případ z vlastní praxe, který byl něčím výjimečný, kuriózní nebo jinak zajímavý?
Stává se, že odhalíme vzorec chování, který nikdo nehledal. Například z rutinního vyhodnocení spotřebitelské soutěže se jednou stala detektivka, když jsem zjistil, že určití uživatelé dokážou obejít všechny kontrolní mechanismy této soutěže, a generovat falešné body, které ovšem vedly ke zcela reálným výhrám. Odhalení vedlo management k okamžitému zpřísnění kontrolních mechanismů soutěže.
Honzo díky za zajímavý rozhovor. Věřím, že to pomohlo přiblížit Vaši práci širší veřejnosti, ať se daří!
Díky za příležitost a za skvělé otázky.
Doplňující otázky můžete Janu Matouškovi položit přímo sem do diskuse.
DATA mesh
Šárka Kotlaříková
24. června 2024