English

Datová kvalita pro zbytek z nás

Autor: Jan Matoušek, středa, 12. březen 2014

O datové kvalitě sice existuje dostatek materiálů, ty jsou však určeny jen akademikům a pár profesionálům za vysokými zdmi korporací. V tomto článku se pokusím problematiku datové kvality přiblížit i zbytku z nás. Nebudeme mluvit o datové architektuře. Toto je článek pouze pro ty, pro něž má slovo „hash“ spíše význam měkké drogy než databázového algoritmu.


Vítejte v informační éře, kde se giganti Microsoft, Google a ostatní předhání v tom, kdo nashromáždí kolik dat. Pokud jsou data tvrdou měnou současnosti, má běžná česká firma dost starostí, aby neměla v kapse jen pár zmuchlaných bankovek. Platit jimi bude při strategických rozhodnutích i při běžné obsluze zákazníků.

Deset zásad datové kvality

Ačkoli v datové oblasti nejsou striktně daná přikázání, určitých zásad se samozřejmě dobrat můžeme. Představíme si jen deset z nich.

1. Datová kvalita je zdarma

Špičkoví konzultanti v datové oblasti tvrdí, že kvalitu dat pořídíme zadarmo. Je to do určité míry pravda, ovšem není to pravda věčná. Kvalitní data si zařídíme zdarma, pokud jsme schopni myslet na kvalitu dat při zavedení prvního datového systému. Když všechno dobře nastavíme, zajistíme si skutečně kvalitní data za stejnou cenu, za kterou má méně poučená konkurence datový zmatek. Sleva na datovou kvalitu se ale poskytuje jen na začátku rozvoje firmy. Pokud řešíme datovou kvalitu v momentě, kdy se nám nashromáždilo 85 různých verzí databáze v 40-ti různých systémech, bude naopak datová kvalita velmi drahá.

2. Kontrolujte data

Ačkoli tohle se zdá jako ta vůbec nejjednodušší věc, není tomu tak. Ve spoustě jinak osvícených firem data prostě nekontrolují. Běžná praxe je o nic se nestarat a řešit kvalitu dat až v případě, že generální s hrůzou zjistí, že neví kolik má zákazníků. Aby se to nestalo, je třeba mít pod kontrolou:

  • Nevyplněné údaje, zejména ty kontaktní
    • Pokud na zákazníka nemáme kontakt, není to vlastně náš zákazník.
  • Nevhodné a nesrozumitelné zkratky
    • Slovo ulice, třída či náměstí se dá například zkrátit příliš mnoha různými způsoby
  • Překlepy
     
  • Příliš stručné nebo příliš obsáhlé záznamy
    • V poli adresa nemá co dělat záznam „vzadu za samoobsluhou“ ani „doma“
  • Záznamy, které padly do špatného pole
    • Toto se týká obvyklého problému, kdy jeden člověk píše do pole pro jméno i příjmení, druhý jen křestní jméno a třetí pro jistotu i akademický titul a jméno za svobodna.

3. Kvalita lidí

Kvalita dat má přímý vztah s kvalitou lidí, kteří je tvoří. Pokud jsou to vaši zaměstnanci, kdo zapisují data, situace je relativně snadná – učiňte je zodpovědnými za kvalitu dat.  Pokud si budou alespoň myslet, že je kontrolujete, budou se trochu snažit. Pokud je budete skutečně kontrolovat, začnou se dít s kvalitou dat skutečné divy. Vhodné je, aby u každého zápisu bylo viditelně uvedeno, kdo ho zapsal. To samo o sobě dost pomůže. U e-shopů tvoří část dat systémy a část zákazníci. Ačkoli si myslíte, že zákazníky již nelze kontrolovat, opak je pravdou. Vhodným nastavením systému registrace můžete ušetřit více než polovinu chyb.

4. Používejte číselníky

Obvykle není nutné, aby každý operátor nebo zákazník datloval zvlášť značky automobilů, nebo města. Na centrálním registru vozidel si myslí opak, a pro značku vozidla používali dlouhá léta volné textové pole namísto seznamu značek. Výsledkem je značka automobilů ŠOA a další šotky. Pokud předem víte, jakých hodnot může zadávaný údaj nabývat, nikdy ho nenechte zapisovat ručně, ale připravte si seznam platných hodnot, ze kterých se bude vybírat. Čas neušetříte jen zadavateli dat, ale i analytikům připravujícím reporty.

Obrázek: Výpis z oficiálního registru vozidel, který používá pro značku vozidla volné textové pole (dodnes volně ke stažení na MVČR)

5. Omezte hodnoty

Poměrně často potkávám v databázích kmety narozené několik set let po Kristovi například v roce 196 či 197. Výjimkou nejsou ani lidé narození po roce 2100, kteří se zřejmě zatoulali z výpravy Návštěvníků. Pokud nefandíte sci-fi ani spiritismu, omezte data na lidských 100 let. Při přechodu na nové systémy vám to ušetří dost starostí. Kandidátů na omezení hodnot je samozřejmě v databázích daleko více. Pokud auto s najetým milionem kilometrů je v reálném světě raritou, ve světě databází jde o celkem běžný překlep. Jakékoli číselné pole, které nemá omezené hranice, má tendenci pomocí překlepů nabývat přímo astronomických hodnot. Byl jsem svědkem, jak jedna taková „menší chybka“ v počtu nul vyřadila z provozu systémy za desítky miliónů. Nereálná hodnota tehdy způsobila společnosti citelné ztráty.

6. Duplikujte je a množte je (nebo vlastně ne)

Je každý zákazník zaregistrován několikrát? Tahle věc má obvykle původ ve špatném nastavení systémů na vstupu. Například, když se každý zákazník registruje při každém svém nákupu znova. Není to jeho chyba, ale chybné nastavení registrace. Ačkoli duplicity v databázích měly vymřít v osmdesátých letech, jsou naživu a daří se jim dobře. Jedna banka mi například nedávno poslala 4x zduplikovanou příchozí platbu, a pak byla nucena zařizovat si opravu.

Obrázek: Typický příklad duplikace zákazníka v e-shopu (Příklad je upraven)

6. Duplikujte je a množte je (nebo vlastně ne)

Tohle je duplicitní titulek. Měli ho smazat, ale editor měl zrovna dovolenou. Možná takhle vypadá i vaše databáze.

7. Dokumentujte data

Nic není tak nudné jako psát o datech, o kterých přece každý ví, co v nich je. Alespoň pět minut po jejich vzniku. Za pět let může být situace jiná. Datovým strukturám může rozumět pár zamračených vyvolených s nespolehlivou lidskou pamětí. Nespoléhejte na jejich dobrou náladu. 

8. Udržujte číselníky

Kromě dokumentace toho, co je v databázi za data, je třeba také udržovat číselníky hodnot a to ve všech jejich stavech k určitému datu. Znamenal nějaký kód v minulosti něco jiného? Pak musíte zaznamenat co přesně znamenal a kdy to bylo, jinak vaše databáze kvapem ztrácí hodnotu.

9. Používejte data

Obvykle ta nejhorší data jsou ta, která nepoužíváte. Teprve používaná data mají nějakou hodnotu pro organizaci. A samozřejmě tam, kde pokulhává použití dat, není velký tlak na zvyšování datové kvality. Typický datový sklad se tak dostává do vzestupné nebo sestupné spirály. Buď se používá a roste tlak na jeho kvalitu, nebo se nepoužívá a jeho kvalita se postupně snižuje k nule. Nepoužívaná data jsou jako auto odložené několik sezon na dvorku, půjdou jen velmi těžko „nastartovat“.

10. Předvídejte, co chtějí zákazníci

Spousta dat ukazuje špatná čísla, či je pro reporting a výkaznictví vysloveně zavádějící. Ještě jsem se ovšem nesetkal s daty, která by se nedala použít pro data mining, čili dolování souvislostí z dat. Při přípravě dat dokážeme většinu chyb obejít a získáme data set, který sice není přesný, ale docela dobře odlišuje jednotlivé zákazníky například podle hodnoty pro firmu. I data se spoustou chyb lze poté použít například pro segmentaci zákazníků a pro určení těch nejhodnotnějších zákazníků, se kterými se vyplatí komunikovat. 

Publikováno v časopise Computer

Blog
Oblíbené
201720162015201420132012201120102009
Zpět na hlavní menu
Kontakt:

Data Mind s.r.o.

Telefon: +420 720 705 639, +420 220 386 449
E-mail: info@datamind.cz
Sídlo: U Průhonu 22 / 466, Praha 7 – Holešovice, 170 00
IČO: 28953789

face.png, 26 kB Mgr. Jan Matoušek

Telefon: +420 720 705 639
E-mail: jan.matousek@datamind.cz


linkedin.com
Napište nám vzkaz:
captcha