English

Open source nástroje a data mining

Autor: Nikola Kaspříková, pondělí, 8. únor 2010

Na odborných konferencích nebo při své data miningové praxi se setkávám s otázkami na možnosti využití open source softwarových nástrojů pro data mining v podnikovém prostředí. Tazatelé někdy vyslovují názor, že nekomerční software umožňuje tvorbu lepších modelů než mnohé komerční produkty. Aniž bych se pokoušela o důkladný rozbor problematiky výběru softwaru, uvedu k tomu několik poznámek.


Nejprve trochu ideologický komentář k pojmům open source a data mining.

Open source...

Kategorie komerční, nekomerční, bezplatný, open source, v licenci GPL a podobně mohou být v poněkud složitějších vztazích, než se může na první pohled zdát. Zjevně například může existovat nekomerční software (ve smyslu oprávněně získaný a použitelný bezplatně), který není open source nebo není přístupný úpravám a dalšímu šíření.

Výhodou open source software je především možnost do detailu se seznámit s algoritmy implementovanými v programu a v případě, že to licenční podmínky dovolují, často i možnost program dále podle potřeb upravovat a třeba i dále šířit. Například pro marketingové aplikace ale možná toto není tolik podstatné.

...a data mining

A co vlastně má znamenat data mining? Podle některých názorů takový pojem dokonce ani není opodstatněný: už dávno před tím, než se objevil pojem data mining (a kdy to vlastně bylo - snad to nebyl výsledek nějakého grantu Evropského společenství, v rámci kterého si několik větších firem připravilo část své propagační strategie, když dalo dohromady jakousi metodologii), tu bylo modelování, předpovídání nebo (volitelně statistická) analýza. Pojem data mining je podle některých bezobsažný, čistě marketingový koncept a pokud se cítíme býti Data Minery, tak bychom se mohli dostat do potíží.

Pokud někdo mluví o data miningu, často tím rozumí data mining v užším slova smyslu - už například příprava dat do procesu data miningu v tomto případě zahrnuta není, resp. na praktické aspekty přípravy dat nejsou až tolik sledované. Takové pojetí není výjimečné u zastánců open source nástrojů oblíbených v akademickém prostředí a mnohé akademické nástroje jsou prostředky méně přívětivými z hlediska přípravy dat. V jiném chápání může být data mining rozsáhlejší proces, některé jeho části potom mohou být podporovány softwarovými nástroji.

Požadavky na data mining software

Od kvalitního nástroje pro analýzy zahrnující analýzy dat očekávám vedle dalšího kvalitní podporu základního průzkumu a popisu dat - nějaké předběžné analýzy, výstup modelování snadno použitelný pro skórování,bez nutnosti převádět data do nějakého specifického prostředí, resp. formátu.
Myslím, že speciálně třeba v marketingových aplikacích nemá cenu mimořádně vysoce hodnotit přesnost vyvinutého modelu.

Často je vhodnější nějaký robustní a čitelný model. Mimochodem, když se diskutuje o "lepším modelu" - jaký to vlastně je? V praktických situacích nemusí být vhodné se snažit o "technicky dokonalý" model, viz například text Classifier Technology and the Illusion of Progress od Davida Handa.

Podstatným kritériem pro hodnocení analytického softwarového prostředí jsou požadavky na míru automatizace při jeho využívání. Některý program může být vhodnější pro méně poučenou nebo méně snaživou obsluhu, jiný program může být vhodnější pro kvalitního modeláře navíc s množstvím volného času.

Při výběru dodavatele i jiných než data miningových programů je dobrou praxí zkusit odhadnout, jaké jsou perspektivy z hlediska podpory a vývoje včetně oprav chyb. Přitom není zcela jasné, jestli je z tohoto pohledu výhodnější produkt velkého komerčního dodavatele nebo úspěšný a hojně využívaný open source nástroj.

Velmi dobře si pamatuji na rozhovor s panem ředitelem společnosti SPSS ČR o výhodách a nevýhodách open source (implicitně nekomerčních) nástrojů. Argumentem pro placené produkty měla být záruka podpory produktu. Nedlouho poté nám přišel do firmy, kde jsme měli licenci programu SPSS AnswerTree, dopis s roztomilým sdělením, že produkt již dodavatelskou firmou nebude dále vyvíjen a podporován a pokud se chce někdo dále věnovat pěstování stromků, může si zkusit koupit nějaký modul do statistického softwaru SPSS.

Když se pokusím o nějaký souhrn, tak při hodnocení, případně výběru softwarového produktu je myslím vhodné co nejpřesněji definovat požadavky a zvážit technické, personální a finanční možnosti prostředí, ve kterém by řešení mělo fungovat.

Pohled na trh

Z open source nástrojů mám v oblibě R, ale to je spíše prostředí pro výpočty a statistickou analýzu, případně tvorbu kvalitních grafických výstupů. Je to pro mě příjemný vysokoúrovňový programovací jazyk, k industrializovanému data miningu se R i podle autorů prostředí tolik nehodí. Pěkná diskuze vlastností a některých omezení R je dostupná v dokumentu Ross Ihaka, Duncan Temple Lang: Back to the Future: Lisp as a Base for a Statistical Computing System.

Z komerčních nástrojů pro data mining mne zaujal KXEN, byť nepatří k univerzálním nástrojům pro analýzu dat. Myslím, že ve větších společnostech se běžně pracuje s více analytickými programy najednou. Tím se dostáváme k otázkám výběru softwaru ve firmě a k tomu, jak se u toho lidé chovají, což je asi zajímavé téma (a bylo by možná ještě zajímavější uvažovat vlastnosti výběrových řízení v institucích rozdělujících takzvané "veřejné finance"), ale pro jinou úvahu.

Kdo je v současnosti a kdo bude v blízké nebo vzdálenější budoucnosti leaderem trhu v oblasti data mining softwaru? Které firmy jsou tradičními výrobci a jaký je jejich vztah k dodavatelům databázových řešení? Když si vybavím nedávnou akvizici společnosti SPSS firmou IBM, tak možná už těch samostatných "tradičních výrobců" tolik nezbylo. Vedle toho společnost SAS se tuším prezentuje i jako dodavatel datových skladů a BI řešení, což jsou prostředky založené na databázových technologiích.

Se zájmem sleduji, jak se poskytovatelé databázových systémů a řešení business intelligence účastní dění v oblasti modelování. Například společnost Microsoft má zřejmě již dlouho silný tým výzkumníků například v oblasti grafických modelů a tyto technologie integruje do svých produktů. Teradata vstoupila do technologického partnerství se společností SAS, předpokládám poté, co vlastní řešení Teradata Warehouse Miner nesplnilo některá očekávání. Společnost IBM si koupila firmu SPSS předpokládám především pro jiné účely než rozvoj řešení na zpracování dat z dotazníkových šetření.

Každopádně v prostředí s velkým objemem dat k analýzám bývá žádanou vlastností analytické zpracování dat přímo v databázi (in database) bez přetahování velkého množství dat třeba z datového skladu (resp. primárního datového úložiště) do nějaké aplikační databáze analytické aplikace.

Blog
Oblíbené
201720162015201420132012201120102009
Zpět na hlavní menu
Slovníček:

 

Kontakt:

Data Mind s.r.o.

Telefon: +420 720 705 639, +420 220 386 449
E-mail: info@datamind.cz
Sídlo: U Průhonu 22 / 466, Praha 7 – Holešovice, 170 00
IČO: 28953789

face.png, 26 kB Mgr. Jan Matoušek

Telefon: +420 720 705 639
E-mail: jan.matousek@datamind.cz


linkedin.com
Napište nám vzkaz:
captcha