Nejednou jsem byl požádán o pomoc ve věci výběru statistického softwaru. Protože se v oblasti statistiky a data miningu pohybuji již více než 12 let, chtěl bych se na blogu podělit o jednu či dvě zajímavosti v oblasti statistického softwaru. Budu se věnovat především SPSS, Statistice, NCSS a R-ku.
První věc, ve které musíme mít jasno, pokud se chystáme vybírat jakýkoli software, je že investice se neskládá pouze z nákupu licence.
U opensource softwarů je cena vlastnictví většinou tvořena hodinami práce, kterou nám zabere, než se naučíme software používat. Rčení „nechci slevu zadarmo“ se velmi dobře hodí právě na opensource. Ačkoli s tímto typem softwaru intenzivně pracuji mnoho let, nezdá se být právě zdarma, co se týče nákladů na lidské zdroje. Učení se takovému softwaru, který sice pracuje s otevřenými standardy, ale příliš neohlíží na průměrného uživatele, je výhodné jen pro někoho a v některých situacích.
Ani u komerčního softwaru nekončí ovšem náklady nákupem licencí. Některé nestandardní licenční smlouvy představují silný závazek společnosti. Vazba na konkrétní hardware zase představuje náklady na správu takového zabezpečení.
Zastavme se u softwaru, který je v českých luzích a hájích zastoupen ve větším než malém množství, čili u dominantních dodavatelů software. Dále zmíním některé alternativy, které jsou levnější, zdarma, nebo umí něco, co komerční software neumí. Z velkých dodavatelů záměrně vynechávám SAS, se kterým jsem dosud nenasbíral dostatek zkušeností.
Společnost SPSS, v posledním roce několikrát přejmenovala svoji vlajkovou loď v oblasti statistického softwaru. Z SPSS se tak stal PASW Statistics a po akvizici společností IBM nejnověji IBM SPSS Statistics. Co se však nezměnilo, je převaha tohoto softwaru na českém trhu. SPSS má jednoznačné přednosti před ostatním software hned v několika oblastech. Zaprvé se soustředí na uživatele. To neznamená v podání SPSS pouze několik klávesových zkratek, ale skutečný důraz na efektivitu a rychlost zpracování dat. Velice funkční je možnost používat Syntax, jednoduchý a přístupný skriptovací jazyk. Pro uživatele, kteří mají v oblibě klikání, je tento software nicméně také velice přístupný a doplňuje ho vysoce funkční nápověda. Výhodou SPSS je i spolupráce s firemními databázemi, která je na vysoké úrovni. Případné kupce může odradit vyšší cena, která se odvíjí od počtu modulů (funkcí) které budete požadovat. Běžná společnost totiž obvykle nevystačí se základní modulem Base a musí dříve či později dokoupit minimálně možnost vytváření složitějších tabulek. Cena za jednu licenci se pak v běžných firmách pohybuje v rozmezí 60.000 – 100.000 Kč. Data Mind jako partner IBM má právo prodávat licence k software SPSS. Více o tomto software zde.
Klady:
Zápory:
Konkurentem SPSS je Statistica. Co se týče statistických funkcí, najdeme zde téměř vše, co můžeme v denní praxi potřebovat. Uživatelské prostředí může být velmi příjemné běžným uživatelům MS Office, protože v nejnovější verzi kopíruje jeho panely nástrojů. Tradiční výhodou Statistiky oproti SPSS jsou grafické funkce. Statistica také boduje ve srovnávacích testech statistického software, protože obsahuje všechny myslitelné funkce. Cenově může být mírně levnější než SPSS, zejména s dodatečnými moduly. Nevýhodou je menší rozšířenost v České republice, a tedy i menší možnost sdílet práci. Statistica má české zastoupení ve firmě Statsoft.
Klady:
Zápory:
NCSS je zajímavou alternativou z hlediska počtu funkcí a ceny, která je oproti konkurenci méně než poloviční. Funkcí je zde opravdu mnoho a jsou zaměřeny na uživatele, kteří používají základní tabulky i pokročilou statistiku. Již méně je nástroj vhodný pro dennodenní operativu a zaostává v rychlosti automatizace. Velmi kvalitní je ovšem nápověda, která je zpracovaná v několika velmi vhodných podobách. Přímo v dialozích tak již uvidíme velmi účinnou nápovědu. Zakoupit je nutné přímo u autorů v USA (www.ncss.com).
R- je spíše výpočetní prostředí než statistický software, a milují ho lidé, kteří musí vidět pod pokličku toho, co dělají. Ti, kdo s ním umí, říkají, že v něm lze udělat vše. Výhodou je samozřejmě, že je zadarmo, a lze proto velmi přizpůsobit vašim potřebám. Nevýhodnou je pomalá „křivka učení“. V poslední době R respektují kromě vývojářů open-source řešení i komerční firmy, které nabízejí statistický software, a mnoho výrobců software se snaží nají s R společnou řeč, neboli rozhraní.
http://www.kdnuggets.com/software/index.html
- Seznam mnoha statistických balíčků i balíčků pro data mining.
http://en.wikipedia.org/wiki/Comparison_of_statistical_packages
- Porovnání funkcí statistických balíčků – velmi užitečná analýza funkcí software.
http://www.spss.com/ -
- Stránky dominantního komerčního výrobce SPSS, možnost stažení zkušební verze SPSS
http://www.r-project.org/
- Stránky nejznámějšího statistického software zadarmo -projektu R.
Tento článek je pouze subjektivním shrnutím zkušeností práce se statistickým software. Není tedy oficiální informací výrobců. Některé poznatky jsou založeny pouze na zkušebních verzích nebo neaktuálních verzích a mohou tak být zastaralé. S výběrem softwaru vám rádi poradíme, pokud nás budete kontaktovat. Výrobci software nás mohou kontaktovat s žádostí o upřesnění.
Toto je článek Data Mind s.r.o.
Data Mind s.r.o. se specializuje na analýzy dat, data mining a marketingové analýzy. Naším posláním je poskytovat analýzu a řešení všech otázek spojených s CRM, obsluhou zákazníka. Měříme a sledujeme loajalitu zákazníků i zaměstnanců. Orientujeme se na poznání zákazníků, vyhodnocování a optimální cílení komunikace.
DATA mesh
Šárka Kotlaříková
24. června 2024