English

Statistický software - jak na výběr statistického software

Autor: Jan Matoušek, pátek, 2. duben 2010

Nejednou jsem byl požádán o pomoc ve věci výběru statistického softwaru. Protože se v oblasti statistiky a data miningu pohybuji již více než 12 let, chtěl bych se na blogu podělit o jednu či dvě zajímavosti v oblasti statistického softwaru. Budu se věnovat především SPSS, Statistice, NCSS a R-ku.

 

Cena vlastnictví není cena softwaru

První věc, ve které musíme mít jasno, pokud se chystáme vybírat jakýkoli software, je že investice se neskládá pouze z nákupu licence.
U opensource softwarů je cena vlastnictví většinou tvořena hodinami práce, kterou nám zabere, než se naučíme software používat. Rčení „nechci slevu zadarmo“ se velmi dobře hodí právě na opensource. Ačkoli s tímto typem softwaru intenzivně pracuji mnoho let, nezdá se být právě zdarma, co se týče nákladů na lidské zdroje. Učení se takovému softwaru, který sice pracuje s otevřenými standardy, ale příliš neohlíží na průměrného uživatele, je výhodné jen pro někoho a v některých situacích.
Ani u komerčního softwaru nekončí  ovšem náklady nákupem  licencí. Některé nestandardní licenční smlouvy představují silný závazek společnosti. Vazba na konkrétní hardware zase představuje náklady na správu takového zabezpečení.

Dominantní a ti druzí

Zastavme se u softwaru, který je v českých luzích a hájích zastoupen ve větším než malém množství, čili u dominantních dodavatelů software. Dále zmíním některé alternativy, které jsou levnější, zdarma, nebo umí něco, co komerční software neumí. Z velkých dodavatelů záměrně vynechávám SAS, se kterým jsem dosud nenasbíral dostatek zkušeností.

Vládce trhu – SPSS (IBM SPSS Statistics, PASW Statistics)

Společnost SPSS, v posledním roce několikrát přejmenovala svoji vlajkovou loď v oblasti statistického softwaru. Z SPSS se tak stal PASW Statistics a po akvizici společností IBM nejnověji IBM SPSS Statistics. Co se však nezměnilo, je převaha tohoto softwaru na českém trhu. SPSS má jednoznačné přednosti před ostatním software hned v několika oblastech. Zaprvé se soustředí na  uživatele. To neznamená v podání SPSS pouze několik klávesových zkratek, ale skutečný důraz na efektivitu a rychlost zpracování dat. Velice funkční je možnost používat Syntax, jednoduchý a přístupný skriptovací jazyk. Pro uživatele, kteří mají v oblibě klikání, je tento software nicméně také velice přístupný a doplňuje ho vysoce funkční nápověda. Výhodou SPSS je i spolupráce s firemními databázemi, která je na vysoké úrovni. Případné kupce může odradit vyšší cena, která se odvíjí od počtu modulů (funkcí) které budete požadovat. Běžná společnost totiž obvykle nevystačí se základní modulem Base a musí dříve či později dokoupit minimálně možnost vytváření složitějších tabulek. Cena za jednu licenci se pak v běžných firmách pohybuje v rozmezí 60.000 – 100.000 Kč. Data Mind jako partner IBM má právo prodávat licence k software SPSS. Více o tomto software zde

Klady:

  • Vysoká efektivita
  • Uživatelská přívětivost
  • Dokonalý systém nápovědy
     

Zápory:

  • Vyšší cena 
  • Relativně striktní licenční politika
  • Vyšší nároky na hardware (od verze 16)
     

Statistica

Konkurentem SPSS je Statistica. Co se týče statistických funkcí, najdeme zde téměř vše, co můžeme v denní praxi potřebovat. Uživatelské prostředí může být velmi příjemné běžným uživatelům MS Office, protože v nejnovější verzi kopíruje jeho panely nástrojů. Tradiční výhodou Statistiky oproti SPSS jsou grafické funkce. Statistica také boduje ve srovnávacích testech statistického software, protože obsahuje všechny myslitelné funkce. Cenově může být mírně levnější než SPSS, zejména s dodatečnými moduly. Nevýhodou je menší rozšířenost v České republice, a tedy i menší možnost sdílet práci. Statistica má české zastoupení ve firmě Statsoft.

Klady:

  • Velice komplexní funkce a grafy
  • Uživatelská přívětivost
  • Úzká integrace s MS OFFICE
     

Zápory:

  • Není tolik zaměřena na produktivitu
  • Nižší rozšíření než SPSS
     

NCSS

NCSS  je zajímavou alternativou z hlediska počtu funkcí a ceny, která je oproti konkurenci méně než poloviční. Funkcí je zde opravdu mnoho a jsou zaměřeny na uživatele, kteří používají základní tabulky i pokročilou statistiku. Již méně je nástroj vhodný pro dennodenní operativu a zaostává v rychlosti automatizace. Velmi kvalitní je ovšem nápověda, která je zpracovaná v několika velmi vhodných podobách. Přímo v dialozích tak již uvidíme velmi účinnou nápovědu. Zakoupit je nutné přímo u autorů v USA (www.ncss.com).

R

R- je  spíše výpočetní prostředí než statistický software, a milují ho lidé, kteří musí vidět pod pokličku toho, co dělají. Ti, kdo s ním umí, říkají, že v něm lze udělat vše. Výhodou je samozřejmě, že je zadarmo, a lze proto velmi přizpůsobit vašim potřebám. Nevýhodnou je pomalá „křivka učení“. V poslední době R respektují kromě vývojářů open-source řešení i komerční firmy, které nabízejí statistický software, a mnoho  výrobců software se snaží nají s R společnou řeč, neboli rozhraní.

Další užitečné zdroje

http://www.kdnuggets.com/software/index.html
- Seznam mnoha statistických balíčků i balíčků pro data mining.

http://en.wikipedia.org/wiki/Comparison_of_statistical_packages
- Porovnání funkcí statistických balíčků – velmi užitečná analýza funkcí software.

http://www.spss.com/ -
- Stránky dominantního komerčního výrobce SPSS, možnost stažení zkušební verze SPSS

http://www.r-project.org/
- Stránky nejznámějšího statistického software zadarmo -projektu R.

Subjektivní názor

Tento článek je pouze subjektivním shrnutím zkušeností práce se statistickým software. Není tedy oficiální informací výrobců. Některé poznatky jsou založeny pouze na zkušebních verzích nebo neaktuálních verzích a mohou tak být zastaralé. S výběrem softwaru vám rádi poradíme, pokud nás budete kontaktovat. Výrobci software nás mohou kontaktovat s žádostí o upřesnění.


Toto je článek Data Mind s.r.o.

Data Mind s.r.o. se specializuje na analýzy dat, data mining a marketingové analýzy. Naším posláním je poskytovat analýzu a řešení všech otázek spojených s CRM, obsluhou zákazníka. Měříme a sledujeme loajalitu zákazníků i zaměstnanců. Orientujeme se na poznání zákazníků, vyhodnocování a optimální cílení komunikace.

Blog
Oblíbené
201720162015201420132012201120102009
Zpět na hlavní menu
Kontakt:

Data Mind s.r.o.

Telefon: +420 720 705 639, +420 220 386 449
E-mail: info@datamind.cz
Sídlo: U Průhonu 22 / 466, Praha 7 – Holešovice, 170 00
IČO: 28953789

face.png, 26 kB Mgr. Jan Matoušek

Telefon: +420 720 705 639
E-mail: jan.matousek@datamind.cz


linkedin.com
Napište nám vzkaz:
captcha