"Istenben hiszünk, minden máshoz adat szükséges” (W. Edwards Deming, statisztikus)
Az utóbbi hetekben több helyről is megerősítést nyert az a régi ötletem/vágyam, hogy érdemes elindítsam ezt a (főként) szakmainak szánt, az adatelemzés témakörével foglalkozó blogot.
Nagyon sok területen/iparágban tapasztalható az, hogy egy (szerencsésebb esetben még csak) tervezett, vagy (kevésbé szerencsés helyzetben) már futó (adatelemzési) projektben nem elégendően jól definiáltak a projekt (adatelemzési) célok.
A legrosszabb eset pedig akkor fordul elő, amikor egy már lezárult, befejezett projekt eredményeinek a publikálása után derül csak ki (akár harmadik fél által), hogy sem a célok, sem az azok eléréséhez szükséges elemzés és az elemzéshez felhasznált adatok nem voltak megfelelőek. Az ilyen hibák következményei pedig akár nagyon súlyosak is lehetnek, s nem csak gazdasági/pénzügyi értelemben véve (lásd pl. a legutóbbi MRI-s esetet).
Mi lehet ennek az oka, hol következik be az első hibázás?
Véleményem szerint az első hiba ott és akkor következik be, amikor nem mérik fel jól és nem gondolják át kellő alapossággal (előre, még a projekt tervezési fázisban), mi az a hatás (vagy hatás nagyság), amit egy elemzés során egyáltalán elemezni akarnak.
Itt sokakban felmerülhet az a reakció/válasz, hogy ok, rendben ez mind igaz és valóban fontos is rá odafigyelni, de csak a statisztikai elemzések során, a modern adatelemzés során más ismeretek fontosabbak.
Erre egyrészt azt mondom, hogy önmagában már az is szomorú, hogy kutatásban dolgozó tudós kollégák milyen módon használják, vagy épp csak próbálják használni a statisztika eszköztárát egy-egy elemzéshez (egy remek összefoglaló tanulmány olvasható erről).
Másrészt pedig nem igaz az, hogy manapság már nincsen szükség statisztikai tudásra, vagy ahogy egy külföldi szakmai portálon megfogalmazták: igaz az, hogy a statisztika halott?
Véleményem szerint a válasz egyértelműen a nem, mivel pont a hatások mérése, becslése az, amely adatot biztosíthat számunkra már a tervezés során is (legyen pl. az akár egy kísérlet megtervezése, az ún. elemszám meghatározás lépéssel együtt, vagy pl. egy "klasszikus" adatbányászati feladat, egy szegmentálás, ahol az egyes szegmensek közti különbség mértéke, mint figyelembe veendő hatás szintén kezelendő dolog).
S, hogy ne vakon kelljen repülni már a projektek tervezése során sem, a statisztika adhat a kezünkbe eszközöket, amelyeket jól használva, már nem hitkérdés, hogy egy kísérletben igazolható-e egy feltevésünk, vagy hogy egy szegmentálás során lesznek-e jól (üzletileg is) használható szegmenseink.
Folyt. köv.