Czy kiedy wychodzisz ze swoim psem na spacer, to średnio macie po trzy nogi?

W cukierni wszystkich dyscyplin naukowych statystyka bywa takim spektakularnym ptysiem z kremem, który jest obietnicą najsłodszych partytur wygrywanych na kubkach smakowych, a tak naprawdę to zrobiony został ze śmietany w proszku i jeszcze trzymano go w lodówce obok kiełbasy, więc cały krem smakuje jak stęchła jałowcowa. I widzicie, w takim przypadku nie jest winą ptysia, że został zrobiony z fatalnych składników i nikomu nie przyszłoby do głowy, by owego ptysia zgłosić do prokuratury.

Idąc tym tropem, trudno oczekiwać, że jak sobie zwerbujemy trzy osoby spod sklepu monopolowego i każemy im trzasnąć sudoku, to z takich danych uzyskamy rzetelne wnioski dotyczące IQ całej populacji. Kiedyś jeszcze tłumaczyłam moim studentom, że ta zasada nazywa się garbage in – garbage out; że jak będą analizować liche dane, takie numeryczne śmieci, to wnioski wyciągnięte na tej podstawie będą podobnej, marnej jakości. Niemniej szybko zaprzestałam tej metafory, bo okazało się, że jak mówię o garbage out to im się natychmiast zespół stresu pourazowego włącza, na pamiątkę tego wydarzenia, kiedy to w zeszłe święta matka kazała im wynieść śmieci.

Istnieje również inny sposób mówienia o tym problemie, szalenie rozpowszechniony wśród członków pewnej grupy, która do statystyki ma podobne podejście jak ja do ćwiczeń fizycznych, to znaczy: nie lubię, nie znam się, staram się unikać, niemniej jak trzeba sprawę skrytykować, to pierwsza będę stała z transparentem pod siłownią, że “wolność dla bicepsów o konsystencji maślanych bułeczek!!!!” i “niech żyją nam mięśnie brzucha kruche jak dobrze wypieczona beza!!!!”. Podobnie zachowuje się pewne internetowe plemię, które rozpoznać możemy po bardzo specyficznym zawołaniu, używanym namiętnie we wszelkich dyskusjach dotyczących statystyk, badań czy wykresów. Owo zawołanie wymaga zaawansowanej wiedzy matematycznej (dodawanie, dzielenie), zoologicznej (znajomość anatomii psa), a także medycznej, ze szczególnym wskazaniem ortopedii (rozeznanie w ludzkich kończynach dolnych), a polega na wyjaśnianiu wszystkim dookoła, że statystyka to szalenie głupia nauka, bo według statystyki to, he he, kiedy wychodzisz ze swoim psem na spacer, he he, to średnio mamy po trzy nogi.

I to by się w sumie zgadzało, oprócz tego, że nie.

Zanim jednak wyjaśnię, w czym tkwi błąd, to zaznaczyć chciałam, że takie połączenie statystyki i kynologii już wcześniej zdarzało się w historii nauki. Albowiem nie wiem, czy wiecie, ale Francis Galton, taki miły naukowiec z przełomu XIX i XX wieku, który lubował się w metodach statystycznych i był psychofanem badań kwestionariuszowych, to owszem, on jako pierwszy stworzył teoretyczną koncepcję korelacji i regresji do średniej, ale oprócz tego to zawdzięczamy mu również wynalezienie gwizdka dla psów.

I słuchajcie, gdybyśmy sobie teraz skorzystali z tego wynalazku Galtona i zawołali do siebie jakiegoś psa, i policzyli ile on ma łap, a potem policzyli ile my mamy nóg, a następnie obie wartości zsumowali, a potem podzielili przez liczbę osobników, to wynikiem naszych obliczeń byłaby – po pierwsze – liczba trzy. Po drugie, okropne upokorzenie przed naszym osobistym dalmatyńczykiem. Albowiem w tym krótkim rachunku matematycznym popełnilibyście trzy błędy: jeden dotyczący populacji, drugi dotyczący skali pomiaru i trzeci dotyczący odpowiadającej owej skali miary tendencji centralnej.

  1. Populacja

To jest trochę tak, że gdy przeprowadzamy badanie, na jakikolwiek temat, to wybrać musimy populację badaną, to jest grupę osób (zwierząt, krajów, instytucji…), która w tym naszym naukowym rendez-vous weźmie udział. Wbrew powszechnej opinii, populacja badania nie oznacza „wszystkich ludzi na świecie”, co więcej – nie zawsze musi oznaczać ludzi! To może być określony gatunek nietoperza albo też wszystkie nietoperze zamieszkujące konkretny obszar (na przykład Puszczę Białowieską albo strych babci). To od badacza (i od pytania badawczego) zależy, jak ta populacja zostanie zdefiniowana.  Niemniej populacja “dzieci przedszkolne” to słaby pomysł, to trochę tak, jak gdybyście wysłali swoje dziecko do sklepu po koperek, definiując go “jako coś zielonego z listkami”. Istotne jest, czy będziemy tu mieć na myśli dzieci przedszkolne ze Szwecji, czy z Warszawy, czy też z grupy “Biedronek” jednego konkretnego przedszkola. Czy te, które uczą się nie wychodzić za linię w odpowiednich instytucjach, czy też również dzieci w wieku przedszkolnym, które zostały w domach. A wiecie, dlaczego to ma znaczenie dla naszych kynologiczno-ortopedycznych rozważań?

No bo słuchajcie, ja mam dla Was taką szokującą informację,  że my to nie jesteśmy jakoś wybitnie spokrewnieni z psami, my jesteśmy dwoma odrębnymi gatunkami, i ja rozumiem, że to szalenie rozczarowujące, ale pomyślcie sobie, że jest jeszcze gorzej – ja słyszałam, że podobno jasne labradory wcale nie mają wspólnego drzewa genealogicznego z biszkoptowymi ciastkami (?!).

Czy możemy sobie zdefiniować populację jako “psy i ludzie” i na jej podstawie liczyć różne rzeczy? No możemy, tylko wtedy musimy się liczyć z tym, że nagle okaże się, że jeśli chodzi o umiejętności, to nasza populacja jest przeciętna zarówno w aportowaniu patyków, jak i w rozwiązywaniu sudoku. I że średnio mamy po ileś tam łat, a jeśli chodzi o spędzanie czasu wolnego, to zdecydowana większość naszej populacji najbardziej lubi tarzać się w zwłokach zająca znalezionych w lesie.

Z liczeniem różnych rzeczy na podstawie tak zdefiniowanej populacji jest trochę jak z chodzeniem na siłownię – można to robić, ale po co?

Takie wnioski są wbrew zdrowemu rozsądkowi. Anglicy mówią na to “porównywanie jabłek i pomarańczy” (comparing apples to oranges), co oznacza absurdalne i nieprawidłowe porównywanie dwóch zupełnie odrębnych grup. W naszym wypadku – dwóch różnych gatunków. Ludzi i naszych włochatych przyjaciół o trójkątnych noskach.

A to jeszcze nie wszystko! Bo nawet jeśli ktoś by się uparł, że chce iść do piekła i tak właśnie sobie tę populację zdefiniuje, że będą tam ludzie i labradory, to wciąż musi wciąż pod uwagę jeszcze jedną pralinkę ze statystycznego pudełka rozkoszy…

2. Skale pomiaru

Mamy sobie w statystyce cztery różne skale pomiarowe, które opisują w jaki sposób mierzymy różne rzeczy. A takich rzeczy do zmierzenia to mamy bez liku – spójrzmy na przykład na te warszawskie przedszkolaki; możemy pomierzyć ich wiek, wzrost, masę ciała, płeć, ile mają pluszaków, ale również to, czy boją się pająków i czy lubią budyń (choć to ostatnie byłoby bez sensu, no bo kto nie lubi?!). Te wszystkie rzeczy będziemy mierzyć na jednej z czterech skal.

Skala nominalna to skala, której wartości są kategoriami bez żadnego oczywistego uporządkowania. Przykładami zmiennej nominalnej są kolor oczu, zawód, płeć lub w przypadku psów – rasa czy umaszczenie. Możemy policzyć, że w naszym psim przedszkolu mamy 2 jamniki, 3 labradory i 5 najpiękniejszych na świecie kundelków, niemniej nie możemy tych trzech kategorii w żaden sposób uszeregować na skali “bardziej pies” – “mniej pies”. Byłoby to matematycznie bez sensu, a przy tym szalenie nieuprzejme względem wszystkich tych miłych stworzeń.

Skala porządkowa zawiera wartości, które są kategoriami dającymi się uporządkować. Nie da się jednak zmierzyć dokładnej odległości między kategoriami. Przykładem zmiennej porządkowej jest wykształcenie lub w przypadku psów – wielkość mierzona na skali “mały pies”, “średni pies”, “duży pies”. Takie kategorie możemy już uporządkować, na przykład powiedzieć, że w na edukacyjnej drabinie wykształcenie podstawowe znajduje się niżej niż wykształcenie wyższe, lub że mały pies jest mniejszy od dużego psa, nie wspominając już o tym dogu niemieckim zza płotu, którego psia mama najpewniej romansowała z koniem.

Na zmiennych porządkowych, zupełnie jak w przypadku zmiennych nominalnych, wciąż nie możemy przeprowadzić żadnych poważnych operacji matematycznych.No chyba, że ktoś naprawdę twierdzi, że to ma całkowity sens, że sobie policzył średnią ze stanowisk i mu wyszło, że w sumie to wszyscy są w 0.67 prezesem. No słuchajcie, jakbyście przedstawili te wyliczenia w fokarium, to obawiam się, że żadna foka by nie zaklaskała.

Skala przedziałowa (interwałowa) to skala, w której różnice między wartościami mają określoną interpretację. Ponadto taka skala ma umownie przyjęty punkt zero (co oznacza, że może przyjmować wartości ujemne). Przykładem zmiennej przedziałowej jest temperatura w stopniach Celsjusza lub daty.

Skala ilorazowa posiada wszystkie właściwości trzech poprzednich skal, a dodatkowo ma jasno określony punkt zerowy, który świadczy o tym, że dana zmienna nie występuje. Przykładem zmiennej ilorazowej jest wzrost, wiek (mierzony w latach) czy masa. Na takich zmiennych możemy dokonywać wszelkich operacji matematycznych, możemy np. powiedzieć, że ktoś jest dwa razy cięższy od kogoś innego. Chociaż nie powinniśmy, bo to jednak nie jest miłe.

W uproszczeniu lubimy mówić, że skale nominalna i porządkowa to skale jakościowe, a pozostałe dwie – ilościowe. W ten sposób łatwo zapamiętać, że o ile w przypadku skal jakościowych możemy sobie policzyć częstotliwość występowania (3 jamniki, 7 kundelków) czy procenty (30% jamników, 70% kundelków), o tyle wszelkie poważniejsze operacje matematyczne (wliczając w to liczenie średniej) to rozkosz zarezerwowana tylko dla zmiennych ilościowych. Możemy policzyć średnią masę ciała, średni wzrost, średnią temperaturę.

W naszej grupie jamników i kundelków możemy policzyć również średnią długość psa, niemniej średnią bycia jamnikiem już nie.

I teraz uwaga, proszę o przygaszenie świateł i cichy dźwięk werbli. Słuchajcie, liczba nóg to skala porządkowa, choć może Wam się to wydawać wbrew intuicji. Długość nóg, na przykład mierzona w centymetrach, to oczywiście skala ilościowa, która pozwala nam na wiele – możemy sobie wszystkich zmierzyć i uznać, że przeciętna długość nóg w naszej grupie to 56 centymetrów, możemy policzyć, że ktoś ma dwa razy dłuższe nogi od kogoś innego.

Niemniej liczba nóg to skala porządkowa, nie ilościowa, nawet jeśli jest wyrażona liczbami. To się niestety zdarza i może wprowadzać w błąd, bo jest wbrew intuicji.

Nawet jeśli wartości zmiennej nominalnej  lub porządkowej są wyrażane liczbowo, to liczby te są tylko umownymi identyfikatorami, nie można więc wykonywać na nich żadnych działań arytmetycznych.

W naturze występuje jedna noga, dwie nogi, trzy nogi, cztery nogi, ale raczej nie powiemy o kimś, że “hej, pamiętasz Henia? To ten co ma  1.76 nogi!”. (Ewentualnie powiemy, ale musimy się liczyć z tym, że wtedy już nigdy nie zaproszą nas na żadną imprezę). Możemy więc stwierdzić, że cztery nogi to więcej niż dwie nogi, ale liczenie średniej jest tutaj zwyczajnie nieprawidłowe. A żeby wyjaśnić dlaczego, to musimy tutaj wprowadzić nowe pojęcie:

3. Miary tendencji centralnej

Tendencja centralna jest trochę takim lizakiem chupa chups świata statystyki. Słodka to rozkosz, ale zapakowana w taki sposób, że żeby się do owego lizaka dostać, to trzeba wezwać ślusarza, operatora młota pneumatycznego i dwa zastępy straży pożarnej.

Podobnie tendencja centralnej to bardzo proste pojęcie, opakowane w podstępnie trudną nazwę. Sami zobaczcie: odnalezienie miar tendencji centralnej polega na określeniu wartości “przeciętnej” dla interesującej nas zmiennej czy grupy wyników. Tego interesującego nas “środka”. Możemy to zrobić na trzy sposoby, bo wyróżniamy trzy podstawowe miary tendencji centralnej:

Dominanta (wartość modalna, moda)

to wartość najczęściej występująca w danym zbiorze. W naszym zbiorze 3 jamników i 7 kundelków naszą dominantą jest kategoria “kundelek”, bo jest to wartość najczęściej występująca.

Mediana

to wartość środkowa, powyżej i poniżej której znajduje się jednakowa liczba obserwacji. By wyłonić medianę najpierw musimy uporządkować nasz szereg. Czyli jeśli mam w domu 5 małych psów i 2 duże, to mój uporządkowany szereg psów wygląda tak:

mały pies - mały pies - mały pies - mały pies - mały pies - duży pies - duży pies

i moją medianą jest kategoria “mały pies”, bo to ona znajduje się dokładnie pośrodku naszego zbioru. Oczywiście w statystyce mamy na liczenie mediany specjalne wzory, a nie że biegamy po polu zaczepiając wszystkie napotkane psy i ustawiając je w rzędzie w celu przeliczenia.

Średnia arytmetyczna

to trochę taka angielskojęzyczna piosenka grana na koloniach w Mielnie – wszyscy ją znają, ale niewielu naprawdę rozumie.  Idealnie sprawdzi się, gdy będziemy chcieli policzyć średnią długość naszych psów. Zmierzymy sobie, że jeden ma 45 centymetrów, drugi 23, a trzeci 22, dodamy wszystkie te centymetry, podzielimy przez liczbę psów (3) i nam wyjdzie, że w naszym zbiorze średnia długość psa to 30 centymetrów.

No dobra, a po co nam tak właściwie trzy różne miary tego samego? Czy to jest tak, że ten rozkoszny zbiór miar tendencji centralnej możemy traktować jak cukiernię, to znaczy wybrać sobie z niego to, co lubimy najbardziej i co nam się najbardziej podoba? Otóż nie –

Wybór tendencji centralnej jest jak taka wizyta w cukierni na diecie, kiedy to z wszystkich dostępnych opcji możemy wybrać tylko tą, na którą ktoś nam pozwoli. W tym wypadku – statystyka.

Tak jest, to jaką miarę tendencji centralnej wybierzemy zależy od naszej skali pomiarowej (tutaj w tle powinien grać pełen uniesienia walc, jak w tych komediach romantycznych, kiedy to w ostatniej scenie w końcu wszystko się ze sobą łączy, wszystkie zaginione szczeniaczki się odnajdują i okazuje się, że Karol jednak nie jest sukinsynem). Dla skal nominalnych możemy sobie tylko i wyłącznie policzyć dominantę, bo trzaskanie mediany i średniej byłoby zwyczajnie nieprawidłowe. Skale porządkowe polubią się z dominantą lub medianą, a najbardziej dopieszczają nas i tak wszelkie skale ilościowe, bo tam to hulaj dusza, piekła nie ma, możemy dowolnie wybierać, możemy sobie średnią policzyć i jeszcze to okrasić czułą kruszonką z mediany i posypką z dominanty.

Ale rozumiecie już, co to oznacza dla naszych nóg i łap? Skoro mierzymy te nogi i łapy na skali porządkowej, to śmiało, możemy sobie poszukać dominanty i powiedzieć, że najczęściej w naszym zbiorze danych występują cztery nogi, niemniej liczenie tu średniej ma tyle samo sensu, co liczenie średniej z koloru oczu czy rasy psa. No chyba, że ktoś to naprawdę policzył i jest przekonany, że ma w domu 1.467 labradora.

Bo słuchajcie, statystyka tak nie działa. W gruncie rzeczy musimy pamiętać, że w tej dyscyplinie jest coś, co jest znacznie ważniejsze od tych naszych ukochanych obliczeń i komórek excela – i są to nasze szare komórki.

Excel cells < Brain cells

I szalenie ważne jest to, by o tych naszych danych i wnioskach zawsze pomyśleć, podejść do nich z rozsądkiem. Chociażby po to, żeby nie zrobić z siebie idioty na rodzinnym grillu, kiedy to wywnioskujemy sobie, że jak mój pies ma patyk, a ja mam wołowinę, to średnio mamy po szaszłyku.

•••

Mało Ci? Więcej cudownych dyskusji dotyczących badań naukowych, statystyki, i wszystkiego, co się liczy znajdziesz w grupie na FB “Statystyczne świry”. By dołączyć, poklep gaussiego po grzbiecie:

A tym z Was, którzy się podjarali Francisem Galtonem i jego gwizdkiem dla psów, przypominam, że tę i podobne anegdotki znajdziecie w moich fiszkach „Kiedy nie ufać statystkom?”, czyli jedynej takiej publikacji na rynku, w której tłumaczę statystykę na przykładzie… jagodzianek. Po jagodzianki musicie iść samodzielnie do cukierni, po fiszki do Empiku albo kupić on-line tu: