Czy kiedy wychodzisz ze swoim psem na spacer, to średnio macie po trzy nogi?

Autor zdjęcia głównego: CSG Snow Dog Gear

(poniższy tekst pochodzi z książki “Statystycznie rzecz biorąc. Czyli ile trzeba zjeść czekolady, żeby dostać Nobla”, która teraz jest dostępna za trzy dyszki, KUP JĄ!!!).

W cukierni wszystkich dyscyplin naukowych statystyka bywa takim spektakularnym ptysiem z kremem, który jest obietnicą najsłodszych partytur wygrywanych na kubkach smakowych, a tak naprawdę to zrobiony został ze śmietany w proszku i jeszcze trzymano go w lodówce obok kiełbasy, więc cały krem smakuje jak stęchła jałowcowa. I widzicie, w takim przypadku nie jest winą ptysia, że został zrobiony z fatalnych składników i nikomu nie przyszłoby do głowy, by owego ptysia zgłosić do prokuratury.

Idąc tym tropem, trudno oczekiwać, że jak sobie zwerbujemy trzy osoby spod sklepu monopolowego i każemy im trzasnąć sudoku, to z takich danych uzyskamy rzetelne wnioski dotyczące IQ całej populacji. Kiedyś jeszcze tłumaczyłam moim studentom, że ta zasada nazywa się garbage in – garbage out; że jak będą analizować liche dane, takie numeryczne śmieci, to wnioski wyciągnięte na tej podstawie będą podobnej, marnej jakości. Niemniej szybko zaprzestałam tej metafory, bo okazało się, że jak mówię o garbage out to im się natychmiast zespół stresu pourazowego włącza, na pamiątkę tego wydarzenia, kiedy to w zeszłe święta matka kazała im wynieść śmieci.

Istnieje również inny sposób mówienia o tym problemie, szalenie rozpowszechniony wśród członków pewnej grupy, która do statystyki ma podobne podejście jak ja do ćwiczeń fizycznych, to znaczy: nie lubię, nie znam się, staram się unikać, niemniej jak trzeba sprawę skrytykować, to pierwsza będę stała z transparentem pod siłownią, że “wolność dla bicepsów o konsystencji maślanych bułeczek!!!!” i “niech żyją nam mięśnie brzucha kruche jak dobrze wypieczona beza!!!!”. Podobnie zachowuje się pewne internetowe plemię, które rozpoznać możemy po bardzo specyficznym zawołaniu, używanym namiętnie we wszelkich dyskusjach dotyczących statystyk, badań czy wykresów. Owo zawołanie wymaga zaawansowanej wiedzy matematycznej (dodawanie, dzielenie), zoologicznej (znajomość anatomii psa), a także medycznej, ze szczególnym wskazaniem ortopedii (rozeznanie w ludzkich kończynach dolnych), a polega na wyjaśnianiu wszystkim dookoła, że statystyka to szalenie głupia nauka, bo według statystyki to, he he, kiedy wychodzisz ze swoim psem na spacer, he he, to średnio mamy po trzy nogi.

I to by się w sumie zgadzało, oprócz tego, że nie.

Zanim jednak wyjaśnię, w czym tkwi błąd, to zaznaczyć chciałam, że takie połączenie statystyki i kynologii już wcześniej zdarzało się w historii nauki. Albowiem nie wiem, czy wiecie, ale Francis Galton, taki miły naukowiec z przełomu XIX i XX wieku, który lubował się w metodach statystycznych i był psychofanem badań kwestionariuszowych, to owszem, on jako pierwszy stworzył teoretyczną koncepcję korelacji i regresji do średniej, ale oprócz tego to zawdzięczamy mu również wynalezienie gwizdka dla psów.

I słuchajcie, gdybyśmy sobie teraz skorzystali z tego wynalazku Galtona i zawołali do siebie jakiegoś psa, i policzyli ile on ma łap, a potem policzyli ile my mamy nóg, a następnie obie wartości zsumowali, a potem podzielili przez liczbę osobników, to wynikiem naszych obliczeń byłaby – po pierwsze – liczba trzy. Po drugie, okropne upokorzenie przed naszym osobistym dalmatyńczykiem. Albowiem w tym krótkim rachunku matematycznym popełnilibyście trzy błędy: jeden dotyczący populacji, drugi dotyczący skali pomiaru i trzeci dotyczący odpowiadającej owej skali miary tendencji centralnej.

1. Czy jasne labradory pochodzą od biszkoptów? Czyli o populacji

To jest trochę tak, że gdy przeprowadzamy badanie, na jakikolwiek temat, to wybrać musimy populację badaną, to jest grupę osób (zwierząt, krajów, instytucji…), która w tym naszym naukowym rendez-vous weźmie udział. Wbrew powszechnej opinii, populacja badania nie oznacza „wszystkich ludzi na świecie”, co więcej – nie zawsze musi oznaczać ludzi! To może być określony gatunek nietoperza albo też wszystkie nietoperze zamieszkujące konkretny obszar (na przykład Puszczę Białowieską albo strych babci). To od badacza (i od pytania badawczego) zależy, jak ta populacja zostanie zdefiniowana.  Niemniej populacja “dzieci przedszkolne” to słaby pomysł, to trochę tak, jak gdybyście wysłali swoje dziecko do sklepu po koperek, definiując go “jako coś zielonego z listkami”. Istotne jest, czy będziemy tu mieć na myśli dzieci przedszkolne ze Szwecji, czy z Warszawy, czy też z grupy “Biedronek” jednego konkretnego przedszkola. Czy te, które uczą się nie wychodzić za linię w odpowiednich instytucjach, czy też również dzieci w wieku przedszkolnym, które zostały w domach. A wiecie, dlaczego to ma znaczenie dla naszych kynologiczno-ortopedycznych rozważań?

No bo słuchajcie, ja mam dla Was taką szokującą informację,  że my to nie jesteśmy jakoś wybitnie spokrewnieni z psami, my jesteśmy dwoma odrębnymi gatunkami, i ja rozumiem, że to szalenie rozczarowujące, ale pomyślcie sobie, że jest jeszcze gorzej – ja słyszałam, że podobno jasne labradory wcale nie mają wspólnego drzewa genealogicznego z biszkoptowymi ciastkami (?!).

Czy możemy sobie zdefiniować populację jako “psy i ludzie” i na jej podstawie liczyć różne rzeczy? No możemy, tylko wtedy musimy się liczyć z tym, że nagle okaże się, że jeśli chodzi o umiejętności, to nasza populacja jest przeciętna zarówno w aportowaniu patyków, jak i w rozwiązywaniu sudoku. I że średnio mamy po ileś tam łat, a jeśli chodzi o spędzanie czasu wolnego, to zdecydowana większość naszej populacji najbardziej lubi tarzać się w zwłokach zająca znalezionych w lesie.

Z liczeniem różnych rzeczy na podstawie tak zdefiniowanej populacji jest trochę jak z chodzeniem na siłownię – można to robić, ale po co?

Takie wnioski są wbrew zdrowemu rozsądkowi. Anglicy mówią na to “porównywanie jabłek i pomarańczy” (comparing apples to oranges), co oznacza absurdalne i nieprawidłowe porównywanie dwóch zupełnie odrębnych grup. W naszym wypadku – dwóch różnych gatunków. Ludzi i naszych włochatych przyjaciół o trójkątnych noskach.

A to jeszcze nie wszystko! Bo nawet jeśli ktoś by się uparł, że chce iść do piekła i tak właśnie sobie tę populację zdefiniuje, że będą tam ludzie i labradory, to wciąż musi wciąż pod uwagę jeszcze jedną pralinkę ze statystycznego pudełka rozkoszy…

2. Jak bardzo jesteś jamnikiem? Czyli skale pomiarowe

Mamy sobie w statystyce cztery różne skale pomiarowe, które opisują w jaki sposób mierzymy różne rzeczy. A takich rzeczy do zmierzenia to mamy bez liku – spójrzmy na przykład na te warszawskie przedszkolaki; możemy pomierzyć ich wiek, wzrost, masę ciała, płeć, ile mają pluszaków, ale również to, czy boją się pająków i czy lubią budyń (choć to ostatnie byłoby bez sensu, no bo kto nie lubi?!). Te wszystkie rzeczy będziemy mierzyć na jednej z czterech skal.

Skala nominalna to skala, której wartości są kategoriami bez żadnego oczywistego uporządkowania. Przykładami zmiennej nominalnej są kolor oczu, zawód, płeć lub w przypadku psów – rasa czy umaszczenie. Możemy policzyć, że w naszym psim przedszkolu mamy 2 jamniki, 3 labradory i 5 najpiękniejszych na świecie kundelków, niemniej nie możemy tych trzech kategorii w żaden sposób uszeregować na skali “bardziej pies” – “mniej pies”. Byłoby to matematycznie bez sensu, a przy tym szalenie nieuprzejme względem wszystkich tych miłych stworzeń.

Skala porządkowa zawiera wartości, które są kategoriami dającymi się uporządkować. Nie da się jednak zmierzyć dokładnej odległości między kategoriami. Przykładem zmiennej porządkowej jest wykształcenie lub w przypadku psów – wielkość mierzona na skali “mały pies”, “średni pies”, “duży pies”. Takie kategorie możemy już uporządkować, na przykład powiedzieć, że w na edukacyjnej drabinie wykształcenie podstawowe znajduje się niżej niż wykształcenie wyższe, lub że mały pies jest mniejszy od dużego psa, nie wspominając już o tym dogu niemieckim zza płotu, którego psia mama najpewniej romansowała z koniem.

Na zmiennych porządkowych, zupełnie jak w przypadku zmiennych nominalnych, wciąż nie możemy przeprowadzić żadnych poważnych operacji matematycznych. No chyba, że ktoś naprawdę twierdzi, że to ma całkowity sens, że sobie policzył średnią ze stanowisk i mu wyszło, że w sumie to wszyscy są w 0.67 prezesem. No słuchajcie, jakbyście przedstawili te wyliczenia w fokarium, to obawiam się, że żadna foka by nie zaklaskała.

Skala przedziałowa (interwałowa) to skala, w której różnice między wartościami mają określoną interpretację. Ponadto taka skala ma umownie przyjęty punkt zero (co oznacza, że może przyjmować wartości ujemne). Przykładem zmiennej przedziałowej jest temperatura w stopniach Celsjusza lub daty.

Skala ilorazowa posiada wszystkie właściwości trzech poprzednich skal, a dodatkowo ma jasno określony punkt zerowy, który świadczy o tym, że dana zmienna nie występuje. Przykładem zmiennej ilorazowej jest wzrost, wiek (mierzony w latach) czy masa. Na takich zmiennych możemy dokonywać wszelkich operacji matematycznych, możemy np. powiedzieć, że ktoś jest dwa razy cięższy od kogoś innego. Chociaż nie powinniśmy, bo to jednak nie jest miłe.

W uproszczeniu lubimy mówić, że skale nominalna i porządkowa to skale jakościowe, a pozostałe dwie – ilościowe. W ten sposób łatwo zapamiętać, że o ile w przypadku skal jakościowych możemy sobie policzyć częstotliwość występowania (3 jamniki, 7 kundelków) czy procenty (30% jamników, 70% kundelków), o tyle wszelkie poważniejsze operacje matematyczne (wliczając w to liczenie średniej) to rozkosz zarezerwowana tylko dla zmiennych ilościowych. Możemy policzyć średnią masę ciała, średni wzrost, średnią temperaturę.

W naszej grupie jamników i kundelków możemy policzyć również średnią długość psa, niemniej średnią bycia jamnikiem już nie.

I teraz uwaga, proszę o przygaszenie świateł i cichy dźwięk werbli. Słuchajcie, liczba nóg to skala porządkowa, choć może Wam się to wydawać wbrew intuicji. Długość nóg, na przykład mierzona w centymetrach, to oczywiście skala ilościowa, która pozwala nam na wiele – możemy sobie wszystkich zmierzyć i uznać, że przeciętna długość nóg w naszej grupie to 56 centymetrów, możemy policzyć, że ktoś ma dwa razy dłuższe nogi od kogoś innego.

Niemniej liczba nóg to skala porządkowa*, nie ilościowa, nawet jeśli jest wyrażona liczbami. To się niestety zdarza i może wprowadzać w błąd, bo jest wbrew intuicji.

Nawet jeśli wartości zmiennej nominalnej  lub porządkowej są wyrażane liczbowo, to liczby te są tylko umownymi identyfikatorami, nie można więc wykonywać na nich żadnych działań arytmetycznych.

W naturze występuje jedna noga, dwie nogi, trzy nogi, cztery nogi, ale raczej nie powiemy o kimś, że “hej, pamiętasz Henia? To ten co ma  1.76 nogi!”. (Ewentualnie powiemy, ale musimy się liczyć z tym, że wtedy już nigdy nie zaproszą nas na żadną imprezę). Możemy więc stwierdzić, że cztery nogi to więcej niż dwie nogi, ale liczenie średniej jest tutaj zwyczajnie nieprawidłowe. A żeby wyjaśnić dlaczego, to musimy tutaj wprowadzić nowe pojęcie: miary tendencji centralnej.

*Zaznaczyć chciałam, że co do takiego traktowania liczby nóg nie wszyscy psychofani statystyki są zgodni. Są i tacy, którzy uważają, że w tym wypadku liczba nóg jest zmienną ilościową. To nie szkodzi, wszyscy jesteśmy poważnymi ludźmi, więc ten problem rozwiążemy odpowiedzialnie, to jest zorganizujemy ustawkę obu frakcji i będziemy się okładać surowym okoniem po pysku. Zbiórka dziś po lekcjach za śmietnikiem.

3. Lizak chupa chups świata statystyki, czyli miary tendencji centralnej

Tendencja centralna jest trochę takim lizakiem chupa chups świata statystyki. Słodka to rozkosz, ale zapakowana w taki sposób, że żeby się do owego lizaka dostać, to trzeba wezwać ślusarza, operatora młota pneumatycznego i dwa zastępy straży pożarnej.

Podobnie tendencja centralnej to bardzo proste pojęcie, opakowane w podstępnie trudną nazwę. Sami zobaczcie: odnalezienie miar tendencji centralnej polega na określeniu wartości “przeciętnej” dla interesującej nas zmiennej czy grupy wyników. Tego interesującego nas “środka”. Możemy to zrobić na trzy sposoby, bo wyróżniamy trzy podstawowe miary tendencji centralnej:

Dominanta (wartość modalna, moda)

to wartość najczęściej występująca w danym zbiorze. W naszym zbiorze 3 jamników i 7 kundelków naszą dominantą jest kategoria “kundelek”, bo jest to wartość najczęściej występująca.

Mediana

to wartość środkowa, powyżej i poniżej której znajduje się jednakowa liczba obserwacji. By wyłonić medianę najpierw musimy uporządkować nasz szereg. Czyli jeśli mam w domu 5 małych psów i 2 duże, to mój uporządkowany szereg psów wygląda tak:

mały pies - mały pies - mały pies - mały pies - mały pies - duży pies - duży pies

i moją medianą jest kategoria “mały pies”, bo to ona znajduje się dokładnie pośrodku naszego zbioru. Oczywiście w statystyce mamy na liczenie mediany specjalne wzory, a nie że biegamy po polu zaczepiając wszystkie napotkane psy i ustawiając je w rzędzie w celu przeliczenia.

Średnia arytmetyczna

to trochę taka angielskojęzyczna piosenka grana na koloniach w Mielnie – wszyscy ją znają, ale niewielu naprawdę rozumie.  Idealnie sprawdzi się, gdy będziemy chcieli policzyć średnią długość naszych psów. Zmierzymy sobie, że jeden ma 45 centymetrów, drugi 23, a trzeci 22, dodamy wszystkie te centymetry, podzielimy przez liczbę psów (3) i nam wyjdzie, że w naszym zbiorze średnia długość psa to 30 centymetrów.

No dobra, a po co nam tak właściwie trzy różne miary tego samego? Czy to jest tak, że ten rozkoszny zbiór miar tendencji centralnej możemy traktować jak cukiernię, to znaczy wybrać sobie z niego to, co lubimy najbardziej i co nam się najbardziej podoba? Otóż nie –

Wybór tendencji centralnej jest jak taka wizyta w cukierni na diecie, kiedy to z wszystkich dostępnych opcji możemy wybrać tylko tą, na którą ktoś nam pozwoli. W tym wypadku – statystyka.

Tak jest, to jaką miarę tendencji centralnej wybierzemy zależy od naszej skali pomiarowej (tutaj w tle powinien grać pełen uniesienia walc, jak w tych komediach romantycznych, kiedy to w ostatniej scenie w końcu wszystko się ze sobą łączy, wszystkie zaginione szczeniaczki się odnajdują i okazuje się, że Karol jednak nie jest sukinsynem). Dla skal nominalnych możemy sobie tylko i wyłącznie policzyć dominantę, bo trzaskanie mediany i średniej byłoby zwyczajnie nieprawidłowe. Skale porządkowe polubią się z dominantą lub medianą, a najbardziej dopieszczają nas i tak wszelkie skale ilościowe, bo tam to hulaj dusza, piekła nie ma, możemy dowolnie wybierać, możemy sobie średnią policzyć i jeszcze to okrasić czułą kruszonką z mediany i posypką z dominanty.

Ale rozumiecie już, co to oznacza dla naszych nóg i łap? Skoro mierzymy te nogi i łapy na skali porządkowej, to śmiało, możemy sobie poszukać dominanty i powiedzieć, że najczęściej w naszym zbiorze danych występują cztery nogi, niemniej liczenie tu średniej ma tyle samo sensu, co liczenie średniej z koloru oczu czy rasy psa. No chyba, że ktoś to naprawdę policzył i jest przekonany, że ma w domu 1.467 labradora.

Bo słuchajcie, statystyka tak nie działa. W gruncie rzeczy musimy pamiętać, że w tej dyscyplinie jest coś, co jest znacznie ważniejsze od tych naszych ukochanych obliczeń i komórek excela – i są to nasze szare komórki.

Excel cells < Brain cells

I szalenie ważne jest to, by o tych naszych danych i wnioskach zawsze pomyśleć, podejść do nich z rozsądkiem. Chociażby po to, żeby nie zrobić z siebie idioty na rodzinnym grillu, kiedy to wywnioskujemy sobie, że jak mój pies ma patyk, a ja mam wołowinę, to średnio mamy po szaszłyku.

Zreszta nie musicie mi wierzyć na słowo, sprawdźcie co na ten temat twierdzi sam pies Kazimierz:

Autor zdjęcia głównego: CSG Snow Dog Gear

***

Książka “Statystycznie rzecz biorąc. Czyli ile trzeba zjeść czekolady, żeby dostać Nobla?”. Przekonaj się, czy wychodząc z psem Kazimierzem na spacer statystycznie macie po trzy nogi? Czy język angielski powoduje zawały serca, a masło przedłuża życie? Czy jeśli wsadzisz głowę do lodówki, a nogi do piekarnika, to będzie Ci w sam raz?

Sprawdź szczegółowy spis zagadnień poruszanych w książce, przeczytaj kolejny fragment lub po prostu KUP JĄ!!! i przekonaj się, że statystyka jest wspaniała! Masz do wyboru, papier, e-booka, audiobooka. Wersja papierowa dziś kosztuje ledwie trzy dyszki, czyli to sam raz oszczędność, by starczyło na tego surowego okonia, którym będziemy się naparzać.

W ciągu roku książka sprzedała się w 120 000 egzemplarzy, czyż to nie wspaniałe, że tak wiele osób przekonało się, że statystyka jest fajna?

36 komentarzy

  1. Ela romanistka

    4 lipca 2019 o 08:54

    Sama się sobie dziwię, bo przeczytałam CAŁYwpis! I obiecuję, ze juz nie będę używać porównania o 3 nogach…

    Odpowiedz
    • Szklarnia Potencjału

      21 października 2022 o 23:54

      Pani Janino (używam tego przedrostka ze względu na szacunek i uznanie, przybijać czołem w podłoże nie będę, albowiem nie widoczny to czyn dla wyżej wymienionej i nie odczytany zostałby i pominięty. A guz a językach sąsiadów gościłyby długie tygodnie)
      Mam zagwozdkę.
      Skoro jest dyskusja na temat, której skali powinno użyć wypisując dane odnoszące się do ilości nóg u homo i psów, to czy mogłabym prosić o argumenty, jeśli są łatwo dostępne?
      Jeśli nie, sama sprawdzę.
      Dziękuję bardzo za wpis za tysięcznym razem zakumam.
      Chciałam się podzielić, że dane mi było statystykę mieć na studiach tylko Rok, a uwielbiałam patrzeć na dziecięca radość malującą się na twarzy wykładowcy, kiedy z ciekawością i zaanagozawaniem zadawałam te wszystkie pytania… A, dlaczego, a dlaczego 💚
      Ech.
      Wspaniały czas.
      Żywy człowiek do tłumaczenia będący pod ręką.

      Odpowiedz
  2. Ewa Kostrzewavv

    4 lipca 2019 o 08:56

    Jesteś genialną nauczycielką. Do tej pory kompletnie tego nie rozumiałam. Dzięki :)))

    Odpowiedz
  3. Przemysław Jurkiewicz

    4 lipca 2019 o 08:58

    Tyle czytania i nie wiem jak mam wyśmiać kogoś kto przy mnie tak powie. A po to tu przyszedłem. Czy wystarczy: nie można policzyć średniej z liczby nóg, bo to wartości że skali porządkowej?

    Odpowiedz
    • Janina

      4 lipca 2019 o 09:26

      Tak, tak, to bardzo dobry początek i można też dodać ostentacyjne: “Wyznacz dominantę, głupcze!!!”

      Odpowiedz
    • Katarzyna Bartosik

      4 lipca 2019 o 10:42

      Ja to samo. Zastanawiam się, czy jako politolog mogłabym uczestniczyć w grupie statystycznych świrów? Bardzo mi się to podoba, ale jestem kompletnym amatorem w temacie.
      Na swoją obronę mogę powiedzieć jedynie to, że bardzo lubię słodycze.

      Odpowiedz
    • Wit Witek

      5 lipca 2019 o 08:02

      Nie wyśmiewać, bo to mało przyjemnie.
      Po prostu zwrócić uwagę, że właśnie statystyka (oraz elementarny rozsądek) nie pozwala na przeprowadzanie wyliczeń, które są bez sensu.
      Jeśli ktoś będzie domagał się dokładniejszych wyjaśnień, to polecam zapisać powyższy artykuł do “ulubionych” w przeglądarce.

      Odpowiedz
    • Piotrek Birski

      7 lipca 2019 o 00:39

      no ja bym jednak def populacji polecial. Ewentualnie odpowiedzial w takim przypadkju, ze nie wklada sie motorowki do otwartej lodowki 😉

      Odpowiedz
      • Karolina B

        15 lipca 2019 o 14:28

        To niesamowite, że w końcu znalazłam miejsce, które łączy moje dwie miłości, wydawałoby sie nie do pogodzenia – statystykę i język polski. A w dodatku wszystko z poczuciem humoru i odrobina ironii, którą cenie i praktykuje 😉 Dzięki za tego bloga.

        Odpowiedz
  4. Kuc

    4 lipca 2019 o 09:37

    Dla mnie to bardzo miłe i fajne odświeżenie pojęć. Gdyby podręczniki były pisane w takmi stylu, to więcej bym zapamiętał. Jedyny minus to taki, że teraz jestem głodny. Zjadłbym pączka albo drożdżówkę… Może nawet z czułą kruszonką z mediany i posypką z dominanty.

    Odpowiedz
  5. Piotrek

    4 lipca 2019 o 10:30

    A ja muszę powiedzieć, że dość często używam tej metafory ze średnią liczbą nóg. Wydaje mi się, że całkiem dobrze oddaje ona pewne patologie związane ze średnią arytmetyczną. Np kiedy ktoś mówi mi, że w Polsce wszystkim żyje się dostatnio bo średnie wynagrodzenie to już bardzo dużo polskich nowych złotych. A ja wiem, że rozkład wynagrodzeń wygląda o tak: https://wynagrodzenia.pl/artykul/rozklad-wynagrodzen-w-polsce-wedlug-gus
    Tu relację średniej do rzeczywistości przykład z nogami i psem oddaje całkiem dobrze

    Odpowiedz
    • Bunio Kowski

      16 lipca 2019 o 09:09

      W takich przypadkach zamiast o 3 nogach, możesz powiedzieć: gdy Bill Gates wchodzi do MacDonalda, średni majątek wszystkich wewnątrz wzrasta o 1 miliard $.

      Odpowiedz
  6. Anna

    4 lipca 2019 o 11:56

    Uwielbiam Twoje teksty tak samo jak lubię tort dakłas!

    Odpowiedz
  7. Michal Krawczyk

    4 lipca 2019 o 12:21

    jak zawsze z wdziękiem, ale tym razem imho niecelnie. Oczywiście liczenie średniej ze zmiennych przyjmujących tylko wartości całkowite może mieć głęboki sens, vide liczba dzieci. A nawet dla binarnych przecież średnia ma naturalną interpretację: gdy X=1 dla facetów i X=0 dla kobiet, to mean(X)=.64 znaczy, że jest 64% chłopów w próbie… A branie dominany z liczby nóg człowieka i psa jest równie “przydatne” co średniej. bo oczywiście co do pierwszego zarzutu, to pełna zgoda

    Odpowiedz
    • Janina

      4 lipca 2019 o 12:46

      Tak, spodziewałam się takiej wątpliwości i jest ona słuszna – są zmienne dyskretne, które są traktowane jak ciągłe; w badaniach kwestionariuszowych bardzo często w ten sposób traktowane są np. skale Likerta. Zauważ, że z takich skal też często wyciągane są średnie lub dodawane są do modelu regresyjnego jako ciągłe, bez rekodowania do zmiennych dychotomicznych. Często przymykamy na to oko, na zasadzie “i tak wszyscy wiemy, jak to interpretować i że ostrożnie”, choć tak z czystego, statystycznego punktu widzenia jest to nieprawidłowe.

      Dowód anegdotyczny: jeden z moich artykułów, gdy tak traktowałam skalę porządkową (jako ciągłą) spotkał się z pełnym zrozumieniem u jednego recenzenta, że tak, tak, wiadomo, wszyscy wiemy, o co chodzi i wszyscy tak robimy. Drugi recenzent uznał, że tak być nie może, kategorialna to kategorialna!!!! I w gruncie rzeczy każdy z nich miał rację.

      Niemniej myślę, że to jest tak samo, jak z przykładem średniej dla zmiennych binarnych – dla nas ma to naturalną interpretację, ale dla nie-analityków niekoniecznie.

      Odpowiedz
    • Janina

      4 lipca 2019 o 13:14

      I jeszcze powiem, że ta dyskusja trwa też na “Statystycznych świrach” i okazuje się, że w gruncie rzeczy mamy to samo na myśli, tylko nie umiem tego dobrze napisać i próbujemy to doszlifować, żeby nikt nie miał wątpliwości. Zapraszam: https://www.facebook.com/groups/799858713693475/permalink/915664258779586/

      edit: trochę mi to zajęło, ale chyba w końcu zrozumiałam, gdzie ten fragment o ciągłości może wprowadzać w błąd, więc zmieniłam, dziękuję za tę uwagę!

      Odpowiedz
    • Wit Witek

      5 lipca 2019 o 08:31

      O przepraszam, Janina nigdzie nie napisała, że nie można wyliczać średniej z liczb całkowitych.
      Natomiast napisała, że nie wolno robić tego tam, gdzie nie ma to sensu.

      Odpowiedz
  8. Kuba Wierzbicki

    4 lipca 2019 o 13:12

    Janina, ten wpis powinien być w każdej książce do statystyki jako rozdział obowiązkowy. Albo chociaż w Twojej 🙂

    Odpowiedz
    • Marta Pawłowska

      4 lipca 2019 o 19:55

      O to to! I ja wtedy z przyjemnością będę prowadzić statystykę.. nawet na PwB 😀

      Odpowiedz
  9. Ela

    4 lipca 2019 o 22:43

    Anegdota i porównanie to klucze do mojego umysłu. Dziękuję za spektakularne poszerzenie statystycznych horyzontów 🙂

    Odpowiedz
  10. wykończymy

    5 lipca 2019 o 10:06

    Świetny wpis, sam nie słyszałem jeszcze nie spotkałem się z takim pojęciem. Genialny wpis, z ogromną chęcią jeszcze nie raz tutaj wrócę. 🙂

    Odpowiedz
  11. maja

    5 lipca 2019 o 20:40

    Drobna uwaga – czy komentarz o 0,87 chłopca nie powienien być omowiony przy zmiennych nominalnych a nie porządkowych? :p

    Odpowiedz
    • Janina

      5 lipca 2019 o 21:07

      Oczywiście, tak. Skrót myślowy – chciałam skomentować jednocześnie absurd liczenia średniej w przypadku skali nominalnej, jak i porządkowej. Zmieniłam na przykład czysto porządkowy i już powinno być ok 🙂 Dzięki za tę uwagę!

      Odpowiedz
  12. Jacek

    7 lipca 2019 o 23:17

    Piękny tekst, dziękuję:)
    Mam jedynie dwie uwagi:
    1. “możemy sobie policzyć częstotliwość występowania (3 jamniki, 7 kundelków)”
    Hm… częstotliwość to miara ilości powtarzających się zdarzeń zachodzących w ciągu jednej sekundy.
    Jak wyrazić te pieski w hercach? 😉
    2. Z tymi nogami jako zmienna porządkową nie byłbym tak stanowczy… Wyobraźmy sobie pieski z trzema nogami (tak, są takie). Obliczając regularnie choćby banalną średnią liczby nóg w populacji psiej można badać trendy dotyczące wypadków komunikacyjnych z udziałem naszych “czworonożnych” ulubieńców albo liczbę mutacji w okolicach choćby Czernobyla…

    Pozdrawiam, czekam na następne artykuły:)

    Odpowiedz
  13. fanikarolla

    8 lipca 2019 o 21:05

    U mnie sie sprawdza!

    Odpowiedz
  14. bachor

    15 lipca 2019 o 14:00

    Jeżeli pies ma patyk, a ja mam wołowinę to wspólnie mamy po połowie szaszłyka :S

    Odpowiedz
  15. ja

    16 lipca 2019 o 20:22

    A jak ktoś wychodzi na spacer z 2 psami?

    Odpowiedz
  16. Ony

    9 marca 2020 o 13:00

    Co z tego, że przykład obalają zasady statystyki. Chodzi o przenośnię i każdy rozumie o co chodzi w przykładzie z psem. Jest inne powiedzenie, że “istnieje małe kłamstwo oraz duże kłamstwo, a potem jest statystyka”. To własnie dzięki niej można wskazać wiele ciekawych wyników, ale można badanie wykonać też “jakby od drugiej i dojść do oczekiwanego wyniku”. Z zasadami jest tak, że są jasne i sztywne, a umysł człowieka potrafi zrozumieć więcej niż one przedstawiają. Bardzo lubię kawał z profesorem:
    “Profesor filologii polskiej na wykładzie:
    – Jak Państwo wiecie w językach słowiańskich jest nie tylko pojedyncze zaprzeczenie. Jest też podwójne zaprzeczenie. A nawet podwójne zaprzeczenie jako potwierdzenie. Nie ma natomiast podwójnego potwierdzenia jako zaprzeczenia.
    Na to student z ostatniej ławki:
    – Dobra, dobra.”.

    Odpowiedz
    • Janina

      20 października 2021 o 09:16

      Każdy rozumie o co chodzi z przenośnią psem, co jest tożsame z tym, że nie rozumie podstawowych zasad statystyki. Cytat o trzech kłamstwach (zresztą bardzo często przypisywany błędnie Markowi Twainowi) też jest nietrafiony: statystyki nie kłamią, ale ludzie kłamią na temat statystyk. Owszem, nie zawsze celowo (wszyscy padamy czasem ofiarą błędów poznawczych czy błędów wnioskowania), niemniej to nie zmienia faktu, że wciąż powinniśmy się starać rozumieć i wiedzieć więcej – każdy z nas powinien wciąż się uczyć, a nie ignorować i tłumaczyć swoją niewiedzę poprzez bezmyślne powtarzanie nieprawdziwych twierdzeń czy cytatów.

      Odpowiedz
  17. Remek Ajder

    26 lutego 2021 o 08:55

    W tym “powiedzonku” o 3 nogach psa z panem nie chodzi o naukę statystyki, wujkowe narzekanie na to, że “kiedyś to było, polemikę z Balcerowiczem itp a właśnie o pokazanie, że statystyki bywają wykorzystywane z gracją piły motorowej w horrorze.

    Ony też w sumie o tym pisze.

    Odpowiedz
  18. Remek Ajder

    26 lutego 2021 o 08:55

    cd.
    Dość ciekawą cechą “umysłów ścisłych” jest średnie chwytanie niuansów znaczeniowych oraz czegoś, co (w uproszczeniu) nazwiemy “pragmatyką językową”.

    Te “ścisłe umysły” skupiają się na warstwie “semantycznej” wypowiedzi – czytają je dosłownie. Stąd autorka zdanie “a pani Janina Daily znowu punktualnie” wypowiedziane do spóźnionej Janinki przez jej szefa uzna za komplement (jeśli dobrze “funkcjonuje” w społeczeństwie – za nietrafiony). Ironia, sarkazm – to tzw. “ściślaków” omija łukiem szerokiem, jak stepy Akermanu.

    Jeśli komuś takie coś kojarzy się z pewną mentalną przypadłością opisywaną w filmach o tzw aspikach (czy jak ich zwą), to może nawet mieć rację.

    A przypowieść o 3 nogach jest doskonałą ilustracją statystyk (o których i Churchill* swoje kiedyś rzekł): np to, że “Polacy średnio zarabiają ponad 4000 zł na rękę”. Ci, co nie zarabiają poszli do wyborów i zagłosowali na tych, co im pokazali, że jedna partia twierdzi, że mają 3 nogi (4 na rękę) a oni widzą 2 (nogi i na rękę). Jak to GUS liczy? Nikt nie wie, ale “ien imicz, optymizm”. 😀
    Zaraz mie tu wyskoczo millenialsy, orki Mordoru itp, że “mediana”. No właśnie. mediana. W sumie lepiej, jak chirurg kroi nas nożem, nie toporem, c’nie?

    *a jak nie on, to inny mądry człek

    Odpowiedz
  19. Paulka

    8 maja 2022 o 13:44

    Super artykuł

    Odpowiedz
  20. Lucy

    22 października 2022 o 19:43

    Mam kolegę, który często posługuje się tym wkurzającym zdaniem o psie i trzech nogach, uważając przy tym, że jest szalenie dowcipny i błyskotliwy. Obiecałam sobie, że jak następnym razem znowu z tym wyskoczy, to go zapytam, czy w takim razie, jak mu tego psa podmienię na taboret, to statystycznie wyjdą mi wtedy dwa półgłówki.

    Odpowiedz
    • Janina

      17 marca 2023 o 10:07

      Ja totalnie akceptuję ten tekst jako żart, ale jako dowód na to, że statystyka do niczego się nie nadaje – absolutnie i totalnie nie!

      Odpowiedz

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *