Jak to możliwe, że pytamy 1000 osób i na tej podstawie wiemy, jak zagłosuje 30 milionów?

Jak to możliwe, że wystarczy spytać o opinię 1000 osób i na tej podstawie przewidzieć, jak zagłosuje ponad 30000000 osób? No słuchajcie, to nie magia, a statystyka. Wyjaśni nam to dokładniej… zupa pomidorowa.

Wpis jest fragmentem książki “Statystycznie rzecz biorąc 2. Czyli jak zmierzyć siłę tornada za pomocą gofra?”, którą na hasło WYBORY kupisz z rabatem – 40% od ceny okładkowej. Zresztą podobnie jak pierwszą część. Promocja trwa tylko na stronie gwfoksal.pl

Wyobraźcie sobie, że oto odkryliście w sobie silną tożsamość każdej polskiej babci i nagotowaliście pięć litrów pomidorówki, by następnie złożyć ją w darze grupie „Jeżyków” z pobliskiego przedszkola. By sprawdzić, czy w naszej ocenie zupa podbije ich małe serduszka, nie musimy wypijać całego garnka – wystarczy, że w niej zamieszamy, nabierzemy jedną chochlę i na tej podstawie ocenimy, czy zupa wyszła pyszna. Oczywiście przed spróbowaniem musimy ją dobrze wymieszać, by próbka była jak najbardziej reprezentatywna dla całości garnka – jeśli zanurzymy łyżkę tylko w wierzchniej warstwie zbitego tłuszczu i na tej podstawie wyciągniemy wniosek, że cała zupa jest tłusta niczym młoda foka, to po prostu popełnimy błąd podobny do tego, jaki możemy popełnić, gdy wyciągniemy wnioski na podstawie sondażu przeprowadzonego na źle dobranej próbie.

Najważniejsze, by próba badawcza, czyli grupa osób, wśród których przeprowadzimy sondaż, była jak najbardziej zbliżona do całości populacji pod względem kluczowych cech, takich jak wiek, płeć czy wykształcenie

Tylko wtedy będziemy mogli dokonać generalizacji wyników naszego badania i powiedzieć nie tylko: „tak będą głosowali nasi respondenci”, ale „tak będą głosowali Polacy”.

By móc wyniki jakiegokolwiek badania sondażowego uogólnić na całość populacji, niezbędne jest skorzystanie z metod losowego doboru próby

Tych mamy kilka – w statystyce istnieją dobory losowe: prosty, systematyczny, warstwowy, grupowy… no generalnie kiedy te wszystkie dobory losowe przychodzą na wigilię, to matka musi pożyczać krzesła od sąsiadki, a warstwowy i tak cały wieczór musi siedzieć na miednicy. Dodatkowo metody doboru próby to nie alkohol – można je ze sobą mieszać i pobierać próbę w sposób wielostopniowy. Szczegółowo opisuję te wszystkie sposoby w książce, tu tylko powiem, że każdy z tych doborów zaczyna się od czegoś, co nazywamy operatem losowania (ang. sampling frame)

Operat losowania to kompletny spis wszystkich jednostek badanej populacji.

Zależnie od badania naszym operatem losowania może być rejestr wyborców, lista wszystkich studentów danego roku czy uczniów w klasie, czy komputerowa baza klientów naszej firmy. Operat musi zawierać aktualne dane, być jak najbardziej kompletny i adekwatny do zdefiniowanej populacji, a żadna osoba na liście nie może się powtarzać. To na podstawie operatu losowania dokonamy ostatecznego wyboru grupy osób, która znajdzie się w naszym badaniu.

Próbę można również ważyć, by zwiększyć jej reprezentatywność.

Ważenie (ang. weighting) polega na przypisaniu każdemu respondentowi wagi w zależności od tego, czy reprezentuje cechy, które są w próbie niedoreprezentowane czy nadreprezentowane

Oczywiście by to zrobić, najpierw musimy wiedzieć, jak dana cecha rozkłada się w populacji.Jeśli na przykład okaże się, że w próbie mam nieproporcjonalnie mało seniorów powyżej 70. roku życia, to mogę każdej osobie z tej grupy przypisać odpowiednio wyższą wagę i odpowiedzi osób z tej grupy wiekowej liczyć według niej – te wagi będą później uwzględniane podczas dokonywania obliczeń.

Najważniejsze, że wymienione wyżej metody doboru próby to metody probabilistyczne. To oznacza, że pozwalają na późniejsze uogólnienie wyników sondażu na całość populacji, czyli wydanie opinii na temat całej zupy na podstawie zawartości jednej chochli. Metody nieprobabilistyczne (na przykład dobór celowy czy metoda kuli śnieżnej) na taką generalizację nie pozwalają, co przy pełnotłustym maśle metod probabilistycznych czyni je ledwie margaryną słabej jakości. To nie oznacza, że nieprobabilistyczne metody doboru próby do niczego się nie nadają. Czasem musimy z nich skorzystać, gdy na przykład nie jest dostępny operat losowania lub gdy badamy trudno dostępną populację – więcej pisałam o tym w pierwszej książce. Niemniej trzeba sobie zdawać sprawę z tego, że taka próba zawsze jest obarczona błędem, a wyniki badania nie mogą zostać w żaden sposób uogólnione poza kontekst badania.

Niemniej w przypadku metod probabilistycznych – totalnie możemy być jak statystyk na safari i EKSTRAPOLOWAĆ. Klawo, nie? Bierzemy sobie chochlę społecznej zupy i na jej podstawie wnioskujemy o całym garnku. No, klawo. Choć oczywiście musimy pamiętać o tym, że takie wnioskowanie jest – siłą rzeczy – niedoskonałe, narażone na błąd. O tym, czym ten błąd statystyczny jest piszę więcej we wpisie “Kiedy możemy otwierać szampana, czyli czym jest błąd statystyczny w sondażach?“. Zaś o innych drapieżnikach czyhających na trafność sondaży – we wpisie “Dlaczego sondaże wyborcze czasem się mylą?“.

Więcej o sondażach opinii publicznych przeczytasz w moich książkach: “Statystycznie rzecz biorąc. Czyli ile trzeba zjeść czekolady, żeby zdobyć Nobla” i “Statystycznie rzecz biorąc 2. Czyli jak zmierzyć siłę tornada za pomocą gofra?”. Obie na hasło WYBORY kupisz obecnie z rabatem -40% od ceny okładkowej. Promocja trwa tylko na stronie gwfoksal.pl

^[1]

Dodaj komentarz Anuluj pisanie odpowiedzi

Najnowsze wpisy

Obserwuj @janina.daily