Statystyki stały się współczesną wyrocznią. Pomagają w podejmowaniu decyzji, prowadzeniu biznesu, uzyskiwaniu poparcia politycznego. Ale mają wadę – łatwo się nimi manipuluje
Czy zachęcę pana do wizyty u lekarza, jeśli wskażę, że np. choroby krążenia są szczególnie groźne dla mężczyzn?
Nie jestem najlepszym kandydatem do przeprowadzenia takiej ankiety, bo zdaję sobie sprawę, że pan wyciągnie wnioski według swojego rozumienia tego pytania, a ja odpowiadam na nie wedle swojego. To jeden z podstawowych problemów w przekazywaniu informacji. Istotą komunikacji jest to, że nadawca i odbiorca rozumieją tekst tak samo. Jeśli jest inaczej – pojawiają się zgrzyty. Niejednokrotnie kontaktują się z nami firmy, które chcą zrobić jakieś badania i usiłują uzyskać przez telefon odpowiedzi na interesujące je pytania. Jedno z nich brzmiało na przykład: czy mógłby pan ocenić swój stan zdrowia w skali od 1 do 5? Odpowiedziałem, że nie jestem w stanie odpowiedzieć, bo jak na swój wiek – w porównaniu z rówieśnikami – czuję się świetnie, ale biorąc pod uwagę to, jak chciałbym się czuć, to mój stan zdrowia oceniłbym najwyżej jako przeciętny. Odpowiedź może więc być różna w zależności od tego, jak rozumiemy pytanie. A potem okazuje się, że z jakichś badań wynika, że 70 proc. Polaków czuje się nieźle.
Ja chciałem sprawdzić, czy nie byłby pan bardziej przekonany do wizyty u lekarza, gdybym po pierwszym pytaniu dodał, że śmiertelność mężczyzn zapadających na te choroby wynosi, powiedzmy, 90 proc., a ryzyko zachorowania w pana przedziale wiekowym wzrasta o połowę?
Prawdopodobnie mocno by mnie pan przestraszył.
Czyli posługiwanie się danymi statystycznymi wzmacnia przekaz? Powoduje, że przywiązujemy większą wagę do informacji? Z liczbami się nie dyskutuje.
Nie do końca, bo ja jednak do lekarza pewnie i tak bym nie poszedł. Skoro ma mnie dopaść nieszczęście, to po co mi wiedza o tym. Na pewno statystyka jest używana w kontaktach międzyludzkich i to do różnych celów. Jednym z nich może być np. pognębienie przeciwnika w dyskusji. Wystarczy zacytować jakieś liczby, których rozmówca nie zna i nie jest w stanie ich zweryfikować lub nie może przedstawić informacji odmiennych. Dane statystyczne mogą też służyć do uzasadnienia swoich decyzji, potwierdzać ich słuszność. Rzadziej zdarza się natomiast, by statystyki były wykorzystywane przy podejmowaniu decyzji. A już z pewnością nie opieramy swoich wyborów na wszystkich dostępnych danych.
Coraz częściej jednak zanim podejmiemy decyzję, staramy się najpierw sprawdzić wszelkie informacje, które ułatwią jej podjęcie – gdy wybieramy hotel na wakacje, zerkamy, jaką ma ocenę na portalu zajmującym się turystyką; gdy idziemy do kina, zapoznajemy się ze średnią oceną filmu na portalach filmowych itp.
Trudno mówić w tych przypadkach o statystyce. Umieszczanie pozytywnych ocen na portalach internetowych jest już działalnością zawodową. Taką usługę można kupić. Bardziej wartościowe byłoby szukanie postów negatywnych, ale i te można zamówić, jeśli chce się walczyć z konkurencją.
Danymi statystycznymi kierujemy się dziś także w ważniejszych sprawach. Na przykład kandydat na studia zastanowi się dwa razy, zanim złoży dokumenty na psychologię, skoro co roku o jedno miejsce na tym kierunku ubiega się średnio 30 osób.
To także przykład manipulowania liczbami. Nikt nie mówi, dlaczego tak dużo osób przypada na jedno miejsce na studiach. Dziś jedna osoba może aplikować na 15 kierunków, więc dlaczego ma nie złożyć papierów także na psychologię? Dużo bardziej wartościowy jest inny wskaźnik: który ze studentów na liście chętnych był w poprzednim roku przyjęty jako ostatni na dany kierunek. Jeżeli na daną specjalność było chętnych np. aż 5 tys. osób, a miejsc jest 100, to wydaje się, że szanse na indeks są nieduże. Ale jeśli okaże się, że ostatni przyjęty zajął na liście rankingowej kandydatów miejsce numer 4 tys. i się dostał, to studiowanie na tym kierunku jest w zasięgu ręki. Stałoby się tak, gdyby 3,9 tys. osób z lepszymi wynikami po rekrutacji zrezygnowało z niego, bo wybrały inny kierunek, na który także złożyły dokumenty.
Korzystamy z niewłaściwych danych, a nie umiemy szukać wartościowych?
Statystyki to zazwyczaj argument w dyskusji, przedstawiany przez podmiot, któremu zależy na osiągnięciu jakiegoś celu – w tym przypadku na wywołaniu wrażenia, że dany kierunek jest bardzo popularny i pożądany przez kandydatów. I często takim sugestiom ulegamy.
Popularne są coraz bardziej także wszelkiej maści rankingi, np. 10 zawodów, po których jest praca, albo 5 pralek, które najrzadziej się psują. Niby nie traktujemy ich poważnie, ale czy nie kierujemy się nimi w życiu?
One najczęściej nie bazują na danych statystycznych, a na opiniach osób. Przecież np. serwis gwarancyjny jakiejś firmy nie przekaże informacji o tym, kiedy psują się jej produkty. Błędem jest też korzystanie tylko z jednego źródła wiedzy. Jeśli np. dane o zawodach, w których potrzebni są specjaliści, pochodzą wyłącznie z urzędów pracy, to takie informacje też nie są do końca wiarygodne, bo – jak sądzę – większość osób znajduje zatrudnienie w inny sposób niż przez pośredniaki.
Wracając do kwestii poważnych. Czy statystyka nie determinuje coraz częściej działań politycznych? Podobno partie przed każdą ważną decyzją polityczną zlecają przeprowadzanie sondaży, żeby sprawdzić, jak przyjmą ją wyborcy. Wydaje się śmieszne, ale czy nie jest skuteczne?
Odpowiadając na to pytanie, skorzystam z prawa do szczerego powiedzenia „nie wiem”. To znaczy nie wiem, czy informacja statystyczna determinuje decyzje głównych aktorów sceny politycznej. Nie zwierzają mi się i nie mam okazji ich obserwować z tak bliska. Sam pomysł, żeby ktoś badał percepcję ewentualnych działań politycznych, nie wydaje się bezsensowny. Możliwe są różne badania dotyczące rozumienia i oceny tego samego działania prezentowanego w różny sposób różnym odbiorcom. Aktor sceny politycznej może od wyniku takiego badania uzależniać albo to, czy jakieś działanie podejmie, albo tylko, w jaki sposób to działanie przeprowadzi (przedstawi). Dlatego skuteczność można rozumieć dwojako. Skuteczne wsparcie daje badanie, które może powstrzymać przed podjęciem działania niepopularnego, albo takie, które wskaże najlepszą metodę przeprowadzenia działania. Statystyka w tych kwestiach odgrywa pewną rolę, ale tylko pomocniczą. Istotą jest przeprowadzenie badań (eksperymentów), których wyniki statystycznie się analizuje.
Statystyki mogą być nawet kamieniem węgielnym nowych partii. Wystarczy, że np. z sondaży będzie wynikać, że wyborcom brakuje ugrupowania, które jest np. antyklerykalne i liberalne w kwestiach światopoglądowych, a może pojawić się nowy twór polityczny.
Jeśli ktoś chce zaistnieć w polityce, może poszukać niereprezentowanej grupy wyborców, takiej, która nie znajduje na scenie politycznej ugrupowania, na które chciałaby oddać głos. To racjonalne. Pojawia się pytanie, czy metodologia, którą wypracowały nauki społeczne, umożliwia skuteczne wskazanie takiej grupy. Na pewno nie ma w tym zakresie narzędzi niezawodnych. Nie sądzę, aby przydatne były masowe badania. W takim przypadku trzeba byłoby indywidualnie porozmawiać z ankietowanym, nawiązać z nim kontakt.
Wyborcy też stają się niewolnikami statystyk. Działają w myśl zasady: jeśli partia w sondażach ma mniej niż 5 proc. poparcia, to nie będę marnował głosu i oddam go na większe ugrupowanie, które podoba mi się znacznie mniej, ale może wygrać z tym, którego nie cierpię.
O tym się mówi, ale nikt nie przeprowadził rzetelnych badań na temat wpływu informacji sondażowych na podjęcie decyzji w wyborach. Pojawiły się propozycje, aby w ogóle zakazać publikowania sondaży poparcia dla partii politycznych. Tyle że to w praktyce pozbawiłoby wyborców informacji o rzeczywistej sile konkretnych ugrupowań. Skutek dla mniejszych partii mógłby być jeszcze bardziej fatalny niż ten, jaki może wywoływać publikowanie statystyk. Skoro ugrupowanie jest nieduże, do tej pory nie odnosiło sukcesów wyborczych, a głosujący nie mają żadnej wiedzy o poparciu dla niego, to tym bardziej mogą podjąć decyzję o tym, że nie zagłosują na nie. Moim zdaniem przecenia się wpływ sondaży na wybór partii, na którą oddaje się głos. Mają one za to duże znaczenie w debacie publicznej – są często przedmiotem dyskusji i sporów, zwłaszcza w mediach.
Skoro jednak statystyki mają znaczenie dla polityków, to czy nie wpływają też chociażby na prawo, jakie stanowimy? Koronnym argumentem przeciwników kary śmierci jest to, że w momencie popełniania przestępstwa – jak wskazują badania – nie myśli się o ewentualnej sankcji za nie. Z kolei przeciwnicy wsadzania dłużników alimentacyjnych do więzień przekonują, że to statystycznie najmniej skuteczna sankcja, bo przecież taka osoba na pewno alimentów nie zapłaci.
Takie zagadnienia trzeba badać eksperymentalnie, trzeba sprawdzać, jakie są skutki zastosowania poszczególnych kar. Z tego, że procentowo uda się określić np. ściągalność długów alimentacyjnych, niewiele wynika. Żeby rzeczywiście zbadać skutki zastosowania poszczególnych sankcji, trzeba byłoby np. część dłużników alimentacyjnych umieścić w więzieniu, wobec pozostałych zastosować z kolei mniej dotkliwe kary. A następnie sprawdzić, co daje lepsze efekty. Bez tak przeprowadzanych badań zwolennicy poszczególnych rodzajów kar mogą tylko przerzucać się niewiele mówiącymi liczbami. Nie można też twierdzić, że jeśli jakiś inny kraj zastosował daną karę lub nie i spadła tam liczba przestępstw, to wprowadzenie takich rozwiązań na naszym gruncie spowoduje podobny efekt. Przecież poszczególne kraje istotnie się od siebie różnią.
Czyli należy unikać szukania za wszelką cenę zależności między poszczególnymi danymi statystycznymi?
Jest taki portal internetowy, w którym publikowane są badania korelacji wszystkiego ze wszystkim. Autorzy przedstawiają zależność np. wysokości PKB w danym państwie i popularności konkretnego zespołu muzycznego.
Żeby wykazać nonsens niektórych badań lub tez stawianych na podstawie danych statystycznych?
Nie tylko. To mogą być zależności z pozoru śmieszne, ale prawdziwe i po prostu źle zrozumiane. Jak klasyczny już przykład, że gdy do pożaru przyjeżdża więcej strażaków, to straty są większe. Z tej informacji nie należy wyciągnąć wniosku, że do pożaru powinna być wysyłana mniejsza liczba funkcjonariuszy. Przecież więcej osób wysyła się do większego pożaru, a skoro pożar jest duży, to i straty są większe. Zależności statystyczne niezmiernie często są pozorne w tym sensie, że obserwujemy dwa różne skutki tego samego zjawiska, ale błędnie jeden z nich bierzemy za przyczynę drugiego, tak jak w przypadku liczby strażaków i wysokości strat. Podobnie może być z PKB i zespołami muzycznymi – np. zamiłowanie do zespołów anglojęzycznych jest w tym sensie zbieżne z PKB, że ten ostatni jest wysoki w krajach anglojęzycznych lub takich, w których znajomość tego języka jest wysoka.
A czy w ogóle potrafimy dobrze wykorzystywać dane statystyczne do ważnych celów, np. ograniczenia wydatków publicznych?
Nie najlepiej. Dobry przykład to pilotażowy projekt badania statystycznego, który miał być realizowany przez Fundację Batorego przy współpracy z NFZ i ZUS. Chodziło o zbadanie efektywności kosztowej i zdrowotnej kilku terapii wybranych chorób przewlekłych – w tym przypadku chodziło m.in. o stwardnienie rozsiane. Terapie różniły się kosztami, więc NFZ był zainteresowany stosowaniem tej umożliwiającej ograniczenie wydatków. Fundusz jest w stanie rejestrować przebieg wspomnianej choroby. Jeśli choroba postępuje, dana osoba musi przejść na rentę. I to jest z kolei odnotowywane w ZUS, podobnie jak wcześniejsze zwolnienia lekarskie. Można by więc połączyć informacje zebrane przez obie instytucje i oszacować koszt terapii – czyli wydatki na leczenie poniesione przez NFZ i wydatki na świadczenia poniesione przez ZUS. Skoro są stosowane różne terapie, można by porównać ich skuteczność. Mogłoby się np. okazać, że leczenie – choć kosztowniejsze z punktu widzenia NFZ – z perspektywy rachunków publicznych jest tańsze, bo chory nie musi dzięki niemu korzystać z renty. Ostatecznie jednak taki projekt nie będzie realizowany.
Dlaczego?
Zgody na połączenie informacji z tych dwóch zbiorów danych nie wyraża generalny inspektor ochrony danych osobowych. Takie decyzje najczęściej biorą się z braku wiedzy o tym, czym jest badanie statystyczne. W tym przypadku zatrzymano jego przeprowadzenie ze względu na konieczność zadbania o anonimowość danych. Tyle że w badaniu statystycznym anonimowość polega na tym, że nie ma ono skutku dla danej osoby, który by zależał od konkretnych wyników jego badania. Czyli np. jeśli w szkole mierzy się wzrost oraz wagę dzieci i okaże się, że w jednej klasie są sami chudzielcy, to trzeba te dzieciaki dożywić. Jeżeli cała klasa otrzyma w związku z tym drugie śniadanie, wyniki badania wykorzystane są prawidłowo, bo każde dziecko dostanie posiłek. Zasada anonimowości byłaby naruszona, gdyby dyrektor wezwał do szkoły rodziców jednego dziecka i zasugerował konieczność jego lepszego odżywiania. Wówczas powstałby skutek dla indywidualnej osoby zależny od wyniku badania. Istnieją organizacyjne, techniczne i programistyczne środki, dzięki którym w trakcie prowadzenia analiz statystycznych dostęp do danych jednostkowych nie jest możliwy. Dodatkowo analizowane dane są anonimowe i mogą być zaszyfrowane, a raporty statystyczne dotyczą zbiorowości jako całości, a nie jednostek. Niestety decydenci nie rozumieją tego i w imię ochrony danych osobowych zatrzymują badania, które mogłyby być bardzo pożyteczne. To podstawowa bariera w wykorzystywaniu informacji, którymi państwo dysponuje.
A czy przedsiębiorcy wykorzystują statystyki skuteczniej? Dziś trudno sobie wyobrazić, że jakaś firma wchodzi z produktem na rynek bez uprzedniego sprawdzenia docelowych grup sprzedaży czy wieku konsumentów.
Firmy radzą sobie pod tym względem znacznie lepiej niż instytucje publiczne. Ale trzeba pilnować, żeby nie postępowały w sposób, który zaczyna być groźny dla konsumentów. Dla przykładu ostatnio szukałem w internecie informacji o bateriach do aparatu fotograficznego. Od tego czasu przez dwa tygodnie na każdym portalu internetowym, który odwiedzałem, wyświetlała się reklama producenta baterii. W celach komercyjnych ktoś obserwuje użytkownika, po czym działa wobec niego zależnie od wyniku obserwacji – mimo że dla niego jest on anonimowy, zna jedynie co najwyżej IP jego komputera. To już nie jest badanie statystyczne.
Łatwo wyobrazić sobie jeszcze skuteczniejsze sposoby na manipulację informacjami w celach komercyjnych.
Oczywiście. Można przecież np. założyć portal o charakterze informacyjnym i na podstawie danych o tym, co interesuje danego użytkownika, zamieszczać jedynie newsy, które go zajmują i są zgodne z jego wyobrażeniem o świecie. W ten sposób upewnia się go, że jego wizja rzeczywistości jest prawdziwa, a jednocześnie wprowadza się go w błąd. To byłaby bardzo duża manipulacja. Ale jest możliwa.
W celach komercyjnych firmy już teraz często wykorzystują dane statystyczne do wykazywania wyższości swoich produktów nad innymi. Któż w Polsce nie wie, którą pastę do zębów najczęściej wybierają dentyści...
Takich informacji najczęściej nie jesteśmy w stanie zweryfikować. Na pewno niektóre przedstawiane w ten sposób dane są fikcyjne, a niektóre podparte byle jak przeprowadzonymi badaniami, najczęściej telefonicznymi, bez możliwości sprawdzenia ich rzetelności. Warto jednak sprawdzić, jeśli to w ogóle możliwe, źródło takich informacji. Jeśli okaże się, że np. na podstawie niemieckiej okresowej kontroli pojazdów oszacowano, że dany model samochodu najrzadziej ma usterki, to przynajmniej wiemy, skąd pochodzi taka informacja. Nie musimy takiemu źródłu ufać, ale je znamy.
Czy manipulacji danymi statystycznymi nie ułatwia to, że każdy może z nich wysnuć tezę, jaką chce? Dla przykładu: resort pracy opublikował dane o bezrobociu wśród młodych. Następnego dnia w jednej gazecie znalazł się artykuł, z którego wynikało, że sytuacja młodych się poprawia, bo obecne bezrobocie jest niższe od tego zarejestrowanego w przedziale 15–24 lat w 2005 r. Inny tytuł tego samego dnia zamieścił dramatyczny tekst o tym, że jest coraz gorzej, bo udział osób młodych w ogólnej liczbie bezrobotnych wciąż rośnie.
Najczęściej spośród wielu badań statystycznych, które zostały przeprowadzone, cytujemy tylko te, które potwierdzają nasze tezy, a pomijamy te, które są z nimi sprzeczne. Interpretacja danych statystycznych to delikatna kwestia. Zależy od wielu czynników – od tła, na jakim przedstawia się swoją analizę, czy wiedzy, jaką posiada odbiorca. U różnych osób przekaz może wywoływać całkowicie odmienne opinie lub wywoływać podjęcie innych decyzji.
Jak zatem czytać dane statystyczne, aby nie poddawać się manipulacji?
Szukajmy informacji, które są nam potrzebne. Jeżeli muszę podjąć jakąś decyzję lub wyrobić sobie w jakiejś kwestii pogląd, to powinienem zdefiniować, czego chcę się dowiedzieć, i szukać potrzebnych informacji. Błędem jest nastawienie, że jakakolwiek przedstawiona mi informacja jest wystarczająca, a ja muszę się do niej jedynie ustosunkować. Wtedy jestem narażony na to, że w sposób niekontrolowany podlegam obcym sugestiom. Jeżeli nie zdobędę potrzebnych mi informacji, przynajmniej będę wiedział, czego nie wiem.