Podstawowym celem badaczy nauk społecznych i ekonomicznych jest wyciąganie wniosków na podstawie badań empirycznych. Ważne jest, by otrzymane wyniki były spójne, możliwe do uogólnienia i powtórzenia. Przykładowo analizy przeprowadzone dla jednego kraju winny być w łatwy sposób replikowalne z wykorzystaniem danych z innych państw. Ale wiarygodność wyników empirycznych w dużej mierze zależy od sposobu, w jaki badacze wykorzystują i analizują pozyskane informacje.

Naukowcy podejmują setki decyzji dotyczących gromadzenia, przygotowania i przetwarzania danych. Wiele z nich – zazwyczaj model i metoda estymacji – jest szczegółowo opisywanych, ale wiele z tych działań, często bardzo technicznych, jest niejako ukrytych i dostępnych tylko po analizie kodu źródłowego. Informacje nie są ukryte celowo. Po prostu publikacje naukowe mają ograniczenia dotyczące liczby stron czy słów. Częściej skupiają się na dokładnym opisaniu wniosków, a nie zagłębiają się w techniczne szczegóły.

Wiele z tych decyzji wydaje się też być nieznacząca, bo czy usunięcie kilku obserwacji z kilkutysięcznego zbioru danych może mieć wpływ na wyniki? Wyobraźmy sobie zbiór danych o mieszkańcach gminy X. Załóżmy, że chcemy zbadać, czy kobiety rzeczywiście zarabiają tam mniej niż mężczyźni. Problem pojawia się, gdy brakuje części danych, np. o edukacji. Badacz staje przed wyborem: usunąć ze zbioru osoby, o których nie ma pełnych informacji, czy też spróbować – w rozsądny sposób – samodzielnie je uzupełnić? Inna wątpliwość: w jaki sposób pogrupować lata edukacji, żeby uzyskać poziomy wykształcenia? Czy 12 lat edukacji zawsze oznacza wykształcenie średnie? A w jaki sposób zakodować odpowiedzi „Odmawiam odpowiedzi na to pytanie”? Możemy mnożyć takie wątpliwości niemal w nieskończoność.

Amerykańscy naukowcy pod kierunkiem Nicka Huntington-Kleina (Uniwersytet w Seattle) postanowili sprawdzić, jak duży jest wpływ takich – wydawać by się mogło – mało znaczących decyzji na wyniki badań. Wykorzystali dwie opublikowane wcześniej prace, które zostały powtórzone przez siedmiu badaczy. Każdy z nich dysponował dokładnie takim samym zestawem danych, aby odpowiedzieć na to samo pytanie. Wnioski z eksperymentu są szokujące: każdy inaczej wybrał obiekty w swojej próbie badawczej. Żaden nie pracował z dokładnie taką samą liczbą obserwacji. Co więcej, nikt nie był w stanie dokładnie zreplikować próby z oryginalnej publikacji. Istotność statystyczna oszacowanych efektów różniła się w zależności od powtórzenia, a w przypadku jednego badania oszacowany znak był przeciwny – dodatni wpływ w oryginalnym badaniu stał się ujemny. Stwierdzono zatem znaczne zróżnicowanie zarówno wyników, jak i konstrukcji zbioru danych.

Zróżnicowanie między replikacjami oznacza, że nawet w opublikowanych wynikach badań pozostaje spora niepewność i należy do nich podchodzić z dozą ostrożności. Co więcej, znaczna część różnic we wnioskach wynika z etapu czyszczenia danych, w którym wiele decyzji podejmowanych przez badaczy może być trudnych do zauważenia i oceny. Zatem problemy z wiarygodnością publikowanych badań w dużej mierze wynikają ze swobody, z jaką analitycy dysponują danymi. Jak wiele więc zależy od analityka? Wszystko.

Różnice nie wynikają z tego, że ktoś źle coś policzył, ale z tego, że każdy policzył coś dobrze, ale w inny sposób. Jednym z sugerowanych rozwiązań problemu jest dodawanie do publikacji szczegółowych dodatków zawierających wszystkie techniczne decyzje analityka wraz z kodem źródłowym. Przykładowo American Economic Association od 2020 r. prosi o dodanie kodu do każdego artykułu. Znaczącym ułatwieniem byłaby również standaryzacja procesu czyszczenia danych przez dostawców surowych danych.

Huntington-Klein prowadzi obecnie drugą rundę badań nad replikowalnością wyników empirycznych, do której zgłosiło się ponad 200 naukowców i analityków danych z całego świata, również z Polski. Wyniki najnowszego eksperymentu poznamy w styczniu 2024 r. ©Ⓟ