Podstawowym celem badaczy nauk społecznych i ekonomicznych jest wyciąganie wniosków na podstawie badań empirycznych. Ważne jest, by otrzymane wyniki były spójne, możliwe do uogólnienia i powtórzenia. Przykładowo analizy przeprowadzone dla jednego kraju winny być w łatwy sposób replikowalne z wykorzystaniem danych z innych państw. Ale wiarygodność wyników empirycznych w dużej mierze zależy od sposobu, w jaki badacze wykorzystują i analizują pozyskane informacje.
Naukowcy podejmują setki decyzji dotyczących gromadzenia, przygotowania i przetwarzania danych. Wiele z nich – zazwyczaj model i metoda estymacji – jest szczegółowo opisywanych, ale wiele z tych działań, często bardzo technicznych, jest niejako ukrytych i dostępnych tylko po analizie kodu źródłowego. Informacje nie są ukryte celowo. Po prostu publikacje naukowe mają ograniczenia dotyczące liczby stron czy słów. Częściej skupiają się na dokładnym opisaniu wniosków, a nie zagłębiają się w techniczne szczegóły.
Wiele z tych decyzji wydaje się też być nieznacząca, bo czy usunięcie kilku obserwacji z kilkutysięcznego zbioru danych może mieć wpływ na wyniki? Wyobraźmy sobie zbiór danych o mieszkańcach gminy X. Załóżmy, że chcemy zbadać, czy kobiety rzeczywiście zarabiają tam mniej niż mężczyźni. Problem pojawia się, gdy brakuje części danych, np. o edukacji. Badacz staje przed wyborem: usunąć ze zbioru osoby, o których nie ma pełnych informacji, czy też spróbować – w rozsądny sposób – samodzielnie je uzupełnić? Inna wątpliwość: w jaki sposób pogrupować lata edukacji, żeby uzyskać poziomy wykształcenia? Czy 12 lat edukacji zawsze oznacza wykształcenie średnie? A w jaki sposób zakodować odpowiedzi „Odmawiam odpowiedzi na to pytanie”? Możemy mnożyć takie wątpliwości niemal w nieskończoność.
Załóż konto lub zaloguj się
i zyskaj dostęp na 14 dni za darmo.
Materiał chroniony prawem autorskim - wszelkie prawa zastrzeżone.
Dalsze rozpowszechnianie artykułu za zgodą wydawcy INFOR PL S.A. Kup licencję.