Statystyka łatwo daje odpowiedzi, ale trudno o pewność, na które pytania. Dzieje się tak ze względu na zderzenie złożoności procesów generujących dane z założeniami o tych danych i narzędziach dostarczających odpowiedzi. Zasada, którą powszechnie stosują statystycy, to niezależność obserwacji. Choć często założenie jest spełnione, ludzie egzystują w sieci powiązań. Zaś ignorowanie tych relacji może prowadzić do odpowiedzi na inne pytania niż zadane przez naukowców, zwłaszcza w badaniach na małych próbach.
Badania w naukach społecznych czy naukach o zdrowiu są kosztowne – ludzi trzeba namówić do eksperymentu, który musi zostać przeprowadzony w kontrolowanych warunkach. Z tego powodu wiele badań przeprowadza się na małych próbach – dane często pochodzą z jednej szkoły, firmy czy szpitala. Ludzie w takich grupach to często znajomi, krewni czy sąsiedzi.
Youjin Lee oraz Elizabeth Ogburn (obie z Johns Hopkins Bloomberg School of Public Health) wykazały matematycznie, że możliwa jest sytuacja, w której pozorne zależności między zmiennymi (np. cechy pacjenta i wynik choroby) manifestują się w danych, choć nie ma między nimi związku przyczynowo-skutkowego. Dzieje się tak ze względu na powiązania i podobieństwo osób powiązanych w sieci. Niewzięcie pod uwagę tych zależności prowadzi do błędnych oszacowań, bo zakłócają one badanie co najmniej na dwa sposoby. Po pierwsze, ukrywają w sobie zmienną (to może być homofilia, genetyka, geografia czy środowisko) wpływającą na podobieństwo obserwacji. Po drugie, sieć jest medium przekazywania informacji czy szerzej – zasobów.
Autorki badania zaproponowały nowy test statystyczny, mogący wykrywać obecność powiązań sieciowych – czerpiąc inspiracje z literatury zajmującej się powiązaniami przestrzennymi. Metodę zastosowały na popularnym zbiorze danych Framingham Heart Study, pochodzącym z badania epidemiologicznego dotyczącego chorób serca. Ich wyniki sugerują, że wiele z opublikowanych na tych danych badań mogło prezentować zbyt optymistyczne wyniki.
Wnioski z pracy Lee i Ogburn przyczyniają się do wyjaśnienia małej powtarzalności eksperymentów bazujących na tych samych danych. Po części wynika to zapewne z faktu, że nie brano pod uwagę sieciowych powiązań łączących ludzi. Remedium na tego typu problemy to zbieranie danych od osób niezależnych od siebie, przeprowadzanie badań na dużą skalę lub branie pod uwagę ich zależności sieciowych między sobą w modelach explicite.
Prekursor matematyki statystycznej Karl Pearson mawiał, że „statystyka jest gramatyką nauki”. To na jej fundamentach i za pomocą jej narzędzi dochodzi do większości odkryć naukowych. Ważne więc, aby inwestować w lepsze rozumienie narzędzi statystycznych i procesów generujących dane oraz podnosić wykształcenie statystyczne naukowców z nimi pracujących. ©Ⓟ