Sieci społeczne jako ukryte źródło błędów statystycznych

Zbliżono się do wyjaśnienia małej powtarzalności eksperymentów bazujących na tych samych danych.

Statystyka łatwo daje odpowiedzi, ale trudno o pewność, na które pytania. Dzieje się tak ze względu na zderzenie złożoności procesów generujących dane z założeniami o tych danych i narzędziach dostarczających odpowiedzi. Zasada, którą powszechnie stosują statystycy, to niezależność obserwacji. Choć często założenie jest spełnione, ludzie egzystują w sieci powiązań. Zaś ignorowanie tych relacji może prowadzić do odpowiedzi na inne pytania niż zadane przez naukowców, zwłaszcza w badaniach na małych próbach.

Badania w naukach społecznych czy naukach o zdrowiu są kosztowne – ludzi trzeba namówić do eksperymentu, który musi zostać przeprowadzony w kontrolowanych warunkach. Z tego powodu wiele badań przeprowadza się na małych próbach – dane często pochodzą z jednej szkoły, firmy czy szpitala. Ludzie w takich grupach to często znajomi, krewni czy sąsiedzi.

Youjin Lee oraz Elizabeth Ogburn (obie z Johns Hopkins Bloomberg School of Public Health) wykazały matematycznie, że możliwa jest sytuacja, w której pozorne zależności między zmiennymi (np. cechy pacjenta i wynik choroby) manifestują się w danych, choć nie ma między nimi związku przyczynowo-skutkowego. Dzieje się tak ze względu na powiązania i podobieństwo osób powiązanych w sieci. Niewzięcie pod uwagę tych zależności prowadzi do błędnych oszacowań, bo zakłócają one badanie co najmniej na dwa sposoby. Po pierwsze, ukrywają w sobie zmienną (to może być homofilia, genetyka, geografia czy środowisko) wpływającą na podobieństwo obserwacji. Po drugie, sieć jest medium przekazywania informacji czy szerzej – zasobów.

Autorki badania zaproponowały nowy test statystyczny, mogący wykrywać obecność powiązań sieciowych – czerpiąc inspiracje z literatury zajmującej się powiązaniami przestrzennymi. Metodę zastosowały na popularnym zbiorze danych Framingham Heart Study, pochodzącym z badania epidemiologicznego dotyczącego chorób serca. Ich wyniki sugerują, że wiele z opublikowanych na tych danych badań mogło prezentować zbyt optymistyczne wyniki.

Wnioski z pracy Lee i Ogburn przyczyniają się do wyjaśnienia małej powtarzalności eksperymentów bazujących na tych samych danych. Po części wynika to zapewne z faktu, że nie brano pod uwagę sieciowych powiązań łączących ludzi. Remedium na tego typu problemy to zbieranie danych od osób niezależnych od siebie, przeprowadzanie badań na dużą skalę lub branie pod uwagę ich zależności sieciowych między sobą w modelach explicite.

Prekursor matematyki statystycznej Karl Pearson mawiał, że „statystyka jest gramatyką nauki”. To na jej fundamentach i za pomocą jej narzędzi dochodzi do większości odkryć naukowych. Ważne więc, aby inwestować w lepsze rozumienie narzędzi statystycznych i procesów generujących dane oraz podnosić wykształcenie statystyczne naukowców z nimi pracujących. ©Ⓟ

Autor jest ekonomistą GRAPE

Hubert Drążkowski Ekonomista GRAPE. Doktorant na Uniwersytecie Kopenhaskim. Z wykształcenia ekonomista (Szkoła Główna Handlowa) i matematyk (Politechnika Warszawska). Zajmuje się zarówno teoretycznymi, jak i praktycznymi aspektami uczenia maszynowego, w tym modelowaniem przyczynowym oraz podejmowaniem decyzji sekwencyjnych.

Dalszy ciąg materiału pod wideo

Źródło: MAGAZYN Dziennik Gazeta Prawna

Hubert Drążkowski

Zobacz wszystkie artykuły tego autora

Sieci społeczne jako ukryte źródło błędów statystycznych »

Tematy: badania naukowe statystyka

Drukuj

Skopiuj link

Zgłoś błąd na stronie

Oceń jakość naszego artykułu

Dziękujemy za Twoją ocenę!

Twoja opinia jest dla nas bardzo ważna

Powiedz nam, jak możemy poprawić artykuł.
Zaznacz określenie, które dotyczy przeczytanej treści:

Jest nieaktualna

Jest niedokładna

Nie dotyczy informacji, których szukam

Inny powód

Reklama

Zobacz więcej