Któż mógłby konkurować z ekspertami? Tylko tłum

Odkąd popularnonaukowy publicysta James Surowiecki opublikował w 2004 r. „Mądrość tłumu”, w której udowadniał zasadność tytułu, tłumem można było się wielokrotnie rozczarować. Wystarczy wspomnieć choćby stadne zachowania kredytobiorców oraz inwestorów i wywołaną przez nie w USA w 2008 r. zapaść finansową, która rozlała się na cały świat. Globalna gospodarka posypała się, co sprawiło, że tłumy niezadowolonych wyległy na ulice.
Może więc Surowiecki się myli? Może tłum to motłoch i rację miał Gustave Le Bon, który już w 1895 r. w „Psychologii tłumu” pisał, że ten „nie pożąda prawdy” i „ubóstwia zwodnicze złudzenia”?

Z dala od zgromadzeń

Ale wstrzymaj się, czytelniku, przed powtórzeniem za Horacym „Odi profanum vulgus et arceo”, że nienawidzisz ciemnego tłumu i trzymasz się odeń z dala.
Odróżnijmy tłum, o którym mówił Surowiecki, od tłumu opisywanego przez Le Bona. Ten drugi to grupa ludzi zgromadzonych z jakiejś przyczyny w jednym miejscu. Przyczyną może być wspólny interes, jak w przypadku protestujących przed siedzibą premiera związkowców. Mogą nią być interesy sprzeczne, jak w przypadku ludzi szturmujących supermarkety w czarny piątek. Albo zwykłe zrządzenie losu, jak w przypadku gapiów obserwujących miejsce wypadku. Każdy z tych tłumów może w pewnych okolicznościach stać się niezbyt przyjaznym „ruchliwym stadem, ulegającym wszelkim impulsom”.
Tłum w rozumieniu Le Bona jest nieprzewidywalny, ale nie aż tak interesujący, jak ten w ujęciu Surowieckiego. W tym przypadku tłum rozumiany jest bardzo szeroko: jako zbiór jednostek, które mają w danej kwestii jakieś zdanie bądź podejmują pewne działania w danej dziedzinie, przy czym wcale nie muszą gromadzić się w jednym miejscu. Tłumem jest składająca się z nieznających się osób społeczność edytorów Wikipedii, konsumenci czy inwestorzy giełdowi, a wreszcie wyborcy.
A mądrość tłumów? Polega na tym – w dużym uproszczeniu – że średnia opinii osób tworzących zbiorowość jest bliższa prawdy, a finalny rezultat ich działań jest skuteczniejszy niż w przypadku działań jednostkowych. Całość mądrzejsza od części. Śmiała teza, ale do obrony. Surowiecki się nie mylił. Na dowód można przytoczyć dziesiątki eksperymentów, w których tłum próbuje oszacować jakąś wielkość, np. liczbę kul w dużym pojemniku albo wagę badacza – i okazuje się, że te kalkulacje po uśrednieniu są zbieżne z prawdą lub jej bliskie. Ale przecież hektolitry atramentu wylano już na takie streszczenia. Ziewalibyście z nudów. Naprawdę mocnych dowodów za mądrością tłumów dostarcza nam nie laboratorium, a życie. Pandemia.
Gdy w Europie zaczęły pojawiać się pierwsze przypadki wirusa, niewiele było o nim wiadomo. Niektórzy twierdzili, że jest jak grypa sezonowa, inni – że jak hiszpanka. Jedni radzili żyć normalnie, inni – zamykać się w domach. Trudno o wyciągnięcie średniej arytmetycznej z takich sprzeczności. Na szczęście teoria o mądrości tłumów głosi, że owa mądrość objawia się nie tylko w tym, co ludzie mówią, ale też w tym, co robią. Zwłaszcza w tym, co robią – bo czyny bywają inne niż słowa.
I faktycznie – pandemia potwierdziła, że praktyczne szacowanie ryzyka epidemicznego w wymiarze społecznym szło często na przekór indywidualnym deklaracjom. Było też od nich trafniejsze, biorąc pod uwagę to, co o pandemii wiemy dzisiaj – że w ciągu roku dotknęła już 70 mln osób i zabiła 1,6 mln. Oto bowiem, jak pokazują dane geolokacyjne ze smartfonów, ograniczaliśmy mobilność i stosowaliśmy społeczne dystansowanie jeszcze zanim rządy wprowadziły bądź zaostrzyły restrykcje sanitarne. Byliśmy – jako zbiorowość – przezorni, działaliśmy zawczasu. Dotyczy to (choć w różnym stopniu) zarówno USA, Szwecji czy Polski.
Nasilenie pisania tweetów na pandemiczne tematy poprzedzało ostrzejszy przebieg epidemii (większą liczbę zgonów w regionie, z którego pochodzą tweety). I to z miesięcznym wyprzedzeniem
Analiza niektórych zachowań tłumu umożliwia wręcz przewidywanie rozwoju zarazy. David Turiel, Delmiro Fernandez Reyes oraz Tomaso Aste z Kolegium Uniwersyteckiego w Londynie zbadali intensywność, z jaką „ćwierkali” na pandemiczne tematy użytkownicy Twittera z Włoch, Hiszpanii i USA. Okazało się, że nasilenie wpisów poprzedzało ostrzejszy przebieg epidemii (większą liczbę zgonów w regionie, z którego pochodzą tweety). I to z miesięcznym wyprzedzeniem. Szczególnie wyraźnie widać to było we Włoszech, gdzie „predyktywną moc (tweetów – red.) odnotowano, zanim oficjalne dane o lokalnych zakażeniach były dostępne”.
„To jeden z przykładów, gdy mądrość tłumów może być kwantyfikowana i stosowana w praktyce. Można jej użyć do stworzenia działających w czasie rzeczywistym systemów alarmowych pomocnych w zarządzaniu kryzysem i interwencjami” – piszą naukowcy. Tłum nie tylko jest mądry. Może też nas uratować.

Bez debaty można przeżyć

Korzystanie z mądrości tłumów do prognozowania wybuchów epidemii może wydawać się pieśnią przyszłości w Europie czy USA, ale nie na Tajwanie, który z „koroną” radzi sobie wybitnie dobrze. Dotąd to liczące 24 mln mieszkańców państwo zanotowało 724 przypadki zakażenia COVID-19 i 7 zgonów z jego powodu (dane z 10 grudnia 2020 r.). Bez lockdownu. Jest tak, gdyż działają tam instytucje, które nie boją się korzystać z nowych technologii i osiągnięć nauki.
Nie dziwi więc, że to właśnie tajwańscy naukowcy Li Ey, Tung Cy i Chang Sh z National Chengchi University w Tajpej opracowali w 2016 r. system PMS (Prediction Market System) do przewidywania przebiegu epidemii chorób grypopodobnych. PMS łączy elementy rynku giełdowego z wiedzą ekspercką i analizą big data. Osoby prognozujące obstawiają konkretne zakłady, używając wirtualnej waluty, a ich przewidywania są „uśredniane”. System okazał się skuteczniejszy niż prognozowanie z danych historycznych.
Także Korea Południowa odnosi sukcesy w walce z pandemią dzięki „mądrości tłumu”. Wydobywa ją na światło dzienne i wykorzystuje dzięki aplikacjom mobilnym w smartfonach obywateli. To, rzecz jasna, wymaga wysokiego zaufania społecznego (mowa w końcu o dzieleniu się wiedzą z rządem), ale tam akurat to zaufanie jest obecne w wystarczającym stopniu. W Polsce…
Twierdzenie, że tłum może nas uratować, nie jest nieuprawnionym wnioskiem z marginalnych eksperymentów. To przybliżenie wyników badań najświeższych i publikowanych w prestiżowych czasopismach. Na przykład 15 października w „Cognitive Research: Principles and Implications” Daisuke Hamada, Masataka Nakayama i Jun Saiki (Uniwersytet w Kyoto) opublikowali pracę o mądrości tłumów w sytuacjach zagrażających życiu. Japończycy wyróżnili trzy typy decyzji: oparte na mądrości tłumu, czyli zagregowanej wiedzy, która nie wymaga debaty i konsensusu; podjęte po zagregowaniu wiedzy w toku deliberacji i w wyniku konsensusu; oraz decyzje indywidualne. Następnie ocenili ich skuteczność w sposób, co tu dużo mówić, kosmiczny. Polega on na postawieniu uczestników badania przed „zadaniem przetrwania na Księżycu” (NASA Moon Survival Task).
Musieli sobie oni wyobrazić, że ich statek kosmiczny rozbija się na Księżycu, a jedyną szansą na przeżycie jest dotarcie do punktu odległego o 320 km. Z wraku ocalało 15 przedmiotów, takich jak mapa czy zapałki. W fazie pierwszej eksperymentu uczestnicy – każdy z osobna – musieli uporządkować je względem użyteczności dla ich przetrwania (właściwa hierarchia przedmiotów jest znana tylko naukowcom; wcześniej opracowali ją znawcy z NASA). Musieli także zaznaczyć przy każdym przedmiocie stopień własnej pewności co do miejsca w rankingu, i to, w jakim stopniu ich osąd zgadza się z osądem reszty członków grupy. Faza druga różniła się od pierwszej tym, że badanych pytano się nie o zgodność indywidualnego zestawienia z rankingami innych członków grupy, lecz o oszacowanie zgodności ocen całej grupy z ocenami pozostałych grup. Faza ta służyła ocenie adekwatności decyzji grupowych opartych na konsensusie. W badaniu wzięło udział 119 studentów psychologii z Nara Prefectural University w Japonii, których podzielono na 25 sześcio- i pięcioosobowych grup.
Okazało się, że grupy osiągały lepsze wyniki niż ich członkowie pod względem adekwatności ocen zarówno w rozumieniu wspólnych ocen opartych na zgodzie, jak i w rozumieniu mądrości tłumów, czyli po algorytmicznym zagregowaniu jednostkowych rankingów. Co ważne, decyzje podjęte w wyniku dyskusji nie były lepsze niż te, które dyktowała mądrość tłumu. Dzięki temu te drugie można opisać jako efektywniejsze od deliberacji, bo są po prostu mniej czasochłonne. „Zjawisko mądrości tłumów było już wykorzystane do problemów wymagających eksperckiej wiedzy, jak np. diagnozy onkologiczne, czy polityka publiczna. (...) Ta praca sugeruje, że może być zastosowane także do realistycznych, złożonych sytuacji takich jak wieloetapowe decyzje, wymagające zastosowania wielu różnych ram odniesienia” – piszą badacze. Czy to znaczy, że w XXI w. do prognozowania wystarczą nam komputery analizujące zachowania tłumu? Ciepłe eksperckie posadki są zagrożone?

Wyemancypować mądrość

Do pewnego stopnia tak. Ale i mądrość tłumu ma swoje ograniczenia. Wskazują na to zresztą cytowane przed chwilą badania, które prowadzą do wniosku, że mądrość tłumu zależy np. od dynamicznej interakcji pomiędzy jego wielkością a stopniem pewności, który jego członkowie przypisują swoim odpowiedziom.
Innego typu niuanse ujawnia opublikowana w zeszłym roku praca badaczy z uniwersytetów Stanforda i w San Diego. Grupie 2 tys. osób zadano tysiąc pytań z 50 dziedzin, m.in. wiedzy ogólnej (Co to za gatunek drzewa?), kultury popularnej (Jak nazywa się ten celebryta?) czy myślenia przestrzennego (Jak wiele państw takich jak Polska zmieści się na terytorium USA?). To jak dotąd największe tego typu badanie mądrości tłumów.
Pytania dzieliły się na otwarte (w których trzeba było szacować, a prawdziwość odpowiedzi oceniano na skali) i na kategoryczne (odpowiedź mogła być tylko prawdziwa lub fałszywa). Ogólnie tłum okazał się znów mądrzejszy od swoich elementów. Gdyby sam był jednostką, to w przypadkach niektórych pytań pokonywał trafnością aż 95 proc. swoich „elementów”. Bywało jednak, że wskaźnik ten spadał poniżej 50 proc. – zwłaszcza w przypadku pytań kategorycznych. Badacze wyjaśniają, że mądrość tłumu względem tworzących go ludzi zależy w dużym stopniu od kontekstu, a także od tego, czy agregujemy odpowiedzi na poziomie jednostkowych pytań z danej dziedziny (wtedy jest bardzo duża), czy na poziomie wszystkich jednostkowych pytań (wtedy jest tylko duża).
To ważna obserwacja dla statystyków opracowujących algorytmy wyciskające mądrość z tłumów. Badanie pokazuje też, że maleje ona, gdy tworzące go osoby przed udzieleniem odpowiedzi wiedzą, jaki jest w danej kwestii konsensus. Uruchamia się wówczas opisany przez behawiorystów efekt zakotwiczenia, zaburzający indywidualne szacunki. Przytaczam to badanie tak szczegółowo w konkretnym celu: by pokazać niezwykle wysoki stopień zniuansowania badań nad mądrością tłumów oraz to, że badacze społeczni są świadomi jej ograniczeń.
Już dawno porzucono np. przekonanie, że efektywność oceny tłumu zależy od jego wielkości i zróżnicowania. Bywa, że w niektórych sytuacjach zwiększenie liczebności tłumu zmniejsza jego efektywność. Różnorodność zaś zasadniczo jest, owszem, wskazana, lecz także nie bez zastrzeżeń.
James Surowiecki pisze, że dobry tłum jest pełen jednostek o różnorodnych opiniach. Do jakiego stopnia nasze opinie są jednak niezależne? Sporo badań pokazuje, że opinie reprezentantów tłumu mogą być wynikiem jakiegoś rodzaju kaskady informacyjnej czy społecznej presji. Z drugiej strony są badania każące utożsamiać różnorodność z ideologiczną lub polityczną polaryzacją. Praca z 2019 r. „The Wisdom of Polarized Crowds” (Mądrość spolaryzowanych tłumów) pokazuje to na przykładzie haseł Wikipedii. Edytują je zwykli użytkownicy sieci. Hasła najbardziej kontrowersyjne (np. Donald Trump) przyciągają zazwyczaj edytorów z obu stron „ideolobarykady” – i ma to na jakość tych haseł wpływ pozytywny. Hasła niszowe albo neutralne przyciągają homogeniczne grupy edytorów – jakość wpisów jest niższa.
Naturalne ograniczenia tłumu nie mają charakteru obiektywnego. Możemy obmyślać sposoby na lepsze wyekstrahowanie z niego mądrości. Kilka świeżych badań wskazuje np., że aby zoptymalizować pozytywny efekt liczebności dla mądrości tłumu, warto zwiększać liczebność „wewnętrznego tłumu”, czyli skłaniać jednostki do formowania wielu odmiennych sądów w danej kwestii różną metodą: analitycznie, na bazie intuicji albo empatycznie, wczuwając się w perspektywę innego. Opinia tłumu jako całości staje się wówczas trafniejsza. Z kolei przytoczone badanie o polaryzacji sugeruje, że platformy, dla których ważna jest jakość treści dostarczanych przez ich użytkowników, nie powinny zwalczać politycznej polaryzacji, a zwiększać ją, tworząc jednocześnie środowiska współpracy i negocjacji – jak Wikipedia właśnie. Rozemocjonowany tłum jej edytorów deliberuje na specjalnych forach, które zmiany i dlaczego są dopuszczalne, a które nie. Ale mądrość tłumów może wzrastać nawet, gdy mowa o dużej jednorodnej grupie zwolenników jednej partii – wystarczy wstrzykiwać w jej bańkę nowe informacje.
To rady szczególnie istotne dla np. szefów social mediów, które coraz bardziej opresyjnie traktują odstępców od centrowych poglądów. Zuckerberg i reszta powinni poczytać Johna Stuarta Milla. Ten XIX-wieczny liberał przekonywał, że w debacie publicznej każda strona sporu posiada jakąś cząstkę prawdy, więc ograniczenie debaty zawęża naszą wiedzę. To takie ograniczenie jest zdaniem Milla „przerażającym złem”, a nie sam fakt, że ktoś może powiedzieć coś niemiłego, chamskiego czy błędnego.

Nadzieja dla demokracji

Mądrość tłumu bywała niezauważana, głównie dlatego, że tłum utożsamiano z motłochem. Dziś mamy narzędzia pozwalające ją z łatwością dostrzec, opisać i zgromadzić. Potrafimy ją już także doskonalić. Nauka o mądrości tłumów to nauka stosowana. A może tak zastosować ją do poprawy demokracji? Jasne – wszyscy wiemy, co mówił Churchill. Tyle że, choć nie ma jednej demokracji, to wszystkie jej modele są dalekie od doskonałości. I można śmiało myśleć o czymś nowym. Do jakich propozycji reform może nas doprowadzić mądrość tłumu?
Moglibyśmy zwolnić ekspertów. Oczywiście tylko tych, którzy przegrywają w ocenach z mądrością tłumu. Tych zaś, którzy zostaną, powinniśmy uzbroić w nowoczesne narzędzia analityczne, które tę mądrość wykorzystują. W demokracjach za ważne decyzje odpowiada wiele ciał kolektywnych. Trzeba zadbać o to, by były odpowiednio różnorodne i tłumne, ale biurokratyczne metody tu nie zadziałają. Warto rozważyć np. obsadzanie części stanowisk drogą losowania (pomysł ten opisałem w tekście „Rządy najgorszych”, Magazyn DGP z 18 października 2019 r.). Ale trzeba być może iść jeszcze dalej i zrewolucjonizować samą istotę systemu głosowania.
Mądrość tłumu bywała niezauważana, głównie dlatego, że tłum utożsamiano z motłochem. Dziś mamy narzędzia pozwalające ją z łatwością dostrzec, opisać i zgromadzić
Obecny system, w którym optujemy za danymi programami, nie obciąża nas bezpośrednio kosztem naszych wyborów. Przeciwnie – głosujemy coraz częściej za takimi politykami, które obciążają kosztami wyborców partii przeciwnych. Ubożsi głosują przeciw bogatym, bogaci przeciw uboższym. Mądrość tłumów nie jest wykorzystywana maksymalnie, a czasami zmienia się w swoje przeciwieństwo. Wyborcy nie dostają wystarczających bodźców albo otrzymują bodźce spaczone. Trzeba zmienić samą istotę głosowania. Jak? Na przykład prowadzając „głosowanie kwadratowe” (QV). To system opracowany przez Erica Posnera z Uniwersytetu Chicagowskiego i Erica Weyla z Microsoft Research, a opisany na łamach DGP przez Jana Cipiura w tekście „Wybrańcy z losowania” (Magazyn DGP z 6 marca 2020 r.).
Propozycja inspirowana jest postulatem Williama Vickreya, ekonomicznego noblisty: płaćmy za dostęp do dobra publicznego kwotę równą kosztowi, jaki jego działania nakładają na pozostałych. Posner i Glen obmyślili system, w którym każdy otrzymywałby co roku „budżet kredytów wyborczych do wykorzystania w referendach. Kredyty te może wykupić i zamienić na głosy, ale koszt głosów wyrażony jest jako kwadrat kredytów wyborczych. (...) W systemie QV liczba głosów jest więc pierwiastkiem kosztów ich «nabycia». Mechanizm ten sprzyja ustaleniu osobistych preferencji. Młodzi rodzice, którym zależy na pracy, mogą kupić za wysoką «cenę» sporo głosów na budowę żłobków. Emeryci będą bardziej skłonni wydać wiele ze swoich kredytów na lepszy dostęp do lekarzy. (...) w przeciwieństwie do głosowania większościowego, w którym jest się za czymś albo przeciw czemuś, w głosowaniu kwadratowym i wnuki, i dziadkowie mogą być jednocześnie za żłobkami i za lepszą ochroną zdrowia, choć będą różnić się pod względem siły swoich preferencji” – tłumaczy Cipiur. Czy to dobra propozycja?
Tego teoria już nie udowodni. Konieczna jest praktyka. Badania udowadniają jednak dość wymownie rację Arystotelesa, gdy pisał w „Polityce”, że kolektyw może podejmować lepsze decyzje niż jego najlepsze elementy. Potrzeba eksperymentów, by wartość praktyczną tej obserwacji wycisnąć do maksimum. ©℗