Konferencje naukowe są ważnym elementem kultury akademickiej. Ułatwiają proces dzielenia się wynikami swoich badań z szerszą grupą badaczy. Nieodzowną częścią ich organizacji jest zaś otrzymanie puli artykułów, z których potem powstają dwie grupy: zaakceptowanych do prezentacji i odrzuconych. W tym procesie jakość otrzymanych prac ewaluuje grupa badaczy. A kto ocenia ich pracę? Ile w ich ocenie jest subiektywnej, indywidualnej opinii? Jak dobrze oceniający przewidują dalszy sukces prac mierzony w liczbie cytowań? Corinna Cortes (Google Research) i Neil Lawrance (Univeristy of Cambridge) dostarczają otrzeźwiających wniosków.

Dobry artykuł powinien być klarowny, napisany w logiczny, ustrukturyzowany i transparentny sposób, a przeprowadzone analizy – oryginalne. Ocenie poddaje się także jakość rozumianą jako poparcie stwierdzeń wnioskami eksperymentalnymi lub teorią. Pod uwagę należy także wziąć istotność wyników w kontekście poszerzania horyzontów nauki. Organizatorzy konferencji poświęconej uczeniu maszynowemu NeurIPS wykonali w 2014 r. eksperyment. Podzielili oceniających zgłoszone artykuły na dwie rozłączne grupy. Około 70 proc. ocen było zgodnych (100 odrzuceń i 22 akceptacje). Komisje miały jednak dokładnie przeciwne opinie w sprawie 43 artykułów: 21 tekstów odrzuconych przez jedną grupę zostało zaakceptowanych przez drugą, a 22 zaakceptowane przez drugą zostały odrzucone przez pierwszą.
W kolejnym kroku indywidualna ocena każdego eksperta była rozkładana na część obiektywną – wspólną dla wszystkich oceniających, subiektywną – związaną z interpretacją skali przez danego eksperta – i dość indywidualną opinię danego eksperta o danym artykule. Wniosek jest zaskakujący: za aż 50 proc. konkretnej oceny odpowiada indywidualna, subiektywna opinia, której nie podzielają inni badacze. Symulacje pokazują, że dla tak skalibrowanego modelu zgodność akceptacji artykułu dla komisji złożonej z trzech osób powinna wynosić średnio ok. 62 proc., a więc więcej niż zaobserwowano w pierwszej części badania.
Badacze byli także zainteresowani, czy oceny znajdą odbicie w liczbie późniejszych cytowań artykułów. Oceny pogrupowano w trzech wymiarach. Po pierwsze, dany artykuł może być napisany mniej lub bardziej klarownie i tym samym zostać lepiej lub gorzej zrozumiany przez eksperta. Po drugie, niektóre prace dotyczą szczegółowych problemów, inne zaś odpowiadają na ogólne, wszechobecne problemy. Po trzecie, tekst może charakteryzować innowacyjność lub wpisywanie się w nowe odłamy nauki albo uzupełnianie luk w ramach modeli głównego nurtu.
Te trzy w miarę niezależne od siebie wymiary opinii zostały zestawione z liczbą cytowań, a trafność przewidywania wyrażono w wartościach od 0 do 1. Dla zaakceptowanych prac ocena ekspertów praktycznie w ogóle nie miała związku z późniejszą liczbą cytowań (siła zależności wynosiła 0,05). Za to odrzucenie tekstu w znacznie bardziej wiarygodny sposób prognozowało niskie cytowania w przyszłości. Eksperci deklarowali, na ile są pewni swojej oceny tekstu, i ta miara w dużym stopniu korelowała z przyszłymi cytowaniami (0,25).
Jak podsumować to badanie? Jako naukowcy jesteśmy dobrzy w izolowaniu słabszych badań, ale nie ma zgody w ocenie prac dobrych. Ponadto dobór tych, które zostaną zaprezentowane na konferencjach, zależy w dużym stopniu od przypadku, a ocena eksperta jest w znaczącym stopniu subiektywna. Alternatywy? Wiadomo, że nie ma łatwych rozwiązań. Można zwiększyć liczebność komisji, by uśredniać subiektywne opinie. Można też po prostu akceptować wszystko, ale jednocześnie udostępniać informacje o ocenie ekspertów. Zapewne wtedy uczestnicy i tak zagłosują nogami. ©℗