Dobry artykuł powinien być klarowny, napisany w logiczny, ustrukturyzowany i transparentny sposób, a przeprowadzone analizy – oryginalne. Ocenie poddaje się także jakość rozumianą jako poparcie stwierdzeń wnioskami eksperymentalnymi lub teorią. Pod uwagę należy także wziąć istotność wyników w kontekście poszerzania horyzontów nauki. Organizatorzy konferencji poświęconej uczeniu maszynowemu NeurIPS wykonali w 2014 r. eksperyment. Podzielili oceniających zgłoszone artykuły na dwie rozłączne grupy. Około 70 proc. ocen było zgodnych (100 odrzuceń i 22 akceptacje). Komisje miały jednak dokładnie przeciwne opinie w sprawie 43 artykułów: 21 tekstów odrzuconych przez jedną grupę zostało zaakceptowanych przez drugą, a 22 zaakceptowane przez drugą zostały odrzucone przez pierwszą.
W kolejnym kroku indywidualna ocena każdego eksperta była rozkładana na część obiektywną – wspólną dla wszystkich oceniających, subiektywną – związaną z interpretacją skali przez danego eksperta – i dość indywidualną opinię danego eksperta o danym artykule. Wniosek jest zaskakujący: za aż 50 proc. konkretnej oceny odpowiada indywidualna, subiektywna opinia, której nie podzielają inni badacze. Symulacje pokazują, że dla tak skalibrowanego modelu zgodność akceptacji artykułu dla komisji złożonej z trzech osób powinna wynosić średnio ok. 62 proc., a więc więcej niż zaobserwowano w pierwszej części badania.