A Benford-szabály egy széles körben elfogadott módszer arra, hogy a hétköznapi élet során előforduló számok eredetiségét teszteljük. Nagy, több nagyságrenden átívelő, vagy sokféle különböző forrásból származó adatok esetében a kezdő számjegyek nagyobb valószínűséggel vesznek fel kicsi értéket, mint nagyot. A tízes számrendszer esetében például az következik a Benford-szabály alkalmazásából, hogy az 1-essel kezdődő számok előfordulási valószínűsége durván 30% körül van, míg a 9-esé már az 5%-ot sem éri el.
Hangsúlyozandó, hogy természetes, emberek által nem manipulált számok esetében.
Hogy ez a megállapítás egész pontosan hogyan szól, ki találta ki, és miért érvényesül a világban, arról ebben a cikkünkben írtunk korábban. Az alábbiakban pedig most a Benford-szabály egy különösen releváns alkalmazásáról fogunk beszámolni: a hivatalos COVID-esetszámok megbízhatóságáról.
Mit mond Benford?
Egy nemrég megjelent kutatás (Anran Wei és Andre E. Vellwock munkája) ugyanis annak eredt utána, hogy vajon látszik-e bármiféle manipuláció az egyes országok által közölt COVID-esetszámokban. A kutatók négyféle adathalmazt vettek alapul: a napi és a teljes megerősített esetszámokat, illetve ugyanezen két nézetben a halálozási számokat.
A COVID-19 adatok a CSSE-től származnak (Center for Systems Science and Engineering, Johns Hopkins University), és a 2020. szeptember 1-ig terjedő időszakot fedik le. A regionális bontásban szereplő adatokat országszinten összeadták, ugyanis a Benford-szabály vizsgálata szempontjából a minél nagyobb megfigyelésszám elérésére kell törekedni.
Itt viszont máris megjegyzendő, hogy Kína esete nehezen elemezhető, mert a hivatalos statisztikák szerint náluk igencsak hamar stabilizálódott a helyzet, és emiatt nincs elegendő megfigyelés. A kutatók ezért Kína esetében úgy döntöttek, hogy mégis szerencsésebb az esetszámokat régiós szinten vizsgálni, hogy ezzel is növeljék a megfigyelések számát.
A Benford-szabály szerint a megfigyelésekben a vezető számjegyek a következő gyakorisággal kellene, hogy előforduljanak:
Hangsúlyozandó ugyanakkor, hogy pusztán az elméleti megoszlástól való eltérés még nem jelenti azt, hogy a számokat manipulálták volna. Érdemes emiatt a vizsgálatot olyan módon elvégezni, hogy meghatározunk egy kritikus értéket vagy egy statisztikai szignifikancia szintet, ami alapján elfogadjuk, hogy egy-egy adathalmaz megfelel-e a Benford-szabálynak. A kutatók jelen esetben William Goodman munkájára hagyatkozva a 25%-nál nagyobb normalizált négyzetes eltérés esetén (d-faktor) tekintették manipuláltnak az adatokat.
Gyanús eredmények
A kutatók fő megállapítása, hogy a COVID-19 esetszámai általában megfelelnek a Benford-szabálynak, vagyis az első számjegyek gyakoriságai hasonlóan oszlanak meg, mint az az elméletből következne. Az összes országon elvégzett mérések szerint a d-faktor pusztán 3%, vagyis nagyon közel van a várt értékhez.
Ezt követően a kutatók sorra vették az olyan országokat, ahol kellően nagyok az esetszámok ahhoz, hogy a vizsgálat megfelelően elvégezhető legyen. Következtetéseik szerint nem látszik nyoma adatmanipulációnak a legtöbb vizsgált országnál, mint amilyen az USA, Brazília, India, Peru, vagy éppen a Dél-afrikai Köztársaság.
A kutatók főbb eredményeit és a Benford-szabály illeszkedését az adatokon (a d-faktor átlagos értékeivel) az alábbi ábrán láthatjuk:
Két gyanús eset egyértelműen felmerült: Oroszország és Irán. Ezen autokrata rezsimek COVID-számai a fenti vizsgálatban igen furcsa eltéréseket produkáltak. Irán esetében például a 2-es számnál van egy nehezen magyarázható kiugrás a napi számokban, ami 42 százalékos d-faktort eredményez. De az összesített számokban már mégis úgy tűnik, hogy megfelelnek a Benford-szabálynak. Az eredmény esetükben ezért nem teljesen egyértelmű.
Oroszország ebből a szempontból jóval érdekesebb, ugyanis náluk a teljes esetszám növekedése sem követi a Benford-szabályt. Sőt, a számok közel egyenletes valószínűséggel fordulnak elő, ami igen furcsának nevezhető a kutatók szerint. Amennyiben egy-egy nem várt értéknél lenne csak nagyobb az eltérés, az még annyival esetleg magyarázható lenne, hogy éppen ott tart a számláló. De az oroszok esetében nem ezt látni.
A szerzők végső következtetése szerint a Benford-szabály – a meghatározott érzékenységen belül – érvényesülni látszik a legtöbb vizsgált országnál, de a két említett helyen – az oroszoknál és az irániaknál – a számokat lehet, hogy manipulálták.
Ehhez ugyanakkor hozzá kell tennünk, hogy a Benford-szabály bár elterjedt módszernek számít a hasonló csalások vizsgálatában, mégsem számít tökéletes eszköznek. Nincs ugyanis egy tudományosan elfogadott határérték, amin túl már biztosra lehetne venni a számok kézzel való vezérlését. Továbbá előfordultak más kutatásokban már fals pozitív esetek is, ahol bizonyítottan természetes eredetű adathalmazok sem feleltek meg a Benford-szabálynak.
Teljesen biztosat ezért nem lehet állítani, ahogy nem teszik ezt a hivatkozott tanulmányban sem. De a gyanú azért jócskán ott van. Sajnos Magyarország nem szerepel a vizsgálatukban, így a hazai COVID-számok tesztelését magunk végeztük el. Az eredmények tartogatnak némi izgalmakat, és erről hamarosan egy újabb cikkben számolunk be itt, a Portfolio Prof oldalán.