Visszatérő téma a magyar médiában, hogy vajon mennyire megbízhatóak a COVID-megbetegedésekkel kapcsolatos statisztikák. A kérdések egy része azzal kapcsolatos, hogy vajon a tényleges esetszámtól mennyire térhet el a valóság a jelenlegi tesztelési gyakorlat mellett. De egyesekben felmerült már az is, hogy vajon a hatóságok tényleg az általuk megismert számokat teszik-e közzé, vagy pedig kozmetikázzák azokat valamilyen oknál fogva.
Egy nemrég megjelent kutatás arra jutott, hogy az Oroszországban közölt COVID-19 esetszámok erős gyanúra adnak okot, mert a hivatalos számok nem követik a Benford-szabályt. Ahogy ennek a hátterét részletesen elmagyaráztuk, ez az összefüggés arról szól, hogy bizonyos természetes eredetű számoknál a kezdő számjegyek adott valószínűség szerint kellene, hogy előforduljanak. Például az 1-esek valószínűsége 30% körül kellene legyen, míg a 9-esek már kevesebb mint 5% gyakorisággal szabadna csak, hogy előforduljanak.
A Benford-szabály mára igen elterjedt eszközzé vált különféle csalások feltárásában, legyen az akár gazdasági, választási vagy bármi egyéb számokhoz köthető visszaélés. Sok esetben ugyanis tényleg képes kimutatni, hogy az érintett számok természetes folyamatokból származnak-e, vagy pedig emberek írták felül azokat önkényesen. De már most szögezzük azért le, hogy a Benford-szabály valójában egyáltalán nem egy tökéletes teszt. Sőt, szigorúan véve még hipotézis vizsgálatnak sem lehetne nevezni, mert nincs egy általánosan elfogadott érték, ami mentén el lehetne vetni, hogy mi követi azt és mi az, ami tényleg rendellenes.
A Benford-szabály pontossága
A közelmúltban egyes nem túl alapos közéleti lapokban például Joe Biden választási eredményei kapcsán merültek fel olyan állítások, hogy csalás látszik a Benford-szabály alapján. Noha valóban voltak olyan régiós eredmények, ahol a választási adatok nem követték a Benford-szabályt a legutóbbi amerikai elnökválasztáson, ezt csalásnak beállítani teljesen téves volt. Ahogy azt többen is feltárták, a Benford-szabály nem minden esetben érvényesül, és különösen akkor nem, ha a vizsgált számok nem ívelnek át több nagyságrenden, ahogy az az említett esetben is történt (túl apróra bontott körzetek).
Mielőtt tehát rátérnénk a magyar COVID-adatok elemzésére, le kell fektetnünk pár alappillért, hogy nagyjából mire számíthatunk. A szakirodalom alapján a Benford-szabály leginkább a következő körülmények megléte esetén alkalmazható:
- Nagy minta kell: 30-40 megfigyelés esetén nagyon könnyen téves kép tárulhat elénk, hiszen a véletlenül érkező új értékek jelentősen befolyásolhatják az eloszlást.
- Tág értéktartomány: amennyiben az előforduló értékek valami miatt be vannak korlátozva egy tartományba, akkor a Benford-szabály nem tud érvényesülni. Ilyen érték például az emberek testmagassága, IQ-ja, de előfordulhat ilyesmi még a gazdasági adatokban is, ha például valahol jóváhagyási limitek vannak jelen.
- Jobbra ferde eloszlás: A Benford-szabályt a leggyakrabban olyan adathalmazoknál figyelték meg, ahol az értékek például különféle szorzásokból erednek (mondjuk mennyiség szorozva az árral). Az ilyen számok között gyakran találni kiugró értékeket, és az eloszlásuk tipikusan logaritmikus. Esetükben gyakran látszik érvényesülni a Benford-szabály.
- Nincs emberi beavatkozás: az olyan számhalmazok, amiket emberek találnak ki, általában nem követik a Benford mintázatát. Ez az, ami sokszor elárulja az emberi manipulációt, feltéve, ha az előbbi feltételek egyébként teljesülnek.
A kumulatív COVID-esetszámokról alapvetően az feltételezhető, hogy az eloszlásuk jobbra ferde, sok kiugróan nagy szám fordulhat elő benne, és nincs határok közé szorítva a felvehető érték (oké, a teljes emberi populáció a határ, de azért az elég nagy). Normális esetben pedig azt gondolhatjuk, hogy emberi kitalációtól is mentesek ezek a számok, ha azokat őszintén rögzítik. A nagy minta és a sok nagyságrenden való átívelés viszont nem feltétlenül érvényesül az összes ország esetében. Magyarország esete ilyen szempontból érdekes lehet.
A napi új esetszám nálunk néhány ezer között ingadozik, míg a halálozási számok jelenleg 100 körül. A teljes esetszám valamivel 200 ezer fölött jár jelenleg, így feltételezésünk szerint ez utóbbi idősor változó értékei már bizonyosan alkalmasak lehetnek a Benford-szabály vizsgálatára. De persze majd az adatok eldöntik.
Egy módszer a számok hazugságvizsgálatára
Az általunk használt statisztikai adatok (JHU CSSE COVID-19 Data és az Átlátszó által közreadott megyei statisztikák) nyilvánosan elérhetőek, így az elemzésünk bárki által megismételhető. A módszertanunk Goodman (2016) ajánlásait követi, mely szerint a következő lépéseket hajtjuk végre:
- Az első számjegyek megfigyelt gyakoriságából kivonjuk a Benford-szabály szerinti elméleti gyakoriságokat
- Az eltérések négyzetének az összegét vesszük, majd gyököt vonunk (ezzel meghatározva a várt értéktől a geometriai távolságot).
- Normalizáljunk az eltéréseket a maximális távolsággal (1.03606), és ezt az értéket d-faktornak nevezzük el.
Ez a módszer így olyan eredményt fog adni, ahol a d-faktor nullás értéke a Benford-szabálynak való tökéletes megfelelést jelenti, míg az egyre nagyobb érték az attól való távolodást. Goodman (2016) javaslatára a 0,25-ös d-faktor értéket tekintjük mi is határértéknek, ami fölött már az adat potenciálisan manipuláltnak tekinthető. De persze tegyük hozzá, hogy csak a körülmények alapos vizsgálata esetében szabad mélyebb következtetéseket levonnunk.
A magyar számok górcső alatt
Az összes regisztrált COVID-esetek száma az adatunkban 204 708, és napi gyakoriságú idősorral állunk szemben. Az 1 és 9 közötti számjeggyel kezdődő megfigyeléseink száma összesen 290. Az 1-es számjegy előfordulási gyakorisága pedig 19,3%, ami lényegesen kevesebb az elméletileg várt 30,1%-nál.
A teljes négyzetösszeg kiszámítása után a d-faktorunk 0.2506, vagyis éppen hogy a fent meghatározott határérték fölé esik. Hoppá, ez alapján azt gondolhatnánk, hogy a magyar statisztikák nem követik rendesen a Benford-szabályt, de az elemzésünk során észrevettük, hogy a megfigyelések száma alacsony lehet. Több más országnál is előfordult ugyanis, hogy az adatok gyengén illeszkedtek, amíg kevés volt a megfigyelés.
Jól rávilágít erre, ha az összes országot tartalmazó teljes adatbázison végezzük el a számításunkat. Ilyenkor ugyanis a d-faktor már pusztán 0,16 lesz az esetszámok tekintetében és 0,06 a halálozásoknál. Az előbbi esetben az 1-es kezdőértékek gyakorisága 33,3% volt, míg az utóbbinál 30,5%, vagyis mindkettőnél nagyon közel az elvárthoz. Ez erősen arra utal, hogy tovább kell növelnünk a megfigyelésszámot, hogy valós eredményt kaphassunk.
Amennyiben a Magyarországon a megyei statisztikákat vesszük alapul, akkor a megfigyelésszámot 270-ről máris 4855-re tudjuk emelni, és ez nagyon lényeges előrelepésnek tekinthető.
A számjegyek előfordulási gyakorisága ebben az esetben pedig máris teljesen más képet mutat: az 1-esek 30,7%-os gyakorisággal fordulnak elő, ami egészen közel van a várthoz. A fenti módszertan szerint számolt d-faktorunk pedig ezen az adathalmazon már 0,051, ami azt jelenti, hogy nagyon közel vagyunk a Benford-szabály által előírt eloszláshoz. Ekkora d-faktort látunk a világszintű adatok összesített vizsgálatánál is, így tulajdonképpen kijelenthető, hogy ezek a számok semmiféle manipulációt nem sejtetnek a hazai COVID-esetszám kapcsán.
Felmerülhet még persze a kérdés, hogy mi van, ha talán eleve úgy manipulálják a számokat, hogy az átmenjen a Benford-teszten. De be kell látni, hogy ebben az esetben a megyei számokat folyamatosan manipulálniuk kéne, és ha tartani szeretnének valamiféle köszönő viszonyt a valósággal, akkor folyamatosan előre is kéne tudniuk jelezni, hogy hol milyen nagyságrendek fordulnak majd elő. Ez egy nagyon nehéz vállalkozásnak tűnik, ezért nem túl valószínű.
A mi módszereinkkel mindenesetre csak az jelenthető ki, hogy a magyar számok engedelmeskednek a Benford-szabálynak, ha a megyei adatokból indulunk ki. Bárminemű egyéb anomáliát (például utolsó számjegyek eltérő eloszlása) ezen a téren mi nem tapasztaltunk, pedig kifejezetten alaposan megnéztük.
Hazánk esetében nem tudunk róla, hogy más is végzett volna a közelmúltban hasonló kutatást a COVID-számok megbízhatóságáról. Nemzetközi szinten viszont több publikáció is foglalkoztt már a Benford-szabály és a COVID-statisztikák kapcsolatával. Korábban például jelentek már meg olyan tanulmányok, amik egyszer bizonyos országok COVID-számainak a megbízhatatlanságáról szóltak (lásd: Raul, 2020), máskor pedig éppen ellenkezőleg (lásd: Koch és Okamura, 2020). Ez arra utal, hogy a vizsgált időhorizont és a megfigyelések száma jelentősen befolyásolja az eredményeket. Mi is ezt találtuk, amikor pusztán az országos napi adatokat vizsgáltuk.
Ahogy Joe Biden régiós választási eredményeinél is láttuk, erősen oda kell figyelni, hogy mikor és hogyan alkalmazható a Benford-szabály. Csak azért, mert a valóságban valami nem pontosan követi az elméletet, még nem szabad azonnal kígyót-békát kiáltani. Magyarországon pedig egyelőre úgy tűnik, hogy amit sikerül felmérnie a hatóságoknak a COVID kapcsán, azt legalább őszintén teszik közzé.