adatvizualizáció

„Megmagyarázta” Müller Cecília, miért hiányzik 1630 elhunyt a központi adatbázisukból

2022. május 24-én közzétett cikkünkben részletesen írtunk arról, hogy az adatigényléssel megszerzett, elhunytakra vonatkozó településszintű, idősoros adatsor jelentősen eltér a koronavirus.gov.hu-n az elmúlt egy évben naponta közölt halálozási adatoktól. Korábbi adatigényléseink mélyére ásva kiderült, hogy nem egyedi eset volt a legutóbbi: számos, korábban sikeresen megszerzett adatsor mutat eltéréseket a hivatalos számoktól. Az eltérés szórása adattípustól függ, a halálozási adatokban nagyobb, míg a fertőzöttségi számokban enyhébb a különbözet. Amíg az NNK nem ad egyértelmű magyarázatot az adatok anomáliájára, addig az elmúlt évek hivatalosan közzétett számaiban sem bízhatunk.

  • A legutóbbi adatigénylésünkben lévő számok jelentősen eltértek a járványügyi portálon közöltektől.
  • További sikeres adatigényléseket is megvizsgáltunk, mindegyikben találtunk hibákat.
  • Az eltérések okáról megkérdeztük az adatigényléseink forrását, Müller Cecíliát is.

Május 24-én írtunk arról a közérdekű adatigényléssel megszerzett táblázatról, amely a napi koronavírus-elhunytak számát tartalmazta településszintű bontásban. Az adatok ugyan adtak egy képet arról, hogy valószínűleg mely településeken volt a legtöbb koronavírushoz köthető haláleset 2021. január 31. és 2022 február 1. között, azonban számos érdekesség is volt a kapott Excel-fájlban. A legszembetűnőbb érdekesség az volt, hogy a napi elhunytak száma eltért a koronavirus.gov.hu-n naponta közzétett számoktól. A hibákról és az adatbázisukból hiányzó 1630 elhunyttal kapcsolatban levelezésbe bonyolódtunk Müller Cecília országos tisztifőorvossal, de pár napon belül kiderült a válasz. A kevésbé feltűnő információ viszont az egy, az Excel-fájlban felejtett SQL-kimutatás volt, ami olyan adatkörök meglétére utalt, melyeket korábban már kikértünk a KiMitTud oldalán – sikertelenül.

A jelentős, adatforrások közötti eltérések miatt visszakerestük néhány korábbi sikeres adatigénylést, és összevetettük a központi kommunikáció által közölt számokkal. A vizsgált adatigénylések mindegyikében voltak olyan eltérések, amelyek sem egymással, sem a koronavirus.gov.hu-n közzétett számokkal nem egyeztek meg.

Üröm az örömben

Ugyan jelentős akadályt jelent az, hogy a járványügyre hivatkozva kétszer 45 napig is elhúzódhat egy adatigénylés, a helyesen feltett kérdéseknek köszönhetően többet tudhattunk meg a járvány hazai folyamatairól. Az elnyert többletinformációk azonban bizonytalanságot is okoznak, hiszen – ahogy majd látni fogjuk – nem száz százalékosan azonosak a korábban ismert, a koronavirus.gov.hu-n közzétett számokkal.

Az idősoros, települést is tartalmazó, elhunytak számát bemutató adatsort és annak hibáit múltkori cikkünkben bővebben kifejtettük:

Az eddiginél részletesebb halálozási adatokat kaptunk, amelyek viszont megkérdőjelezik a hivatalos adatközlést | atlatszo.hu

Magyarországon eddig több mint 28 ezer áldozatot követelt a koronavírus-járvány. A hivatalos járványügyi tájékoztató oldal szerint a legtöbbüknek volt valamilyen alapbetegsége. Elemeztük az elhunytakról közzétett adatokat a járvány megjelenésétől kezdve, ebből pedig egyértelműen látszik, hogy melyek azok az egészségi problémák, amelyek rizikófaktort jelenthetnek. Ugyanakkor az adatszolgáltatás problémás pontjaira is rávilágít az elhunytakat összegyűjtő táblázat.

A napi számokból látszik, hogy jóllehet egyik nap adatai sem egyeztek meg a járványügyi portálon közzétett információkkal, a negyedik hullám esetén tapasztalható eltérésnél jelentősebb volt az, amit a harmadik hullám esetében láthatunk.

A K-Monitor településszintű, nem idősoros, kumulatív elhunytak számát tartalmazó adatigénylésével is összevetettük ezt az adatsort, amely további eltéréseket mutatott. A K-Monitor többször is kikérte az NNK-tól ugyanazt az adatsort, amit a 90 nap „betartásával” mindháromszor el is küldött a Nemzeti Népegészségügyi Központ. A három időpont alapján egyszerű kivonással meg tudtuk határozni 2021. 03. 14. és 2021. 06. 03. közötti, a 2021. 06. 03. és 2021. 09. 01. közötti és a 2021. 03. 14. és a 2021. 09. 01. közötti elhunytak számát. Az általunk kikért, napi elhunytak számát tartalmazó táblázatot ugyanezen időtartamokra összesítettük, így már összehasonlíthatóvá vált a két, ugyanazon forrásból származó, ugyanazon adatot tartalmazó adatbázis.

Az eredmény – ami jelentős eltéréseket mutatott – főleg amiatt meglepő, mert mindkét adatigénylésnek az NNK a teljesítője, a különbség mindössze az, hogy a K-Monitor az adott időpontig elhunytak kumulatív számát kapta meg, mi pedig az egy adott időtartamon belül elhunytak napi számát.

Emellett ezres nagyságrendű eltérés volt az adott dátumig a koronavirus.gov.hu-n közzétett, kumulatív elhunytak számától is.

A két adatigénylést településszinten is össze tudjuk hasonlítani: ebből is az látszik, hogy jelentősen nagyobb volt az eltérés a március 14-i és június 3-i időpont között, mint a június 3-i és szeptember 1-i időpont között. Természetesen ez abból is fakad, hogy több volt az elhunytak száma 2021 tavaszán, a harmadik hullám alatt. Az ezt követő nyáron nemcsak az elhunytak, hanem a fertőzöttek száma sem volt magas, így sokkal kisebb eltérést is számítottunk. Amíg a tavaszi időszakban az 1823 megegyező település közül 830-nál volt valamekkora eltérés, addig a nyári időszakban mindössze 4 településnél nem egyezett meg a két adatbázis értéke.

Emellett találtunk 403 olyan települést is, ahol vagy az egyik, vagy a másik igénylés adatsorában volt csak jegyezve elhunyt, de a vizsgált időtartamban nem szerepelt elhunyt egyszerre mindkét táblázatban.

Nem csak az elhunytak száma nem stimmel

Több adatigénylés irányult a fertőzöttek számára is, hol a településszintű értékekre, hol pedig az fertőzöttek oltottakon belüli arányára (erről ebben és ebben a cikkben írtunk).

A K-Monitor az elhunytak számát illető rendszeres adatigénylése mellett, két alkalommal az összes fertőzött településszintű eloszlására is kíváncsi volt. Ezen számokat a járványügyi portálon közzétett számokkal összevetve újfent eltérést tapasztaltunk, noha nem olyan nagyot, mint az elhunytak esetében.

Arra, hogy hányan voltak beoltva a fertőzöttek közül, nem kaptunk napi bontásban adatokat, a napi fertőzöttek számát viszont egy ömlesztett PDF-dokumentumban elküldték nekünk:

90 nap után átláthatatlan diagramot és Word-dokumentumba ömlesztett számokat kaptunk Müller Cecíliáéktól | atlatszo.hu

A Semmelweis Egyetem tenderét a Fidesz-közeli cég nyerte, ám az egyetemnek egyelőre nincs pénze a beruházásra. Ha kapnak a kormánytól, akkor megvalósulhat a Hőgyes-Schöpf-Merei Gyógyszerkutatási Központ a IX. kerületben.

Érkezése idején a dokumentum – formátuma miatt – nem váltott ki bennünk kételyt a fertőzöttségi számok hitelességét illetően: a sűrű, szokatlan formátum átláthatatlannak és feldolgozhatatlannak tűnt, így nem foglalkoztunk vele mélyrehatóbban. Fontosabb volt, hogy az oltottak arányát egy fekete-fehér kördiagramban közölték velünk.

A mostani kutatáshoz viszont feldolgoztuk az ömlesztett adatokat, és összevetettük a koronavirus.gov.hu adataival. A „várt” eredményt kaptuk: számos helyen nem egyezett az adatigénylés során kapott adatsor a hivatalos számokkal.

Ami ebben az eltérésben meglepő, hogy egy korábbi, új fertőzötteken belüli oltottak arányára irányuló adatigénylés során is kaptunk fertőzöttségi számokat, 2021. augusztus 3. és 2021. november 1. közöttről. Ezt összevetve a hivatalos számokkal ugyanazokat az eltéréseket kaptuk, mint amiket az ömlesztett PDF adatainak feldolgozása során.

Ami a halálozási és fertőzöttségi számokból – és az eltérésekből – kiolvasható, az az, hogy az NNK egy saját adatbázissal dolgozik, amely adattípustól függően kisebb-nagyobb mértékben eltér a hivatalosan közölt számoktól.

Ezt bizonyítja, hogy kétszer egymás után, két eltérő adatigényléssel kapott adatsorral is reprodukálni tudtuk ugyanazokat az eltéréseket.

Elutasítás mellé átirányítás a koronavirus.gov.hu-ra

Számos olyan eset is volt, amikor ahelyett, hogy a kért adatokat odaadták volna nekünk vagy más igénylőnek, 90 nap várakozás után elutasítás volt az országos tisztifőorvos válasza. Találtunk néhány olyan igénylést is, amelynek során válaszlevelben az elutasítás mellett megjegyezték, hogy a kért adatok fellelhetőek a koronavirus.gov.hu weboldalon is, jóllehet azok értelemszerűen nem voltak fent a hivatalos járványügyi portálon.

Részletek sikertelen KiMitTud-os adatigénylésekből

Vagyis  amellett, hogy az NNK többnyire elutasítja  az adatigényléseket, elég megbízható forrásnak tartja azt a járványügyi portált, amely jelentős eltéréseket mutat azokkal az adatokkal, amiket viszont sikeresen meg lehet szerezni a Népegészségügyi Központtól.

Melyik az igazi?

A legfontosabb kérdés ezek után az, hogy melyik adatsornak lehet hinni, visszamenőlegesen és a jövőben ezután is. Több adatigénylésünknél, ahol eltérést véltünk felfedezni, magyarázatot remélve újból felvettük a kapcsolatot a tisztifőorvossal. Az elhunytak idősoros, településszintű adatait tartalmazó igénylésnél azt kértük, indokolja meg, miért térnek el ilyen nagy mértékben a naponként összesített adatok a koronavirus.gov.hu számaitól, miért hiányzik 1630 elhunyt az összegzett időtartamból, és melyik adatsor tekinthető a megbízható, valódi adatnak a koronavírusban elhunytak számát illetően. Müller Cecília szinte szóról szóra ugyanazt a választ adta, mint a fertőzöttekre vonatkozó adatigénylésünkben feltett kérdésünkre:

„Tisztelt Adatigénylő!

A 2022. február 24-én benyújtott közérdekű adatigénylésére adott adatokkal kapcsolatban feltett kérdésére válaszolva az alábbi tájékoztatást adom:

Az elhunytak számának megadása során a jogszabályok által előírt adatszolgáltatási kötelezettség teljesítése során küldött bejelentésekből bármilyen következtetés, illetve a felmerülő szakmai és/vagy adatigénylési kérdések megválaszolása csak az adatok megfelelő validálása és elemzése eredményeként létrejött adatbázisból lehetséges. A validálás és elemzés legnagyobb részben az adatok, az abból következő információk szakmai szempontú vizsgálatát jelenti, de beletartozik az elírások javítása, és illetve egyes adatmezők számítógépes programok segítségével történő összevetése, hogy az egymásnak ellentmondó információk azonosításra kerüljenek.”

A válasz első bekezdése tehát azt taglalja, hogy a naponta beérkező adatokkal egészen addig nem tudnak megbízhatóan dolgozni, ameddig azokat nem ellenőrzik, nem vizsgálják felül, és az esetleges hibákat nem javítják ki. Ez érthető is, hiszen a járvány adatainak hitelességét aknázná alá, hogyha azok nem lennének megfelelően felülvizsgálva, főleg, amennyiben a járvány áldozatainak számáról van szó. Az már kevésbé érthető, hogy ha valóban történnek javítások, azokat miért nem továbbítják a központi kommunikáció felé is, miért nem javítják a járványügyi portálon is az adatokat. Levelét a tisztifőorvos így folytatja:

„Az adatok lekérdezése az NNK nyilvántartásában a lekérdezés időpontjában elérhető dátumok szerint történt, tehát a táblázatok a nyilvántartásban jelenleg elérhető adatok alapján készültek el. így a táblázatokban található adatok eltérhetnek a központi kommunikáció által korábban nyilvánosságra hozott adatoktól. Ennek több oka lehet, egyrészt jellemzően az előző napi adatokat másnap reggel publikálták, másrészt a nyilvántartásban folyamatos az adattisztítás, mely szintén eltérésekhez vezet. Hangsúlyozzuk, hogy a halál időpontjában igazolt koronavírus fertőzéssel regisztrált elhunytakat az NNK a halálozás dátuma alapján tartja nyilván, míg a központi kommunikáció a halálozásról történt értesülés dátuma alapján történt. Emiatt a táblázat adatai és a korábban publikált — adott napra vonatkozó halálozási adatok — eltérhetnek egymástól.

Kérem tájékoztatásom szíves tudomásul vételét!”

Más szavakkal, az NNK-ban saját magukat felülbírálva javítják és ellenőrzik a járványügyi adatokat, melyekből a beérkező – valamilyen homályos indok alapján teljesíthetőnek bizonyuló – adatigényléseket kiszolgálják. Ez egy olyan adatbázis-kezelési és -adminisztrációs probléma, amiről a hétköznapi érdeklődő nem tud, számára csak a hivatalos járványügyi portál ad tájékoztatást.

Az eltérő napi összesítésre való hivatkozás még magyarázatot is adhatna arra, hogy a kapott adattábla miért tér el szinte minden nap a koronavirus.gov.hu oldal adataitól, viszont az adott időtartamon belül az elhunytak számának továbbra is meg kellene egyeznie – ezzel szemben a különbözet 1630 fő. Nem feltételezzük, hogy a válaszban is írt „adattisztítás” során ilyen számottevő hibát találtak volna, ennyivel több lett volna a koronavírus-áldozatként azonosítottak száma.

Mivel az első válaszban a tisztifőorvos nem reagált erre a bizonyos többletre, újabb kérdéssel fordultunk hozzá, ezúton megemlítve, hogy más esetben is eltértek az adatigényléssel kapott és az adott időtartamra összesített, központi kommunikáció által közölt értékek: ilyen volt a napi fertőzöttek száma, ami az elhunytak számával ellentétben „csak néhány napnál mutatott eltérést, és összesen 20 fertőzöttel tért el az ugyanazon időtartamra vizsgált, koronavirus.gov.hu-n közzétett számoktól”.

Jelenleg is várunk a válaszra. Az esetleges további fejleményekről a következő cikkünkben számolunk be.

Szabó Krisztián

Megosztás