Uncategorized

A szívás neve: pdf

Magyarországon, de a régió más országaiban is előszeretettel szolgáltatnak közérdekű adatokat .pdf formátumban a kormányzati szervek. A .pdf formátumnak a számos előnye mellett egy – az adatokkal való munka szempontjából óriási – hátránya van: az adatokat nem lehet szerkeszteni.

A közérdekű adatigénylésekre, például a KiMitTud oldalon,  a válaszok nagy része .pdf-ben érkezik, ezt a formátumot használja letölthető dokumentumai számára gyakorlatilag mindenki. Egy-egy ilyen dokumentumból nehéz, sokszor szinte lehetetlen az adatokat olyan adatcsere (machine-readable) formátumra hozni, amit már könnyen lehet szerkeszteni, megtisztítani és különféle szempontok szerint rendezni.

A jó hír az, hogy számos módszer és alkalmazás létezik az adatok .pdf dokumentumból való kinyerésére – jelen poszt ezek közül röviden bemutat néhányat, lazán követve a School of Data leírásait. A rossz hír viszont, hogy nem létezik egyetlen, minden .pdf dokumentum esetén könnyen alkalmazható, hatékony módszer.

Aki ilyesmire adja a fejét, az készüljön fel arra, hogy kísérleteznie és fórumoznia kell, sok türelem és némi minimális programozási tudás sem árt.

 

Könnyebb eleve használható adatokat kérni

A .pdf-problémát a legkönnyebben úgy meg lehet kerülni, hogy adatigénylés benyújtásakor megkérjük az adatgazdát, hogy az adatokat a .pdf dokumentum mellett adatcsere formátumban (.xls, JSON, CSV, XML) is mellékelje. Ezt az adatgazda elvben könnyen teljesítheti, hiszen ők is valamilyen szerkeszthető formátumból exportálják .pdf-be az adatokat.

Ideális esetben, ha teljesítik a kérésünket, akkor lesz egy, szépen formázott, nyomtatóbarát .pdf formátumú dokumentumunk, és egy másik dokumentumunk, mellyel dolgozni lehet.

 

A vízválasztó: kép vagy szöveg alapú?

A .pdf dokumentumok alapvetően kétfélék: kép vagy szöveges alapúak. Előbbiek rendszerint a kinyomtatott, majd beszkennelt és képként .pdf-be exportált dokumentumok – ezeket úgy lehet felismerni, hogy sem a keresés (Ctrl+F) funkció, sem pedig a kijelölés (Ctrl+C) nem működik.

A szöveges alapú dokumentumokban működik a keresés és kijelölés funkció, éppen ezért a másolás, adatcsere formátumra hozás is könnyebb.

 

Ha kép alapú a dokumentum, az OCR megoldás

Valamilyen, Optical Character Recognition (OCR) szoftver a megoldás a kép alapú dokumentumok számára. Jelenleg az ABBYY Finereader a legelterjedtebb program, előnye, hogy a magyar nyelvet is felismeri. Hátránya, hogy csak korlátozott alkalommal futtatható ingyenesen – a korlátozás nélküli használathoz meg kell vásárolni. Több ingyenes alkalmazás is létezik – ezek nagyrészt a Google tulajdonában levő Tesseract-ra épülnek.

Ha a szkennelt dokumentum rossz minőségű, gyűrött, vagy foltos, esetleg a szöveg és a fehér felület közötti kontrasztot kell kiemelni, akkor az unpaper vagy a Scan Tailor lehet megoldás.

Fontos tudni, hogy kép alapú dokumentumok esetén a munkát sosem lehet teljesen automatizálni – ha nagy számú dokumentumot készül feldolgozni, akkor jó ötlet önkénteseket bevonni.

 

Szöveg alapú dokumentum: nyert ügy?

A szöveg alapú dokumentumokból adatokat kinyerni valamivel egyszerűbb. Egy-két oldal esetén akár egy egyszerű kijelölés-másolás-beillesztés is megoldás lehet, valamivel nagyobb fájlok esetén PDF to Excel vagy az Adobe saját programja elegendő lehet – számos hasonló alkalmazás van, elég neten rákeresni.

Nagyobb volumenű munka esetén a Tabula lehet a nyerő – a program Windows és Linux alatt is fut, és ingyenes. A programozáshoz konyító felhasználók ugyanakkor scraping-gel is próbálkozhatnak – a scraperwiki pdf-tagje itt elérhető.

 

Sipos Zoltán

Megosztás

Nélküled nincsenek sztorik.

  • Átutalás
  • PayPal
  • Így is támogathatsz

Támogasd a munkánkat banki átutalással. Az adományokat az Átlátszónet Alapítvány számlájára utalhatod. Az utalás közleményébe írd: „Adomány”, köszönjük!

  • Belföld
  • Külföld

Számlatulajdonos: Átlátszónet Alapítvány
1084 Budapest, Déri Miksa utca 10.

Bankszámlaszám: 12011265-01425189-00100001
Bank neve: Raiffeisen Bank

Számlatulajdonos: Átlátszónet Alapítvány
1084 Budapest, Déri Miksa utca 10.

IBAN (EUR): HU36120112650142518900400002
IBAN (USD): HU36120112650142518900500009
SWIFT: UBRTHUHB
Bank neve és címe: Raiffeisen Bank
(H-1133 Budapest, Váci út 116-118.)

Támogasd a munkánkat az Átlátszónet Alapítványnak küldött PayPal adománnyal! Köszönjük.

Havi 5400 Ft Havi 3600 Ft Havi 1800 Ft Egyszeri PayPal támogatás
  • ikon

    Bankkártyával az AdjukÖssze.hu oldalon

    Ha van bankkártyád, akkor pár kattintással gyorsan tudsz rendszeres vagy egyszeri támogatást beállítani nekünk az adjukossze.hu oldalán.

  • ikon

    Postai befizetéssel

    Postai befizetéssel is tudsz minket támogatni, amihez „sárga csekket” küldünk. Add meg a postacímedet, és már repül is a csekk.

  • ikon

    Havi előfizetés a Patreonon

    Néző, Szurkoló, B-közép és VIP-páholy kategóriás Átlátszó-előfizetések között válogathatsz a Patreonon.

  • ikon

    Benevity rendszerén keresztül

    Bárhol is dolgozol a világban, ha a munkáltatód lehetőséget ad arra, hogy adott összeget felajánlj egy nonprofit szervezetnek, akkor ne feledd, a Benevity-n keresztül az Átlátszónet Alapítvány is ajánlható.

  • ikon

    SZJA 1% felajánlásával

    Ha az 1 százalékodat az Átlátszó céljaira, projektjeire kívánod felajánlani, a személyi jövedelemadó bevallásodban az Átlátszónet Alapítvány adószámát tüntesd fel: 18516641-1-42