Magyarországon, de a régió más országaiban is előszeretettel szolgáltatnak közérdekű adatokat .pdf formátumban a kormányzati szervek. A .pdf formátumnak a számos előnye mellett egy – az adatokkal való munka szempontjából óriási – hátránya van: az adatokat nem lehet szerkeszteni.
A közérdekű adatigénylésekre, például a KiMitTud oldalon, a válaszok nagy része .pdf-ben érkezik, ezt a formátumot használja letölthető dokumentumai számára gyakorlatilag mindenki.Egy-egy ilyen dokumentumból nehéz, sokszor szinte lehetetlen az adatokat olyan adatcsere (machine-readable) formátumra hozni, amit már könnyen lehet szerkeszteni, megtisztítani és különféle szempontok szerint rendezni.
A jó hír az, hogy számos módszer és alkalmazás létezik az adatok .pdf dokumentumból való kinyerésére – jelen poszt ezek közül röviden bemutat néhányat, lazán követve a School of Data leírásait. A rossz hír viszont, hogy nem létezik egyetlen, minden .pdf dokumentum esetén könnyen alkalmazható, hatékony módszer.
Aki ilyesmire adja a fejét, az készüljön fel arra, hogy kísérleteznie és fórumoznia kell, sok türelem és némi minimális programozási tudás sem árt.
Könnyebb eleve használható adatokat kérni
A .pdf-problémát a legkönnyebben úgy meg lehet kerülni, hogy adatigénylés benyújtásakor megkérjük az adatgazdát, hogy az adatokat a .pdf dokumentum mellett adatcsere formátumban (.xls, JSON, CSV, XML) is mellékelje. Ezt az adatgazda elvben könnyen teljesítheti, hiszen ők is valamilyen szerkeszthető formátumból exportálják .pdf-be az adatokat.
Ideális esetben, ha teljesítik a kérésünket, akkor lesz egy, szépen formázott, nyomtatóbarát .pdf formátumú dokumentumunk, és egy másik dokumentumunk, mellyel dolgozni lehet.
A vízválasztó: kép vagy szöveg alapú?
A .pdf dokumentumok alapvetően kétfélék: kép vagy szöveges alapúak. Előbbiek rendszerint a kinyomtatott, majd beszkennelt és képként .pdf-be exportált dokumentumok – ezeket úgy lehet felismerni, hogy sem a keresés (Ctrl+F) funkció, sem pedig a kijelölés (Ctrl+C) nem működik.
A szöveges alapú dokumentumokban működik a keresés és kijelölés funkció, éppen ezért a másolás, adatcsere formátumra hozás is könnyebb.
Ha kép alapú a dokumentum, az OCR megoldás
Valamilyen, Optical Character Recognition (OCR) szoftver a megoldás a kép alapú dokumentumok számára. Jelenleg az ABBYY Finereader a legelterjedtebb program, előnye, hogy a magyar nyelvet is felismeri. Hátránya, hogy csak korlátozott alkalommal futtatható ingyenesen – a korlátozás nélküli használathoz meg kell vásárolni. Több ingyenes alkalmazás is létezik – ezek nagyrészt a Google tulajdonában levő Tesseract-ra épülnek.
Ha a szkennelt dokumentum rossz minőségű, gyűrött, vagy foltos, esetleg a szöveg és a fehér felület közötti kontrasztot kell kiemelni, akkor az unpaper vagy a Scan Tailor lehet megoldás.
Fontos tudni, hogy kép alapú dokumentumok esetén a munkát sosem lehet teljesen automatizálni – ha nagy számú dokumentumot készül feldolgozni, akkor jó ötlet önkénteseket bevonni.
Szöveg alapú dokumentum: nyert ügy?
A szöveg alapú dokumentumokból adatokat kinyerni valamivel egyszerűbb. Egy-két oldal esetén akár egy egyszerű kijelölés-másolás-beillesztés is megoldás lehet, valamivel nagyobb fájlok esetén PDF to Excel vagy az Adobe saját programja elegendő lehet – számos hasonló alkalmazás van, elég neten rákeresni.
Nagyobb volumenű munka esetén a Tabula lehet a nyerő – a program Windows és Linux alatt is fut, és ingyenes. A programozáshoz konyító felhasználók ugyanakkor scraping-gel is próbálkozhatnak – a scraperwiki pdf-tagje itt elérhető.
Sipos Zoltán
Megosztás
Nélküled nincsenek sztorik.
Bankkártya
Átutalás
PayPal
1%
Így is támogathatsz
Támogasd a munkánkat banki átutalással. Az adományokat az Átlátszónet Alapítvány számlájára utalhatod. Az utalás közleményébe írd: „Adomány”, köszönjük!
Belföld
Külföld
Bankszámlaszám: 12011265-01425189-00100001 Bank neve: Raiffeisen Bank
Számlatulajdonos: Átlátszónet Alapítvány
1084 Budapest, Déri Miksa utca 10.
Ha az 1 százalékodat az Átlátszó céljaira, projektjeire kívánod felajánlani, a személyi jövedelemadó bevallásodban az Átlátszónet Alapítvány adószámát tüntesd fel: 18516641-1-42
Támogasd a munkánkat 10 ezer forint adománnyal, mi pedig megajándékozunk egy pólóval. Katt a részletekért.
Üvegvisszaváltással
Támogasd a munkánkat palackvisszaváltással, kattints az üvegvisszaváltós oldalra, mentsd el a kódunkat, és használd azt a Repontoknál!
Bankkártyával az AdjukÖssze.hu oldalon
Ha van bankkártyád, akkor pár kattintással gyorsan tudsz rendszeres vagy egyszeri támogatást beállítani nekünk az adjukossze.hu oldalán.
Postai befizetéssel
Postai befizetéssel is tudsz minket támogatni, amihez „sárga csekket” küldünk. Add meg a postacímedet, és már repül is a csekk.
Havi előfizetés a Patreonon
Néző, Szurkoló, B-közép és VIP-páholy kategóriás Átlátszó-előfizetések között válogathatsz a Patreonon.
Benevity rendszerén keresztül
Bárhol is dolgozol a világban, ha a munkáltatód lehetőséget ad arra, hogy adott összeget felajánlj egy nonprofit szervezetnek, akkor ne feledd, a Benevity-n keresztül az Átlátszónet Alapítvány is ajánlható.
SZJA 1% felajánlásával
Ha az 1 százalékodat az Átlátszó céljaira, projektjeire kívánod felajánlani, a személyi jövedelemadó bevallásodban az Átlátszónet Alapítvány adószámát tüntesd fel: 18516641-1-42
Egy másik ajánlattevőt pedig azért zártak ki, mert összekeverte a beadványokat, és egy teljesen más eljárás dokumentumait küldte be. Így a Mercarius lett a befutó.
A New Land Media nyerte a Nemzeti Kommunikációs Hivatal tenderét, amit a Visit Hungary és a Kisfaludy2030 Zrt. számára írtak ki. Az alvállalkozó a Századvég lesz.
Fiatalokért Központ néven épülne rendezvényhelyszín a Velencei-tó partjára, a beruházás hátterében ingatlan-tulajdonosként az orosz milliárdos Megdet Rahimkulov egyik fia is feltűnik.
Támogasd a munkánkat banki átutalással. Az adományokat az Átlátszónet Alapítvány számlájára utalhatod. Az utalás közleményébe írd: „Adomány”, köszönjük!