Egyéb

Hogy elemeznek az újságírók hosszú szövegeket?

Mit csinál egy újságíró akkor, ha félelmetes mennyiségű szöveg szakad rá? Egyesével olvassa el őket? Jobban jár, ha adatelemzőkhöz és kutatókhoz fordul, akik az elmúlt évek során áttöréseket értek el a szövegbányászat terén. Az alábbi cikkben bemutatunk néhány módszert és példát.

Ha nagy mennyiségű, rendszerezetlen adattal találjuk szembe magunkat, az a legtöbb esetben nagy falatot jelent. A legtöbb adat nincs megfelelően rendszerezve a kutatásokhoz, így előtte fel kell dolgozni őket. Ez szövegek esetében különösen nehéz, ugyanis nem mennyiségeket jelölő számokkal kell foglalkozni, hanem a szövegek valamilyen absztrakciójával. Miután egy szövegfelismerő szoftverrel felismertük a szöveget és szerkeszthetővé varázsoltuk, még mindig ott áll előttünk egy végeláthatatlan anyag.

Hasonló problémával találkoztak a Panama-akták feldolgozói is. Különböző műfajú (szerződés, jelentés, informális levél stb.) iratok tömkelegét kellett rendszerezniük. A 11.5 millió kiszivárgott dokumentum közel fele email volt, és nagy mennyiségben találhattak még benne adatbázisokat, szerződéseket, képeket. Az Oknyomozó Újságírók Nemzetközi Társulása (ICIJ) és a Süddeutsche Zeitung az alábbiakban is bemutatott módszereket használták, hogy lerántsák a leplet számos politikus, színész, sportoló, szervezet, és cég offshore üzelmeiről.

 

Névelem-felismerés

A névelem-felismerés célja, hogy bizonyos típusú szavakat, kifejezéseket szűrjön ki. Nevek, helyek, dátumok, összegek mind kiszűrhetők a szövegekből. Ennek alapja lehet egy szótár (aminek elemeit csupán keresi a szövegben), illetve egy nyelvtani algoritmus, ami az adott nyelv jellegzetességeinek megfelelve emeli ki a fontos részeket. Gépi tanulással is lehet próbálkozni, itt egy darabig egyengetjük egy algoritmus útját, hogy a mi visszajelzéseinkből tanulva az egyre pontosabb legyen. És ezek valóban pontos módszerek, manapság közel ugyanolyan jól működnek, ahogy emberek tennék azt. Az alábbi mondaton bemutatjuk, hogy mire képes.

 

Orbán Viktor és Gyurcsány Ferenc közös belizei offshore cégük, a VityaFecó Kft. segítségével tibeti kismacskákat vesznek, amiket aztán megesznek.

 

Az algoritmus pedig a következő eredményt adja:

 

Orbán Viktor(személy) és Gyurcsány Ferenc(személy) közös belizei(hely) offshore cégük, a VityaFecó Kft.(szervezet) segítségével tibeti(hely) kismacskákat(állat) vesznek, amiket aztán megesznek.

 

A felismerés lehetővé tette a szövegek azonnali címkézését, így azonnal áttekinthetővé és kereshetővé válik nem csak az adott elem, hanem ezek együttelőfordulása is. Tehát egy kutató másodpercek alatt lekérheti, hogy szerepelt-e egy dokumentumban egyszerre több keresési feltétel. A Panama-aktáknál kifejezetten sokat használták ezt a módszert, lényegében mindent átfuttattak rajta. Jennifer Golan és Shane Shifflet például arra használta, hogy bizonyítsa, kaliforniai szövetségi bírók jelentősen kedvezőbb ítéleteket hoznak olyan cégek számára, akikben van részvényrészesedésük.

 

Topikmodellezés

A topikmodellezés (vagy témamodellezés) célja, hogy absztrakt témákat fedezzen fel a szövegekben. Ehhez bizonyos kifejezések együttelőfordulását használja fel, vagyis egymáshoz hasonló szavakat emel ki témáknak, majd ezeket a témákat a szövegekhez sorolja. Tehát ha egy témának kiemeli az adó, járulék, bevétel, nyereség szavakat, akkor ez egy pénzügyi téma lesz. Ahol csont, szőr, csaholás szavakkal találkozunk, akkor az jó eséllyel kutyákról fog szólni. A dokumentumokhoz pedig valószínűségekkel hozzárendeli a témákat, tehát jelen esetben a Rex felügyelő című sorozat könyvelőgyilkossággal foglalkozó részének forgatókönyve az első és a második témára 20% és 80% témabesorolásokat kapna.

2014-ben a Reuters újságírói azt vizsgálták, hogy tíz év alatt az USA Legfelsőbb Bírósága miért csupán egy nagyon szűk körben hallgatja meg a beadványokat. Kik ezek az ügyvédek, és miért vannak ilyen kevesen? Kézi és gépi munkával együttesen képesek voltak megállapítani, hogy néhány tucat ügyvéd, akik jellemzően nagy cégek megbízottjai, aránytalanul sokszor fejthetik ki a véleményüket és érveiket a bíráknak.

 

Érzelemfelismerés

A érzelemfelsimerő algoritmusok nyelvtan és kifejezések alapján próbálják meg kideríteni, hogy egy-egy szövegrészlet milyen érzelmi töltetű. Ha ezt kombinálják a névelemfelismeréssel, akkor könnyenn kiszűrhető, hogy mondjuk bizonyos személyekkel, pozíciókkal szemben hogy jelentenek az újságok. A Washington Post újságírói arra derítettek fényt 2014-ben, hogy a USAID (az USA nemzetközi segélyszervezete) vezetői jelentősen átírták a nyilvános jelentések vázlatait, így 12 jelentésből összesen 400 negatív jelzőt távolítottak el.

 

Klasszifikáció

A klasszifikációs algoritmusok csoportosítanak dokumentumokat a bennük található kifejezések gyakorisága, súlya, néha akár jelentése alapján is. 2016-ban atlantai újságírók százezernél is több orvosi fegyelmi iratot vizsgáltattak át, hogy megtudják annak a mértékét, ahogy orvosok foglalkozási körben elkövetett szexuális zaklatás vagy bántalmazás után is tovább praktizálhattak. Néhány száz dokumentumot kézzel jelöltek meg, hogy ez szolgáljon tanulási alapként az algoritmus számára, majd ráeresztették az algoritmust a többi dokumentumra. Felfedték, hogy tömeges méretekben létezik a jelenség, és van egy szűk kör, akik számos alkalommal úszták meg a fegyelmezést.

Az LA Times 2015-ben hozta le a sztorit, miszerint a rendőrség közel egy évtizeden keresztül aluljelentette a súlyos testi sértéssel járó eseteket, és apróbb szabálysértésként tüntette fel őket. Ezzel nyilván a saját megítélésükön akartak javítani, de a klasszifikáció leleplezte ezt. Nyolc év alatt valójában 7%-kal több erőszakos cselekmény, és 16%-kal több súlyos testi sértés volt, mint azt jelentették.

 

Információátadás

Számos dokumentumot sikeresen lehet csoportosítani azzal, hogy mennyire hatékonyan ad át információt. A Zipf-törvény, mely többé-kevésbé áll az összes természetes szövegre, egy egyensúlyi állapotot mutat be a szavak gyakorisága között. Ha sorrendbe állítjuk a szavakat gyakoriság szerint, akkor a listán haladással ellentétes arányosságot mutat a szavak gyakorisága a helyzetükkel, és ez az arányosság pontosan leírható. Ha a várt arányosságnál kompaktabb a szöveg, ott jó eséllyel szakmai iratokról beszélhetünk, például szerződésekről. A jog merev fogalmazása és tömörsége nem találja meg az egyensúlyt a küldő és a fogadó között, ugyanis pont a precizitás folytán nehezebb dekódolni – hiszen nincs kiegészítés, keret, mese, ami segít ebben. Az emailek és jegyzőkönyvek viszont pont, hogy kevésbé korlátozottak, ugyanis kötetlenebb formát jegyeznek.

Megosztás

Nélküled nincsenek sztorik.

  • Átutalás
  • PayPal
  • Így is támogathatsz

Támogasd a munkánkat banki átutalással. Az adományokat az Átlátszónet Alapítvány számlájára utalhatod. Az utalás közleményébe írd: „Adomány”, köszönjük!

  • Belföld
  • Külföld

Számlatulajdonos: Átlátszónet Alapítvány
1084 Budapest, Déri Miksa utca 10.

Bankszámlaszám: 12011265-01425189-00100001
Bank neve: Raiffeisen Bank

Számlatulajdonos: Átlátszónet Alapítvány
1084 Budapest, Déri Miksa utca 10.

IBAN (EUR): HU36120112650142518900400002
IBAN (USD): HU36120112650142518900500009
SWIFT: UBRTHUHB
Bank neve és címe: Raiffeisen Bank
(H-1133 Budapest, Váci út 116-118.)

Támogasd a munkánkat az Átlátszónet Alapítványnak küldött PayPal adománnyal! Köszönjük.

Havi 5400 Ft Havi 3600 Ft Havi 1800 Ft Egyszeri PayPal támogatás
  • ikon

    Bankkártyával az AdjukÖssze.hu oldalon

    Ha van bankkártyád, akkor pár kattintással gyorsan tudsz rendszeres vagy egyszeri támogatást beállítani nekünk az adjukossze.hu oldalán.

  • ikon

    Postai befizetéssel

    Postai befizetéssel is tudsz minket támogatni, amihez „sárga csekket” küldünk. Add meg a postacímedet, és már repül is a csekk.

  • ikon

    Havi előfizetés a Patreonon

    Néző, Szurkoló, B-közép és VIP-páholy kategóriás Átlátszó-előfizetések között válogathatsz a Patreonon.

  • ikon

    Benevity rendszerén keresztül

    Bárhol is dolgozol a világban, ha a munkáltatód lehetőséget ad arra, hogy adott összeget felajánlj egy nonprofit szervezetnek, akkor ne feledd, a Benevity-n keresztül az Átlátszónet Alapítvány is ajánlható.

  • ikon

    SZJA 1% felajánlásával

    Ha az 1 százalékodat az Átlátszó céljaira, projektjeire kívánod felajánlani, a személyi jövedelemadó bevallásodban az Átlátszónet Alapítvány adószámát tüntesd fel: 18516641-1-42