A PDF-eket képtelen feldolgozni a mesterséges intelligencia

A formátum milliószámra van jelen a digitális térben, de a nagy nyelvi modellek számára komoly kihívást jelent a feldolgozása.

Amikor az Adobe 1993-ban bemutatta a hordozható dokumentumformátumot, vagyis a PDF-et, a Gartner egyik tanácsadója úgy fogalmazott, hogy ez a legostobább ötlet, amelyről életében hallott. A felhasználóknak tétlenül kellett várniuk, amíg a megabájtos méretű fájlok letöltődnek a betárcsázós internetkapcsolaton keresztül, majd ismét várakozniuk kellett, amíg személyi számítógépük megjeleníti azokat. A szoftvergyártó igazgatótanácsa meg akarta szüntetni a projektet. A PDF azonban diadalmaskodott, különösen azt követően, hogy a kormányzatok nyomtatványokhoz kezdték használni. Napjainkban több mint 2,5 milliárd PDF kering a digitális térben. De vajon fennmarad-e ez a formátum az MI forradalma idején?

A gond gyökere a formátum természetében rejlik. A PDF-et az Adobe a kilencvenes évek elején azért hozta létre, hogy a dokumentumok mindenkinél pontosan ugyanúgy jelenjenek meg, függetlenül az eszköztől. A formátum nem logikai szerkezetben tárolja a szöveget, hanem vizuális utasítások sorozataként. A gép számára egy oldal nem bekezdések és címek rendszere, hanem karakterkódok és koordináták halmaza. Az optikai karakterfelismerés képes ugyan képpé alakított szövegből betűket csinálni, de ha az oldal több hasábot, táblázatot, lábjegyzetet vagy diagramot tartalmaz, könnyen értelmezhetetlen zagyvaság lesz az eredmény.

A PDF-eknek ma is vannak hátrányai. Okostelefonon nehézkes a megtekintésük. Az adatok kimásolása körülményes belőlük. A vak emberek számára képernyőt felolvasó szoftveres eszközök nehezen boldogulnak a PDF-ekkel. A fájltípus, amely felett az Adobe 2008-ban lemondott az ellenőrzésről, egyben a rosszindulatú szoftverek hordozója is lehet: a Check Point kiberbiztonsági vállalat szerint az e-mail alapú kibertámadások egyötöde PDF mellékleteket használ.

Az utóbbi időben egy újabb bírálati forrás is megjelent. A generatív MI alapját képező nagy nyelvi modelleket gyakran zavarba hozzák a PDF-ek, például egy több hasábba tördelt oldalt balról jobbra olvasnak ahelyett, hogy fentről lefelé haladnának, vagy összezavarodnak az élőfejek és láblécek miatt. A webes adatgyűjtések főként HTML alapú oldalakat tartalmaztak, miközben a legértékesebb tartalmak jelentős része, kormányzati jelentések, tankönyvek, tudományos cikkek, éppen PDF-ben érhető el. A PDF-ek elemzésével kapcsolatos nehézségek az egyik okai annak, hogy az MI chatbotok időnként értelmetlen dolgokat hallucinálnak.

Az utóbbi egy évben ezért specializált PDF olvasó modellek jelentek meg. Ezek nem egyszerűen szöveget próbálnak kinyerni, hanem először felismerik az oldal szerkezetét, elkülönítik a címsorokat, táblázatokat, ábrákat és lábjegyzeteket, majd külön modellekkel dolgozzák fel az egyes elemeket. Egy grafikon például más feldolgozást igényel, mint egy bekezdés vagy egy űrlap. A több lépcsős megközelítés látványosan javította a pontosságot, de a probléma még messze nem tekinthető teljesen megoldottnak.

A kihívás hasonlít az önvezető autókéhoz. Könnyű megtanítani a rendszert arra, hogy az esetek nagy részében helyesen működjön, de a ritka, furcsa, rossz minőségű vagy szokatlan dokumentumok mindig újabb hibalehetőséget jelentenek. Egy rosszul beszkennelt orvosi űrlap, egy áthúzásokkal teli jogi dokumentum vagy egy másik PDF-et tartalmazó PDF még a legjobb modelleket is megakaszthatja. Ráadásul az MI rendszerek valószínűségi alapon működnek, így százszázalékos garancia soha nem adható.

Duff Johnson, a PDF Association vezetője, a formátum egyik védelmezője ugyanakkor azt állítja, hogy a hiba nem a fájltípusban, hanem bennünk keresendő. Szerinte semmi sem indokolja, hogy a fejlesztők ne tudnának olyan botokat készíteni, amelyek képesek a PDF-ek használatára. Az Acrobatba, az Adobe PDF olvasójába beépített MI asszisztens éppen erre szolgál, mutat rá Leonard Rosenthol, a szoftvergyártó PDF szakértője. A MI egyik vezető szereplője, a Google szintén bevezetett egy eszközt a Gemini modelljeit használó fejlesztők számára, amely megkönnyíti a PDF-ek feldolgozását. Lehetséges, hogy a formátum uralma mégsem hal ki.

A formátum azért terjedt el, mert megbízható, időtálló és mindenkinél ugyanúgy jelenik meg. Egy több évtizedes dokumentum ma is gond nélkül megnyitható. Jogászok, mérnökök, kormányzati intézmények számára ez a stabilitás létfontosságú. Más formátumok jöttek és mentek, de a PDF maradt. Valószínűbb tehát, hogy nem a PDF tűnik el az MI korszakában, hanem az MI tanulja meg egyre jobban értelmezni a PDF-et. Ahogy a fejlesztők ráébredtek, hogy a legértékesebb tudás jelentős része ebben a formátumban rejtőzik, egyre több erőforrást fordítanak a feldolgozására.

A PDF-eket képtelen feldolgozni a mesterséges intelligencia

Kapcsolódó cikkek és linkek

Hozzászólások