Az MI képgenerátorok valójában nem tudnak olvasni

2024. március 25. 21:05, Hétfő

A mesterséges intelligenciák könnyedén teljesítenek egy középiskolai felvételi vizsgát, legyőzik a sakknagymestereket, és úgy írnak programsorokat, mintha az semmiség lenne. De ha egy mesterséges intelligenciát egy középiskolással állítunk szembe a helyesírási versenyen, gyorsabban kiesik, mint ameddig ennek a bekezdésnek az elolvasása tartott.

A mesterséges intelligencia minden fejlődése ellenére még mindig nem ismeri a betűket. Ha megkérnénk a DALL-E-hez hasonló szöveg-kép generátorokat, hogy készítsenek étlapot egy étterem számára, a tengernyi halandzsa között talán lenne a végeredményen néhány étvágygerjesztő elem, mint például a "leevs" vagy a "palcsnita". És bár a ChatGPT képes megírni egy levelet, de komikusan inkompetens, amikor egy olyan 10 betűs szót kérünk tőle, amelyben nincs "A" vagy "E" betű. Ismert tény, hogy a képgenerátorok általában sokkal jobban teljesítenek az olyan dolgok reprodukálásában, mint az autók és az emberek arca, és kevésbé az olyan kisebb dolgokon, mint az ujjak és a kézírás.

A kép- és szöveggenerátorok mögöttes technológiája eltérő, mégis mindkét modell hasonló nehézségekkel küzd az olyan részleteknél, mint a helyesírás. A képgenerátorok általában diffúziós modelleket használnak, amelyek a képet zajból rekonstruálják. A szöveggenerátorok esetében a nagy nyelvi modellek (LLM) úgy tűnhetnek, mintha emberi agyként olvasnának és reagálnának a kérésekre, de valójában összetett matematikai módszereket használnak arra, hogy a kérés mintáját összevessék egy tárolt mintával, és a mintát egy válasszal folytassák. És egy képen az írás egy nagyon-nagyon apró rész, a képgenerátor pedig azokat a mintákat tanulja meg, amelyek több pixelt fednek le.

Az algoritmusokat arra ösztönzik, hogy újraalkossanak valamit, ami úgy néz ki, mint amit a képzési adatokban látott, de nem ismeri azokat a szabályokat, amelyeket mi eleve természetesnek veszünk: például hogy egy emberi kéznek öt ujja van, avgy hogy a "hello" szót nem "heeelllooo"-nak írják. "Még tavaly is az összes ilyen modell nagyon rossz volt az ujjakkal kapcsolatban, és itt pontosan ugyanaz a probléma, mint a szövegnél" - mondta Matthew Guzdial, az Albertai Egyetem MI-kutatója és adjunktusa. "Helyenként már nagyon jók benne, és a generált szövegnél is azt tudjuk mondani, hogy ez úgy néz ki, mint egy 'H', ez meg úgy néz ki, mint egy 'P', de a kép egésze nagyon rosszul van struktúrálva."

A mérnökök ezeket a problémákat úgy próbálják orvosolni, hogy az adatkészleteiket olyan képzési modellekkel egészítik ki, amelyeket kifejezetten arra terveztek, hogy megtanítsák a mesterséges intelligenciának, hogyan kell kinéznie a kezeknek. A szakértőknek azonban fogalmuk sincs, hogy a helyesírási problémákat hogyan tudnák hasonlóképpen gyorsan megoldani. "Ha valami hasonlót csinálunk, azaz létrehozunk egy csomó szöveget, akkor azokkal betanítható egy modell, amely megpróbálja felismerni, hogy mi a jó és mi a rossz. Ez talán egy kicsit javítana a helyzeten. De sajnos a nyelv nagyon bonyolult" - mondta Guzdial. A kérdés pedig még bonyolultabbá válik, ha figyelembe vesszük, hogy a mesterséges intelligenciának hány különböző nyelven kell megtanulnia.

Egyes modelleket - például az Adobe Firefly-t - úgy tréningezik, hogy egyáltalán ne generáljon szöveget. Ha valami egyszerűt adunk be, mint például "éttermi menü" vagy "hirdetőtábla reklámmal", akkor egy vacsoraasztalon lévő üres papír képét kapjuk, vagy egy fehér hirdetőtáblát az autópályán. De ha valaki elég részletesen adja meg a promptot, akkor ezeket a korlátokat könnyű megkerülni. "Mintha egy több helyen lyukas edényt próbálnánk meg befogni: 'Oké, sokan panaszkodnak a kezekre, a következő modellhez hozzáadunk egy új, csak a kezekre koncentráló dolgot', és így tovább, és így tovább" - mondta Guzdial. "De a szöveg sokkal nehezebb. Emiatt még a ChatGPT sem tud betűzni."
* A Redditre, a YouTube-ra és az X-re néhányan feltöltöttek olyan videókat, amelyekben bemutatják, hogy a ChatGPT nem tud helyesen írni ASCII artban, egy korai internetes művészeti formában, amely szöveges karaktereket használ a képek létrehozásához. Egy nemrégiben készült videóban - amelyet "prompt engineering hero's journey"-nek neveztek el - valaki fáradságos munkával megpróbálja végigvezetni a ChatGPT-t egy olyan ASCII art alkotáson, amelyen az áll, hogy "Honda". Végül sikerrel járnak, de eközben brutális megpróbáltatásokon megy át a felhasználó.

I thought Dune 2 was the best movie of 2024 until I watched this masterpiece (sound on). pic.twitter.com/W9WRhq9WuW
— Peter Yang (@petergyang) March 7, 2024

Alapjában véve az LLM-esek egyszerűen nem értik, hogy mik azok a betűk, még akkor sem, ha másodpercek alatt meg tudnak írni egy szonettet. "Az LLM-ek ezen a transzformátor-architektúrán alapulnak, ami valójában nem szövegolvasás. Egy prompt beírásakor azt lefordítják egy kódolásra" - mondta Guzdial. "Amikor a gép meglátja a "the" szót, rendelkezik ezzel az egy kódolással arról, hogy mit jelent a "the", de nem tud a "T"-ről, a "H"-ról, az "E"-ről." Ezért van az, hogy amikor a ChatGPT-t arra kérik, hogy készítsen egy listát nyolcbetűs szavakból, amelyekben nincs "O" vagy "S", akkor az esetek felében hibásan válaszol. Valójában nem tudja, hogy mi az az "O" vagy "S".

Bár a rossz éttermi étlapokról készült DALL-E képek viccesek, a mesterséges intelligencia hiányosságai hasznosak is, mert így azonosíthatók a téves információk. Amikor azt próbáljuk kideríteni, hogy egy kétes értékű kép valódi vagy mesterséges intelligencia által generált, érdemes azon utcai táblákat, a pólókon lévő szövegeket, könyvoldalakat vagy bármit egyebet nézni, ahol egy véletlenszerű betűsor elárulhatja a kép szintetikus eredetét. Ugyanez igaz a kezekre is, egy hatodik (vagy hetedik, vagy nyolcadik) ujj is árulkodó lehet - például az angol királyi család legutóbbi fotójának legfurcsább részlete Kate Middleton gyerekének keze.

Guzdial szerint azonban, ha elég alaposan megnézzük, nem csak az ujjakat és a helyesírást rontja el a mesterséges intelligencia. "A modellek állandóan elkövetnek apró, helyi hibákat, és ha tudjuk mit kell keresnünk, könnyen felismerhetünk néhányat közülük" - mondta. Egy átlagember számára például könnyen hihető lehet egy MI által generált kép egy zeneboltról. De valaki, aki egy kicsit is ért a zenéhez, ugyanezt a képet látva észreveheti, hogy néhány gitárnak hét húrja van, vagy hogy a zongorán a fekete és fehér billentyűk rosszul vannak elosztva. Bár a mesterséges intelligencia-modellek riasztó ütemben fejlődnek, gyakran lehet még hasonló problémákkal találkozni.

Kapcsolódó cikkek

Listázás a fórumban