2024. október 30. 09:08, Szerda
A világmodelleket - más néven világszimulátorokat - egyesek a mesterséges intelligencia következő nagy dobásaként emlegetik. A mesterséges intelligencia úttörője, Fei-Fei Li World Labs nevű cége 230 millió dollárt gyűjtött össze „nagy világmodellek” létrehozására, a DeepMind pedig az OpenAI videógenerátorának, a Sora-nak egyik alkotóját vette fel, hogy a „világszimulátorokon” dolgozzon.
A világmodellek az emberek által a világról természetesen kialakított mentális modellekből merítenek ihletet. Agyunk az érzékszerveinkből származó absztrakt reprezentációkat vesz át és formálja őket a körülöttünk lévő világ konkrétabb megértéséhez, létrehozva azt, amit modelleknek nevezünk. Az agyunk által e modellek alapján készített előrejelzések befolyásolják hogyan érzékeljük a világot. David Ha és Jürgen Schmidhuber mesterséges intelligenciával foglalkozó kutatók
tanulmánya egy baseball játékos példáját hozza fel. Az ütőknek ezredmásodpercek állnak rendelkezésükre, hogy eldöntsék, hogyan lendítsék az ütőt - ez rövidebb idő, mint amennyi idő alatt a vizuális jelek eljutnak az agyba. Schmidhuber szerint azért tudnak 150 kilométer per órás sebességgel ütni, mert ösztönösen meg tudják jósolni, hova fog menni a labda.
"A profi játékosoknál mindez tudat alatt történik” - írja a kutatópáros. "Az izmaik reflexszerűen a megfelelő időben és helyen lendítik az ütőt a belső modelljeik előrejelzéseinek megfelelően. Gyorsan tudnak cselekedni a jövőre vonatkozó jóslataik alapján anélkül, hogy tudatosan végiggörgetnék a lehetséges jövőbeli forgatókönyveket, hogy tervet alkossanak.” A világmodelleknek ezek a tudatalatti érvelési aspektusai azok, amelyek egyesek szerint az emberi szintű intelligencia előfeltételei.
Bár a koncepció már évtizedek óta létezik, a világmodellek az utóbbi időben részben a generatív videók területén való ígéretes alkalmazásuk miatt váltak népszerűvé. A legtöbb - ha nem is az összes - mesterséges intelligencia által generált videó egy idő után nagyon fura lesz. Ha elég sokáig nézzük őket, valami bizarr dolog fog történni, például végtagok csavarodása és egymásba olvadása. Bár egy videókon betanított generatív modell pontosan megjósolhatja, hogy egy kosárlabda hogyan pattan, valójában fogalma sincs arról, hogy miért - ahogyan a nyelvi modellek sem értik igazán a szavak és mondatok mögötti fogalmakat. De egy olyan világmodell, amely akár csak alapvetően is érti, hogy miért pattan úgy a kosárlabda, ahogyan pattan, jobban meg tudja majd mutatni, hogy azt a dolgot csinálja.
Az ilyen jellegű meglátások lehetővé tétele érdekében a világmodelleket különböző adatokon - például fényképeken, hanganyagokon, videókon és szövegeken - képzik azzal a céllal, hogy belső reprezentációkat hozzanak létre a világ működéséről, és képesek legyenek következtetni a cselekvések következményeire. "A néző elvárja, hogy a világ, amelyet néz, a valóságához hasonlóan viselkedjen” - mondta Mashrabov. "Ha egy leeső toll egy satu tömegével puffan a földön, vagy egy bowlinggolyó több száz méter magasra repül a levegőbe, az megrázó, és kiragadja a nézőt a pillanatból. Egy erős világmodellel ahelyett, hogy az alkotó definiálná, hogyan kell mozognia az egyes tárgyaknak - ami fárasztó, nehézkes és rossz időtöltés -, a modell megérti ezt.”
A jobb videógenerálás azonban csak a jéghegy csúcsa a világmodellek esetében. A kutatók, köztük Yann LeCun, a Meta vezető mesterséges intelligencia kutatója szerint a modelleket egy nap kifinomult előrejelzésre és tervezésre lehet majd használni mind a digitális, mind a fizikai világban. LeCun az év elején egy előadásában leírta, hogy egy világmodell hogyan segíthet egy kívánt cél elérésében az érvelés segítségével. A világ alapreprezentációjával (pl. egy koszos szobáról készült videó) rendelkező modell egy cél (tiszta szoba) ismeretében a cél eléréséhez szükséges cselekvéssorozatot találhat ki (porszívó bevetése a söpréshez, mosogatás, szemét kiürítése), de nem azért, mert ezt a mintát megfigyelte, hanem mert mélyebb szinten tudja, hogyan lehet a kosztól a tisztaságig eljutni.
"Olyan gépekre van szükségünk, amelyek megértik a világot, amelyek emlékeznek dolgokra, amelyeknek van intuíciójuk, józan eszük - olyan dolgokra, amelyek ugyanolyan szinten tudnak gondolkodni és tervezni, mint az emberek” - mondta LeCun. „Annak ellenére, amit a leglelkesebb emberektől hallhattunk, a jelenlegi mesterséges intelligencia rendszerek minderre nem képesek”. Bár LeCun becslése szerint még legalább egy évtizedre vagyunk az általa elképzelt világmodellektől, a mai projektek ígéretesnek mutatkoznak, mint elemi fizikai szimulátorok.
Az OpenAI blogjában megjegyzi, hogy a
Sora - amelyet világmodellnek tekint - olyan cselekvéseket képes szimulálni, mint például egy festő, aki ecsetvonásokat hagy a vásznon. Az olyan modellek, mint a Sora hatékonyan képesek szimulálni a videojátékokat is. A Sora például képes egy Minecraft-szerű felhasználói felületet és játékvilágot megjeleníteni. A jövőbeli világmodellek képesek lehetnek 3D-s világok igény szerinti generálására játékhoz, virtuális fotózáshoz és más célokra -
mondta a World Labs társalapítója, Justin Johnson az a16z podcast egyik epizódjában. "Már képesek vagyunk virtuális, interaktív világok létrehozására, de ez több száz millió dollárba és rengeteg fejlesztési időbe kerül” - mondta Johnson. „A világmodellek lehetővé teszik, hogy ne csak egy képet vagy egy klipet adjunk ki, hanem egy teljesen szimulált, élénk és interaktív 3D-s világot.”
Ez nem egy Minecraft felvétel, hanem egy Sora által generált videó
Bár az elképzelés csábító, számos technikai kihívás áll az útjában. A világmodellek képzése és futtatása még a generatív modellek által jelenleg használt teljesítményhez képest is hatalmas számítási kapacitást igényel. Míg a legújabb nyelvi modellek némelyike egy modern okostelefonon is futtatható, a Sora tréningjéhez és futtatásához több ezer GPU-ra van szükség, különösen, ha az ilyenek használata általánossá válik. A világmodellek - mint minden MI-modell - szintén hallucinálnak, és internalizálják a képzési adataikban lévő torzításokat. Egy olyan világmodell, amelyet nagyrészt európai városok napsütéses időjárásáról készült videókon képeztek ki, nehezen vagy egyszerűen csak helytelenül értheti meg vagy ábrázolhatja például a koreai városokat havas körülmények között.
A képzési adatok általános hiánya azzal fenyeget, hogy súlyosbítja ezeket a problémákat, mondja Mashrabov. "Láttuk, hogy a modelleket valóban korlátozzák egy bizonyos típusú emberek generációi” - mondta. "A világmodellhez szükséges képzési adatoknak elég széleskörűnek kell lenniük ahhoz, hogy sokféle forgatókönyvet lefedjenek, de ugyanakkor nagyon specifikusnak is, hogy a mesterséges intelligencia mélyen megértse az adott forgatókönyvek árnyalatait.”
Egy
bejegyzésében a Runway AI startup vezérigazgatója, Cristóbal Valenzuela azt írja, hogy az adatok és a mérnöki problémák megakadályozzák, hogy a mai modellek pontosan megragadják egy világ lakóinak (az embereknek és az állatoknak) a viselkedését. "A modelleknek konzisztens térképeket kell majd generálniuk a környezetről” - mondta - "és meg kell szerezniük azt a képességet, hogy navigáljanak és interakcióba lépjenek ezekben a környezetekben." Ha azonban sikerül minden fontos akadályt leküzdeni, Mashrabov úgy véli, hogy a világmodellek robosztus hidat képezhetnek a mesterséges intelligencia és a valós világ között - ami nemcsak a virtuális világok generálásában, hanem a robotika és a mesterséges intelligencia döntéshozatalában is áttörést hozhat.
A robotok ma korlátozottak abban, amit tehetnek, mert nem ismerik a körülöttük lévő világot (sem a saját testüket). A világmodellek ezt a tudatosságot adhatják meg nekik, mondta Mashrabov - legalábbis egy bizonyos pontig. "Egy fejlett világmodell segítségével a mesterséges intelligencia személyes megértést alakíthat ki arról a helyzetről, amelybe belekerül” - mondta - "és elkezdhet következtetni a lehetséges megoldásokra".