Szövegből generál videót az OpenAI új eszköze

Szövegből generál videót az OpenAI új eszköze

2024. február 15. 22:43, Csütörtök
A mesterséges intelligencia vezető vállalata, az OpenAI bemutatta a Sora nevű új MI-modellt, amely állítása szerint szöveges utasításokból 60 másodperces "valósághű" és "fantáziadús" videókat készít.

A mai blogbejegyzésben a vállalat azt írja, hogy a Sora képes akár 60 másodperces fotorealisztikus videókat is létrehozni szöveges utasításokból, és képes "összetett jelenetek létrehozására több szereplővel, meghatározott típusú mozgással, valamint a téma és a háttér pontos részleteivel". A vállalat azt is megjegyzi, hogy a modell képes megérteni, hogy a tárgyak "hogyan léteznek a fizikai világban", valamint "pontosan értelmezi a kellékeket és lenyűgöző karaktereket generál, amelyek élénk érzelmeket fejeznek ki". A modell nemcsak azt érti meg, hogy a felhasználó mit kért a promptban, hanem azt is, hogy ezek a dolgok hogyan léteznek a fizikai világban" - áll a blogbejegyzésben. Az OpenAI a mesterséges intelligenciamodellt úgy kívánja betanítani, hogy azok "segíthessenek az embereknek a valós világbeli interakciót igénylő problémák megoldásában".

A modell képes állókép alapján videót generálni, valamint egy meglévő videón hiányzó képkockákat kitölteni vagy bővíteni. Az OpenAI blogbejegyzésében szereplő, Sora által generált demók között szerepel többek között egy légi jelenet Kaliforniáról az aranyláz idején, és egy olyan videó, amely úgy néz ki, mintha egy tokiói vonat belsejéből vették volna fel. Sokukban felfedezhetőek a mesterséges intelligencia árulkodó jelei - például egy múzeumról készült videóban a gyanúsan mozgó padló -, és az OpenAI szerint a modell "küzdhet a komplex jelenetek fizikájának pontos szimulálásával", de az eredmények összességében elég lenyűgözőek.


A lépéssel a ChatGPT mögött álló cég bebizonyította, hogy továbbra is ők állnak a generatív MI mozgalom élén, mert bár a "multimodális modellek" nem újdonságok, és szöveg-videó modellek már léteznek, Reece Hayden, az ABI Research piackutató cég vezető elemzője szerint a Sora által készített anyagok hossza és pontossága egyedülálló. Hayden szerint az ilyen típusú MI-modellek nagy hatással lehetnek a digitális szórakoztatóipari piacokra az új, személyre szabott tartalmak létrehozásával. "Az egyik nyilvánvaló felhasználási terület a televíziózáson belül van; rövid jelenetek létrehozása a narratívák támogatására" - mondta Hayden. "A modell ugyan még korlátozott, de mutatja a piac irányát".


Az OpenAI kiemeli, hogy a Sora egy fejlesztés alatt álló eszköz, amelynek egyértelmű gyengeségei vannak, különösen, amikor egy felszólítás térbeli részleteiről van szó, például a bal és a jobb oldal összekeverése és az ok-okozatiság. Példaként a cég azt hozta fel, hogy lehet olyan videót lehet készíteni, amelyen valaki beleharap egy sütibe, de közvetlenül utána nincs harapásnyom. Az OpenAI üzenetei egyelőre továbbra is a biztonságra összpontosítanak: a vállalat egy szakértői csapattal teszteli a modellt, és alaposan megvizsgálja a különböző területeket, köztük a félretájékoztatást, a gyűlöletkeltő tartalmakat és az elfogultságot. A vállalat elmondta, hogy olyan eszközöket is fejleszt, amelyek segítenek a félrevezető információk felismerésében.

Néhány évvel ezelőtt a Midjourney-hez hasonló szöveg-kép generátorok voltak az élen, az utóbbi időben azonban a mozgókép is figyelemre méltó ütemben kezdett fejlődni: az olyan cégek, mint a Runway és a Pika saját, lenyűgöző szövegből videót készítő modelleket mutattak be, és a Google Lumiere-je az OpenAI egyik fő versenytársa lesz ezen a téren is. A Sora először a kiberbiztonsági szakértők számára lesz elérhető, akik értékelhetik a terméket ártalmak és kockázatok szempontjából. Emellett hozzáférést biztosít számos képzőművésznek, tervezőnek és filmkészítőnek, hogy visszajelzéseket gyűjtsenek arról, hogyan használhatnák a kreatív szakemberek.

Listázás a fórumban 
Adatvédelmi beállítások