Videókhoz generál hangsávot a DeepMind MI-jeInformatika és tudomány
Videókhoz generál hangsávot a DeepMind MI-je
2024. június 18. 21:28, Kedd
A DeepMind, a Google mesterséges intelligenciával foglalkozó kutatólaboratóriuma azt állítja, hogy olyan mesterséges intelligencia-technológiát fejleszt, amely hangsávot generál a videókhoz.
A DeepMind a hivatalos blogján közzétett bejegyzésében azt írja, hogy a V2A (a "video-to-audio" rövidítése) elnevezésű technológiát az MI által generált médiatartalmak lényeges darabjának tekintik. Bár rengeteg orgánum - köztük a DeepMind is - fejlesztett már ki videókat generáló MI-modelleket, ezek nem képesek az általuk generált videókkal szinkronizált hanghatásokat létrehozni. "A videógeneráló modellek hihetetlen ütemben fejlődnek, de sok jelenlegi rendszer csak néma kimenetet képes generálni" - írja a DeepMind. "A V2A technológia ígéretes megközelítéssé válhat a generált filmek életre keltéséhez".
A DeepMind V2A technológiája egy videóhoz párosított hangsáv leírását (pl. "víz alatt pulzáló medúzák, tengeri élővilág, óceán") veszi alapul, hogy a DeepMind mélyhamisítások elleni SynthID technológiájával vízjelezve a videó karaktereinek és hangszínének megfelelő zenét, hangeffekteket, sőt párbeszédeket is létrehozzon. A V2A-t működtető MI-diffúziós modellt hangok és párbeszéd-átiratok, valamint videoklipek kombinációján képezték ki - állítja a DeepMind. "A videón, hangon és a kiegészítő megjegyzéseken való edzéssel technológiánk megtanulja, hogy konkrét hangeseményeket társítson különböző vizuális jelenetekhez, miközben reagál a megjegyzésekben vagy átiratokban szereplő információkra" - olvasható a DeepMind közleményében. Arról, hogy a tréningadatok szerzői jogvédelem alatt álltak-e - és hogy az adatok készítőit tájékoztatták-e a DeepMind munkájáról -, egyelőre nincs szó.
A mesterséges intelligenciával működő hanggeneráló eszközök nem újdonságok. A Stability AI nevű startup éppen a múlt héten adott ki egyet, az ElevenLabs pedig májusban indított egyet. A videók hangeffektjeinek létrehozására szolgáló modellek sem ritkák. Egy Microsoft-projekt képes beszélő és éneklő videókat generálni egy állóképből, és az olyan platformok, mint a Pika és a GenreX olyan modelleket alkottak meg, amelyek egy videó alapján a lehető legjobban kitalálják, milyen zene vagy effektek illenek egy adott jelenethez. A DeepMind azonban azt állítja, hogy V2A technológiája egyedülálló abban, hogy képes megérteni a videó nyers pixeleit, és a generált hangokat automatikusan szinkronizálja a videóval, opcionálisan leírás nélkül.
A V2A nem tökéletes, és ezt a DeepMind is elismeri. Mivel az alapjául szolgáló modellt nem sok videón képezték ki nem hoz létre különösen jó minőségű hangot. És általában véve a generált hang nem túl meggyőző, inkább csak sztereotip hangok áradata. Ezen okok miatt, valamint a visszaélések megelőzése érdekében a DeepMind azt mondja, hogy a közeljövőben nem adja ki a technológiát - ha egyáltalán valaha is megjelenik. "Annak érdekében, hogy a V2A technológiánk pozitív hatással legyen a kreatív közösségre, különböző nézőpontokat és meglátásokat gyűjtünk vezető alkotóktól és filmkészítőktől, és ezeket az értékes visszajelzéseket felhasználjuk a folyamatos kutatás és fejlesztés során" - írja a DeepMind. "Mielőtt fontolóra vennénk a hozzáférés megnyitását a szélesebb nyilvánosság számára, V2A technológiánk szigorú biztonsági értékeléseken és teszteléseken fog átesni."
A DeepMind a V2A technológiát különösen hasznos eszközként ajánlja az archivátorok és a történelmi felvételekkel dolgozó emberek számára. De az ilyen irányú generatív MI a film- és tévéipart is felforgathatja, erős munkajogi védelemre lesz szükség ahhoz, hogy a generatív médiaeszközök ne szüntessenek meg munkahelyeket - vagy adott esetben egész szakmákat.