Az emberi hangokat rekonstruáló technológiát mutatott be az OpenAI

2024. március 29. 22:52, Péntek

Az OpenAI a ChatGPT után nemrég egy olyan eszközt kínált, amellyel az emberek digitális képeket hozhattak létre egyszerűen azzal, hogy leírták, mit szeretnének látni. Aztán hasonló technológiát épített, amely teljes mozgóképet generált, amely mintha egy hollywoodi filmből származna. Most pedig olyan technológiát mutatott be, amely képes rekonstruálni valakinek a hangját.

A magasan jegyzett startup közölte, hogy vállalkozások egy kis csoportja teszteli az új OpenAI rendszert, a Voice Engine-t, amely 15 másodperces felvételből képes újrateremteni egy személy hangját. Ha feltölt valaki egy felvételt magáról és egy bekezdésnyi szöveget, a rendszer képes felolvasni a szöveget a feltöltő szintetikus hangján. A szövegnek nem kell a tesztelő anyanyelvén lennie: a rendszer képes a hangokat spanyolul, franciául, kínaiul vagy számos más nyelven is rekonstruálni. Az OpenAI azért nem osztja meg szélesebb körben a technológiát, mert még próbálja megérteni annak potenciális veszélyeit. A kép- és videogenerátorokhoz hasonlóan a hanggenerátor is segíthet a dezinformáció terjesztésében a közösségi médiában. Lehetővé teheti továbbá, hogy a bűnözők online vagy telefonhívások során embereknek adják ki magukat.

A vállalatot különösen aggasztja, hogy az ilyen technológiát az online bankszámlákhoz és más személyes alkalmazásokhoz való hozzáférést ellenőrző hanghitelesítők feltörésére is fel lehet használni. "Ez egy érzékeny dolog, és fontos, hogy jól csináljuk" - mondta az OpenAI termékmenedzsere, Jeff Harris. A vállalat vizsgálja, hogyan lehetne a szintetikus hangokat vízjelekkel ellátni, vagy olyan vezérlőket hozzáadni, amelyek megakadályozzák, hogy az emberek politikusok vagy más prominens személyek hangjával használják a technológiát. A múlt hónapban az OpenAI hasonló megközelítést alkalmazott, amikor ismertette a Sora nevű videógenerátorát: bemutatta a technológiát, de nem hozta nyilvánosságra.

Ez nem újszerű technológia. Számos startup cég szállított már évek óta hangklónozó termékeket, az ElevenLabstól a Replica Studioson és a Papercupon át a Deepdubig és a Respeecherig. A nagy technológiai cégek, mint az Amazon, a Google és a Microsoft - amelyek közül az utóbbi egyébként az OpenAI egyik fő befektetője - is ezt tették. Mindazonáltal Harris szerint az OpenAI megközelítése a versenytársaknál összességében jobb minőségű beszédet biztosít. A vállalkozások felhasználhatják ezeket a technológiákat hangoskönyvek generálására, hangot adhatnak online chatbotoknak, vagy akár egy automatizált rádióállomás DJ-jét is létrehozhatják. Az OpenAI tavaly óta használja technológiáját a ChatGPT beszélő változatának működtetésére, a vállalkozásoknak pedig már régóta kínál olyan hangokat, amelyeket hasonló alkalmazásokhoz használhatnak. Ezek mindegyike szinkronszínészek által biztosított klipekből épült fel.

A vállalat azonban eddig még nem kínált olyan nyilvános eszközt, amely lehetővé tenné magánszemélyek és vállalkozások számára, hogy egy rövid klipből újrateremtsenek hangokat, ahogyan azt a Voice Engine teszi. Harris szerint az a képesség, hogy ilyen módon bármilyen hangot ilyen módon újrateremthetnek, nagyon veszélyessé a technológiát - különösen egy választási évben. (Januárban amerikai lakosok olyan robothívásokat kaptak, amelyek az állami előválasztáson való szavazástól tartották vissza őket, olyan hangon, amelyet mesterségesen úgy alakítottak, hogy Biden elnökre hasonlítson. A Szövetségi Kommunikációs Bizottság betiltotta az ilyen hívásokat.)

Meglepő módon a Voice Engine nem felhasználói adatokon van kiképezve vagy finomhangolva. Ez részben annak köszönhető, hogy a modell - amely egy diffúziós folyamat és egy transzformátor kombinációja - a beszéd előállításának efemer módja. "Veszünk egy kis hangmintát és szöveget, és olyan valósághű beszédet generálunk, amely megfelel az eredeti beszélőnek" - mondta Harris. "A felhasznált hangot a kérés befejezése után eldobjuk." Mint kifejtette, a modell egyszerre elemzi a beszédadatokat, amelyekből merít, és a felolvasásra szánt szövegadatokat, így generál egy megfelelő hangot anélkül, hogy beszélőnként egyedi modellt kellene készíteni.

A technológia használatának várhatóan nagyon alacsony lesz az ára: egymillió karakterenként 15 dollár. Ez kb. ~162 500 szó, Dickens "Twist Olivér"-je ilyen hosszú. A HD minőségű opció ennek kétszeresébe kerül. Ez körülbelül 18 órányi hangot jelent, így az ár valamivel 1 dollár/óra alatt van. Ez valóban olcsóbb, mint amit például az egyik népszerű rivális szolgáltató, az ElevenLabs felszámít, ők 11 dollárt kérnek 100 000 karakterért.

Harris elmondta, hogy az OpenAI nem tervezi, hogy azonnal pénzt csináljon a technológiából. Elmondta, hogy az eszköz különösen hasznos lehet azoknak, akik betegség vagy baleset miatt elvesztették a hangjukat. Bemutatta, hogyan használták a technológiát egy nő hangjának helyreállítására, miután agydaganat károsította azt. Elmondta, hogy a nő most már a saját hangján tud beszélni, mert talált egy rövid felvételt egy középiskolás korában tartott előadásról.

Kapcsolódó cikkek

Listázás a fórumban