A fizetős felhasználók már használhatják a ChatGPT hiperrealisztikus hangját

2024. július 31. 14:40, Szerda

Az OpenAI megkezdte a ChatGPT Advanced Voice Mode (fejlett hangmód) bevezetését - a felhasználók most először férhetnek hozzá a GPT-4o hiperrealisztikus hangválaszaihoz. Az alfa verzió a ChatGPT Plus felhasználók egy kis csoportja számára már most elérhető, és az OpenAI szerint a funkciót 2024 őszén fokozatosan minden Plus felhasználó számára bevezetik.

Amikor az OpenAI májusban először mutatta be a GPT-4o hangját, a funkció gyors válaszaival és a valódi emberi hanghoz - különösen egy valódi emberi hanghoz - való kísérteties hasonlóságával sokkolta a közönséget. A Sky nevű hang Scarlett Johanssonéra hasonlított, aki a "Her” című film mesterséges asszisztense mögött álló színésznő. Nem sokkal az OpenAI bemutatója után Johansson elmondta, hogy visszautasította Sam Altman vezérigazgató többszöri megkeresését, hogy használja a hangját, és miután meglátta a GPT-4o bemutatóját, jogi tanácsadót fogadott, hogy megvédje a képmását. Az OpenAI tagadta, hogy Johansson hangját használta volna, de később eltávolította a demójában látható hangot. Júniusban az OpenAI közölte, hogy a biztonsági intézkedések javítása érdekében elhalasztja az Advanced Voice Mode kiadását.

Egy hónappal később a várakozásnak vége: az OpenAI szerint a tavaszi frissítés során bemutatott videó- és képernyőmegosztási képességek nem lesznek részei ennek az alfának, és „egy későbbi időpontban” indulnak el. Egyelőre a GPT-4o demója - amely mindenkit lenyűgözött - még mindig csak egy demó, de néhány prémium felhasználó már hozzáférhet az ott bemutatott ChatGPT hangfunkcióhoz. Az OpenAI szerint az Advanced Voice Mode nagyon más, mint a ChatGPT-ben jelenleg elérhető Hang mód. A ChatGPT régi hangmegoldása három külön modellt használt: az egyik a hangot szöveggé alakította, a GPT-4 a promptot dolgozta fel, majd egy harmadik a ChatGPT szövegét hanggá alakította. A GPT-4o azonban multimodális, és képes ezeket a feladatokat segédmodellek segítsége nélkül feldolgozni, jelentősen alacsonyabb késleltetésű beszélgetéseket létrehozva. Az OpenAI azt is állítja, hogy a GPT-4o képes érzékelni a hang érzelmi intonációit, beleértve a szomorúságot, az izgatottságot vagy az éneklést.

Az OpenAI azt mondja, hogy fokozatosan adja ki a ChatGPT új hangját, hogy szorosan nyomon követhesse annak használatát. Az alfa csoportban lévők figyelmeztetést kapnak a ChatGPT alkalmazásban, majd egy e-mailt a használatra vonatkozó utasításokkal. Az OpenAI bemutatója óta eltelt hónapokban a vállalat szerint több mint 100 külsős csapat tagjaival tesztelték a GPT-4o hangképességeit, akik 45 különböző nyelven beszélnek. Az OpenAI szerint augusztus elején jelentést készítenek ezekről a biztonsági erőfeszítésekről.

Az Advanced Voice Mode a ChatGPT négy előre beállított hangjára - Juniper, Breeze, Cove és Ember - korlátozódik, amelyek fizetett hangszínészekkel együttműködésben készültek. Az OpenAI májusi demójában látható Sky hang már nem érhető el a ChatGPT-ben. Lindsay McCallum, az OpenAI szóvivője szerint „a ChatGPT nem tudja megszemélyesíteni mások hangját, sem magánszemélyekét, sem közszereplőkét, és blokkolni fogja azokat a kimeneteket, amelyek eltérnek ezen előre beállított hangok egyikétől”. Az OpenAI igyekszik elkerülni a deepfake vitákat is. Januárban az AI startup ElevenLabs hangklónozó technológiáját arra használták, hogy megszemélyesítsék Biden elnököt, megtévesztve ezzel az előválasztási szavazókat New Hampshire-ben.

Az OpenAI azt is elmondta, hogy új szűrőket vezetett be, amelyek blokkolják a zene vagy más szerzői jogvédelem alatt álló hangok generálására irányuló bizonyos kéréseket. Az elmúlt évben az MI-cégek jogi problémákba keveredtek szerzői jogok megsértése miatt, és az olyan hangmodellek, mint a GPT-4o, egy teljesen új kategóriát jelentenek. Különösen a lemezkiadóktól van félnivalójuk, amelyek már korábban is pereskedtek, és például beperelték a Suno és az Udio AI dalgenerátorokat.

Kapcsolódó cikkek

Listázás a fórumban