Bemutatta a ChatGPT új verzióját az OpenAI

Bemutatta a ChatGPT új verzióját az OpenAI

2024. május 13. 23:13, Hétfő
A chatbotok, a képgenerátorok és a hangalapú asszisztensek fokozatosan egyetlen technológiává olvadnak össze.

Miközben az Apple és a Google a hangalapú asszisztenseiket chatbotokká alakítja át, az OpenAI pont az ellenkezőjét teszi: a chatbotját hangalapú asszisztenssé alakítja át. A San Francisco-i mesterséges intelligencia startup bemutatta a ChatGPT új verzióját, amely képes hangutasításokat fogadni, vagy képekre és videókra reagálni. A vállalat szerint az új alkalmazás - amely a GPT-4o nevű mesterséges intelligencia rendszeren alapul - lényegesen gyorsabban dolgozik a hanggal, a képekkel és a videókkal, mint a technológia korábbi verziója. Az alkalmazás ingyenesen lesz elérhető okostelefonokra és asztali számítógépekre egyaránt, az OpenAI a technológiát fokozatosan vezeti be a felhasználók számára "az elkövetkező hetekben”. Ez az első alkalom, hogy a cég asztali alkalmazásként kínálja a ChatGPT-t.

„Az önmagunk és a gépek közötti interakció jövőjét vizsgáljuk” - mondta Mira Murati, a vállalat technológiai vezetője. Az új alkalmazás része annak a szélesebb körű törekvésnek, amely a ChatGPT-hez hasonló társalgási chatbotokat olyan hangalapú asszisztensekkel kívánja összekapcsolni, mint a Google Assistant és az Apple Siri. Miközben a Google a Gemini chatbotját egyesíti a Google Asszisztenssel, az Apple a Siri új verzióját készíti elő, amely még inkább társalgási jellegű.

Az interneten közvetített eseményen Murati és kollégái bemutatták az új alkalmazást, amely beszélgetés közbeni hangparancsokra válaszolt, élő videókapcsolat segítségével elemzett egy papírlapra írt matematikai feladatokat és felolvasta a menet közben írt játékos történeteket. Az új alkalmazás nem képes videót generálni, de olyan képeket elő tud állítani, amelyek egy videó képkockáit ábrázolják.


A ChatGPT eddig az internetről, többek között a Wikipedia-cikkekből, könyvekből és csevegési naplókból származó hatalmas mennyiségű szöveg elemzésével tanult, de a technológia újabb változata már hangokból, képekből és videókból is képzi magát. A kutatók ezt „multimodális MI”-nek nevezik. De a chatbotok hangalapú asszisztensekkel való kombinációja nem egyszerű, és mivel a chatbotok internetes adatokból tanulnak, hajlamosak a hibákra. Néha kitalálnak dolgokat, és ezek a hibák átvándorolnak a hangalapú asszisztensekbe.

Bár a chatbotok képesek meggyőző beszédet generálni, kevésbé ügyesek az olyan műveletek végrehajtásában, mint egy találkozó időpontjának egyeztetése vagy egy repülőjegy lefoglalása. Az OpenAI-hoz hasonló cégek azonban azon dolgoznak, hogy olyan „MI-ügynökökké” alakítsák át őket, amelyek megbízhatóan képesek ilyen feladatokat ellátni. Az OpenAI korábban a ChatGPT egy olyan változatát kínálta, amely képes volt hangutasításokat fogadni és hanggal válaszolni. Ez azonban három különböző MI technológiából álló patchwork volt: az egyik a hangot szöveggé alakította, a másik szöveges választ generált, a harmadik pedig szintetikus hanggá alakította a szöveget.

Az új alkalmazás egyetlen mesterséges intelligencia technológián, a GPT-4o-n alapul, melyben az „o” az „omni” rövidítése, ami arra utal, hogy a modell képes szöveg, beszéd és videó kezelésére. Ez azt jelenti, hogy a technológia hatékonyabb, és a vállalat megengedheti magának, hogy ingyenesen kínálja a felhasználóknak - mondta Murati. "Korábban sok késleltetéssel járt a három modell együttes működése” - mondta Murati. "Olyan élményt szerettünk volna, mint amilyet most biztosítunk: nagyon természetes párbeszédet folytathatunk”.


A felhasználók kérdést tehetnek fel a GPT-4o-val ellátott ChatGPT-nek, és megszakíthatják a ChatGPT-t, miközben az válaszol. Az OpenAI szerint a modell valós idejű reakciókészséget biztosít, és még a felhasználó hangjának árnyalataira is képes reagálni, válaszul különböző érzelmi stílusú hangokat generálva (beleértve az éneklést is). Egy fénykép - vagy egy asztali képernyő - alapján a ChatGPT mostantól gyorsan tud válaszolni a kapcsolódó kérdésekre, a „Mi történik ebben a szoftverkódban?” és a „Milyen márkájú inget visel ez a személy?” témakörökben.

„A modellek egyre összetettebbek, de azt szeretnénk, ha az interakció élménye természetesebbé, könnyebbé válna, és ha egyáltalán nem a felhasználói felületre, hanem csak a ChatGPT-vel való együttműködésre koncentrálnál” - mondta Murati. „Az elmúlt néhány évben nagy hangsúlyt fektettünk ezeknek a modelleknek az intelligenciájának a javítására, de ez az első alkalom, hogy hatalmas lépést teszünk előre a könnyű használat terén.” A GPT-4o az OpenAI állítása szerint többnyelvűbb is, mintegy 50 nyelven javított teljesítményt nyújt. Az OpenAI API-jában és a Microsoft Azure OpenAI szolgáltatásában pedig a GPT-4o kétszer olyan gyors és feleannyiba kerül, mint a GPT-4 Turbo, állítja a vállalat.

Listázás a fórumban 
Adatvédelmi beállítások