A Google bemutatta eddigi legerősebb MI-jét, a Gemini-t

2023. december 8. 02:44, Péntek

A Google bemutatta a Gemini-t, egy nagy teljesítményű MI-modellt, amely a cég szerint képes felülmúlni a GPT-4-et. Bejelentésük szerint a Gemini "32 széles körben használt tudományos benchmark közül 30-ban veri a GPT-4-et".

A Google bejelentette a Gemini-t, egy multimodális MI-modellcsaládot. A Gemini legnagyobb változata "a nagy nyelvi modellek (LLM) kutatásában és fejlesztésében használt 32 széles körben használt akadémiai benchmark közül 30-ban felülmúlja a jelenlegi legkorszerűbb eredményeket". Ez a PaLM 2 folytatása, egy korábbi MI-modell, amelyről a Google azt remélte, hogy képességeit tekintve megfelel a GPT-4-nek. A Gemini középszintű modelljének speciálisan hangolt angol változata már több mint 170 országban elérhető a Google Bard chatbot részeként - az EU-ban és az Egyesült Királyságban szabályozási problémák miatt nem vezetik be.

A GPT-4-hez hasonlóan a Gemini is képes többféle típusú bemenetet kezelni, így multimodális. Ez azt jelenti, hogy képes feldolgozni szöveget, kódot, képeket és még hangot is. A cél egy olyan mesterséges intelligencia létrehozása, amely képes pontosan megoldani problémákat, tanácsot adni és kérdésekre válaszolni a legkülönbözőbb területeken - a hétköznapoktól a tudományosig. A Google szerint ez a számítástechnika új korszakát fogja elhozni, és reméli, hogy a technológiát szorosan integrálni tudja majd termékeibe.

"A Gemini 1.0 kifinomult multimodális következtetési képességei segítenek értelmet adni az összetett írott és vizuális információknak" - írja a Google. "Figyelemre méltó képessége, hogy az információk olvasása, szűrése és megértése révén több százezer dokumentumból is képes meglátásokat kinyerni, segíteni fogja az új áttörések digitális sebességű megvalósítását számos területen, a tudománytól a pénzügyekig."

A Google szerint a Gemini három méretben lesz elérhető: Gemini Ultra ("a rendkívül összetett feladatokhoz"), Gemini Pro ("a feladatok széles skálájának megoldására") és Gemini Nano ("az eszközön belüli feladatokhoz", mint például a Google Pixel 8 Pro okostelefon). A típusok a paraméterek száma alapján különülnek el komplexitásban. A több paraméter nagyobb neurális hálózatot jelent, amely általában képes bonyolultabb feladatok végrehajtására, de több számítási teljesítményt igényel a futtatásához. Ez azt jelenti, hogy a legkisebb, a Nano a fogyasztói eszközökön való helyi futtatásra készült, míg az Ultra csak adatközponti hardvereken futhat.

"Ezek a Gemini-korszak első modelljei, és az első megvalósítása annak a víziónak, amelyet a Google DeepMind megalakulásakor fogalmaztunk meg" - írta közleményében Sundar Pichai, a Google vezérigazgatója. "A modelleknek ez az új korszaka az egyik legnagyobb tudományos és mérnöki erőfeszítést jelenti, amelyet vállalatként eddig tettünk. Őszintén izgatott vagyok az előttünk álló dolgok és a Gemini által az emberek számára mindenhol elérhetővé váló lehetőségek miatt"."

Bár a Gemini háromféle méretben készül, a nyilvánosság számára csak a középkategóriás modell érhető el. Mint már említettük, a Google Bardon most a Gemini Pro egy speciálisan hangolt változata fut. A Google azt is állítja, hogy a cég egyedi Tensor Processing Unit (TPU) egységén futva a Gemini skálázhatóbb és hatékonyabb, mint a korábbi MI-modellek. "A TPU-kon" - állítja a Google - "a Gemini jelentősen gyorsabban fut, mint a korábbi, kisebb és kevésbé hatékony modellek". És állítólag remekül kódol. A Google elkészítette a Gemini egy speciális, kódolásra összpontosító változatát, az AlphaCode 2-t, amely a Google szerint "kiválóan old meg olyan programozási problémákat, amelyek túlmutatnak a kódoláson, és összetett matematikát és elméleti informatikát foglalnak magukban".

A Gemini nem az első kísérlet a Google-től arra, hogy felzárkózzon az OpenAI folyamatosan fejlődő GPT-4 modelljéhez (ami most már "GPT-4 Turbo"). A már említett, májusban bemutatott PaLM 2 eredetileg ezt a célt hivatott teljesíteni. A Google szerint a Gemini Ultra papíron valóban felülmúlja a GPT-4-et, de a gyakorlatban nem váltotta be a reményeket. Ahogy az MIT Technology Review szkeptikusan megjegyzi a Gemini-ről szóló írásában: "A Google DeepMind azt állítja, hogy a Gemini 32 szabványos teljesítménymérésből 30-ban felülmúlja a GPT-4-et. És mégis, a köztük lévő különbség nagyon kicsi. A demók alapján sok mindent nagyon jól csinál - de kevés olyan dolgot, amit még nem láttunk".

Mekkorák a különbségek? A Google sajtóanyagában a vállalat nyolc gépi tanulási benchmarkot (MMLU, Big-Bench Hard, DROP, HellaSwag, GSM8K, MATH, HumanEval és Natural2Code) tartalmazó táblázatot közöl, amelyek célja olyan képességek mérése, mint add Python-kódolás, az olvasásértés, ddda többlépcsős gondolkodás, a józan gondolkodás, az alapvető számtan és az általános tudás 57 témában. Egy kivételével (a kiválóan elnevezett "HellaSwag") a Gemini Ultra minden mérőszámban megelőzte a GPT-4-et, például 83,6 százalékkal 83,1 százalékkal szemben, illetve 74,4 százalékkal 67,0 százalékkal szemben. A Google szerint a Gemini Ultra 90 százalékos eredménye az MMLU (masszív többfeladatos nyelvi megértés - 57 tantárgy, például matematika, fizika, történelem, jog, orvostudomány és etika ismeretének tesztelése) tesztjén az első olyan mesterséges intelligenciamodell, amely felülmúlja az emberi szakértőket ezen a mércén.

De mit jelent mindez? Az átlagember számára, aki kérdéseket tesz fel a Bardnak vagy a ChatGPT-4-nek, talán nem sokat. A Google azt reméli, hogy ez a teljesítmény hasznosabb és pontosabb válaszokat eredményez majd. Még a gépi tanulással foglalkozó kutatók körében is folyamatos vita tárgya a gépi tanulás benchmarkjainak hatékonysága. Használatuk néha ellentmondásos, mivel egy MI-modellt olyan anyagon tesztelhetnek, amely esetleg az adathalmazában található. Fontos tehát, hogy minden ilyen mérőszámot hatalmas szkepticizmussal figyeljünk.

A Google egyelőre azt reméli, hogy a Gemini lesz a nyitólépés a jövőbeni mesterséges intelligencia asszisztensek vezetéséért folytatott harc új fejezetében, olyan cégekkel szemben, mint az Anthropic, a Meta, valamint a Microsoft és az OpenAI duója. A Google DeepMind weboldalán további információk találhatók arról, hogyan működik részletesen a Gemini, és milyen lehetőségeket látnak benne a tudományos területeken. A Google szerint a Bardban most elérhető Pro verzió mellett a Gemini 1.0-s hozzáférése idővel bővülni fog. Része lesz a Pixel 8 Pro okostelefonnak, amely a Gemini Nano-t képes futtatni az eszközön, és a következő hónapokban a Gemini integrálódik a keresésbe, a hirdetésekbe, a Chrome-ba és a Duet AI-ba. December 13-tól pedig a fejlesztők és a vállalati ügyfelek a Gemini Pro-t a Google AI Studio vagy a Google Cloud Vertex AI Gemini API-n keresztül használhatják.

Kapcsolódó cikkek

Listázás a fórumban