SG.hu·
Baldur’s Gate kérdésekből vizsgázott le Grok

A különböző MI laborok különböző prioritásokkal dolgoznak. Az OpenAI például hagyományosan a lakossági felhasználókra összpontosít, míg riválisa, az Anthropic inkább a vállalati ügyfeleket célozza. Elon Musk xAI nevű cége pedig különös hangsúlyt helyezett a videojátékos végigjátszási útmutatókra.
Pénteken a Business Insider újságírója, Grace Kay részletes és átfogó riportot tett közzé az xAI-ról, arról az MI startup vállalatról, amelyet nemrég a SpaceX vásárolt fel külön kitérve arra, miként nehezíti meg Musk az alkalmazottak életét. Egy konkrét anekdota azonban különösen kiemelkedett. E szerint tavaly egy modell kiadását több napra elhalasztották, mert Musk elégedetlen volt azzal, ahogyan a chatbot a Baldur’s Gate című videojátékkal kapcsolatos részletes kérdésekre válaszolt, állították az ügyet ismerő források. Elmondásuk szerint magas beosztású mérnököket vezényeltek át más projektekről, hogy még a megjelenés előtt javítsák a válaszokat.
Természetesen könnyű elképzelni bármely tiszteletben álló és tapasztalt mérnök frusztrációját, aki úgy érkezik munkába, hogy a tudás és a gépi intelligencia alapvető problémáival fog majd foglalkozni, ám végül arra osztják be, hogy segítsen egy 54 éves férfinak győzni a videojátékában. Az anekdota azonban egy még sürgetőbb kérdést is felvet: vajon Musk végül megkapta azokat a játékos készségeket, amelyeket szeretett volna? E kérdés megválaszolására egy szerepjáték rajongó összeállított öt általános kérdést a Baldur’s Gate kapcsán, amelyeket lefuttattak az xAI rendszerén és a három nagy modell egyikén egyfajta kvázi benchmark keretében.
A szerző ezt a házi összevetést BaldurBench névre keresztelte. Az átláthatóság jegyében a teljes beszélgetéseket nyilvánosságra hozták, így bárki ellenőrizheti az értékelést: Grok, ChatGPT, Claude, Gemini.
Először is a jó hír: a Grok valóban egészen jó információkat ad. Válaszai kissé sűrűn tartalmaztak gamer zsargont, a "save scumming" kifejezést használva a mentés újratöltése helyett és a DPS rövidítést a sebzés helyett, ám a válaszok hasznosak és jól tájékozottak, feltéve, hogy az olvasó képben van a téma terén. Grok emellett kifejezetten kedveli a táblázatokat és az úgynevezett theorycraft megközelítést, ami nagyjából megfelel az elvárásoknak. Számos Baldur’s Gate útmutató érhető el, és a modellek általában ugyanazokra támaszkodtak, így a legnagyobb különbségek inkább stilárisak voltak. A ChatGPT előnyben részesíti a felsorolásjeleket és a töredékes mondatokat, míg a Gemini előszeretettel emeli ki félkövérrel a fontos szavakat.
A legnagyobb meglepetést a Claude jelentette, amely különösen ügyelt arra, hogy ne adjon olyan információkat, amelyek elrontanák a játékélmény. A csapatösszeállításokról kérdezve a tanácsait azzal zárta: „Ne stresszeld agyon magad, csak játssz azzal, aki neked szórakoztatónak tűnik.” Fontos szem előtt tartani, hogy ez egy olyan terület, amelynél az xAI kifejezetten törekedett a felzárkózásra. Ezért nem szabad túl sokat belelátni abba, hogy a jelentett fejlesztési hajrá után a Grok tanácsai nagyjából ugyanarra a szintre kerültek, mint a többi modellé. Mégis jó tudni, hogy az xAI képes rá, ha energiát fektet bele.
Pénteken a Business Insider újságírója, Grace Kay részletes és átfogó riportot tett közzé az xAI-ról, arról az MI startup vállalatról, amelyet nemrég a SpaceX vásárolt fel külön kitérve arra, miként nehezíti meg Musk az alkalmazottak életét. Egy konkrét anekdota azonban különösen kiemelkedett. E szerint tavaly egy modell kiadását több napra elhalasztották, mert Musk elégedetlen volt azzal, ahogyan a chatbot a Baldur’s Gate című videojátékkal kapcsolatos részletes kérdésekre válaszolt, állították az ügyet ismerő források. Elmondásuk szerint magas beosztású mérnököket vezényeltek át más projektekről, hogy még a megjelenés előtt javítsák a válaszokat.
Természetesen könnyű elképzelni bármely tiszteletben álló és tapasztalt mérnök frusztrációját, aki úgy érkezik munkába, hogy a tudás és a gépi intelligencia alapvető problémáival fog majd foglalkozni, ám végül arra osztják be, hogy segítsen egy 54 éves férfinak győzni a videojátékában. Az anekdota azonban egy még sürgetőbb kérdést is felvet: vajon Musk végül megkapta azokat a játékos készségeket, amelyeket szeretett volna? E kérdés megválaszolására egy szerepjáték rajongó összeállított öt általános kérdést a Baldur’s Gate kapcsán, amelyeket lefuttattak az xAI rendszerén és a három nagy modell egyikén egyfajta kvázi benchmark keretében.
A szerző ezt a házi összevetést BaldurBench névre keresztelte. Az átláthatóság jegyében a teljes beszélgetéseket nyilvánosságra hozták, így bárki ellenőrizheti az értékelést: Grok, ChatGPT, Claude, Gemini.
Először is a jó hír: a Grok valóban egészen jó információkat ad. Válaszai kissé sűrűn tartalmaztak gamer zsargont, a "save scumming" kifejezést használva a mentés újratöltése helyett és a DPS rövidítést a sebzés helyett, ám a válaszok hasznosak és jól tájékozottak, feltéve, hogy az olvasó képben van a téma terén. Grok emellett kifejezetten kedveli a táblázatokat és az úgynevezett theorycraft megközelítést, ami nagyjából megfelel az elvárásoknak. Számos Baldur’s Gate útmutató érhető el, és a modellek általában ugyanazokra támaszkodtak, így a legnagyobb különbségek inkább stilárisak voltak. A ChatGPT előnyben részesíti a felsorolásjeleket és a töredékes mondatokat, míg a Gemini előszeretettel emeli ki félkövérrel a fontos szavakat.
A legnagyobb meglepetést a Claude jelentette, amely különösen ügyelt arra, hogy ne adjon olyan információkat, amelyek elrontanák a játékélmény. A csapatösszeállításokról kérdezve a tanácsait azzal zárta: „Ne stresszeld agyon magad, csak játssz azzal, aki neked szórakoztatónak tűnik.” Fontos szem előtt tartani, hogy ez egy olyan terület, amelynél az xAI kifejezetten törekedett a felzárkózásra. Ezért nem szabad túl sokat belelátni abba, hogy a jelentett fejlesztési hajrá után a Grok tanácsai nagyjából ugyanarra a szintre kerültek, mint a többi modellé. Mégis jó tudni, hogy az xAI képes rá, ha energiát fektet bele.