SG.hu·
Az MI vállalatok a kutatási szintű matematikát célozzák

A világ vezető mesterséges intelligencia vállalatai, mint az OpenAI, a Google DeepMind és az Anthropic egyre inkább fejlett matematikai problémákhoz fordulnak a fejlődés mércéjeként, megoldatlan kérdéseket használva rendszereik tesztelésére abban a versenyben, amely a még nagyobb képességű MI modellek megalkotásáért zajlik.
A Cambridge-i Egyetem egyik hallgatója az OpenAI legfejlettebb modelljét használta az úgynevezett Erdős-problémák egyik konkrét esetének megoldására. A magyar matematikus nevével fémjelzett Erdős-problémák híres matematikai feladatok sorozatát jelentik, amelyek közül sok mindmáig megoldatlan. Az áttörés egy sor nagy visszhangot kiváltó mérföldkő után következett be, köztük az OpenAI és a Google DeepMind rendszereinek aranyérmes teljesítménye után a tavalyi Nemzetközi Matematikai Olimpián és a Nemzetközi Egyetemi Programozási Versenyen.
„Az MI tesztjek régen arról szóltak, meg tudja-e különböztetni a macskákat a kutyáktól, odáig, hogy képes-e kutatási szintű matematikai problémákat megoldani” - mondta Helen Toner, a Georgetown Egyetem Biztonsági Technológiák Központjának ügyvezető igazgatója, aki korábban az OpenAI igazgatótanácsának tagja volt. A rivális laboratóriumok is egyre inkább a kutatási szintű matematika és a tudományos felfedezések felé terelik modelljeiket. A DeepMind olyan eszközöket fejlesztett ki, mint az AlphaProof és az AlphaGeometry, amelyeket fejlett matematikai kérdések megoldásának segítésére terveztek, míg az Anthropic megkezdte MI rendszereinek értékesítését tudósok számára.
A matematika a fejlődés tesztelésének kulcsfontosságú eszközévé is vált. Az Epoch AI új mérőszámában, amely a fejlett matematikában nyújtott teljesítményt követi, az OpenAI GPT-5.2 modellje vezeti a rangsort, amelyet a Google Gemini 3 Pro követ. A kutatók korábban úgy vélték, hogy a nagyméretű nyelvi modellek számára a matematika nehezen meghódítható terület lesz, mivel az LLM-ek valószínűségi gépek, amelyek egy mondat következő legvalószínűbb szavát jósolják meg. Ez lehetőséget hagy arra, hogy a modellek hibás válaszokat „hallucináljanak”. A matematika azonban pontosságot követel. Az MI eszközöknek más jellemzőket is fel kell mutatniuk, például az absztrakt gondolkodás képességét, a minták felismerését és a logika alkalmazását.
A vezető MI kutatók szerint a modellek a legújabb, úgynevezett „reasoning” modelleknek köszönhetően váltak hasznosabbá a matematika területén. Ezek lépésről lépésre oldják meg a problémákat, képesek visszatérni egy hibához és újraellenőrizni a válaszokat. „Az emberek azt gondolták, lehetetlen lesz, hogy az LLM-ek olyan teljesítményre legyenek képesek, mint amilyet most nyújtanak” - mondta Sébastien Bubeck, az OpenAI kutatója. A mérőszámokon túl ez az irány vonzónak bizonyult a világszínvonalú tudósok számára is, akiket inkább az intellektuális kihívások motiválnak, mint a kifejezetten kereskedelmi alkalmazásokon végzett munka.
Az OpenAI két matematikust, Ernest Ryut a Kaliforniai Egyetem Los Angeles-i kampuszáról és Mehtaab Sawhney-t a Columbia Egyetemről alkalmazta annak érdekében, hogy megerősítse tudományos célú MI csapatát és javítsa modelljeinek teljesítményét a fejlett matematikai problémák terén. A szakértők szerint a matematika különösen hasznos terület az MI kutatók számára, mivel olyan problémákat kínál, amelyek könnyen, automatikusan ellenőrizhetők. Ez segítette a modellek fejlesztését olyan területeken is, mint a szoftverfejlesztés, amely szintén nagyfokú pontosságot igényel. Ez jövedelmezőnek bizonyult olyan vállalatok számára, mint az Anthropic, amely sikereket ért el kódolási eszközével, a Claude Code-dal, lehetővé téve számára, hogy meghatározó szereplővé váljon az MI alkalmazások egyik fontos piacán, és alátámassza 350 milliárd dolláros értékelését.
„Ezek a laborok azt szeretnék, hogy az MI-jük igazán jó legyen matematikából, hogy olyan dolgokra lehessen használni, mint a kódolás” - mondta Miles Cranmer, a Cambridge-i Egyetem matematika adjunktusa, aki tudományos felfedezéseket támogató MI rendszereken dolgozik. A szakértők szerint az MI rendszerek még messze vannak attól, hogy önállóan vagy „autonóm módon” oldjanak meg nehéz matematikai problémákat. Ehhez olyan áttörésekre lenne szükség, mint a folyamatos tanulás, amely során a modellek alkalmazkodnak korábbi tapasztalataikhoz anélkül, hogy elfelejtenék a korábbi eredményeket - mondta Bubeck az OpenAI-tól. Hozzátette, hogy az olyan matematikai problémák, amelyek megoldása „heteket vagy éveket” vesz igénybe, nem oldhatók meg „egy szuszra, jegyzeteket kell írni, lépéseket rögzíteni és menet közben tanulni”.
Az OpenAI közlése szerint eszközeik jelenleg leginkább olyan feladatokban hasznosak a tudósok számára, mint a szakirodalmi áttekintés, az összefoglalás, az ötletelés és a különböző tudományterületek és adatok közötti kapcsolatok feltárása. A matematikusok szerint ezek a képességek elősegíthetik a tudomány előrehaladását és felgyorsíthatják a felfedezéseket. A hatalmas méretnek és számítási kapacitásnak köszönhetően az MI modellek sokkal gyorsabban képesek válaszokat keresni és ellenőrizni, hogy az egyenletek helyesek-e, mint az emberek - mondta Cranmer a Cambridge-i Egyetemről. „Izgalmas időszak ez a matematika számára” - tette hozzá.
A Cambridge-i Egyetem egyik hallgatója az OpenAI legfejlettebb modelljét használta az úgynevezett Erdős-problémák egyik konkrét esetének megoldására. A magyar matematikus nevével fémjelzett Erdős-problémák híres matematikai feladatok sorozatát jelentik, amelyek közül sok mindmáig megoldatlan. Az áttörés egy sor nagy visszhangot kiváltó mérföldkő után következett be, köztük az OpenAI és a Google DeepMind rendszereinek aranyérmes teljesítménye után a tavalyi Nemzetközi Matematikai Olimpián és a Nemzetközi Egyetemi Programozási Versenyen.
„Az MI tesztjek régen arról szóltak, meg tudja-e különböztetni a macskákat a kutyáktól, odáig, hogy képes-e kutatási szintű matematikai problémákat megoldani” - mondta Helen Toner, a Georgetown Egyetem Biztonsági Technológiák Központjának ügyvezető igazgatója, aki korábban az OpenAI igazgatótanácsának tagja volt. A rivális laboratóriumok is egyre inkább a kutatási szintű matematika és a tudományos felfedezések felé terelik modelljeiket. A DeepMind olyan eszközöket fejlesztett ki, mint az AlphaProof és az AlphaGeometry, amelyeket fejlett matematikai kérdések megoldásának segítésére terveztek, míg az Anthropic megkezdte MI rendszereinek értékesítését tudósok számára.
A matematika a fejlődés tesztelésének kulcsfontosságú eszközévé is vált. Az Epoch AI új mérőszámában, amely a fejlett matematikában nyújtott teljesítményt követi, az OpenAI GPT-5.2 modellje vezeti a rangsort, amelyet a Google Gemini 3 Pro követ. A kutatók korábban úgy vélték, hogy a nagyméretű nyelvi modellek számára a matematika nehezen meghódítható terület lesz, mivel az LLM-ek valószínűségi gépek, amelyek egy mondat következő legvalószínűbb szavát jósolják meg. Ez lehetőséget hagy arra, hogy a modellek hibás válaszokat „hallucináljanak”. A matematika azonban pontosságot követel. Az MI eszközöknek más jellemzőket is fel kell mutatniuk, például az absztrakt gondolkodás képességét, a minták felismerését és a logika alkalmazását.
A vezető MI kutatók szerint a modellek a legújabb, úgynevezett „reasoning” modelleknek köszönhetően váltak hasznosabbá a matematika területén. Ezek lépésről lépésre oldják meg a problémákat, képesek visszatérni egy hibához és újraellenőrizni a válaszokat. „Az emberek azt gondolták, lehetetlen lesz, hogy az LLM-ek olyan teljesítményre legyenek képesek, mint amilyet most nyújtanak” - mondta Sébastien Bubeck, az OpenAI kutatója. A mérőszámokon túl ez az irány vonzónak bizonyult a világszínvonalú tudósok számára is, akiket inkább az intellektuális kihívások motiválnak, mint a kifejezetten kereskedelmi alkalmazásokon végzett munka.
Az OpenAI két matematikust, Ernest Ryut a Kaliforniai Egyetem Los Angeles-i kampuszáról és Mehtaab Sawhney-t a Columbia Egyetemről alkalmazta annak érdekében, hogy megerősítse tudományos célú MI csapatát és javítsa modelljeinek teljesítményét a fejlett matematikai problémák terén. A szakértők szerint a matematika különösen hasznos terület az MI kutatók számára, mivel olyan problémákat kínál, amelyek könnyen, automatikusan ellenőrizhetők. Ez segítette a modellek fejlesztését olyan területeken is, mint a szoftverfejlesztés, amely szintén nagyfokú pontosságot igényel. Ez jövedelmezőnek bizonyult olyan vállalatok számára, mint az Anthropic, amely sikereket ért el kódolási eszközével, a Claude Code-dal, lehetővé téve számára, hogy meghatározó szereplővé váljon az MI alkalmazások egyik fontos piacán, és alátámassza 350 milliárd dolláros értékelését.
„Ezek a laborok azt szeretnék, hogy az MI-jük igazán jó legyen matematikából, hogy olyan dolgokra lehessen használni, mint a kódolás” - mondta Miles Cranmer, a Cambridge-i Egyetem matematika adjunktusa, aki tudományos felfedezéseket támogató MI rendszereken dolgozik. A szakértők szerint az MI rendszerek még messze vannak attól, hogy önállóan vagy „autonóm módon” oldjanak meg nehéz matematikai problémákat. Ehhez olyan áttörésekre lenne szükség, mint a folyamatos tanulás, amely során a modellek alkalmazkodnak korábbi tapasztalataikhoz anélkül, hogy elfelejtenék a korábbi eredményeket - mondta Bubeck az OpenAI-tól. Hozzátette, hogy az olyan matematikai problémák, amelyek megoldása „heteket vagy éveket” vesz igénybe, nem oldhatók meg „egy szuszra, jegyzeteket kell írni, lépéseket rögzíteni és menet közben tanulni”.
Az OpenAI közlése szerint eszközeik jelenleg leginkább olyan feladatokban hasznosak a tudósok számára, mint a szakirodalmi áttekintés, az összefoglalás, az ötletelés és a különböző tudományterületek és adatok közötti kapcsolatok feltárása. A matematikusok szerint ezek a képességek elősegíthetik a tudomány előrehaladását és felgyorsíthatják a felfedezéseket. A hatalmas méretnek és számítási kapacitásnak köszönhetően az MI modellek sokkal gyorsabban képesek válaszokat keresni és ellenőrizni, hogy az egyenletek helyesek-e, mint az emberek - mondta Cranmer a Cambridge-i Egyetemről. „Izgalmas időszak ez a matematika számára” - tette hozzá.