Az OpenAI nem elégedett az Nvidia chipjeivel, alternatívákat keres

A ChatGPT tömeges használatánál a gyors válasz és az alacsony költség per lekérdezés legalább olyan fontos lett, mint a modellek betanításához szükséges nyers számítási kapacitás. Az MI következő csatatere az inferencia, és már nem biztos, hogy a GPU mindenre a legjobb válasz.

Az MI-forradalom egyik leglátványosabb mellékszála most az, hogy a piac két legismertebb szereplője, az OpenAI és az Nvidia kapcsolata a felszín alatt sokkal összetettebbé válik, mint amilyennek kívülről látszik. Miközben a ChatGPT mögött álló vállalat továbbra is nagyrészt Nvidia hardveren futtatja a szolgáltatásait, az OpenAI alternatívákat keres bizonyos feladatokra, mert nem elégedett az Nvidia legújabb MI-chipjeivel. Ez nem egyszerű “szakítási sztori”, inkább egy új korszak kezdete: az MI-számítások fókusza egyre inkább a betanításról az éles használatra, vagyis az inferenciára helyeződik át, és ebben a mezőnyben a korábbi recept már nem biztos, hogy mindenre elég.

Az MI világában sokáig az számított a legnagyobb erődemonstrációnak, hogy ki tudja a legnagyobb modellt a legtöbb adaton betanítani. Az Nvidia ebben gyakorlatilag megkerülhetetlenné vált: a GPU-k, vagyis grafikus processzorok óriási párhuzamos számítási kapacitása kifejezetten jól illik a nagy modellek tréningjéhez. Csakhogy a tréning csak az első felvonás. A valódi tömeghasználat ott kezdődik, amikor a már betanított modellek válaszolnak a felhasználóknak, kódot írnak, “gondolkodnak”, ügynökként más szoftverekkel kommunikálnak, vagyis következtetnek. Ez az a pillanat, amikor a sebesség, a válaszidő és a költség per lekérdezés válik mindennél fontosabbá, és az OpenAI itt érzi úgy, hogy bizonyos helyzetekben az Nvidia legfrissebb hardvere nem adja meg azt, amire szüksége lenne.

Az OpenAI stratégiaváltása elsősorban az inferenciához kapcsolódó chipekről szól, azon belül is azokról a feladatokról, ahol a ChatGPT felhasználói élménye nem csak a “helyes válaszon”, hanem a gyorsaságon is múlik. Az OpenAI azért elégedetlen, mert bizonyos típusú problémáknál, például szoftverfejlesztési jellegű feladatoknál és olyan esetekben, amikor az MI más szoftverekkel kommunikál, az Nvidia hardvere nem elég gyors abban, hogy “kiköpje” a válaszokat. Nagyon konkrét mérnöki kérdés, hogy mennyi idő alatt jut el a modell a felhasználóhoz a tokenekkel, vagyis a válasz darabjaival. Ha egy kódolási asszisztens lassan reagál, az olyan, mintha egy fejlesztőnek folyamatosan meg kellene állnia gondolkodni, várni, újrapróbálni.

Az OpenAI vezérigazgatója, Sam Altman egy január 30-i újságírói beszélgetésen külön is hangsúlyozta, hogy a kódolási modellek ügyfelei “nagy felárat fognak fizetni a sebességért” a kódolási munkák során. És ha a felhasználók hajlandóak fizetni a gyorsaságért, akkor a hardverválasztás hirtelen üzleti stratégia is lesz, nem csak technológiai döntés. Mindazonáltal a nyilvános kommunikációban mindkét fél igyekszik csillapítani a feszültség narratíváját. Az Nvidia azt mondta, hogy “az ügyfelek továbbra is az NVIDIA-t választják inferenciára, mert mi szállítjuk a legjobb teljesítményt és a legjobb teljes birtoklási költséget nagy léptékben”. Az OpenAI szóvivője pedig külön nyilatkozatban jelezte, hogy a cég az inferenciaflottájának döntő többségét továbbra is Nvidia hardverrel működteti, és az Nvidia adja a legjobb teljesítményt dolláronként.

Ezek a mondatok azonban nem zárják ki azt, hogy az OpenAI közben több lábon akar állni. Az OpenAI olyan új hardvert keres, amely a jövőben nagyjából az inferenciás számítási igényének 10 százalékát fedezhetné. Tehát nem arról van szó, hogy az Nvidia kiesne a képből, inkább arról, hogy az OpenAI a kritikus feladatoknál szeretne célhardvereket vagy gyorsabb megoldásokat beépíteni a rendszerbe. Az OpenAI keresése olyan GPU-alternatívákra fókuszál, amelyekben sok memória van közvetlenül a chipen belül, ugyanabban a szilíciumdarabban. (Ezt SRAM-nek hívják.) Inferenciánál gyakran nem a nyers számítás a szűk keresztmetszet, hanem az, hogy a modell mennyi idő alatt tudja előhalászni a szükséges adatokat a memóriából. Minél több adatot lehet közelebb, gyorsabban elérhető memóriában tartani, annál gyorsabban lehet válaszolni.

Az inferencia több memóriát igényel, mint a tréning, mert a chipnek arányaiban több idő memóriából adatot “felhoznia”, mint matematikai műveleteket végeznie. Az Nvidia és az AMD GPU-technológiája külső memóriára támaszkodik, ami további időt ad a folyamathoz, és ez lassíthatja a chatbotokkal való interakciót. Ez nem azt jelenti, hogy a GPU rossz, hanem azt, hogy az inferencia bizonyos formáihoz lehet, hogy nem a GPU a tökéletes szerszám, vagy legalábbis nem minden esetben. A probléma különösen a Codex esetében látványos. Ez az OpenAI kódgeneráló terméke, amelyet a vállalat agresszívan marketingel, és az OpenAI munkatársai részben az Nvidia GPU-alapú hardverének tulajdonították a Codex bizonyos gyengeségeit. Itt nem arról van szó, hogy a Codex “nem működik”, hanem arról, hogy a versenyben a felhasználók a gyorsabb és folyamatosabb élményt fogják választani, és ha a hardver késleltet, az a termék versenyképességét is rontja.

A riválisok, például az Anthropic Claude-ja és a Google Geminije előnyt élvezhetnek olyan telepítéseknél, ahol nagyobb arányban használnak a Google által házon belül fejlesztett TPU-kat, vagyis tensor processing unitokat. Ezeket kifejezetten az inferenciához szükséges számításokra optimalizálták, és bizonyos helyzetekben előnyt adhatnak az általános célú MI-chipekkel szemben, amilyen az Nvidia GPU-ja is. A Google itt egy klasszikus “vertikális integrációs” előnyt élvez: ha a hardvert és a szoftvert is ő kontrollálja, könnyebben hangolja össze a rendszert.

Szeptemberben az Nvidia még azt mondta, akár 100 milliárd dollárt is OpenAI-ba pumpálna egy olyan megállapodás részeként, amely részesedést adna a chipgyártónak a startupban, és pénzt adna az OpenAI-nak a fejlett chipek beszerzéséhez. Elvileg a megállapodásnak hetek alatt le kellett volna zárulnia, ehhez képest a tárgyalások hónapok óta húzódnak. Ebben szerepet játszhatott az is, hogy az OpenAI közben az AMD-vel és másokkal is kötött megállapodásokat GPU-król, illetve az OpenAI változó termékterve megváltoztatta azt is, milyen számítási erőforrásokra van szüksége, ami bonyolította az Nvidia-val folytatott egyeztetéseket. Jensen Huang, az Nvidia vezérigazgatója nyilvánosan is reagált a feszültségről szóló hírekre, és “badarságnak” nevezte az elképzelést, majd jelezte, hogy az Nvidia hatalmas befektetést tervez az OpenAI-ba.

Az OpenAI alternatívakeresése nem elméleti, hanem konkrét szereplőkhöz kapcsolódik. A cég tárgyalt olyan startupokkal, mint a Cerebras és a Groq (nem összekeverendő Musk Grokjával!), amelyek gyorsabb inferenciát ígérő chipeket fejlesztenek. Az Nvidia azonban 20 milliárd dolláros licencmegállapodást kötött a Groq-kal, ami “leállította” az OpenAI tárgyalásait velük. Ha egy feltörekvő szereplő technológiája stratégiailag veszélyes lehet, a piacvezető inkább bekebelezi, licenceli vagy valamilyen módon semlegesíti. Bár más cégek is licencelhetnék a Groq technológiáját, a vállalat most inkább a felhőalapú szoftverek értékesítésére fókuszál, miközben az Nvidia “elszívta” a Groq chiptervezőit. Az Nvidia azt nyilatkozta, hogy a Groq szellemi tulajdona “nagyon jól kiegészíti” az Nvidia termékútitervét. Ez is arra utal, hogy az Nvidia pontosan látja: az inferencia területén új típusú verseny jön, és nem elég pusztán a GPU-k nyers erejére építeni.

Amikor az OpenAI egyértelművé tette a fenntartásait az Nvidia technológiájával kapcsolatban, a cég több SRAM-intenzív chipeken dolgozó céget, köztük a Cerebrast is megkereste felvásárlási lehetőséggel. A Cerebras végül nemet mondott, és inkább kereskedelmi megállapodást kötött az OpenAI-jal, amit a múlt hónapban jelentettek be. Az MI-hardver háborúja nem csak arról szól, kinek van gyorsabb chipje, hanem arról is, ki tudja kontrollálni a kritikus szellemi tulajdont, ki tudja magához kötni a tehetségeket, és ki tudja a saját ökoszisztémájába terelni a következő generációs megoldásokat.

Az MI iparág belépett egy olyan fázisba, ahol a “legnagyobb modell” helyett a “leggyorsabb válasz” lesz a mindennapi felhasználói élmény kulcsa. A tréning továbbra is fontos, de a bevétel és a tömeges használat a valós idejű inferencián múlik. Aki itt nyer, az nem feltétlenül az lesz, aki a legjobb GPU-t gyártja, hanem aki a legjobb teljesítményt tudja adni per dollár, per watt, per milliszekundum késleltetés alapon. Ha az OpenAI egyszerre akar chatbotot futtatni, kódolási asszisztenst skálázni, ügynököket építeni, és közben üzletileg is fenntartható maradni, akkor nem engedheti meg magának, hogy csak egyetlen beszállítóra és egyetlen chipfilozófiára támaszkodjon. Még akkor sem, ha az Nvidia ma a piac legfontosabb szereplője.

Hozzászólások