640 GB memóriát pakol legújabb MI-chipjére az Nvidia

2023. augusztus 10. 22:26, Csütörtök

Kevesebb mint három hónappal azután, hogy az Nvidia Grace Hopper szuperchipjei gyártásba kerültek, Jensen Huang, az Nvidia vezérigazgatója a SIGGRAPH 2023-on bemutatta a szilíciumlapka egy még nagyobb teljesítményű változatát.

Az egyre nagyobb és nagyobb generatív modellek képzéséhez szükséges hatalmas számítási mennyiséget nem a hagyományos, némi GPU-képességgel rendelkező adatközpontok szolgálják a legjobban, hanem az Nvidia által külön erre a célra épített H100-hoz hasonló rendszerek, amelyeket a szükséges műveletekre optimalizáltak. A mesterséges intelligencia fejlesztését bizonyos szempontból csak a számítási erőforrások elérhetősége korlátozza. És az Nvidia vezetője szerint butaság dollármilliókat fektetni a legutóbbi generációs számítási erőforrásokba, például CPU-központú rackekbe, amikor egy adatközpontokba szánt MI-fejlesztő hardver, a nemrég bemutatott Grace Hopper 200 ugyanazt a munkát a költségek és az energiaigény tizedéért is el tudja végezni.

Huang vidáman mutatott be egy videót, amelyen több Grace Hopper számítóegység LEGO-szerű összeszerelését mutatta be egy lapkába, majd egy rackbe, majd egy sor GH200-at, amelyek mind olyan nagy sebességgel kapcsolódtak egymáshoz, hogy "a világ legnagyobb GPU-ját" alkották, amely egy exaflop ML-specifikus (machine learning, azaz gép tanulás) számítási teljesítményt tartalmazott.

A jövőbe is bepillantást engedett, egy most készülő processzor ugyanazzal az alapvető tulajdonságokkal rendelkezik, mint a GH200. Az eszköz 72 magos Arm Neoverse V2 Grace CPU-ja, Hopper GPU-ja és 900 GB/mp-es NVLink-C2C interkonnektora mind változatlan marad. És ugyanazt a GH200 becenevet viseli. Az Nvidia elmondása szerint ez azért van, mert ugyanannak a processzornak a különböző konfigurációiról van szó - tehát nem különbözik a néhány évvel ezelőtti A100 40 és 80 GB-os változataitól.

Csak a memória a lényegi különbség: a tavaszi modellben 96 GB HBM3 vRAM és 480 GB LPDDR5x DRAM volt, míg a mostani, "következő generációs" GH200 141 GB HBM3e és 500 GB lassabb, 400 GB/sec sebességű LPDDR5x memóriával rendelkezik. (Az előző generáció 512GB/sec LPDDR5x DRAM-ot használt.) A DRAM-teljesítmény nagyjából 20 százalékos csökkenése elég jelentős. Amit azonban az új GH200 a CPU memória sávszélességében veszít, azt a vRAM sávszélesség pótolja. Az Nvidia szerint a chipben használt HBM3e memória 50 százalékkal gyorsabb, mint a hagyományos HBM3, akár 5TB/mp sebességre is képes. A nagyobb HBM-állomány azért is figyelemre méltó, mert ez azt jelenti, hogy az ügyfelek nagyobb MI-modelljei kisebb rendszerben is elférnek.

A SIGGRAPH keynote-ja során Huang egy kettős szuperchip-konfigurációról beszélt. Az Nvidia szerint a chipek közötti nagysebességű kapcsolat lehetővé teszi, hogy logikailag egyetlen CPU és GPU erőforrásként működjenek, 144 CPU-maggal, nyolc petaFLOPS FP8-teljesítménnyel és 282 GB HBM3e-vel. "Nagyjából bármilyen nagyméretű nyelvi modellt, amit csak akarsz, beletehetsz ebbe" - büszkélkedett Huang. Nagyobb munkaterhelésekhez, például mesterséges intelligencia képzéshez a GH200 256 chip-es konfigurációra bővíthető. A több és gyorsabb HBM-en kívül azonban nem sok minden változott a klaszter tavaszi bemutatása óta. A chipgyártó szerint a 24 rackből álló fürt továbbra is képes egy exaFLOP FP8 teljesítményt nyújtani.

Huang megjegyzései tükrözik az AMD törekvéseit. A nagy nyelvi modellek egyetlen gyorsítóba - vagy legalábbis egyetlen kiszolgálóba - való beilleszthetősége volt az AMD MI300X GPU melletti egyik fő érv a bejelentése során. Ez a processzor még több, 192 GB-os vRAM-mennyiséggel büszkélkedhet - bár a lassabb HBM3-as fajtából. Azoknak, akik erre a nagyobb kapacitású szuperchipre vágynak, még várniuk kell. Az Nvidia közlése szerint az alkatrész valamikor 2024 második negyedévében lesz kapható.

Érdekesség, hogy a kínaiak mindent felvásárolnak a generatív mesterséges intelligencia rendszerek építéséhez. A Baidu, a TikTok-tulajdonos ByteDance, a Tencent és az Alibaba 1 milliárd dollár értékben adott megrendelést mintegy 100 000 darab Nvidia A800-as processzor beszerzésére, és ezeket még idén leszállítják. A Financial Times szerint a kínaiak további 4 milliárd dollár értékben vásároltak grafikus processzorokat is, amelyeket 2024-ben kell leszállítani. A ByteDance az év elején tesztelt egy generatív MI funkciót a TikTok nevű közösségi médiaalkalmazásához, a TikTok Tako-t, amely az OpenAI ChatGPT-jét licencelte. A ByteDance már legalább 10 000 Nvidia GPU-t halmozott fel ambíciói támogatására. A vállalat közel 70 000 A800-as chipet is rendelt, amelyeket jövőre szállítanak le, mintegy 700 millió dollár értékben.

Kapcsolódó cikkek

Listázás a fórumban