2024. április 16. 11:24, Kedd
Az Intel a
Gaudi 3 mesterséges intelligencia gyorsítójának két Kína-exkluzív modelljét készül piacra dobni, és ezeket jelentősen visszafogják, hogy megfeleljenek az amerikai szankcióknak.
A Kínában eladásra engedélyezett két modell létezését a processzor
dokumentációja részletezi. A HL-328 és HL-388 névre keresztelt Kínának gyártott processzorok OAM, illetve PCIe formátumúak - előbbi júniusban, utóbbi pedig szeptemberben kerül forgalomba. Összességében nagyjából ugyanúgy néz ki, mint a normál verzió, ugyanazzal a 128 GB HBM2e VRAM-mal szerelik, 3,7TB/s sávszélességgel, 96 MB gyorsítótárral, PCIe 5.0 x16 interfésszel és dekódolási szabványokkal bír. Az egyetlen különbség a termikus tervezési teljesítmény tekintetében van, amely mind az OAM, mind a PCIe kártyás modellek esetében 450 watt. Ez jelentős csökkenés a többi modellhez képest.
A nem kínai, PCIe-s HL-338 TDP-je 600 watt, az OAM-formátumú HL-325L és HL-335 pedig 900 wattot bír. A kínai Gaudi 3 modellek viszonylag alacsony TDP-je miatt nincs folyadékhűtéses változat. Bár a dokumentációban nem szerepel kifejezetten, a változtatások elvégzésére szinte biztosan azért volt szükség, hogy megfeleljenek az amerikai kormány processzorokra vonatkozó exportszabályainak, amely megtiltja az amerikai vállalatoknak, hogy nagyteljesítményű chipeket exportáljanak Kínába.
Nem igazán tudhatjuk, hogy az Intel mit tett még a Gaudi 3-mal, hogy az megfeleljen a követelményeknek, de van néhány támpont. A HL-328 és a HL-388 továbbra is két magot használ, mint a többi Gaudi 3 változat, mivel a memória és a gyorsítótár konfigurációja változatlan. Ez a felépítés segít a teljesítménysűrűség csökkentésében, így a chip elérheti a magasabb, 4800-as teljes feldolgozási teljesítmény (TPP) exportkorlátot. Ez a 4800 TPP-es határ azt jelenti, hogy egyetlen chip sem rendelkezhet 150 TFLOPS vagy annál nagyobb 16 bites teljesítménnyel, és mivel a Gaudi 3 akár 1835 TFLOPS-ra is képes BF16-on, az Intelnek komolyan vissza kell fognia a teljesítményt. Ezt a magok számának és az órajelek sebességének masszív csökkentésével vagy más teljesítménykorlátozó módszerrel lehet elérni.
Valószínűleg arra számíthatunk, hogy a HL-328 és a HL-388 hasonlóan teljesít majd, mint az Nvidia H20, a szilíciumtitán leggyorsabb olyan GPU-ja, amelyet Kínában is engedélyeztek forgalmazni. Ez 148 TFLOPS FB16 és FP16 teljesítménnyel rendelkezik, ami alig marad el a 150 TFLOPS-os határértéktől. Mivel a nyers magteljesítmény nagyjából megegyezik a H20 és a Gaudi 3 kínai modelljénél, a fő különbség a memóriában lesz, ahol az Intelnek nagyobb a kapacitása, de valamivel kisebb a sávszélessége, valamint a szoftverben, ami mindig is az Nvidia chipek egyik eladási pontja volt.