2024. június 12. 13:38, Szerda
A chipgyártók számára a mesterséges intelligencia PC-k
a TOPS-ért folytatott versenyfutássá váltak, az Intel, az AMD és a Qualcomm is megpróbál a többiek fölé kerekedni. Vajon ez csak a GHz-háborúk újrakezdése? Mint mindig, nem „a nagyobb szám a jobb”, a dolgok bonyolultabbak ennél.
Mint a múlt héten beszámoltunk róla, az AMD következő generációs Ryzen 300-as sorozatú lapkái 50 NPU TOPS-szal
büszkélkedhetnek majd, ezzel szemben az Intel Lunar Lake alkatrészei kettővel kevesebb, 48 NPU TOPS-ra
képesek. A Qualcomm és az Apple már korábban bejelentette, hogy NPU lapkáik 45, illetve 38 TOPS-t
fognak teljesíteni. Ez a fajta marketing történelmileg elég hatékony: az egyszerűen összehasonlítható számok számunkra, vásárlók számára könnyen érthetőek. De ahogy az órajelek és magok esetében is, ez sosem olyan egyszerű, mint ahogy a marketingesek hangoztatják. Ez minden bizonnyal igaz a TOPS esetében is.
Az egyik legnagyobb probléma az, hogy a TOPS - azaz, hogy hány trillió bájt méretű műveletet képes feldolgozni a chip másodpercenként - egy kritikus információt hagy ki: a pontosságot. Ez azt jelenti, hogy 50 TOPS 16 bites pontossággal nem ugyanaz, mint 50 TOPS 8 vagy 4 bites pontossággal. Általában, amikor TOPS-ról beszélünk, azt INT8 vagy 8 bites pontossággal értjük. Az alacsonyabb 6 és 4 bites adattípusok elterjedésével azonban ez már nem magától értetődő. Az Intel és az AMD - dicséretükre legyen mondva - jobban tisztázta a pontosságot, de ez továbbra is potenciális zavaró tényező a tájékozott döntést hozni próbáló fogyasztók számára.
Még ha feltételezzük is, hogy az állítólagos teljesítményt azonos pontossággal mérik, a TOPS csak egy a sok tényező közül, amelyek hozzájárulnak a mesterséges intelligencia teljesítményéhez. Csak azért, mert két chip hasonló teljesítményre képes a TOPS vagy a TFLOPS tekintetében, még nem jelenti azt, hogy ténylegesen ki is tudják használni ezeket. Vegyük például az Nvidia A100-as és L40S modelljét, amelyek 624, illetve 733 INT8 TOPS teljesítményre képesek. Nyilvánvaló, hogy az L40S valamivel jobban fog teljesíteni a következtető MI-alkalmazások futtatásában, igaz? Nos, ez nem ilyen egyszerű. Az L40S technikailag gyorsabb, de a memóriája sokkal lassabb: 864 GB/mp a 40 GB-os A100 1,55 TB/mp sávszélességével szemben.
A memória sávszélessége ugyanolyan fontos az MI PC-k esetében, mint a nagy teljesítményű adatközponti chipeknél, és sokkal érezhetőbb hatással lehet a teljesítményre, mint gondolnánk. Ha például egy nagy nyelvi modellt nézünk, a következtetési teljesítmény két fázisra bontható: az első és a második token késleltetése. Egy chatbot esetében az első szóra vonatkozó késleltetés azt jelenti, hogy mennyi ideig kell gondolkodnia a kérdéseden, mielőtt elkezdhet válaszolni. Ez a lépés általában korlátozott számítási kapacitású - ami azt jelenti, hogy a több TOPS biztosan jobb. A második token késleltetése pedig az az idő, amíg a chatbot válaszának minden egyes szava megjelenik a képernyőn. Ezt a lépést erősen korlátozza a memória sávszélessége. Ez a fázis sokkal jobban érzékelhető lesz a végfelhasználók számára - érezni fogja a különbséget egy olyan chatbot között, amelyik másodpercenként öt szót képes generálni, és egy olyan között, amelyik húszat.
Ezért bizonyultak az Apple M-sorozatú chipjei olyan nagyszerű gépeknek a helyi LLM-ek futtatásához. A memóriájuk a SoC mellé van csomagolva, ami lehetővé teszi a rövid késleltetést és a nagyobb sávszélességet. Még egy olyan régebbi chip, mint az M1 Max is meglepően jól képes LLM-ek futtatására, mivel 400 GB/sec memória-sávszélességgel rendelkezik. Mostanában egyre több chipgyártó, például az Intel, csomagolja a memóriát a számítási teljesítmény mellé. Az Intel nemsokára megjelenő Lunar Lake processzorai akár 32 GB 8500MT/sec sebességgel működő LPDDR5x memóriával is kaphatók lesznek, amely négy 16 bites csatornát támogat. Ez jelentősen javítja majd a teljesítményt az LLM-ek eszközön történő futtatásakor - de valószínűleg
nem lesz népszerű a javításhoz való jog hívei körében.
A memóriaterhelés csökkentésében segíthetnek az olyan modellek, amelyek kisebb pontossággal futtathatók - például 4 bites súlyokra kvantálással. Ez azzal az előnnyel is jár, hogy csökken a modell memóriában való elhelyezéséhez szükséges memória mennyisége. Vagy kisebb, fürgébb modellekre lesz szükség, vagy sokkal több memóriára a beillesztésükhöz. Valamiért 2024-ben még mindig 8 GB memóriával szerelt PC-ket szállítanak a cégek, ami elég szűkös, ha a legkisebb modellek futtatásánál többre vágyik valaki. Általában a 4 bites kvantált modellekhez nagyjából 512 MB szükséges minden milliárd paraméterhez - tehát körülbelül 4 GB memória egy olyan modellhez, mint a LLama3-8B.
Vannak kisebb modellek is, mint például a Google Gemma-2B modellje, de több mint valószínű, hogy egyszerre csak néhány modell fog futni egy átlagos PC-n. Tehát nem csak a TOPS-tól és a memória sávszélességétől függ, hogy mit tudunk csinálni az MI PC-nkkel, hanem attól is, hogy mennyi memóriánk van. Ha egy modell egy bizonyos időnél hosszabb ideig inaktív akkor a lemezre tárolható, de ez a folytatáskor - amíg a modell visszatöltődik a memóriába - teljesítménycsökkenést okoz, így nagyon gyors SSD-kre is szükség van.
Az egyre mobilabbá váló számítástechnikai világban pedig a teljesítmény is fontos tényező - és ez nem mindig egyértelmű. Vegyünk két chipet, amelyek nagyjából 50 TOPS teljesítményre képesek. Ha az egyik tíz wattot, a másik pedig öt wattot fogyaszt, akkor az akkumulátor fogyasztásában akkor is észrevehető a különbség, ha papíron hasonló teljesítményt kellene nyújtaniuk. Hasonlóképpen, ha egy chip 25 TOPS-t produkál, de csak három wattot igényel, akkor kevesebb energiát fog fogyasztani, még akkor is, ha kétszer annyi időt vesz igénybe, mint egy olyan, amelyik 50 TOPS-t produkál 10 wattal.
Röviden, számos tényező ugyanolyan fontos, ha nem fontosabb, mint az, hogy a chip hány TOPS-t képes produkálni. Ez nem azt jelenti, hogy a TOPS nem számít. De igen. Nem véletlen, hogy az Nvidia, az AMD és az Intel minden generációban egyre erősebb chipeket gyárt. A több TOPS azt jelenti, hogy nagyobb problémákat lehet megoldani, vagy ugyanazokat a problémákat gyorsabban. De mint a legtöbb rendszer esetében, a memória, a számítási műveletek, az I/O és az energiafogyasztás gondos kiegyensúlyozása kritikus fontosságú az MI PC kívánt teljesítményjellemzőinek eléréséhez. Sajnos mindezek kommunikálása sokkal nehezebb, mint egy nagyobb TOPS-számra mutogatni - úgy tűnik tehát, arra vagyunk ítélve, hogy a GHz-háborút újra és újra megismételjük.