Pár extra pipeline-t? Az kevés lesz. Egy CPU mag általános kód futtatására lett kitalálva, ezért sokkal nagyobb (több tranyó), mint a GPU-k számoló egységei. Egy CPU magban 1db FPU van (ami képes 4db 32 bites [SP], vagy 2db 64 bites FP [DP] mûveletet végezni SIMD-ben, sima scalar kódban meg 1-2-t), így egy négymagos egyszerre max. 16db 32 bites FP mûveletet tud. (De ez nagyon elméleti, a gyakorlatban csak egy részét tudja ennek.)
A GPU-k számoló tömbje kb. olyan, mintha egy CPU magból kiszednénk az FPU-t, és magában megsokszoroznánk.
Egy G80 egyszerre 128db 32 bites FP mûveletet tud, egy R600 meg akár 320-at... Igaz, kb. fele órajelen, mint a G80, aminek szintén kb. a fele az órajele egy gyors CPU-hoz képest. De még így is kb. 4x gyorsabbak ezek GPU-k a peak FLOPS-ban (a többit nem számolva), mint egy gyors 4-magos CPU. Ráadásul ebbõl jóval többet is tudnak kihozni a gyakorlatban, hacsak nincs valami akadályozó tényezõ, lásd alább. És a GPU-knak sokkal nagyobb a memória-sávszéle.
A GPU-k legnagyobb gyengesége jelenleg az ugró utasítások végrehajtása (fõleg a G80-nak, de az R600 is messze van ebben egy CPU-tól). Ezen kellene javítaniuk, bár akkor a felépítésük is bonyolódna, és máris nem férne el annyi számoló egység.
Az Intel Larrabee-je egy érdekes hibrid lesz: egyszerûsített CPU magok, de abból jópár darab (16-32, ilyesmi). Peak FLOPS-ban nem lesz annyi, mint egy akkori GPU, de általános jellegû számítási feladatokra mégis jobb lesz. (Ilyesmi a Cell is, csak annak még kisebbek a számoló magjai, így még több lehet belõlük, és kb. 2 év múlva, amikor megjelenik a Larrabee, sokmagos Cell is lesz.)