Srácok srácok, nyugalom! Egy jót derültem ezeken a kommenteken! Féreértés ne essék nem a szakmai hozzáértéseteken,hanem az egymás gyõzködésén! Amúgy szeretem olvasni a kommentjeiteket mert az átlag usernél több infóval rendelkeztek a hasonló témákban. PEACE...
Nono, éppenhogy többmindenrõl beszéltünk, közte a nagyrészt in-orderességrõl, illetve az egyszerûbb branch-predictionrõl, de másról is, és elhangzott olyan is, hogy erõs butítás, stb. Egyszóval nem lehetett tudni, hogy a szóban forgó részben mikre gondolsz, 2 dologra vagy több dologra.
Nézd, ezt írtad: "Annál inkább kéne neki a többi kidobot fícsör (ebbõl a szempontból egy 386-oshoz hasonlít tudásban)." Korábban meg ilyesmiket írtál, hogy 'nagyon erõsen lebutított mag, amiben nincs branch prediction (pedig van), stb.'. Nem pedig azt, hogy fejlett, de nagyrészt in-order mag, egyszerûsített branch predictionnel. Ebbõl nem derül ki, hágy kidobott fícsörre gondolsz, de arra mutat, jópárra. Szóval te magyarázkodsz. Én meg magyarázok. Nem ugyanaz. :)
Nem is tudom, ki hamisítja itt is a történelmet... Nem, nem 2 fícsörrõl volt szó, csak utólag "pontosítottad" erre, amikor már leírtam, mit is tud. Eredetileg ezt írtad: "Annál inkább kéne neki a többi kidobot fícsör (ebbõl a szempontból egy 386-oshoz hasonlít tudásban)." Ez alapvetõen úgy értelmezhetõ, hogy annyi minden ki van dobva, hogy ami marad, az egy 386-szerû proci.
Volt szó 2 (azaz kettõ) darab fícsörrõl. Mint azt magad is kifejtetted többször is, ennél jóval több dologban különbözik egy mai proci egy 386-ostól. Ezért is írtam, hogy "ebbõl a szempontból". Szóval, ez azt jelenti, hogy a két említett fícsör kidobása (egyszerûsítése) nagy visszalépés a régebbi procik irányába. Nem is konkrétan az az érdekes, hogy 386 vagy P1 vagy mi, hanem hogy jelentõs visszalépés. És a másik fontos dolog, hogy nincs szó a többi fícsörrõl, csak errõl a kettõrõl.
Kértelek, hogy magyarázd meg, mirõl is beszéltél. Ezt válaszoltad:
"pontosan a "kidobott fícsörök"-rõl (pontosabban az out-of-order és a branch prediction logika drasztikus egyszerûsítésérõl) van szó"
És korábban meg ezt írtad:
"Annál inkább kéne neki a többi kidobot fícsör (ebbõl a szempontból egy 386-oshoz hasonlít tudásban)."
Hogy máshogy lehet ezt értelmezni, mint hogy a '"kidobott fícsörök" (pontosabban az out-of-order és a branch prediction logika drasztikus egyszerûsítése)' miatt szerinted "egy 386-oshoz hasonlít tudásban".
Az az óvodás, ahogy ki akarod magyarázni magad egy egyértelmû tévedésbõl. Ahelyett, hogy egyszerûen elismernéd, hogy oké, tévedtél.
"Minden másról??? Nem, csak arról, hogy az out-of-order és a branch prediction logika drasztikus egyszerûsíte miatt még messze nem lesz tudásban egy 386-oshoz hasonló a PPE."
Még mindíg nem fogod fel, hogy nem ezt mondtam? Komolyan, kezd ez az egész két óvodás vitájára hasonlítani.
Minden másról??? Nem, csak arról, hogy az out-of-order és a branch prediction logika drasztikus egyszerûsíte miatt még messze nem lesz tudásban egy 386-oshoz hasonló a PPE.
"Nem derült ki a környezetébõl sem, ezért reagáltam egyáltalán. És egyébként azt sem mondtam, hogy tudásban azonos lenne a PPE egy 386-tal, tehát még így is hülyeséget mondtál. Ha egy picikét pontosabban idéztél volna (vagy legalább elfogadtad volna a pontosításomat), akkor nem vitatkoznák itt már megint teljesen értelmetlenül."
"Na, akkor azt magyarázd még meg, hogy milyen szempontból is, ha nem bizonyos kidobott fícsörök szempontjából?"
De pontosan a "kidobott fícsörök"-rõl (pontosabban az out-of-order és a branch prediction logika drasztikus egyszerûsítésérõl) van szó. Te beszélsz itten össze-vissza minden másról.
"Kár, hogy abból a mondatból nem derül ki, hogy teljesítményre vagy tudásra vonatkozik-e. A környezetébõl viszont igen..."
Nem derült ki a környezetébõl sem, ezért reagáltam egyáltalán. És egyébként azt sem mondtam, hogy tudásban azonos lenne a PPE egy 386-tal, tehát még így is hülyeséget mondtál. Ha egy picikét pontosabban idéztél volna (vagy legalább elfogadtad volna a pontosításomat), akkor nem vitatkoznák itt már megint teljesen értelmetlenül.
Miért fájna? Csak egyszerûen nem igaz, ennyi az egész.
Tehát, kimondhatjuk, hogy olyan dolgok, mint superscalar architektúra, FPU + fejlett SIMD egyéség + L2 a magon, számodra a "tökéletesen lényegtelen" kategória? Hm.
És még az sem igaz, hogy P1, mivel tudtommal a P1-ben nincs a VMX-nek megfelelõ fejlett SIMD egyég (~SSE3, csak sokkal több regiszterrel), és mintha 64 bites sem lenne... (Az SMT-t félretéve, hiszen az azon kívüli dolgokról beszélünk.)
"Ismétlem : Ebbõl a szempontból, nem úgy általában."
-- Na, akkor azt magyarázd még meg, hogy milyen szempontból is, ha nem bizonyos kidobott fícsörök szempontjából?
"Valahol igen, de én konkrétan az idézett mondatra reagáltam."
-- Á, ez lenne az "ellentámadás"...!? :D Kár, hogy abból a mondatból nem derül ki, hogy teljesítményre vagy tudásra vonatkozik-e. A környezetébõl viszont igen...
Az is baromság, kedves BiroAndras, hogy a Cell PPE-je egy 386-oshoz hasonlít tudásban. Lásd alább. Esetleg azt mondhatnád, hogy bizonyos dolgokban a Pentium 1-hez, bizonyos dolgokban meg a Pentium Prohoz hasonlít. Viszont egy sor dologban jóval fejlettebb azoknál is.
És ha kicsit visszanézel, láthatod, hogy én nem teljesítményrõl beszéltem. Lévén a "386, csak nagy órajelen" is szerepelt valahol, aminek még lehetne nagy a teljesítménye, ha elég magas az az órajel.
"Ezt, hogy "Annál inkább kéne neki a többi kidobot fícsör (ebbõl a szempontból egy 386-oshoz hasonlít tudásban)." hogy lehet másképp érteni, mint úgy, hogy a kidobott fícsörök miatt egy 386-oshoz hasonlít tudásban?"
1. Tudásban, nem teljesítményben. 2. Ebbõl a szempontból, nem úgy általában.
Te ezzel szemben ezt írtad : Egy szóval sem mondtam, hogy pl. egy csúcs-Opteronnal is felveszi a versenyt a Cell PPE-je általános mûveletvégzésben. De egy 386-nál, amit te mondtál, sokkal de sokkal jobb.
Itt egyértelmûen teljesítményrõl beszélsz, ami baromság.
Igen, az elõbb én is rátaláltam, csak máshol. Hát, azért kicsit húzós magánembereknek.
Így azért kérdéses, hogy tényleg lesz-e full Linux (hivatalosan) a PS3-hoz, hisz úgy "túl olcsón" juthat bárki bármire használható szép (mat.szám.) teljesítményhez. De majd meglátjuk.
Persze, a hatásfok csökken, de 2db-nál még nem, de pár darabnál sem feltétlenül.
16 ezer procira szétosztani valamit már nagyon nem könnyû, de ha sikerül, akkor elég jó teljesítmény jöhet ki. Ne felejtsük el, hogy itt nem 1-1 core-os procikról van szó, aminek az idejébõl szépen elvesz az adatok fogadása/küldése. Hanem az adatok lokális ramba töltésérõl a PPE gondolsokhat. Onnan/oda meg kvázi megszakítás nélkül dolgozhatnak az SPE-k.
Ezen a bõvítõ kártyán egyetlen cell van, hasonló sw körítés, hasonló 512mb xdr ram, viszont kisebb 2.4Ghz-es frekin és 8000 dolcsit kérnek érte. Szóval nem lennék meglepve ha az IBM 19 rongyot kérne egyetlen blade kártyáért. A 7 kártyás keret pedig jóval száz ezer fölött lenne.
A hatásfok azért biztos csökken a cpu-k számával. Az SG cikkben említett 16 ezer cell és 16 ezer opteron procis konfig esetén biztos hogy ez még fokozottabban igaz. A 32 ezer proci aggregált peak teljesítményét biztos hogy nem fogja hozni egy komlex rendszer.
Végre, már ideje volt. De most mi kerül majd 19e dollárba? Egy 2 Celles lap? Vagy egy blade keret?
Egyébként nem tudom, miért ír ilyeneket a HWSW (állandóan), hogy "Ezek összesített elméleti csúcsteljesítménye meghaladja a 3,2 teraflopsot (64 biten 300 gigaflopsot), igaz ezt teljes egészében szinte képtelenség a valóságban kiaknázni, egy ilyen klaszter estetében 50 százalékos hatékonyság már jónak számít.", amikor az IBM már bizonyította, hogy jópár feladatban, köztük a Linpackban normális keretek közötti optimizációval 75-92%-os kihasználás érhetõ el.
Ezt, hogy "Annál inkább kéne neki a többi kidobot fícsör (ebbõl a szempontból egy 386-oshoz hasonlít tudásban)." hogy lehet másképp érteni, mint úgy, hogy a kidobott fícsörök miatt egy 386-oshoz hasonlít tudásban?
"De full in-order. A branch prediction az amit nem vettek ki teljesen."
Mondom, hogy nem full in-order. Lásd: "In order to improve performance from its in-order pipeline, the PPE utilizes delayed-execution pipelines and allows limited out-of-order execution of load instructions. This allows the PPE to get some of the advantages of out-of-order execution without any significant increase in complexity."
"Nos, mint már szó volt róla (de a túl sok szó között nagyon elvész a lényeg), az in-orderrõl annyi mondható el negatívumként, hogy némileg kevésbé hatékony, mint az out-of-order (hozzátéve, hogy a PPE sem full in-order), és jóval nagyobb hangsúly helyezõdik a fordító optimizálási képességére (a run-time "optimizálás" nagy része ide van áthelyezve, azzal sok-sok tranyót megspórolva) - utóbbi jósága sokban ellensúlyozza az elsõt."
Nos, mint már szó volt róla, nem ilyen egyszerû a helyzet, de nincs kedvem megint újrakezdeni az egészet.
"Ezt írtad (arra reagálva, hogy a PPE HW SMT-s): "Hát bizonyos esetekben esetleg lehet jobb, de általában nem az. Egy tipikus egy szálon futó gamelogic kód szerintem semmi hasznát nem veszi. Annál inkább kéne neki a többi kidobot fícsör (ebbõl a szempontból egy 386-oshoz hasonlít tudásban).""
Tehát azt írtam, hogy EBBÕL A SZEMPONTBÓL. És egyébként se értem, hogy minek lovagolsz ezen, már rég megbeszéltük.
"Tehát, bár HW SMT-s, de egyéb szempontból egy 386-hoz hasonlít tudásban."
Olvasási, vagy szövegértési problémáid vannak. Az "egyéb szempontból", és az "ebbõl a szempontból" közt óriási különbség van.
"De, pontosan azt mondtad, hogy a PPE egy magas órajelû 386-nak felel meg, miért tagadod?"
Azért tagadom mert nem ezt írtam. Egyébként is az elõbb órajelrõl nem beszéltél, idézem : de egy 386-nál, amit te mondtál, sokkal de sokkal jobb.
"És nem visszalépés, csak más filozófia."
Visszalépés abból a szempontból, hogy régebben már volt ilyen megoldás. Ez önmagában nem jelenti szükségképp azt hogy rosszabb. A Core2 is visszalépés a P4-hez képest a P3 felé, de sikerült csak a rossz megoldásoktól megszabadulni. Viszont a cell-nél a visszalépés azt is jelenti, hogy az azóta felhalmozott tapasztalatot ki lehet dobni a technológiával együtt, és újra kell tanulni sokmindent. Ennyi hátránya biztosan van, és az még nem biztos, hogy a régi-új filozófia beválik.
"Mint már írtam neked, pl. az Itanium is in-orderes."
Mint már írtam neked, az Itanium nem sikerült túl jól, így nem lehet ebbõl következtetést levonni.
"Ráadásul a PPE nem full in-order, hanem egyfajta hibrid!"
De full in-order. A branch prediction az amit nem vettek ki teljesen.
És ugye az a "többi kidobott fícsör" is az in-order rendszer miatt vált fölöslegessé.
Nos, mint már szó volt róla (de a túl sok szó között nagyon elvész a lényeg), az in-orderrõl annyi mondható el negatívumként, hogy némileg kevésbé hatékony, mint az out-of-order (hozzátéve, hogy a PPE sem full in-order), és jóval nagyobb hangsúly helyezõdik a fordító optimizálási képességére (a run-time "optimizálás" nagy része ide van áthelyezve, azzal sok-sok tranyót megspórolva) - utóbbi jósága sokban ellensúlyozza az elsõt.
Ja, és nem beszélve ilyenekrõl, hogy a 386-osnak csak csak pár (16-32 bites), meghatározott utasításokban használható regisztere volt, miközben a PPE-nek (mint a többi PowerPC procinak) 32db (itt 64 bites) általánosan használható, 128db SIMD regisztere, és jópár speciális regisztere van (és mindebbõl 2 set, szálanként egy); nagy rugalmasságot adó címzésmódok és kondiciónális végrehajtás; és még jópár ilyesmi.
Te vagy messze nem értesz ehhez annyira, mint megjátszod, vagy néha nagyon nem vagy magadnál.
(Most majd jön a magyarázat, hogy te nem is úgy gondoltad... )
Ezt írtad (arra reagálva, hogy a PPE HW SMT-s): "Hát bizonyos esetekben esetleg lehet jobb, de általában nem az. Egy tipikus egy szálon futó gamelogic kód szerintem semmi hasznát nem veszi. Annál inkább kéne neki a többi kidobot fícsör (ebbõl a szempontból egy 386-oshoz hasonlít tudásban)."
Tehát, bár HW SMT-s, de egyéb szempontból egy 386-hoz hasonlít tudásban. Nos, ez egy jó nagy butaság. Kezdve ott, hogy a 386 még csak superscalar sem volt. Továbbá csak 32 bites volt, nem 64, nem volt benne FPU, MMU, SIMD egység, L2 cache, nuku branch prediction, stb. stb. Kicsit túlértékelted azt, hogy nem out-of-orderes, hanem in-order, némi out-of-order beütéssel...
De, pontosan azt mondtad, hogy a PPE egy magas órajelû 386-nak felel meg, miért tagadod?
És nem visszalépés, csak más filozófia. Mint már írtam neked, pl. az Itanium is in-orderes. Ráadásul a PPE nem full in-order, hanem egyfajta hibrid! De ezt is írtam már. (De mindek...?)
"De egy 386-nál, amit te mondtál, sokkal de sokkal jobb."
Értsd már meg, hogy nem errõl beszéltem. Arról van csak szó, hogy a PPE az utasítás végrehajtás menete szempontjából nagy visszalépés a mai procikhoz képest.
PPE-hez: persze nem árt, ha a sûrûbben hozzáfért adatok nagy része befér a cache-ekbe, vagy szekvenciálisan olvashatók a ramból, mert itt jóval nagyobb a latency, mint A64-nél. (De a sávszélesség is.)
Egy szóval sem mondtam, hogy pl. egy csúcs-Opteronnal is felveszi a versenyt a Cell PPE-je általános mûveletvégzésben. De egy 386-nál, amit te mondtál, sokkal de sokkal jobb. Kb. egy 2GHz-es (3000+) A64-nek felel meg szerintem. (Egy jó fordító használatával.)
(Az SPE-k sem csak a SIMD kódot ismerik, hanem a teljes PPC utasításkészletet, csak nem az órajelüknek megfelelõ teljesítménnyel hajtják azokat végre.)
Nem tudom, egy szuperszámítógépnél mekkora szükség van általános mûveletvégzésre a matematikai számítások mellett, de ha van, akkor azért arra jól jönnek az Opteronok. Továbbá, szuperszámítógéprõl van szó, nagyon sok adat áramlik a procik között, ennek szervezésére és lebonyolítására is jól jön a segítség.
Az irónia nevû izérõl hallottál már? De vehetjük úgy is, hogy a kérdés neked szól. Te bizonygatod, hogy olyan jó a cell önmagában is. Akkor magyarázd meg, hogy az IBM miért bízik kevésbbé a saját procijában.
Nos ha 16 GFLOPS-t veszünk a Double Precision LinPack esetén (PPE-t is beleszámolva, mert miért hagynák parlagon a bõvített VMX-ét), 16 x 16000 = 256000. És ehhez jön a 16000 Opteron teljesítménye. Így az elsõ hely simán megvan.
A HWSW elméleti maximum FLOPS adata hibás [jellemzõ, a PS3-at és a Cellt mindig lehúzzák], pontosabban egy korai, 2.4GHz-es példányra vonatkozik. 3.2GHz-en kb. 240 GFLOPS. (25,6 [SPE] x 8 + 35 [PPE])
Nos azért talán nem teljesen mellékes, hogy 16000 Cell S.P. maximuma 3840000 GFLOPS, azaz 3.84 PFLOPS. Jól fog az még jönni sok számításnál. :P
Nem érted? Na ne mondd, tudod te azt, hiszen állandóan kántálod: a Cell általános feladatvégrehajtási (nem mat. számítási) teljesítménye kisebb, mint egy Opteroné, és a nagy mennyiséû adathoz (ami nem fér a fél mega L2-be) való totál random hozzáférés nagy latency-vel jár (bár a sávszél elég jó, szekvenciális olvasás esetén nincs probléma).
Hozzáteszem, a Cellbõl késõbb lesz több változat is, több PPE-vel és/vagy több SPE-vel.
Itt pedig a LinPack benchmark top 500-as tesztjérõl azt írja a FAQ, hogy nem a single és double precision a lényeg, hisz egyes rendszereknél a singe precision már alapban 64 bitet jelent. A benchmark tesztnek 64 bit vagy a fölötti pontosságon kell lefutnia, 32 bites pontosságról nem igazán írnak.
Márpedig az 1 pflops-ot ez a rendszer csak 32 bites pontosság mellett fogja teljesíteni, kiindulva az IBM által prezentált LinPack mérési adatokból. Az meg mérés szempontjából nem lesz hiteles eredmény a top500-ba. 64 bit pontosság mellett nem hisz hogy le fogja gyûrni BlueGene-t.
Csak azt nem értem, hogy ha ilyen durva a cell, akkor minek csomagolnak mellé 1-1 opteront.
Ja tényleg, valamit el is felejtettem: az alábbi számok csak az SPE-ken alapultak, pedig a PPE (normal CPU mag bõvített VMX egységgel) még több FLOPS-ot tud, mint 1db SPE, szal azt is hozzá lehetne adni.
cell meg core2 meg hasonló inteles procik ég és föld a kettõ
IBM-Toshiba-Sony nem véletlen hogy ezek + még néhány cég anno villámgyorsan összefogtak hogy végre legyen már egy sokkal értelmesebb felépítésü proci is
Nos DP-ben 1kx1k 9.46, 2kx2k 11.05, viszont SP-ben 4kx4k 155.5.
Még hozzátenném, ezek 3.2GHz-en értendõk, 90nm-en. Egy rosszul szellõzõ PS3-ben is mennek ennyit, valamivel jobb hûtéssel simán mennek 4GHz-en (~5GHz volt a csúcs). Jövõre meg már 65nm-en készülnek...
Bizony, fontos szempont a Cell brutális sávszéle is, hogy a parallel architektúrák támogatása. Itt visszájára fordul a kritikusok vesszõparipája: "a FLOPS nem minden". :)
Apropó FLOPS, sajnos sokan nem fogják fel, hogy az S is hozzá tartozik a mértékegységhez, az jelzi az idõegységet. Mint a km/h-nál a h.
Még egy megjegyzés a cikkhez: a Cell eleve nem csak a PS3-ba készült, már a kezdetekkor terveztek más alkalmazást is.
Megjegyzések: Double prec. Linpack 1kx1k-ben tényleg csak ~30%-kal gyorsabb, mint egy 3.6-os P4. (2kx2k-ban valamivel gyorsabb. Single-ben meg 6x-os, de ezt írtad.)
De ne csak ezt az egy adatot nézzük! Alább több alkalmazásnál akár 1db SPE is 2x gyorsabb, mint egy P4... 8 SPE így 16x-os teljesítményt hoz.
Bizonyos dolgokban meg 35x gyorsabb.
Kb. 2 éve írtam egyszer az IBM-nek (valamilyen Celles infó emailre), és rákérdeztem erre a Single Precision dologra, tehát hogy ez elég-e tudományos célokra. Azt válaszolták, hogy a legtöbb esetben elegendõ.
Nem gondolod, hogy az USA nukleáris program elõnyben részesedik a játékkonzolokhoz képest, meg ehhez adnám még hogy a Cell-t az IBM gyártja, tehát nem kell neki várnia, hogy legyen elég a piacon. A hír szerint egyébként 2007-ben lesz kész. Akkor az 1 PFLOPS azt hiszem elég komoly lesz (szerintem a jelenlegi BlueGene marad még egy évig a csúcs és az még csak picit több mint 1/4 PFLOPS. Különben sem lehet egy ilyen rendszert a Core 2-hez hasonlítani, igaz, hogy a Core 2 fogyasztása már nem olyan magas mint a NetBurst volt, de azért még mindég több mint a Cell, ugyanakkor a Core 2 nem lett Massive Paralell architektúrákra tervezve, míg a Cell igen és sokkal könyebben (olvasd) olcsóbban skálázható. Szóval senkinek sem fog az eszébe jutni, hogy Core 2-bõl szuperszámítógépet építsen (persze lesz esetleg cluster rendzser belõlle, de az nem fogja meg sem közelíteni a PFLOPS-ot).
Aztán a cikkben ki kellene javítani a dolgokat, mert "petaflopos" nem létezik, nem flop hanem FLOPS, vagyis FLoating point Operations Per Second.
Ahogy az oldalon is szerepel a SP max peak teljesítménye a cellnek 230 GFLOPS, DP-nél ez már lecsökken 21 GFLOPS-ra. És mire szélesebb körben hozzáférhetõ lesz a Cell, úgy hogy elég számú fölös kapacitás legyen a konzolos eladásokon felül egy ilyen project beindításához az még odébb lesz. Aztán utána még meg is kell építeni a rendszert. Mire elkészül szerintem lesz vagy 2010 addigra meg már az akkori eredményekhez mérten kell nézni ezt az 1 PFLOPS-ot.
Mire jõvõre elérhetõk lesznek jobban a Cell procik, addigra már az Intel is 4 coreos Core2-eseket fog gyártani. Double precisionban azok már biztos le fogják nyomni a Cell-t és SP-ben is egyre jobban a nyakára fog mászni, bár ott soká lesz még mire utolérik.
Kár hogy az összehasonlításban az Intelnek csak a régi NetBurst architectúrájú procija szerepel, kíváncsi lennék egy Core2-es WoodCresttel mit produkálna.
Mindesetre ebbõl is látszik hogy single precisionban a cell nagyon jó közel 6x gyorsabb mint P4-es. Viszont double precision esetén az elõny minimálisra csökken úgy ~35%-os. Ezt szerintem az új Core2-es architechtúra lazán behozta, fõleg azonos 3.2Ghz-es sebességen összevetve.
Persze szépek ezek a single precision eredmények a Cell-tõl de tudományos számításoknál nem hiszem hogy ilyennel szoktak számolni, ott azért a standard a double precision floating point.
ahhoz az ,,osszedobnak'' reszhez csak annyit szolnek hozza, hogy a top100-ba bekerulo szuperszamitogepek messze a legdragabb reszegysege az interconnect, majd ezutan kovetkeznek a szerverek amikbe beleteszik a ramot, ezutan jon a RAM, majd _legvegul_ a processzorok. Raadasul az a 2 terrabyte messze all a valosagtol, ha akar a LinPack futtatasa eseten elerik a 100 GFLOPSt mar baromi joljarnak, de szerintem joval lentebb lesz az.
raadasul a 256 is mindossze az elmeleti korlat, a gyakorlat ennel joval rosszabb lesz, raadasul nem minden muveletre jon ossze a 256 sem (es mint mondtad nem is single precession :) )