Kaptam még egy választ, most egy picit részletesebbet és magától a mérnököktõl... na, hogy most ne huzzam ide mert relatív hosszú, röviden csak annyit, hogy az elõzõ válaszuk nam volt éppen a legpontosabb (a PR mégiscsak PR ), vagyis a PowerPC 440-eshez két FPU van mellékelve és mindkettõ 64 bites, viszont speciálissan a kettõ egybevéve mûködik 128 bites precizitással (talán jól mondtam), maga a Blue Gene project ezt double hummer-nek nevezi (azt már, hogy miért ezt nem mondták meg). Tehát úgy látszik csak is neked lesz igazad, vagyis a Chip különössen kibõvített erre a double hummer 2x64 bites FPU konfigurációra. Különben érdekes dolog még, hogy a 2 CPU a node-ban képes közössen dolgozni (ekkor 5.7 GFlops nodenként) vagy az egyik kommunikációs processzor, és ebben az esetben a teljesítménye egy adott node-nek a fele azaz 2.8 GFlops, persze mindez 128 bites FPU ûzemmódban.
Ha esetleg érdekelne a válasz... elküldhetem a e-mailedre (mert PDF-ben kaptam az IBM-tõl)
Hm. Ahhoz képest már a 68k sorozat FPU-ja (mint külsõ chip, ill. késõbb belsõ FPU) is 80 bites volt, és mindíg minden float mûvelet 80 bitesen zajlott, mert nem volt különbség a sebességben. Akkoriban nagyon ajánlgatták emiatt tudományos célokra. De pl. a P4-eké is 80 bites. (A korábbiakat, illetve az AMD vonalat nem tudom, mennyi, és most inkább nem keresgélem. Meg azt sem, a SIMD FPU regiszterek hány bitesek, bár valószínû nem 80.) Szal ez úgy hangzik, hogy "áh, elégedjenek már meg azok a tudósok a 64 bites floattal, elég az nekik, meg nekünk is könnyebb a dolgunk"... :) Mindegy, ez csak speciális esetekben számít.
Amint mondtam nem sokat kellet várni :) a válasz megjött:
"Dear Andras,
Thank you for your mail.
The BG/L nodes have 2 FPU units.
64-bit FPUs are a defacto standard for scientific calculations today
because of performance and scalability.
"An 80-bit FPU is typically slower or more expensive than either a 32-bit
or a 64-bit FPU.
Since some intermediate results are computed with 80-bit precision, and
others with only 32-bit or 64-bit precision, answers depend on exactly how
the code is written, what optimization level is selected, the compiler
version, and other factors not under your control. Results tend to vary,
making it harder to validate the software, and so forth."
Ja igen, na most ez kezd komolyan érdekelni, olyannyira, hogy irtam egy levelet magának az IBM Blue Gene/L research-nak :) Az elõzõ kérdéseimet figyelembe véve a válaszért nem sokáig kell majd várni (az IBM a legbunkobb levelekre is órákon belül válaszol :)
Ahogy így rákerestem, a következõ verziók jöttek ki:
- PowerPC based
- Power technology based
- Power architecture based
- Power processor based
- based upon Power 5 microchip technology (http://www.betanews.com/article/1069142336)
- uses Power 5 microprocessors (http://www.eetimes.com/showArticle.jhtml?articleID=52500079)
(ez utóbbi cikk szerint több fajta is van, és a legnagyobb, itt is szóban forgó változat Power5 CPU alapú - ami mondjuk meg azért furcsa, mert úgy tudtam, a Power5 egy 5(?)-magos, hatalmas proci)
Tuti, hogy ez van benne? Azt gondolnám, tudományos számításokhoz legalább 80 bites floating-point kell.
"The ASIC includes two 32-bit PowerPC 440 processing cores each with two 64-bit FPUs (Floating-Point Units) (see Figure 2). Each core has a private 32KB instruction and 32KB data L1 cache, a 2KB L2 cache, and a shared 4MB L3 EDRAM cache."
Azt írja a cikk, hogy ebben a /L verzióban különlegesen módosított Power procik vannak. Ez lenne a PowerPC 440? Azt gondoltam, normál Power procik vannak itt már, és hogy már a 64 bites típusok.
Elnézést, megmagyarázom a 750FX-et azért hoztam fel, mert tévessen úgy emlékeztem rá, hogy a Blue Gene ezekkel a procikkal épült (pár hónap alatt azért az emberbõl kikopik az info :), de most utánnanéztem és PowerPC 440-esekrõl van szó, ami szintén 32 bites, nem tudom miért gondolod, hogy össze akartam hasonlítani a 64 bitesekkel (ha azért gondolod, mert azt mondtam, hogy a PowerPC teljesítménye nagyjából megegyezik a PowerPC verziójával akkor OK, de persze itt nem a Power5 akartam a 750-nel összehasonlítani, hanem a maga Power-et. Na mindegy, remélem a Cell-bõl kap a PC is, ha másként nem akkor legalább integrálhatnák mint multimedia társprocit (gondolom, hogy a Wintel egyeduralmát nehéz lesz megdönteni a PC világban), de azért remélem a Cell megtalálja helyét még akkor is.
Hát igen. Csak azt nem értem, miért vannak (állítólag) fogyasztási gondok egyelõre a Cell-el. Na jó, ott ott vannak azok a co-procifélék, de azért mégis.
Ez nagyszerû, de a mi szempontunkból miért is releváns? :) Ha nem véletlenül keverted, akkor végképp nem értem, hogy akarsz egy 32 bites, "régi" PPC 750FX teljesítményébõl egy 64 bites Power teljesítményére követleztetni. Ehhez inkább egy G5-öst kellene elõvenni.
Ja érdekesség még, hogy alig 1W felett a fogyasztása egy CPU-nak... :) ez kimondottan érdekes ha az Intel és hát miért ne az AMD CPU-kat figyelembe vesszük, ugyanis a PowerPC 440 1.5 mW/MHz fogyasztásával az Intel P4 3.8 GHz-n mindössze 5.7 (6W) fogyasztana az AMD meg 2.6 GHz-n nem lépné túl a 4W. Na ez lenne a szuper. Képzeld el, hogy 100 darab ilyen proci a gépedbe 100 W fogyasztana (átlag P4) és elképesztõ 280 GFLOPS-al rendelkezné meg 140.000 MIPS-el. Na most feltehetem a kérdést, hogy a P4 vagy az AMD megéri e... vagy jobb lenne ha a PC ipar egy fajta mini Blue Gene felé fordulna. :)
Nem keverem, és tudom, hogy a 750FX 32 bites, különben a Blue Gene PowerPC 440-es és nem pedig Power CPU-kbol van felépítve, ezeknek a CPU-knak pedig 2.8 GFlops a teljesítményük (700 MHz-n 4 FLOPS per cycle) vagyis minden node amely 2 CPU-bol áll 5.6 GFlops-al tud elõállni. És 32 bites szintén, ami a MIPS teljesítményét illeti 1400 MIPS 700 MHz-n, bár így állitja az IBM.
Én Amiga vonalról követtem a PPC-ket korábban, G2(603/166MHz)-G4, kölcsöncuccokkal való játszadozás keretében. :)
A 750FX (G3!) az még 600-900MHz-es, 32 bites proci. (A GX ment max. 1.1Ghz-en.) Miközben ugye a Power az 64 bites. Az elsõ 64 bites PPC proci a PPC 7500-as volt (1-1.4GHz), nem kevered azzal?
tudom, de nagyjából hasonló telyesítménnyel rendelkeznek, persze a Power sokkal jobban skálázható meg van még egynéhány elõnye. Különben kedvelem a Power-t, és a kezdettõl fogva kisérem a fejlõdését többek között mint a IBM Power Architecture Community tagja is. :)
Na igy már stimmel :)
P.S. A gépirónõm szabadságon van :) viccelek, nem írok lassan, csak nem volt útközben refresh... meg volt még egynéhány dolgom útközben (a Finding Forrester címû filmben mindég tetszett, hogy az öreg már 20 éve kicsupálta a csengõt a telefonból, hát amennyit nállam is cseng, már kezdek fontolgatni egy hasonló lépést :)
Igen, idõközben rájöttem, hogy a cikkben FLOPS van, nem MIPS, és 2 perccel késõbb át is írtam azt a részt. De az hogy lehet, hogy te fél óráig írsz egy pár sort? :)
Miért keverjük a MIPS-et és a FLOPS-ot? A Blue Gene/L az ipari szabvány LINPACK tesztben nyomott 135.5 TFLOPS-ot ezért nem értem, hogyan gondolod összehasonlítani (vagyis ez alapján kiszámítani), hogy a Power IPC-je 700 MHz-n 2x annyi mint a P4, sõt, hogy 3.8 GHz-n 23500 MIPS lenne. Ha esetleg nekem valami kimaradt a keretbõl, kérlek világosíts fel.
Különben az IBM specifikációja szerint a Power 750FX 1 GHz-n 2300 Dhrystone MIPS (Dhrystone 2.1 MIPS), tehát nincs közelében sem ahhoz amit számoltál.
P4-E 3.8GHz:
Dhrystone ALU 11115 MIPS (IPC=2.925, tehát a P4-esére emlékeztem)
Whetstone FPU 4408 MFLOPS
Whetstone SSE2 7934 MFLOPS
(A 18000 MIPS bizonyára nem Dhrystone-ban volt mérve, pedig ez az ipari szabvány. Szal nem azt kell mérni, pl. nop-ból mennyit hajt végre. :) )
Kiváncsiságból kiszámoltam, hogy aránylik egy a Blue Gene/L-ben lévõ Power proci egy mai P4-hez (körülbelül, mivel a párhuzamosításban némileg romlik az arány): 70.7*10^12/(16*1024) = 4315 MFLOPS, de 700MHz-en! (3.8GHz-en ez 23424 MFLOPS lenne, de persze nem tud annyival menni, mert nem arra van tervezve.)
Ki lehetne még számolni, hogy Watt-ra mérve hogy aránylanak egymáshoz. De sejtem az eredményt... :)
MIPS és FLOPS között azért írtó nagy a különbség... egy 2 GHz P4 peak teljesítménye kb. 4 GFLOPS, (ezt emlékezetbõl írom, lehet, hogy tévedek) de a sustained teljesítménye kb. 1.2 - 1.7 GFLOPS között mozog (algoritmustól függöen), tehát nagyjából a Blue Gene majdnem 100.000 gyorsabb egy P4 2GHz-nál tehát lényegessen gyorsabb :)
Megjegyzésként a Cat által említett MIPS-ek valós adatok, de ez a processor instrukció elvégzési sebessége nem pedig a lebegõpontos teljesítmény, a Blue Gene ugyanis matematikai számításokra lett építve, és mégpedig architektúrája a lineáris egyenletek minnél gyorsabb megoldására van optimizálva, és ebben az esetben a MIPS számok nem nagyon fontossak, mert a gép nem általános programkód futtatására optimizált, hanem egyszerûen számdaráló.
keress olyan programot, ami MIPS et mér (Million instructions per second (MIPS) is a measure of a computer's processor speed)
a korai 8 és 16 bites processzorokat még KIPSben mérték (1 kips = 0,001 mips). Az Intel i8080 volt 640 kips, az elsõ 16 bites intel proci volt 85 táján 800 KIPS. Az elsõ pentium 4-esek sebessége kb. 1,700 MIPS. Egy mai p4 teljesítménye kb. 18 milliárd, azaz 18,000 MIPS.
Már csak arra lennék kíváncsi, mire használják ezt a szarságot? LAN PARTYT rendeznek? :P
egy hagyomanyos pc pl 2 gigas p4 512 ddr400 kb mennyi szamitasi kapacitassal rendelkezik? hol lehetne megnezni?kivancsi lennek osszehasonlitaskepp hogy a gepem felveszi e a versenyt vele :P
Sokkal kevesebbet mint pl. az Earth Simulátor vagy akármelyik másik gép amely a közelébe kerülhet, ugyanis a Blue Gene/L teljesítménye mellet még arról hires, hogy nagyon takarékos energiafogyasztás és térfogat szempontjából egyaránt.
A Lawrence Livermore Nemzeti Laboratórium egyik alapítója Teller Ede volt, és ez a laboratórium a világ talán legszélesebbkörû fizikai laboratóriuma (?) és nem csak nukleáris fejlesztések helye, persze a nukleáris fejlesztések a mai napig is a laboratórium fõ kutatási területe. Akit esetleg érdekelne a LLNL kicsit közelebrõl és ide értem a kutatási területeiket is, azoknak ajánlom a következõ linket
ahol megtalálhatók a LLNL havi folyóiratai igen érdekes cikkekel.
Örülök a Blue Gene/L elõrehaladásának és remélem a közeljõvõben élérjük az LLNL által megcélzott petaflops határt is. És ide is ajánlanák egy linket a LinuxWorld februári számában elég jó cikk jelent meg a Blue Gene-rõl...
Honnan? Na, mit tippelsz? :) Ha jól emlékszem, a Lawrence Livermore végzi a nukleáris fegyverek fejlesztéséhez illetve virtuális teszteléséhez szükséges kísérleteket... ez az izé azért számol, hogy Amerika nukleáris csapásmérõ ereje megfelelõ legyen.
hát azért ez durva :)
vajon honnan szereztek rá pénzt?
ja, és az órajelhajhászok figyelmébe ajánlanám, hogy 700, azaz hetesszáz MHzes processzorok vannak benne
ott a pdf, irja
28 kW a maximális fogyasztás rackonként, azaz 32*28=896 kw
az majdnem egy megawatt
biztos telepítettek oda egy erõmûvet is :)