Architectures MIMD
Transcription
Architectures MIMD
3A-IIC – Calcul parallèle et distribué, et Grilles de calculs Notions d’architectures parallèles et distribuées Stéphane Vialle [email protected] http://www.metz.supelec.fr/~vialle Notions d’architectures parallèles et distribuées 1 – Vue d’ensemble 2 – Architectures DataFlow et Systolique 3 – Architectures Vectorielles 4 – Architectures SIMD 5 – Architectures MIMD 6 – Sources d’information permanente 7 – Bilan statistique du Top-500 2 1 Notions d’architectures parallèles et distribuées 1 - Vue d’ensemble 1. Types d’architectures parallèles 2. Classification … 3. Les divers besoins des applications 3 Vue d’ensemble Types d’architectures parallèles DataFlow Systolique SIMD Vectoriel ShM 1992/93 2006 Machines dédiées / cartes filles ou « accélérateurs » MIMD Shm Cluster DiM MIMD PC DiM DSM Fujitsu Nec Cray ? HP, SUN, IBM, SGI Grilles IBM ?? HP, … SGI Fujitsu … Asmbl. 2007+ : Architectures hétérogènes/hybrides 4 2 Vue d’ensemble Classification … 1972 - Classification de FLYN : • simple et suffisante en 1972 • 4 classes d’architectures Simple Flot d’instructions : Multiple p Flot de données : Simple Multiple SISD SIMD MISD MIMD Machines séquentielles Machines parallèles généralistes Depuis ... beaucoup d’autres « classifications » … peu convaincantes! 5 Vue d’ensemble Classification … Une classification plus récente : 1 Architectures « standard components » à base de processeurs 1. et de réseaux d’interconnexion du marché. 2. Architectures « semi-custom » à base de processeurs du marché et de réseaux d’interconnexion spécifiques 3. Architectures « ffull-custom » à base de pprocesseurs et de réseaux d’interconnexion spécifiques Spécifique Æ plus efficace, mais plus cher et plus long à développer! Voir + loin. 6 3 Vue d’ensemble Les Divers besoins des applications (Flexibilité des configurations - SGI) Mécanique des Fluides CPU Supercalculateur traditionnel Serveur de stockage Traitement signal Serveurs Web I/O Stockage g Media streaming Inutile de tout dimensionner au maximum! Surcoût inutile. 7 Notions d’architectures parallèles et distribuées 2 - Architectures spécialisées p vs génériques 1. 2. 3. 4. Problème du temps de conception Les solutions p possibles Exemple de champs d’application Autre stratégie 8 4 architectures spécialisées vs génériques Problème du temps de conception Architectures « data-flow » ou « systoliques » ou « SIMD » ou à base de processeurs « data-flow » ou « systoliques » ou « SIMD » Potentiellement beaucoup plus puissantes sur des algorithmes de type « data-flow » ou « systoliques » ou « SIMD », mais … … requièrent de concevoir des processeurs spécifiques, … requièrent des temps de conception importants, … et pendant ce temps les processeurs du marché progressent! 9 architectures spécialisées vs génériques Problème du temps de conception Créer un processeur (+ une architecture + un OS) … prend du temps ! Perff archis hi concurrentes génériques i perf !!! Perf de l’archi systolique Début de conception Fin de réalisation Δ T trop grand! années Dépassé par la technologie standard avant de naître! Il existe des solutions pour « accélérer » le processus Æ 10 5 architectures spécialisées vs génériques Les solutions possibles (1) Architectures parallèles à base de composants génériques du marché : • démarche apparue clairement depuis 1993 • profite des évolutions des technologies séquentielles/standards • investissements limités à l’interconnexion des processeurs et au logiciel • temps de développement réduit des nouvelles architectures • ex : 9 machines MIMD à base de CPU du marché, 9 machines hétérogènes à base de CPU + GPU du marché; 11 architectures spécialisées vs génériques Les solutions possibles (2) Développement rapide d’architectures spécialisées : • se limiter à développer des cartes-filles pour machines standards • automatiser la conception de l’architecture data-flow/ systolique/SIMD à partir de la description de l’algorithme! Æ développement de compilateurs de silicium spécifiques • utiliser des composants d’architecture programmable. Æ ex: FPGA Solutions prometteuses mais plus complexes à mettre en œuvre 12 6 Notions d’architectures parallèles et distribuées 3 - Architectures Vectorielles 1. 2. 3. 4. Ancienne gamme CRAY Nouvelle architectures vectorielles Apparition et impact du « Earth Simulator » Architectures vectorielles actuelles 13 architectures vectorielles Anciennes gamme Cray Cray-1, 1976 133Mflops Cray-T90, 60 gigaflops Cray-2, 1985 1.9 gigaflops Cray-J90 Cray-YMP, 1988 Cray-C90, 1991 16 gigaflops 14 7 architectures vectorielles Anciennes gamme Cray • Le Cray-T90 : fin d’une gamme tout en technologie ECL …. : Référence exacte T94 Nombre de processeurs 4 Mode de refroidissement Air ou liquide T916 16 Liquide T932 32 Liquide Configuration maximale : T932 • 32 processeurs, • 60 gigaflops crête, • Machine : 5.2m3, • Refroidisseur : 2.4m3 • 1 M$ / processeur (+/- 20%) 15 architectures vectorielles Nouvelles architectures vectorielles NEC (SX) Cray-T90, 60 gigaflops Cray-SV1 1 teraflop Vector MPP Cray-SX-6 Cray-X1 – 52.4 Tflops Cray-SV2 16 8 architectures vectorielles Nouvelles architectures vectorielles • Technologie CMOS - 1998, Cray-SGI • Mémoire DRAM et mémoire cache avant les pipelines vectoriels CMOS-vectoriel Cache DRAM • Cluster de machines Vectorielles-SMP : 32 nœuds max Un nœud : une machine vectorielle de 32 processeurs max Sh. RAM Sh. RAM …………. Sh. RAM 1 2 …..32 1 2 …..32 1 2 …..32 Cluster communication network • Perf : 1024 procs max - 1 teraflops crête perf/prix(SV1) = 8 x perf/prix(T90) Mais : cluster vectoriel à mémoire non uniforme … 17 architectures vectorielles Apparition et impact du Earth Simulator Gros cluster vectoriel NEC : • 640-nœuds de 8 processeurs : 5120 processeurs • 40 Tflops crête, a atteint les 35 Tflops en juin 2002 Le vectoriel revient à la 1ère place du Top500 (en 2002) ! “ Vector MPP” 18 9 architectures vectorielles Apparition et impact du Earth Simulator Forte inquiétude des USA ! 19 architectures vectorielles Réponse de Cray/USA au Earth Simulator Gros cluster de machines vectorielles : • Armoires – Noeuds – Processeurs 1 – 64 16 – 1024 64 – 4096 “Scalable Vector MPP” • 819GFlops – 52.4TFlops • Clock Speed : 800MHz (seulement!) • R DRAM – Cache Coherence : DSM Forte innovation sur la RAM : - Rapide (Bw proc-Ram) - DSM sur processeurs vectoriels - Accès rapide depuis tous les procs Nouveaux processeurs très performants Objectifs : • Nouvelle lignée de Cray vectoriels • Péta-Flop en 2010 20 10 architectures vectorielles Réponse de Cray/USA au Earth Simulator 21 architectures vectorielles ? Architectures CRAY actuelles Vector MPP Cray-X1 – 52.4 Tflops Cray-XT3 Cray-XT4 Cray-XT5 cluster de CPU multicoeurs, li Linux i Cray-XT6 ou XT6h (?) Opteron 6-cores Tore 2D Réseau Cray Cray-XT5h (hybrid) cluster de noeuds CPU/Vectoriels/FPGA, Unicos (Cray Unix) 22 11 architectures vectorielles ? Architectures CRAY actuelles Un tore 3D de nœuds spécialisés. • Chaque q nœud ppossède sa mémoire locale et ses composants de communication. Cray XT5h • On peut installer des cartes superscalaires ou vectorielles ou FPGA (ou un mélange). Tore 3D de nœuds spécialisés 23 Notions d’architectures parallèles et distribuées 4 - Architectures SIMD 1. Principes des architectures SIMD 2 Les Connection machines 2. 3. Problème des architectures SIMD 24 12 architectures SIMD Principes des architectures SIMD Principes : • Un décodeur d’instruction • Des milliers de processeurs sans décodeurs d’instructions : sorte d ’UAL avec une mémoire locale • Un solide réseau d’interconnexion • Un processeur fait la même chose que les autres ou rien. Décodeur d’instruction d’i t ti Frontal données Réseau de PEs Très efficace pour certains pbs à grain fin (traitements d’images) 25 architectures SIMD Les « Connection Machines » CM-22 General Specifications CM Processors 65536 (64K) Memory 512 MB Memory Bw 300Gbits/Sec I/O Channels 8 Capacity per Channel 40 MB/Sec Max. Transfer Rate 320 MB/Sec DataVault Specifications Storage Capacity 5 or 10 GB I/O Interfaces 2 Transfer Rate, Burst 40 MB/Sec Max. Aggregate Rate 320 MB/Sec Thinking Machines Corporation W. Daniel Hillis Connection-Machine 2 - 1987 26 13 architectures SIMD Problème des architectures SIMD 1980-90 • Demande des processeurs spécifiques : PAS ceux du marché → dépassés par ll’évolution évolution constante des processeurs du marché et par les machines parallèles MIMD qui les utilisent Perf MIMD 1990-1993 Le marché du calcul SIMD SIMD n’est pas suffisant pour financer la course avec le MIMD à base de proc. std. • C’est vers 1993 que se confirme ce phénomène • Vers 2000 : quelques « cartes filles SIMD » pour des marchés spécifiques. 27 architectures SIMD Renouveau des architectures SIMD 2006+ • L’industrie du jeu vidéo a généré un marché de processeurs SIMD 9 « GPU » : dans les PCs 9 « IBM Cell » : dans les PS3 • Appelés « accélérateurs matériels ». • Réalisation d’architectures « hétérogènes » : CPUs + accélérateurs. • Utilisation en « coprocesseurs scientifiques » pour certains calculs. Æ Architectures efficaces, mais programmation multi-paradigmes (plus complexes). 28 14 architectures SIMD Renouveau des architectures SIMD 2006+ Architecture GPU nVIDIA [ - 2009] : • Un ensemble de ppetites machines SIMD (les multiprocesseurs). • Des mémoires spécialisés et une mémoire globale non cachée. • Des communications couteuses entre CPU et GPU. • Programmation par threads légers • Exécution d’une grille de blocs de threads légers !! CPU • Gains en vitesse et en énergie très variables (selon l’appli). • Souvent très intéressant! & CPURAM GPU Multiprocesseur n Multiprocesseur p 1 Multiprocesseur 1 Multiprocesseur 1 Shared Memory Shared Memory Shared Memory Registers Registers Shared Memory Registers Registers Registers Registers Registers Registers Thread (0, 0) Thread (1, 0) Thread (0, 0) Thread (1, 0) Thread (0, 0) Thread (1, 0) Thread (0, 0) Thread (1, 0) Local Local Memory Memory Local Local Local Local Memory Memory Local Local Memory Memory Memory Memory Global Memory Constant Memory Texture Memory 29 architectures SIMD Renouveau des architectures SIMD 2006+ Architecture du processeur IBM Cell (processeur MID/SIMD !) : • 8 unités SIMD (mais pas seulement SIMD…) • 1 CPU de petite puissance • Une interconnexion en 4 anneaux • Très peu de mémoire sur chaque unité de calcul. • Souvent utilisé associé à une CPU plus puissante. Fin du Cell en 2009 ? 30 15 architectures SIMD ? Renouveau des architectures SIMD 2006+ Première machine Pétaflopique : IBM Cell + AMD Opteron Le 25 Mai 2008, IBM passe le Pétaflop sur une machine à base de processeurs AMD Opterons et d’accélérateurs IBM Cell (le « Roadrunner »). Interconnexion à deux niveaux: • Switchs par blocs de 144 Opterons. • Réseau Infiniband entre les switchs. 31 Notions d’architectures parallèles et distribuées 5 - Architectures MIMD 1. Types d’architectures MIMD 2 Quelques grandes étapes 2. 16 architectures MIMD Types d’architectures MIMD Shared-memory MIMD machines (SMP) : Un principe, U i i mais i : - plusieurs techniques de réalisation, - plusieurs coûts, - plusieurs efficacités. Overview of Recent Supercomputers Aad J. van der Steen Jack J. Dongarra33 architectures MIMD Types d’architectures MIMD Distributed-memory MIMD machines : Mem Mem Mem proc proc proc network Principe des clusters, mais le coût et la perf. sont dans le réseau d’interconnexion! Hypercubes Fat trees Autres 34 17 architectures MIMD Types d’architectures MIMD Hybrid MIMD architectures : • S-COMA ((th.)) ou ccNUMA (réalisée) • Espace d’@ • unique (super!) • ou segmenté. • Réalisation : • Hardware (bien) • Soft … lent! Overview of Recent Supercomputers Aad J. van der Steen Jack J. Dongarra « Distributed Shared Memory » ou « Virtual Shared Memory » 35 Notions d’architectures parallèles et distribuées 5 - Architectures MIMD 1. Types d’architectures MIMD 2 Quelques grandes étapes 2. 18 architectures MIMD – grandes étapes 1980-85 : Cosmic-Cube Première machine parallèle MIMD à mémoire distribuée Réseau hypercubique Cadre du projet : • Origine : Collaboration informaticiens-physiciens • But final : Une application de calcul intensif TRES régulière • Conçue et réalisée à CALTECH (1980 -1985), avec l’aide d’INTEL Hardware : • Processeurs : 64 x (8086 + 8087) → 3 Mflops crête ! • Mémoire de 128 Ko/Proc, Liens à 2 Mbits/s • Réseau de communication Hypercubique (26 nœuds – dimension 6) Dim 1 Dim 2 Dim 3 Dim 4 ………… 37 architectures MIMD – grandes étapes 1980-85 : Cosmic-Cube Interface frontale 8 blocs de 8 carte mères (64 processeurs) Ventilateurs 38 19 architectures MIMD – grandes étapes 1980-85 : Cosmic-Cube Routage des données : • Software • Store & forward statique (et étude d’un d un wormhole dynamique) Programmation : • Multiprocessus possible sur chaque PE • Envois de messages • Send et Recv non bloquant (!) L’envoi de msgs apparaît plus difficile que le partage de mémoire Performances sur calculs localisés et réguliers : • Efficacité moyenne : 85% • Meilleure efficacité : 97% Mise en évidence de l’influence des temps de communications 39 architectures MIMD – grandes étapes 1980-85 : Cosmic-Cube Bilan du projet Comic-Cube : • Première machine MIMD à mémoire distribuée • Premiers algorithmes de parallélisation en hyper hyper-cube cube • Succès pour les calculs localisés et réguliers ! • Mise en évidence de la difficulté de l’envoi de messages • Mise en évidence du besoin de routages rapides Suites commerciales : Intel-iPSC : ⎧ 80286 32–128 x⎪⎨⎪ ⎩80287 10 Mbit/s par lien 512 Ko/proc IIntel-iPSC/860 t l iPSC/860 : 8–128 x i860 45 Mbit/s par lien 128 proc → 2.6 Gflops obtenus 5.1 Gflops crêtes 40 20 architectures MIMD – grandes étapes 1987-91 : CM5 Tentative de passage du SIMD au MIMD : Milliers de processeur RISC & Vectoriels, Réseau en Fat-Tree Thinking-Machine : 1984-87 : CM1 & CM2 : SIMD ↓ 1987-91 : CM5 : MIMD & vectoriel ⎧ RISC : sparc • PE ≤16384⎪⎪⎨ ⎪ i é − vectoriell i lles ⎩⎪unités • Mémoire distribuée : 32Mo/PE • 3 réseaux arborescents 1 téraflop crête en 1991 ! MIMD & vectoriel en 1991 ! 41 architectures MIMD – grandes étapes 1987-91 : CM5 • Réseau de données : • Destiné aux communications point à point • Fat Fat-Tree Tree : les branches les plus hautes ont plus de capacités de com, → évite les engorgements des arbres classiques • 20 Mo/s crête par lien : →communication très locales : 15 Mo/s / PE →permutation aléatoire : 4 Mo/s / PE !! • Réseau de contrôle : • Destiné aux synchronisations • Broadcast possible depuis 1 PE à la fois • Arbre binaire • Réseau de diagnostic : • Destiné à la détection et à l’isolement des pannes • Arbre binaire 42 21 architectures MIMD – grandes étapes 1987-91 : CM5 - Fat Tree Fat-Tree (MIT 1983-85) : • Crossbar : capacité de com maximale, maximale mais trop difficile à réaliser • Hyper-Cube : compromis, mais capacité de com. sous-exploité (!) • Binary Fat-Tree : autre compromis, moins de capacité - plus simple à réaliser • Rmq : Protocole de communication de la CM5 : • Pour un nœud : ∑ entrées > ∑ sorties ⇒ pertes de messages ! • Pertes de messages & ack. • Ré-émission au cycle suivant si perte 43 architectures MIMD – grandes étapes 1987-91 : CM5 - Fat Tree Binary Fat-Tree d’ordre 4 de la CM5 : 44 22 architectures MIMD – grandes étapes 1987-91 : CM5 Programmation de la CM5 : • Langages de programmation Data-Parallel, • et envois de messages → Mélange original …. ! Le user’s guide était celui d’une machine SIMD : • Rassurant pour un habitué du SIMD ou du vectoriel • Censé supporter efficacement une programmation SIMD … Etrange ! 45 architectures MIMD – grandes étapes 1987-91 : CM5 Bilan : Machine très innovante mais performances décevantes ! • Capacités de communications insuffisantes ? Æ le Binary Fat-Tree réalisé semblait peu efficace • Modèle de programmation inadapté à l’architecture ? Æ ressemblait en partie à celui d’une machine SIMD • Modèle de programmation complet trop complexe ? Æ pas d’expérience en SIMD + envois de messages Fin de la société Thinking Machine !!!. 46 23 architectures MIMD – grandes étapes 1993-2000 : Cray-T3D & T3E En 1993 : le Cray-T3D est la première machine MIMD à mémoire distribuée avec un réseau d’interconnexion réellement performant Cray-T3D : • Processeurs : 1 à 1024 Alpha • Réseau de comm. : tore 3D 600Mo/s lien crête 100-480Mo/s réel • Mémoire : distribuée et partageable mais NUMA : <n° proc,ptr loc> 47 Cray-T3D architectures MIMD – grandes étapes 1993-2000 : Cray-T3D & T3E Le T3D précipitamment en 1993 … pour occuper le marché! • Il faut un Cray YMP en frontal d’un T3D !!! • Le cache L2 des processeurs Alpha a du être invalidé !!! → Cray propose des formations pour apprendre à bien utiliser le petit cache L1 !!! • Les compilateurs et optimiseurs de code sont buggés ! Mais : gros succès immédiat ! • Très bonnes performances • Temps de communication négligeables • Programmable par envoi de messages ou par partage de mémoire (au choix) 1er réseau de communication a hauteur de la puissance des processeurs! 48 24 architectures MIMD – grandes étapes 1997-2002 : SGI-Origin2000 Première architecture DSM commercialisée : Offre une mémoire partagée et plusieurs centaines de processeurs SGI-Origin2000 : • Processeurs : 4 à 512 Mips-R12000 (RISC) • Réseau hyper-cubique y : distribuée et p partagée g • Mémoire hybride • Implantation Hardware « CC-NUMA » • Espace d’@ unique • Architecture plus extensible que les SMP (limitées en 1996 à 20 procs.) 49 architectures MIMD – grandes étapes 1997-2002 : SGI-Origin2000 Et ça marche ! • Plus efficace qu’une SMP • Plus l extensible ibl qu’une SMP NAS Parallel Benchmark Kernel FT 32 SMP - SGI-PowerChallenge DSM - SGI-Origin2000 S(P) = P 28 Accéléra ation 24 20 16 12 8 4 0 0 4 8 12 16 20 Nom bre de processeurs 24 28 32 50 25 architectures MIMD – grandes étapes 1997-2002 : SGI-Origin2000 Programmation : • Envoi de messages : PVM, MPI • Accès mémoire distant : Shmem (SGI avait racheté CRAY) • Partage de mémoire entre processus ou threads • Partage de mémoire par OpenMP (threads implicites) Æle ccNUMA 100% hardware était vraiment efficace Bubble-sort parallèle 60 Temps d'exécution Le partage de mémoire était plus rapide que l’envoi de messages ! Bubble-sort - MPI 50 Bubble-sort Threads 40 30 20 10 0 0 8 16 24 32 40 48 Nombre de processeurs 56 64 51 architectures MIMD – grandes étapes 1997-2002 : SGI-Origin2000 Bilan : • Machine performante et facile à programmer • Architecture A hi quii s’est ’ avérée é é extensible ibl 600 Nombre maxim mum de processeur Evolution exponentielle de la taille maximale des SGI-Origin2000 de 1997 à 2001 : Evolution de la taille des SGIOrigin2000 500 400 300 200 100 0 1996 1997 1998 1999 2000 2001 52 26 architectures MIMD – grandes étapes … 1994 … 1998- : Les clusters (de PCs) 1994 : 1er cluster de PCs, appelé “Beowulf” • En 1994, T. Sterling et D. Becker (CESDIS) assemblent un “cluster” cluster avec leurs machines : - 16 mono-processeurs DX4 (intel-486) - réseau Ethernet (10Mb/s) - configuration Linux + envoi de messages (PVM/MPI) • C’est un succès : très bonnes p performances et pas cher ! • Les “clusters” vont commencer à se répandre … Un cluster “Beowulf” est constitué de machines standards et d’un réseau standard, simplement configurés pour fonctionner ensembles 53 architectures MIMD – grandes étapes … 1994 … 1998- : Les clusters Les clusters « percent » définitivement autour de l’an 2000 : 54 27 architectures MIMD – grandes étapes … 1994 … 1998- : Les clusters 1998/99 : cluster expérimental de 225 PC à Grenoble Rank 385 in Top500 • Configuration d’intranet standard dans une entreprise. • Développement Dé l t de d couches h systèmes tè de d reboot b t complet l t ett rapide, id • Recherche algorithmique 55 architectures MIMD – grandes étapes Coût réel des clusters … ? CRAY critique les clusters, et défend les super-calculateurs 56 28 architectures MIMD – grandes étapes … 1994 … 1998- : Les clusters Bilan des Clusters (ou « grappes ») : • Très répandus, et les plus grosses machines sont des clusters. • Les grands constructeurs proposent tous des clusters (ex: IBM) IBM). • Configurations types : - Clusters de PCs en Gigabit-Ethernet (« Beowulf ») - Clusters de Pentium à réseaux rapides (Myrinet, InfiniBand) - Clusters d’Itaniums à réseau Quadrics (machine du CEA) - Clusters de super-calculateurs (machine à Livermore) • LA question récurrente : « que faire à prix constant ? » - plus de nœuds ? Pas de réponse - plus de processeurs par nœuds ? standard ! - meilleur réseau d’interconnexion ? • LA question tabou : « coût total d’un cluster de PC ? » 57 architectures MIMD – grandes étapes 2002 - Clusters de nœuds vectoriels Le Earth-Simulator est-il une machine MIMD ou vectorielle ? • 640-nœuds de 8 processeurs (5120 processeurs) • Chaque nœud est scalaire ET vectoriel “Vector MPP” 58 29 architectures MIMD – grandes étapes 1998 – 2002 - …: Les Grilles Les grilles sont l’étape suivante des clusters : Parallel computer → Distributed computer → Cluster → Grid • A ce jour elles manquent d’OS (ou de « Grid middleware ») • Il ne s’agit pas seulement de paralléliser des applications … … mais de « partager des ressources distantes ». User should access his standard PC or a world Grid without any difficulty local PC Grid 59 architectures MIMD – grandes étapes 1998 – 2002 - …: Les Grilles Grille vs cluster : • Un cluster se construit autour d’un LAN • Une Grille traverse des WAN Principaux types de Grilles : • Grilles de supercalculateurs sur réseau WAN dédié • Grilles de clusters de PC sur plusieurs sites • Grilles de PC desktops sur Internet (proche du P2P) • Grilles de données (Grille de disques et de serveurs de fichiers) Voir chapitres sur les Grilles 60 30 architectures MIMD – grandes étapes 2004 – 2005- : IBM Blue Gene • Un grand nombre de processeurs (jusqu’à 212992 en 2007) • Des processeurs avec un très bon ratio perf/consommation ( (IBM PowerPC C 440 FPU with i h complex l arithmetic i h i Extensions) i ) • De très bons réseaux d’interconnexion avec diverses topologies • Une architecture globale très fiable 61 architectures MIMD – grandes étapes 2004 – 2005- : IBM Blue Gene Un investissement rentable : • Machine chère à l’achat ! • Mais « faible » coût ensuite! Æ Le « total price » du Gigaflop est faible Plusieurs réseaux d’interconnexion : • pour les données routées en pt-à-pt Æ tore 3D Æ arbre • pour les comm « collectives » (ex : broadcast) • pour les barrières • pour le monitoring / le contrôle des nœuds • pour les IO et accès vers Ethernet • Implantation spécifique et optimisée de l’environnement de programmation MPI 62 31 architectures MIMD – grandes étapes 2004 – 2005- : IBM Blue Gene Une machine conçue pour être compacte, légère, peu consommatrice d’NRJ (et P i Puissante) t ): • optimisation de l’espace interne et des flux d’air de refroidissement! • s’installe facilement (sur tout site) : • pas de renforcement du plancher • ppas de ligne g électrique q tropp exceptionnelle à installer • en 2007 : • en tête du Top500 • en tête du Top Green500 63 architectures MIMD – grandes étapes 2007 : Cray XT5h (hybrid) Un tore 3D de nœuds spécialisés. • Chaque q nœud possède p sa mémoire locale et ses composants de communication. Cray XT5h • On peut installer des cartes superscalaires ou vectorielles ou FPGA (ou un mélange). Tore 3D de nœuds spécialisés 64 32 architectures MIMD – grandes étapes 2008 : IBM Roadrunner Première machine à passer le Pétaflop (le 25 Mai 2008), grâce à une architecture hétérogènes (hybride) : Construit autour de processeurs AMD Opteron, d’accélérateurs IBM Cell, et de switchs interconnectés par un réseau Infiniband. 65 architectures MIMD – grandes étapes 2008 : IBM Roadrunner 66 33 architectures MIMD – grandes étapes 2008+ : cluster de GPUs Simples clusters de PCs équipés de GPUs • Bon marché • Grosse puissance crête • Consommation énergétique moyenne Mais programmation multi-paradigmes complexe! • Gros grain + grain fin • Compilateurs encore faible pour la détection d’erreurs • Point faible : les communications entre CPU et GPU Æ Une algorithmique pour cluster de GPUs apparaît Æ Sur des calculs indépendant le Speedup peut atteindre Nμ100 67 architectures MIMD – grandes étapes 2009-2010: des optimisations énergétiques Des processeurs moins gourmands en énergie : • on essaie de limiter la consommation de chaque processeur • les l processeurs passe en mode d économique é i sii ils il sont inutilisés i ili é •… Une densité de processeurs en hausse : • Une tendance à la limitation de la taille totale des machines (en m² au sol) Refroidissement des machines par air : • tous les constructeurs cherchent à optimiser les flux d’air (ex : SGI/Rackable), pas seulement IBM avec ses Blue Gene 68 34 architectures MIMD – grandes étapes 2009-2010: des optimisations énergétiques Refroidissement des machines par liquide : • de plus en plus de machines refroidies par liquide (nécessaire et plus efficace), • une technologie de plus en plus maîtrisée et bon marché (!) • ex : future machine IBM (1Tflops / carte) 69 architectures MIMD – grandes étapes 2009-2010: des optimisations énergétiques Refroidissement des machines par liquide : • ex : Cray XT6 (encore) plus dense que le XT5, refroidissement plus soigné. 70 35 architectures MIMD – grandes étapes Novembre 2009 : 1.7Pflops pour 6.9MW ! En novembre 2009 : #1 top500 : 1Pflops/2.3MW Æ 1.7Pflops/6.9MW !!! pg d’un Crayy XT5 : En fait c’est un upgrade #2 avec des Opteron 4-core 2.3GHz (150152 cores) et 6.95MW Æ #1 avec des Opteron 6-core 2.6 GHz (224162 cores) et 6.95MW Les autres machines du Top10 sont plutôt entre 1 et 2.3 MW (environ) Aujourd’hui on évite souvent les Opterons (trop gourmands en NRJ)… architectures MIMD – grandes étapes 2009-2010: des nœuds de calculs FPGA Technologie FPGA dans les nœuds de calculs génériques : • Moins de FPGA dans les majors (Cray, SGI, …) Pl de Plus d FPGA dans d de d nombreuses b petites tit sociétés iété ! • Consortium OpenFPGA.org • Programmation possible en « C/C++ étendu » (ex : Impulse-C) • 2 stratégies : • Carte fille FPGA connectée sur le bus PCI-express (comme les GPUs) : simple & standard standard, mais temps de transfert. transfert • Mini carte FPGA connecté sur un socket d’une carte mère multi-socket : plus rapide, mais pas standard. Quel avenir ? …. À surveiller. 36 Notions d’architectures parallèles et distribuées 6 - Sources d’information permanente 1. Top500.org p g 2. Green500.org 3. Spec.org 73 sources d’informations permanentes Le Top 500 des supercalculateurs http://www.top500.org (http://www.top500.org/) • List of the 500 most powerful computer systems installed. • The best Linpack benchmark performance achieved is used as a performance measure in ranking the computers. • The TOP500 list is updated twice a year since June 1993. Novembre 2009 : Ra nk Site Manuf acturer Computer Count ry Cores RMax RPeak Power (KW) Jaguar - Cray XT5-HE XT5 HE Opteron Six Core 2.6 GHz / 2009 USA 224162 1759 00 1759.00 2331 00 2331.00 6951 Roadrunner - DC Opteron+Cell+Infiniband USA 129600 1042.00 1375.78 2483 1 Oak Ridge National Laboratory C Cray IInc. 2 DOE/NNSA/LANL IBM 3 University of Tennessee USA 98928 831.70 1028.85 4 Forschungszentrum Juelich (FZJ) IBM JUGENE - Blue Gene/P Solution Germ any 294912 825.50 1002.70 2268 5 National SuperComputer Center in Tianjin/NUDT Intel+A MD Tianhe-1 - NUDT TH-1 Cluster, Xeon E5540/E5450, ATI Radeon HD 4870 2, Infiniband China 71680 563.10 1206.19 74 Cray Inc. Kraken XT5 - Cray XT5-HE Opteron Six Core 2.6 GHz 37 sources d’informations permanentes Top 500 des supercalculateurs Juin 2004 : Rank Site Country/Year Computer / Processors - Manufacturer Rmax Rpeak 1 Earth Simulator Center Japan/2002 Earth-Simulator / 5120 - NEC 35860 40960 2 Lawrence Livermore National Laboratory United States/2004 Thunder Intel Itanium2 Tiger4 1.4GHz - Quadrics / 4096 - California Digital Corporation 19940 22938 3 Los Alamos National Laboratory United States/2002 ASCI Q - AlphaServer SC45, 1.25 GHz / 8192 - HP 13880 20480 4 IBM - Rochester United States/2004 BlueGene/L DD1 Prototype (0.5GHz PowerPC 440 w/Custom) / 8192 - IBM/ LLNL 11680 16384 5 NCSA United States/2003 Tungsten PowerEdge 1750, P4 Xeon 3.06 GHz, Myrinet / 2500 - Dell 9819 15300 Juin 2005 : Rank Site - Country/Year Computer / Processors - Manufacturer Rmax Rpeak 1 DOE/NNSA/LLNL United States/2005 BlueGene/L eServer Blue Gene Solution / 65536 - IBM 136800 183500 2 IBM Thomas J. Watson Research Center - United States/2005 BGW eServer Blue Gene Solution / 40960 - IBM 91290 114688 3 NASA/Ames Research Center/ NAS - United States/2004 Columbia SGI Altix 1.5 GHz, Voltaire Infiniband / 10160 - SGI 51870 60960 4 The Earth Simulator Center – Japan/2002 Earth-Simulator / 5120 - NEC 35860 40960 5 Barcelona Supercomputer Center – Spain/2005 MareNostrum JS20 Cluster, PPC 970, 2.2 GHz, Myrinet / 4800 - IBM 27910 75 42144 sources d’informations permanentes Juin 2005 : Top 500 des supercalculateurs Rank Site - Country/Year Computer / Processors - Manufacturer Rmax Rpeak 1 DOE/NNSA/LLNL United States/2005 BlueGene/L eServer Blue Gene Solution / 65536 - IBM 136800 183500 2 IBM Thomas J. Watson Research Center - United States/2005 BGW eServer Blue Gene Solution / 40960 - IBM 91290 114688 3 NASA/Ames Research Center/ NAS - United States/2004 Columbia SGI Altix 1.5 GHz, Voltaire Infiniband / 10160 - SGI 51870 60960 4 The Earth Simulator Center – Japan/2002 Earth-Simulator / 5120 - NEC 35860 40960 5 Barcelona Supercomputer Center – Spain/2005 MareNostrum JS20 Cluster, PPC 970, 2.2 GHz, Myrinet / 4800 - IBM 27910 42144 Juin 2006 : Rank Site - Country/Year Computer / Processors - Manufacturer Rmax Rpeak 1 DOE/NNSA/LLNL United States/2005 BlueGene/L eServer Blue Gene Solution / 131072 - IBM 280600 367000 2 NNSA/Sandia National Laboratories United States Red Storm - Sandia/ Cray Red Storm, Opteron 2.4 GHz dual core / 26544 - CRAY 101400 127411 3 IBM Thomas J. Watson Research Center - United States/2005 BGW eServer Blue Gene Solution / 40960 - IBM 91290 114688 4 DOE/NNSA/LLNL United States United States ASC Purple - eServer pSeries p5 575 1.9 GHz / 12208 - IBM 75760 92781 5 Barcelona Supercomputer Center – Spain/2005 MareNostrum JS20 Cluster, PPC 970, 2.2 GHz, Myrinet / 4800 - IBM 27910 76 42144 38 sources d’informations permanentes Juin 2006 : Top 500 des supercalculateurs Rank Site - Country/Year Computer / Processors - Manufacturer Rmax Rpeak 1 DOE/NNSA/LLNL United States/2005 BlueGene/L eServer Blue Gene Solution / 131072 - IBM 280600 367000 2 NNSA/Sandia National Laboratories U i d States United S Red Storm - Sandia/ C Cray R Red dS Storm, Opteron O 22.4 4 GH GHz dduall core / 26544 - CRAY 101400 127411 3 IBM Thomas J. Watson Research Center - United States/2005 BGW eServer Blue Gene Solution / 40960 - IBM 91290 114688 4 DOE/NNSA/LLNL United States United States ASC Purple - eServer pSeries p5 575 1.9 GHz / 12208 - IBM 75760 92781 5 Barcelona Supercomputer Center – Spain/2005 MareNostrum JS20 Cluster, PPC 970, 2.2 GHz, Myrinet / 4800 - IBM 27910 42144 Novembre 2007 : Ra nk k Site Man ufac f turer Computer Country Procs RMax RPeak 1 DOE/NNSA/LLNL IBM eServer Blue Gene/L Solution USA 212992 478200 2 Forschungszentrum Juelich (FZJ) IBM Blue Gene/P Solution Germany 65536 167300 222822 3 SGI/New Mexico Computing Applications Center (NMCAC) SGI SGI Altix ICE 8200, Xeon quad core 3.0 GHz USA 14336 126900 172032 4 Computational Research Laboratories, TATA SONS HP Cluster Platform 3000 BL460c, Xeon 53xx 3GHz, Infiniband India 14240 117900 170880 5 Government Agency HP Cluster Platform 3000 BL460c, Xeon 53xx 2.66GHz, Infiniband Sweden 13728 102800 146430 77 596378 sources d’informations permanentes Top 500 des supercalculateurs Novembre 2007 : Ra nk Site Man ufac turer Computer Country 1 DOE/NNSA/LLNL IBM eServer Blue Gene/L Solution USA 212992 478200 2 Forschungszentrum Juelich (FZJ) IBM Blue Gene/P Solution Germany 65536 167300 222822 3 SGI/New Mexico Computing Applications Center (NMCAC) SGI SGI Altix ICE 8200, Xeon quad core 3.0 GHz USA 14336 126900 172032 4 Computational Research Laboratories, TATA SONS HP Cluster Platform 3000 BL460c, Xeon 53xx 3GHz, Infiniband India 14240 117900 170880 5 Government Agency HP Cluster Platform 3000 BL460c, Xeon 53xx 2.66GHz, Infiniband Sweden 13728 102800 146430 Novembre 2008 : Ra nk Site Man ufact urer Computer Procs RMax Count ry Cores RMax RPeak RPeak 596378 Power (KW) 1 DOE/NNSA/LANL IBM Roadrunner - DC Opteron+Cell+Infiniband USA 129600 1105000 1456700 2483 2 Oak Ridge National Laboratory Cray Cray XT5 QC 2.3 GHz USA 150152 1059000 1381400 6951 3 NASA/Ames Research Center/NAS SGI SGI Altix ICE 8200EX, Xeon QC 3.0/2.66 GHz USA 51200 487005 608829 2090 4 DOE/NNSA/LLNL IBM eServer Blue Gene/L Solution USA 212992 478200 596378 2330 5 Argonne National Laboratory IBM Blue Gene/P Solution USA 163840 450300 557056 1260 78 39 sources d’informations permanentes Top 500 des supercalculateurs Novembre 2008 : Ra nk Site Manufa cturer Computer Count ry Cores RMax RPeak Power (KW) 1 DOE/NNSA/LANL IBM Roadrunner - DC Opteron+Cell+Infiniband USA 129600 1105000 1456700 2483 2 Oak Ridge National Laboratory Cray Cray XT5 QC 2.3 GHz USA 150152 1059000 1381400 6951 3 NASA/Ames Research Center/NAS SGI SGI Altix ICE 8200EX, Xeon QC 3.0/2.66 GHz USA 51200 487005 608829 2090 4 DOE/NNSA/LLNL IBM eServer Blue Gene/L Solution USA 212992 478200 596378 2330 5 Argonne National Laboratory IBM Blue Gene/P Solution USA 163840 450300 557056 1260 Count ry Cores RMax RPeak Jaguar - Cray XT5-HE XT5 HE Opteron Six Core 2.6 GHz / 2009 USA 224162 1759 00 1759.00 2331 00 2331.00 6951 Roadrunner - DC Opteron+Cell+Infiniband USA 129600 1042.00 1375.78 2483 USA 98928 831.70 1028.85 Novembre 2009 : Ra nk Site Manuf acturer Computer 1 Oak Ridge National Laboratory C Cray IInc. 2 DOE/NNSA/LANL IBM 3 University of Tennessee 4 Forschungszentrum Juelich (FZJ) IBM JUGENE - Blue Gene/P Solution Germ any 294912 825.50 1002.70 5 National SuperComputer Center in Tianjin/NUDT Intel+A MD Tianhe-1 - NUDT TH-1 Cluster, Xeon E5540/E5450, ATI Radeon HD 4870 2, Infiniband China 71680 563.10 1206.19 Cray Inc. Kraken XT5 - Cray XT5-HE Opteron Six Core 2.6 GHz Power (KW) 2268 sources d’informations permanentes Top 500 « vert » des supercalculateurs 80 40 sources d’informations permanentes Top 500 « vert » des supercalculateurs Le classement est très différent de celui du Top500 ! Janvier 2008 81 sources d’informations permanentes Top 500 « vert » des supercalculateurs Novembre 2008 Les architectures hétérogènes à base d’IBM Cell passent en tête. 82 41 sources d’informations permanentes Top 500 « vert » des supercalculateurs Novembre 2009 Les « Cell » en tête, et les Mflops/Watt progressent 83 sources d’informations permanentes Le site officiel des mesures de perf http://www.spec.org/ Différents type de tests sont effectués : (http://www.spec.org/ ) SPEC CPU2006 [benchmark info] [published results] [support] [order benchmark] Designed to provide performance measurements that can be used to compare compute-intensive workloads on different computer p systems, y , SPEC CPU2006 contains two benchmark suites: CINT2006 for measuring and comparing compute-intensive integer performance, and CFP2006 for measuring and comparing compute-intensive floating point performance. SPEC CPUv6 [info] The CPU Search Program seeks to to encourage those outside of SPEC to assist us in locating applications that could be used in the next CPU-intensive benchmark suite, currently designated as SPEC CPUv6. 42 sources d’informations permanentes Le site officiel des mesures de perf Des tests par produit/carte mère, pas juste par type de processeur : Des résultats très détaillés : Avec des conditions de tests très documentés (ex : les options de l’Os et du compilateur) 85 Notions d’architectures parallèles et distribuées 7 – Bilan statistique du Top-500 • Répartitions des types d’architectures • Répartitions des technologies et familles d processeurs de • Répartition des constructeurs 86 43 Bilan statistique du top-500 Evolution des technos. de procs. en 2002 Trop cher → disparu ! Market processors ! 87 Bilan statistique du top-500 Architecture des processeurs en 2009 88 44 Bilan statistique du top-500 Réseaux d’interconnexion en 2009 Gigabit-Eth vs Infiniband, et un peu de propriétaire Myrinet en difficulté, Quadrics a fait faillite 89 Bilan statistique du top-500 Taille des machines en 2009 La taille dominante double tous les deux ans! En 2009, la plupart des machines ont de 4096 à 8192 processeurs 90 45 Bilan statistique du top-500 Fabricants en 2009 IBM, HP et CRAY ! + des assembleurs de clusters CRAY fait des systèmes très puissants 91 Bilan statistique du top-500 Installation en 2009 92 46 Bilan statistique du top-500 Segments de marché en 2009 De + en + de supercalculateurs dans l’industrie Des systèmes plus puissants dans la recherche 93 architectures parallèles Top 500 des supercalculateurs A note on the Zipf distribution of Top500 supercomputers Tue, 2007-01-02 11:42 Matei Ripeanu has an interesting brief article [PDF] in IEEE Distributed Systems Online in which he analyzes the shape of the Top500 list of supercomputers. Trends inferred from the fastest supercomputers lists for the last 13 years indicate that aggregating the computational power of relatively small machines is becoming increasingly rewarding It is thus no coincidence that Grid computing, rewarding. computing which provides the infrastructure to build these controlled, secure resource aggregations, continues to attract increasing interest. http://www.ece.ubc.ca/~matei/PAPERS/zipf-argument.pdf Grids (et clouds) vs SuperCalculateurs : les 2 ont leurs places 94 47 Notions d’architectures parallèles et distribuées FIN 48