version PDF
Transcription
version PDF
SOS12 et le calcul haute performance Francis.Lapique@epfl.ch, Domaine IT Les workshops SOS rassemblent chaque année, sur invitation, une petite communauté d’intérêts autour du calcul haute performance. Ses membres viennent principalement des centres américains de Sandia National Lab, de Oak Ridge National Lab et de l’EPFL. Le premier workshop SOS1 a eu lieu en 1997 à Santa Fe (NM, USA), le dernier SOS12, organisé par l’EPFL, s’est déroulé à Wildhaus dans le canton de St Gall. Son nom SOS pour Sandia, Oak Ridge, Switzerland rappelle l’origine de ce groupe. Le prochain SOS13 aura lieu au milieu du Pacifique (une tradition ?). Le thème de cette année, proposé par Ralf Gruber (EPFL), était «From petascale 1 to exascale: Issues and Hopes» avec une série de questions ouvertes comme: z Quels sont les domaines scientifiques qui seront les premiers à profiter des machines peta/exascale ? z Qu’est-ce qui doit être fait pour atteindre de meilleurs efficacité, disponibilité et taux de transfert sur de telles architectures parallèles ? w amélioration du matériel, développement logiciel, meilleurs compilateurs, bibliothèques mieux optimisées ? w ou bien l’expert de l’application doit-il faire le maximum d’efforts pour que son application tourne bien sur des milliers d’unités multi-core ? z Quelles sont les applications qui sont aujourd’hui prêtes pour ces architectures ? z Le GRID est-il une alternative valable aux machines peta/ exaflops ? z Quelles sont les réponses des vendeurs, des grands centres de recherche, des universités et des industriels ? Pour résumer, l’entrée dans l’ère du Petascale se situet-elle dans une continuité ou comme une rupture sur le plan technologique et applicatif ? En toile de fond, le Green computing avec l’arrivée d’un nouvel indicateur, le nombre de flops par Watt, qui va prendre dans le débat une place de plus en plus importante et le fait qu’une formation plus complète en calcul intensif est indispensable pour préparer les utilisateurs à la programmation des futures machines. Face à ces interrogations, un ensemble d’approches très diversifiées nous a été présenté par des intervenants venus d’Europe, des USA et du Japon, et lors d’une série de panels de discussions, par exemple celui What new science due to peta/exaflops conduit par I. Sbalzerini (ETHZ); chacun a pu ainsi exprimer son sentiment sur cette épineuse question. Il est assez difficile de se faire une opinion tant les positions sont tranchées; pour simplifier, d’un côté, les partisans qui prônent un gros effort sur les méthodes (algorithme, formation) et ceux qui défendent une action (un gros effort pour passer à des pas de temps ou d’espace plus petits, traiter plus de particules). Les changements qui nous attendent risquent d’être profonds, les habitudes devront évoluer, voire complètement changer. 1 Je ne mentionnerai ici que quelques interventions qui m’ont marqué. Tous les transparents disponibles sont sur le site du workshop au format pdf (http://sos12.epfl.ch/ agenda.html). Professeur Petros Koumoutsakos (Chair of Computational Science ETHZ) Première intervention, le point de vue d’un utilisateur HPC, celle du Professeur Petros Koumoutsakos. Sa présentation s’articule autour de trois points: les enjeux, des observations et une liste de vœux: Les enjeux z z z Ils sont évidemment scientifiques et économiques: Le calcul numérique (modélisation, simulation, optimisation) est fondamental pour les progrès de la science et des techniques au 21ème siècle. Le calcul numérique est essentiel dans le cadre des études dans les domaines liés à l’énergie, la bioingénierie, la nanotechnologie, les matériaux. Le numérique permet des simulations validées, efficaces et vérifiables des problèmes du monde réel complexe. Des observations De bons algorithmes peuvent remplacer des milliers de processeurs. z Aujourd’hui, certains codes, mal adaptés, consomment inutilement des ressources hardware z Comment améliorer ? nécessité de formation et de support. Il met en exergue quelques points forts, comme celui d’améliorer la performance d’un code de plusieurs ordres de grandeur en travaillant sur de nouvelles approches algorithmiques ou celui d’offrir des interfaces et une formation aux utilisateurs qui soient à la hauteur des enjeux cités plus haut. z Sa liste de vœux Elle traduit les préoccupations de quelqu’un qui explore des voies pour réduire le fossé entre simulation et réalité: Matériel z z z z Grand nombre de processeurs multi-core; Des accès mémoire plus rapides; Meilleure tolérance aux pannes; Outils d’optimisation – support - portabilité. Modèles z z Problèmes plus complexes, interdisciplinarité; Processeurs: quantification des incertitudes et reverseengineering. giga = 109; tera = 1012; peta = 1015, exa = 1018 FI 4 – 22 avril 2008 – page 3 SOS12 et le calcul haute performance Données: un pont entre le numérique et le monde réel z z un accès rapide aux données un traitement de données sur place. Al Geist (Oak Ridge National Laboratory) Al Geist, nous promet une machine Petaflop pour la fin 2008 sur la base de la figure 1. TOP 500 Performance Projection For first Petaflop and sustained Pflop systems (Sustained petaflops on full applications requires 10-20 PF peak) Curves predict petaflop late 2008 And by 2012 a 10 Pflops system (Courtesy of Jack Dongarra) fig. 1 Un point à noter, en faisant l’acquisition d’une machine dans le top du classement, vous avez peu de temps pour valoriser votre investissement puisqu’après cinq ans vous allez la retrouver dans le bas du classement. La figure 2 met en évidence le retard de l’Europe et du Japon par rapport aux États-Unis. Fraction of the flops in Top 500 by country China Taiwan Spain Sweden 2.7% India 2.8% France 3.2% Others an Jap % 4.2 7.4% ingdom K d e it Un Germany 7.7% United States 60% fig. 2 Mais les choses sont en train de bouger; côté européen: plus de 60 représentants de 14 pays européens se sont réunis récemment en Allemagne pour le lancement du projet PRACE (Partnership for Advanced Computing in Europe). Il vise à mettre en place une infrastructure européenne de calcul intensif, qui permettra aux chercheurs d’avoir accès à une puissance de calcul supérieure à celle que leur seul FI 4 – 22 avril 2008 – page 4 pays pourrait leur fournir et voire supérieure à celle dont disposent les USA ou le Japon. L’objectif est d’installer d’ici fin 2009 un système capable d’atteindre un petaflops; côté Japon voir plus loin; côté américain (Oak Ridge), le petaflops est prévu pour la fin 2008 avec une machine dont voici les caractéristiques: DOE Cray Baker 1 Petaflops system 13,944 dual-socket, 8-core SMP nodes with 16 GB 27,888 quad-core processors Barcelona 2.3 GHz (37 Gflops) z 223 TB memory (2GB/core) z 200+ GB/s disk bandwidth z 10 PB storage z 6.5 MW system power z 150 cabinets, 3,400 ft2 z Liquid cooled cabinets z Compute Node Linux operating system Noter la consommation électrique et le retour d’un système de refroidissement à liquide. Comme le note Al Geist, We shouldn’t forget that big machines are about advancing scientific discovery, en citant quelques grands Challenges qui sont des constantes pour l’ensemble des grands centres de recherche: z Fin d’une longue controverse sur la modélisation physique des cuprates supraconducteurs à haute température; z Nouvelles découvertes dans la structure des protéines pour une meilleure compréhension de la conversion cellulose-ethanol; z Addition de modèles liés à la végétation en climatologie (CO2); z Premières simulations 3D de plasmas qui donnent un nouvel éclairage sur le comportement du gaz ionique à très haute température de ITER 14 (UT-Battelle); z Instabilité fondamentale des chocs de supernovas découverte directement à partir de simulations; z Premières simulations 3D de combustions qui tiennent compte de la composition chimique, de la température et des flux. z z z Adolfy Hoisie (Computer, Computational and Statistical Sciences Division-Los Alamos National Laboratory) Adolfy Hoisie travaille dans un groupe d’analyse de performance de systèmes existants ou futurs et nous a présenté, dans ce contexte, une série de résultats concernant la performance d’un certain nombre de codes (GTC, Milagro, Partisn, S3D, SAGE, SPaSM, Sweep3D, VH1, VPIC) sur des architectures multi-core. Sa présentation débute par un rappel de l’état de l’art (fig. 3) concernant la bande passante de ces architectures et des stratégies AMD-Intel pour répondre à cette problématique. Je renvoie le lecteur au site du workshop pour des résultats complets. Cette présentation se termine par une série de Q&As: SOS12 et le calcul haute performance bridge the gap between silicon and optics. Some technologies were proposed (lasers etc). Memory bandwidth 24 AMD Barcelona (4-sockets) Intel Tigerton (4-sockets) AMD Barcelona (1-socket) Intel Tigerton (1-socket) 22 20 18 Les Robertson (IT Department – CERN) Aggregate Memory Bandwidth (GB/s) 16 14 12 10 8 6 4 2 0 1 2 3 Cores Per Socket 4 Aggregate memory bandwidth 5 AMD Barcelona (4-sockets) Intel Tigerton (4-sockets) AMD Barcelona (1-socket) Intel Tigerton (1-socket) Memory Bandwidth per core (GB/s) 4 3 2 1 0 1 2 3 Cores Per Socket 4 Memory bandwidth per core fig. 3 z Moore’s Law: today 30Tflops, ~12K procs. If we want to have the same # of procs, then we need 7.5 years to get to an improvement by a factor of 1,000 z Pres. Kennedy in the early 60s: «By the end of the decade we will put a man on the moon». Moore’s «Law»: «by the end of the decade we will have a Petaflop machine on the floor (at Los Alamos)» z The problem is the memory wall. Memory bandwidth can be solved (possibly): The problem is memory latency, for random memory access. Since improvements in latency require pipelining, departure from the current microprocessor design is needed. z OSes are now bitten solidly by the compound effect of the «weakest link in the chain effect». It turns out that the compound effect of the smallest possible OS interruptions (kernel and daemons) is huge at the current scale, let alone at bigger scales. System software in general will undergo a revolution. z Latency being the bottleneck there is little hope for geographically distributed high-performance machines. z Already in top of the line networks the effect of the speed of light is felt, some 60-80% of the latency is speed of light. Optics would alleviate provided that technologies existed to Les Robertson fait le point sur la grille que la communauté de 1800 physiciens provenant de 150 universités-laboratoires et 34 pays a mise en place pour exploiter les données des expériences du LHC. Le problème est sérieux puisqu’il faut compter sur ~15 Petabytes ou 100,000 DVD par année pour les 4 expériences. Comme l’indique Les Robertson, les caractéristiques de cette grille résultent du domaine très particulier de cette physique des hautes énergies: z des événements indépendants -> un parallélisme facile z les codes ont des besoins modestes en mémoire(~2GB) des besoins modestes en calcul flottant -> tournent bien sur des PC. mais: z des quantités énormes de données -> chaque année des Petabytes de données à partager entre de grosses collaborations, de nombreux groupes différents, avec des approches d’analyse indépendantes; z des schémas imprévisibles d’accès aux données. Une organisation 3-tiers a été choisie: un pour l’acquisition des données sur place, un autre pour la distribution/ répartition de ces données, et un troisième pour l’analyse physique. Sur place donc un traitement online (trigger, data acquisition…) des grands détecteurs, puis une diffusion pour des traitements off line plus lourds sur le plan-calcul (reconstruction de traces, Monte-Carlo…) et enfin la recherche d’un événement (signature du boson de Higgs) par les groupes de recherche. La figure 4 montre la part de chacun de ces tiers. Distribution of Resources across Tiers *1Ê,iµÕÀi`ÊÓää® ÃÊ,iµÕÀi`ÊÓää® 14% 18% 44% , /iÀ£ 38% 31% /iÀÓ 55% UÊÓääÊÊqÊÌ iÊfiÀÃÌÊvÕÊyi>ÀÊofÊ`>Ì>ÊÌ>} UÊÓä%Ê>ÌÊ , ÊqÊq –>ÊÌ iÊ`ÃÌÀiLÕÌi`ÊsyÃÌiÊÕÃÌÊwÀÊfrÊD>yÊ1 fig. 4 Quelques chiffres-clés de la grille: 50% des cycles de calcul sont répartis sur 14 sites et 90% sur 44 sites. Les Robertson résume son propos par Some of the challenges of using grids z Heterogeneity - Where are the standards ? z Small sites - keeping focus on operational issues - in between other responsibilities FI 4 – 22 avril 2008 – page 5 SOS12 et le calcul haute performance z Large sites - keeping focus on my VO - when local users are demanding attention z The world is round - it’s always prime shift somewhere - but 24 hour call-out is expensive z One aim was the democratisation of resource control - it worked - but democracies do not always behave the way you would like z Multi-science grid projects (EGEE, OSG) have attracted very useful funding, which in turn has catalysed widely distributed collaboration, and provides essential international grid operations -- but they also increase the heterogeneity and diversity which are enemies of reliability. Mitsuhisa Sato (Director, Center for computational Sciences, University of Tsukuba, Researcher, Next-Generation Supercomputer R&D Center, RIKEN) Mitsuhisa Sato nous a présenté le Kei(10 ) Soku(speed) Keisan-ki(computer) project. À l’origine du projet, une prise de conscience du gouvernement de sa perte de compétitivité dans le domaine HPC (fig. 5). 16 – Oxygen and catalytic response) et un autre en sciences de la vie ( Multi-level unified simulation, drug design). Pour répondre à ces Grands Challenges, le futur supercalculateur aura les caractéristiques suivantes: z un super-ordinateur hybride general-purpose qui fournit un environnement de calcul optimal pour une large palette de simulations; z les calculs doivent être réalisés sur des unités adaptées à chaque cas particulier de simulation; z des calculs parallèles dans une configuration hybride d’unités scalaires et vectorielles doivent rendre possibles des simulations plus importantes et plus complexes. La figure 6 schématise une vision stratégique du calcul haute performance au Japon sur les 20 prochaines années. Japan Moving to Petaflops TiTech Tsubame 85TF T2K effort (Three systems to be installed summer 2008) UUniversity of Tokyo 140 TF Hitachi UUniversity Tsukuba 95 TF Cray UKyoto University 61 TF Fujitsu MEXT Next Generation Supercomputer U10 PF system in 2011 Hear more tomorrow morning Trends: # of Japanese Supercomputers within top100 (TOP500 list) 50 NEC Fujitsu Hitachi total 40 Ministry of Education, Culture, Sports, Science and Technology # systems 30 fig. 6 20 Thomas Sangild Sørensen (Associate Professor, Department of Computer Science University of Aarhus, Denmark) 10 0 1992 1994 1996 1998 2000 2002 year 2004 2006 The number of Japanese supercomputers in Top100 was dramatically decreasing since 1997's peak! The same trends in each Japanese Vender and in vectors, scalar SMP. Because … Killer Micro Clusters We worry about our weaken competitive positions in world HPC markets. fig. 5 La décision fut prise de conduire le projet Keisoku Keisan-ki (Key Technologies of National Importance) sur la période 2006-2012 pour un budget ~ $ 1 milliard. Deux Grands Challenges sont particulièrement ciblés, un dans le domaine de la Nanotechnologie (Material design FI 4 – 22 avril 2008 – page 6 Motivation We will soon have teraflops GPUs fig. 7 SOS12 et le calcul haute performance Pour les développeurs HPC travaillant avec des GPU (Graphics processing unit, figure 7), une présentation très intéressante de Thomas Sangild Sørensen: Towards PETA/ EXAFLOP Computing on Graphic Cards. Un premier constat il faut compter à l’avenir avec les GPU (fig. 8): Single precision: >1 teraflops is already available in th epictured multi-GPU solutions ~1 teraflops expected in a next-generation single GPU Double precision: z Unfortunately not yet supported! z Announced by Nvidia for next generation for some time z Can we hope for teraflops in the next-generation ? Transistors for data processing rather than cache/flow control Bill Feiereisen (Los Alamos) Le titre de la présentation de Bill Feiereisen est Metagenomics and High Performance Computing (voir également sur YouTube, l’intervention Larry Smarr, Los Alamos National Lab - http://www.youtube.com/watch ?v=KyWIAfFsRNg). La métagénomique observe l’ADN de communautés entières de microbes pour mieux comprendre le monde microbien. «Microbes run the world. It’s that simple» (American National Academies 2007). Observation Lining Up to Avoid Bias. Antonis Rokas, Science 319 416 (2008) Opportunities abound in HPC bioinformatics Illustrated minimally by two metagenomics inspired examples Challenges in eliciting underlying models of behavior From vast amounts new sequence data to models Replacing heuristics with model understanding What could be more exciting than a new field for traditional high performance modeling and simulation? GPU A collection of multiprocessors Single Instruction – Multiple Data (SIMD) architecture, i.e. limited flow control requirements Memory latency hidden by computation, i.e. limited cache requirements fig. 10 CUDA Programming Guide fig. 8 Un deuxième constat pour accompagner le développeur, Nvidia propose Nvidia CUDA 1.0, qui associe un compilateur C et un kit de développement logiciel (SDK) (fig. 9) About CUDA I.e. “Compute Unified Device Architecture”. Dedicated compiler and programming language for general purpose computation on commodity graphics hardware Available for free download from the Nvidia website (d (drivers, SSDK, programming gui ddes etc. )) Available on Nvidia Geforce 8, Quadro FX 4600/5600, and Tesla series of GPUs Available for Windows XP 32/64 bit and Linux 32/64 bit and Mac. Ships with dedicated libraries for the FFT and BLAS fig. 9 Contrairement à un CPU, un GPU dédie une part importante de ses transistors aux unités de calcul et très peu à la logique de contrôle. Autre différence significative, un GPU dispose d’une bande passante mémoire de +/- 100 Go/s contre +/- 10 Go/s pour un CPU. Pour aller plus loin voir les références en fin d’article. Los Alamos développe un modèle des océans qui réévalue sa composante bio-physique. La démarche est la suivante: z Why: One-half (!) of the CO2 in the atmosphere is processed through microbes in the ocean z But: Local biological models are poorly understood z And: Spatial variation is very important However we know z Most oceanic microbes are unknown z We believe that the genome is the foundation of future models z However the genome of which organisms ?! - do we really know ? Presumption: z DNA holds information that identifies the organism z Comparison of DNA among organisms can determine their evolutionary relation and metabolic function. Et le calcul haute performance dans tout ça ? Cette comparaison peut se faire de proche en proche comme pour une phylogénie, ce qui consiste à calculer un critère de similitude et à rassembler les profils les plus similaires ou faire appel à des techniques plus complexes comme l’analyse en composante principale ou les réseaux neuronaux. Mais: z The volume of available DNA sequence data has exploded with new lab machinery w Example Solexa: One run (2 days) now produces 12 TB of sequence data z The challenge for traditional HPC ? w Big Data oriented w Not floating point w Algorithms are not “solution of Partial Differential Equations”. Un dernier transparent (fig. 10) pour nous renvoyer à la discussion de la veille What new science due to peta/exaflops. FI 4 – 22 avril 2008 – page 7 SOS12 et le calcul haute performance Bill Camp (CTO and Chief Architect for HPC, Intel) Session Crystal ball The Path to Exa-scale: An Architectural perspective par Bill Camp passe en revue les chemins qui pourraient nous conduire vers l’ Exaflop in 2016. Ce qui relève de la Roadmap et de la recherche est montré sur la figure 11. Silicon Technology Leadership Intel Execution: On-Time 2 Year Cycle 90nm 2003 20 65nm 2005 45nm 2007 05 – 2 01 2 32nm 2009 22nm 2011 25 nm 15nm New Intel technology generation every 2 years Intel R&D technologies drive this pace well into the next decade Roadmap fig.11 Question: What kind of cores and how many cores ? Dans la limite de Core size (at constant 200 - 300 Watts/ die), trois réponses: z Many (~1000) small cores: w Think of using low power (Say mobility) IA Processors and putting many of them on a die. w In-order, SSE-n 2, 4 or perhaps 8 ops per clock 2-4 GHz clock w 4--8 threads per core z A lot of big cores (~250): w Think of mainstream Xeon cores with out-of-order and 8-16 ops/clock 4-6 threads per core z A bunch of really big cores (34-128): w Mobility core + very wide (16 – 64 ops) Vector units w 4-8 threads per core Pour le problème de mémoire: We cannot match memory bandwidth to off-package memories with increase in processing speed. We are hitting a wall in terms of number of pins, signalling area, and signalling power. This may be temporarily alleviated with package to package flex connectors. In the long term optical memory (Si photonics CPU <-> memory) may remove the problem. In the meanwhile stacked DRAM on package is the only solution. Son dernier transparent: How will you program it ? Pour conclure, un exercice traditionnel, la session Crystal ball, menée cette année par Marie-Christine Sawley (ETHZ), qui nous dit: À la fin de ce workshop, relevons cinq points essentiels pour une vison à 5 ans: z Les coûts d’infrastructure technique en croissance constante ne risquent-ils pas de menacer les centres de taille intermédiaire pour ne laisser que de très gros centres servant quelques problèmes très pointus et une cyber-infrastructure pour le reste de la communauté ? zL e s b e s o i n s d ’ a n a l y s e r scientifiquement l’avalanche de données, expérimentales ou 20 de simulation, ne va-t-elle pas 13 – 2 16nm prendre le dessus à terme pour les 01 2013 critères de sélection des systèmes 7 11nm HPC ? 2015 z Les très grands systèmes ne 8nm 2017 vont-ils pas se concentrer sur 1 ou 2 challenges scientifiques et le cloud computing prendre le relais des systèmes au service de Research plusieurs communautés ? z Quels efforts devons-nous faire pour affiner le message sur la valeur de la chaîne HPC et justifier ses coûts ? z Comment renforcer le cercle vertueux entre les scientifiques qui repoussent les frontières de la découverte en utilisant le HPC, et les constructeurs ? Je profite de cet article pour annoncer qu’un symposium HPC-methods aura lieu les 16 et 17 juin prochains à l’EPFL pour marquer l’apport de Ralf Gruber au calcul numérique. Un site Web, hpcm.epfl.ch, va être mis en place pour l’occasion. Références CUDA: z le guide de programmation CUDA (http://developer. download.nvidia.com/compute/cuda/1_0/NVIDIA_ CUDA_Programming_Guide_1.0.pdf) z le site http://www.nvidia.com/object/cuda_home.html et les simulations présentées au workshop: http://www. daimi.au.dk/~sangild/movies.html n SOS 12 Workshop Wildhaus, Switzerland FI 4 – 22 avril 2008 – page 8 SOS12