version PDF

Transcription

version PDF
SOS12 et
le calcul haute performance
Francis.Lapique@epfl.ch, Domaine IT
Les
workshops SOS rassemblent chaque année, sur
invitation, une petite communauté d’intérêts
autour du calcul haute performance. Ses membres viennent
principalement des centres américains de Sandia National
Lab, de Oak Ridge National Lab et de l’EPFL. Le premier
workshop SOS1 a eu lieu en 1997 à Santa Fe (NM, USA),
le dernier SOS12, organisé par l’EPFL, s’est déroulé à Wildhaus dans le canton de St Gall. Son nom SOS pour Sandia,
Oak Ridge, Switzerland rappelle l’origine de ce groupe.
Le prochain SOS13 aura lieu au milieu du Pacifique (une
tradition ?).
Le thème de cette année, proposé par Ralf Gruber
(EPFL), était «From petascale 1 to exascale: Issues and Hopes»
avec une série de questions ouvertes comme:
z Quels sont les domaines scientifiques qui seront les premiers
à profiter des machines peta/exascale ?
z Qu’est-ce qui doit être fait pour atteindre de meilleurs
efficacité, disponibilité et taux de transfert sur de telles
architectures parallèles ?
w amélioration du matériel, développement logiciel,
meilleurs compilateurs, bibliothèques mieux optimisées ?
w ou bien l’expert de l’application doit-il faire le maximum
d’efforts pour que son application tourne bien sur des milliers
d’unités multi-core ?
z Quelles sont les applications qui sont aujourd’hui prêtes pour
ces architectures ?
z Le GRID est-il une alternative valable aux machines peta/
exaflops ?
z Quelles sont les réponses des vendeurs, des grands centres de
recherche, des universités et des industriels ?
Pour résumer, l’entrée dans l’ère du Petascale se situet-elle dans une continuité ou comme une rupture sur le
plan technologique et applicatif ? En toile de fond, le Green
computing avec l’arrivée d’un nouvel indicateur, le nombre
de flops par Watt, qui va prendre dans le débat une place
de plus en plus importante et le fait qu’une formation plus
complète en calcul intensif est indispensable pour préparer
les utilisateurs à la programmation des futures machines.
Face à ces interrogations, un ensemble d’approches très
diversifiées nous a été présenté par des intervenants venus
d’Europe, des USA et du Japon, et lors d’une série de panels
de discussions, par exemple celui What new science due to
peta/exaflops conduit par I. Sbalzerini (ETHZ); chacun a pu
ainsi exprimer son sentiment sur cette épineuse question. Il
est assez difficile de se faire une opinion tant les positions sont
tranchées; pour simplifier, d’un côté, les partisans qui prônent
un gros effort sur les méthodes (algorithme, formation) et ceux
qui défendent une action (un gros effort pour passer à des pas
de temps ou d’espace plus petits, traiter plus de particules). Les
changements qui nous attendent risquent d’être profonds, les
habitudes devront évoluer, voire complètement changer.
1
Je ne mentionnerai ici que quelques interventions qui
m’ont marqué. Tous les transparents disponibles sont sur
le site du workshop au format pdf (http://sos12.epfl.ch/
agenda.html).
Professeur Petros Koumoutsakos
(Chair of Computational Science ETHZ)
Première intervention, le point de vue d’un utilisateur
HPC, celle du Professeur Petros Koumoutsakos. Sa présentation s’articule autour de trois points: les enjeux, des
observations et une liste de vœux:
Les enjeux
z
z
z
Ils sont évidemment scientifiques et économiques:
Le calcul numérique (modélisation, simulation, optimisation) est fondamental pour les progrès de la science et des
techniques au 21ème siècle.
Le calcul numérique est essentiel dans le cadre des études
dans les domaines liés à l’énergie, la bioingénierie, la nanotechnologie, les matériaux.
Le numérique permet des simulations validées, efficaces et
vérifiables des problèmes du monde réel complexe.
Des observations
De bons algorithmes peuvent remplacer des milliers de
processeurs.
z Aujourd’hui, certains codes, mal adaptés, consomment
inutilement des ressources hardware
z Comment améliorer ? nécessité de formation et de support.
Il met en exergue quelques points forts, comme celui
d’améliorer la performance d’un code de plusieurs ordres
de grandeur en travaillant sur de nouvelles approches algorithmiques ou celui d’offrir des interfaces et une formation
aux utilisateurs qui soient à la hauteur des enjeux cités plus
haut.
z
Sa liste de vœux
Elle traduit les préoccupations de quelqu’un qui explore
des voies pour réduire le fossé entre simulation et réalité:
Matériel
z
z
z
z
Grand nombre de processeurs multi-core;
Des accès mémoire plus rapides;
Meilleure tolérance aux pannes;
Outils d’optimisation – support - portabilité.
Modèles
z
z
Problèmes plus complexes, interdisciplinarité;
Processeurs: quantification des incertitudes et reverseengineering.
giga = 109; tera = 1012; peta = 1015, exa = 1018
FI 4 – 22 avril 2008 – page 3
SOS12 et le calcul haute performance
Données: un pont entre le numérique et le
monde réel
z
z
un accès rapide aux données
un traitement de données sur place.
Al Geist
(Oak Ridge National Laboratory)
Al Geist, nous promet une machine Petaflop pour la fin
2008 sur la base de la figure 1.
TOP 500 Performance Projection
For first Petaflop and sustained Pflop systems
(Sustained petaflops on full applications requires 10-20 PF peak)
Curves predict petaflop late 2008
And by 2012 a 10 Pflops system
(Courtesy of Jack Dongarra)
fig. 1
Un point à noter, en faisant l’acquisition d’une machine
dans le top du classement, vous avez peu de temps pour valoriser votre investissement puisqu’après cinq ans vous allez
la retrouver dans le bas du classement.
La figure 2 met en évidence le retard de l’Europe et du
Japon par rapport aux États-Unis.
Fraction of the flops in Top 500 by country
China
Taiwan
Spain
Sweden 2.7%
India 2.8%
France 3.2%
Others
an
Jap
%
4.2
7.4%
ingdom
K
d
e
it
Un
Germany 7.7%
United States
60%
fig. 2
Mais les choses sont en train de bouger; côté européen:
plus de 60 représentants de 14 pays européens se sont réunis récemment en Allemagne pour le lancement du projet
PRACE (Partnership for Advanced Computing in Europe).
Il vise à mettre en place une infrastructure européenne de
calcul intensif, qui permettra aux chercheurs d’avoir accès
à une puissance de calcul supérieure à celle que leur seul
FI 4 – 22 avril 2008 – page 4
pays pourrait leur fournir et voire supérieure à celle dont
disposent les USA ou le Japon. L’objectif est d’installer d’ici
fin 2009 un système capable d’atteindre un petaflops; côté
Japon voir plus loin; côté américain (Oak Ridge), le petaflops
est prévu pour la fin 2008 avec une machine dont voici les
caractéristiques:
DOE Cray Baker
1 Petaflops system
13,944 dual-socket, 8-core SMP nodes with 16 GB
27,888 quad-core processors Barcelona 2.3 GHz (37
Gflops)
z 223 TB memory (2GB/core)
z 200+ GB/s disk bandwidth
z 10 PB storage
z 6.5 MW system power
z 150 cabinets, 3,400 ft2
z Liquid cooled cabinets
z Compute Node Linux operating system
Noter la consommation électrique et le retour d’un système
de refroidissement à liquide.
Comme le note Al Geist, We shouldn’t forget that big
machines are about advancing scientific discovery, en citant
quelques grands Challenges qui sont des constantes pour
l’ensemble des grands centres de recherche:
z Fin d’une longue controverse sur la modélisation physique
des cuprates supraconducteurs à haute température;
z Nouvelles découvertes dans la structure des protéines
pour une meilleure compréhension de la conversion
cellulose-ethanol;
z Addition de modèles liés à la végétation en climatologie
(CO2);
z Premières simulations 3D de plasmas qui donnent un
nouvel éclairage sur le comportement du gaz ionique à
très haute température de ITER 14 (UT-Battelle);
z Instabilité fondamentale des chocs de supernovas découverte directement à partir de simulations;
z Premières simulations 3D de combustions qui tiennent
compte de la composition chimique, de la température
et des flux.
z
z
z
Adolfy Hoisie
(Computer, Computational and
Statistical Sciences Division-Los
Alamos National Laboratory)
Adolfy Hoisie travaille dans un groupe d’analyse de
performance de systèmes existants ou futurs et nous a présenté, dans ce contexte, une série de résultats concernant la
performance d’un certain nombre de codes (GTC, Milagro,
Partisn, S3D, SAGE, SPaSM, Sweep3D, VH1, VPIC) sur
des architectures multi-core.
Sa présentation débute par un rappel de l’état de l’art
(fig. 3) concernant la bande passante de ces architectures
et des stratégies AMD-Intel pour répondre à cette problématique.
Je renvoie le lecteur au site du workshop pour des résultats complets. Cette présentation se termine par une série
de Q&As:
SOS12 et le calcul haute performance
bridge the gap between silicon and optics. Some technologies
were proposed (lasers etc).
Memory bandwidth
24
AMD Barcelona (4-sockets)
Intel Tigerton (4-sockets)
AMD Barcelona (1-socket)
Intel Tigerton (1-socket)
22
20
18
Les Robertson
(IT Department – CERN)
Aggregate Memory Bandwidth (GB/s)
16
14
12
10
8
6
4
2
0
1
2
3
Cores Per Socket
4
Aggregate memory bandwidth
5
AMD Barcelona (4-sockets)
Intel Tigerton (4-sockets)
AMD Barcelona (1-socket)
Intel Tigerton (1-socket)
Memory Bandwidth per core (GB/s)
4
3
2
1
0
1
2
3
Cores Per Socket
4
Memory bandwidth per core
fig. 3
z Moore’s Law: today 30Tflops, ~12K procs. If we want to
have the same # of procs, then we need 7.5 years to get to
an improvement by a factor of 1,000
z Pres. Kennedy in the early 60s: «By the end of the decade we
will put a man on the moon». Moore’s «Law»: «by the end
of the decade we will have a Petaflop machine on the floor
(at Los Alamos)»
z The problem is the memory wall. Memory bandwidth can
be solved (possibly): The problem is memory latency, for random memory access. Since improvements in latency require
pipelining, departure from the current microprocessor design
is needed.
z OSes are now bitten solidly by the compound effect of the
«weakest link in the chain effect». It turns out that the
compound effect of the smallest possible OS interruptions
(kernel and daemons) is huge at the current scale, let alone
at bigger scales. System software in general will undergo a
revolution.
z Latency being the bottleneck there is little hope for geographically distributed high-performance machines.
z Already in top of the line networks the effect of the speed of
light is felt, some 60-80% of the latency is speed of light.
Optics would alleviate provided that technologies existed to
Les Robertson fait le point sur la grille que la communauté de 1800 physiciens provenant de 150 universités-laboratoires et 34 pays a mise en place pour exploiter les données
des expériences du LHC. Le problème est sérieux puisqu’il
faut compter sur ~15 Petabytes ou 100,000 DVD par année
pour les 4 expériences. Comme l’indique Les Robertson,
les caractéristiques de cette grille résultent du domaine très
particulier de cette physique des hautes énergies:
z des événements indépendants
-> un parallélisme facile
z les codes ont
des besoins modestes en mémoire(~2GB)
des besoins modestes en calcul flottant
-> tournent bien sur des PC.
mais:
z des quantités énormes de données
-> chaque année des Petabytes de données à partager
entre de grosses collaborations, de nombreux groupes
différents, avec des approches d’analyse indépendantes;
z des schémas imprévisibles d’accès aux données.
Une organisation 3-tiers a été choisie: un pour l’acquisition des données sur place, un autre pour la distribution/
répartition de ces données, et un troisième pour l’analyse
physique. Sur place donc un traitement online (trigger, data
acquisition…) des grands détecteurs, puis une diffusion
pour des traitements off line plus lourds sur le plan-calcul
(reconstruction de traces, Monte-Carlo…) et enfin la recherche d’un événement (signature du boson de Higgs) par les
groupes de recherche. La figure 4 montre la part de chacun
de ces tiers.
Distribution of Resources across Tiers
*1Ê,iµÕˆÀi`Ê­Óä䙮
ˆÃŽÊ,iµÕˆÀi`Ê­Óä䙮
14%
18%
44%
,
/ˆiÀ‡£
38%
31%
/ˆiÀ‡Ó
55%
UÊÓää™ÊÊqÊ̅iÊfiÀÃÌÊvՏÊyi>ÀÊofÊ`>Ì>ÊÌ>Žˆ˜}
UʐÓä%Ê>ÌÊ
, ÊqÊq
–>Ê̅iÊ`ˆÃÌÀiLÕÌi`ÊsyÃÌi“Ê“ÕÃÌÊwœÀŽÊfrœ“ÊD>yÊ1
fig. 4
Quelques chiffres-clés de la grille: 50% des cycles de
calcul sont répartis sur 14 sites et 90% sur 44 sites.
Les Robertson résume son propos par Some of the challenges of using grids
z Heterogeneity - Where are the standards ?
z Small sites - keeping focus on operational issues - in between
other responsibilities
FI 4 – 22 avril 2008 – page 5
SOS12 et le calcul haute performance
z Large sites - keeping focus on my VO - when local users are
demanding attention
z The world is round - it’s always prime shift somewhere - but
24 hour call-out is expensive
z One aim was the democratisation of resource control - it
worked - but democracies do not always behave the way you
would like
z Multi-science grid projects (EGEE, OSG) have attracted
very useful funding, which in turn has catalysed widely distributed collaboration, and provides essential international
grid operations -- but they also increase the heterogeneity and
diversity which are enemies of reliability.
Mitsuhisa Sato
(Director, Center for computational
Sciences, University of Tsukuba,
Researcher, Next-Generation
Supercomputer R&D Center, RIKEN)
Mitsuhisa Sato nous a présenté le Kei(10 ) Soku(speed)
Keisan-ki(computer) project. À l’origine du projet, une prise
de conscience du gouvernement de sa perte de compétitivité
dans le domaine HPC (fig. 5).
16
– Oxygen and catalytic response) et un autre en sciences de
la vie ( Multi-level unified simulation, drug design). Pour
répondre à ces Grands Challenges, le futur supercalculateur
aura les caractéristiques suivantes:
z un super-ordinateur hybride general-purpose qui fournit
un environnement de calcul optimal pour une large
palette de simulations;
z les calculs doivent être réalisés sur des unités adaptées à
chaque cas particulier de simulation;
z des calculs parallèles dans une configuration hybride
d’unités scalaires et vectorielles doivent rendre possibles
des simulations plus importantes et plus complexes.
La figure 6 schématise une vision stratégique du calcul
haute performance au Japon sur les 20 prochaines années.
Japan Moving to Petaflops
TiTech Tsubame 85TF
T2K effort (Three systems to be installed summer 2008)
UUniversity of Tokyo 140 TF Hitachi
UUniversity Tsukuba 95 TF Cray
UKyoto University 61 TF Fujitsu
MEXT Next Generation Supercomputer
U10 PF system in 2011
Hear more
tomorrow
morning
Trends: # of Japanese Supercomputers
within top100 (TOP500 list)
50
NEC
Fujitsu
Hitachi
total
40
Ministry of Education, Culture, Sports, Science and Technology
# systems
30
fig. 6
20
Thomas Sangild Sørensen
(Associate Professor, Department
of Computer Science University of
Aarhus, Denmark)
10
0
1992
1994
1996 1998
2000 2002
year
2004 2006
The number of Japanese supercomputers in Top100 was
dramatically decreasing since 1997's peak!
The same trends in each Japanese Vender and in vectors,
scalar SMP.
Because …
Killer Micro
Clusters
We worry about our weaken
competitive positions in
world HPC markets.
fig. 5
La décision fut prise de conduire le projet Keisoku Keisan-ki (Key Technologies of National Importance) sur la
période 2006-2012 pour un budget ~ $ 1 milliard.
Deux Grands Challenges sont particulièrement ciblés,
un dans le domaine de la Nanotechnologie (Material design
FI 4 – 22 avril 2008 – page 6
Motivation
We will soon have teraflops GPUs
fig. 7
SOS12 et le calcul haute performance
Pour les développeurs HPC travaillant avec des GPU
(Graphics processing unit, figure 7), une présentation très
intéressante de Thomas Sangild Sørensen: Towards PETA/
EXAFLOP Computing on Graphic Cards.
Un premier constat il faut compter à l’avenir avec les
GPU (fig. 8):
Single precision:
>1 teraflops is already available in th epictured multi-GPU
solutions
~1 teraflops expected in a next-generation single GPU
Double precision:
z Unfortunately not yet supported!
z Announced by Nvidia for next generation for some time
z Can we hope for teraflops in the next-generation ?
Transistors for data processing
rather than cache/flow control
Bill Feiereisen (Los Alamos)
Le titre de la présentation de Bill Feiereisen est Metagenomics and High Performance Computing (voir également sur
YouTube, l’intervention Larry Smarr, Los Alamos National
Lab - http://www.youtube.com/watch ?v=KyWIAfFsRNg). La
métagénomique observe l’ADN de communautés entières
de microbes pour mieux comprendre le monde microbien.
«Microbes run the world. It’s that simple» (American National Academies 2007).
Observation
Lining Up to Avoid
Bias. Antonis Rokas,
Science 319 416 (2008)
Opportunities abound in HPC
bioinformatics
Illustrated minimally by
two metagenomics
inspired examples
Challenges in eliciting
underlying models of behavior
From vast amounts new
sequence data to models
Replacing heuristics with
model understanding
What could be more
exciting than a new field for
traditional high performance
modeling and simulation?
GPU
A collection of multiprocessors
Single Instruction – Multiple
Data (SIMD) architecture,
i.e. limited flow control
requirements
Memory latency hidden by
computation, i.e. limited
cache requirements
fig. 10
CUDA Programming Guide
fig. 8
Un deuxième constat pour accompagner le développeur,
Nvidia propose Nvidia CUDA 1.0, qui associe un compilateur C et un kit de développement logiciel (SDK) (fig. 9)
About CUDA
I.e. “Compute Unified Device Architecture”.
Dedicated compiler and programming language for general
purpose computation on commodity graphics hardware
Available for free download from the Nvidia website
(d
(drivers,
SSDK, programming gui ddes etc. ))
Available on Nvidia Geforce 8, Quadro FX 4600/5600,
and Tesla series of GPUs
Available for Windows XP 32/64 bit and Linux 32/64 bit
and Mac.
Ships with dedicated libraries for the FFT and BLAS
fig. 9
Contrairement à un CPU, un GPU dédie une part
importante de ses transistors aux unités de calcul et très
peu à la logique de contrôle. Autre différence significative,
un GPU dispose d’une bande passante mémoire de +/- 100
Go/s contre +/- 10 Go/s pour un CPU.
Pour aller plus loin voir les références en fin d’article.
Los Alamos développe un modèle des océans qui réévalue
sa composante bio-physique. La démarche est la suivante:
z Why: One-half (!) of the CO2 in the atmosphere is processed
through microbes in the ocean
z But: Local biological models are poorly understood
z And: Spatial variation is very important
However we know
z Most oceanic microbes are unknown
z We believe that the genome is the foundation of future
models
z However the genome of which organisms ?! - do we really
know ?
Presumption:
z DNA holds information that identifies the organism
z Comparison of DNA among organisms can determine their
evolutionary relation and metabolic function.
Et le calcul haute performance dans tout ça ?
Cette comparaison peut se faire de proche en proche
comme pour une phylogénie, ce qui consiste à calculer
un critère de similitude et à rassembler les profils les plus
similaires ou faire appel à des techniques plus complexes
comme l’analyse en composante principale ou les réseaux
neuronaux. Mais:
z The volume of available DNA sequence data has exploded
with new lab machinery
w Example Solexa: One run (2 days) now produces 12 TB
of sequence data
z The challenge for traditional HPC ?
w Big Data oriented
w Not floating point
w Algorithms are not “solution of Partial Differential
Equations”.
Un dernier transparent (fig. 10) pour nous renvoyer à la
discussion de la veille What new science due to peta/exaflops.
FI 4 – 22 avril 2008 – page 7
SOS12 et le calcul haute performance
Bill Camp (CTO and Chief
Architect for HPC, Intel)
Session Crystal ball
The Path to Exa-scale: An Architectural perspective
par Bill Camp passe en revue les chemins qui pourraient nous
conduire vers l’ Exaflop in 2016. Ce qui relève de la Roadmap
et de la recherche est montré sur la figure 11.
Silicon Technology Leadership
Intel Execution: On-Time 2 Year Cycle
90nm
2003
20
65nm
2005
45nm
2007
05
– 2
01
2
32nm
2009
22nm
2011
25 nm
15nm
New Intel technology generation every 2 years
Intel R&D technologies drive this pace well into the next decade
Roadmap
fig.11
Question: What kind of cores and how many cores ?
Dans la limite de Core size (at constant 200 - 300 Watts/
die), trois réponses:
z Many (~1000) small cores:
w Think of using low power (Say mobility) IA Processors
and putting many of them on a die.
w In-order, SSE-n 2, 4 or perhaps 8 ops per clock 2-4 GHz
clock
w 4--8 threads per core
z A lot of big cores (~250):
w Think of mainstream Xeon cores with out-of-order and
8-16 ops/clock 4-6 threads per core
z A bunch of really big cores (34-128):
w Mobility core + very wide (16 – 64 ops) Vector units
w 4-8 threads per core
Pour le problème de mémoire:
We cannot match memory bandwidth to off-package memories with increase in processing speed. We are hitting a wall
in terms of number of pins, signalling area, and signalling
power. This may be temporarily alleviated with package to
package flex connectors. In the long term optical memory
(Si photonics CPU <-> memory) may remove the problem.
In the meanwhile stacked DRAM on package is the only
solution.
Son dernier transparent: How will you program it ?
Pour conclure, un exercice traditionnel, la session Crystal
ball, menée cette année par Marie-Christine Sawley (ETHZ),
qui nous dit: À la fin de ce workshop, relevons cinq points
essentiels pour une vison à 5 ans:
z Les coûts d’infrastructure technique en croissance
constante ne risquent-ils pas
de menacer les centres de taille
intermédiaire pour ne laisser
que de très gros centres servant
quelques problèmes très pointus
et une cyber-infrastructure pour
le reste de la communauté ?
zL e s b e s o i n s d ’ a n a l y s e r
scientifiquement l’avalanche
de données, expérimentales ou
20
de simulation, ne va-t-elle pas
13
– 2
16nm
prendre le dessus à terme pour les
01
2013
critères de sélection des systèmes
7
11nm
HPC ?
2015
z Les très grands systèmes ne
8nm
2017
vont-ils pas se concentrer sur 1
ou 2 challenges scientifiques et
le cloud computing prendre le
relais des systèmes au service de
Research
plusieurs communautés ?
z Quels efforts devons-nous faire
pour affiner le message sur la valeur de la chaîne HPC et justifier
ses coûts ?
z Comment renforcer le cercle vertueux entre les
scientifiques qui repoussent les frontières de la découverte
en utilisant le HPC, et les constructeurs ?
Je profite de cet article pour annoncer qu’un symposium HPC-methods aura lieu les 16 et 17 juin prochains
à l’EPFL pour marquer l’apport de Ralf Gruber au calcul
numérique. Un site Web, hpcm.epfl.ch, va être mis en place
pour l’occasion.
Références
CUDA:
z le guide de programmation CUDA (http://developer.
download.nvidia.com/compute/cuda/1_0/NVIDIA_
CUDA_Programming_Guide_1.0.pdf)
z le site http://www.nvidia.com/object/cuda_home.html
et les simulations présentées au workshop: http://www.
daimi.au.dk/~sangild/movies.html n
SOS 12 Workshop
Wildhaus, Switzerland
FI 4 – 22 avril 2008 – page 8
SOS12