Introduction aux grilles de ressources informatiques Introduction aux

Transcription

Introduction aux grilles de ressources informatiques Introduction aux
Introduction aux grilles
3A-IIC – Calcul parallèle et distribué,
et Grilles de calculs
• les différents objectifs / types de grilles
• un exemple d’utilisation
• quelques grandes plates-formes, projets et
produits
Introduction aux grilles de
ressources informatiques
Virginie Galtier
(avec des slides de Stéphane Vialle)
[email protected]
http://www.metz.supelec.fr/~galtier
1
Définition (et différences par rapport
à « cluster »)
2
Avantages / inconvénients
infrastructure composée d’un ensemble de
ressources (informatiques) distribuées
(géographiquement et administrativement)
et hétérogènes mise à disposition
d’utilisateurs pour différents usages
applicatifs
• meilleur marché qu’un super-calculateur
• plus flexible
• plus de tolérance aux pannes si redondance
• communications plus lentes
• moins de fiabilité
• besoin d’un middleware
3
Grid computing: Introduction
4
Grid computing: Introduction
Grille de Super-Ordinateurs
Grilles de ressources inutilisées
Optimisation de
ressources à
grande échelle
• Grids de super-calculateurs
• Grids de super-clusters de PC
Interconnexion par des
réseaux rapides
Pour exécuter un grand nombres de calculs indépendants :
• Ex: Seti@Home !!
• Typiquement des grilles de PC à travers Internet
→ “Desktop Grids”
• Grilles hautement dynamiques : les noeuds “disparaissent”
de la grille à tout moment (récupérés par leurs propriétaires)
Pour supporter des calculs plus importants (« size up »)
5
6
1
Grid computing: Introduction
Grid computing: Introduction
Grille collaborative
Grilles de données
Partage de données
à grande échelle :
Réalité virtuelle
Réalité augmentée
gros volumes et
grand nombre de
lecteurs distribués
Ex : les résultats d’expérience du CERN !
Usage conjugué de réalité virtuelle et de calcul distribué :
Problématiques :
• migration/réplications de données ?
• catalogue distribué ou centralisé de réplicas ?
• maintien de la cohérence du catalogue et des réplicas ?
• Exemple: réseau de “caves” et de supercalculateurs graphiques
• Aspects temps-réel dans les transmissions
• Grosse demande … mais très complexe !
7
Grid computing: Introduction
Grid computing: Introduction
Emergence des grilles informatiques
Hypothèses d’émergence …
Pb technologique plus complexe que les grilles de gaz/elec/eau :
- Ressources et besoins plus variées
- Quelquefois les nœuds peuvent consommer ou produire
- Problème de confidentialité des données et traitements
Technologie
mature
Intérêt
industriel
Intérêt du
marché
Réseau de
ressources
8
La “technologie de l’information” évolue très vite :
• La densité d’intégration des circuits intégrés, la puissance des
CPUs, la tailles des disques, la vitesse des réseaux …
… évoluent exponentiellement !
• Evolution plus rapide que celle du gas/électricité/eau
Support du
gouvernement
En 2002 :
Grille
Hyp 1: Les grilles informatiques apparaîtront plus
vite car leur technologie évolue plus vite
Hyp 2: Les grilles informatiques apparaîtront moins
vite car leur technologie est instable !
Aujourd’hui la technologie logicielle n’est pas complètement mature!
?
En 2008 :
9
10
Grid computing: Introduction
Emergence constatée en 2008
Economie associée
En 2008 :
Les « enterprise Grids » sont des réalités industrielles :
• marché des intergiciels de grille (Globus,
Platform Computing…)
• marché des hébergeurs de grille et services
associés (IBM, Sun…)
• marché des applications de grille
• On a plongé des technologies de « Grid » dans un réseau
d’entreprise sécurisé.
• On utilise des ressources fiables.
• Gros succès dans le milieu financier.
Les « e-science Grids » sont des réalités académiques
• On a interconnecté et globalisé/virtualisé des
super-calculateurs (ou gros clusters).
• Les applications et les données n’ont pas un très haut
niveau de confidentialité.
• Généralement on déploie un calcul sur un seul site.
• questions de facturation et taxation non
triviales
11
12
2
Grid computing: exemple d’utilisation
“Data-Mining” distribué
Introduction aux grilles
Un utilisateur veut créer une base
de données en fouillant des bases
de données “en ligne”, et en
utilisant des pgms de fouille
optimisés également “en ligne”.
• les différents objectifs / types de grilles
• un exemple d’utilisation :
data-mining distribué
• quelques grandes plates-formes, projets et
produits
Utilisateur
de la grille
• Il va découvrir, accéder et utiliser
des ressources distantes (données,
espace disque, capacités de calcul).
• Il va rejoindre le portail d’une
« organisation virtuelle » (V.O.)
et exécuter un pgm de haut-niveau.
Portail de
« V.O. »
Grille
de
ressources
13
Grid computing: exemple d’utilisation
14
Grid computing: exemple d’utilisation
“Data-Mining” distribué
“Data-Mining” distribué
1/6 – L’utilisateur contacte le portail d’une communauté de data-mining.
C’est une “registry” (annuaire) qui sait quels sites peuvent fournir
des fonctionnalités de fouille et des capacités de stockage.
2/6 – Le portail (“registry”) retourne des références sur des générateurs
(“factories”) de pgms de fouille optimisés, et sur des générateurs de
bases de données. L’utilisateur ou son programme fait un choix.
15
Grid computing: exemple d’utilisation
16
Grid computing: exemple d’utilisation
“Data-Mining” distribué
“Data-Mining” distribué
3/6 – Le programme de l’utilisateur fait des requêtes aux générateurs pour
qu’ils assemblent des services de fouille, et qu’ils créent une base de
données.
17
4/6 – Deux nouveaux services sont créés : un service de fouille et une
base de données (principe du “tout est service”!)
18
3
Grid computing: exemple d’utilisation
Grid computing: exemple d’utilisation
“Data-Mining” distribué
“Data-Mining” distribué
5/6 – Le service de fouille interroge des bases de données distantes. Il agit
comme un client qui aurait l’identité de l’utilisateur (délégation
d’autorité – ex: Globus-3/OGSA).
6/6 – Les résultats des interrogations sont retournés directement à la
nouvelle base de données. Le pgm utilisateur envoie des msgs
“keepalive” pour maintenir les services créés et les résultats.
19
20
Projets génériques internationaux
TeraGrid
Introduction aux grilles
• les différents objectifs / types de grilles
• un exemple d’utilisation
• quelques grandes plates-formes, projets et
produits
• Une infrastructure: un réseau rapide de super-calculateurs (grille de calcul intensif)
• Un ensemble de projets scientifiques expérimentaux (applicatifs + informatiques)
• Piloté par la NSF
21
22
Projets génériques internationaux
Projets génériques internationaux
TeraGrid
OSG : Open Science Grid
Open Science Grid:
• Projets de grilles thématiques
• « A national production-quality grid computing infrastructure for large
scale science »
• Projets de recherche informatique.
Ex: des expérimentations de transferts de données
• The OSG Consortium was formed in 2004 to enable diverse communities
of scientists to access a common grid infrastructure and shared resources.
Groups that choose to join the Consortium contribute effort and resources
to the common infrastructure.
What impacts transfer rates?
• Disk speed
• Connectivity of disk to node
• Node characteristics & load
• Connectivity of node to WAN
• For all networks
• Bandwidth
• Latency
• Buffer Size
• Protocol Load
• Encryption
VOs
Le transfert des données sur la Grille est toujours un pb complexe !
23
24
4
Expérience de Grille mondiale pour le CERN
Recent projects
Data & Computing Grid pour le LHC
DOEGrid
LCG :
the LHC Computing Grid
Un système hiérarchique de nœuds T-tiers
pour produire, stocker, cacher et calculer,
inspiré de l’expérience DATA-GRID LEP
Nœuds T-0 : CERN
production de données
Nœuds T-1 : Sites de stockage
dans le monde
• Une grille nationale Américaine
• Une grille pour le « Department Of Energy » : pour des expérimentations applicatives
• Une grille basée sur Globus
• Un projet pour encourager les collaborations internationales
25
Nœuds T2 : nœuds de stockage
partiel dans le monde (cache de BdD)
Nœuds T3 : nœuds de calcul
(ex : clusters)
Projets génériques internationaux
Projets génériques internationaux
Naregi
Naregi
26
Naregi testbed : projet de Grille japonaise
expérimentales
Naregi :
• Projet de Grille Japonais
• Objectifs multiples :
• Amélioration des couches réseaux
pour les Grilles
• Conception de « Grid Middleware »
• Conception d’applications
• Mise en place d’un « testbed »
• Expérimentations et mesures de
performances
27
28
Projets génériques internationaux
Projets génériques internationaux
Naregi
EGEE
Architecture de Naregi :
Modèles et
outils de
programmation
de bas niveau
Outils
d’exploit.
de haut
niveau
• 30 MEuros
• 70 participants
• 27 pays
The Enabling Grids for E-sciencE (EGEE) project is funded by the
European Commission and aims to build on recent advances in grid
technology and develop a service grid infrastructure which is available
to scientists 24 hours-a-day
« Une Grille de production/expérimentale pour la recherche scientifique
(e-science Grid) »
29
Inclus la conception d’un nouvel environnement de grille (Open-Source)
30
5
Projets génériques internationaux
Projets génériques internationaux
EGEE
EGEE
Bilan en 2008 :
Utilisateurs en 2008 :
• 259 sites connectés, provenant de 52 pays
• CPUs utilisables 24/7 : 72000
• Espace disque
: 20 PetaOctets
• VO : 150 à 200
• Users : 7500 à 14000
• Nombre de jobs : 150000/jour
• Projet « Egee actuel » :
9 Durée : 2 ans
9 Budget : 47MEuros (dont Commission Européenne : 32MEuros)
+ 50MEuros de matériel apporté par les membres.
LHC ?
Une grille de production scientifique bien utilisée!
31
32
Projets génériques internationaux
Projets génériques internationaux
DEISA
DEISA
Global Parallel File System (technologie IBM) :
• The fundamental integration concept in this
area is transparent access to remote data files
via a global distributed file system.
• Processes can be executed on any node
(they can access their data).
« Une grille de production
ou un ensemble (?) de
supercalculateurs, pour
la recherche scientifique »
S’appuie sur des technologies
propriétaires.
33
34
Projets Européens ciblés
Projets Européens ciblés
FP6 : Akogrimo
FP6 : SIMDAT
Data Grids for Process and Product Development using
Numerical Simulation and Knowledge Discovery
To integrate the widely disjoint worlds of data communication,
telecommunication and distributed service architectures.
→ ‘everywhere at any time in any context’
Classic Grid
Impact:
Example of scenario:
Akogrimo Disaster Handling and Crisis Management (DHCM):
Akogrimo DHCM involves incidents where various crises or disasters should be
handled by rescue services and other mission-critical mobile personnel, who have
to collaborate within time-critical and dangerous situations such as large sport
events, concerts or special locations such as airports or railway stations
SIMDAT aims to improve the usability of grid technology in
Engineering, Life Sciences and Earth System Modeling, and also
foster grid uptake in these domains
35
36
6
Projets Européens ciblés
Projet de recherche industriel
FP6 : DataMiningGrid
FP6 - 2006-09: BEinGRID
Developing generic and sector-independent data mining tools
and services for the Grid.
Une collection de 18
applications « pilotes »
sur la Grille :
• Domaines d’application industriels variés
• Identification des composants communs
• Création d’un « repository » d’utilitaires
Testbed:
A test bed consisting of several demonstrator applications from a
diverse set of sectors, including bioinformatics, health care, and
automotive. These prototypes will demonstrate the developed
DataMiningGrid technology in a diverse set of application domains.
37
Æ Valider l’adoption des technologies de
grilles dans l’industrie!
Rmq : déjà fait dans certains secteurs …!
38
Projet Français actuel
Projet Français actuel
Grille expérimentale Grid’5000
Grille expérimentale Grid’5000
Lile
15 clusters sur 9 sites
Réseau privé RENATER :
2,5 Gbit/s à 10 Gbit/s
Rennes
Algorithms
Nancy
Runtime
Paris
Processeurs AMD Opteron
de 2 Ghz à 2,4 Ghz
Middleware
Lyon
Grenoble
Bordeaux
Environ 5000 coeurs
fin 2008
Applications
Toulouse
Operating System
Network protocols
Sophia (Nice)
Point fort : déploiement
d’OS à la demande!
39
Chaque noeud est un cluster (256-1024 CPU)
Le réseau est « Renater » (2.4 à 10 Gb/s)
Grid’5000 explore tous
ces aspects de la Grille
Recent projects
Produits industriels
Produits Industriels Existants
Ex. de Solution Industrielles
Pour des « enterprise Grids » :
40
Oracle :
Oracle utilise Globus pour ses solutions en grille.
Grid start-ups
Avaki
Axceleon
Data Synapse
Entropia
Grid Infrastructure
GridSystems
Parabon
Platform Computing
United Devices
GigaSpace
Major Corporations
IBM
Oracle
Sun Microsystems
MicroSoft
Oracle a développé le « Oracle Globus Development Kit (OGDK) ».
Æ OGDK simplifie l’utilisation d’Oracle9i avec Globus.
SUN :
Le « SUN Grid Engine » permet de gérer une grille depuis une seule
GUI.
Il supporte les OS Sun et Microsoft.
Il gère les jobs séquentiels et parallèles, les files d’attentes, les accès
aux BdD ….
SUN met aussi en avant les « JavaSpace » : mémoire partagée
virtuelle entre JVM sur des clusters de machines.
…
41
42
7
Produits industriels
Ex. de Solution Industrielles
Platform LSF :
• gère des batchs
sur grille
• possède son
propre
scheduler,
monitor,
…
Un middleware de
Grille pour la
soumission de
Batchs ?
43
8