Introduction aux grilles de ressources informatiques Introduction aux
Transcription
Introduction aux grilles de ressources informatiques Introduction aux
Introduction aux grilles 3A-IIC – Calcul parallèle et distribué, et Grilles de calculs • les différents objectifs / types de grilles • un exemple d’utilisation • quelques grandes plates-formes, projets et produits Introduction aux grilles de ressources informatiques Virginie Galtier (avec des slides de Stéphane Vialle) [email protected] http://www.metz.supelec.fr/~galtier 1 Définition (et différences par rapport à « cluster ») 2 Avantages / inconvénients infrastructure composée d’un ensemble de ressources (informatiques) distribuées (géographiquement et administrativement) et hétérogènes mise à disposition d’utilisateurs pour différents usages applicatifs • meilleur marché qu’un super-calculateur • plus flexible • plus de tolérance aux pannes si redondance • communications plus lentes • moins de fiabilité • besoin d’un middleware 3 Grid computing: Introduction 4 Grid computing: Introduction Grille de Super-Ordinateurs Grilles de ressources inutilisées Optimisation de ressources à grande échelle • Grids de super-calculateurs • Grids de super-clusters de PC Interconnexion par des réseaux rapides Pour exécuter un grand nombres de calculs indépendants : • Ex: Seti@Home !! • Typiquement des grilles de PC à travers Internet → “Desktop Grids” • Grilles hautement dynamiques : les noeuds “disparaissent” de la grille à tout moment (récupérés par leurs propriétaires) Pour supporter des calculs plus importants (« size up ») 5 6 1 Grid computing: Introduction Grid computing: Introduction Grille collaborative Grilles de données Partage de données à grande échelle : Réalité virtuelle Réalité augmentée gros volumes et grand nombre de lecteurs distribués Ex : les résultats d’expérience du CERN ! Usage conjugué de réalité virtuelle et de calcul distribué : Problématiques : • migration/réplications de données ? • catalogue distribué ou centralisé de réplicas ? • maintien de la cohérence du catalogue et des réplicas ? • Exemple: réseau de “caves” et de supercalculateurs graphiques • Aspects temps-réel dans les transmissions • Grosse demande … mais très complexe ! 7 Grid computing: Introduction Grid computing: Introduction Emergence des grilles informatiques Hypothèses d’émergence … Pb technologique plus complexe que les grilles de gaz/elec/eau : - Ressources et besoins plus variées - Quelquefois les nœuds peuvent consommer ou produire - Problème de confidentialité des données et traitements Technologie mature Intérêt industriel Intérêt du marché Réseau de ressources 8 La “technologie de l’information” évolue très vite : • La densité d’intégration des circuits intégrés, la puissance des CPUs, la tailles des disques, la vitesse des réseaux … … évoluent exponentiellement ! • Evolution plus rapide que celle du gas/électricité/eau Support du gouvernement En 2002 : Grille Hyp 1: Les grilles informatiques apparaîtront plus vite car leur technologie évolue plus vite Hyp 2: Les grilles informatiques apparaîtront moins vite car leur technologie est instable ! Aujourd’hui la technologie logicielle n’est pas complètement mature! ? En 2008 : 9 10 Grid computing: Introduction Emergence constatée en 2008 Economie associée En 2008 : Les « enterprise Grids » sont des réalités industrielles : • marché des intergiciels de grille (Globus, Platform Computing…) • marché des hébergeurs de grille et services associés (IBM, Sun…) • marché des applications de grille • On a plongé des technologies de « Grid » dans un réseau d’entreprise sécurisé. • On utilise des ressources fiables. • Gros succès dans le milieu financier. Les « e-science Grids » sont des réalités académiques • On a interconnecté et globalisé/virtualisé des super-calculateurs (ou gros clusters). • Les applications et les données n’ont pas un très haut niveau de confidentialité. • Généralement on déploie un calcul sur un seul site. • questions de facturation et taxation non triviales 11 12 2 Grid computing: exemple d’utilisation “Data-Mining” distribué Introduction aux grilles Un utilisateur veut créer une base de données en fouillant des bases de données “en ligne”, et en utilisant des pgms de fouille optimisés également “en ligne”. • les différents objectifs / types de grilles • un exemple d’utilisation : data-mining distribué • quelques grandes plates-formes, projets et produits Utilisateur de la grille • Il va découvrir, accéder et utiliser des ressources distantes (données, espace disque, capacités de calcul). • Il va rejoindre le portail d’une « organisation virtuelle » (V.O.) et exécuter un pgm de haut-niveau. Portail de « V.O. » Grille de ressources 13 Grid computing: exemple d’utilisation 14 Grid computing: exemple d’utilisation “Data-Mining” distribué “Data-Mining” distribué 1/6 – L’utilisateur contacte le portail d’une communauté de data-mining. C’est une “registry” (annuaire) qui sait quels sites peuvent fournir des fonctionnalités de fouille et des capacités de stockage. 2/6 – Le portail (“registry”) retourne des références sur des générateurs (“factories”) de pgms de fouille optimisés, et sur des générateurs de bases de données. L’utilisateur ou son programme fait un choix. 15 Grid computing: exemple d’utilisation 16 Grid computing: exemple d’utilisation “Data-Mining” distribué “Data-Mining” distribué 3/6 – Le programme de l’utilisateur fait des requêtes aux générateurs pour qu’ils assemblent des services de fouille, et qu’ils créent une base de données. 17 4/6 – Deux nouveaux services sont créés : un service de fouille et une base de données (principe du “tout est service”!) 18 3 Grid computing: exemple d’utilisation Grid computing: exemple d’utilisation “Data-Mining” distribué “Data-Mining” distribué 5/6 – Le service de fouille interroge des bases de données distantes. Il agit comme un client qui aurait l’identité de l’utilisateur (délégation d’autorité – ex: Globus-3/OGSA). 6/6 – Les résultats des interrogations sont retournés directement à la nouvelle base de données. Le pgm utilisateur envoie des msgs “keepalive” pour maintenir les services créés et les résultats. 19 20 Projets génériques internationaux TeraGrid Introduction aux grilles • les différents objectifs / types de grilles • un exemple d’utilisation • quelques grandes plates-formes, projets et produits • Une infrastructure: un réseau rapide de super-calculateurs (grille de calcul intensif) • Un ensemble de projets scientifiques expérimentaux (applicatifs + informatiques) • Piloté par la NSF 21 22 Projets génériques internationaux Projets génériques internationaux TeraGrid OSG : Open Science Grid Open Science Grid: • Projets de grilles thématiques • « A national production-quality grid computing infrastructure for large scale science » • Projets de recherche informatique. Ex: des expérimentations de transferts de données • The OSG Consortium was formed in 2004 to enable diverse communities of scientists to access a common grid infrastructure and shared resources. Groups that choose to join the Consortium contribute effort and resources to the common infrastructure. What impacts transfer rates? • Disk speed • Connectivity of disk to node • Node characteristics & load • Connectivity of node to WAN • For all networks • Bandwidth • Latency • Buffer Size • Protocol Load • Encryption VOs Le transfert des données sur la Grille est toujours un pb complexe ! 23 24 4 Expérience de Grille mondiale pour le CERN Recent projects Data & Computing Grid pour le LHC DOEGrid LCG : the LHC Computing Grid Un système hiérarchique de nœuds T-tiers pour produire, stocker, cacher et calculer, inspiré de l’expérience DATA-GRID LEP Nœuds T-0 : CERN production de données Nœuds T-1 : Sites de stockage dans le monde • Une grille nationale Américaine • Une grille pour le « Department Of Energy » : pour des expérimentations applicatives • Une grille basée sur Globus • Un projet pour encourager les collaborations internationales 25 Nœuds T2 : nœuds de stockage partiel dans le monde (cache de BdD) Nœuds T3 : nœuds de calcul (ex : clusters) Projets génériques internationaux Projets génériques internationaux Naregi Naregi 26 Naregi testbed : projet de Grille japonaise expérimentales Naregi : • Projet de Grille Japonais • Objectifs multiples : • Amélioration des couches réseaux pour les Grilles • Conception de « Grid Middleware » • Conception d’applications • Mise en place d’un « testbed » • Expérimentations et mesures de performances 27 28 Projets génériques internationaux Projets génériques internationaux Naregi EGEE Architecture de Naregi : Modèles et outils de programmation de bas niveau Outils d’exploit. de haut niveau • 30 MEuros • 70 participants • 27 pays The Enabling Grids for E-sciencE (EGEE) project is funded by the European Commission and aims to build on recent advances in grid technology and develop a service grid infrastructure which is available to scientists 24 hours-a-day « Une Grille de production/expérimentale pour la recherche scientifique (e-science Grid) » 29 Inclus la conception d’un nouvel environnement de grille (Open-Source) 30 5 Projets génériques internationaux Projets génériques internationaux EGEE EGEE Bilan en 2008 : Utilisateurs en 2008 : • 259 sites connectés, provenant de 52 pays • CPUs utilisables 24/7 : 72000 • Espace disque : 20 PetaOctets • VO : 150 à 200 • Users : 7500 à 14000 • Nombre de jobs : 150000/jour • Projet « Egee actuel » : 9 Durée : 2 ans 9 Budget : 47MEuros (dont Commission Européenne : 32MEuros) + 50MEuros de matériel apporté par les membres. LHC ? Une grille de production scientifique bien utilisée! 31 32 Projets génériques internationaux Projets génériques internationaux DEISA DEISA Global Parallel File System (technologie IBM) : • The fundamental integration concept in this area is transparent access to remote data files via a global distributed file system. • Processes can be executed on any node (they can access their data). « Une grille de production ou un ensemble (?) de supercalculateurs, pour la recherche scientifique » S’appuie sur des technologies propriétaires. 33 34 Projets Européens ciblés Projets Européens ciblés FP6 : Akogrimo FP6 : SIMDAT Data Grids for Process and Product Development using Numerical Simulation and Knowledge Discovery To integrate the widely disjoint worlds of data communication, telecommunication and distributed service architectures. → ‘everywhere at any time in any context’ Classic Grid Impact: Example of scenario: Akogrimo Disaster Handling and Crisis Management (DHCM): Akogrimo DHCM involves incidents where various crises or disasters should be handled by rescue services and other mission-critical mobile personnel, who have to collaborate within time-critical and dangerous situations such as large sport events, concerts or special locations such as airports or railway stations SIMDAT aims to improve the usability of grid technology in Engineering, Life Sciences and Earth System Modeling, and also foster grid uptake in these domains 35 36 6 Projets Européens ciblés Projet de recherche industriel FP6 : DataMiningGrid FP6 - 2006-09: BEinGRID Developing generic and sector-independent data mining tools and services for the Grid. Une collection de 18 applications « pilotes » sur la Grille : • Domaines d’application industriels variés • Identification des composants communs • Création d’un « repository » d’utilitaires Testbed: A test bed consisting of several demonstrator applications from a diverse set of sectors, including bioinformatics, health care, and automotive. These prototypes will demonstrate the developed DataMiningGrid technology in a diverse set of application domains. 37 Æ Valider l’adoption des technologies de grilles dans l’industrie! Rmq : déjà fait dans certains secteurs …! 38 Projet Français actuel Projet Français actuel Grille expérimentale Grid’5000 Grille expérimentale Grid’5000 Lile 15 clusters sur 9 sites Réseau privé RENATER : 2,5 Gbit/s à 10 Gbit/s Rennes Algorithms Nancy Runtime Paris Processeurs AMD Opteron de 2 Ghz à 2,4 Ghz Middleware Lyon Grenoble Bordeaux Environ 5000 coeurs fin 2008 Applications Toulouse Operating System Network protocols Sophia (Nice) Point fort : déploiement d’OS à la demande! 39 Chaque noeud est un cluster (256-1024 CPU) Le réseau est « Renater » (2.4 à 10 Gb/s) Grid’5000 explore tous ces aspects de la Grille Recent projects Produits industriels Produits Industriels Existants Ex. de Solution Industrielles Pour des « enterprise Grids » : 40 Oracle : Oracle utilise Globus pour ses solutions en grille. Grid start-ups Avaki Axceleon Data Synapse Entropia Grid Infrastructure GridSystems Parabon Platform Computing United Devices GigaSpace Major Corporations IBM Oracle Sun Microsystems MicroSoft Oracle a développé le « Oracle Globus Development Kit (OGDK) ». Æ OGDK simplifie l’utilisation d’Oracle9i avec Globus. SUN : Le « SUN Grid Engine » permet de gérer une grille depuis une seule GUI. Il supporte les OS Sun et Microsoft. Il gère les jobs séquentiels et parallèles, les files d’attentes, les accès aux BdD …. SUN met aussi en avant les « JavaSpace » : mémoire partagée virtuelle entre JVM sur des clusters de machines. … 41 42 7 Produits industriels Ex. de Solution Industrielles Platform LSF : • gère des batchs sur grille • possède son propre scheduler, monitor, … Un middleware de Grille pour la soumission de Batchs ? 43 8