Big Data et HPC - Big Data Paris
Transcription
Big Data et HPC - Big Data Paris
Big Data et HPC Session « Le Big Data dans la recherche scien4fique » Conférence Big Data Paris Stéphane REQUENA, Responsable Technique, GENCI Calcul intensif (HPC) Théorie ExpérimentaFon SimulaFon numérique Le calcul intensif Un ou/l stratégique pour la science, l’industrie et les poli/ques publiques Météorologie, climatologie, sciences de la Terre • Mesurer le réchauffement et l’évolu/on du climat • An/ciper les événements clima/ques Astrophysique, physique des par/cules et physique des plasmas Appui aux poli/ques publiques Risques naturels • Comprendre l’évolu/on des galaxies • Explorer la physique avancée (QCD, ITER) Risques Impact des biologiques et poli/ques épidémiologi-‐ publiques ques Science des matériaux, chimie, nanosciences • Elaborer des matériaux intelligents • Mieux connaître les propriétés des nanomatériaux Sciences de la vie • Explorer les systèmes biologiques • MeTre au point des molécules-‐médicaments ciblées Energie et engineering • Réduire l’impact énergé/que des ac/vités industrielles • Concevoir les centrales de demain Résoudre les instabilités dans les moteurs d’hélicoptère • Gain : réduc/on de la durée du cycle de concep/on (6 mois) 04/04/2013 Simulation des ondes générées par le tremblement de terre du Sichuan Sécurité Modélisation de la propagation du virus H1N1 EDF : transport de sédiments et salinité - bassin de la Loire, sur 10 à 20 ans Recherche de virulence et de résistance aux antibiotiques Accélérer le design des avions Accroître l’efficacité de la prospec/on et de la produc/on pétrolière • Gain : économie sur le coût des tests en soufflerie (20 %) • Gain : éviter les forages inu/les (coût Big DATA et HPC moyen de 80 M$ par forage), accroitre la part de pétrole extrac/ble 2 La donnée : le 4ème paradigme Théorie Donnée Simula/on Expérimenta/on h"p://research.microso/.com/en-‐us/collabora5on/fourthparadigm/ 04/04/2013 Big Data et HPC 3 Le calcul intensif Contexte actuel q Dans le monde : des invesFssements A m2assifs 00M$ effort by 6 agencies § § Aux Etats-‐Unis depuis plusieurs décennies : 1er au Top500 en novembre 2012 En Chine, Japon, Inde et Russie : inves/ssement massif (1 Md$ par pays) pour R&D Exascale q En Europe : montée en puissance § Annonce de la Commission européenne (15 février 2012) • • § Doubler l’enveloppe financière 2014-‐2020 : 0.6 è 1.2 Md€ Développer un écosystème du calcul intensif indépendant En France : § § Créa/on de GENCI en 2007 Puissance Fr disponible en 2013 20 % 1.6 PFlops = *80 / 6 ans 10 % 1 % 49 % « Le calcul intensif est stratégique pour booster la capacité d’innovaFon européenne » 20 % Une infrastructure de recherche de rang mondial Développer les technologies et services HPC en Europe 400 M€ sur 2010-‐2015 (France, Allemagne, Italie, Espagne) 04/04/2013 ETP4HPC créé en juin 2012 Big Data et HPC 4 La pyramide européenne du Calcul Intensif Une nécessité pour la compéti/vité > 1 Pflop/s Structure d’une protéine en/ère Gouvernance européenne 25 pays membres dont la France représentée par GENCI Jusqu’à 1 Pflop/s Mélange moléculaire de composés Gouvernance naFonale < 100 Tflop/s Microfissures dans un matériau Gouvernances régionales 04/04/2013 Big Data et HPC 5 CURIE le système Tier0 français dans PRACE • • • Concré/sa/on de l’engagement français porté par GENCI dans PRACE Installa/on au et exploita/on par les équipes CEA/DAM Architecture modulaire et équilibrée – Cluster de noeuds SMP larges, fins et hybrides – Architecture complémentaire avec celles des autres Tier0 de PRACE – 2e Tier0 dans PRACE, totalement disponible depuis le 8 mars 2012, 9e rang mondial (juin 2012) Performance globale de : 2 PFlop/s > 92 000 cœurs Intel 360 To de mémoire Réseau Infiniband 40Gbs 15 Po Lustre @ 250 Go/s 20 Po archivage sur bandes 120 racks, < 200 m2 -‐ 2,5 MW 04/04/2013 Big Data et HPC 6 Big Data et HPC Un exemple en cosmologie (1/3) q Grand challenge réalisé par l’Observatoire de Paris dans le cadre du Consor/um DEUS (hTp://www.deus-‐consor/um.org) q But : réaliser 3 simula/ons de TOUT l’Univers observable, depuis le Big Bang à maintenant avec 3 scénarios de distribu/on de la ma/ère noire § Evaluer l’influence de la ma/ère noire dans l’évolu/on de l’Univers § Travaux similaires ont valu Prix Nobel de Physique 2011 à deux équipes US § Résultats obtenus seront u/lisés en entrée du futur télescope spa/al EUCLID (ESA, 2019) q Besoins HPC sans précédent § >550 milliards de par/cules, maillage 81923 dans boite de 21 h-‐1 Gpc § Code RAMSES (CEA) avec une chaine de post traitement spécifique • • • • Déléga/on des entrées sor/es à des processus spécifiques Post traitement parallèle à la volée Réduc/on des données brutes è données u/les Implémenta/on d’op/misa/ons spécifiques pour CURIE § Plus de 76 000 cœurs u/lisés et >300 To de mémoire vive 04/04/2013 Big Data et HPC 7 Big Data et HPC Un exemple en cosmologie (2/3) q Première mondiale réalisée de février à septembre 2012 § Premières simula/ons de TOUT Univers avec 3 modèles : ΛCDM, LCDM and RPCDM réalisées sur le supercalculateur CURIE § 3 calculs pour un un total de 30 millions d’heures è stabilité de la machine § Un besoin vital de bande passante/volume sur le système de fichiers Lustre • Environ 60 Go/s alloués pour ce grand challenge et quasiment saturés ! 04/04/2013 Big Data et HPC 8 Big Data et HPC Un exemple en cosmologie (3/3) q Un total de plus de 150 Po de données brutes générées à 50 Go/s q 1.5 Po de données butes après post traitement § Données mises à disposi/ons de scien/fiques du monde en/er Besoins astrophysique/cosmologie en pleine explosion ALMA, VLT, Euclid, … mais aussi : Radio telescope SKA (Square Kilometer Array) Projet de 1.5 Md€, opéra/onnel en 2020 Installé en Australie et Afrique du Sud 1 Eo de données brutes par jour ! Un supercalculateur d’1 EFlops dédié pour cela 04/04/2013 Big Data et HPC 9 Big Data et HPC Un exemple dans le domaine du climat q 5ème campagne du GIEC (2009-‐2012) § Equipes Fr IPSL sur machine NEC SX9 dédiée § producFon > 1To/jour, 2Po au total q Enjeux majeurs dans le domaine du stockage, du post traitement, de mise à disposi/on et d’archivage de données q Quelques prévisions pour la suite : Year Power factor Npp Resolution [km] Number of mesh points [millions] Ensemble size Number of variables Interval of 3-dimensional output (hours) Years simulated Storage density Archive size (Pb) (atmosphere) 04/04/2013 CMIP5 2012 1 200 100 3,2 200 800 6 90000 0,00002 5,31 Big Data et HPC CMIP6 2017 30 357 56 18,1 357 1068 4 120170 0,00002 143,42 CMIP7 2022 1000 647 31 108,4 647 1439 3 161898 0,00002 3766,99 ≈ 4 EB 10 Big Data et HPC Un constat : le volume de données explose ! q Données observaFonnelles et expérimentales § § § § § § Accélérateurs de par/cules (LHC@CERN) Séquenceurs génome et medecine personalisée Satellites et (radio)telescopes (ALMA, SKA, VLT, Euclid, …) Réseaux de capteurs en météo/climat, sismique, … Finance, assurance, … Datamining de données Web q Données computaFonnelles § § § § ì des ressources de calcul disponibles (PRACE = 15 PF in 2012) Accroissement de la résolu/on des modèles Simula/ons mul/ physiques et mul/ échelles Quan/fica/on des incer/tudes (modèles, données, résultats, …) q Avec des problèmes liés à § § § § § § § La taille de données (nombre fichiers, taille), structure, formats Incer/tude de la donnée et tolérance aux pannes Explosi/on de la métadonnée associée Temps de post processing (20% du temps) Archivage pérène et mise à disposi/on de données rafinéee Débit réseau et connec/vité -‐> dernier km ! … Cela veut dire : Déployer des infrastructures de recherche pérènes et inter opérables 04/04/2013 Big Data et HPC 11 Big Data et HPC De nombreuses ac/ons en cours q Au niveau matériel et logiciel § § § § Stockage hiérarchique avec mix de mémoires vola/les (SSD, PCM, …) et disques/bandes tradi/onnelles I/O asynchrones et Ac/ve I/O (serveurs d’I/O virtualisés dans contrôleurs I/O) Nouvelle généra/on de système de fichiers parallèles (Lustre, GPFS, Xyratec, …) Les Flops seront presque « gratuits » -‐> post processing en même temps que calcul pour profiter de localité des données et éviter déplacements de donnés couteux q Des iniFaFves et des projets de recherche en Europe § § § § Projets d’implémenta/on de PRACE : data management, visualisa/on déportée, portails d’accès, … EUDAT : services de données entre centres de calcul/données et communautés u/lisatrices EESI2 : cartographie et roadmap des besoins Eu -‐> Exascale (incluant BigDATA) Equipes INRIA comme KerDATA (Rennes) q Mais un grand nombre d’applicaFons devront être réécrites/adaptées § § § § § La stratégie d’entrées-‐sor/es doit être totalement repensée avec une stratégie PLM La donnée brute ne pourra plus “sor/r” des centres de calcul, seule la donnée raffinée Le recours à la visualisa/on distante ou déportée sera nécessaire Des nouvelles méthodes de accès/analyse de données doit être évaluées (MapReduce, NOSQL, …?) La bande passante réseau et l’interconnexion devra être renforcée 04/04/2013 Big Data et HPC 12 En conclusion Le HPC, un catalyseur des découvertes dans le domaine de la recherche scienFfique et industrielle An/ciper les ruptures technologiques liées à l’explosion du volume de données produites : § Pour relever les futurs challenges sociétaux et industriels § Pour préparer en avance les scien/fiques aux futures architectures matérielles et logicielles § Pour accroitre l’implica/on des chercheurs et ingénieurs dans ces technologies HPC + Big Data = Big Fast Data 04/04/2013 Big Data et HPC 13