Big Data et HPC - Big Data Paris

Transcription

Big Data et HPC - Big Data Paris
Big Data et HPC Session « Le Big Data dans la recherche scien4fique » Conférence Big Data Paris Stéphane REQUENA, Responsable Technique, GENCI Calcul intensif (HPC) Théorie ExpérimentaFon SimulaFon numérique Le calcul intensif Un ou/l stratégique pour la science, l’industrie et les poli/ques publiques Météorologie, climatologie, sciences de la Terre • Mesurer le réchauffement et l’évolu/on du climat • An/ciper les événements clima/ques Astrophysique, physique des par/cules et physique des plasmas Appui aux poli/ques publiques Risques naturels •  Comprendre l’évolu/on des galaxies •  Explorer la physique avancée (QCD, ITER) Risques Impact des biologiques et poli/ques épidémiologi-­‐ publiques ques Science des matériaux, chimie, nanosciences •  Elaborer des matériaux intelligents •  Mieux connaître les propriétés des nanomatériaux Sciences de la vie •  Explorer les systèmes biologiques •  MeTre au point des molécules-­‐médicaments ciblées Energie et engineering •  Réduire l’impact énergé/que des ac/vités industrielles •  Concevoir les centrales de demain Résoudre les instabilités dans les moteurs d’hélicoptère • Gain : réduc/on de la durée du cycle de concep/on (6 mois) 04/04/2013 Simulation des
ondes générées
par le tremblement de terre du
Sichuan
Sécurité Modélisation de
la propagation
du virus H1N1
EDF : transport de
sédiments et
salinité - bassin de
la Loire, sur 10 à
20 ans
Recherche de virulence
et de résistance aux
antibiotiques
Accélérer le design des avions Accroître l’efficacité de la prospec/on et de la produc/on pétrolière • Gain : économie sur le coût des tests en soufflerie (20 %) • Gain : éviter les forages inu/les (coût Big DATA et HPC moyen de 80 M$ par forage), accroitre la part de pétrole extrac/ble 2 La donnée : le 4ème paradigme Théorie Donnée Simula/on Expérimenta/on h"p://research.microso/.com/en-­‐us/collabora5on/fourthparadigm/ 04/04/2013 Big Data et HPC 3 Le calcul intensif Contexte actuel q  Dans le monde : des invesFssements A m2assifs
00M$ effort by 6 agencies § 
§ 
Aux Etats-­‐Unis depuis plusieurs décennies : 1er au Top500 en novembre 2012 En Chine, Japon, Inde et Russie : inves/ssement massif (1 Md$ par pays) pour R&D Exascale q  En Europe : montée en puissance § 
Annonce de la Commission européenne (15 février 2012) • 
• 
§ 
Doubler l’enveloppe financière 2014-­‐2020 : 0.6 è 1.2 Md€ Développer un écosystème du calcul intensif indépendant En France : § 
§ 
Créa/on de GENCI en 2007 Puissance Fr disponible en 2013 20 % 1.6 PFlops = *80 / 6 ans 10 % 1 % 49 % « Le calcul intensif est stratégique pour booster la capacité d’innovaFon européenne » 20 % Une infrastructure de recherche de rang mondial Développer les technologies et services HPC en Europe 400 M€ sur 2010-­‐2015 (France, Allemagne, Italie, Espagne) 04/04/2013 ETP4HPC créé en juin 2012 Big Data et HPC 4 La pyramide européenne du Calcul Intensif Une nécessité pour la compéti/vité > 1 Pflop/s Structure d’une protéine en/ère Gouvernance européenne 25 pays membres dont la France représentée par GENCI Jusqu’à 1 Pflop/s Mélange moléculaire de composés Gouvernance naFonale < 100 Tflop/s Microfissures dans un matériau Gouvernances régionales 04/04/2013 Big Data et HPC 5 CURIE le système Tier0 français dans PRACE • 
• 
• 
Concré/sa/on de l’engagement français porté par GENCI dans PRACE Installa/on au et exploita/on par les équipes CEA/DAM Architecture modulaire et équilibrée –  Cluster de noeuds SMP larges, fins et hybrides –  Architecture complémentaire avec celles des autres Tier0 de PRACE –  2e Tier0 dans PRACE, totalement disponible depuis le 8 mars 2012, 9e rang mondial (juin 2012) Performance globale de : 2 PFlop/s > 92 000 cœurs Intel 360 To de mémoire Réseau Infiniband 40Gbs 15 Po Lustre @ 250 Go/s 20 Po archivage sur bandes 120 racks, < 200 m2 -­‐ 2,5 MW 04/04/2013 Big Data et HPC 6 Big Data et HPC Un exemple en cosmologie (1/3) q  Grand challenge réalisé par l’Observatoire de Paris dans le cadre du Consor/um DEUS (hTp://www.deus-­‐consor/um.org) q  But : réaliser 3 simula/ons de TOUT l’Univers observable, depuis le Big Bang à maintenant avec 3 scénarios de distribu/on de la ma/ère noire §  Evaluer l’influence de la ma/ère noire dans l’évolu/on de l’Univers §  Travaux similaires ont valu Prix Nobel de Physique 2011 à deux équipes US §  Résultats obtenus seront u/lisés en entrée du futur télescope spa/al EUCLID (ESA, 2019) q  Besoins HPC sans précédent §  >550 milliards de par/cules, maillage 81923 dans boite de 21 h-­‐1 Gpc §  Code RAMSES (CEA) avec une chaine de post traitement spécifique • 
• 
• 
• 
Déléga/on des entrées sor/es à des processus spécifiques Post traitement parallèle à la volée Réduc/on des données brutes è données u/les Implémenta/on d’op/misa/ons spécifiques pour CURIE §  Plus de 76 000 cœurs u/lisés et >300 To de mémoire vive 04/04/2013 Big Data et HPC 7 Big Data et HPC Un exemple en cosmologie (2/3) q Première mondiale réalisée de février à septembre 2012 §  Premières simula/ons de TOUT Univers avec 3 modèles : ΛCDM, LCDM and RPCDM réalisées sur le supercalculateur CURIE §  3 calculs pour un un total de 30 millions d’heures è stabilité de la machine §  Un besoin vital de bande passante/volume sur le système de fichiers Lustre •  Environ 60 Go/s alloués pour ce grand challenge et quasiment saturés ! 04/04/2013 Big Data et HPC 8 Big Data et HPC Un exemple en cosmologie (3/3) q Un total de plus de 150 Po de données brutes générées à 50 Go/s q 1.5 Po de données butes après post traitement §  Données mises à disposi/ons de scien/fiques du monde en/er Besoins astrophysique/cosmologie en pleine explosion ALMA, VLT, Euclid, … mais aussi : Radio telescope SKA (Square Kilometer Array) Projet de 1.5 Md€, opéra/onnel en 2020 Installé en Australie et Afrique du Sud 1 Eo de données brutes par jour ! Un supercalculateur d’1 EFlops dédié pour cela 04/04/2013 Big Data et HPC 9 Big Data et HPC Un exemple dans le domaine du climat q  5ème campagne du GIEC (2009-­‐2012) §  Equipes Fr IPSL sur machine NEC SX9 dédiée §  producFon > 1To/jour, 2Po au total q  Enjeux majeurs dans le domaine du stockage, du post traitement, de mise à disposi/on et d’archivage de données q  Quelques prévisions pour la suite : Year
Power factor
Npp
Resolution [km]
Number of mesh points [millions]
Ensemble size
Number of variables
Interval of 3-dimensional output (hours)
Years simulated
Storage density
Archive size (Pb) (atmosphere)
04/04/2013 CMIP5
2012
1
200
100
3,2
200
800
6
90000
0,00002
5,31
Big Data et HPC CMIP6
2017
30
357
56
18,1
357
1068
4
120170
0,00002
143,42
CMIP7
2022
1000
647
31
108,4
647
1439
3
161898
0,00002
3766,99
≈ 4 EB 10 Big Data et HPC Un constat : le volume de données explose ! q  Données observaFonnelles et expérimentales § 
§ 
§ 
§ 
§ 
§ 
Accélérateurs de par/cules (LHC@CERN) Séquenceurs génome et medecine personalisée Satellites et (radio)telescopes (ALMA, SKA, VLT, Euclid, …) Réseaux de capteurs en météo/climat, sismique, … Finance, assurance, … Datamining de données Web q  Données computaFonnelles § 
§ 
§ 
§ 
ì des ressources de calcul disponibles (PRACE = 15 PF in 2012) Accroissement de la résolu/on des modèles Simula/ons mul/ physiques et mul/ échelles Quan/fica/on des incer/tudes (modèles, données, résultats, …) q  Avec des problèmes liés à § 
§ 
§ 
§ 
§ 
§ 
§ 
La taille de données (nombre fichiers, taille), structure, formats Incer/tude de la donnée et tolérance aux pannes Explosi/on de la métadonnée associée Temps de post processing (20% du temps) Archivage pérène et mise à disposi/on de données rafinéee Débit réseau et connec/vité -­‐> dernier km ! … Cela veut dire : Déployer des infrastructures de recherche pérènes et inter opérables 04/04/2013 Big Data et HPC 11 Big Data et HPC De nombreuses ac/ons en cours q  Au niveau matériel et logiciel § 
§ 
§ 
§ 
Stockage hiérarchique avec mix de mémoires vola/les (SSD, PCM, …) et disques/bandes tradi/onnelles I/O asynchrones et Ac/ve I/O (serveurs d’I/O virtualisés dans contrôleurs I/O) Nouvelle généra/on de système de fichiers parallèles (Lustre, GPFS, Xyratec, …) Les Flops seront presque « gratuits » -­‐> post processing en même temps que calcul pour profiter de localité des données et éviter déplacements de donnés couteux q  Des iniFaFves et des projets de recherche en Europe § 
§ 
§ 
§ 
Projets d’implémenta/on de PRACE : data management, visualisa/on déportée, portails d’accès, … EUDAT : services de données entre centres de calcul/données et communautés u/lisatrices EESI2 : cartographie et roadmap des besoins Eu -­‐> Exascale (incluant BigDATA) Equipes INRIA comme KerDATA (Rennes) q  Mais un grand nombre d’applicaFons devront être réécrites/adaptées § 
§ 
§ 
§ 
§ 
La stratégie d’entrées-­‐sor/es doit être totalement repensée avec une stratégie PLM La donnée brute ne pourra plus “sor/r” des centres de calcul, seule la donnée raffinée Le recours à la visualisa/on distante ou déportée sera nécessaire Des nouvelles méthodes de accès/analyse de données doit être évaluées (MapReduce, NOSQL, …?) La bande passante réseau et l’interconnexion devra être renforcée 04/04/2013 Big Data et HPC 12 En conclusion Le HPC, un catalyseur des découvertes dans le domaine de la recherche scienFfique et industrielle An/ciper les ruptures technologiques liées à l’explosion du volume de données produites : §  Pour relever les futurs challenges sociétaux et industriels §  Pour préparer en avance les scien/fiques aux futures architectures matérielles et logicielles §  Pour accroitre l’implica/on des chercheurs et ingénieurs dans ces technologies HPC + Big Data = Big Fast Data 04/04/2013 Big Data et HPC 13