l`agence spatiale européenne
Transcription
l`agence spatiale européenne
I N T W H E R S I T E Y S T E M S P A P E R L'AGENCE SPATIALE EUROPÉENNE : CARTOGRAPHIER LA GALAXIE AVEC LE SATELLITE GAIA ET INTERSYSTEMS CACHÉ Synthèse L'Agence spatiale européenne (ESA) a choisi la technologie InterSys‐ tems Caché® pour la solution astrométrique AGIS qui servira à analy‐ ser les données célestes capturées par le satellite Gaia. L'objectif de la mission Gaia est de créer une carte de phases portant sur environ un milliard de corps célestes. Durant la mission, la solution AGIS affinera de manière itérative la précision des observations spatiales effectuées par Gaia, afin d'obtenir à terme un degré de précision de l'ordre de 20 millionièmes de seconde d'arc. Pour se préparer aux exigences extrêmes du projet en matière de don‐ nées, InterSystems a récemment réalisé un démonstrateur de faisabi‐ lité portant sur 5 milliards d'objets Java distincts, de 600 octets chacun, à insérer dans la base de données InterSystems Caché sur une période de 24 heures. Exécuté sur un seul processeur Intel 64 bits à huit cœurs et Red Hat Enterprise Linux 5.5, Caché® a ingéré toutes les données avec succès en 12 heures et 18 minutes, soit une moyenne d'insertion de 112 000 objets par seconde. William O’Mullane, responsable du développement des opérations scientifiques, Agence spatiale européenne ; Vik Nagjee, responsable produit, InterSystems Corporation I n t W h e r S I t e y S t e m S P a P e r L'AGEnCE SpATIALE EURopéEnnE : CARToGRAphIER LA GALAxIE AvEC LE SATELLITE GAIA ET InTERSySTEmS CAChé Introduction Les missions spatiales s'inscrivent sur le long terme. D'une durée de 15 à 20 ans, elles nécessitent des technologies robustes et durables pour le traitement, la manipulation et le stockage des données. Ces technologies doivent également fournir des informations critiques suite au traitement afin de pouvoir apporter rapidement des ajustements éventuels à l’engin spatial. La mission Gaia est considérée comme le plus grand défi jamais relevé en matière de traitement des données astronomiques. Comme nous l'annoncions dans un communiqué de presse en mai 2010, l'Agence spatiale européenne (ESA) a choisi InterSystems Caché® pour assurer une partie du traitement scientifique associé à la mission Gaia. IInterSystems et le Centre européen d'astronomie spatiale (ESAC) collaborent depuis 2008 pour évaluer comment InterSystems Caché peut offrir un avantage à tout ou partie des traitements informatiques de Gaïa, et offrir un modèle d’architecture informatique économique capable de supporter les besoins de traitement massifs du projet Gaia. La mission Gaia Le satellite Gaia doit être lancé depuis la Guyane française à bord d'une fusée Soyuz-Fregat en 2012. Il voyagera durant deux mois pour atteindre son orbite finale à 1,5 million de kilomètres de la Terre et analysera ensuite la totalité du ciel pendant 5 ans. L'objectif : une carte de phases de notre galaxie. Avec deux champs de vision, un plan focal en gigapixels et un spectromètre de vitesse radiale, le satellite de 2 tonnes effectuera une analyse exhaustive. Durant sa durée de vie, Gaia observera 1 milliard de sources, environ 80 fois chacune. En plus de l'astrométrie et de la photométrie de chaque source, Gaia mesurera le spectre d'environ 150 millions de sources. La précision astrométrique dans le catalogue final devrait être de l'ordre de 20 millionièmes de seconde d'arc. Un tel niveau de précision exige un traitement extrêmement sophistiqué. Tous les logiciels de traitement de données de Gaia sont écrits en Java, dont la solution astrométrique principale appelée AGIS (Astrometric Global Iterative Solution) qui affine de manière itérative la précision spatiale de toutes les mesures effectuées par Gaia. En effet, Gaia sera en rotation libre et effectuera des mesures uniquement associées à d'autres mesures effectuées par Gaia. C’est pourquoi les données recueillies doivent être traitées de manière cohérente, de sorte que chaque observation individuelle de source céleste, le modèle de la position et du déplacement de chaque source, et l'altitude, l'orbite et la vitesse de Gaia soient harmonisées. Dans l’avenir, le système pourra être aligné sur le système ICRS (International Celestial Reference System). AGIS représente 10 à 50 % des traitements informatiques Gaia et c’est pour cela qu'InterSystems Caché a été choisi. Les objectifs scientifiques de Gaia sont multiples mais sont entres autres d’analyser la structure et de mieux comprendre l’histoire de la formation de notre galaxie. 1 I n t W h e r S I t e y S t e m S P a P e r Défis techniques et exigences Gaia doit observer environ 10 puissance 9 (soit 1 000 000 000) objets célestes qui traverseront son plan focal ; pour chaque objet céleste, Gaia observera environ 100 attributs, soit un total de 10 11 observations (soit 100 milliards) observations. Environ 10 à 50 % de ces observations devraient servir à créer un cadre de référence global avec AGIS. Une fois étalonnées et ajustées en fonction de l'altitude, ces données du cadre de référence global servent à actualiser la position et le mouvement d'autres sources dans le catalogue. La figure 1 illustre le processus de haut niveau de flux des données entre la base de données principale et la base de données InterSystems Caché d'AGIS. FIGURE 1 : PROCESSUS DE HAUT NIVEAU D'EXTRACTION ET DE TRAITEMENT AGIS L'estimation initiale était que la base de données InterSystems Caché contiendrait des données pour environ 100 000 000 sources (pour un total de 10 000 000 000 observations). L'estimation de la taille de ce volume de données était de l'ordre de 20 téraoctets. Toutefois, une estimation récente suggère que la base de données AGIS pourrait contenir jusqu'à 500 000 000 sources (pour un total de 50 000 000 000 observations) et une base de données de 100 téraoctets. Il est nécessaire que les données soient ingérées (ou insérées) dans la base de données sous 7 jours afin que le traitement puisse démarrer immédiatement. Une fois que les données ont été insérées dans AGIS, environ 40 itérations seront nécessaires pour étalonner et ajuster complètement les données, ce qui doit être effectué sous 120 jours. Une fois l'ajustement terminé, les données AGIS sont réinsérées dans la base de données principale, et le cycle suivant est initié. Ce processus itératif se poursuivra tout au long de la durée de vie de la mission. En outre, le traitement complet des données Gaia est lui-même itératif. Les positions améliorées par AGIS permettent à d'autres processus (photométrie, variabilité, etc.) d'obtenir de meilleurs résultats. Ceux-ci sont ensuite utilisés pour améliorer la solution AGIS suivante. 2 I n t W h e r S I t e y S t e m S P a P e r Insertion en masse de données dans la base de données Caché d'AGIS Le modèle de données AGIS comprend plusieurs objets et il est défini en termes d'interfaces Java. plus précisément, AGIS traite chaque observation en tant qu'un objet AstroElémentaire distinct. Comme illustré à la figure 2, chaque objet astroélémentaire est doté de différentes propriétés (surtout de type données longues IEEE) et occupe environ 600 octets sur disque. class AstroElementary { long transitTimes[]; long transitTimeErrors[]; long HEALPIXID; long HTMID; double etaObs[]; double zetaRes; double[] sourceParam; double[] etaRes; double zeta; double zetaError; float flux; float fluxError; float bg; float bgError; long id; long telescope; long ccdRow; short pixelColumns[]; long detTime; long detTimeError; int typeFlag; long sourceId; } FIGURE 2 : LE MODÈLE DE DONNÉES ASTROÉLÉMENTAIRE par ailleurs, la base de données AGIS contient plusieurs index créés durant la phase d'insertion. Ces index servent aux requêtes durant le traitement AGIS et offrent des capacités de reporting à la volée. Avec InterSystems Caché et sa fonctionnalité Caché exTreme for Java, plusieurs programmes Java AGIS injecteront les 100 téraoctets de données générées par Gaia sous forme de 50 000 000 000 objets astroélémentaires distincts. Cette insertion de données, tout comme la création d'index supplémentaires, doit être effectué sous 5 jours, ce qui correspond à un taux d'insertion continu d'environ 115 000 objets astroélémentaires par seconde. Démonstration de faisabilité d'insertion de données pour le démonstrateur de faisabilité, InterSystems et ESAC, en collaboration avec des ingénieurs de chez netApp, ont développé un banc d'essai pour ingérer 5 milliards (5 000 000 000) d'objets astroélémentaires, soit environ 10 % du volume total de données prévues dans la base de données AGIS à la fin de la mission. mis à l'échelle, il fallait que ces données soient ingérées sous 12 heures. Toutefois, en raison du matériel qui n'était pas au niveau du matériel de production, ESAC estimait que cette démonstration de faisabilité serait réussie si les données parvenaient à être ingérées sous 24 heures. Le tableau 1 résume les spécifications de l'ordinateur de test fourni pour ce test : Système Informations / détails sur le serveur Serveur Serveur Intel / 8 cœurs SE Red hat Enterprise Linux 5.5 (2.6.18-194.el5), 64 bits Mémoire 32 Go de RAm -> 11 Go affectés à Caché (mémoire tampon globale) Système de fichiers ext3 Stockage netApp FAS3160 avec 176 disques SATA de 1 To à 7200 tours/min. Réseau Carte 10 GigE, port unique, canal unique avec trames étendues Connexion entre iSCSI sur 10 GigE le host et le stockage Version de 2010.2, Field Test 6 (et mises à jour ad hoc) InterSystems Caché TABLEAU 1 : RÉSUMÉ DE L'ARCHITECTURE DE L'ORDINATEUR DE TEST 3 I n t W h e r S I t e y S t e m S P a P e r Avec la fonctionnalité Caché exTreme for Java, l’environnement de test a réussi à ingérer les 5 000 000 000 objets astroélémentaires distincts en 12 heures et 18 minutes, soit un taux moyen continu de 112 000 objets par seconde. Élément Valeur Nombre d'objets astroélémentaires insérés 5 000 000 000 Durée d'exécution totale 44 616 secondes (~12,5 heures) Durée d'exécution cible (allouée) 86 400 secondes (24 heures) Taux d'insertion moyen 112 000 objets/seconde TABLEAU 2 : RÉSUMÉ DES RÉSULTATS DU DEMONSTRATEURPOUR L’INSERTION EN MASSE Le test a été qualifié d'exceptionnellement réussi, surtout en raison de l'insertion terminée en moitié moins de temps que la durée de 24 heures allouée, avec une configuration système nominale. Les tests d'ingestion suivants utiliseront certainement plusieurs programmes d'insertion en parallèle, ce qui devrait améliorer le taux d'insertion moyen et réduire la durée totale. Conclusion Lors du démonstrateur mené par l'Agence spatiale européenne et InterSystems, des données astrométriques exemple ont été insérées dans la base de données InterSystems Caché à un taux moyen de 112 000 objets/seconde. Le test complet fut réalisé en 12 heures et 18 minutes, soit à peine la moitié de la durée des 24 heures allouée, sur du matériel de test nominal. Caché a ainsi pu confirmer qu'il constituait le bon choix de technologie de base de données pour répondre aux exigences extrêmes en matière de traitement des données du satellite de cartographie de la galaxie Gaia. 4 I n t W h e r S I t e y S t e m S P a P e r À propos de Caché InterSystems Caché® est une base de données hautes performances qui permet l'accès aux données objet, SQL et multidimensionnelles, sans besoin de mapping. Elle est utilisée comme moteur d’applications innovantes dans les domaines de la santé, de la finance, du secteur public, des télécommunications, de la distribution et d’autres marchés verticaux. À propos de Caché eXTreme for Java Caché exTreme for Java est une nouvelle fonctionnalité de la base de données InterSystems Caché qui expose les fonctions hautes performances de Caché à Java par le biais de JnI (Java native Interface). Elle permet une communication directe « in-process » entre Java et Caché‚ pour un temps de latence extrêmement faible lors du stockage et de la récupération de données. pour plus de détails, visitez InterSystems.com/java. À propos de l'ESA L'Agence spatiale européenne représente pour l'Europe une porte d'accès à l'espace. Sa mission consiste à maitriser le développement des capacités spatiales européennes et à garantir que les investissements réalisés dans le domaine spatial bénéficient aux citoyens européens et au monde. L'ESA a pour mission d'élaborer le programme spatial européen et de le mener à bien. Les projets de l'Agence sont conçus pour en apprendre davantage sur la Terre, sur son environnement spatial immédiat, sur le système solaire et sur l'Univers, ainsi que pour mettre au point des technologies et services satellitaires et pour promouvoir les industries européennes. L'ESA travaille également en étroite collaboration avec des organisations spatiales hors d'Europe. L’ESA dispose dans différents pays d'Europe de centres qui assument chacun des responsabilités bien définies. L'ESAC, Centre européen de l'Astronomie spatiale, se trouve à villafranca en Espagne. C'est à l'ESAC que sont menées les opérations scientifiques liées aux télescopes spatiaux. Ce centre est responsable de la collecte, l'archivage et la distribution de données issues des missions astronomiques et planétaires. À propos d'InterSystems IInterSystems Corporation est un éditeur leader mondial dont le siège est basé en face du mIT (Cambridge – massachusetts) et présent dans 23 pays. InterSystems fournit des technologies logicielles de pointe pour le développement d’applications de nouvelle génération. Avec InterSystems Caché® base de données objet/SQL hautes performances, InterSystems Ensemble®, une plate-forme d’échange (ESB/EAI), InterSystems DeepSee®, moteur décisionnel temps réel, et InterSystems iKnow®, analyseur sémantique de données non structurées, InterSystems propose au marché des technologies innovantes et totalement intégrées entre-elles et avec les grands standards technologiques, pour rendre vos applications plus performantes, plus maintenables, et plus innovantes. pour plus de détails, visitez InterSystems.com. 5 InterSystems Corporation World headquarters one memorial Drive Cambridge, mA 02142-1356 Tel: +1.617.621.0600 Fax: +1.617.494.1631 InterSystems.com InterSystems Ensemble and InterSystems Caché are registered trademarks of InterSystems Corporation. InterSystems DeepSee and InterSystems healthShare are trademarks of InterSystems Corporation. other product names are trademarks of their respective vendors. Copyright © 2010 InterSystems Corporation. All rights reserved. 12-10