l`agence spatiale européenne

Transcription

l`agence spatiale européenne
I N T
W H
E R
S
I T E
Y S T E M S
P
A P E R
L'AGENCE SPATIALE EUROPÉENNE :
CARTOGRAPHIER LA GALAXIE AVEC
LE SATELLITE
GAIA ET INTERSYSTEMS CACHÉ
Synthèse
L'Agence spatiale européenne (ESA) a choisi la technologie InterSys‐
tems Caché® pour la solution astrométrique AGIS qui servira à analy‐
ser les données célestes capturées par le satellite Gaia. L'objectif de la
mission Gaia est de créer une carte de phases portant sur environ un
milliard de corps célestes. Durant la mission, la solution AGIS affinera
de manière itérative la précision des observations spatiales effectuées
par Gaia, afin d'obtenir à terme un degré de précision de l'ordre de
20 millionièmes de seconde d'arc.
Pour se préparer aux exigences extrêmes du projet en matière de don‐
nées, InterSystems a récemment réalisé un démonstrateur de faisabi‐
lité portant sur 5 milliards d'objets Java distincts, de 600 octets chacun,
à insérer dans la base de données InterSystems Caché sur une période
de 24 heures.
Exécuté sur un seul processeur Intel 64 bits à huit cœurs et Red Hat
Enterprise Linux 5.5, Caché® a ingéré toutes les données avec succès
en 12 heures et 18 minutes, soit une moyenne d'insertion de 112 000
objets par seconde.
William O’Mullane, responsable du développement des opérations scientifiques,
Agence spatiale européenne ; Vik Nagjee, responsable produit, InterSystems Corporation
I n t
W h
e r
S
I t e
y S t e m S
P
a P e r
L'AGEnCE SpATIALE EURopéEnnE :
CARToGRAphIER LA GALAxIE AvEC
LE SATELLITE
GAIA ET InTERSySTEmS CAChé
Introduction
Les missions spatiales s'inscrivent sur le long terme. D'une durée de 15 à 20 ans,
elles nécessitent des technologies robustes et durables pour le traitement, la manipulation et le stockage des données. Ces technologies doivent également fournir
des informations critiques suite au traitement afin de pouvoir apporter rapidement des ajustements éventuels à l’engin spatial. La mission Gaia est considérée
comme le plus grand défi jamais relevé en matière de traitement des données
astronomiques. Comme nous l'annoncions dans un communiqué de presse en
mai 2010, l'Agence spatiale européenne (ESA) a choisi InterSystems Caché® pour
assurer une partie du traitement scientifique associé à la mission Gaia.
IInterSystems et le Centre européen d'astronomie spatiale (ESAC) collaborent
depuis 2008 pour évaluer comment InterSystems Caché peut offrir un avantage à
tout ou partie des traitements informatiques de Gaïa, et offrir un modèle d’architecture informatique économique capable de supporter les besoins de traitement
massifs du projet Gaia.
La mission Gaia
Le satellite Gaia doit être lancé depuis la Guyane française à bord d'une fusée
Soyuz-Fregat en 2012. Il voyagera durant deux mois pour atteindre son orbite
finale à 1,5 million de kilomètres de la Terre et analysera ensuite la totalité du ciel
pendant 5 ans. L'objectif : une carte de phases de notre galaxie.
Avec deux champs de vision, un plan focal en gigapixels et un spectromètre de
vitesse radiale, le satellite de 2 tonnes effectuera une analyse exhaustive. Durant
sa durée de vie, Gaia observera 1 milliard de sources, environ 80 fois chacune.
En plus de l'astrométrie et de la photométrie de chaque source, Gaia mesurera
le spectre d'environ 150 millions de sources. La précision astrométrique dans le
catalogue final devrait être de l'ordre de 20 millionièmes de seconde d'arc. Un tel
niveau de précision exige un traitement extrêmement sophistiqué.
Tous les logiciels de traitement de données de Gaia sont écrits en Java, dont la solution astrométrique principale appelée AGIS (Astrometric Global Iterative Solution) qui affine de manière itérative la précision spatiale de toutes les mesures
effectuées par Gaia. En effet, Gaia sera en rotation libre et effectuera des mesures
uniquement associées à d'autres mesures effectuées par Gaia. C’est pourquoi les
données recueillies doivent être traitées de manière cohérente, de sorte que
chaque observation individuelle de source céleste, le modèle de la position et du
déplacement de chaque source, et l'altitude, l'orbite et la vitesse de Gaia soient
harmonisées. Dans l’avenir, le système pourra être aligné sur le système ICRS (International Celestial Reference System). AGIS représente 10 à 50 % des traitements informatiques Gaia et c’est pour cela qu'InterSystems Caché a été choisi.
Les objectifs scientifiques de Gaia sont multiples mais sont entres autres d’analyser la structure et de mieux comprendre l’histoire de la formation de notre galaxie.
1
I n t
W h
e r
S
I t e
y S t e m S
P
a P e r
Défis techniques et exigences
Gaia doit observer environ 10 puissance 9 (soit 1 000 000 000) objets célestes qui
traverseront son plan focal ; pour chaque objet céleste, Gaia observera environ
100 attributs, soit un total de 10 11 observations (soit 100 milliards) observations. Environ 10 à 50 % de ces observations devraient servir à créer un cadre de
référence global avec AGIS. Une fois étalonnées et ajustées en fonction de l'altitude, ces données du cadre de référence global servent à actualiser la position et
le mouvement d'autres sources dans le catalogue. La figure 1 illustre le processus
de haut niveau de flux des données entre la base de données principale et la base
de données InterSystems Caché d'AGIS.
FIGURE 1 : PROCESSUS DE HAUT NIVEAU D'EXTRACTION ET DE TRAITEMENT AGIS
L'estimation initiale était que la base de données InterSystems Caché contiendrait
des données pour environ 100 000 000 sources (pour un total de 10 000 000 000
observations). L'estimation de la taille de ce volume de données était de l'ordre de
20 téraoctets. Toutefois, une estimation récente suggère que la base de données AGIS
pourrait contenir jusqu'à 500 000 000 sources (pour un total de 50 000 000 000
observations) et une base de données de 100 téraoctets. Il est nécessaire que les
données soient ingérées (ou insérées) dans la base de données sous 7 jours afin que
le traitement puisse démarrer immédiatement.
Une fois que les données ont été insérées dans AGIS, environ 40 itérations seront
nécessaires pour étalonner et ajuster complètement les données, ce qui doit être
effectué sous 120 jours. Une fois l'ajustement terminé, les données AGIS sont réinsérées dans la base de données principale, et le cycle suivant est initié. Ce processus itératif se poursuivra tout au long de la durée de vie de la mission. En outre,
le traitement complet des données Gaia est lui-même itératif. Les positions améliorées par AGIS permettent à d'autres processus (photométrie, variabilité, etc.)
d'obtenir de meilleurs résultats. Ceux-ci sont ensuite utilisés pour améliorer la
solution AGIS suivante.
2
I n t
W h
e r
S
I t e
y S t e m S
P
a P e r
Insertion en masse de données dans la base de données Caché d'AGIS
Le modèle de données AGIS comprend plusieurs objets et il est défini en termes
d'interfaces Java. plus précisément, AGIS traite chaque observation en tant qu'un
objet AstroElémentaire distinct. Comme illustré à la figure 2, chaque objet astroélémentaire est doté de différentes propriétés (surtout de type données longues
IEEE) et occupe environ 600 octets sur disque.
class AstroElementary {
long transitTimes[];
long transitTimeErrors[];
long HEALPIXID;
long HTMID;
double etaObs[];
double zetaRes;
double[] sourceParam;
double[] etaRes;
double zeta;
double zetaError;
float flux;
float fluxError;
float bg;
float bgError;
long id;
long telescope;
long ccdRow;
short pixelColumns[];
long detTime;
long detTimeError;
int typeFlag;
long sourceId;
}
FIGURE 2 : LE MODÈLE DE DONNÉES
ASTROÉLÉMENTAIRE
par ailleurs, la base de données AGIS contient plusieurs index créés durant la phase
d'insertion. Ces index servent aux requêtes durant le traitement AGIS et offrent
des capacités de reporting à la volée.
Avec InterSystems Caché et sa fonctionnalité Caché exTreme for Java, plusieurs
programmes Java AGIS injecteront les 100 téraoctets de données générées par
Gaia sous forme de 50 000 000 000 objets astroélémentaires distincts. Cette
insertion de données, tout comme la création d'index supplémentaires, doit être
effectué sous 5 jours, ce qui correspond à un taux d'insertion continu d'environ
115 000 objets astroélémentaires par seconde.
Démonstration de faisabilité d'insertion de données
pour le démonstrateur de faisabilité, InterSystems et ESAC, en collaboration avec des
ingénieurs de chez netApp, ont développé un banc d'essai pour ingérer 5 milliards
(5 000 000 000) d'objets astroélémentaires, soit environ 10 % du volume total de données prévues dans la base de données AGIS à la fin de la mission. mis à l'échelle, il fallait que ces données soient ingérées sous 12 heures. Toutefois, en raison du matériel qui
n'était pas au niveau du matériel de production, ESAC estimait que cette démonstration
de faisabilité serait réussie si les données parvenaient à être ingérées sous 24 heures.
Le tableau 1 résume les spécifications de l'ordinateur de test fourni pour ce test :
Système
Informations / détails sur le serveur
Serveur
Serveur Intel / 8 cœurs
SE
Red hat Enterprise Linux 5.5 (2.6.18-194.el5), 64 bits
Mémoire
32 Go de RAm -> 11 Go affectés à Caché (mémoire tampon globale)
Système de fichiers
ext3
Stockage
netApp FAS3160 avec 176 disques SATA de 1 To à 7200 tours/min.
Réseau
Carte 10 GigE, port unique, canal unique avec trames étendues
Connexion entre
iSCSI sur 10 GigE
le host et le stockage
Version de
2010.2, Field Test 6 (et mises à jour ad hoc)
InterSystems Caché
TABLEAU 1 : RÉSUMÉ DE L'ARCHITECTURE DE L'ORDINATEUR DE TEST
3
I n t
W h
e r
S
I t e
y S t e m S
P
a P e r
Avec la fonctionnalité Caché exTreme for Java, l’environnement de test a réussi
à ingérer les 5 000 000 000 objets astroélémentaires distincts en 12 heures et
18 minutes, soit un taux moyen continu de 112 000 objets par seconde.
Élément
Valeur
Nombre d'objets astroélémentaires insérés
5 000 000 000
Durée d'exécution totale
44 616 secondes (~12,5 heures)
Durée d'exécution cible (allouée)
86 400 secondes (24 heures)
Taux d'insertion moyen
112 000 objets/seconde
TABLEAU 2 : RÉSUMÉ DES RÉSULTATS DU DEMONSTRATEURPOUR L’INSERTION EN MASSE
Le test a été qualifié d'exceptionnellement réussi, surtout en raison de l'insertion
terminée en moitié moins de temps que la durée de 24 heures allouée, avec une
configuration système nominale.
Les tests d'ingestion suivants utiliseront certainement plusieurs programmes
d'insertion en parallèle, ce qui devrait améliorer le taux d'insertion moyen et
réduire la durée totale.
Conclusion
Lors du démonstrateur mené par l'Agence spatiale européenne et InterSystems,
des données astrométriques exemple ont été insérées dans la base de données
InterSystems Caché à un taux moyen de 112 000 objets/seconde. Le test complet
fut réalisé en 12 heures et 18 minutes, soit à peine la moitié de la durée des
24 heures allouée, sur du matériel de test nominal. Caché a ainsi pu confirmer
qu'il constituait le bon choix de technologie de base de données pour répondre aux
exigences extrêmes en matière de traitement des données du satellite de cartographie de la galaxie Gaia.
4
I n t
W h
e r
S
I t e
y S t e m S
P
a P e r
À propos de Caché
InterSystems Caché® est une base de données hautes performances qui permet
l'accès aux données objet, SQL et multidimensionnelles, sans besoin de mapping.
Elle est utilisée comme moteur d’applications innovantes dans les domaines de la
santé, de la finance, du secteur public, des télécommunications, de la distribution
et d’autres marchés verticaux.
À propos de Caché eXTreme for Java
Caché exTreme for Java est une nouvelle fonctionnalité de la base de données
InterSystems Caché qui expose les fonctions hautes performances de Caché à Java
par le biais de JnI (Java native Interface). Elle permet une communication directe
« in-process » entre Java et Caché‚ pour un temps de latence extrêmement faible
lors du stockage et de la récupération de données. pour plus de détails, visitez
InterSystems.com/java.
À propos de l'ESA
L'Agence spatiale européenne représente pour l'Europe une porte d'accès à l'espace. Sa mission consiste à maitriser le développement des capacités spatiales
européennes et à garantir que les investissements réalisés dans le domaine spatial bénéficient aux citoyens européens et au monde. L'ESA a pour mission d'élaborer le programme spatial européen et de le mener à bien. Les projets de l'Agence
sont conçus pour en apprendre davantage sur la Terre, sur son environnement
spatial immédiat, sur le système solaire et sur l'Univers, ainsi que pour mettre au
point des technologies et services satellitaires et pour promouvoir les industries
européennes. L'ESA travaille également en étroite collaboration avec des organisations spatiales hors d'Europe.
L’ESA dispose dans différents pays d'Europe de centres qui assument chacun des responsabilités bien définies. L'ESAC, Centre européen de l'Astronomie spatiale, se trouve
à villafranca en Espagne. C'est à l'ESAC que sont menées les opérations scientifiques
liées aux télescopes spatiaux. Ce centre est responsable de la collecte, l'archivage et
la distribution de données issues des missions astronomiques et planétaires.
À propos d'InterSystems
IInterSystems Corporation est un éditeur leader mondial dont le siège est basé en
face du mIT (Cambridge – massachusetts) et présent dans 23 pays. InterSystems
fournit des technologies logicielles de pointe pour le développement d’applications de nouvelle génération.
Avec InterSystems Caché® base de données objet/SQL hautes performances, InterSystems Ensemble®, une plate-forme d’échange (ESB/EAI), InterSystems DeepSee®,
moteur décisionnel temps réel, et InterSystems iKnow®, analyseur sémantique de
données non structurées, InterSystems propose au marché des technologies innovantes et totalement intégrées entre-elles et avec les grands standards technologiques, pour rendre vos applications plus performantes, plus maintenables, et plus
innovantes.
pour plus de détails, visitez InterSystems.com.
5
InterSystems Corporation
World headquarters
one memorial Drive
Cambridge, mA 02142-1356
Tel: +1.617.621.0600
Fax: +1.617.494.1631
InterSystems.com
InterSystems Ensemble and InterSystems Caché are registered trademarks of InterSystems Corporation. InterSystems DeepSee and InterSystems healthShare are trademarks of InterSystems Corporation.
other product names are trademarks of their respective vendors. Copyright © 2010 InterSystems Corporation. All rights reserved. 12-10