PetaSky-Mastodons

Commentaires

Transcription

PetaSky-Mastodons
PetaSky
Gestion et exploration des grandes masses de données scientifiques
issues d’observations astronomiques grand champ
Proposition dans le cadre de l’appel MASTODONS – Défi masses de données scientifiques
Laboratoires participants
LIMOS (UMR CNRS 6158, Clermont-Ferrand), http://limos.isima.fr/
V. Barra (PR), E.Mephu Nguifo (PR), L. Nourine (PR) et F. Toumani (PR)
● LIRIS (UMR CNRS 5205, Lyon), http://liris.cnrs.fr/
Florent Dupont (PR) et Mohand-Said Hacid (PR)
● LPC (UMR CNRS 6533), http://clrwww.in2p3.fr/index.php/
Emmanuel Gangler (CR) et Philippe Gris (CR)
● APC (UMR CNRS 7164) http://www.apc.univ-paris7.fr/APC_CS/
Eric Aubourg (CR)
● LAL (UMR CNRS 8607) http://www.lal.in2p3.fr/
Réza Ansari (PR)
● Centre de Calcul de l’IN2P3/CNRS (CC-IN2P3), http://cc.in2p3.fr/
Dominique Boutigny (Directeur CC-IN2P3) et Rachid Lemrani (responsable du support pour les
expériences d'astroparticules)
●
1. Vision scientifique et contexte applicatif
Dans de nombreux domaines scientifiques, tels que la physique, l’astronomie, la biologie ou les sciences de
l'environnement, l'évolution rapide des appareils et instruments scientifiques ainsi que le recours intensif à la
simulation informatique ont conduit, ces dernières années, à une production importante de données. Les
applications scientifiques modernes sont alors confrontées à de nouveaux problèmes qui sont liés
essentiellement au stockage et à l'exploitation de ces données. Outre le volume croissant des données à
manipuler, leur nature complexe (e.g., images, données incertaines, multi-échelles…), l’hétérogénéité de
leurs formats ainsi que les traitements variés dont elles font l'objet constituent les principales sources des
difficultés. Les problèmes posés sont tels que la gestion des données scientifiques est reconnue aujourd’hui
comme étant un véritable goulot d’étranglement qui a pour effet de ralentir les recherches scientifiques, ces
dernières s’appuyant de plus en plus sur l’analyse de données massives. Dans ce contexte, le rôle de
l’informatique, comme un moyen direct qui permet d’améliorer le processus de découvertes en science1, 2 ,
est primordial. Ce constat a conduit les scientifiques de disciplines différentes à unir leurs efforts de
réflexion pour faire émerger de nouveaux outils, approches et techniques de gestion et d’exploitation de ces
gigantesques masses de données. C’est le cas par exemple des deux conférences XLDB (eXtremely Large
Data Bases, http://www.xldb.org) et SciDB (Scientific Data Bases, http://www.scidb.org/).
L’action présentée dans cette proposition s’intéresse au problème de gestion des données scientifiques dans
le domaine de la cosmologie. De ce fait, elle s’inscrit dans la perspective de la e-Science3. Elle regroupe des
chercheurs et ingénieurs issus de laboratoires de recherche en informatique, le LIRIS et le LIMOS, et des
chercheurs issus de laboratoires de l’IN2P3/CNRS : le LPC, l’APC, le LAL et le Centre de Calcul de
l’IN2P3/CNRS. Les données seront produites dans le cadre de deux projets scientifiques (et leurs grands
instruments) que nous décrivons succinctement ci-dessous et dans lesquels l’APC, le LPC, le LAL et le CCIN2P3 sont parties prenantes. Comme nous le montrerons par la suite, en faisant également référence à des
1
http://research.microsoft.com/en-us/um/cambridge/projects/towards2020science/ et
http://www.nitrd.gov/pubs/200311_grand_challenges.pdf
2
http://www.cs.purdue.edu/homes/ake/pub/CommunityCyberInfrastructureEnabledDiscovery.pdf
3
http://eprints.soton.ac.uk/257648/1/The_Data_Deluge.pdf
sources d’information 4, ces données exhibent une complexité, quant à leur manipulation, jamais égalée
jusqu’ici.
LSST (Large Synoptic Survey Telescope, http://lsst.in2p3.fr/projet-LSST.html) est un projet de télescope
grand champ qui a pour objectif de faire un relevé profond et répétitif du ciel — l’ensemble du ciel visible
est observé tous les trois jours, pendant dix ans. L’objectif ultime de LSST est de mettre à disposition des
scientifiques une base de données commune à partir de laquelle seront conduites des recherches
scientifiques qui s’intéressent, entre autres, à la recherche de petits objets dans le système solaire, à
l'astrométrie de précision des régions extérieures à la Voie Lactée, à la surveillance des effets transitoires
dans le ciel optique et à l’étude de l’Univers lointain. La communauté française utilisera ces données pour
mener des études sur l’énergie noire responsable de l'accélération de l'expansion de l'univers, incomprise à
ce jour. Le goulot d'étranglement sur ces analyses pour lesquelles il y a aujourd'hui un leadership
français repose en grande partie sur la méthodologie d'accès et de traitement des données retenue. LSST
produira des images CDD de 3,2 Gigapixel toutes les 17 secondes (la nuit), pendant 10 ans. Il permettra à
terme de générer 15 à 30 Téraoctets de données par nuit pour arriver à un volume d’environ 140
Pétaoctets d’images en fin de programme. Le catalogue de données est constitué de tables relationnelles
ayant des tailles allant jusqu’à 4 Pétaoctets (environ 500 attributs x 5000 milliards de tuples).
Euclid (http://sci.esa.int/euclid). Il s’agit d’un projet de télescope spatial dédié à l’étude de l’énergie noire.
Un imageur visible et infrarouge effectuera un relevé du ciel de 15 000 deg², et un spectrographe infrarouge
mesurera les distances de 50 millions de galaxies. Le flux de données sera de 1 Teraoctet/jour de données
brutes, pendant nominalement 7 ans. Un élément essentiel du projet est que l’analyse de ces données
nécessite un traitement croisé avec des données sol, en particulier des données du projet LSST.
2. Les problèmes de gestion des données scientifiques dans LSST et Euclid
La difficulté de la gestion des données LSST/Euclid provient de trois sources principales.
1.Caractéristiques des données
- Grandes masses de données. Clairement, les volumes de données à exploiter posent des problèmes de
passage à l’échelle. Nous donnerons quelques détails dans les sections 3 et 4.
- Données complexes et hétérogènes. Les données manipulées dans les deux projets sont de différents
types : images, données temporelles, données spatiales, données de trajectoires, etc. À titre
d’exemple, les données LSST comportent plus de 9 types d’images différents avec une
hétérogénéité importante des données et des métadonnées. Il sera en outre nécessaire de pouvoir
traiter de manière cohérente les données LSST et Euclid, de pouvoir les aligner, de fusionner les
catalogues d’objets détectés sur chaque jeu d’images, puis de faire une mesure homogène et
précise de luminosité dans chaque bande de fréquence. Il sera aussi nécessaire de pouvoir produire
des données simulées en partant des mêmes simulations cosmologiques, puis en prenant en compte
les spécificités des deux instruments.
- Qualité des données. Compte tenu des dispositifs utilisés pour l’acquisition des données ainsi que des
environnements à partir desquels l’information est acquise, les données récupérées font l’objet de
pré-traitements préalables qui correspondent souvent à des opérations de correction et de filtrage
implémentées dans des algorithmes “métier” très spécifiques. Ces algorithmes engendrent des
workflows complexes dont la mise en œuvre nécessite une orchestration en parallèle de milliers
de CPU. De plus, une qualité au sens de certification des données doit également être assurée. Ceci
pose des problèmes de visualisation de très gros volumes de données pour détecter par exemple les
artefacts liés à des ruptures des conditions de fonctionnement (détecteur ou traitement) ou à des
imperfections algorithmiques.
4
Par exemple: http://www.lsst.org/lsst/science/petascale et use cases sur http://www.scidb.org/ et Shaw, R. A., &
Strauss, M. A., ed. 2011, LSST Data Challenge Handbook (Version 1.1; Tucson, AZ: LSST Corp.).
2.Caractéristiques de l'acquisition des données
- Acquisition cyclique. L’acquisition est cyclique par nature avec une pose toutes les 17 secondes, lue en
deux secondes, ce qui produit un débit moyen de 3 Gigabits/s de données qui transitent par le
réseau transcontinental jusqu’au centre de traitement.
3.Caractéristiques des traitements. Une synthèse des requêtes types et des analyses envisagées sur des
bases de données contenant des données LSST est donnée dans : http://dev.lsstcorp.org/trac/wiki/
dbQueries et http://dev.lsstcorp.org/trac/wiki/dbQueries. On distingue notamment les deux types de
traitements suivants :
- Interrogation classique. Il s’agit ici d’interroger des volumes de données importants. Par exemple, il y
a un besoin pour LSST d’exécuter des opérations de jointures sur des tables de 100 milliards
d’objets, ce qui pose évidemment des problèmes de passage à l’échelle.
- Analyse des données. Différents types d’analyses sont effectuées sur les données : détection des
transitoires, extraction de caractéristiques pertinentes, classification supervisée des phénomènes,
études statistiques et astrophysiques, association de données (par exemple, supernova et galaxie
hôte, étoiles doubles).
3. Verrous scientifiques
Les verrous scientifiques et technologiques relatifs à la maîtrise de la gestion de très gros volumes de
données (de la taille de ceux indiqués plus haut), sont identifiés et reconnus dans les communautés
concernées5. Nous devons prendre en compte, entre autres :
● Passage à l'échelle. Différents problèmes sont posés, comme par exemple : Comment stocker,
cataloguer, distribuer et indexer 140 pétaoctets de données ? Comment combiner indexation et
techniques de mémoires associatives (arbres, graphes) pour les bases de données très massives
(pétaoctets), distribuées et multidimensionnelles ? Quels algorithmes de recherche d’information et
d’évaluation de fonctions d’agrégats dans des bases de données de dimension péta ?
● Intégration de données. Il s’agit ici d’étudier les problèmes liés à la médiation des données avec pour
objectif l’intégration de données hétérogènes provenant de différentes sources de données pour les
mettre à disposition des utilisateurs finaux. Cela concerne principalement l’intégration des données
de LSST et d’EUCLID, mais également des données en provenance d’autres ressources. Les
caractéristiques des données, des dispositifs d’acquisition des données et des traitements,
mentionnées dans la section 2, et plus particulièrement la coexistence à la fois de volumes
extrêmement importants de données, de la nature complexe des données et des traitements visés
posent des défis nouveaux que les systèmes de médiation de données classiques ne peuvent pas
résoudre6.
● Analyse de données complexes. Les analyses ont pour objet des images, des flux temporels et
cycliques et visent différents objectifs comme la reconstitution de trajectoires, la qualité des
données, ou la réponse à des exigences de calibration. Ces analyses requièrent l’exploitation de
plusieurs niveaux de granularités de données (des données brutes aux données consolidées) et
impliquent différents types de traitements sur des dizaines de milliards d’objets associés par
paires (à des échelles péta et exa). Actuellement, il existe peu d’algorithmes de traitement d’images
capables de traiter des images de très grande taille (gigapixels). Il est nécessaire de développer des
représentations multi-échelles associées à des algorithmes dédiés (out-of-core par exemple).
● Visualisation de grandes masses de données. Compte tenu des relations complexes entre les données,
la possibilité de visualiser des fragments de données sera très utile, y compris pour permettre
l’analyse de la provenance des données. Il est donc nécessaire de développer des techniques
d’analyse et d’exploration visuelle qui passent à l’échelle (bases de données massives – à des fins
d’extraction/détection de caractéristiques, découverte de motifs intéressants, découverte de
5
http://www.vanderbilt.edu/AnS/physics/vida/reddnet_lsst_xsede.pdf, http://www.lsst.org/lsst/science/petascale, http://
www.mendeley.com/research/the-lsst-data-mining-research-agenda/#page-1
6
http://144.206.159.178/ft/CONF/16418236/16418265.pdf
corrélations, clustering, monitoring dirigé par des événements…). Par ailleurs, la visualisation
d’images de très grande taille requiert des formats adaptés supportant la compression et une
représentation multi-résolutions. La très grande taille des images n’est pas supportée par les formats
usuels et ne permet pas l’utilisation des outils classiques.
4. Axes de recherche
Les membres du consortium ont pour objectif de mener durant les cinq prochaines années des recherches
dans les directions suivantes :
● Environnement massivement distribué et parallèle. Il s’agit d’étudier des solutions nouvelles qui
s’appuient sur des environnements de clusters de type Cloud avec des approches algorithmiques
parallèles et distribuées à la MapReduce. Les avantages et les inconvénients de ces solutions
devront être analysés et comparés par rapport à des approches alternatives comme la grille de
calcul, d’autres modèles de programmation parallèle, e.g. MPI, ou l’utilisation des systèmes de
gestion de bases de données (SGBD) parallèles. L’intégration des solutions nouvelles avec
l’existant est également à prendre en compte.
● Stockage de données et indexation. Aujourd’hui, la majorité des très grosses bases de données ne
contiennent que des dizaines de téraoctets de données, avec très peu qui atteignent quelques
centaines de téraoctets7. Concevoir des systèmes pour gérer des bases de données de plusieurs
pétaoctets pose inévitablement des défis significatifs8 . Les méthodes existantes ne sont pas adaptées
à ces échelles de données. Par exemple, un parcours séquentiel d’un mégaoctet de données peut
prendre moins d’une seconde, mais à 10 mégaoctets/s le parcours d’un pétaoctet de données peut
prendre plus d’un an. De même, le recours à des techniques d’indexation classiques sera
problématique: la taille d’un index pour un pétaoctet de données pourrait atteindre plusieurs
téraoctets, ce qui nécessiterait par exemple environ deux jours pour une lecture complète (un scan)
de la base de données. Il va donc de soi qu’il est important d’explorer de nouvelles techniques de
stockage et d’indexation de ce type de données.
● Interrogation efficace. Les catalogues produits par les prétraitements sur les données capturées seront
sujets à une utilisation intensive, à la fois à des fins scientifiques et pour l’évaluation de la qualité
des données. Les requêtes d’analyse consisteront, entre autres, à associer (par recoupement) des
détections multiples de sources à des objets astronomiques uniques (par exemple : étoiles, galaxie,
astéroïde, ou autre entité physique) qui peuvent être statiques ou changer de luminosité ou de
position avec le temps. En général, un objet sera associé à plusieurs instances de détection de
source. Dans ce cas, il est important d’offrir un langage déclaratif pour lequel il conviendrait
d’évaluer des requêtes par association/agrégation de fragments d’information. En raison de la
taille des catalogues et du nombre de candidats (objets) à la combinaison, il faudrait faire face à des
problèmes combinatoires 9. A titre d’exemple, dans le cas des bases de données graphes de taille
inférieure à 50 Gigaoctets, l’évaluation, par agrégation de certaines requêtes (même simples),
prend plus de 30 minutes10 .
L’interrogation de ces masses de données nécessiteront,
éventuellement, la mise en place de techniques de mémoire associative et/ou filtrage intelligent
pour optimiser les calculs.
● Architecture de médiation des données. Il s’agit ici d’étudier l’architecture de médiation de données à
mettre en place. Différentes solutions, e.g., approche virtuelle ou matérialisée, devront être
explorées afin de construire un système qui permet aux utilisateurs finaux d’accéder de manière
simple à des données complexes, hétérogènes et distribuées. Outre les problèmes posés par
7
http://www.wintercorp.com/VLDB/2005_TopTen_Survey/2005TopTenWinners.pdf
8
http://www.slac.stanford.edu/cgi-wrap/getdoc/slac-pub-12292.pdf
9
Thanh-Huy LE, Haytham Elghazel, and Mohand-Said Hacid. A Relational-based Approach for Aggregated Search in
Graph Databases. In proceedings of DASFAA 2012.
10
http://www710.univ-lyon1.fr/~mshacid/Rapport-Technique-Implementation-DASFAA-2012.PDF
l’intégration de données hétérogènes et le traitement de requêtes dans ce contexte, il faudra
également tenir compte des exigences en termes de performance et de confidentialité. Les données
devant être disponibles pour différentes communautés d’utilisateurs (scientifiques partenaires du
projet, communauté externe hétérogène, etc.), le maintien de différents niveaux de confidentialité
des données dans un tel contexte pose de nombreux défis.
● Archivage des données. Les problématiques relatives à la mise à disposition des données sur le long
terme ainsi que celle de la traçabilité des données sont ouvertes. Par exemple, les données LSST
doivent être disponibles sur une durée de vie très supérieure à celle de l’acquisition (plusieurs
dizaines d’années), l’archive fonctionnant alors comme observatoire virtuel.
● Apprentissage et fouille de données complexes. Il est clairement indispensable de développer des
solutions efficaces d’extraction de connaissances à partir de grandes masses de données complexes,
dans les environnements distribués (techniques d’énumération de motifs caractéristiques,
techniques de prédiction). La nature des données LSST suppose de faire des avancées
fondamentales sur les points suivants : (1) Extraction de motifs caractéristiques pour des données
complexes (images, spatio-temporels, et cycliques), (2) concevoir des représentations concises pour
ces données complexes, (3) classification d’objets physiques (astéroïde, supernovae, galaxie, …) et
(4) prédiction de trajectoires d’objets.
● Visualisation des données. La visualisation de données scientifiques est hautement consommatrice de
mémoire et de puissance de calcul. Un axe important devra porter sur la recherche de structures de
données accélératrices avec des objectifs concomitants de meilleure organisation des données en
mémoire et de représentation multi-échelles.
Durant la première année, nous utiliserons une simulation d’images intensive en calcul (2,5 h pour une
pose). Les images disponibles en 2010 correspondent à environ 100 poses pour un pointé unique et une
bande unique, ce qui correspond à la profondeur d’observation obtenue en fin de programme (soit un facteur
10-4 de la mise à l’échelle finale avec la possibilité de passer à l’échelle par réplication à l’identique des
données). Il est aussi possible de simuler directement des catalogues pour étudier le passage à l’échelle de
l’interrogation classique. Enfin, nous exploiterons également les données publiques de CFHTLS (http://
www.cfht.hawaii.edu/Science/CFHLS/) ou SDSS (http://www.sdss.org/). CFHTLS, par exemple, a une
répétabilité du même ordre de grandeur que LSST, mais il ne couvre que 2 * 10-4 du ciel vu par LSST. Le
passage à l’échelle peut également se faire par réplication de données.
5. Constitution du consortium
LIMOS (UMR CNRS 6158, Clermont-Ferrand), http://limos.isima.fr/
Le LIMOS développe des activités de recherche autour des modèles et outils informatiques pour la
conception, la représentation, l'évaluation, le contrôle et l'optimisation des systèmes complexes. Les
compétences du LIMOS en liaison avec cette action concernent la gestion de grandes masses de données
(bases de données, intégration de données, web services, fouille de données, apprentissage, techniques
d’énumération et cloud computing) et le traitement et analyse d’images. Comme exemples de projets en
liaison avec les thématiques de cette action, on peut citer : ANR SYSEO (http://syseo-anr.fr/) , autour de la
gestion des images médicales dans le Cloud, ANR DAG (http://liris.cnrs.fr/dag/), sur les problèmes
d’énumération des motifs fréquents, le projet serviceMosaic (http://dl.acm.org/citation.cfm?id=1159027), sur
l’intéropérabilité d’applications basées sur l’approche SOA, le projet ANR FORUM (http://www2.lirmm.fr/
~bella/FORUM/), sur l’intégration de données et le projet européen MKBEEM (FP6, http://
mkbeem.elibel.tm.fr/), sur l’intégration sémantique dans le domaine du e-commerce.
LIRIS (UMR CNRS 5205, Lyon), http://liris.cnrs.fr/
Le LIRIS développe des recherches dans deux domaines: l’image et les données, connaissances et services.
Il est structuré autour de 11 équipes et un effectif de 110 permanents (EC et C) et 130 doctorants. Les
compétences du LIRIS en liaison avec les problèmatiques de ce projet concernent : la gestion de données, de
connaissances et de services -- indexation, modélisation, accès et optimisation, sécurité, intégration de
données, composition de services, fouille de données--, images multidimensionnelles, analyse, compression,
modélisation multirésolution, visualisation. Comme exemples de projets (des équipes impliquées) en liaison
avec les thématiques de cette proposition, nous pouvons citer: ANR COLLAVIZ (www.collaviz.org) —
Visualisation collaborative à distance de données scientifiques, T.Arc.H.N.A (http://homes.dico.unimi.it/
~valtolin/tarchna_brochureEnglish.pdf, projet Européen) — Towards Archaelogical Heritage New
Accessibility, ANR FORUM (http://www2.lirmm.fr/~bella/FORUM/) — A Semantic Based Mediation
System for Large Scale Applications, ANR AOC (http://aoc.irit.fr/) — Appariement d’objets complexes,
GIS4EU (http://www.gisig.it/gis4eu/) —Provision of interoperable datasets to open GI to the EU
communities — european Project eContentPlus.
LPC (UMR CNRS 6533), http://clrwww.in2p3.fr/index.php/
Le LPC est un laboratoire de l’IN2P3 engagé dans des grandes expériences de physique des particules et
notamment auprès du LHC, et à ce titre le premier laboratoire à s’être équipé en ressources pour être un
nœud Tier-2 de la grille de calcul. Il est engagé dans LSST avec 2 chercheurs de la section 1, Emmanuel
Gangler et Philippe Gris, et pour l’action présente plusieurs ingénieurs de recherche en informatique pour
environ 1 FTE (traitement et analyse de grands ensembles d’images et des métadonnées associées dans le
domaine de la médecine). Il a des compétences en traitement d’images de spectroscopie, avec une expertise
pointue sur les artéfacts liés à l’emploi de capteurs CCD à bas bruit de lecture, et sur le workflow associé à la
mise en œuvre des algorithmes sur les lots importants d’images (~500 000 poses), la classification de
certains objets astrophysiques et les analyses statistiques.
APC (UMR CNRS 7164), http://www.apc.univ-paris7.fr/APC_CS/
L’APC (astroparticule et cosmologie) est un laboratoire de l’IN2P3 spécialisé dans l’astronomie à haute
énergie, la physique des neutrinos, et la cosmologie observationnelle. Ce dernier thème, et en particulier sa
composante « astronomie grand champ », est particulièrement concerné par ce projet.
Les participants de l’APC ont été pour certains pionniers dans le traitement de données massives (pour
l’époque) avec EROS dans les années 1990-2000 — un relevé dont le principe a des ressemblances avec
LSST, et qui posait des problèmes importants de gestion de données. Ils sont membres des consortiums
LSST et Euclid et responsables de la production de « redshifts photométriques » qui imposent la fusion des
données des deux expériences. L’APC assure aussi actuellement la coordination française du Sloan Digital
Sky Survey (SDSS : http://www.sdss3.org). Dix chercheurs de l’APC sont impliqués dans les projets LSST
et Euclid, ainsi que des ingénieurs informaticiens.
LAL (UMR CNRS 8607), http://www.lal.in2p3.fr/
Le Laboratoire de l'Accélérateur Linéaire (LAL) est une unité mixte de du CNRS/IN2P3 et de l'université
Paris Sud, situé sur le campus de l'université à Orsay. Le programme de recherche du LAL concerne
principalement la physique des particules, la physique des accélérateurs, les astroparticules et la cosmologie.
Le laboratoire a des contributions scientifiques majeures aux expériences ATLAS et LHCb au CERN, le
détecteur d'ondes gravitationnelles VIRGO, l'observatoire AUGER, et la mission spatiale Planck (ESA),
dédiée à l'étude des anisotropies du fond diffus cosmologique (CMB).
Le LAL a une expertise reconnue dans le domaine du traitement massif des données, des grilles de calcul. Le
groupe Cosmologie du LAL a été pionnier dans le domaine de l'astronomie grand champ avec le projet
EROS (1990-2003) et est actuellement impliqué dans la mission Planck, le projet LSST,
et des travaux de R&D pour les relevés radio à 21 cm. L'équipe LSST-LAL comprend actuellement une
dizaine de personnes, dont 5 physiciens.
Centre de Calcul de l’IN2P3/CNRS (CC-IN2P3), http://cc.in2p3.fr/
Le CC-IN2P3 est un centre de calcul national spécialisé dans le traitement des masses de données de la
physique corpusculaire (physique nucléaire, physique des particules et physique des astroparticules). Le CCIN2P3 est l’un des onze centres de premier niveau de la grille W-LCG (Tier-1) pour le stockage, le
traitement et la distribution des données des expériences installées sur l’accélérateur LHC du CERN à
Genève. Grâce à l’expertise de ces 65 ingénieurs en informatique et à la capacité d’accueil de ses salles
informatiques (1700 m2 et plusieurs MW de puissance électrique) le CC-IN2P3 devrait assurer le traitement
de la moitié des données du projet LSST, l’autre moitié étant prise en charge par le NCSA américain. À
terme une copie complète des données du LSST sera disponible en France et mise à la disposition de la
collaboration.