Compte-rendu - Formation gestion des données

Transcription

Compte-rendu - Formation gestion des données
Les lacs d’altitude, sentinelles pour le suivi
des changements globaux des Alpes françaises
Journée de formation
Date : Mercredi 12 octobre 2016
Participants :
Arthaud
Florent
[email protected]
CARRTEL
Augé
Vincent
[email protected]
Parc national de la Vanoise
Barbet
Denis
[email protected]
INRA CARRTEL
Birck
Carole
[email protected]
Asters
Guénand
Yann
[email protected]
Segula – USMB/INRA
Heuret
Julien
[email protected]
Asters
Leccia
Marie-France
[email protected]
Parc national du Mercantour
Monet
Ghislaine
[email protected]
INRA CARRTEL
Soureillat
Aude
[email protected]
Asters
Prises de notes (à lire en complément des diapos du contenu de la formation)
Préambule
Il est rappelé que les données brutes du monitoring des lacs de l’observatoire après être nettoyées et
mises en forme doivent être insérées dans le SI du SOERE OLA. Le descriptif du prélèvement des
données (métadonnées) se trouve quant à lui dans les fiches missions et les fiches protocoles
disponibles sur le site internet du réseau Lacs sentinelles (www.lacs-sentinelles.org).
Présentation du SI SOERE OLA (Ghislaine Monet – INRA de Thonon)
On retrouve la même architecture pour tous les SI de l’INRA (gérés depuis le siège d’Orléans). Chaque
SI est défini par ses types de données (= une fonctionnalité).
Schéma de traitement de la donnée (diapo 7) :
Récolte donnée brute
création d’un fichier d’échange (CSV séparateur « ; »)
insertion des
fichiers dans le SI, par type de fichier (nom projet – nom Lac – type donnée – date de début/fin des
données)
extraction des données (obligation préalable de signature des conditions générales
d’utilisation des données)
Cette possibilité d’extraction sans contrainte correspond à une demande de l’AERMC de
mise à disposition des données au public
Le SI OLA a été créé à l’origine pour les grands lacs alpins mais s’est développé ces dernières années
pour permettre d’intégrer les données issues des lacs d’altitude et des lacs du Massif central (Aydat,
Pavin), du Jura (Remoray) et des lacs urbains (Créteil). Les suivis sur ces lacs sont plus légers ainsi
certains paramètres existants dans la bdd ne concernent pas les lacs d’altitude suivi dans le cadre du
réseau lacs sentinelles (diapo 8 et 9), pour cela tous les champs des fichiers d’échanges ne sont pas
obligatoires.
De nouveau type de données sont en cours de développement comme les données haute-fréquence
(diapo 9). Les fichiers déposés dans le SI peuvent être complétés par des fichiers complémentaires
(fiches protocole par exemple qui sont automatiquement téléchargés à l’export des données
correspondantes).
Certaines données comme les données météo sont gérées dans un autre SI (volonté de faire des
passerelles entre ces 2 bases).
Droits d’utilisation et types d’utilisateurs
On peut être administrateur/dépositaire/gestionnaire (ajouter/modifier donnée, avant de rendre la
donnée visible : publier)
Le consultant peut être de deux types : public ou référencé (données de synthèse/données
ouvertes).
L’utilisateur public est malgré tout un utilisateur qui a obtenu un login/mot de passe ; sans cette
démarche on ne peut avoir accès qu’à la liste des données disponibles (diapo 11,14). L’utilisateur
public a signé la charte et il est aussi référencé. Donc tant qu’un utilisateur n’a pas fait expressément
de demande d’accès, il est un « utilisateur public » ayant accès aux données publiques (celles qu’on
laisse accessibles sans demande particulière). « Public » est en fait un utilisateur auquel on affecte
des droits et par défaut dès que quelqu’un a un compte il hérite de ces droits.
Les données des lacs sentinelles sont donc publiques.
Problème de données existantes dans d’autres bases qui peuvent être déposées dans le SI : ex. des
données thermies de l’ONEMA
Comment le spécifier dans le SI ? (obligation de citer une BDD
initiale ? citation dans la publication). Point qui devra être rediscuté en Conseil scientifique.
2 types de données (diapo 31)
- Expérimentale : valeur
- Ddr : donnée de référence (définies par admin, peu changeantes) : unités/Nom lacs/ listing
taxons (…)
attention à l’écriture de cette donnée (si on veut changer la donnée de
référence il faut republier toutes les données associées à l’ancienne référence : possible,
mais à éviter !)
Le SI n’intègre pas la donnée si problème de correspondance.
L’administrateur peut assez facilement ne pas rendre accessible une donnée (un paramètre, une
année…). L’informer si besoin (diapo 18).
Gestion des notifications au sein du SI (diapo 19)
Ne se fait pas par envoi de mails, il existe une interface de messagerie (enveloppe en haut d’écran).
Si erreur, elle est signalée dans cette interface.
Le scénario de publication d’un lot de données
1) Mise au format d’échange des données (en csv) à l’aide des fichiers d’échanges type. Ces fichiers
comportent des aides à la saisie et des menus déroulants correspondants au ddr pour éviter les
erreurs. Ces fichiers ont été faits sous Excel et toutes les infos ne sont pas lisibles sous open office. La
procédure sous open office est à repréciser.
2) Attribution d’un nom au fichier qui renseigne sur : le projet, le site, la plateforme, la période, le
type de données.
3) Connection au SI OLA avec un login ayant les droits de dépôt et éventuellement de publication.
3) Mise en dépôt du fichier (après une première vérification par le SI).
4) Publication des données contenues dans le fichier (après une vérification fine du contenu du
fichier).
Principe général de dépôt de fichier
Attention, un fichier actualisé peut être redéposé sous le même nom (c’est celui-ci qui s’affiche).
Mais il vaut mieux supprimer l’ancien. Possibilité de dépublier un fichier (diapo 25).
Lors de la publication, il peut y avoir aussi des messages d’erreur (si doublons par ex).
Possibilité de télécharger le fichier publié/le supprimer
Possibilité future (en cours de développement) de déposer des fichiers libres (contrôle uniquement
sur le nom du fichier, mais pas sur le contenu) (diapo 27). Des fichiers d’échange seront proposés,
mais ils ne seront pas contrôlés (dans un 1er temps).
-
-
Les appareils de mesure (sonde, thermistors) peuvent constituer des données de référence
dans la Bdd c’est-à-dire que chaque sonde est identifiée comme unique (exemple on
retrouve la sonde PNE, celle du PNV …). Ce travail de précision n’a pas été fait pour les
thermistors. Cela parait intéressant pour détecter d’éventuels disfonctionnements.
Point
à discuter en CS.
Les données qui sont insérées dans le SI doivent être contrôlées en amont et être validées
par un scientifique. Sinon, il y aurait la possibilité de contrôler la cohérence des données
dans le SI (en affectant par ex. des plages de valeurs cohérentes : message d’erreur si on est
en dehors de ces plages) mais pour l’instant ces plages ne sont pas définies.
Problèmes courants lors de la mise en dépôt (diapo 39):
- Attention : supprimer les lignes dans le fichier Excel (conservation des ;) qui se trouvent sous
les lignes de données et ne pas faire seulement effacer le contenu (cf visualisation de la
feuille dans le bloc note). Ces lignes peuvent en effet cacher des espaces ou autres artéfacts.
- Mettre les fichiers au format csv (diapos 35 à 37)
- Dans le champ commentaire : ne pas utiliser « ; », mais autre séparateur type « / » «_ »
- Mauvais nom de fichier (attention aux séparateurs)
- Périodes de chevauchement (si hors période saisie)
- Mauvais lieu de dépôt : enregistré des données du lac d’Anterne dans le dossier Brévent.
- Problème de taxon (faute de frappe ou non référencé dans les Ddr)
-
Champs vides (noms du lac non implémenté sur toutes les lignes)
Valeur non conforme au champ
Décalage de colonne
Si pas de valeur, ne rien mettre dans le champ (sauf si champ obligatoire), mais ne pas
inscrire «- » ou « NA »
Respect des valeurs qualitatives (géré par menu déroulant)
Problèmes courants à publication diapo 40) :
- doublons de valeurs
- Ddr non référencées dans le SI (à voir avec l’admin)
Consulter les éventuels messages d’erreur au dépôt qui renseignent sur le type d’erreurs réalisées
(diapo 47).
Précisions pour chaque fichier de données
Conditions de prélèvement
Temps : pas nécessaire de le renseigner
Par contre, renseigner T°C ext
Dans le champ « Commentaire » : mettre l’adresse URL des fiches missions saisies sur le site internet
du réseau.
Données sonde
Sélection données réalistes : voir profondeur pour le début et arrêter au pic de chlorophylle pour le
fond.
Les données de pH sont liées à la photosynthèse, plus elle est importante, plus le pH diminue. Si la
respiration est importante le pH augmente. Le pH est également lié au substrat.
Chlorophylle a
Importance de la hauteur de colonne d’eau prélevée pour analyser la chlorophylle a. Idéalement, il
faudrait prélever sur la zone euphotique
A discuter au CS car tout le monde ne fait pas la même
chose. Au PNM, 3 prélèvements sont faits : fond + surface + 1,5xsecchi.
Zooplancton
Attention : pour les stades de développement, ne pas confondre « tout stade de dvlpt
confondus »qui n’existent pas en Ddr et « sans stade ».
Dans le SI, la donnée de référence est en ml/m2 et pas en m3. A voir si elle doit être créée.
Phytoplancton
Beaucoup plus d’espèces dans les Alpes du Nord que dans le sud (problème de systématique
INRA/IMBE ?) à discuter en CS.
Logiciel SHL sondes :
Logiciel développé à l’INRA pour le nettoyage de données brutes issues des sondes et mise au
format du fichier Kor-exo au format type SOERE.
Possibilité de configurer les métadonnées pour que seules les données qui nous intéressent soient
affichées / et pour ajouter des métadonnées de configuration. La mise à jour des configurations n’est
pas automatique. Une fois le fichier de configuration créé, bien le conserver.
Faire circuler le
fichier de configuration sur les lacs du réseau.
Fichier traité = nom du fichier.shl (ne peut être ouvert que par ce logiciel)
Données en rouge peuvent être supprimées.
Affichage graphique des données possible et exportation possible au format imag.
Une fois validé par le vérificateur (fichier intitulé « VALIDE »), le fichier peut être exporté au format
SI.
On peut revenir en arrière et enlever la validation.
Pb d’affichage des données une fois le fichier source intégré dans le logiciel :
Ghislaine vérifie que le logiciel prend bien en compte le même ordre de pose des capteurs que sur la
sonde. Pb plutôt lié au fait que les données décimales doivent être séparées par « . » et pas par « , ».
Dépend de l’export du fichier txt ou de la configuration de l’ordi ? Ctrl F (permet dans le fichier de
remplacer les « , » par des « . »).
Il faut bien configurer l’ordi (paramètre régional / configuration
détaillée / décimale… ou région et langue/ modifier l’heure…).
Il faudra étudier l’utilisation de ce logiciel pour les fichiers sonde du réseau en 2017.
Script R créé pour le rapport annuel
En 2017, l’utilisation du script R devra se faire en utilisant les fichiers qui sortent du SI et pas ceux
qu’on insère pour éviter toute erreur de saisie et car la classe (phyto et zoo) est renseignée (alors
qu’elle ne l’ait pas sur les fichiers entrants).
Projet financé avec le concours de l’Union européenne. L’Europe s’engage sur
le Massif Alpin avec le Fonds Européen de Développement Régional

Documents pareils