Compte-rendu - Formation gestion des données
Transcription
Compte-rendu - Formation gestion des données
Les lacs d’altitude, sentinelles pour le suivi des changements globaux des Alpes françaises Journée de formation Date : Mercredi 12 octobre 2016 Participants : Arthaud Florent [email protected] CARRTEL Augé Vincent [email protected] Parc national de la Vanoise Barbet Denis [email protected] INRA CARRTEL Birck Carole [email protected] Asters Guénand Yann [email protected] Segula – USMB/INRA Heuret Julien [email protected] Asters Leccia Marie-France [email protected] Parc national du Mercantour Monet Ghislaine [email protected] INRA CARRTEL Soureillat Aude [email protected] Asters Prises de notes (à lire en complément des diapos du contenu de la formation) Préambule Il est rappelé que les données brutes du monitoring des lacs de l’observatoire après être nettoyées et mises en forme doivent être insérées dans le SI du SOERE OLA. Le descriptif du prélèvement des données (métadonnées) se trouve quant à lui dans les fiches missions et les fiches protocoles disponibles sur le site internet du réseau Lacs sentinelles (www.lacs-sentinelles.org). Présentation du SI SOERE OLA (Ghislaine Monet – INRA de Thonon) On retrouve la même architecture pour tous les SI de l’INRA (gérés depuis le siège d’Orléans). Chaque SI est défini par ses types de données (= une fonctionnalité). Schéma de traitement de la donnée (diapo 7) : Récolte donnée brute création d’un fichier d’échange (CSV séparateur « ; ») insertion des fichiers dans le SI, par type de fichier (nom projet – nom Lac – type donnée – date de début/fin des données) extraction des données (obligation préalable de signature des conditions générales d’utilisation des données) Cette possibilité d’extraction sans contrainte correspond à une demande de l’AERMC de mise à disposition des données au public Le SI OLA a été créé à l’origine pour les grands lacs alpins mais s’est développé ces dernières années pour permettre d’intégrer les données issues des lacs d’altitude et des lacs du Massif central (Aydat, Pavin), du Jura (Remoray) et des lacs urbains (Créteil). Les suivis sur ces lacs sont plus légers ainsi certains paramètres existants dans la bdd ne concernent pas les lacs d’altitude suivi dans le cadre du réseau lacs sentinelles (diapo 8 et 9), pour cela tous les champs des fichiers d’échanges ne sont pas obligatoires. De nouveau type de données sont en cours de développement comme les données haute-fréquence (diapo 9). Les fichiers déposés dans le SI peuvent être complétés par des fichiers complémentaires (fiches protocole par exemple qui sont automatiquement téléchargés à l’export des données correspondantes). Certaines données comme les données météo sont gérées dans un autre SI (volonté de faire des passerelles entre ces 2 bases). Droits d’utilisation et types d’utilisateurs On peut être administrateur/dépositaire/gestionnaire (ajouter/modifier donnée, avant de rendre la donnée visible : publier) Le consultant peut être de deux types : public ou référencé (données de synthèse/données ouvertes). L’utilisateur public est malgré tout un utilisateur qui a obtenu un login/mot de passe ; sans cette démarche on ne peut avoir accès qu’à la liste des données disponibles (diapo 11,14). L’utilisateur public a signé la charte et il est aussi référencé. Donc tant qu’un utilisateur n’a pas fait expressément de demande d’accès, il est un « utilisateur public » ayant accès aux données publiques (celles qu’on laisse accessibles sans demande particulière). « Public » est en fait un utilisateur auquel on affecte des droits et par défaut dès que quelqu’un a un compte il hérite de ces droits. Les données des lacs sentinelles sont donc publiques. Problème de données existantes dans d’autres bases qui peuvent être déposées dans le SI : ex. des données thermies de l’ONEMA Comment le spécifier dans le SI ? (obligation de citer une BDD initiale ? citation dans la publication). Point qui devra être rediscuté en Conseil scientifique. 2 types de données (diapo 31) - Expérimentale : valeur - Ddr : donnée de référence (définies par admin, peu changeantes) : unités/Nom lacs/ listing taxons (…) attention à l’écriture de cette donnée (si on veut changer la donnée de référence il faut republier toutes les données associées à l’ancienne référence : possible, mais à éviter !) Le SI n’intègre pas la donnée si problème de correspondance. L’administrateur peut assez facilement ne pas rendre accessible une donnée (un paramètre, une année…). L’informer si besoin (diapo 18). Gestion des notifications au sein du SI (diapo 19) Ne se fait pas par envoi de mails, il existe une interface de messagerie (enveloppe en haut d’écran). Si erreur, elle est signalée dans cette interface. Le scénario de publication d’un lot de données 1) Mise au format d’échange des données (en csv) à l’aide des fichiers d’échanges type. Ces fichiers comportent des aides à la saisie et des menus déroulants correspondants au ddr pour éviter les erreurs. Ces fichiers ont été faits sous Excel et toutes les infos ne sont pas lisibles sous open office. La procédure sous open office est à repréciser. 2) Attribution d’un nom au fichier qui renseigne sur : le projet, le site, la plateforme, la période, le type de données. 3) Connection au SI OLA avec un login ayant les droits de dépôt et éventuellement de publication. 3) Mise en dépôt du fichier (après une première vérification par le SI). 4) Publication des données contenues dans le fichier (après une vérification fine du contenu du fichier). Principe général de dépôt de fichier Attention, un fichier actualisé peut être redéposé sous le même nom (c’est celui-ci qui s’affiche). Mais il vaut mieux supprimer l’ancien. Possibilité de dépublier un fichier (diapo 25). Lors de la publication, il peut y avoir aussi des messages d’erreur (si doublons par ex). Possibilité de télécharger le fichier publié/le supprimer Possibilité future (en cours de développement) de déposer des fichiers libres (contrôle uniquement sur le nom du fichier, mais pas sur le contenu) (diapo 27). Des fichiers d’échange seront proposés, mais ils ne seront pas contrôlés (dans un 1er temps). - - Les appareils de mesure (sonde, thermistors) peuvent constituer des données de référence dans la Bdd c’est-à-dire que chaque sonde est identifiée comme unique (exemple on retrouve la sonde PNE, celle du PNV …). Ce travail de précision n’a pas été fait pour les thermistors. Cela parait intéressant pour détecter d’éventuels disfonctionnements. Point à discuter en CS. Les données qui sont insérées dans le SI doivent être contrôlées en amont et être validées par un scientifique. Sinon, il y aurait la possibilité de contrôler la cohérence des données dans le SI (en affectant par ex. des plages de valeurs cohérentes : message d’erreur si on est en dehors de ces plages) mais pour l’instant ces plages ne sont pas définies. Problèmes courants lors de la mise en dépôt (diapo 39): - Attention : supprimer les lignes dans le fichier Excel (conservation des ;) qui se trouvent sous les lignes de données et ne pas faire seulement effacer le contenu (cf visualisation de la feuille dans le bloc note). Ces lignes peuvent en effet cacher des espaces ou autres artéfacts. - Mettre les fichiers au format csv (diapos 35 à 37) - Dans le champ commentaire : ne pas utiliser « ; », mais autre séparateur type « / » «_ » - Mauvais nom de fichier (attention aux séparateurs) - Périodes de chevauchement (si hors période saisie) - Mauvais lieu de dépôt : enregistré des données du lac d’Anterne dans le dossier Brévent. - Problème de taxon (faute de frappe ou non référencé dans les Ddr) - Champs vides (noms du lac non implémenté sur toutes les lignes) Valeur non conforme au champ Décalage de colonne Si pas de valeur, ne rien mettre dans le champ (sauf si champ obligatoire), mais ne pas inscrire «- » ou « NA » Respect des valeurs qualitatives (géré par menu déroulant) Problèmes courants à publication diapo 40) : - doublons de valeurs - Ddr non référencées dans le SI (à voir avec l’admin) Consulter les éventuels messages d’erreur au dépôt qui renseignent sur le type d’erreurs réalisées (diapo 47). Précisions pour chaque fichier de données Conditions de prélèvement Temps : pas nécessaire de le renseigner Par contre, renseigner T°C ext Dans le champ « Commentaire » : mettre l’adresse URL des fiches missions saisies sur le site internet du réseau. Données sonde Sélection données réalistes : voir profondeur pour le début et arrêter au pic de chlorophylle pour le fond. Les données de pH sont liées à la photosynthèse, plus elle est importante, plus le pH diminue. Si la respiration est importante le pH augmente. Le pH est également lié au substrat. Chlorophylle a Importance de la hauteur de colonne d’eau prélevée pour analyser la chlorophylle a. Idéalement, il faudrait prélever sur la zone euphotique A discuter au CS car tout le monde ne fait pas la même chose. Au PNM, 3 prélèvements sont faits : fond + surface + 1,5xsecchi. Zooplancton Attention : pour les stades de développement, ne pas confondre « tout stade de dvlpt confondus »qui n’existent pas en Ddr et « sans stade ». Dans le SI, la donnée de référence est en ml/m2 et pas en m3. A voir si elle doit être créée. Phytoplancton Beaucoup plus d’espèces dans les Alpes du Nord que dans le sud (problème de systématique INRA/IMBE ?) à discuter en CS. Logiciel SHL sondes : Logiciel développé à l’INRA pour le nettoyage de données brutes issues des sondes et mise au format du fichier Kor-exo au format type SOERE. Possibilité de configurer les métadonnées pour que seules les données qui nous intéressent soient affichées / et pour ajouter des métadonnées de configuration. La mise à jour des configurations n’est pas automatique. Une fois le fichier de configuration créé, bien le conserver. Faire circuler le fichier de configuration sur les lacs du réseau. Fichier traité = nom du fichier.shl (ne peut être ouvert que par ce logiciel) Données en rouge peuvent être supprimées. Affichage graphique des données possible et exportation possible au format imag. Une fois validé par le vérificateur (fichier intitulé « VALIDE »), le fichier peut être exporté au format SI. On peut revenir en arrière et enlever la validation. Pb d’affichage des données une fois le fichier source intégré dans le logiciel : Ghislaine vérifie que le logiciel prend bien en compte le même ordre de pose des capteurs que sur la sonde. Pb plutôt lié au fait que les données décimales doivent être séparées par « . » et pas par « , ». Dépend de l’export du fichier txt ou de la configuration de l’ordi ? Ctrl F (permet dans le fichier de remplacer les « , » par des « . »). Il faut bien configurer l’ordi (paramètre régional / configuration détaillée / décimale… ou région et langue/ modifier l’heure…). Il faudra étudier l’utilisation de ce logiciel pour les fichiers sonde du réseau en 2017. Script R créé pour le rapport annuel En 2017, l’utilisation du script R devra se faire en utilisant les fichiers qui sortent du SI et pas ceux qu’on insère pour éviter toute erreur de saisie et car la classe (phyto et zoo) est renseignée (alors qu’elle ne l’ait pas sur les fichiers entrants). Projet financé avec le concours de l’Union européenne. L’Europe s’engage sur le Massif Alpin avec le Fonds Européen de Développement Régional