Rapport d`étape 2005
Transcription
Rapport d`étape 2005
Projet XPER BOTANICA Rapport d’activité, première année Le projet fait l'objet d'un soutien du Ministère délégué à la Recherche et aux Nouvelles Technologies - Programme : "Usages des nouvelles technologies pour la société" - Décision n°04L370 - ©Régine Vignes Lebbe Partenaires : - Laboratoire Informatique et Systématique (Université Paris 6) - Association Tela Botanica Introduction L’objectif de ce projet est de mettre en place un système multimédia d’aide à l’identification des végétaux de la flore française. Ce système sera déployé sur différentes plateformes (microordinateurs, organisateurs de poche, portail Web…) et permettra une mise à jour simple et régulière des données. Il s’agit de mettre en ligne un système proposant une Identification Assistée par Ordinateur (IAO) associant interactivité, graphismes, et connaissances complémentaires extraites des descriptions informatisées sur les espèces, genres, familles etc., et ce adapté à différents publics (amateurs, professionnels de l’environnement, scientifiques…) Le projet comporte donc un défit informatique avec le développement d’un service riche en fonctionnalités, évolutif, multimédia et un défit collaboratif pour l’organisation, la collecte et la saisie des descriptions végétales. A la fin de cette première année nous disposons de moyens d’édition permettant aux contributeurs botanistes d’alimenter le projet en nouvelles bases de connaissances, et d’un prototype d’identification en ligne permettant de tester et d’évaluer de nombreuses fonctionnalités : identification interactive sans stratégie imposée, construction automatique de diagnoses pour caractériser les espèces, rédaction en langage naturel des descriptions codées dans les bases de connaissances, calcul des espèces proches etc. L’ensemble est accessible sur le site web du projet à l’adresse : : http://lis.snv.jussieu.fr/apps/xper2/xper-botanica/ . Cependant des difficultés imprévues au niveau de la participation des contributeurs botanistes ont conduit à modifier significativement le planning prévisionnel c’est-à-dire l’ordre de priorité des développements. Ceci sera décrit au niveau de chaque sous-projet. Un mode de collaboration moins centralisé est choisi pour la seconde année du projet. Réalisations Sous projet 1 : Choix des espèces végétales cibles et des caractères descriptifs (1) Rappel de la description prévisionnelle du sous projet 1 Le sous-projet 1 visait d’une part à constituer une liste limitée de plantes à utiliser comme test pour valider les étapes suivantes, et d’autre part à définir tous les caractères morphologiques nécessaires à leur identification. Il s’agissait également de définir les valeurs types que pourront prendre ces différents caractères pour le groupe de plantes considérées (codage des couleurs, des formes et autres caractères morphologiques : racines, tiges, feuilles, fleurs, fruits…). Le choix des espèces à intégrer au projet pour effectuer le premier test est crucial car le système doit permettre de répondre à une demande des botanistes afin qu’ils acceptent de coopérer au projet, mais il doit aussi répondre à des contraintes taxonomiques. En effet, l’ensemble des espèces doit être suffisamment cohérent et homogène pour permettre d’en réaliser une description standardisée dans la base de connaissances pour l’échantillon test. Le choix du groupe de plantes et la définition des caractères descriptifs seront réalisés par une petite équipe de botanistes confirmés du réseau Tela Botanica animé par un spécialiste en floristique en relation étroite avec les informaticiens du LIS et les ingénieurs permanents de Tela Botanica. * Objectif : fournir une liste de 200 espèces de plantes environ avec leurs caractères de description morphologique. * Durée : 4 mois (2) Choix d'un jeu de plantes test Sous la direction de Valéry Malécot, expert botaniste, notre choix c'est porté sur l'ordre des Dipsacales qui rassemble les familles des Adoxaceae (7 espèces), Linnaceae (1 espèce) Caprifoliaceae (9 espèces), Dipsacaceae (45 espèces) et Valerianaceae (30 espèces), soit 94 espèces au total, nombre voisin de la centaine de taxons prévue. Choix de l'ordre des Dipsacales Les critères de choix de l'ordre des Dipsacales ont été les suivants : • la taille du groupe (une centaine d'espèces en France maximum) • la grande diversité morphologique (en particulier de l'appareil végétatif et des inflorescences) mais avec une homogénéité dans la structure florale (ovaires toujours infères, fleurs toujours à 4 cycles). • la connaissance du groupe (Valéry Malécot a déjà travaillé sur le genre Viburnum, Joël Mathez sur les Valerianaceae) • l'absence (ou presque) de plantes protégées ou rares (c'est à dire dans les listes officielles de plantes protégées ou dans le livre rouge des espèces sensibles) • l'absence de genres considérés comme difficiles (bien que le genre Knautia contienne quelques espèces réputées difficiles) • l'absence d'espèces croissant dans des milieux peu courants (tourbières en particulier) Choix des espèces cibles N'ont été retenues que les espèces sauvages poussant en France métropolitaine, Corse comprise, c'est à dire que les espèces mentionnées comme naturalisées ou cultivées dans la Base de Données Nomenclaturale de la Flore de France, ne font pas parti de la liste. De même les hybrides n'ont pas été retenus. En tout, 92 espèces (cf.: annexe 1 Liste des taxons) ont été retenues pour la base de connaissance. (3) Choix des caractères descriptifs La deuxième partie du travail a consisté à établir une fiche de description type prête à remplir pour chaque taxon. Ces fiches sont capitales pour la suite du projet car elles constituent le squelette de la base de connaissances. Elles sont préalables au travail de collecte des données par les botanistes expérimentés du réseau Tela Botanica et font appel aux compétences d'un spécialiste en botanique (Valéry Malécot). L'analyse morphologique des plantes retenues a permis d'identifiés un total de 100 descripteurs (ou caractères), dont 96 comportent entre 2 et 9 états (cf. Annexe 2 Liste des caractères). A priori, ces descripteurs sont suffisants pour identifier et discriminer toutes les espèces de l'ordre des Dipsacales. Le système descriptif ainsi défini a ensuite été saisi informatiquement avec le logiciel Xper² par une stagiaire Manon Pechberty1 (stage encadré au L.I.S.). Cette stagiaire biologiste a également réalisée les premières descriptions d’espèces de Dipsacales afin de valider le choix des caractères et d’ajouter les premières illustrations et explications des caractères. (4) Conclusions Le projet dispose à la fin de cette étape d'une base de descripteurs adaptée à l'ordre des Dipsacales et de la liste d'espèces végétales qui s'y rapporte. L'objectif fixé est donc atteint. L’ensemble est édité informatiquement et forme une première base de connaissances accessible avec le logiciel Xper² et prête à être complétée par la description de chaque espèce. Cette première étape du projet Xper Botanica a permis par ailleurs de tester le logiciel Xper² en ce qui concerne la constitution de la base de données. 1 Manon Pechberty, 2005. Mémoire de Master 1, Université Pierre et Marie Curie. Sous projet 2 : « Réalisation des outils d'édition de la base de connaissances et mise en place du serveur coopératif » (1) Rappel de la description prévisionnelle du sous-projet 2 Le LIS mettra à disposition ses logiciels permettant l'édition locale de base de connaissances. Des développements complémentaires seront faits pour les adapter aux besoins du projet : – Documentation et service d'échange d'expérience et d'aide, – Import de données selon différents formats et tout spécialement l'import de fichiers tabulés (Excel) – Fusion de bases avec gestion des problèmes de cohérence et d'évaluation du niveau de discrimination des espèces décrites car l'organisation coopérative du projet avec répartition de la collecte des données entre différents acteurs conduira à l'élaboration simultanée de plusieurs bases qui devront ensuite être combinées, – Mise en place d'un système de suivi des versions type CVS permettant une traçabilité de l'évolution des bases, – Développement d'un éditeur en ligne pouvant au choix se substituer à l'édition en local. Objectifs : L'édition et le stockage de la base seront centralisés sur le serveur de Tela Botanica. Les outils d'édition doivent par conséquent permettre l'édition coopérative, l'édition en ligne sur le serveur aussi bien que l'édition en local pour ceux qui ne possèdent pas de connexion rapide. Ils devront gérer l'importation de connaissances stockées sous forme de fichiers texte structurés et la fusion de différentes sous-bases. Durée : 6 mois (Du 1er au 6ème mois) (2) Contenu d’une base de connaissances Une base de connaissance (BC) correspond à un ensemble de descriptions taxinomiques structurées selon un modèle et un vocabulaire communs les rendant comparables. Dans chaque BC, les entités décrites sont des espèces végétales. Chaque espèce est décrite pour le même ensemble de caractères. Cette description-type forme le système descriptif de la BC et contient : - une liste de caractères, - pour chaque caractère une liste définie d’états de caractères (ou valeurs observables sur un spécimen), - un ensemble de relations logiques entre caractères définissant les conditions d’applications d’un caractère. (3) Réalisations durant la première année du projet Le premier objectif de ce sous-projet était d’assurer la saisie de la base de connaissance (BC) prévue dans le sous-projet 1. Pour cela il a été décidé de fournir des moyens d’édition en local, pour éviter des connexions en ligne prolongées aux collaborateurs bénévoles de Télabotanica. Une organisation du travail a également été mise en place pour permettre à plusieurs personnes d’apporter leur contribution à une même BC (voir figure 1) mais il n’y a pas encore d’édition coopérative directe en ligne. L’import de fichiers tabulé ou texte a été abandonné pour le moment car l’édition à plusieurs sur une même BC nécessite qu’aucun contributeur ne modifie, volontairement ou intempestivement, les descripteurs (caractères) et les états (états de caractères) ce qui peut facilement être fait dans des formats d’édition (non dédié aux BC) comme un traitement de texte ou un tableur. De telles modifications rendraient les descriptions non comparables entre elles et donc inutilisables pour l’identification. Version locale du logiciel Xper² : Le logiciel Xper² a été amélioré et adapté pour répondre aux besoins spécifiques du projet. Le retour d’expérience de l’utilisation du logiciel dans sa version initiale 1.2 par des collaborateurs du LIS et par du personnel de Télabotanica a amené : - la détection et la correction de bugs (problème des espaces et accents dans les zones de textes ; rafraîchissement des fenêtres ; sauvegarde de la base et contrôle si la base a été modifiée avant de quitter le logiciel ; gestion des images ; import/export vers l’ancien format XPER) ; - l’ajout de fonctionnalités comme la saisie des taxons par lot, la possibilité d’imprimer les différents éléments de la BC, l’ajout d’un champ commentaire pour chaque grain d’information (couple taxon X descripteur), la fonction copier/coller pour une description taxonomique, la fusion de 2 bases ayant le même système descriptif, - la mise en place d’une aide. Le logiciel a également été porté sous différentes environnements : Windows, Linux et MacOS. Les procédures de téléchargement et d’installation du logiciel ont été facilitées au maximum et une aide en ligne mise en place tant pour l’installation que pour l’utilisateur du logiciel (http://lis.snv.jussieu.fr/apps/xper2/). Une version spéciale du logiciel, dédiée à la saisie des descriptions des taxons (sans pouvoir modifier le système descriptif) a été réalisée et mise à disposition des bénévoles de Télabotanica. Version en ligne : Il n'y a pas eu de développement logiciel sur cet aspect du sous-projet. Et cela pour plusieurs raisons : – l'accent a été mis en priorité sur le développement de a l version locale comme expliqué précédemment (amélioration + debug) ; – la version locale a permis de préciser les fonctionnalités et les modes d’interaction souhaités pour le système final ; – l’édition en ligne doit mettre en œuvre une organisation humaine collaborative du travail, et les réflexions sur ce point entre les partenaires du projet n’ont pas encore abouties ; les sousprojets 1 et 3 n’ont pas apporté de retour d’expérience satisfaisant sur ce point ; – enfin le développement d'un système en ligne demande des ressources humaines importantes. Il a donc été décidé de n’effectuer ce travail qu’après avoir fait évoluer et stabiliser le modèle de représentation des connaissances (voir 4- Conclusion et perspectives). Cependant une solution permettant la collaboration de plusieurs participants pour une même BC a été proposée (figure 1). Toute BC est placée sous la responsabilité d’un expert botaniste. Dans le cas de la BC Dipsacales, le responsable Valéry Malécot, a eu en charge de définir le système descriptif (sous-projet 1), puis de répartir le travail de saisie des descriptions des espèces entre les participants volontaires. Pour cela le système descriptif a été saisi avec le logiciel Xper² en version locale et testé au travers de la saisie des descriptions de quelques espèces (travail réalisé par Manon Pechberty2).Chaque contributeur est alors convié à compléter la BC pour un certain nombre d’espèces dont il se voit confier la charge. La fusion des différentes contributions est effectuée par le responsable de la BC mais cette fusion des BC n’est pas encore automatisée. 2 Manon Pechberty, 2005. Mémoire de Master 1, Université Pierre et Marie Curie. Édition d’une base de connaissance par plusieurs contributeurs Contributeurs PC linux Responsable botaniste Pc Windows MacOS BC2 5 4 BC1 Xper2 BC2 BC1 Xper2 BC1 Xper2 3 Serveur contenant les logiciels et la base de connaissance Xper2 (programme) BC1 6 BC3 Xper2 BC1 BC2 2 1 7 BC3 Xper2 (applet java) Utilitaires Xper Figure 1: Répartition de la collecte des données entre différents acteurs (1) saisie de la description-type dans une BC1 (2) mise à disposition de cette BC1 sur un serveur (3) chaque participant télécharge le programme Xper2 et une BC ne contenant que le système descriptif de l’application botanique à laquelle il souhaite apporter sa contribution. (4) Chaque contributeur édite les descriptions des taxons dont il s’est vu confié la charge par le responsable botanique de l’application. BC2 (5) Chaque BC2 est sauvegardée et zippée à l’aide d’ Xper2 puis envoyée par mail au responsable de l’application. (6) Le responsable de l’application contrôle les contributions puis fusionne les BC2 et vérifie à l’aide des fonctionnalités de contrôle des bases de Xper2 si les taxons décrits se discriminent entre eux, c’est-à-dire s’il y a assez de descripteurs dans la base totale BC3 pour que ceux-ci différencient les taxons entre eux. (7) Le responsable de la BC3 zippe à son tour la BC résultant des différentes contributions et l’envoi au responsable informatique pour sa mise à disposition sur le serveur. Celle-ci peut alors être utilisable en ligne ; c’est seulement à ce moment là que chaque contributeur peut comparer les espèces qu’il a décrit à celles décrites par les autres contributeurs. Aide et documentation : Une aide a été rédigée sous forme de FAQs (questions les plus fréquentes) : – une FAQ pour la procédure d'installation et les problèmes éventuels lors de l'installation – une FAQ pour l'utilisation du logiciel Xper² Cette aide est sous forme HTML, directement imprimable grâce à une feuille de style (css) dédiée. (http://lis.snv.jussieu.fr/apps/xper2/aide/) Par ailleurs une aide spécifique à l'édition des taxons a été faite sur le wikini de Tela-Botanica : décrivant la fenêtre de saisie, les concepts manipulés, et le processus de saisie à suivre. (http://www.telabotanica.org/papyrus.php?site=3&menu=291&id_projet=21&act=wikini&wiki=AideExpertTelaBotanica) (4) Conclusion et perspectives Cette partie du projet a permis d'améliorer le logiciel Xper² (passage de la version 1.2 à 1.4.2) mais aussi de mettre en avant les problèmes et les faiblesses du format actuel. Le projet dispose maintenant d’une version stable, adaptée au projet, bien documentée et facile d’utilisation. Une solution collaborative est en place mais nécessite d’être remplacée par un mode de fonctionnement plus pérenne avec possibilité d’édition directe en ligne. Cette première année de développement et d’utilisation des outils a permis de mettre en avant certaines faiblesses au niveau de la représentation des connaissances : – La version actuelle ne différencie pas une information inconnue ou non saisie (tous les états d’un caractère sont alors considérés comme potentiellement possibles pour le taxon non décrit) d’une information connue exprimant que tous les états d’un caractère sont réellement possibles pour le taxon. – Nécessité d’une plus grande traçabilité des informations (auteur, correcteur, date,...). L’utilisation d’un champ commentaire associé aux différents objets de la BC (taxons, descripteurs, couples taxon X descripteur) n’est qu’une solution provisoire qui ne différencie pas les différentes informations selon leur sémantique. – Pas de gestion réelle des données numériques, celles-ci doivent être discrétisées en intervalles ; – Par de représentation explicite des organes végétaux. Le regroupement des caractères par type d’organes par exemple est un moyen de faire visuellement apparaître cette information mais ne donne pas une représentation explicite de la notion de partie ou d’organe d’une plante. Les premières applications ont aussi soulevées des problèmes à résoudre : – Problème de copyright sur les illustrations : photos et schémas ; – Agrégation, et connexion des bases déjà saisies. Comment représenter les liens entre BC ? (métadonnées supplémentaires ?) ; comment construire dynamiquement une BC sur les plantes aquatiques en utilisant les descriptions déjà contenues dans d’autres BC ? Perspectives : La priorité sera donnée aux points suivants : 1. Fusion de bases : – Fusionner deux bases avec un système descriptif différent (mais que faire s’il y a des descripteurs communs ?) – Fusionner deux bases avec un système descriptif commun mais avec des espèces communes (laquelle des espèce dupliquée doit être prise en considération ?) – Comment conserver la traçabilité des saisies effectuées... 2. Système collaboratif La mise en oeuvre d'un outil collaboratif en ligne demande beaucoup plus de ressources (en personnes et en temps). Ceci est aujourd'hui en cours de conception et devrait intégrer les fonctionnalités déjà citées : – Suivi des données : (qui a rempli quoi ?, qui a validé ?, quand ? … – Agrégation, fusion et contrôle des données – Gérer un statut « non décrit » Sous projet 3 : Collecte des données pour la description des plantes (1) Rappel de la description prévisionnelle du sous projet 3 Au début de ce 3ème sous-projet nous disposons d’une liste de plantes à caractériser à partir de : – la liste de caractères morphologiques établis au sous projet 1, – l’interface de saisie des données et – le serveur permettant de centraliser les informations réalisées dans le sous projet 2. Il s’agit maintenant d’organiser le travail des botanistes de terrain pour collecter les valeurs des paramètres de chaque plante. Sur la base d’une sélection de 92 plantes et d’une centaine de caractères par plante, il faut donc collecter et valider environ 9 000 informations élémentaires. * Objectifs : Disposer du tableau des valeurs des 8 000 paramètres qui serviront à constituer la base de connaissance du groupe de plantes tests. * Durée : 4 mois (2) Appel à contribution L'objectif premier de ce sous-projet était d'assurer la collecte des données de la base de connaissance. Il s'agissait donc d'obtenir la coopération des botanistes du réseau de Tela Botanica et en particulier celle des experts en identification. La mobilisation de ces derniers était indispensable pour remplir les fiches descriptives préparées dans le sous-projet 1. Pour amorcer la participation à la Base de Connaissance d’Xper, Tela Botanica apporte les fonctionnalités de ses outils de travail en réseau : wikinis (espaces de rédaction collaborative), forums de discussion et outils de mise en relation. Dans un premier temps, le projet Xper a été lancé auprès des membres du réseau via le site Internet de l’association ( http://tela-botanica.org/papyrus.php?site=3 ). Comme pour tous les projets de Tela Botanica, un wikini ainsi qu’un forum de discussion ont été mis en place. Dans un deuxième temps tous les adhérents ont été prévenus individuellement par courrier électronique du projet et des besoins en participation. Voici l'appel lancé le 9 juin Dans le cadre d'un projet de création d'outils d'identification interactifs nommé Xper Botanica, nous recherchons des membres du réseau qui accepteraient de saisir les descriptions d'espèces appartenant aux familles des Caprifoliaceae (s.l.), Dipsacaceae et Valerianaceae. Pour participer il suffit de disposer d'échantillons d'une espèce et de les décrire en utilisant la liste de caractères fournie, soit sur le site wikini du projet (adresse : http://wiki.tela-botanica.org/outildeterminationplantes/wakka.php?wiki=Dipsacales), soit en téléchargeant et en installant l'éditeur Xper2 et la base à remplir (liens présent sur le site wikini du projet). Si vous souhaitez participer à ce projet, n'hésitez pas à vous faire connaître en envoyant un mail à [email protected] et à [email protected] . Les participants disposaient de trois outils pour remplir les fiches descriptives : – la version locale du logiciel Xper² (cf. sous projet 2), – les fiches textes sous Wikini – et les fiches textes au format Word (imprimables). L’appel n’a soulevé qu’une faible participation, seules six personnes se sont impliquées réellement dans le projet. Ces personnes ont rempli 16 fiches descriptives, correspondant à 15 taxons (1 taxon, Dipsacus fullonum, a été décrit deux fois). En conséquence la BC Dipsacales n’a été que partiellement complétée. Il importe, suite à cela, d’analyser les causes de cette faible participation des botanistes du réseau. (3) Analyses critique du déroulement de ce sous projet Face à la faible mobilisation rencontrée plusieurs explications sont apparues : L'effet « saison » Dans la détermination des plantes l'organisation florale revêt une importance capitale. Il appartient donc d'obtenir chaque taxon pendant sa floraison. Or, l'appel n'a pu être lancé que tardivement, en juin, pour des raisons techniques et logistiques (organisation en amont de la récupération des données). Au moment de l'appel 50% des plantes de la base des Dipsacales étaient en fruit et ne pouvaient par conséquent pas être décrites valablement. Il importe donc pour le prochain appel à participation de bien anticiper le facteur « saison » et de le synchroniser avec l’arrivée du printemps. La formation aux outils Chacun des trois outils proposés comportait des avantages et des inconvénients. Aucun n’a complètement pallié les défauts des deux autres. Ainsi le logiciel Xper, version locale, était bien adapté à la saisie des données mais il comportait des difficultés de prises en main, inhérente à tout logiciel, et n’était pas coopératif (non partage des données entre contributeurs). L’outil wikini était facile à mettre en œuvre et coopératif (visibilité immédiate de son travail et de celui des autres) mais non opérationnel pour l’exploitation des données, ce qui impliquait une double saisie. De plus, cet outil implique de travailler en ligne sur Internet et donc d’avoir une connexion Internet adaptée (ADSL ou câble). Enfin les fiches Word en version papier étaient bien adaptées sur le terrain, facile à mettre en œuvre et ne nécessitaient ni connexion Internet, ni ordinateur. Par contre elles ne sont pas collaboratives, elles entraînent une double saisie et ne sont pas opérationnelles pour la BC. La coopération L'une des clés (mais pas la seule) de réussite du projet Xper Botanica repose sur l'adhésion de nos adhérents au projet. Il s'avère que nous avons sous-estimé les difficultés techniques et méthodologiques pour obtenir une large participation des botanistes du réseau. L'expérience nous apprend qu'il est assez facile de faire participer à un projet un petit groupe en présentiel, lors d’une rencontre sur le terrain par exemple. Il devient beaucoup plus difficile d'emporter la même adhésion pour un groupe élargi sans rencontres physiques entre les personnes. La moindre carence de communication ou d’explication constitue un frein très puissant à la coopération. Compte tenu des attentes en terme de description de plantes, les adhérents ciblés devaient allier expertise botanique (connaissances) et disponibilité (en moyenne 3h par fiche descriptive). Les bénévoles étaient pour leur majeure partie des retraités botanistes. L’informatique en elle-même à également put être un obstacle pour ce public restreint, sans parler des difficultés liés aux outils proposés (cf. Les outils). Des contributions spontanées La faible participation recueillie sur la base de connaissance choisie comme première application test pour le projet pourrait à l’avenir être compensée par des apports autonomes sur d’autres groupes taxonomiques : 1) Monsieur René Roux a envoyé une base de connaissance sur l’intégralité du genre Rosa. Cette base est composée de tableaux de comparaisons morphologiques, de fichiers textes descriptifs et des illustrations scannées de chaque taxon. 2) Monsieur Ludovic Thiébault a réalisé les illustrations de 51 caractères morphologiques. Ces dessins au format vectoriel sont particulièrement bien adaptés à un usage dynamique (agrandi ou rétrécis les proportions restent intactes, les traits du dessin étant indépendants un lien hypertexte peut leur être attribué). La base de données des Rosa avec ses différents formats et ses descripteurs propres nécessite un travail d’adaptation et de saisie avant d’être compatible et opérationnelle avec le logiciel Xper et un appel à collaboration a été lancé. Suite du projet Après l’analyse des causes de blocage de la collaboration des adhérents au réseau, il nous appartenait d’élargir les possibilités de contributions à un cercle moins spécialiste. Pour ce faire nous avons décidé : – de travailler sur des BC de groupes plus petits, nécessitant moins de descripteurs (groupes plus homogènes). – de mettre mieux en avant les possibilités du logiciel Xper et ses applications à l’aide d’un exemple en ligne. – de rédiger un thésaurus et des illustrations des descripteurs morphologiques permettant de mieux partager les connaissance (langage commun) Des groupes taxonomiques homogènes : ILOTs On constate qu’avec l'ordre des Dipsacales le niveau de connaissances requis est trop élevé pour inciter à une large collaboration et qu’il y a trop de caractères à renseigner. Aussi vaut-il mieux travailler au niveau d’ensembles homogènes, avec moins de caractères à remplir. Nous baptisons ce concept "d'îlot taxonomique opérationnel" (ILOT pour ILot Opérationnels de Taxons). Un ILOT peut correspondre à une famille, un genre (ou partie, ou regroupement de...) et hérite des caractères de l'ILOT du dessus, dans un système d’ILOT emboîtés hiérarchiquement. Chaque ILOT doit par ailleurs être indépendant pour permettre un travail coopératif. Thésaurus Pour harmoniser le vocabulaire et les définitions utilisées dans les différentes bases la réalisation d’un thésaurus informatisé des termes botaniques a été décidé. Ce thésaurus servira d’aide lors de la création des bases et lors de l’identification en proposant des définitions et des illustrations des caractères botaniques. La construction de ce thésaurus a débuté à partir de la classification de Radford dont le livre représente le document le plus complet que nous ayons identifié et dont les données sont facilement disponibles (site web : http://www.ibiblio.org/botnet/glossary/vasc.html ). Nous nous sommes également inspiré du dictionnaire de botanique de Gatin pour compléter les descriptions en langue française. Nous avons dors et déjà créer le squelette du thésaurus sous forme de fiches gabarits (cf. annexe 3). Le format des fiches établit toutes les relations possibles entre un organe et ses descripteurs, mais aussi entre les organes eux-mêmes et, le cas échéant, les autres parties de cet organe ou les types morphologiques qui lui sont associés (un type morphologique = un organe présentant des descripteurs dans un état particulier). L'objectif des fiches gabarits est de pouvoir constituer un pool de données unique pour fusionner des bases distinctes. A l’heure actuelle nous avons listé tous les descripteurs et saisie la définition de 135 caractères morphologiques et de 4 termes descripteurs. Grâce à l’apport de Ludovic Thiébault nous disposons de 51 illustrations pour imager ces caractères. (Cf. Thésaurus et définition des termes : Voir : http://www.tela-botanica.org/papyrus.php?site=3&menu=291&id_projet=37&act=wikini) A terme ce thésaurus permettra d’abaisser le seuil de compétence botanique et permettra à un public débutant de répondre aux questions des fiches descriptives et de les compléter. 3 Conclusions et perspectives Ce sous-projet nous a permis d’améliorer notre approche concernant la description des plantes mais aussi de mettre en avant les problèmes liés à l’adhésion des membres du réseau Tela Botanica au projet. La difficulté de ce projet est qu’il nous faut innover à la fois sur les outils (utilisation du système Xper) et sur les méthodes de travail pour faciliter la coopération de personnes compétentes (donc rares) et souvent peu disponibles. La base des Dipsacales n’a été que partiellement remplie, mais nous pouvons déjà travailler sur des bases plus petites telle que celle des Pins (consultable en ligne) et celle des Rosa (à réaliser). Nous avons par ailleurs ajouté au projet une tâche non prévue initialement consistant à créer un thésaurus adapté à la description de la morphologie des plantes. Perspectives La priorité sera donnée aux points suivants : 1) Achever de définir les termes du thésaurus (travail long et fastidieux) 2) Achever d’illustrer les termes du thésaurus 3) Vérifier la complétude de ces données Puis, de poursuivre le travail d’application à des groupes de plantes homogènes (Genre Rosa, etc.) en relation avec des universitaires, dans le cadre de stages étudiants. Sous projet 4 : « Réalisation d'un prototype d'identification en ligne » (1) Rappel de la description prévisionnelle du sous-projet 4 Le système Xper² permet de disposer tout de suite d'une identification en local. Le LIS a également l'expérience de mise sur Internet de l'identification (service SERVID) et de la construction d'interface web (programme européen BIOCASE). Un nouveau système d'identifcation interactive en ligne sera réalisé par le LIS en concevant et mettant en oeuvre une nouvelle interface web pour le système Xper². Objectifs : L'objectif du sous projet est de réaliser un prototype d'identification assisté par ordinateur accessible sur Internet et bien adapté au public intéressé par l'accès en ligne à la flore de France. Ce prototype sera finalisé lors du sous projet 6 grâce au retour d'expérience du sous projet 5. Durée : 6 mois (Du 5ème au 10ème mois) (2) Réalisations durant la première année du projet Dans le cadre du projet, le LIS a poursuivi ses développements sur l’identification interactive (en local, et en ligne). Pour le prototype d’identification de ce sous-projet, le LIS apporte les fonctionnalités de ses programmes d’analyse des BC (Utilitaires XPER) pour proposer à la critique un système le plus complet possible et définir avec son partenaire Telabotanica les fonctionnalités du système final. Serveur contenant Xper2 les logiciels et (programme) la base de connaissance 1 BC Xper2 (applet java) 2 Utilitaires Xper 3 BC Xper2 Identification en local après téléchargement (logiciel et BC) Identification en ligne Utilisation d’une base de connaissance pour l’identification Figure 2 : Mise à disposition des logiciels et des BC pour l'identification Chaque utilisateur a le choix entre une identification en ligne ou en local sur son ordinateur. (1) Pour une identification en local, l’utilisateur télécharge le programme Xper2 et la BC. (2) Pour une identification en ligne, l’utilisateur se connecte sur le serveur à l’aide d’un navigateur. Il utilise ensuite le logiciel d’identification sous forme applet Java ou Java Web Start. (3) L’identification en ligne permet en plus de bénéficier de possibilités supplémentaires avec la consultation de fiches taxonomiques créées dynamiquement à l’aide d’un ensemble de logiciels C du LIS (les utilitaires XPER). Voir un exemple de fiche dynamique Figure 5. Version locale du module d'identification : Le module d'identification associé au logiciel Xper² est opérationnel dans la version locale. Ce module permet en quelques clics de procéder à la détermination d'un spécimen (figure 3). Le processus d'identification ou détermination consiste en une réitération de trois étapes essentielles : 1) sélection d'un descripteur de la liste proposée (figure 3, fenêtre A) 2) sélection de un ou plusieurs états pour le descripteur sélectionné ; l’utilisateur peut exprimer un doute ; 3) validation des choix A chaque validation ; – la liste des taxons candidats se met à jour ; – la liste des taxons éliminés se met à jour ; – la liste des descripteurs se met à jour : ceux déjà utilisés et ceux restants utilisables. Les étapes 1, 2 et 3 sont réitérées jusqu'à la fin de l'identification, – soit le taxon est identifié ; – soit il n'y a pas de taxon correspondant aux critères sélectionnés ; – soit tous les descripteurs ont été utilisés, et il reste encore plusieurs taxons possibles. Il faut alors vérifier et si possible affiner les critères. L’étape 1 peut être facilitée en restreignant la liste proposée à un groupe (descripteurs concernant seulement les feuilles par exemple). L’utilisateur peut aussi être conseillé dans la sélection des descripteurs grâce à plusieurs choix d’optimisation qui trient les descripteurs en fonction de leur efficacité pour discriminer les espèces restantes. Sélection d’un descripteur Sélection d’un ou plusieurs états Résultat de l’identification : taxons compatibles avec le spécimen Sélection d’un groupe pour limiter la liste des descripteurs Figure 3: Identification d'un spécimen avec la version Xper2 locale Le logiciel donne accès à des informations supplémentaires sur l’élément sélectionné (fenêtre active) : texte, illustrations, informations spécifiques telles que les relations de dépendance (père/fils) entre descripteurs. Ces informations sont toujours affichées dans la fenêtre Informations (en haut à droite dans la figure 3). L’utilisateur a également accès à l’historique de sa description, et voit la liste des taxons éliminés évoluée au fur et à mesure du processus d’identification (fenêtres avec les textes en rouge, fig. 3). Version en ligne du module d'identification : Une version en ligne (figure 4) de ce module d'identification a été réalisée sous forme d'applet Java (http://lis.snv.jussieu.fr/apps/xper2/applet.html) et dernièrement sous forme d'application indépendante utilisable avec Java Web Start (http://lis.snv.jussieu.fr/apps/xper2/test/index.html). Cette version en ligne est juste un portage de l'application locale existante et à terme elle devrait être localisée sur un serveur dédié. Accès à la fiche descriptive du taxon sélectionné dans la fenêtre Figure 4 : Identification avec la version en ligne Dans cette version en ligne nous avons intégré l'appel aux Utilitaires XPER déjà réalisés par le LIS : 1) Le script viewXper (figure 4) permet ainsi de déclencher la construction dynamique d’une fiche complète pour le taxon sélectionné. Cette fiche contient (figure 5) : - des illustrations du taxon si celles-ci sont présentes ; - le texte d’information sur le taxon de la fenêtre Informations, onglet Définition (figure 4) ; - la rédaction en langage naturel de la description du taxon (utilitaire XPER descrxp) ; une liste des caractères discriminants à vérifier particulièrement pour être sûre de l’identification (utilitaire XPER mindescr) ; une liste des taxons les plus proches (utilitaire XPER distinxp) ; 2 ) L’utilitaire XPER de construction automatique de clés (maKey) peut être déclenché à partir du menu Outils. Il permet d’obtenir une clé imprimable. Figure 5: Fiche descriptive d'un taxon construite dynamiquement par les utilitaires XPER (3) Conclusion et perspectives Notons tout d'abord que la plupart des informations et des fonctionnalités prévues sont accessibles et opérationnelles. Ce prototype peut ainsi être évalué grâce à une application sur le genre Pinus (base de connaissances réalisée par le L.I.S. avec la participation de Sabine Hennequin). Une réflexion plus profonde sur l'ergonomie et sur l'accessibilité aux différentes fonctionnalités sera à prendre en compte pour le produit final qui sera mis à disposition à la fin du projet. En effet, l'interface du module d'identification est perfectible. La difficulté majeure est de satisfaire les besoins et les attentes des différents profils utilisateurs : – tout le monde n'a pas la même appréhension de l'outil informatique : habitudes, préférences, réflexes – tout le monde n'a pas les mêmes besoins : un novice préférera avoir accès aux noms vernaculaire, à des schémas, .. ; un professionnel demandera plus d'informations et de fonctionnalités : téléchargement des fiches descriptives et des clés d'identification... Retour d'expérience Le retour d'expérience des différents acteurs a déjà fait ressortir ce manque de modularité, et d'ergonomie (disposition des éléments, boutons,...). L'intervention de tous les acteurs (botanistes, professionnel, étudiants) est important à ce niveau, pour proposer des idées, et des solutions nouvelles. Par exemple, il serait intéressant de pouvoir configurer l'interface à façon (par le biais d'options d'affichage): choisir d'afficher ou de masquer certaines informations, choisir le style d'affichage des éléments, des menus, ... L'essentiel est de pouvoir mettre en valeur l'accès à l'ensemble des fonctionnalités et celles plus complexes : génération de clés d'identification, fiche descriptive exportable dans des formats xml, html, pdf, téléchargement d'une base, d'une sous-base, d'un taxon,... et de coupler cette identification interactive à d'autres services web (répartition géographique, synonymie,...) Il faut nuancer cette synthèse car le module d'identification doit resté clair pour être efficace !