Outil de visibilité des contributions européennes de - Nouba
Transcription
Outil de visibilité des contributions européennes de - Nouba
Outil de visibilité des contributions européennes de DARIAH Contexte Il a été proposé aux partenaires du projet européen DARIAH (http://dariah.eu) d’exprimer les contributions des pays en utilisant un formalisme de type RDF, basé sur un modèle commun (cf. template joint à ce document). L’idée principale de ce dispositif est de disposer de données non centralisées, gérées individuellement par chacun des partenaires, en les reliant avec des données issues du Web de données. I- Description générale de l’outil à développer L’outil comportera trois parties : 1- Une chaîne d’ingestion des données (au départ une centaine de pages HTML utilisant le formalisme RDFa) qui permettra de les intégrer dans un Triple Store, qui sera accessible via un SPARQL End point. Le Triple Store pourra être utilisé directement par les différents partenaires européens, soit en utilisant un plugin dans un CMS, soit en utilisant toute autre application. 2- Un outil d’indexation et de recherche, qui utilisera les données extraites du Triple Store. Pour les sites « dariah.eu » et « dariah.fr », on a besoin, en particulier, d’un outil générique indépendant, qui permette d’interroger et donc de valoriser ces contributions sans dépendre d’un CMS particulier. Cet outil générique indépendant interrogera directement le Triple Store précédemment créé et permettra : - des interrogations « standard » (types de contributions, annuaire des personnes…) semi-statiques ; - des présentations « augmentées » (Cartes des contributeurs, liens avec des données de Geonames, DBpédia etc.) ; - de bâtir ses propres requêtes en utilisant des gabarits d’interrogations reconfigurables en SPARQL ; - d’effectuer des recherches plus pointues sur un mode full text (e.g. recherche à facettes et/ou dans le texte des contributions). 3- Une chaîne de traitement des données, exprimées sous forme d’URIs. Ces données issues du Triple Store seront reliées avec d’autres données issues d’autres entrepôts du web de données (ex. : DBpedia, sur le modèle de Joconde Lab : http://jocondelab.iri-research.org/jocondelab/). L’un des autres buts importants recherchés est de faire de cet outil une vitrine de l’utilisation du Web _______________________________________________________________________________ TGIR Huma-Num - UMS 3598 CNRS – Aix-Marseille Université – Campus Condorcet 4, rue Lhomond, F-75005 Paris Tél. : +33(0)1 55 42 83 10/12 Fax : +33(0)1 55 42 83 19 Huma-Num.fr de données, en s'ouvrant vers l’extérieur, et inversement d’intégrer les données de Triple Stores existants (e.g. DBpédia etc.) dans les résultats de recherche. Cet outil devra être indépendant et réutilisable pour d’autres projets. Option En option, afin d’améliorer l’efficacité du processus précédent, on souhaiterait disposer d’un outil permettant aux contributeurs d’associer à leur mots clés libres des URIs d’autres Triple Stores. Cet outil devra présenter les fonctionnalités de type crowd sourcing (telles qu’elles existent dans Joconde Lab). II- Description technique de l’outil Chaîne d’ingestion Des dispositifs d'ingestion de données RDF vers des Triple Stores existent (e.g. any23 https://any23.apache.org/) mais il faut leur associer un dispositif de « crawl » même rudimentaire (e.g. a minima une liste d’URLs). L’outil doit permettre de récupérer des données, exprimées suivant le modèle DARIAH, qui sont stockées à différentes URLs et également provenant d’autres Triple Stores. Une vérification du format RDFa provenant des pages HTML et du format RDF provenant des Triple Stores, doit être prévue. Interface d’interrogation L’interface d’interrogation intégrera des recherches standard (e.g. listes des contributeurs, des institutions, des responsables scientifiques, etc.) mais permettra également des recherches libres sur tout le texte des contributions. Pour réaliser les fonctionnalités de recherche et de présentation demandées, on doit combiner des pages statiques (éventuellement re-générées à intervalles réguliers) pour les recherches standard avec une indexation par un moteur de type SOLR (http://fr.wikipedia.org/wiki/Apache_Solr) pour disposer de recherches à facettes et dans le texte des contributions. Liens avec des données d’autres Triple Stores Les données proviendront de (liste non exhaustive): - DBpedia / Semanticpedia - geonames - viaf - lexvo - orcid - idref Description précise des fonctionnalités de l’outil d’indexation et de recherche L’outil de recherche comprendra : - des recherches prédéfinies (e.g. liste des institutions, liste des responsables scientifiques, liste des 2 responsables scientifiques et de toutes les personnes impliquées dans la contribution, liste par types de contribution, liste des projets affiliés, liste des corpus, liste des thesaurus, liste des outils, liste des logiciels, liste par type d’objets de recherche au sens du vocabulaire TADIRAH, etc.) - une recherche générale dans le texte complet des contributions, assortie des possibilités de restriction en utilisant des champs dont le contenu est normalisé (e.g. Pays, VCCs, Année, Disciplines, Types de contribution, Institutions, Personnes etc.) Voir la maquette des différents écrans souhaités en annexe. III- Remarques générales Les développements doivent être réalisés à partir de logiciels libres et seront librement diffusables, par exemple, par le biais d’une forge. La chaîne d'indexation de données RDF/XML vers Solr doit être développée de manière indépendante et doit être réutilisable sous réserve de paramétrage pour d’autres projets. Il sera donc nécessaire de bien séparer ces deux réalisations dans l’outil développé. L’application doit comporter : - un fichier de configuration permettant de l’installer sur différents hébergements ; - des feuilles de styles afin de pouvoir adapter l’aspect de l’outil aux besoins ciblés (en première approche, les sites dariah.eu et dariah.fr) ; - un fichier de configuration pour la traduction de l’interface IV- Exemples de réalisations similaires Projet UNESCO - Plan For Learning (http://plan4learning.iiep.unesco.org/) C’est un projet assez semblable dans l'esprit même si le Triple Store n'est pas accessible directement. La technologie utilisée est un Solr associé à un « Triple Store » Sesame. Le contenu est bâti sur des notices bibliographiques exprimées en RDF. Les facettes choisies sont soit hiérarchiques soit « à plat » et la carte est utilisée pour affiner les recherches. Un alignement avec DBpedia a été fait pour les institutions (pour l’instant, il s’agit un simple lien). Les pages HTML sont pré-générées deux fois par jour. 3 Projet VIVO - Partage de données scientifiques (http://vivoweb.org) Les données distribuées sont gérées dans des « Triples Stores » (probablement un Triple Store intégré) associé à un moteur de recherche Solr. Le projet propose des outils de visualisation performants associés au projet. Quelques applications utilisant ces données : - Un outil de recherche basé sur ces technologies (http://beta.vivosearch.org/) Le côté intéressant est la présentation des résultats avec des facettes et des onglets de résultats (personnes, organisation, activités, etc.). L’outil est basé sur Drupal avec un plugin qui interroge l’index Vivo généré par Solr - Un bookmarklet qui utilise bien le côté enrichissement (http://about.vivosearchlight.org/) Version Beta du portail Ortolang (http://portail.ortolang.fr/result.php/) L’indexation des données est effectuée par un moteur Solr. Les données proviennent de champs exprimés en Dublin-Core moissonnés sur les deux entrepôts OAI (SLDR et CNTRL) mais pas de Triple Store. V - Modalités administratives Echéancier de paiement 30% à la signature du contrat 30% à la fourniture de la 1ère version de l’application 40% à la livraison finale 4 Ecran de recherche principal Recherche libre plein texte Facettes Pays Année Disciplines Types de contribution VCC Institution Personnes Recherches prédéfinies Mots clés libres cf. page suivante Liste des résultats Recherche prédéfinies (liste non exhaustive) Annuaire des institutions Annuaire des responsables scientifiques des contributions Annuaire des personnes (responsables scientifiques et autres personnes prenant part à une contribution) Annuaire des projets affiliés Liste des corpus Liste des thesaurus Liste des outils Affichage des résultats Enrichissement Geonames Enrichissement VIAF Donnée brute Enrichissement DBpedia Enrichissement Lexvo Lien vers d’autres ressources (internes/externes) file:///L:/ADONIS/Financier/Contrats/Dariah/Contributions/open_editi... 1 sur 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 view-source:file:///L:/ADONIS/Financier/Contrats/Dariah/Contribution... <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd"> <html xml:lang="en" version="XHTML+RDFa 1.0" xmlns="http://www.w3.org/1999/xhtml" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:cc="http://creativecommons.org/ns#" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:sioc="http://rdfs.org/sioc/ns#" xmlns:sioctype="http://rdfs.org/sioc/types#" xmlns:skos="http://www.w3.org/2004/02/skos/core#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:xsd="http://www.w3.org/2001/XMLSchema#" xmlns:vcard="http://www.w3.org/2006/vcard/ns#"> <head> <meta content="text/html; charset=utf-8" http-equiv="Content-Type" /> <title>DARIAH contribution template </title> <!-- Version 08/04/2014. --> <!-- RDFa Annotations (meta type). --> <!-- Fixed values. --> <!-- Type of document. Fixed value don't edit. --> <meta rel="dc:type" href="http://purl.org/ontology/bibo/Webpage" /> <!-- Type DARIAH (DARIAH Contribution). Fixed value don't edit. --> <meta rel="vcard:category" href="http://data.dariah.eu/vocabularies/type/contribution"/> <!-- Enter your specific information below. --> <!-- Location of the page (URI) describing the contribution. --> <link rel="dc:identifier" href="http://data.dariah.eu/pages/contributions/open_edition_sample_dariah_v1.html" /> <!-- Title of the contribution (in English). --> <meta property="dc:title" content="Electronic publishing with OpenEdition" xml:lang="en" /> <!-- Date of the contribution, please enter as a date the first of January of the current year (syntax: yyyy-mm-dd). --> <meta property="dc:date" content="2014-01-01" /> <!-- Name of the organisation which is in charge of the contribution (short name). --> <meta property="dc:publisher" content="OpenEdition" xml:lang="en" /> <!-- Logo associated with the contribution. --> <meta rel="vcard:logo" href="http://cleo.openedition.org/wp-content/uploads/2012/09/logoOE_300dpi.png" /> <!-- Geographical location of the organisation. Use URI from Geonames. --> <meta rel="dcterms:spatial" href="http://sws.geonames.org/2995469/about.rdf" /> <!-- Links to the collection or website of the contributing organisation. --> <meta rel="dc:relation" href="http://cleo.openedition.org" /> <!-- Name of the organisation. Duplicate if there is more than one. --> <meta property="vcard:organization" content="CNRS" xml:lang="en" /> <meta property="vcard:organization" content="University of Aix-Marseille" xml:lang="en" /> <meta property="vcard:organization" content="University of Avignon" xml:lang="en" /> <meta property="vcard:organization" content="EHESS" xml:lang="en" /> <!-- Name of the country responsible for the contribution. Use URI from Geonames. --> <meta rel="dc:coverage" href="http://sws.geonames.org/3017382/about.rdf" /> <!-- List of free keywords. Duplicate the tag if there are several keywords. --> <meta property="dc:subject" content="TEI P5" xml:lang="en" /> <meta property="dc:subject" content="Open Source" xml:lang="en" /> <!-- Abstract of the contribution in English for publication on the DARIAH-EU web site. Please keep English ("en”) as xml:lang atttribute. --> <meta property="dcterms:abstract" content="OpenEdition is a comprehensive publishing platform (Books, Journals, Blogs, Events)" xml:lang="en" /> <!-- Abstract of the contribution in your language. Your language is mentioned in the xml:lang attribute. Please use ISO 639-1 in lower case. --> <meta property="dcterms:abstract" content="OpenEdition est une plateforme complète d'édition électronique (livres, revues, blogs, événements)" xml:lang="fr" /> <!-- Description of the contribution in English. Please keep English ("en”) as xml:lang atttribute. We suggest you describe here as precisely as possible (there is no length limitation): - your experience and/or expertise - what you will provide DARIAH with - adaptations made specifically for DARIAH --> <meta property="dc:description" content=" 1) Previous experience - Domain(s) of expertise The Centre for Open Electronic Publishing develops Revues.org, a platform founded in 1999 and which became the main open access platform for academic electronic publishing in France. Revues.org is also open to European-scale publishers (for example: Belgium, Switzerland, Spain, Portugal, Germany, Italy, Greece, Slovenia, and the Czech Republic). The journals' sites hosted by Revues.org are published by Lodel software, a Content managing System created and developed by the Cléo. Revues.org is now enhanced by three other platforms, which together form OpenEdition, a complete framework for scientific publishing and information: - Calenda, an open-access calendar for arts, humanities and social sciences events (conferences, seminars, calls for papers, etc.) created in 2000. Calenda is the main calendar for HSS on the European scale. A multilingual version of the Calenda site will be launched in 2012. - Hypotheses.org, a platform for research blogs developed with WordPress since 2008, available via several linguistic portals (French, German, Spanish, Portuguese). - OpenEdition Books, a platform for book series launched in 2013: in the future, it will disseminate 15,000 books from 100 European academic publishers. OpenEdition portal, launched in 2011, provides users, publishers and libraries with services based on this set of over 200,000 documents: alerts and subscriptions, Calenda web service, publication announcements, consultation statistics in accordance with the COUNTER norm, etc. The OpenEdition sites and platforms are visited 3.5 million times a month, by the entire world. OpenEdition has been accredited as an 'Equipement d'excellence' (Facility of excellence) by the French government Equipex program. 2) What will be provided to Dariah Cléo proposes to develop and disseminate: - the web sites of 25 journals - the electronic publishing of 5 editors' catalogues - 100 research blogs - 100 conference announcements in the field of Digital Humanities " xml:lang="en" /> </head> <!-- Other RDFa annotations: please enter your specific information below. --> <body> <div> <!-- Disciplines You can refer to the classification provided in the file "label-ssh" downloadable from the DARIAH wiki. We strongly encourage you to use as many relevant tags as possible. --> <span rel="sioc:topic"> <span typeof="skos:Concept"> <span property="skos:prefLabel" content="http://archive-ouverte.org/disciplines/history" xml:lang="en" ></span> <span property="skos:prefLabel" content="http://archive-ouverte.org/disciplines/geography" xml:lang="en" ></span> <span property="skos:prefLabel" content="http://archive-ouverte.org/disciplines/demography" xml:lang="en" ></span> </span> </span> <!-- Activities described by TADIRAH vocabulary You can refer to the classification provided in the file "tadirah-activities" downloadable from the DARIAH wiki. We strongly encourage you to use as many relevant tags as possible. --> <span rel="sioc:topic"> <span typeof="skos:Concept"> <span property="skos:prefLabel" content="http://data.dariah.eu/vocabularies/tadirah/activities/creation/designing" xml:lang="en" ></span> <span property="skos:prefLabel" content="http://data.dariah.eu/vocabularies/tadirah/activities/meta-activities/assessing" xml:lang="en" ></span> </span> </span> <!-- Name(s) of the DARIAH VCC(s) involved. Duplicate the tag, if several VCCs are involved. --> <span rel="sioc:has_scope"> <span typeof="skos:Concept"> <span property="skos:prefLabel" content="http://data.dariah.eu/vocabularies/VCC/VCC3"></span> </span> </span> <!-- Name of the type of in-kind contribution See the file "types-of-in-kind-contribution" downloadable on the DARIAH wiki. Duplicate the tag if several types of in-kind contribution are involved. --> <span rel="sioc:has_scope"> <span typeof="skos:Concept"> <span property="skos:prefLabel" content="http://data.dariah.eu/vocabularies/type_of_in_kind_contribution/access" xml:lang="en"></span> <span property="skos:prefLabel" content="http://data.dariah.eu/vocabularies/type_of_in_kind_contribution/expertise" xml:lang="en"></span> </span> </span> <!-- Identifier of the scientific person in charge. --> <!-- "href" section must contain a URI about the person. Use orcid or a similar resource (e.g. foaf profile). --> <span rel="dc:creator"> <span typeof="foaf:Person" about="http://orcid.org/0000-0002-9361-5295" > <!-- Name of the person (order: given name + surname, e.g. "Roberto Busa"). --> <span property="foaf:name" content="Marin Dacos"></span> <!-- Publications. Use viaf, idref or a similar resource --> <a rel="foaf:publications" href="http://www.idref.fr/139753753"></a> </span> </span> <!-- Name and/or identifier of the people involved in the contributions. --> <!-- "href" section must contain a URI about the person. Use orcid or a similar resource (e.g. foaf profile). --> <span rel="dc:creator"> <span typeof="foaf:Person" about="http://orcid.org/0000-0003-0691-6063" > <!-- Name of the person (order: given name + surname, e.g. "Roberto Busa"). --> <span property="foaf:name" content="Pierre Mounier"></span> <!-- Publications. Use viaf, idref or a similar resource --> <a rel="foaf:publications" href="http://viaf.org/viaf/280303860"></a> </span> </span> <span rel="dc:contributor" href="" typeof="foaf:Person"> <span property="foaf:name" content="Delphine Cavallo"></span> </span> <span rel="dc:contributor" href="" typeof="foaf:Person"> <span property="foaf:name" content="Inès Secondat de Montesquieu"></span> </span> <span rel="dc:contributor" href="" typeof="foaf:Person"> <span property="foaf:name" content="Bruno Cénou"></span> </span> <span rel="dc:contributor" href="" typeof="foaf:Person"> <span property="foaf:name" content="Jean-Christophe Peyssard"></span> </span> <span rel="dc:contributor" href="" typeof="foaf:Person"> <span property="foaf:name" content="Claire Lemercier"></span> </span> <span rel="dc:contributor" href="" typeof="foaf:Person"> <span property="foaf:name" content="Philippe Cibois"></span> </span> <span rel="dc:contributor" href="" typeof="foaf:Person"> <span property="foaf:name" content="Sylvain Piron"></span> </span> </div> <!-<!-<!-- ********************* Put your HTML below ********************* --> --> --> <h1>DARIAH Contribution</h1> <!-- Title --> <h2>Electronic publishing with OpenEdition</h2> <!-- Publisher --> <h4>OpenEdition</h4> <!-- Abstract --> <p> OpenEdition is a comprehensive publishing platform (Books, Journals, Blogs, Events) </p> <!-- Description --> <p> 1) Previous experience - Domain(s) of expertise The Centre for Open Electronic Publishing develops Revues.org, a platform founded in 1999 and which became the main open access platform for academic electronic publishing in France. Revues.org is also open to European-scale publishers (for example: Belgium, Switzerland, Spain, Portugal, Germany, Italy, Greece, Slovenia, and the Czech Republic). The journals' sites hosted by Revues.org are published by Lodel software, a Content managing System created and developed by the Cléo. Revues.org is now enhanced by three other platforms, which together form OpenEdition, a complete framework for scientific publishing and information: - Calenda, an open-access calendar for arts, humanities and social sciences events (conferences, seminars, calls for papers, etc.) created in 2000. Calenda is the main calendar for HSS on the European scale. A multilingual version of the Calenda site will be launched in 2012. - Hypotheses.org, a platform for research blogs developed with WordPress since 2008, available via several linguistic portals (French, German, Spanish, Portuguese). - OpenEdition Books, a platform for book series launched in 2013: in the future, it will disseminate 15,000 books from 100 European academic publishers. OpenEdition portal, launched in 2011, provides users, publishers and libraries with services based on this set of over 200,000 documents: alerts and subscriptions, Calenda web service, publication announcements, consultation statistics in accordance with the COUNTER norm, etc. The OpenEdition sites and platforms are visited 3.5 million times a month, by the entire world. OpenEdition has been accredited as an "Equipement d'excellence" (Facility of excellence) by the French government Equipex program. 2) What will be provided to Dariah Cléo proposes to develop and disseminate: - the web sites of 25 journals - the electronic publishing of 5 editors' catalogues - 100 research blogs - 100 conference announcements in the field of Digital Humanities </p> </body> </html> 08/04/2014 15:59