Outil de visibilité des contributions européennes de - Nouba

Transcription

Outil de visibilité des contributions européennes de - Nouba
Outil de visibilité des contributions européennes de DARIAH
Contexte
Il a été proposé aux partenaires du projet européen DARIAH (http://dariah.eu) d’exprimer les
contributions des pays en utilisant un formalisme de type RDF, basé sur un modèle commun (cf.
template joint à ce document).
L’idée principale de ce dispositif est de disposer de données non centralisées, gérées
individuellement par chacun des partenaires, en les reliant avec des données issues du Web de
données.
I- Description générale de l’outil à développer
L’outil comportera trois parties :
1- Une chaîne d’ingestion des données (au départ une centaine de pages HTML utilisant le formalisme
RDFa) qui permettra de les intégrer dans un Triple Store, qui sera accessible via un SPARQL End
point.
Le Triple Store pourra être utilisé directement par les différents partenaires européens, soit en
utilisant un plugin dans un CMS, soit en utilisant toute autre application.
2- Un outil d’indexation et de recherche, qui utilisera les données extraites du Triple Store.
Pour les sites « dariah.eu » et « dariah.fr », on a besoin, en particulier, d’un outil générique
indépendant, qui permette d’interroger et donc de valoriser ces contributions sans dépendre d’un
CMS particulier.
Cet outil générique indépendant interrogera directement le Triple Store précédemment créé et
permettra :
- des interrogations « standard » (types de contributions, annuaire des personnes…) semi-statiques ;
- des présentations « augmentées » (Cartes des contributeurs, liens avec des données de Geonames,
DBpédia etc.) ;
- de bâtir ses propres requêtes en utilisant des gabarits d’interrogations reconfigurables en SPARQL ;
- d’effectuer des recherches plus pointues sur un mode full text (e.g. recherche à facettes et/ou dans
le texte des contributions).
3- Une chaîne de traitement des données, exprimées sous forme d’URIs. Ces données issues du
Triple Store seront reliées avec d’autres données issues d’autres entrepôts du web de données (ex. :
DBpedia, sur le modèle de Joconde Lab : http://jocondelab.iri-research.org/jocondelab/).
L’un des autres buts importants recherchés est de faire de cet outil une vitrine de l’utilisation du Web
_______________________________________________________________________________
TGIR Huma-Num - UMS 3598
CNRS – Aix-Marseille Université – Campus Condorcet
4, rue Lhomond, F-75005 Paris
Tél. : +33(0)1 55 42 83 10/12
Fax : +33(0)1 55 42 83 19
Huma-Num.fr
de données, en s'ouvrant vers l’extérieur, et inversement d’intégrer les données de Triple Stores
existants (e.g. DBpédia etc.) dans les résultats de recherche. Cet outil devra être indépendant et
réutilisable pour d’autres projets.
Option
En option, afin d’améliorer l’efficacité du processus précédent, on souhaiterait disposer d’un outil
permettant aux contributeurs d’associer à leur mots clés libres des URIs d’autres Triple Stores. Cet
outil devra présenter les fonctionnalités de type crowd sourcing (telles qu’elles existent dans Joconde
Lab).
II- Description technique de l’outil
Chaîne d’ingestion
Des dispositifs d'ingestion de données RDF vers des Triple Stores existent (e.g. any23
https://any23.apache.org/) mais il faut leur associer un dispositif de « crawl » même rudimentaire
(e.g. a minima une liste d’URLs).
L’outil doit permettre de récupérer des données, exprimées suivant le modèle DARIAH, qui sont
stockées à différentes URLs et également provenant d’autres Triple Stores.
Une vérification du format RDFa provenant des pages HTML et du format RDF provenant des Triple
Stores, doit être prévue.
Interface d’interrogation
L’interface d’interrogation intégrera des recherches standard (e.g. listes des contributeurs, des
institutions, des responsables scientifiques, etc.) mais permettra également des recherches libres sur
tout le texte des contributions.
Pour réaliser les fonctionnalités de recherche et de présentation demandées, on doit combiner des
pages statiques (éventuellement re-générées à intervalles réguliers) pour les recherches standard
avec une indexation par un moteur de type SOLR (http://fr.wikipedia.org/wiki/Apache_Solr) pour
disposer de recherches à facettes et dans le texte des contributions.
Liens avec des données d’autres Triple Stores
Les données proviendront de (liste non exhaustive):
- DBpedia / Semanticpedia
- geonames
- viaf
- lexvo
- orcid
- idref
Description précise des fonctionnalités de l’outil d’indexation et de recherche
L’outil de recherche comprendra :
- des recherches prédéfinies (e.g. liste des institutions, liste des responsables scientifiques, liste des
2
responsables scientifiques et de toutes les personnes impliquées dans la contribution, liste par types
de contribution, liste des projets affiliés, liste des corpus, liste des thesaurus, liste des outils, liste des
logiciels, liste par type d’objets de recherche au sens du vocabulaire TADIRAH, etc.)
- une recherche générale dans le texte complet des contributions, assortie des possibilités de
restriction en utilisant des champs dont le contenu est normalisé (e.g. Pays, VCCs, Année, Disciplines,
Types de contribution, Institutions, Personnes etc.)
Voir la maquette des différents écrans souhaités en annexe.
III- Remarques générales
Les développements doivent être réalisés à partir de logiciels libres et seront librement
diffusables, par exemple, par le biais d’une forge.
La chaîne d'indexation de données RDF/XML vers Solr doit être développée de manière indépendante
et doit être réutilisable sous réserve de paramétrage pour d’autres projets.
Il sera donc nécessaire de bien séparer ces deux réalisations dans l’outil développé.
L’application doit comporter :
- un fichier de configuration permettant de l’installer sur différents hébergements ;
- des feuilles de styles afin de pouvoir adapter l’aspect de l’outil aux besoins ciblés (en première
approche, les sites dariah.eu et dariah.fr) ;
- un fichier de configuration pour la traduction de l’interface
IV- Exemples de réalisations similaires
Projet UNESCO - Plan For Learning (http://plan4learning.iiep.unesco.org/)
C’est un projet assez semblable dans l'esprit même si le Triple Store n'est pas accessible directement.
La technologie utilisée est un Solr associé à un « Triple Store » Sesame.
Le contenu est bâti sur des notices bibliographiques exprimées en RDF.
Les facettes choisies sont soit hiérarchiques soit « à plat » et la carte est utilisée pour affiner les
recherches.
Un alignement avec DBpedia a été fait pour les institutions (pour l’instant, il s’agit un simple lien).
Les pages HTML sont pré-générées deux fois par jour.
3
Projet VIVO - Partage de données scientifiques (http://vivoweb.org)
Les données distribuées sont gérées dans des « Triples Stores » (probablement un Triple Store
intégré) associé à un moteur de recherche Solr.
Le projet propose des outils de visualisation performants associés au projet.
Quelques applications utilisant ces données :
- Un outil de recherche basé sur ces technologies (http://beta.vivosearch.org/)
Le côté intéressant est la présentation des résultats avec des facettes et des onglets de résultats
(personnes, organisation, activités, etc.). L’outil est basé sur Drupal avec un plugin qui interroge
l’index Vivo généré par Solr
- Un bookmarklet qui utilise bien le côté enrichissement (http://about.vivosearchlight.org/)
Version Beta du portail Ortolang (http://portail.ortolang.fr/result.php/)
L’indexation des données est effectuée par un moteur Solr.
Les données proviennent de champs exprimés en Dublin-Core moissonnés sur les deux entrepôts OAI
(SLDR et CNTRL) mais pas de Triple Store.
V - Modalités administratives
Echéancier de paiement
30% à la signature du contrat
30% à la fourniture de la 1ère version de l’application
40% à la livraison finale
4
Ecran de recherche principal
Recherche libre plein texte
Facettes
Pays
Année
Disciplines
Types de contribution
VCC
Institution
Personnes
Recherches prédéfinies
Mots clés libres
cf. page suivante
Liste des résultats
Recherche prédéfinies (liste non exhaustive)
Annuaire des institutions
Annuaire des responsables
scientifiques des contributions
Annuaire des personnes
(responsables scientifiques et
autres personnes prenant part à
une contribution)
Annuaire des projets affiliés
Liste des corpus
Liste des thesaurus
Liste des outils
Affichage des résultats
Enrichissement
Geonames
Enrichissement
VIAF
Donnée brute
Enrichissement
DBpedia
Enrichissement
Lexvo
Lien vers d’autres ressources
(internes/externes)
file:///L:/ADONIS/Financier/Contrats/Dariah/Contributions/open_editi...
1 sur 1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
view-source:file:///L:/ADONIS/Financier/Contrats/Dariah/Contribution...
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">
<html xml:lang="en" version="XHTML+RDFa 1.0" xmlns="http://www.w3.org/1999/xhtml"
xmlns:foaf="http://xmlns.com/foaf/0.1/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:cc="http://creativecommons.org/ns#"
xmlns:dcterms="http://purl.org/dc/terms/"
xmlns:sioc="http://rdfs.org/sioc/ns#"
xmlns:sioctype="http://rdfs.org/sioc/types#"
xmlns:skos="http://www.w3.org/2004/02/skos/core#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:xsd="http://www.w3.org/2001/XMLSchema#"
xmlns:vcard="http://www.w3.org/2006/vcard/ns#">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type" />
<title>DARIAH contribution template </title>
<!-- Version 08/04/2014. -->
<!-- RDFa Annotations (meta type). -->
<!-- Fixed values. -->
<!-- Type of document. Fixed value don't edit. -->
<meta rel="dc:type" href="http://purl.org/ontology/bibo/Webpage" />
<!-- Type DARIAH (DARIAH Contribution). Fixed value don't edit. -->
<meta rel="vcard:category" href="http://data.dariah.eu/vocabularies/type/contribution"/>
<!-- Enter your specific information below. -->
<!-- Location of the page (URI) describing the contribution. -->
<link rel="dc:identifier" href="http://data.dariah.eu/pages/contributions/open_edition_sample_dariah_v1.html" />
<!-- Title of the contribution (in English). -->
<meta property="dc:title" content="Electronic publishing with OpenEdition" xml:lang="en" />
<!-- Date of the contribution, please enter as a date the first of January of the current year (syntax: yyyy-mm-dd). -->
<meta property="dc:date" content="2014-01-01" />
<!-- Name of the organisation which is in charge of the contribution (short name). -->
<meta property="dc:publisher" content="OpenEdition" xml:lang="en" />
<!-- Logo associated with the contribution. -->
<meta rel="vcard:logo" href="http://cleo.openedition.org/wp-content/uploads/2012/09/logoOE_300dpi.png" />
<!-- Geographical location of the organisation. Use URI from Geonames. -->
<meta rel="dcterms:spatial" href="http://sws.geonames.org/2995469/about.rdf" />
<!-- Links to the collection or website of the contributing organisation. -->
<meta rel="dc:relation" href="http://cleo.openedition.org" />
<!-- Name of the organisation. Duplicate if there is more than one. -->
<meta property="vcard:organization" content="CNRS" xml:lang="en" />
<meta property="vcard:organization" content="University of Aix-Marseille" xml:lang="en" />
<meta property="vcard:organization" content="University of Avignon" xml:lang="en" />
<meta property="vcard:organization" content="EHESS" xml:lang="en" />
<!-- Name of the country responsible for the contribution. Use URI from Geonames. -->
<meta rel="dc:coverage" href="http://sws.geonames.org/3017382/about.rdf" />
<!-- List of free keywords. Duplicate the tag if there are several keywords. -->
<meta property="dc:subject" content="TEI P5" xml:lang="en" />
<meta property="dc:subject" content="Open Source" xml:lang="en" />
<!-- Abstract of the contribution in English for publication on the DARIAH-EU web site. Please keep English ("en”) as xml:lang atttribute. -->
<meta property="dcterms:abstract" content="OpenEdition is a comprehensive publishing platform (Books, Journals, Blogs, Events)" xml:lang="en" />
<!-- Abstract of the contribution in your language. Your language is mentioned in the xml:lang attribute. Please use ISO 639-1 in lower case. -->
<meta property="dcterms:abstract" content="OpenEdition est une plateforme complète d'édition électronique (livres, revues, blogs, événements)" xml:lang="fr" />
<!-- Description of the contribution in English. Please keep English ("en”) as xml:lang atttribute.
We suggest you describe here as precisely as possible (there is no length limitation):
- your experience and/or expertise
- what you will provide DARIAH with
- adaptations made specifically for DARIAH
-->
<meta property="dc:description" content="
1) Previous experience - Domain(s) of expertise
The Centre for Open Electronic Publishing develops Revues.org, a platform founded in 1999 and which became the main open access platform for academic electronic publishing in France. Revues.org is also open to European-scale publishers (for example: Belgium, Switzerland, Spain, Portugal, Germany, Italy, Greece, Slovenia, and the Czech Republic). The journals' sites hosted by Revues.org are published by Lodel software, a Content managing System created and developed by the Cléo.
Revues.org is now enhanced by three other platforms, which together form OpenEdition, a complete framework for scientific publishing and information:
- Calenda, an open-access calendar for arts, humanities and social sciences events (conferences, seminars, calls for papers, etc.) created in 2000. Calenda is the main calendar for HSS on the European scale. A multilingual version of the Calenda site will be launched in 2012.
- Hypotheses.org, a platform for research blogs developed with WordPress since 2008, available via several linguistic portals (French, German, Spanish, Portuguese).
- OpenEdition Books, a platform for book series launched in 2013: in the future, it will disseminate 15,000 books from 100 European academic publishers.
OpenEdition portal, launched in 2011, provides users, publishers and libraries with services based on this set of over 200,000 documents: alerts and subscriptions, Calenda web service, publication announcements, consultation statistics in accordance with the COUNTER norm, etc.
The OpenEdition sites and platforms are visited 3.5 million times a month, by the entire world. OpenEdition has been accredited as an 'Equipement d'excellence' (Facility of excellence) by the French government Equipex program.
2) What will be provided to Dariah
Cléo proposes to develop and disseminate:
- the web sites of 25 journals
- the electronic publishing of 5 editors' catalogues
- 100 research blogs
- 100 conference announcements in the field of Digital Humanities "
xml:lang="en" />
</head>
<!-- Other RDFa annotations: please enter your specific information below. -->
<body>
<div>
<!-- Disciplines
You can refer to the classification provided in the file "label-ssh" downloadable from the DARIAH wiki.
We strongly encourage you to use as many relevant tags as possible.
-->
<span rel="sioc:topic">
<span typeof="skos:Concept">
<span property="skos:prefLabel" content="http://archive-ouverte.org/disciplines/history" xml:lang="en" ></span>
<span property="skos:prefLabel" content="http://archive-ouverte.org/disciplines/geography" xml:lang="en" ></span>
<span property="skos:prefLabel" content="http://archive-ouverte.org/disciplines/demography" xml:lang="en" ></span>
</span>
</span>
<!-- Activities described by TADIRAH vocabulary
You can refer to the classification provided in the file "tadirah-activities" downloadable from the DARIAH wiki.
We strongly encourage you to use as many relevant tags as possible.
-->
<span rel="sioc:topic">
<span typeof="skos:Concept">
<span property="skos:prefLabel" content="http://data.dariah.eu/vocabularies/tadirah/activities/creation/designing" xml:lang="en" ></span>
<span property="skos:prefLabel" content="http://data.dariah.eu/vocabularies/tadirah/activities/meta-activities/assessing" xml:lang="en" ></span>
</span>
</span>
<!-- Name(s) of the DARIAH VCC(s) involved. Duplicate the tag, if several VCCs are involved. -->
<span rel="sioc:has_scope">
<span typeof="skos:Concept">
<span property="skos:prefLabel" content="http://data.dariah.eu/vocabularies/VCC/VCC3"></span>
</span>
</span>
<!-- Name of the type of in-kind contribution
See the file "types-of-in-kind-contribution" downloadable on the DARIAH wiki.
Duplicate the tag if several types of in-kind contribution are involved.
-->
<span rel="sioc:has_scope">
<span typeof="skos:Concept">
<span property="skos:prefLabel" content="http://data.dariah.eu/vocabularies/type_of_in_kind_contribution/access" xml:lang="en"></span>
<span property="skos:prefLabel" content="http://data.dariah.eu/vocabularies/type_of_in_kind_contribution/expertise" xml:lang="en"></span>
</span>
</span>
<!-- Identifier of the scientific person in charge. -->
<!-- "href" section must contain a URI about the person. Use orcid or a similar resource (e.g. foaf profile). -->
<span rel="dc:creator">
<span typeof="foaf:Person" about="http://orcid.org/0000-0002-9361-5295" >
<!-- Name of the person (order: given name + surname, e.g. "Roberto Busa"). -->
<span property="foaf:name" content="Marin Dacos"></span>
<!-- Publications. Use viaf, idref or a similar resource -->
<a rel="foaf:publications" href="http://www.idref.fr/139753753"></a>
</span>
</span>
<!-- Name and/or identifier of the people involved in the contributions. -->
<!-- "href" section must contain a URI about the person. Use orcid or a similar resource (e.g. foaf profile). -->
<span rel="dc:creator">
<span typeof="foaf:Person" about="http://orcid.org/0000-0003-0691-6063" >
<!-- Name of the person (order: given name + surname, e.g. "Roberto Busa"). -->
<span property="foaf:name" content="Pierre Mounier"></span>
<!-- Publications. Use viaf, idref or a similar resource -->
<a rel="foaf:publications" href="http://viaf.org/viaf/280303860"></a>
</span>
</span>
<span rel="dc:contributor" href="" typeof="foaf:Person">
<span property="foaf:name" content="Delphine Cavallo"></span>
</span>
<span rel="dc:contributor" href="" typeof="foaf:Person">
<span property="foaf:name" content="Inès Secondat de Montesquieu"></span>
</span>
<span rel="dc:contributor" href="" typeof="foaf:Person">
<span property="foaf:name" content="Bruno Cénou"></span>
</span>
<span rel="dc:contributor" href="" typeof="foaf:Person">
<span property="foaf:name" content="Jean-Christophe Peyssard"></span>
</span>
<span rel="dc:contributor" href="" typeof="foaf:Person">
<span property="foaf:name" content="Claire Lemercier"></span>
</span>
<span rel="dc:contributor" href="" typeof="foaf:Person">
<span property="foaf:name" content="Philippe Cibois"></span>
</span>
<span rel="dc:contributor" href="" typeof="foaf:Person">
<span property="foaf:name" content="Sylvain Piron"></span>
</span>
</div>
<!-<!-<!--
*********************
Put your HTML below
*********************
-->
-->
-->
<h1>DARIAH Contribution</h1>
<!-- Title -->
<h2>Electronic publishing with OpenEdition</h2>
<!-- Publisher -->
<h4>OpenEdition</h4>
<!-- Abstract -->
<p>
OpenEdition is a comprehensive publishing platform (Books, Journals, Blogs, Events)
</p>
<!-- Description -->
<p>
1) Previous experience - Domain(s) of expertise
The Centre for Open Electronic Publishing develops Revues.org, a platform founded in 1999 and which became the main open access platform for academic electronic publishing in France. Revues.org is also open to European-scale publishers (for example: Belgium, Switzerland, Spain, Portugal, Germany, Italy, Greece, Slovenia, and the Czech Republic). The journals' sites hosted by Revues.org are published by Lodel software, a Content managing System created and developed by the Cléo.
Revues.org is now enhanced by three other platforms, which together form OpenEdition, a complete framework for scientific publishing and information:
- Calenda, an open-access calendar for arts, humanities and social sciences events (conferences, seminars, calls for papers, etc.) created in 2000. Calenda is the main calendar for HSS on the European scale. A multilingual version of the Calenda site will be launched in 2012.
- Hypotheses.org, a platform for research blogs developed with WordPress since 2008, available via several linguistic portals (French, German, Spanish, Portuguese).
- OpenEdition Books, a platform for book series launched in 2013: in the future, it will disseminate 15,000 books from 100 European academic publishers.
OpenEdition portal, launched in 2011, provides users, publishers and libraries with services based on this set of over 200,000 documents: alerts and subscriptions, Calenda web service, publication announcements, consultation statistics in accordance with the COUNTER norm, etc.
The OpenEdition sites and platforms are visited 3.5 million times a month, by the entire world. OpenEdition has been accredited as an "Equipement d'excellence" (Facility of excellence) by the French government Equipex program.
2) What will be provided to Dariah
Cléo proposes to develop and disseminate:
- the web sites of 25 journals
- the electronic publishing of 5 editors' catalogues
- 100 research blogs
- 100 conference announcements in the field of Digital Humanities
</p>
</body>
</html>
08/04/2014 15:59

Documents pareils