version PDF - Flash informatique

Transcription

version PDF - Flash informatique
Publier ses données sous forme
de Linked Open Data
[email protected], Université de Fribourg, directeur de eXascale Infolab
La solution la plus prometteuse dans ce domaine est peut-être le
LOD &, formalisme moderne et standardisé par l’organe faîtier
du Web, le W3C.
Welcome to the nascent Web of Data.
Après des années de tâtonnements, le Web est enfin
prêt à accueillir toute la richesse de vos données,
et cela dans des formats ouverts et interopérables…
L’émergence du Web des données
Tout commence en 2006 par une note publiée par Tim BernersLee promulguant une méthode de publication des données tirant
partie de l’architecture du Web [1]. Le créateur du Web met en
avant quatre principes fondamentaux qui sont toujours à la base
de la publication de Linked Open Data:
1. utiliser des URI & pour identifier les objets ou données à partager;
2. utiliser des URI HTTP afin que n’importe qui puisse déréférencer lesdites URI, par exemple en utilisant un navigateur Web;
3. fournir des informations structurées en RDF & lorsque lesdites URI sont déréférencées;
4. et, finalement, inclure des liens vers d’autres URI similaires
dans les informations ainsi fournies.
Quel format choisir pour publier ses données en ligne ? Malgré
l’engouement extraordinaire pour l’Open Data et le partage de
données, le problème du choix du format se pose encore et toujours. Les formats antédiluviens ou semi-propriétaires (tels CSV
ou Excel) sont bien sûr à proscrire, pour leur manque d’expressivité d’une part, et leur manque d’ouverture d’autre part. XML
demeure un bon choix pour publier des documents. Il se révèle
par contre peu pratique pour la publication de données brutes,
de par la rigidité de ses schémas et la difficulté inhérente à mixer
des éléments XML provenant de documents hétérogènes. JSON a
le vent en poupe pour l’échange de données point à point, même
si le format n’a jamais été prévu pour modéliser ou intégrer des
données complexes.
Magnatune
DB
Tropes
Hellenic
FBD
Hellenic
PD
Crime
Reports
UK
NHS
(EnAKTing)
Ren.
Energy
Generators
EEA
EU
Institutions
Open
Election
Data
Project
Mortality
(EnAKTing)
educatio
n.data.g
ov.uk
Ordnance
Survey
legislation
data.gov.uk
UK Postcodes
ISTAT
Immigration
ESD
standards
Lichfield
Spending
Scotland
Pupils &
Exams
Traffic
Scotland
Data
Gov.ie
reference
data.gov.
uk
TWC LOGD
Eurostat
(FUB)
CORDIS
(FUB)
(RKB
Explorer)
Linked
EDGAR
(Ontology
Central)
EURES
FTS
Finnish
Municipalities
New
York
Times
World
Factbook
Geo
Species
UMBEL
Italian
public
schools
RDF
Book
Mashup
BibBase
DBLP
(FU
Berlin)
dataopenac-uk
ERA
Diseasome
lingvoj
Lexvo
DBLP
(L3S)
Cornetto
Ocean
Drilling
Codices
Turismo
de
Zaragoza
Janus
AMP
Climbing
Linked
GeoData
WordNet
(W3C)
Alpine
Ski
Austria
AEMET
Metoffice
Weather
Forecasts
Yahoo!
Geo
Planet
ChEMBL
Open
Data
Thesaurus
Sears
STW
GESIS
Budapest
Pisa
RESEX
Scholarometer
IRIT
ACM
NVD
IBM
DEPLOY
Newcastle
RAE2001
LOCAH
Roma
CiteSeer
VIVO
Indiana
dotAC
ePrints
IEEE
RISKS
PROSITE
Affymetrix
SISVU
GEMET
Airports
National
Radioactivity
JP
DBLP
(RKB
Explorer)
HGNC
PubMed
ProDom
VIVO
Cornell
STITCH
LAAS
NSF
KISTI
Linked
Open
Colors
Open
Corporates
Italian
Museums
Amsterdam
Museum
OMIM
MGI
InterPro
UniParc
UniRef
UniSTS
GeneID
VIVO UF
Linked
Open
Numbers
Reactome
OGOLOD
UniPath
way
Chem2
Bio2RDF
ECCOTCP
bible
ontology
PBAC
KEGG
Pathway
KEGG
Reaction
Medi
Care
Google
Art
wrapper
meducator
KEGG
Drug
Pub
Chem
KEGG
Enzyme
Smart
Link
Product
Types
Ontology
SGD
Gene
Ontology
AGROV
OC
Product
DB
Weather
Stations
ECS
(RKB
Explorer)
JISC
WordNet
(RKB
Explorer)
EARTh
Swedish
Open
Cultural
Heritage
Courseware
PDB
(Bio2RDF)
LODE
SMC
Journals
ECS
Southampton
EPrints
Eurécom
UniProt
Taxono
my
NSZL
Catalog
lobid
Organisations
Pfam
LinkedCT
UniProt
Twarql
EUNIS
WordNet
(VUA)
Wiki
ECS
Southampton
UN/
LOCODE
SIDER
Drug
Bank
Enipedia
lobid
Resources
OAI
data
dcs
TCM
Gene
DIT
Daily
Med
Europeana
Deutsche
Biographie
Ulm
BNB
OS
YAGO
VIAF
UB
Mannheim
P20
Freebase
dbpedia
lite
Norwegian
MeSH
GND
ndlna
data
bnf.fr
Uberblic
Open
Cyc
riese
GeoWord
Net
El
Viajero
Tourism
IdRef
Sudoc
Calames
Project
Gutenberg
Rådata
nå!
PSH
DDC
Open
Calais
Greek
DBpedia
ntnusc
LIBRIS
LCSH
MARC
Codes
List
totl.net
US Census
(rdfabout)
Piedmont
Accomodations
URI
Burner
LEM
Thesaurus W
SW
Dog
Food
Portuguese
DBpedia
t4gm
info
RAMEAU
SH
LinkedL
CCN
Sudoc
iServe
Geo
Names
US SEC
Scotland
Geography
Linked
MDB
Event
Media
NDL
subjects
Open
Library
(Talis)
theses.
fr
my
Experiment
flickr
wrappr
NTU
Resource
Lists
Open
Library
SSW
Thesaur
us
Revyu
Fishes
of Texas
(rdfabout)
Semantic
XBRL
Goodwin
Family
Pokedex
St.
Andrews
Resource
Lists
Plymouth
Reading
Lists
Didactal
ia
DBpedia
Linked
Sensor Data
(Kno.e.sis)
Eurostat
(Ontology
Central)
GovTrack
Chronicling
America
Telegraphis
Geo
Linked
Data
CORDIS
Source Code
Ecosystem
Linked Data
semantic
web.org
BBC
Music
NASA
(Data
Incubator)
transport
data.gov.
uk
Eurostat
Poképédia
Classical
(DB
Tune)
Manchester
Reading
Lists
gnoss
Last.FM
(rdfize)
Taxon
Concept
LOIUS
Ontos
News
Portal
Sussex
Reading
Lists
Bricklink
yovisto
Semantic
Tweet
Linked
Crunchbase
Jamendo
(DBtune)
Music
Brainz
(DBTune)
BBC
Wildlife
Finder
Rechtspraak.
nl
Openly
Local
data.gov.uk
intervals
London
Gazette
(Data
Incubator)
BBC
Program
mes
OpenEI
statistics
data.gov.
uk
GovWILD
Brazilian
Politicians
Discogs
(DBTune)
patents
data.go
v.uk
Music
Brainz
(zitgist)
RDF
ohloh
FanHubz
research
data.gov.
uk
CO 2
Emission
(EnAKTing)
Energy
(EnAKTing)
Surge
Radio
Klappstuhlclub
Lotico
(Data
Incubator)
Last.FM
artists
Population (EnAKTing)
reegle
EUTC
Productions
business
data.gov.
uk
Crime
(EnAKTing)
Ox
Points
(DBTune)
tags2con
delicious
Slideshare
2RDF
(DBTune)
Music
Brainz
John
Peel
Linked
User
Feedback
LOV
Audio
Scrobbler
Moseley
Folk
GTAA
Homolo
Gene
KEGG
Compound
KEGG
Glycan
As of September 2011
fig. 1 – le LOD Cloud, où chaque nœud représente un jeu de données et chaque lien un ensemble d’interconnexions entre deux jeux de données. En septembre 2011, le LOD
Cloud comptait plus de 30 milliards de triples. Il croît aujourd’hui de manière exponentielle. richard.cyganiak.de/2007/10/lod/lod-datasets_2011-09-19.pdf
24 flash informatique
Publier ses données sous forme de Linked Open Data
Le résultat de cette potion magique en quatre points ? L’émergence d’un Web de données ouvertes et interconnectées, le LOD
Cloud (fig. 1). De la BBC au New York Times en passant par les
gouvernements américain ou britannique, un nombre toujours
croissant d’acteurs choisissent LOD pour publier leurs données.
L’avantage de cette approche tient en un mot: intégration. Alors
qu’il faut souvent des semaines pour intégrer des données relationnelles ou XML hétérogènes, il suffit d’une requête SPARQL &
(l’équivalent LOD de SQL) pour intégrer des jeux de données LOD,
quels que soient leurs schémas et leur provenance.
LOD: mode d’emploi
Le processus de publication commence bien sûr par la conversion
de ses données en RDF. Plusieurs solutions sont envisageables
pour accomplir cette tâche. D2R [2], par exemple, est une solution générique qui permet de transformer semi-automatiquement des bases de données relationnelles en RDF par le biais de
mappings configurables. XML2RDF [3] permet, lui, de convertir
des documents XML. D’autres outils tels Protégé [4] ou IWB [5]
fournissent des interfaces complètes pour éditer à la fois les données RDF et leurs schémas RDFS & (RDF Schema) ou OWL &.
Une fois les données transformées en RDF, il est de bon ton de
les lier à d’autres données existantes sur le LOD Cloud afin de
promouvoir l’interopérabilité des jeux de données (cf. point 4 cidessus). Ces liens peuvent être établis au niveau des schémas (en
écrivant des correspondances entre le schéma de ses données et
d’autres schémas ou ontologies), ou au niveau des données ellesmêmes, en les reliant à d’autres données LOD de manière semiautomatique (p. ex., en utilisant Silk [6] ou en explorant des bases
de données LOD comme DBpedia [7]).
Reste finalement à publier les données ainsi obtenues. Là encore,
plusieurs solutions sont possibles. La plus simple est sans doute
de fournir un dump des données et de le référencer sur un catalogue en ligne (tel ckan [8]). Une autre solution est de charger
ses données dans une base de données RDF (comme Virtuoso [9],
Owlim [10], ou une base de données classique supportant le RDF
telle que DB2 ou Oracle) et de fournir une interface de requêtes
(SPARQL end-point) afin que tout un chacun puisse directement
interroger et intégrer ce nouveau jeu de données avec des données existantes, et ce de manière dynamique.
De nombreuses ressources sont disponibles en ligne pour vous
aider dans cette démarche. Linkeddata.org est sans doute un
GLOSSAIRE
&
LOD (Linked Open Data): méthode de publication de données s’appuyant sur les
technologies Web (URIs, liens, RDF) et
promulguant l’interconnexion des jeux
de données.
bon point de départ pour explorer l’univers LOD. Le jeu en vautil la chandelle ? D’après la Loi de Metcalf, l’utilité d’un réseau
d’information est proportionnelle au carré du nombre de ses
connexions. Alors, données liées ou données esseulées, le choix
est peut-être moins cornélien qu’il n’y paraît.
Références
[1] www.w3.org/DesignIssues/LinkedData.html
[2] d2rq.org/
[3] www.gac-grid.de/project-products/Software/XML2RDF.html
[4] protege.stanford.edu/
[5] www.fluidops.com/information-workbench/
[6] www4.wiwiss.fu-berlin.de/bizer/silk/
[7] dbpedia.org/
[8] thedatahub.org/group/lodcloud
[9] virtuoso.openlinksw.com/
[10] www.ontotext.com/owlim
NB: Philippe Cudré-Mauroux est Professeur FNS à l’Université
de Fribourg. Il sera Program Committee Chair de l’International Semantic Web Conference 2012 qui se déroulera à
Boston en novembre. Webpage: diuf.unifr.ch/xi/ n
et du LOD, RDF modélise les données
sous forme de triples <sujet, prédicat,
objet>. <http://is.gd/paper182, dc:creator,
http://is.gd/phil_cm>, par exemple,
encode le fait que phil_cm est le créateur du document paper182.
OWL (Web Ontology Language): supplante
RDFS en permettant la définition de
schémas de données complexes.
RDFS (RDF Schema): couche schéma de
RDF, qui permet de spécifier le schéma
de ses données RDF en définissant des
hiérarchies de classes et de prédicats.
RDF (Resource Description Framework):
pierre angulaire du Web sémantique
SPARQL: langage de requêtes structuré,
pendant de SQL pour les données RDF.
www.w3.org/DesignIssues/LinkedData.html
URI (Uniform Resource Identifier): courte
chaîne de caractères identifiant une ressource sur un réseau physique ou abstraite, et dont la syntaxe respecte une
norme d’Internet. Un URI doit permettre
d’identifier une ressource de manière
permanente, même si la ressource est
déplacée ou supprimée. W
W = tiré de Wikipédia
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012
25

Documents pareils