version PDF - Flash informatique
Transcription
version PDF - Flash informatique
Publier ses données sous forme de Linked Open Data [email protected], Université de Fribourg, directeur de eXascale Infolab La solution la plus prometteuse dans ce domaine est peut-être le LOD &, formalisme moderne et standardisé par l’organe faîtier du Web, le W3C. Welcome to the nascent Web of Data. Après des années de tâtonnements, le Web est enfin prêt à accueillir toute la richesse de vos données, et cela dans des formats ouverts et interopérables… L’émergence du Web des données Tout commence en 2006 par une note publiée par Tim BernersLee promulguant une méthode de publication des données tirant partie de l’architecture du Web [1]. Le créateur du Web met en avant quatre principes fondamentaux qui sont toujours à la base de la publication de Linked Open Data: 1. utiliser des URI & pour identifier les objets ou données à partager; 2. utiliser des URI HTTP afin que n’importe qui puisse déréférencer lesdites URI, par exemple en utilisant un navigateur Web; 3. fournir des informations structurées en RDF & lorsque lesdites URI sont déréférencées; 4. et, finalement, inclure des liens vers d’autres URI similaires dans les informations ainsi fournies. Quel format choisir pour publier ses données en ligne ? Malgré l’engouement extraordinaire pour l’Open Data et le partage de données, le problème du choix du format se pose encore et toujours. Les formats antédiluviens ou semi-propriétaires (tels CSV ou Excel) sont bien sûr à proscrire, pour leur manque d’expressivité d’une part, et leur manque d’ouverture d’autre part. XML demeure un bon choix pour publier des documents. Il se révèle par contre peu pratique pour la publication de données brutes, de par la rigidité de ses schémas et la difficulté inhérente à mixer des éléments XML provenant de documents hétérogènes. JSON a le vent en poupe pour l’échange de données point à point, même si le format n’a jamais été prévu pour modéliser ou intégrer des données complexes. Magnatune DB Tropes Hellenic FBD Hellenic PD Crime Reports UK NHS (EnAKTing) Ren. Energy Generators EEA EU Institutions Open Election Data Project Mortality (EnAKTing) educatio n.data.g ov.uk Ordnance Survey legislation data.gov.uk UK Postcodes ISTAT Immigration ESD standards Lichfield Spending Scotland Pupils & Exams Traffic Scotland Data Gov.ie reference data.gov. uk TWC LOGD Eurostat (FUB) CORDIS (FUB) (RKB Explorer) Linked EDGAR (Ontology Central) EURES FTS Finnish Municipalities New York Times World Factbook Geo Species UMBEL Italian public schools RDF Book Mashup BibBase DBLP (FU Berlin) dataopenac-uk ERA Diseasome lingvoj Lexvo DBLP (L3S) Cornetto Ocean Drilling Codices Turismo de Zaragoza Janus AMP Climbing Linked GeoData WordNet (W3C) Alpine Ski Austria AEMET Metoffice Weather Forecasts Yahoo! Geo Planet ChEMBL Open Data Thesaurus Sears STW GESIS Budapest Pisa RESEX Scholarometer IRIT ACM NVD IBM DEPLOY Newcastle RAE2001 LOCAH Roma CiteSeer VIVO Indiana dotAC ePrints IEEE RISKS PROSITE Affymetrix SISVU GEMET Airports National Radioactivity JP DBLP (RKB Explorer) HGNC PubMed ProDom VIVO Cornell STITCH LAAS NSF KISTI Linked Open Colors Open Corporates Italian Museums Amsterdam Museum OMIM MGI InterPro UniParc UniRef UniSTS GeneID VIVO UF Linked Open Numbers Reactome OGOLOD UniPath way Chem2 Bio2RDF ECCOTCP bible ontology PBAC KEGG Pathway KEGG Reaction Medi Care Google Art wrapper meducator KEGG Drug Pub Chem KEGG Enzyme Smart Link Product Types Ontology SGD Gene Ontology AGROV OC Product DB Weather Stations ECS (RKB Explorer) JISC WordNet (RKB Explorer) EARTh Swedish Open Cultural Heritage Courseware PDB (Bio2RDF) LODE SMC Journals ECS Southampton EPrints Eurécom UniProt Taxono my NSZL Catalog lobid Organisations Pfam LinkedCT UniProt Twarql EUNIS WordNet (VUA) Wiki ECS Southampton UN/ LOCODE SIDER Drug Bank Enipedia lobid Resources OAI data dcs TCM Gene DIT Daily Med Europeana Deutsche Biographie Ulm BNB OS YAGO VIAF UB Mannheim P20 Freebase dbpedia lite Norwegian MeSH GND ndlna data bnf.fr Uberblic Open Cyc riese GeoWord Net El Viajero Tourism IdRef Sudoc Calames Project Gutenberg Rådata nå! PSH DDC Open Calais Greek DBpedia ntnusc LIBRIS LCSH MARC Codes List totl.net US Census (rdfabout) Piedmont Accomodations URI Burner LEM Thesaurus W SW Dog Food Portuguese DBpedia t4gm info RAMEAU SH LinkedL CCN Sudoc iServe Geo Names US SEC Scotland Geography Linked MDB Event Media NDL subjects Open Library (Talis) theses. fr my Experiment flickr wrappr NTU Resource Lists Open Library SSW Thesaur us Revyu Fishes of Texas (rdfabout) Semantic XBRL Goodwin Family Pokedex St. Andrews Resource Lists Plymouth Reading Lists Didactal ia DBpedia Linked Sensor Data (Kno.e.sis) Eurostat (Ontology Central) GovTrack Chronicling America Telegraphis Geo Linked Data CORDIS Source Code Ecosystem Linked Data semantic web.org BBC Music NASA (Data Incubator) transport data.gov. uk Eurostat Poképédia Classical (DB Tune) Manchester Reading Lists gnoss Last.FM (rdfize) Taxon Concept LOIUS Ontos News Portal Sussex Reading Lists Bricklink yovisto Semantic Tweet Linked Crunchbase Jamendo (DBtune) Music Brainz (DBTune) BBC Wildlife Finder Rechtspraak. nl Openly Local data.gov.uk intervals London Gazette (Data Incubator) BBC Program mes OpenEI statistics data.gov. uk GovWILD Brazilian Politicians Discogs (DBTune) patents data.go v.uk Music Brainz (zitgist) RDF ohloh FanHubz research data.gov. uk CO 2 Emission (EnAKTing) Energy (EnAKTing) Surge Radio Klappstuhlclub Lotico (Data Incubator) Last.FM artists Population (EnAKTing) reegle EUTC Productions business data.gov. uk Crime (EnAKTing) Ox Points (DBTune) tags2con delicious Slideshare 2RDF (DBTune) Music Brainz John Peel Linked User Feedback LOV Audio Scrobbler Moseley Folk GTAA Homolo Gene KEGG Compound KEGG Glycan As of September 2011 fig. 1 – le LOD Cloud, où chaque nœud représente un jeu de données et chaque lien un ensemble d’interconnexions entre deux jeux de données. En septembre 2011, le LOD Cloud comptait plus de 30 milliards de triples. Il croît aujourd’hui de manière exponentielle. richard.cyganiak.de/2007/10/lod/lod-datasets_2011-09-19.pdf 24 flash informatique Publier ses données sous forme de Linked Open Data Le résultat de cette potion magique en quatre points ? L’émergence d’un Web de données ouvertes et interconnectées, le LOD Cloud (fig. 1). De la BBC au New York Times en passant par les gouvernements américain ou britannique, un nombre toujours croissant d’acteurs choisissent LOD pour publier leurs données. L’avantage de cette approche tient en un mot: intégration. Alors qu’il faut souvent des semaines pour intégrer des données relationnelles ou XML hétérogènes, il suffit d’une requête SPARQL & (l’équivalent LOD de SQL) pour intégrer des jeux de données LOD, quels que soient leurs schémas et leur provenance. LOD: mode d’emploi Le processus de publication commence bien sûr par la conversion de ses données en RDF. Plusieurs solutions sont envisageables pour accomplir cette tâche. D2R [2], par exemple, est une solution générique qui permet de transformer semi-automatiquement des bases de données relationnelles en RDF par le biais de mappings configurables. XML2RDF [3] permet, lui, de convertir des documents XML. D’autres outils tels Protégé [4] ou IWB [5] fournissent des interfaces complètes pour éditer à la fois les données RDF et leurs schémas RDFS & (RDF Schema) ou OWL &. Une fois les données transformées en RDF, il est de bon ton de les lier à d’autres données existantes sur le LOD Cloud afin de promouvoir l’interopérabilité des jeux de données (cf. point 4 cidessus). Ces liens peuvent être établis au niveau des schémas (en écrivant des correspondances entre le schéma de ses données et d’autres schémas ou ontologies), ou au niveau des données ellesmêmes, en les reliant à d’autres données LOD de manière semiautomatique (p. ex., en utilisant Silk [6] ou en explorant des bases de données LOD comme DBpedia [7]). Reste finalement à publier les données ainsi obtenues. Là encore, plusieurs solutions sont possibles. La plus simple est sans doute de fournir un dump des données et de le référencer sur un catalogue en ligne (tel ckan [8]). Une autre solution est de charger ses données dans une base de données RDF (comme Virtuoso [9], Owlim [10], ou une base de données classique supportant le RDF telle que DB2 ou Oracle) et de fournir une interface de requêtes (SPARQL end-point) afin que tout un chacun puisse directement interroger et intégrer ce nouveau jeu de données avec des données existantes, et ce de manière dynamique. De nombreuses ressources sont disponibles en ligne pour vous aider dans cette démarche. Linkeddata.org est sans doute un GLOSSAIRE & LOD (Linked Open Data): méthode de publication de données s’appuyant sur les technologies Web (URIs, liens, RDF) et promulguant l’interconnexion des jeux de données. bon point de départ pour explorer l’univers LOD. Le jeu en vautil la chandelle ? D’après la Loi de Metcalf, l’utilité d’un réseau d’information est proportionnelle au carré du nombre de ses connexions. Alors, données liées ou données esseulées, le choix est peut-être moins cornélien qu’il n’y paraît. Références [1] www.w3.org/DesignIssues/LinkedData.html [2] d2rq.org/ [3] www.gac-grid.de/project-products/Software/XML2RDF.html [4] protege.stanford.edu/ [5] www.fluidops.com/information-workbench/ [6] www4.wiwiss.fu-berlin.de/bizer/silk/ [7] dbpedia.org/ [8] thedatahub.org/group/lodcloud [9] virtuoso.openlinksw.com/ [10] www.ontotext.com/owlim NB: Philippe Cudré-Mauroux est Professeur FNS à l’Université de Fribourg. Il sera Program Committee Chair de l’International Semantic Web Conference 2012 qui se déroulera à Boston en novembre. Webpage: diuf.unifr.ch/xi/ n et du LOD, RDF modélise les données sous forme de triples <sujet, prédicat, objet>. <http://is.gd/paper182, dc:creator, http://is.gd/phil_cm>, par exemple, encode le fait que phil_cm est le créateur du document paper182. OWL (Web Ontology Language): supplante RDFS en permettant la définition de schémas de données complexes. RDFS (RDF Schema): couche schéma de RDF, qui permet de spécifier le schéma de ses données RDF en définissant des hiérarchies de classes et de prédicats. RDF (Resource Description Framework): pierre angulaire du Web sémantique SPARQL: langage de requêtes structuré, pendant de SQL pour les données RDF. www.w3.org/DesignIssues/LinkedData.html URI (Uniform Resource Identifier): courte chaîne de caractères identifiant une ressource sur un réseau physique ou abstraite, et dont la syntaxe respecte une norme d’Internet. Un URI doit permettre d’identifier une ressource de manière permanente, même si la ressource est déplacée ou supprimée. W W = tiré de Wikipédia SPÉCIAL ÉTÉ – D – 21 AOÛT 2012 25