Ecole Doctorale S2IM Site de l`ENSMA Proposition de sujet de thèse

Transcription

Ecole Doctorale S2IM Site de l`ENSMA Proposition de sujet de thèse
Laboratoire d’Informatique et d’Automatique pour les Systèmes
Ecole Doctorale S2IM
Site de l’ENSMA
(see English version at the back)
Proposition de sujet de thèse de doctorat 2016
Titre : Gestion et Exploitation de Larges Bases de Connaissances en Présence de Données Incomplètes et
Incertaines
Laboratoire : LIAS/ENSMA-UP
Encadrant(s) : Dr. Stéphane JEAN ([email protected])
Prof. Allel HADJALI ([email protected])
Mots clés : Base de Connaissance, Base de données, Web Sémantique, Incertitude, Techniques Coopératives.
Contexte du sujet
Avec l’émergence et la multiplication des applications du Web sémantique, de nombreuses et récentes larges
bases de connaissances (BC) sont disponibles sur le Web. Ces BC contiennent des entités (nommées) et des faits
sur ces entités. Elles contiennent également les classes sémantiques de ces entités et leurs liens mutuels. De plus,
plusieurs BC peuvent être interconnectées au niveau entités, formant ainsi le noyau du Web des données liées
(ou ouvertes). Parmi les BC les plus connues, citons Yago, DBPedia, Nell, DeepDive, Google’s Knowledge
Vault et Freebase.
Une caractérisation essentielle de ces BC est qu’elles contiennent des millions à des billions de triplets RDF
incertains. Les causes de cette incertitude sont diverses et multiples. Elle peut résulter de l’intégration de sources
de données de différents niveaux de fiabilité ou elle peut être causée par des considérations de préservation de la
confidentialité. Aussi, elle peut être due à des facteurs liés au manque d’informations, à la limitation des
équipements de mesures ou à l’évolution d’informations.
Objectif
L’objectif de cette thèse est de proposer des techniques facilitant la gestion et l’exploitation des BC entachées
d’imperfection. Nous nous intéresserons en particulier aux techniques coopératives qui visent à mieux répondre
aux besoins de l’utilisateur.
De cette problématique découle un ensemble de questions :
1) Quelles sont les différentes sources d’incertitudes des triplets RDF ?
2) Comment modéliser les différentes sources d’incertitude des triplets RDF ? Peut-on imaginer un modèle
unifié qui pourrait être utilisé pour toutes les BC ?
3) Comment étendre les techniques coopératives usuelles pour qu’elles prennent en compte l’incertitude
liée aux données RDF tout en conservant des performances acceptables ?
Travail à effectuer
•
•
•
•
Etude bibliographique sur les thématiques suivantes : base de données sémantiques, techniques
coopératives, modèles de l’incertain.
Comparaison des différentes modélisations possibles de l’incertitude des données RDF.
Extension et implantation des techniques coopératives classiques pour prendre en compte l’incertitude
des données RDF.
Validation des techniques proposées sur des benchmarks classiques (LUBM, WatDiv) et des BC réelles
(YAGO, DBPedia).
LIAS / ENSMA - Téléport 2 - 1 avenue Clément Ader - BP 40109
86961 Futuroscope Chasseneuil Cedex – France
Tél : +33 (0)549498063 - Fax : +33 (0)549498064
Laboratoire d’Informatique et d’Automatique pour les Systèmes
Bibliographie
•
•
•
Fokou G., Jean S., Hadjali A., Baron M., Cooperative Techniques for SPARQL Query Relaxation in
RDF Databases, 12th International Extended Semantic Web Conference (ESWC2015), pp 237-252,
Portoroz, Slovenia, 2015
Dong X., Gabrilovich E., Heitz G., Horn W., Lao N., Murphy K., et al. Knowledge vault: A web-scale
approach to probabilistic knowledge fusion. In Proceedings of the 20th ACM SIGKDD international
conference on Knowledge discovery and data mining, pp. 601-610, 2014.
D. Dubois, H. Prade. Formal representations of uncertainty. In Decision-making - Concepts and
Methods. Denis Bouyssou, Didier Dubois, Marc Pirlot, Henri Prade (Eds.), Wiley, 3, p. 85-156, 2009.
LIAS / ENSMA - Téléport 2 - 1 avenue Clément Ader - BP 40109
86961 Futuroscope Chasseneuil Cedex – France
Tél : +33 (0)549498063 - Fax : +33 (0)549498064
Laboratoire d’Informatique et d’Automatique pour les Systèmes
• Graduate school S2IM
ISAE-ENSMA
PhD thesis proposition 2016
Title: Management and Exploitation of Large and Uncertain Knowledge Bases
Laboratory: LIAS/ENSMA-UP
Supervisor(s): Dr. Stéphane JEAN ([email protected])
Prof. Allel HADJALI ([email protected])
Keywords: Knowledge Bases, Databases, Semantic Web, Uncertainty, Cooperative Techniques.
Description and context
With the development of numerous Semantic Web applications, several larges Knowledge Bases (KBs) have
recently been created and are available on the Web. These KBs contain named entities and facts about them.
They also include the semantic classes of these entities as well as their relationships. Several KBs are connected
through their entities thus composing the core of the Linked Data (or Open Data). Among the well-known KBs,
we can cite Yago, DBPedia, Nell, DeepDive, Google’s Knowledge Vault and Freebase.
An important characteristic of these KBs is that they contain a large number of uncertain RDF triples (e.g.,
Knowledge Vault contains 1.6 billion triples associated with probabilities of fact correctness). The reasons for
this uncertainty are multiple and diverse. It may result from the integration of data sources that have different
levels of confidence. It may also be related to confidentiality, lack of information, evolution of data or limits of
measure equipment.
Goals
This thesis aims at proposing techniques to facilitate the management and exploitation of uncertain KBs. We are
particularly interested by cooperative techniques that help end-users to find relevant information.
Several questions emerge from this problem:
1) What are the causes of the uncertainty of RDF triples?
2) How can we represent this uncertainty? Can we define a unified model, i.e. a model that can be applied
to the different KBs?
3) How to extend usual cooperative techniques to take into account this uncertainty while providing
acceptable response time to end-users?
Required Work
•
•
•
•
State-of-the-art on the following topics: Semantic Databases (triple stores), Cooperatives techniques,
models of uncertainty.
Comparison of the different possible representation of the RDF triples uncertainty
Extension and implementation of usual cooperative techniques to take into account the uncertainty of
RDF triples.
Experimentation of the proposed techniques on usual benchmarks (LUBM, WatDiv) and real KBs
(YAGO, DBPedia).
LIAS / ENSMA - Téléport 2 - 1 avenue Clément Ader - BP 40109
86961 Futuroscope Chasseneuil Cedex – France
Tél : +33 (0)549498063 - Fax : +33 (0)549498064
Laboratoire d’Informatique et d’Automatique pour les Systèmes
Bibliography
•
•
•
Fokou G., Jean S., Hadjali A., Baron M., Cooperative Techniques for SPARQL Query Relaxation in
RDF Databases, 12th Internationa Extended Semantic Web Conference (ESWC2015), pp 237-252,
Portoroz, Slovenia, 2015
Dong X., Gabrilovich E., Heitz G., Horn W., Lao N., Murphy K., et al. Knowledge vault: A web-scale
approach to probabilistic knowledge fusion. In Proceedings of the 20th ACM SIGKDD international
conference on Knowledge discovery and data mining, pp. 601-610, 2014.
D. Dubois, H. Prade. Formal representations of uncertainty. In Decision-making - Concepts and
Methods. Denis Bouyssou, Didier Dubois, Marc Pirlot, Henri Prade (Eds.), Wiley, 3, p. 85-156, 2009.
LIAS / ENSMA - Téléport 2 - 1 avenue Clément Ader - BP 40109
86961 Futuroscope Chasseneuil Cedex – France
Tél : +33 (0)549498063 - Fax : +33 (0)549498064

Documents pareils