Ecole Doctorale S2IM Site de l`ENSMA Proposition de sujet de thèse
Transcription
Ecole Doctorale S2IM Site de l`ENSMA Proposition de sujet de thèse
Laboratoire d’Informatique et d’Automatique pour les Systèmes Ecole Doctorale S2IM Site de l’ENSMA (see English version at the back) Proposition de sujet de thèse de doctorat 2016 Titre : Gestion et Exploitation de Larges Bases de Connaissances en Présence de Données Incomplètes et Incertaines Laboratoire : LIAS/ENSMA-UP Encadrant(s) : Dr. Stéphane JEAN ([email protected]) Prof. Allel HADJALI ([email protected]) Mots clés : Base de Connaissance, Base de données, Web Sémantique, Incertitude, Techniques Coopératives. Contexte du sujet Avec l’émergence et la multiplication des applications du Web sémantique, de nombreuses et récentes larges bases de connaissances (BC) sont disponibles sur le Web. Ces BC contiennent des entités (nommées) et des faits sur ces entités. Elles contiennent également les classes sémantiques de ces entités et leurs liens mutuels. De plus, plusieurs BC peuvent être interconnectées au niveau entités, formant ainsi le noyau du Web des données liées (ou ouvertes). Parmi les BC les plus connues, citons Yago, DBPedia, Nell, DeepDive, Google’s Knowledge Vault et Freebase. Une caractérisation essentielle de ces BC est qu’elles contiennent des millions à des billions de triplets RDF incertains. Les causes de cette incertitude sont diverses et multiples. Elle peut résulter de l’intégration de sources de données de différents niveaux de fiabilité ou elle peut être causée par des considérations de préservation de la confidentialité. Aussi, elle peut être due à des facteurs liés au manque d’informations, à la limitation des équipements de mesures ou à l’évolution d’informations. Objectif L’objectif de cette thèse est de proposer des techniques facilitant la gestion et l’exploitation des BC entachées d’imperfection. Nous nous intéresserons en particulier aux techniques coopératives qui visent à mieux répondre aux besoins de l’utilisateur. De cette problématique découle un ensemble de questions : 1) Quelles sont les différentes sources d’incertitudes des triplets RDF ? 2) Comment modéliser les différentes sources d’incertitude des triplets RDF ? Peut-on imaginer un modèle unifié qui pourrait être utilisé pour toutes les BC ? 3) Comment étendre les techniques coopératives usuelles pour qu’elles prennent en compte l’incertitude liée aux données RDF tout en conservant des performances acceptables ? Travail à effectuer • • • • Etude bibliographique sur les thématiques suivantes : base de données sémantiques, techniques coopératives, modèles de l’incertain. Comparaison des différentes modélisations possibles de l’incertitude des données RDF. Extension et implantation des techniques coopératives classiques pour prendre en compte l’incertitude des données RDF. Validation des techniques proposées sur des benchmarks classiques (LUBM, WatDiv) et des BC réelles (YAGO, DBPedia). LIAS / ENSMA - Téléport 2 - 1 avenue Clément Ader - BP 40109 86961 Futuroscope Chasseneuil Cedex – France Tél : +33 (0)549498063 - Fax : +33 (0)549498064 Laboratoire d’Informatique et d’Automatique pour les Systèmes Bibliographie • • • Fokou G., Jean S., Hadjali A., Baron M., Cooperative Techniques for SPARQL Query Relaxation in RDF Databases, 12th International Extended Semantic Web Conference (ESWC2015), pp 237-252, Portoroz, Slovenia, 2015 Dong X., Gabrilovich E., Heitz G., Horn W., Lao N., Murphy K., et al. Knowledge vault: A web-scale approach to probabilistic knowledge fusion. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 601-610, 2014. D. Dubois, H. Prade. Formal representations of uncertainty. In Decision-making - Concepts and Methods. Denis Bouyssou, Didier Dubois, Marc Pirlot, Henri Prade (Eds.), Wiley, 3, p. 85-156, 2009. LIAS / ENSMA - Téléport 2 - 1 avenue Clément Ader - BP 40109 86961 Futuroscope Chasseneuil Cedex – France Tél : +33 (0)549498063 - Fax : +33 (0)549498064 Laboratoire d’Informatique et d’Automatique pour les Systèmes • Graduate school S2IM ISAE-ENSMA PhD thesis proposition 2016 Title: Management and Exploitation of Large and Uncertain Knowledge Bases Laboratory: LIAS/ENSMA-UP Supervisor(s): Dr. Stéphane JEAN ([email protected]) Prof. Allel HADJALI ([email protected]) Keywords: Knowledge Bases, Databases, Semantic Web, Uncertainty, Cooperative Techniques. Description and context With the development of numerous Semantic Web applications, several larges Knowledge Bases (KBs) have recently been created and are available on the Web. These KBs contain named entities and facts about them. They also include the semantic classes of these entities as well as their relationships. Several KBs are connected through their entities thus composing the core of the Linked Data (or Open Data). Among the well-known KBs, we can cite Yago, DBPedia, Nell, DeepDive, Google’s Knowledge Vault and Freebase. An important characteristic of these KBs is that they contain a large number of uncertain RDF triples (e.g., Knowledge Vault contains 1.6 billion triples associated with probabilities of fact correctness). The reasons for this uncertainty are multiple and diverse. It may result from the integration of data sources that have different levels of confidence. It may also be related to confidentiality, lack of information, evolution of data or limits of measure equipment. Goals This thesis aims at proposing techniques to facilitate the management and exploitation of uncertain KBs. We are particularly interested by cooperative techniques that help end-users to find relevant information. Several questions emerge from this problem: 1) What are the causes of the uncertainty of RDF triples? 2) How can we represent this uncertainty? Can we define a unified model, i.e. a model that can be applied to the different KBs? 3) How to extend usual cooperative techniques to take into account this uncertainty while providing acceptable response time to end-users? Required Work • • • • State-of-the-art on the following topics: Semantic Databases (triple stores), Cooperatives techniques, models of uncertainty. Comparison of the different possible representation of the RDF triples uncertainty Extension and implementation of usual cooperative techniques to take into account the uncertainty of RDF triples. Experimentation of the proposed techniques on usual benchmarks (LUBM, WatDiv) and real KBs (YAGO, DBPedia). LIAS / ENSMA - Téléport 2 - 1 avenue Clément Ader - BP 40109 86961 Futuroscope Chasseneuil Cedex – France Tél : +33 (0)549498063 - Fax : +33 (0)549498064 Laboratoire d’Informatique et d’Automatique pour les Systèmes Bibliography • • • Fokou G., Jean S., Hadjali A., Baron M., Cooperative Techniques for SPARQL Query Relaxation in RDF Databases, 12th Internationa Extended Semantic Web Conference (ESWC2015), pp 237-252, Portoroz, Slovenia, 2015 Dong X., Gabrilovich E., Heitz G., Horn W., Lao N., Murphy K., et al. Knowledge vault: A web-scale approach to probabilistic knowledge fusion. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 601-610, 2014. D. Dubois, H. Prade. Formal representations of uncertainty. In Decision-making - Concepts and Methods. Denis Bouyssou, Didier Dubois, Marc Pirlot, Henri Prade (Eds.), Wiley, 3, p. 85-156, 2009. LIAS / ENSMA - Téléport 2 - 1 avenue Clément Ader - BP 40109 86961 Futuroscope Chasseneuil Cedex – France Tél : +33 (0)549498063 - Fax : +33 (0)549498064