Partage et production de connaissances distribuées dans des

Transcription

Partage et production de connaissances distribuées dans des
Partage et production de connaissances distribuées dans des plateformes
scientifiques collaboratives
Résumé: Cette thèse s’intéresse à la production et au partage cohérent de connaissances
distribuées dans le domaine des sciences de la vie. Malgré l’augmentation constante
des capacités de stockage et de calcul des infrastructures informatiques, les approches
centralisées pour la gestion de grandes masses de données scientifiques multi-sources
deviennent inadaptées pour plusieurs raisons: (i) elles ne garantissent pas l’autonomie
des fournisseurs de données qui doivent conserver un certain contrôle sur les données hébergées pour des raisons éthiques et/ou juridiques, (ii) elles ne permettent pas
d’envisager le passage à l’échelle des plateformes en sciences computationnelles qui sont
la source de productions massives de données scientifiques.
Nous nous intéressons, dans le contexte des plateformes collaboratives en sciences de la vie NeuroLOG et VIP, d’une part, aux problématiques de distribution et
d’hétérogénéité sous-jacentes au partage de ressources, potentiellement sensibles ; et
d’autre part, à la production automatique de connaissances au cours de l’usage de ces
plateformes, afin de faciliter l’exploitation de la masse de données produites. Nous nous
appuyons sur une approche ontologique pour la modélisation des connaissances et proposons à partir des technologies du web sémantique (i) d’étendre ces plateformes avec
des stratégies efficaces, statiques et dynamiques, d’interrogations sémantiques fédérées
et (ii) d’étendre leur environnent de traitement de données pour automatiser l’annotation
sémantique des résultats d’expérience “in silico”, à partir de la capture d’informations de
provenance à l’exécution et de règles d’inférence spécifiques au domaine.
Les résultats de cette thèse, évalués sur l’infrastructure distribuée et contrôlée
Grid’5000, apportent des éléments de réponse à trois enjeux majeurs des plateformes
collaboratives en sciences computationnelles : (i) un modèle de collaborations sécurisées
et une stratégie de contrôle d’accès distribué pour permettre la mise en place d’études
multi-centriques dans un environnement compétitif, (ii) des résumés sémantiques
d’expérience qui font sens pour l’utilisateur pour faciliter la navigation dans la masse
de données produites lors de campagnes expérimentales, et (iii) des stratégies efficaces
d’interrogation et de raisonnement fédérés, via les standards du Web Sémantique, pour
partager les connaissances capitalisées dans ces plateformes et les ouvrir potentiellement
sur le Web de données.
Mots-clés: Flots de services et de données scientifiques, Services web sémantiques,
Provenance, Web de données, Web sémantique, Fédération de bases de connaissances,
Intégration de données distribuées, e-Sciences, e-Santé.

Documents pareils