Proposition de sujet de thèse par Le thanh Nhan

Transcription

Proposition de sujet de thèse par Le thanh Nhan
ED STIC - Proposition de Sujets de Thèse
pour la campagne d'Allocation de thèses 2013
Axe Sophi@Stic :
BioSanté|Environnement|Usages|
Titre du sujet :
Etudes des mécanismes distribués de fusion et filtrage évidentiels sur les
réseaux sociaux dynamiques spatiotemporels. Application dans la
détection et gestion de risques
Mention de thèse :
Informatique
HDR Directeur de
thèse inscrit à l'ED
STIC :
Le thanh Nhan
Co-encadrant de thèse éventuel :
Nom :
Prénom :
Email :
Téléphone :
Email de contact
pour ce sujet :
[email protected]
Laboratoire
d'accueil :
I3S/INRIA
Description du sujet :
Cette proposition de travail de thèse est issue du constat que les données sous forme des
messages courts sont de plus en plus abondantes à la fois dans les échanges de messages sur
les réseaux web, mobiles(tels que sms, twitter), ou sur les réseaux de positionnement gps,
glonass, galileo (tels que navigation, trafic urbain, gestion de réseaux de transports). Ces
fractions d’information, dites fractions dynamiques spatio-temporelles (ou par abus du langage
temps-réel), peu ou pas structurées et fortement réparties sur les réseaux, ont souvent une
validité restreinte dans un espace temporel étroit voire instantané. Ces masses de données sont
fortement informatives mais pour les analyser, il est donc indispensable de tenir compte de cet
aspect dynamique spatio-temporel à la fois dans la modélisation et dans les mécanismes de
Page 1/4
traitement.
Le premier verrou scientifique de cette étude est lié aux problématiques de l’incomplétude des
messages courts dont une partie de sa sémantique est attachée aux contextes où ils sont
échangés. Une fois que le message est émis sur le réseau, les informations de contextes sont en
général insaisissables. Comment canaliser ces messages dans ses contextes sans surcharger
l’usager (le principe «report in one touch» dans la plupart de nos applications)? L’utilisation de
ces propriétés spatiotemporelles enrichies par plusieurs plans de représentation sémantique est
une des pistes à exploiter pour compléter les informations manquantes dans les messages. Il faut
noter aussi que la notion d’identification de ressource/objet sur réseau, représentée par le
concept URI/URL devra être renforcée dans le modèle de représentation pour prendre en compte
à la fois les coordonnées spatiotemporelles et les nuances sémantiques contextuelles attachées à
ces coordonnées.
Le deuxième verrou scientifique est lié aux problématiques de l’incertitude des messages
échangés. Cette imprécision est due, d’une part de la divergence naturelle de l’appréciation des
membres participant sur le sujet donné mais aussi d’autre part des « bruits » créés de manière
(in)volontaire par certains. Nous nous orientons vers une étude des mécanismes de filtrage et
classification évidentiels de cette masse de données guidés par des connaissances acquises et
qui prennent en compte tous les critères simultanément en exploitant à la fois les critères de
recherche spatio-temporels, l’information descriptive et les relations entre eux. L’imperfection
des données sera modélisée par la théorie de fonctions de croyance de Shafer.
Le troisième verrou scientifique est lié aux problématiques du traitement des masses de données
à la fois non homogènes et fortement distribuées dont la validité est en temps quasi réel.
L’optimisation des algorithmes et la distribution de traitement sont une des clés pour la réduction
du temps de traitement et de transmission sur le réseau. Cette optimisation nécessite également
la prise en compte de la notion de l’imperfection des données précédemment citée (imprécision,
incertitude et incomplétude) à la fois dans les techniques de filtrage et fusion locales et aussi
dans la maintenance de la fiabilité nécessaire pour le processus de la prise de décision globale.
Ce projet de thèse est guidé par un objectif pratique de réalisation de deux plateformes
innovantes de système et logiciels de services web : celle de «radios sociales» et celle de «
moteurs de recherche sociaux ». Ces outils constituent un support pour un large éventail
d’applications de la mobilité intelligente, détection et gestion de risques de santé et
d'environnement, ville intelligente au transport, tourisme durable et citoyenneté.
Une radio sociale est une source d’information temps réel diffusée sur le réseau à destination
d’un public de choix. Les informations diffusées sont une synthèse pertinente de la masse des
messages spatiotemporels produits en temps réel par un ensemble des membres d’un réseau
social jouant le rôle de reporters sur un sujet donné identifié par une « fréquence » logique.
Un moteur de recherche social spatiotemporel, est un dispositif informatique permettant
d’analyser en temps différé des sources de données spatiotemporelles historiques dans les radios
sociales. Il peut être intégré facilement dans une application (API) ou sur une page web
(crawler). Il dispose des mécanismes de fouille et d’analyse de données guidés par les
Page 2/4
connaissances acquises durant le fonctionnement de la radio correspondante. Une interface
multilingue peut être développée (hors de ce cadre de travail de thèse) pour des
questionnements en langue naturelle.
Bibliographie
[1] Chebbah Mouna, Martin Arnaud, Ben Yaghlane Boutheina. Estimation de la fiabilité des
sources de bases de données évidentielles. Revue Nationale des Technologies de l'Information E,
21, 2011, pp 191-208
[2] PERRIN Loïc-Michel, Les représentations orientées du temps, Colloque de l'Association pour la
Recherche
Cognitive
ARCo'06,
2006.
Archive
HAL
http://halshs.archives-ouvertes.fr/halshs-00722683
[3] Sais F., Pernelle N., and Rousset M.-C. Combining a logical and a numerical method for data
reconciliation. Journal of Data Semantics, 12 :66–94, 2009
[4] Shafer, G. A Mathematical Theory of Evidence. Princeton, University Press, 1976
[5] Troffaes M.C.M. Decision making under uncertainty using imprecise probabilities.
Int. J. of Approximate Reasoning, volume 45, 2007, pp17–29
URL : http://www.i3s.unice.fr/~nlt/telechargement/SujetEDSTIC.pdf
English version:
The proposed thesis is based on the fact that the data in the form of short messages are more
abundant both in exchanged messages on mobile web networks (such as sms, twitter), or gps
positioning networks (such as navigation, urban traffic, management of transport networks).
These information, called spatiotemporal dynamic fractions (or real-time information), little or not
structured and highly distributed on networks, often have limited validity in an instant or close
temporal space. These masses of data are highly informative but to analyze them, it is essential
to take account of this spatiotemporal dynamic aspect both in modeling and processing
mechanisms.
The first scientific hurdle of this study is related to incompleteness problems of short messages
which a part of its semantics is attached to the contexts in which they are exchanged. Once the
message is sent over the network, information contexts are generally elusive. The question is:
“How to canalize these messages in its context without overloading the user (The "Report in one
touch" principle in most of our applications)?” The use of these spatiotemporal properties
enriched by several plans of semantic representation is a means to operate to complete the
missing information in the messages. It should also be noted that the concept of identification
“Resource / Object” on network, represented by the concept “URI / URL” should be strengthened
in the representation model in order to take into account both the spatiotemporal coordinates
and the contextual semantic nuances attached to these coordinates.
The second scientific hurdle is related to uncertainty problems of the messages exchanged. This
imprecision is due, on one hand to the natural divergence of the appreciation of participating
members on the given topic, but the other hand to "noises" caused intentionally or
unintentionally by some. We focus on a study of filtering mechanisms and evidential classification
of this mass of data guided by knowledge acquired and taking into account all the criteria
Page 3/4
simultaneously by exploiting both the spatiotemporal criteria research, descriptive information
and relationships between them. The imperfection of data will be modeled by the theory of belief
functions of Shafer.
The third scientific hurdle is related to processing problems of large datasets both
inhomogeneous and highly distributed whose validity is in near real time. Algorithms Optimization
and process distribution are a key to reduce the processing time and network transmission. This
optimization also requires consideration of the concept of imperfect aforementioned data
(imprecision, uncertainty and incompleteness) both in filtering mechanisms and local fusion and
also in maintaining required reliability for the overall decision making process.
This thesis is guided by a practical purpose of construction of two innovative platforms and
system software web services: the "social radio" and the "social search engine". These tools
provide support for a wide range of applications of smart mobility, health and environment, smart
city transport, sustainable tourism and citizenship.
A Social radio is a source of real-time information broadcast over the network to a selected
audience. The broadcasted information are adequate synthesis of the mass of spatiotemporal
messages produced in real time by all members of a social network acting as reporters on a given
topic identified by a logic "frequency".
A spatiotemporal Social search engine is a computer device for analysis in delayed time of
historical spatiotemporal data sources in social radios. It can be easily embedded in an
application (API) or web page (crawler). It has mechanisms for search and data analysis guided by
the knowledge gained during the operation of the corresponding radio. A multilingual interface
can be developed (out of this part of thesis) for questions in natural language.
References
[1] Chebbah Mouna, Martin Arnaud, Ben Yaghlane Boutheina. Estimation de la fiabilité des
sources de bases de données évidentielles. Revue Nationale des Technologies de l'Information E,
21, 2011, pp 191-208
[2] PERRIN Loïc-Michel, Les représentations orientées du temps, Colloque de l'Association pour la
Recherche
Cognitive
ARCo'06,
2006.
Archive
HAL
http://halshs.archives-ouvertes.fr/halshs-00722683
[3] Sais F., Pernelle N., and Rousset M.-C. Combining a logical and a numerical method for data
reconciliation. Journal of Data Semantics, 12 :66–94, 2009
[4] Shafer, G. A Mathematical Theory of Evidence. Princeton, University Press, 1976
[5] Troffaes M.C.M. Decision making under uncertainty using imprecise probabilities.
Int. J. of Approximate Reasoning, volume 45, 2007, pp17–29
URL : http://www.i3s.unice.fr/~nlt/telechargement/SujetEDSTIC.pdf
Page 4/4