Proposition de sujet de thèse par Le thanh Nhan
Transcription
Proposition de sujet de thèse par Le thanh Nhan
ED STIC - Proposition de Sujets de Thèse pour la campagne d'Allocation de thèses 2013 Axe Sophi@Stic : BioSanté|Environnement|Usages| Titre du sujet : Etudes des mécanismes distribués de fusion et filtrage évidentiels sur les réseaux sociaux dynamiques spatiotemporels. Application dans la détection et gestion de risques Mention de thèse : Informatique HDR Directeur de thèse inscrit à l'ED STIC : Le thanh Nhan Co-encadrant de thèse éventuel : Nom : Prénom : Email : Téléphone : Email de contact pour ce sujet : [email protected] Laboratoire d'accueil : I3S/INRIA Description du sujet : Cette proposition de travail de thèse est issue du constat que les données sous forme des messages courts sont de plus en plus abondantes à la fois dans les échanges de messages sur les réseaux web, mobiles(tels que sms, twitter), ou sur les réseaux de positionnement gps, glonass, galileo (tels que navigation, trafic urbain, gestion de réseaux de transports). Ces fractions d’information, dites fractions dynamiques spatio-temporelles (ou par abus du langage temps-réel), peu ou pas structurées et fortement réparties sur les réseaux, ont souvent une validité restreinte dans un espace temporel étroit voire instantané. Ces masses de données sont fortement informatives mais pour les analyser, il est donc indispensable de tenir compte de cet aspect dynamique spatio-temporel à la fois dans la modélisation et dans les mécanismes de Page 1/4 traitement. Le premier verrou scientifique de cette étude est lié aux problématiques de l’incomplétude des messages courts dont une partie de sa sémantique est attachée aux contextes où ils sont échangés. Une fois que le message est émis sur le réseau, les informations de contextes sont en général insaisissables. Comment canaliser ces messages dans ses contextes sans surcharger l’usager (le principe «report in one touch» dans la plupart de nos applications)? L’utilisation de ces propriétés spatiotemporelles enrichies par plusieurs plans de représentation sémantique est une des pistes à exploiter pour compléter les informations manquantes dans les messages. Il faut noter aussi que la notion d’identification de ressource/objet sur réseau, représentée par le concept URI/URL devra être renforcée dans le modèle de représentation pour prendre en compte à la fois les coordonnées spatiotemporelles et les nuances sémantiques contextuelles attachées à ces coordonnées. Le deuxième verrou scientifique est lié aux problématiques de l’incertitude des messages échangés. Cette imprécision est due, d’une part de la divergence naturelle de l’appréciation des membres participant sur le sujet donné mais aussi d’autre part des « bruits » créés de manière (in)volontaire par certains. Nous nous orientons vers une étude des mécanismes de filtrage et classification évidentiels de cette masse de données guidés par des connaissances acquises et qui prennent en compte tous les critères simultanément en exploitant à la fois les critères de recherche spatio-temporels, l’information descriptive et les relations entre eux. L’imperfection des données sera modélisée par la théorie de fonctions de croyance de Shafer. Le troisième verrou scientifique est lié aux problématiques du traitement des masses de données à la fois non homogènes et fortement distribuées dont la validité est en temps quasi réel. L’optimisation des algorithmes et la distribution de traitement sont une des clés pour la réduction du temps de traitement et de transmission sur le réseau. Cette optimisation nécessite également la prise en compte de la notion de l’imperfection des données précédemment citée (imprécision, incertitude et incomplétude) à la fois dans les techniques de filtrage et fusion locales et aussi dans la maintenance de la fiabilité nécessaire pour le processus de la prise de décision globale. Ce projet de thèse est guidé par un objectif pratique de réalisation de deux plateformes innovantes de système et logiciels de services web : celle de «radios sociales» et celle de « moteurs de recherche sociaux ». Ces outils constituent un support pour un large éventail d’applications de la mobilité intelligente, détection et gestion de risques de santé et d'environnement, ville intelligente au transport, tourisme durable et citoyenneté. Une radio sociale est une source d’information temps réel diffusée sur le réseau à destination d’un public de choix. Les informations diffusées sont une synthèse pertinente de la masse des messages spatiotemporels produits en temps réel par un ensemble des membres d’un réseau social jouant le rôle de reporters sur un sujet donné identifié par une « fréquence » logique. Un moteur de recherche social spatiotemporel, est un dispositif informatique permettant d’analyser en temps différé des sources de données spatiotemporelles historiques dans les radios sociales. Il peut être intégré facilement dans une application (API) ou sur une page web (crawler). Il dispose des mécanismes de fouille et d’analyse de données guidés par les Page 2/4 connaissances acquises durant le fonctionnement de la radio correspondante. Une interface multilingue peut être développée (hors de ce cadre de travail de thèse) pour des questionnements en langue naturelle. Bibliographie [1] Chebbah Mouna, Martin Arnaud, Ben Yaghlane Boutheina. Estimation de la fiabilité des sources de bases de données évidentielles. Revue Nationale des Technologies de l'Information E, 21, 2011, pp 191-208 [2] PERRIN Loïc-Michel, Les représentations orientées du temps, Colloque de l'Association pour la Recherche Cognitive ARCo'06, 2006. Archive HAL http://halshs.archives-ouvertes.fr/halshs-00722683 [3] Sais F., Pernelle N., and Rousset M.-C. Combining a logical and a numerical method for data reconciliation. Journal of Data Semantics, 12 :66–94, 2009 [4] Shafer, G. A Mathematical Theory of Evidence. Princeton, University Press, 1976 [5] Troffaes M.C.M. Decision making under uncertainty using imprecise probabilities. Int. J. of Approximate Reasoning, volume 45, 2007, pp17–29 URL : http://www.i3s.unice.fr/~nlt/telechargement/SujetEDSTIC.pdf English version: The proposed thesis is based on the fact that the data in the form of short messages are more abundant both in exchanged messages on mobile web networks (such as sms, twitter), or gps positioning networks (such as navigation, urban traffic, management of transport networks). These information, called spatiotemporal dynamic fractions (or real-time information), little or not structured and highly distributed on networks, often have limited validity in an instant or close temporal space. These masses of data are highly informative but to analyze them, it is essential to take account of this spatiotemporal dynamic aspect both in modeling and processing mechanisms. The first scientific hurdle of this study is related to incompleteness problems of short messages which a part of its semantics is attached to the contexts in which they are exchanged. Once the message is sent over the network, information contexts are generally elusive. The question is: “How to canalize these messages in its context without overloading the user (The "Report in one touch" principle in most of our applications)?” The use of these spatiotemporal properties enriched by several plans of semantic representation is a means to operate to complete the missing information in the messages. It should also be noted that the concept of identification “Resource / Object” on network, represented by the concept “URI / URL” should be strengthened in the representation model in order to take into account both the spatiotemporal coordinates and the contextual semantic nuances attached to these coordinates. The second scientific hurdle is related to uncertainty problems of the messages exchanged. This imprecision is due, on one hand to the natural divergence of the appreciation of participating members on the given topic, but the other hand to "noises" caused intentionally or unintentionally by some. We focus on a study of filtering mechanisms and evidential classification of this mass of data guided by knowledge acquired and taking into account all the criteria Page 3/4 simultaneously by exploiting both the spatiotemporal criteria research, descriptive information and relationships between them. The imperfection of data will be modeled by the theory of belief functions of Shafer. The third scientific hurdle is related to processing problems of large datasets both inhomogeneous and highly distributed whose validity is in near real time. Algorithms Optimization and process distribution are a key to reduce the processing time and network transmission. This optimization also requires consideration of the concept of imperfect aforementioned data (imprecision, uncertainty and incompleteness) both in filtering mechanisms and local fusion and also in maintaining required reliability for the overall decision making process. This thesis is guided by a practical purpose of construction of two innovative platforms and system software web services: the "social radio" and the "social search engine". These tools provide support for a wide range of applications of smart mobility, health and environment, smart city transport, sustainable tourism and citizenship. A Social radio is a source of real-time information broadcast over the network to a selected audience. The broadcasted information are adequate synthesis of the mass of spatiotemporal messages produced in real time by all members of a social network acting as reporters on a given topic identified by a logic "frequency". A spatiotemporal Social search engine is a computer device for analysis in delayed time of historical spatiotemporal data sources in social radios. It can be easily embedded in an application (API) or web page (crawler). It has mechanisms for search and data analysis guided by the knowledge gained during the operation of the corresponding radio. A multilingual interface can be developed (out of this part of thesis) for questions in natural language. References [1] Chebbah Mouna, Martin Arnaud, Ben Yaghlane Boutheina. Estimation de la fiabilité des sources de bases de données évidentielles. Revue Nationale des Technologies de l'Information E, 21, 2011, pp 191-208 [2] PERRIN Loïc-Michel, Les représentations orientées du temps, Colloque de l'Association pour la Recherche Cognitive ARCo'06, 2006. Archive HAL http://halshs.archives-ouvertes.fr/halshs-00722683 [3] Sais F., Pernelle N., and Rousset M.-C. Combining a logical and a numerical method for data reconciliation. Journal of Data Semantics, 12 :66–94, 2009 [4] Shafer, G. A Mathematical Theory of Evidence. Princeton, University Press, 1976 [5] Troffaes M.C.M. Decision making under uncertainty using imprecise probabilities. Int. J. of Approximate Reasoning, volume 45, 2007, pp17–29 URL : http://www.i3s.unice.fr/~nlt/telechargement/SujetEDSTIC.pdf Page 4/4