sujet 2 : Modèles d`utilisateur pour la
Transcription
sujet 2 : Modèles d`utilisateur pour la
PROPOSITION SUJETS DE THESES CONTRATS DOCTORAUX MINISTERIELS 2015-2018 Directeur de thèse :Georges Linares Co-directeur (éventuel) : Vincent Labatut Co-encadrant : Richard Dufour Correspondant : Nom : Labatut Prénom : Vincent Mail : [email protected] Titre en français : Modèles d'utilisateur pour la supervision automatique des réseaux sociaux Titre en anglais : User models for automatic supervision of social networks Mots-clés : Traitement du langage naturel, réseaux sociaux Co tutelle : Non Pays : Profil du candidat : Informatique Présentation détaillée du sujet: ontexte Les enjeux scientifiques et sociétaux liés à la surveillance des échanges transitant sur la toile sont considérables, en particulier parce que l'internet « interactif » s'est développé massivement ces dernières années et qu'il est devenu le support privilégié d'échanges libres entre des individus potentiellement très différents. Le bon fonctionnement des espaces d'échange ouverts implique un contrôle des interactions qui est souvent difficile. En effet, l'absence de modération peut conduire à un détournement du dispositif ou au développement de comportements déviants, illégaux ou, plus généralement, nuisibles à la qualité des échanges. Si l'absence de contrôle est un des facteurs qui a contribué au développement des espaces d'échanges ouverts sur la toile, l'absence de modération peut aussi en limiter l'intérêt. La modération par un opérateur humain est coûteuse et souvent économiquement irréalisable. Le potentiel de propositions de méthodes automatiques pour le contrôle de ces interactions textuelles à grande échelle est donc clairement avéré. Notre proposition est de développer une approche centrée sur les utilisateurs et de l'évaluer dans le cadre assez particulier des réseaux sociaux. Les questions de fond qui seront abordées concernent les modèles d'utilisateurs et les stratégies d'estimation de ces modèles statistiques. Le cadre assez général de la thèse est donc celui de l'analyse des réseaux sociaux. Objectifs L'objectif de cette thèse est de développer des méthodes dédiées à la modélisation des utilisateurs dans les réseaux sociaux dans la perspective d'une supervision automatique, ou semi-automatique, de ces réseaux. Les problèmes sous-jacents concernent la structuration des informations et l'acquisition de profils utilisateurs par l'étude statistique de grandes quantités de données. La thèse s'attaquera donc à deux verrous complémentaires : les paradigmes de modélisation de l'utilisateur en interaction et les méthodes d'apprentissage automatique permettant l'acquisition de profils utilisateurs à partir de grands corpus généralistes et de petits corpus spécialisés. Ces questions seront traitées dans le cadre de trois contextes de communication différents : la messagerie instantanée, la messagerie interne (équivalent à un échange de courriels entre utilisateurs, ou au sein d'une liste de diffusion) et les forums de discussion. Le résultat de ces recherches permettra de proposer des outils automatiques directement applicables sur ces plate-formes. Méthode Les verrous scientifiques mentionnés seront attaqués à travers le traitement de trois points : • Structuration des interactions : faire émerger l'organisation de la conversation afin d'identifier les sujets de discussion ainsi que les utilisateurs impliqués. • Définition de profils utilisateurs : faire émerger différents types d'utilisateurs, pour mieux prévoir leur comportement, et ainsi agir en amont des messages échangés. • Analyse du graphe d'interaction des utilisateurs : appuyer la définition des profils d'utilisateurs en modélisant explicitement la nature des relations entre les utilisateurs. Originalité La thèse repose sur le contrôle des conversations entre utilisateurs sur des plate-formes d'échange. Ce contrôle implique une structuration automatique a priori des échanges réalisés via ces plate-formes, afin de proposer des solutions pour définir des profils pour les utilisateurs, tels que des utilisateurs « à risque » par exemple. Les méthodes proposées reposeront sur l'intégration de descripteurs de natures très différents et sur l'adaptation de modèles estimés sur des grands corpus génériques à des conditions plus spécifiques. Les expériences seront réalisées dans le cadre de l'espace de communication textuelles du jeu de stratégie et de conquête massivement multi-joueur, SpaceOrigin (http://www.spaceorigin.fr) de l'entreprise Nectar de Code. Bibliographie [1] James Allan, Ron Papka, and Victor Lavrenko. 1998. On-line new event detection and tracking. In Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR '98). ACM, New York, NY, USA, 37-45. DOI=10.1145/290941.290954 http:// doi.acm.org/10.1145/290941.290954 [2] Yiming Yang, Tom Pierce, and Jaime Carbonell. 1998. A study of retrospective and on-line event detection. In Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR '98). ACM, New York, NY, USA, 28-36. D [3] Giridhar Kumaran and James Allan. 2004. Text classification and named entities for new event detection. In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR '04). ACM, New York, NY, USA, 297304. [4] Takeshi Sakaki, Makoto Okazaki, and Yutaka Matsuo. 2010. Earthquake shakes Twitter users: real- time event detection by social sensors. In Proceedings of the 19th international conference on World wide web (WWW '10). ACM, New York, NY, USA, 851-860. [5] Alan Mislove, Bimal Viswanath, Krishna P. Gummadi, and Peter Druschel. 2010. You are who you know: inferring user profiles in online social networks. In Proceedings of the third ACM international conference on Web search and data mining (WSDM '10). ACM, New York, NY, USA, 251-260. [6] Gianluca Stringhini, Christopher Kruegel, and Giovanni Vigna. 2010. Detecting spammers on social networks. In Proceedings of the 26th Annual Computer Security Applications Conference (ACSAC '10). ACM, New York, NY, USA, 1-9.