sujet 2 : Modèles d`utilisateur pour la

Transcription

sujet 2 : Modèles d`utilisateur pour la
PROPOSITION SUJETS DE THESES
CONTRATS DOCTORAUX MINISTERIELS
2015-2018
Directeur de thèse :Georges Linares
Co-directeur (éventuel) : Vincent Labatut
Co-encadrant : Richard Dufour
Correspondant :
Nom : Labatut
Prénom : Vincent
Mail : [email protected]
Titre en français : Modèles d'utilisateur pour la supervision automatique des réseaux sociaux
Titre en anglais : User models for automatic supervision of social networks
Mots-clés : Traitement du langage naturel, réseaux sociaux
Co tutelle : Non
Pays :
Profil du candidat :
Informatique
Présentation détaillée du sujet:
ontexte
Les enjeux scientifiques et sociétaux liés à la surveillance des échanges transitant sur la toile
sont considérables, en particulier parce que l'internet « interactif » s'est développé
massivement ces dernières années et qu'il est devenu le support privilégié d'échanges libres
entre des individus potentiellement très différents. Le bon fonctionnement des espaces
d'échange ouverts implique un contrôle des interactions qui est souvent difficile. En effet,
l'absence de modération peut conduire à un détournement du dispositif ou au développement
de comportements déviants, illégaux ou, plus généralement, nuisibles à la qualité des
échanges. Si l'absence de contrôle est un des facteurs qui a contribué au développement des
espaces d'échanges ouverts sur la toile, l'absence de modération peut aussi en limiter l'intérêt.
La modération par un opérateur humain est coûteuse et souvent économiquement irréalisable.
Le potentiel de propositions de méthodes automatiques pour le contrôle de ces interactions
textuelles à grande échelle est donc clairement avéré. Notre proposition est de développer une
approche centrée sur les utilisateurs et de l'évaluer dans le cadre assez particulier des réseaux
sociaux. Les questions de fond qui seront abordées concernent les modèles d'utilisateurs et les
stratégies d'estimation de ces modèles statistiques. Le cadre assez général de la thèse est donc
celui de l'analyse des réseaux sociaux.
Objectifs
L'objectif de cette thèse est de développer des méthodes dédiées à la modélisation des
utilisateurs dans les réseaux sociaux dans la perspective d'une supervision automatique, ou
semi-automatique, de ces réseaux. Les problèmes sous-jacents concernent la structuration des
informations et l'acquisition de profils utilisateurs par l'étude statistique de grandes quantités
de données. La thèse s'attaquera donc à deux verrous complémentaires : les paradigmes de
modélisation de l'utilisateur en interaction et les méthodes d'apprentissage automatique
permettant l'acquisition de profils utilisateurs à partir de grands corpus généralistes et de
petits corpus spécialisés.
Ces questions seront traitées dans le cadre de trois contextes de communication différents : la
messagerie instantanée, la messagerie interne (équivalent à un échange de courriels entre
utilisateurs, ou au sein d'une liste de diffusion) et les forums de discussion. Le résultat de ces
recherches permettra de proposer des outils automatiques directement applicables sur ces
plate-formes.
Méthode
Les verrous scientifiques mentionnés seront attaqués à travers le traitement de trois points :
• Structuration des interactions : faire émerger l'organisation de la conversation afin
d'identifier
les sujets de discussion ainsi que les utilisateurs impliqués.
• Définition de profils utilisateurs : faire émerger différents types d'utilisateurs, pour mieux
prévoir leur comportement, et ainsi agir en amont des messages échangés.
• Analyse du graphe d'interaction des utilisateurs : appuyer la définition des profils
d'utilisateurs en modélisant explicitement la nature des relations entre les utilisateurs.
Originalité
La thèse repose sur le contrôle des conversations entre utilisateurs sur des plate-formes
d'échange. Ce contrôle implique une structuration automatique a priori des échanges réalisés
via ces plate-formes, afin de proposer des solutions pour définir des profils pour les
utilisateurs, tels que des utilisateurs « à risque » par exemple. Les méthodes proposées
reposeront sur l'intégration de descripteurs de natures très différents et sur l'adaptation de
modèles estimés sur des grands corpus génériques à des conditions plus spécifiques. Les
expériences seront réalisées dans le cadre de l'espace de communication textuelles du jeu de
stratégie et de conquête massivement multi-joueur, SpaceOrigin (http://www.spaceorigin.fr)
de l'entreprise Nectar de Code.
Bibliographie
[1] James Allan, Ron Papka, and Victor Lavrenko. 1998. On-line new event detection and
tracking. In Proceedings of the 21st annual international ACM SIGIR conference on Research
and development in information retrieval (SIGIR '98). ACM, New York, NY, USA, 37-45.
DOI=10.1145/290941.290954 http:// doi.acm.org/10.1145/290941.290954
[2] Yiming Yang, Tom Pierce, and Jaime Carbonell. 1998. A study of retrospective and on-line
event detection. In Proceedings of the 21st annual international ACM SIGIR conference on
Research and development in information retrieval (SIGIR '98). ACM, New York, NY, USA, 28-36.
D
[3] Giridhar Kumaran and James Allan. 2004. Text classification and named entities for new
event detection. In Proceedings of the 27th annual international ACM SIGIR conference on
Research and development in information retrieval (SIGIR '04). ACM, New York, NY, USA, 297304.
[4] Takeshi Sakaki, Makoto Okazaki, and Yutaka Matsuo. 2010. Earthquake shakes Twitter users:
real- time event detection by social sensors. In Proceedings of the 19th international
conference on World wide web (WWW '10). ACM, New York, NY, USA, 851-860.
[5] Alan Mislove, Bimal Viswanath, Krishna P. Gummadi, and Peter Druschel. 2010. You are who
you know: inferring user profiles in online social networks. In Proceedings of the third ACM
international conference on Web search and data mining (WSDM '10). ACM, New York, NY,
USA, 251-260.
[6] Gianluca Stringhini, Christopher Kruegel, and Giovanni Vigna. 2010. Detecting spammers on
social networks. In Proceedings of the 26th Annual Computer Security Applications Conference
(ACSAC '10).
ACM, New York, NY, USA, 1-9.