Apprentissage automatique dans les réseaux sociaux – application

Transcription

Apprentissage automatique dans les réseaux sociaux – application
Apprentissage automatique dans les réseaux sociaux –
application au web spam et au blog spam.
Proposition de thèse au Laboratoire d’Informatique de Paris 6
Lieu : LIP6, 104 avenue du président Kennedy, 75016 Paris
Nous recherchons un candidat pour débuter une thèse dès que possible sur l’analyse de
communautés, les réseaux sociaux avec des application à la lutte anti-spam sur des média
comme les sites coopératifs et le web.
Le candidat devra avoir une bonne connaissance de base en apprentissage statistique et de
bonnes connaissances en programmation. Des connaissances en recherche d’information sont
les bienvenues.
La rémunération est de l’ordre de 1400 E net / mois pour 3 ans.
La thèse aura lieu au LIP6, 104 avenue du président Kennedy, 75016 Paris
Les CV et lettre de motivation sont à envoyer à : [email protected]
Contexte
La pollution par le spam des contenus sur les environnements ouverts comme le Web, les
forums, les blogs, et tous les sites collaboratifs ouverts du Web, se déploie à très grande
vitesse et attaque aujourd’hui tous les medias du Web. Le succès du Web est directement lié à
son ouverture, la contrepartie en est que toute source d’information ouverte peut être
manipulée de façon malicieuse pour être détournée de son but initial.
Le phénomène est déjà extrêmement important pour tous les acteurs de l’internet et constitue
une menace de premier ordre pour cette économie. Ainsi, dans le milieu des années 90, il a
largement participé au déclin de nombreux moteurs de recherche alors que Google montait en
puissance grâce à des algorithmes de référencement plus robustes au spam. Google a
rapidement été rattrapé par le phénomène. Tous les acteurs du Web2.0 sont directement
menacés par la généralisation et la croissance exponentielle des différents phénomènes de
spam.
Le spam dans le cas du Web est aujourd’hui connu sous le nom de spamdexing, dénomination
que nous étendons dans cette proposition à toute forme de spam sur les grands réseaux ouverts
de l’internet. La pollution du Web est devenue tellement importante que tous les moteurs de
recherche commerciaux doivent aujourd’hui consacrer une partie importante de leurs
ressources à la lutte antispam.
Bien au-delà des sites Web, le spam attaque aujourd’hui toutes les sources d’information
ouvertes comme les blogs, les wiki, les forums, les sites collaboratifs, les réseaux sociaux et
plus généralement tous les réseaux d’interaction basés sur le partage ou l’échange de contenu.
Les enjeux économiques et sociaux sont devenus extrêmement importants pour les différents
acteurs du Web et pour les utilisateurs: les moteurs de recherche, les blogs et tous les sites
pollués meurent très rapidement.
Sujet
L’objet de la thèse est de développer des algorithmes basés sur des techniques d’apprentissage
automatique permettant l’analyse et l’inférence dans les réseaux sociaux, plus
particulièrement pour des tâches de classification et de détection dans les graphes.
Du point de vue apprentissage, le challenge est de développer de nouvelles méthodes adaptées
à l’apprentissage dans des structures de graphes, alors que les méthodes actuelles ont été
créées principalement pour travailler dans des espaces vectoriels ou des séquences.
Du point de vue réseaux sociaux, l’utilisation des méthodes de l’apprentissage aux différentes
problématiques de ce domaine en est à ses débuts.
Du point de vue applicatif, il s’est créé depuis quelques temps une communauté « Adversial
Retrieval » qui travaille en particulier sur ces aspects Spams. La problématique est devenue
une des briques essentielles de la conception des moteurs de recherche et des systèmes
collaboratifs.