Apprentissage automatique dans les réseaux sociaux – application
Transcription
Apprentissage automatique dans les réseaux sociaux – application
Apprentissage automatique dans les réseaux sociaux – application au web spam et au blog spam. Proposition de thèse au Laboratoire d’Informatique de Paris 6 Lieu : LIP6, 104 avenue du président Kennedy, 75016 Paris Nous recherchons un candidat pour débuter une thèse dès que possible sur l’analyse de communautés, les réseaux sociaux avec des application à la lutte anti-spam sur des média comme les sites coopératifs et le web. Le candidat devra avoir une bonne connaissance de base en apprentissage statistique et de bonnes connaissances en programmation. Des connaissances en recherche d’information sont les bienvenues. La rémunération est de l’ordre de 1400 E net / mois pour 3 ans. La thèse aura lieu au LIP6, 104 avenue du président Kennedy, 75016 Paris Les CV et lettre de motivation sont à envoyer à : [email protected] Contexte La pollution par le spam des contenus sur les environnements ouverts comme le Web, les forums, les blogs, et tous les sites collaboratifs ouverts du Web, se déploie à très grande vitesse et attaque aujourd’hui tous les medias du Web. Le succès du Web est directement lié à son ouverture, la contrepartie en est que toute source d’information ouverte peut être manipulée de façon malicieuse pour être détournée de son but initial. Le phénomène est déjà extrêmement important pour tous les acteurs de l’internet et constitue une menace de premier ordre pour cette économie. Ainsi, dans le milieu des années 90, il a largement participé au déclin de nombreux moteurs de recherche alors que Google montait en puissance grâce à des algorithmes de référencement plus robustes au spam. Google a rapidement été rattrapé par le phénomène. Tous les acteurs du Web2.0 sont directement menacés par la généralisation et la croissance exponentielle des différents phénomènes de spam. Le spam dans le cas du Web est aujourd’hui connu sous le nom de spamdexing, dénomination que nous étendons dans cette proposition à toute forme de spam sur les grands réseaux ouverts de l’internet. La pollution du Web est devenue tellement importante que tous les moteurs de recherche commerciaux doivent aujourd’hui consacrer une partie importante de leurs ressources à la lutte antispam. Bien au-delà des sites Web, le spam attaque aujourd’hui toutes les sources d’information ouvertes comme les blogs, les wiki, les forums, les sites collaboratifs, les réseaux sociaux et plus généralement tous les réseaux d’interaction basés sur le partage ou l’échange de contenu. Les enjeux économiques et sociaux sont devenus extrêmement importants pour les différents acteurs du Web et pour les utilisateurs: les moteurs de recherche, les blogs et tous les sites pollués meurent très rapidement. Sujet L’objet de la thèse est de développer des algorithmes basés sur des techniques d’apprentissage automatique permettant l’analyse et l’inférence dans les réseaux sociaux, plus particulièrement pour des tâches de classification et de détection dans les graphes. Du point de vue apprentissage, le challenge est de développer de nouvelles méthodes adaptées à l’apprentissage dans des structures de graphes, alors que les méthodes actuelles ont été créées principalement pour travailler dans des espaces vectoriels ou des séquences. Du point de vue réseaux sociaux, l’utilisation des méthodes de l’apprentissage aux différentes problématiques de ce domaine en est à ses débuts. Du point de vue applicatif, il s’est créé depuis quelques temps une communauté « Adversial Retrieval » qui travaille en particulier sur ces aspects Spams. La problématique est devenue une des briques essentielles de la conception des moteurs de recherche et des systèmes collaboratifs.