TITRE DE LA THESE Offre de thèse “Analyse Automatique des

Transcription

TITRE DE LA THESE
Offre de thèse “Analyse Automatique des Signaux Sociaux Multimodaux lors d’Entretiens
Vidéo Différés pour le Recrutement“
PROFIL DES CANDIDATS
Profils possibles : Ingénieur ; Master 2 Informatique ou Traitement du signal ou Sciences
Cognitives
Compétences : français courant ; anglais apprécié ; informatique (programmation) ; analyse
de données
Ce sujet de thèse peut faire l’objet d’un stage de master en préliminaire.
LIEUX
Il s’agit d’une thèse CIFRE en partenariat avec la société EasyRecrue, LIMSI,
TélécomParisTech.
La thèse se déroulera sur 2 laboratoires :
LIMSI-CNRS (Orsay, www.limsi.fr, accessible par le RER B)
TélécomParisTech (Paris 13e, http://www.telecom-paristech.fr/)
Des réunions sont aussi à prévoir dans la société EasyRecrue (Paris 9e) :
http://www.easyrecrue.com/fr/
CONTEXTE ET OBJECTIFS
Les technologies de recrutement en ligne se développent de plus en plus avec la mise en
place d’entretiens vidéos différés. Les candidats doivent s’enregistrer chez eux en vidéo et
audio pendant qu’ils répondent à des questions qui leur sont fournies en ligne. Le recruteur
se base ensuite sur ces enregistrements pour sélectionner certains candidats qu’il veut
rencontrer physiquement lors d’un entretien dans l’entreprise.
Dans ce contexte, les enjeux applicatifs sont les suivants: comment aider le candidat à
s’entraîner à réussir ce type d’entretien d’embauche ? comment aider le recruteur à identifier
non seulement les candidats qu’il va sélectionner pour les entretiens en face à face, mais
aussi les critères sur lesquels il se base implicitement pour réaliser cette pré-sélection ?
est-ce que ce candidat est pertinent pour le profil de poste et le domaine recherché ?
L’objectif de cette thèse est de développer des recherches en traitement multimodal (vidéo +
audio + transcription des verbalisations) des signaux sociaux afin d’apporter des réponses à
ces questions et fournir ainsi une assistance aux recruteurs et aux candidats.
Différents domaines de recherche seront sollicités pour répondre à ces enjeux scientifiques
et applicatifs : traitement informatique des signaux sociaux (Vinciarelli, 2009, Janssoone
2016, Langlet, 2016), interaction multimodale lors d’entretiens d’embauche virtuels (Hoque,
2013), prototypes et corpus d’entretiens d’embauche et prise de parole en public (Giraud,
2013; Batrinca, 2013), théories et modèles issus de la psychologie sociale (Scherer 2003),
apprentissage automatique (Machine Learning) et éthique.
·
TACHES A REALISER
Etude de l’existant
1
·
·
·
·
·
·
Théories et modèles issus de la psychologie (différences interindividuelles et personnalité ;
stress social et prise de parole en public ; communication multimodale)
Etude préliminaire des vidéos qui ont déjà été collectées (étude perceptive ; définition d’un
schéma et guide d’annotation des comportements sociaux et multimodaux observés)
Spécification et adaptation d’outils de traitement informatique de données vidéo, audio et
linguistique pour extraire les caractéristiques pertinentes
Analyser et interpréter les relations entre les caractéristiques extraites automatiquement et
les annotations subjectives effectuées par les recruteurs
Développer une méthode d’apprentissage automatique pour :
o Produire des recommandations de pré-sélection pour les recruteurs
o Produire un bilan et des conseils d’entraînement pour les candidats
Evaluer la méthode et les outils développés sur de nouvelles données d’entretiens à collecter
sur la plateforme de la société EasyRecrue

CONTACTS ET CANDIDATURE
Envoyer en parallèle aux trois contacts ci-dessous : un CV, une lettre de motivation, des
relevés de notes des 2 dernières années, les adresses emails de deux personnes référentes
(par exemple enseignants, tuteurs d’un stage précédent, …), exemple(s) de rapport de
projet ou de stage précédent (tout dossier non complet ne sera pas examiné) :
Chloé CLAVEL
Email : [email protected]
Web : https://clavel.wp.mines-telecom.fr/
Jean-Claude MARTIN
WEB : https://perso.limsi.fr/wiki/doku.php/martin/accueil
Grégory WAJNTROB
FINANCEMENT
Pour la thèse CIFRE : minimum : 23 484 Euros brut annuels
REFERENCES
Batrinca, L., Stratou, G., Shapiro, A., Morency, L.P. and Scherer, S., 2013, August.
Cicero-towards a multimodal virtual audience platform for public speaking training. In
International Workshop on Intelligent Virtual Agents (pp. 116-128). Springer.
Giraud, T., Soury, M., Hua, J., Delaborde, A., Tahon, M., Gomez D.A., Eyharabide, V.,
Filaire, E., Le Scanff, C., Devillers, L., Isableu, B., and Martin, JC. Multimodal Expressions of
Stress during a Public Speaking Task. 5th biannual Humaine Association Conference on
Affective Computing and Intelligent Interaction (ACII 2013). Geneva, Switzerland, September
2-5, 2013. Published by IEEE Computer Society. (acceptance rate = 31% for oral
presentations)
2
Hoque, M. E. , M. Courgeon, B. Mutlu, J-C. Martin, R. W. Picard (2013) MACH: My
Automated Conversation coacH, ACM International Joint Conference on Pervasive and
Ubiquitous Computing (UBICOMP 2013) Best Paper Award (392 submissions, 92 accepted
papers (acceptance rate: 23.4%), 5 Best Paper Awards).
Janssoone, T., Clavel, C., Bailly, K. and Richard, G., 2016, September. Using temporal
association rules for the synthesis of embodied conversational agents with a specific stance.
In International Conference on Intelligent Virtual Agents (pp. 175-189). Springer.
Langlet, Caroline, Chloe Clavel, Grounding the detection of the user’s likes ´ and dislikes on
the topic structure of human-agent interactions, Knowledge-Based Systems (2016), doi:
10.1016/j.knosys.2016.05.038
Scherer, K.R., 2003. Vocal communication of emotion: A review of research paradigms.
Speech communication, 40(1), pp.227-256.
Vinciarelli, Alessandro, Maja Pantic, and Hervé Bourlard. "Social signal processing: Survey
of an emerging domain." Image and Vision Computing 27.12 (2009): 1743-1759.
3