Sujet PLDAC Analyse de sous-titres
Transcription
Sujet PLDAC Analyse de sous-titres
Sujet PLDAC Analyse de sous-titres Vincent Guigue - Nicolas Baskiotis - [email protected] Sujet logiciel et bibliographique Sujet ouvert à un monôme ou un binôme On dispose d’une base de données de sous-titres de séries télévisuelles (plus de 3000) ainsi que des informations sur les séries elles-mêmes : avis, résumé, année de production, . . .. L’enjeu du projet est d’explorer ce que le traitement de ces données à partir des techniques usuelles d’apprentissage automatique peut apporter. On s’intéressera d’abord à une analyse statique (sans dimension temporelle) des soustitres, de manière à comparer le champ lexical, dresser une cartographie de l’offre, extraire les mots-clés associés à chaque série. Dans un deuxième temps, il sera question d’incorporer une dimension temporelle dans le traitement dans le but de représenter un épisode ou une série par l’évolution de ses thèmes ou mots-clés. Des outils devront être en outre développés pour analyser les résultats obtenus, en particulier la mise en oeuvre de clusterings basés sur les représentations proposées et des visualisations graphiques (type word cloud par exemple). Si les étudiants sont en binômes, une extension vers les systèmes de recommandation est envisagée : en croisant les données avec des bases d’avis type Amazon ou MovieLens, est-il possible de prédire quels utilisateurs vont aimer quelles séries ? Et surtout, l’analyse préalable des séries (sous-titres et meta-données) nous permet-elle d’améliorer la recommandation ? Le groupe devra dans un premier temps prendre en main les données fournies. Il cherchera ensuite à adapter les outils de MAPSI, TAL et/ou AFD à la spécificité des fichiers de sous-titres (débruitage, prise en compte du temps, . . .), puis expérimenter différents modèles prenant en compte ou non la dynamicité des sous-titres. Les développements seront principalement effectués en python. D’autres langages sont négociables en concertation avec l’étudiant. 1