Sujet PLDAC Analyse de sous-titres

Transcription

Sujet PLDAC Analyse de sous-titres
Sujet PLDAC
Analyse de sous-titres
Vincent Guigue - Nicolas Baskiotis - [email protected]
Sujet logiciel et bibliographique
Sujet ouvert à un monôme ou un binôme
On dispose d’une base de données de sous-titres de séries télévisuelles (plus de 3000)
ainsi que des informations sur les séries elles-mêmes : avis, résumé, année de production, . . ..
L’enjeu du projet est d’explorer ce que le traitement de ces données à partir des techniques
usuelles d’apprentissage automatique peut apporter.
On s’intéressera d’abord à une analyse statique (sans dimension temporelle) des soustitres, de manière à comparer le champ lexical, dresser une cartographie de l’offre, extraire
les mots-clés associés à chaque série. Dans un deuxième temps, il sera question d’incorporer
une dimension temporelle dans le traitement dans le but de représenter un épisode ou une
série par l’évolution de ses thèmes ou mots-clés. Des outils devront être en outre développés
pour analyser les résultats obtenus, en particulier la mise en oeuvre de clusterings basés sur
les représentations proposées et des visualisations graphiques (type word cloud par exemple).
Si les étudiants sont en binômes, une extension vers les systèmes de recommandation est
envisagée : en croisant les données avec des bases d’avis type Amazon ou MovieLens, est-il
possible de prédire quels utilisateurs vont aimer quelles séries ? Et surtout, l’analyse préalable
des séries (sous-titres et meta-données) nous permet-elle d’améliorer la recommandation ?
Le groupe devra dans un premier temps prendre en main les données fournies. Il cherchera ensuite à adapter les outils de MAPSI, TAL et/ou AFD à la spécificité des fichiers de
sous-titres (débruitage, prise en compte du temps, . . .), puis expérimenter différents modèles
prenant en compte ou non la dynamicité des sous-titres. Les développements seront principalement effectués en python. D’autres langages sont négociables en concertation avec l’étudiant.
1

Documents pareils