IRaMuTeQ - repere - No
Transcription
IRaMuTeQ - repere - No
IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre Pierre Ratinaud [email protected] laboratoire CREFI-T – REPERE Université de Toulouse II – Le Mirail Sébastien Déjean [email protected] Institut de mathématiques de Toulouse Université Toulouse III – Paul Sabatier IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 1.Contexte 2.La méthode ALCESTE 3.Les outils : des logiciels libres 4.Présentation d'IRaMuTeQ 5.Comparaison entre ALCESTE et IRaMuTeQ 6.Et après ? Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 1 - Contexte Equipe REPERE (Représentations et Engagements Professionnels, leurs Evolutions : Recherches et Expertises) du CREFI-T (Centre de Recherche en Education, Formation et Insertion de Toulouse). Processus de professionnalisation Représentations sociales (Moscovici, 1961) et professionnelles (Piaser, 1999) Détermination du contenu représentationnel Analyse de discours (de texte) ALCESTE Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 2 - La méthode ALCESTE A.L.C.E.S.TE. : Analyse des Lexèmes Co-occurrents dans les Enoncés Simples d'un Texte. Logiciel de statisitiques textuelles développé dans un premier temps au sein du CNRS (Reinert, 1987) soutenu par l'ex ANVAR et commercialisé par la société IMAGE (http://www.image-zafar.com) La méthode ALCESTE Lemmatisation du vocabulaire et distinction entre formes actives (verbes, noms, adjectifs, adverbes) et formes supplémentaires (ou mots outils - pronoms, conjonction, certains adverbes et verbes fréquents...). Decoupage du corpus en Unités de Contexte Initiales (U.C.I.) Une U.C.I. = un article, un entretien, un poème, un livre... Un corpus contient au minimum une U.C.I., mais généralement plusieurs. Les U.C.I. sont introduites par des variables étoilées (*) qui seront utilisées comme variables supplémentaires dans les analyses. Découpage en Unités de Contexte Elémentaires (U.C.E.). Une U.C.E représente un bout de texte de deux ou trois lignes. La taille des U.C.E varie en fonction de la taille du corpus. L'objectif de l'analyse est de proposer une classification de ces U.C.E. Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 2 - La méthode ALCESTE **** *art_444 *00_05_cq *libération *quotidien *autres *2004 *moyen il faudra un vrai courage politique pour que l'art retrouve la place que l'education nationale lui avait accordée. l'art à l'école, voie de démocratie djian jean_michel pour ceux qui sont traversés par le doute quant aux vertus de l'éducation artistique à l'école, le dernier film de gérard jugnot les choristes tombe à pic. jamais le cinéma ne rendra un tel hommage à cette pratique, d'autant que l'histoire est vraie, comme l'est, d'une autre manière, celle de ces jeunes de banlieues qui, dans l'esquive, le film d'abdelatif kechiche mettent en scène marivaux dans le jeu de l'amour et du hasard. ... **** *art_445 *00_05_cq *libération *quotidien *arts_cul *2004 *moyen annoncée moribonde, la scène française n'a pas dit son dernier mot. la preuve au printemps de bourges, qui s'ouvre aujourd'hui. le rap bouge encore binet stéphanie a la sortie de l'album revoir un printemps en septembre, les marseillais d'iam portaient sur leurs épaules tous les espoirs du rap français. après l'explosion des ventes en 1998, la médiatisation nationale via la radio skyrock, le rap français devient à l'entrée du millénaire médiocre, uniforme, enfermé dans ses clichés matérialistes machos racailleux. ... Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail 2 U.C.I. IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 2 - La méthode ALCESTE **** *art_444 *00_05_cq *libération *quotidien *autres *2004 *moyen il faudra un vrai courage politique pour que l'art retrouve la place que l'education nationale lui avait accordée. l'art à l'école, voie de démocratie djian jean_michel pour ceux qui sont traversés par le doute quant aux vertus de l'éducation artistique à l'école, le dernier film de gérard jugnot les choristes tombe à pic. jamais le cinéma ne rendra un tel hommage à cette pratique, d'autant que l'histoire est vraie, comme l'est, d'une autre manière, celle de ces jeunes de banlieues qui, dans l'esquive, le film d'abdelatif kechiche mettent en scène marivaux dans le jeu de l'amour et du hasard. ... **** *art_445 *00_05_cq *libération *quotidien *arts_cul *2004 *moyen annoncée moribonde, la scène française n'a pas dit son dernier mot. la preuve au printemps de bourges, qui s'ouvre aujourd'hui. le rap bouge encore binet stéphanie a la sortie de l'album revoir un printemps en septembre, les marseillais d'iam portaient sur leurs épaules tous les espoirs du rap français. après l'explosion des ventes en 1998, la médiatisation nationale via la radio skyrock, le rap français devient à l'entrée du millénaire médiocre, uniforme, enfermé dans ses clichés matérialistes machos racailleux. ... Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail 4 U.C.E IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 2 - La méthode ALCESTE La méthode ALCESTE : particularité de la classification (Reinert, 1983, 1990) La classification est menée sur deux tableaux binaires (0 / 1) croisant Unités de Contexte (en ligne) et formes actives (en colonne). Unité de Contexte = ensemble d'U.C.E nécessaires pour atteindre x formes actives. ● Par exemple, dans les paramètres par défaut d'ALCESTE, les deux tableaux sont contruits pour regrouper 10 formes actives pour le premier tableau et 12 pour le second. Forme 1 Forme 2 Forme 3 Forme i Uc1 (uce1+uce2) 0 1 1 ... Uc2 (uce3+uce4) 1 0 1 ... ... ... ... ... ... Forme 1 Forme 2 Forme 3 Forme i Uc1 (uce1+uce2+uce3) 1 1 1 ... Uc2 (uce4+uce5) 0 0 1 ... ... … … … ... Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 2 - La méthode ALCESTE La méthode ALCESTE : particularité de la classification (Reinert, 1983, 1990) Une classification hiérarchique descendante est effectuée sur les tableaux UC / formes. Elle comprend 3 étapes : Une A.F.C est menée sur le premier tableau, puis les lignes sont ordonnées selon leurs coordonnées sur le premier facteur. On cherche le long de ce premier facteur la partition en 2 classes qui maximisent l'inertie-interclasse. Un algorithme d'échange permute chaque ligne d'une classe à l'autre et vérifie la variation d'inertie-interclasse. Cet algorithme est appliqué jusqu'à ce qu'il n'y ait plus d'augmentation de l'inertie inter-classe. Les formes spécifiques d'une classe (chi2) sont retirées de l'autre classe. L'analyse est ensuite effectuée sur la plus grande des deux classes et ainsi de suite jusqu'à obtention du nombre de classes paramétré (10 par défaut). Les deux classifications obtenues à partir des deux tableaux d'U.C. sont croisées pour déterminer les classes ”stables”. Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 3 - Les outils : des logiciels libres ● Python http://www.python.org Interface graphique (wxpython - http://wxpython.org), découpage du texte, lemmatisation... ● R http://r-project.org Analyses et graphiques. ● Lexique 3 (New, Pallier, Ferrand, 2005) http://lexique.org Lemmatisation, distinctions des différentes formes grammaticales. Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 4 - Présentation d'IRaMuTeQ IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 5 - Comparaison entre ALCESTE et IRaMuTeQ Le corpus 596 articles (512861 occurrences) de quotidiens français extraits de la base de données Europresse et sélectionnés à partir des mots-clés « jeunes de banlieue » ou « jeunes des banlieues » ou « jeune de banlieue » ou « jeune des banlieues ». Période : 2000 à 2005 Journaux : Le Monde, Le Figaro, L'Humanité et Libération. Résultats ALCESTE 8128 uce Tableaux : 1372 colonnes - 6844 lignes (15 formes actives) – 6137 (17 formes actives) 7 classes stables (6487 uce classées, 79,81% du corpus) IRaMuTeQ 8134 uce Tableaux : 1336 colonnes – 6704 lignes (13 formes actives) – 6089 (15 formes actives) 7 classes stables (6647 uce classées, 81,72% du corpus) Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 5 - Comparaison entre ALCESTE et IRaMuTeQ Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 5 - Comparaison entre ALCESTE et IRaMuTeQ Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 5 - Comparaison entre ALCESTE et IRaMuTeQ Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 5 - Comparaison entre ALCESTE et IRaMuTeQ Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 5 - Comparaison entre ALCESTE et IRaMuTeQ Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 5 - Comparaison entre ALCESTE et IRaMuTeQ Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 5 - Comparaison entre ALCESTE et IRaMuTeQ Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 5 - Comparaison entre ALCESTE et IRaMuTeQ Dendrogramme IRamuteq Dendrogramme ALCESTE Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 6 - Et après ? Intégrer de nouvelles classifications En passant par des matrices de distances : K-means Fuzzy clustering (déja dans la version 0.1-alpha6) * Méthodes par apprentissage Analyser des textes en anglais Développer les modes de représentations graphiques des classifications : Par exemple avec les arbres en 3D la bibliothèque igraph etc... Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 6 - Et après ? Arbres minimum de la matrice des distances du tableau formes / classes Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre 6 - Et après ? Pour télécharger le logiciel : Site de l'équipe REPERE : http://repere.no-ip.org/logiciel Versions pour Windows XP (Vista ?), Mac OS X, Ubuntu (intrepid,jaunty), Debian (Lenny) Dépôts pour lenny, intrepid et jaunty : deb http://deb.netdig.org/apt jaunty main Extraire la version de développement : svn co http://www.netdig.org/svn-iramuteq iramuteq Bibliographie New, B. Pallier, C. Ferrand, L. Matos R. (2001). Une base de données lexicales du français contemporain sur internet: LEXIQUE, L'Année Psychologique, 101, 447-462. http://www.lexique.org Moscovici, S. (1961). La psychanalyse, son image et son public. Paris : PUF Piaser A. (1999), Représentations professionnelles à l’école : particularités selon le statut : enseignant, inspecteur. Thèse de Doctorat en Sciences de l’Éducation dirigée par M. BATAILLE, Toulouse, Université de Toulouse le Mirail Reinert, M. (1983). Une méthode de classification descendante hiérarchique : application à l'analyse lexicale par contexte, Les cahiers de l'analyse des données, Vol VIII, n° 2, p 187-198. Reinert, M. (1990). ALCESTE : Une méthodologie d'analyse des données textuelles et une application : Aurélia de Gérard de Nerval, Bulletin de méthodologie sociologique, n°26, pp. 24-54.