IRaMuTeQ - repere - No

Transcription

IRaMuTeQ - repere - No
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
Pierre Ratinaud
[email protected]
laboratoire CREFI-T – REPERE
Université de Toulouse II – Le Mirail
Sébastien Déjean
[email protected]
Institut de mathématiques de Toulouse
Université Toulouse III – Paul Sabatier
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
1.Contexte
2.La méthode ALCESTE
3.Les outils : des logiciels libres
4.Présentation d'IRaMuTeQ
5.Comparaison entre ALCESTE et IRaMuTeQ
6.Et après ?
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
1 - Contexte
Equipe REPERE (Représentations et Engagements Professionnels, leurs
Evolutions : Recherches et Expertises) du CREFI-T (Centre de Recherche en
Education, Formation et Insertion de Toulouse).
Processus de professionnalisation
Représentations sociales (Moscovici, 1961) et professionnelles (Piaser, 1999)
Détermination du contenu représentationnel
Analyse de discours (de texte)
ALCESTE
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
2 - La méthode ALCESTE
A.L.C.E.S.TE. : Analyse des Lexèmes Co-occurrents dans les Enoncés Simples d'un Texte.
Logiciel de statisitiques textuelles
développé dans un premier temps au sein du CNRS (Reinert, 1987)
soutenu par l'ex ANVAR et commercialisé par la société IMAGE
(http://www.image-zafar.com)
La méthode ALCESTE
Lemmatisation du vocabulaire et distinction entre formes actives (verbes, noms,
adjectifs, adverbes) et formes supplémentaires (ou mots outils - pronoms,
conjonction, certains adverbes et verbes fréquents...).
Decoupage du corpus en Unités de Contexte Initiales (U.C.I.)
Une U.C.I. = un article, un entretien, un poème, un livre...
Un corpus contient au minimum une U.C.I., mais généralement plusieurs.
Les U.C.I. sont introduites par des variables étoilées (*) qui seront utilisées comme
variables supplémentaires dans les analyses.
Découpage en Unités de Contexte Elémentaires (U.C.E.).
Une U.C.E représente un bout de texte de deux ou trois lignes. La taille des U.C.E
varie en fonction de la taille du corpus. L'objectif de l'analyse est de proposer une
classification de ces U.C.E.
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
2 - La méthode ALCESTE
**** *art_444 *00_05_cq *libération *quotidien *autres *2004 *moyen
il faudra un vrai courage politique pour que l'art retrouve la place que
l'education nationale lui avait accordée. l'art à l'école, voie de démocratie
djian jean_michel pour ceux qui sont traversés par le doute quant aux
vertus de l'éducation artistique à l'école, le dernier film de gérard jugnot les
choristes tombe à pic. jamais le cinéma ne rendra un tel hommage à cette
pratique, d'autant que l'histoire est vraie, comme l'est, d'une autre
manière, celle de ces jeunes de banlieues qui, dans l'esquive, le film
d'abdelatif kechiche mettent en scène marivaux dans le jeu de l'amour et
du hasard.
...
**** *art_445 *00_05_cq *libération *quotidien *arts_cul *2004 *moyen
annoncée moribonde, la scène française n'a pas dit son dernier mot. la
preuve au printemps de bourges, qui s'ouvre aujourd'hui. le rap bouge
encore binet stéphanie a la sortie de l'album revoir un printemps en
septembre, les marseillais d'iam portaient sur leurs épaules tous les
espoirs du rap français. après l'explosion des ventes en 1998, la
médiatisation nationale via la radio skyrock, le rap français devient à l'entrée
du millénaire médiocre, uniforme, enfermé dans ses clichés matérialistes
machos racailleux.
...
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
2 U.C.I.
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
2 - La méthode ALCESTE
**** *art_444 *00_05_cq *libération *quotidien *autres *2004 *moyen
il faudra un vrai courage politique pour que l'art retrouve la place que
l'education nationale lui avait accordée. l'art à l'école, voie de démocratie
djian jean_michel pour ceux qui sont traversés par le doute quant aux
vertus de l'éducation artistique à l'école, le dernier film de gérard jugnot les
choristes tombe à pic. jamais le cinéma ne rendra un tel hommage à cette
pratique, d'autant que l'histoire est vraie, comme l'est, d'une autre
manière, celle de ces jeunes de banlieues qui, dans l'esquive, le film
d'abdelatif kechiche mettent en scène marivaux dans le jeu de l'amour et
du hasard.
...
**** *art_445 *00_05_cq *libération *quotidien *arts_cul *2004 *moyen
annoncée moribonde, la scène française n'a pas dit son dernier mot. la
preuve au printemps de bourges, qui s'ouvre aujourd'hui. le rap bouge
encore binet stéphanie a la sortie de l'album revoir un printemps en
septembre, les marseillais d'iam portaient sur leurs épaules tous les
espoirs du rap français. après l'explosion des ventes en 1998, la
médiatisation nationale via la radio skyrock, le rap français devient à l'entrée
du millénaire médiocre, uniforme, enfermé dans ses clichés matérialistes
machos racailleux.
...
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
4 U.C.E
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
2 - La méthode ALCESTE
La méthode ALCESTE : particularité de la classification (Reinert, 1983, 1990)
La classification est menée sur deux tableaux binaires (0 / 1) croisant Unités de Contexte
(en ligne) et formes actives (en colonne).
Unité de Contexte = ensemble d'U.C.E nécessaires pour atteindre x formes actives.
●
Par exemple, dans les paramètres par défaut d'ALCESTE, les deux tableaux sont contruits
pour regrouper 10 formes actives pour le premier tableau et 12 pour le second.
Forme 1
Forme 2
Forme 3
Forme i
Uc1 (uce1+uce2)
0
1
1
...
Uc2 (uce3+uce4)
1
0
1
...
...
...
...
...
...
Forme 1
Forme 2
Forme 3
Forme i
Uc1 (uce1+uce2+uce3)
1
1
1
...
Uc2 (uce4+uce5)
0
0
1
...
...
…
…
…
...
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
2 - La méthode ALCESTE
La méthode ALCESTE : particularité de la classification (Reinert, 1983, 1990)
Une classification hiérarchique descendante est effectuée sur les tableaux UC / formes.
Elle comprend 3 étapes :
Une A.F.C est menée sur le premier tableau, puis les lignes sont ordonnées selon leurs
coordonnées sur le premier facteur. On cherche le long de ce premier facteur la partition
en 2 classes qui maximisent l'inertie-interclasse.
Un algorithme d'échange permute chaque ligne d'une classe à l'autre et vérifie la variation
d'inertie-interclasse. Cet algorithme est appliqué jusqu'à ce qu'il n'y ait plus
d'augmentation de l'inertie inter-classe.
Les formes spécifiques d'une classe (chi2) sont retirées de l'autre classe.
L'analyse est ensuite effectuée sur la plus grande des deux classes et ainsi de suite
jusqu'à obtention du nombre de classes paramétré (10 par défaut).
Les deux classifications obtenues à partir des deux tableaux d'U.C. sont croisées pour
déterminer les classes ”stables”.
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
3 - Les outils : des logiciels libres
●
Python
http://www.python.org
Interface graphique (wxpython - http://wxpython.org), découpage du texte,
lemmatisation...
●
R
http://r-project.org
Analyses et graphiques.
●
Lexique 3 (New, Pallier, Ferrand, 2005)
http://lexique.org
Lemmatisation, distinctions des différentes formes grammaticales.
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
4 - Présentation d'IRaMuTeQ
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
5 - Comparaison entre ALCESTE et IRaMuTeQ
Le corpus
596 articles (512861 occurrences) de quotidiens français extraits de la base de données
Europresse et sélectionnés à partir des mots-clés « jeunes de banlieue » ou « jeunes des
banlieues » ou « jeune de banlieue » ou « jeune des banlieues ».
Période : 2000 à 2005
Journaux : Le Monde, Le Figaro, L'Humanité et Libération.
Résultats
ALCESTE
8128 uce
Tableaux : 1372 colonnes - 6844 lignes (15 formes actives) – 6137 (17 formes actives)
7 classes stables (6487 uce classées, 79,81% du corpus)
IRaMuTeQ
8134 uce
Tableaux : 1336 colonnes – 6704 lignes (13 formes actives) – 6089 (15 formes actives)
7 classes stables (6647 uce classées, 81,72% du corpus)
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
5 - Comparaison entre ALCESTE et IRaMuTeQ
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
5 - Comparaison entre ALCESTE et IRaMuTeQ
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
5 - Comparaison entre ALCESTE et IRaMuTeQ
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
5 - Comparaison entre ALCESTE et IRaMuTeQ
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
5 - Comparaison entre ALCESTE et IRaMuTeQ
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
5 - Comparaison entre ALCESTE et IRaMuTeQ
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
5 - Comparaison entre ALCESTE et IRaMuTeQ
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
5 - Comparaison entre ALCESTE et IRaMuTeQ
Dendrogramme IRamuteq
Dendrogramme ALCESTE
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
6 - Et après ?
Intégrer de nouvelles classifications
En passant par des matrices de distances :
K-means
Fuzzy clustering
(déja dans la version 0.1-alpha6) *
Méthodes par apprentissage
Analyser des textes en anglais
Développer les modes de représentations graphiques des classifications :
Par exemple avec les arbres en 3D la bibliothèque igraph
etc...
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
6 - Et après ?
Arbres minimum de la matrice des distances du tableau formes / classes
Ratinaud P., Déjean S., MASHS 2009, Université de Toulouse II – Le Mirail
IRaMuTeQ : implémentation de la méthode ALCESTE
d'analyse de texte dans un logiciel libre
6 - Et après ?
Pour télécharger le logiciel :
Site de l'équipe REPERE : http://repere.no-ip.org/logiciel
Versions pour Windows XP (Vista ?), Mac OS X, Ubuntu (intrepid,jaunty), Debian (Lenny)
Dépôts pour lenny, intrepid et jaunty :
deb http://deb.netdig.org/apt jaunty main
Extraire la version de développement :
svn co http://www.netdig.org/svn-iramuteq iramuteq
Bibliographie
New, B. Pallier, C. Ferrand, L. Matos R. (2001). Une base de données lexicales du français contemporain sur internet:
LEXIQUE, L'Année Psychologique, 101, 447-462. http://www.lexique.org
Moscovici, S. (1961). La psychanalyse, son image et son public. Paris : PUF
Piaser A. (1999), Représentations professionnelles à l’école : particularités selon le statut : enseignant, inspecteur. Thèse de
Doctorat en Sciences de l’Éducation dirigée par M. BATAILLE, Toulouse, Université de Toulouse le Mirail
Reinert, M. (1983). Une méthode de classification descendante hiérarchique : application à l'analyse lexicale par contexte,
Les cahiers de l'analyse des données, Vol VIII, n° 2, p 187-198.
Reinert, M. (1990). ALCESTE : Une méthodologie d'analyse des données textuelles et une application : Aurélia de Gérard de
Nerval, Bulletin de méthodologie sociologique, n°26, pp. 24-54.