Introduction à IRaMuTeQ

Transcription

Introduction à IRaMuTeQ
Introduction à IRaMuTeQ
Pierre Ratinaud ([email protected])
Laboratoire LERASS
Université de Toulouse-Le Mirail
IRaMuTeQ : présentation
●
Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires
●
Logiciel libre (licence GNU GPL) de lexicométrie
Interface
http://www.iramuteq.org
Analyse des données
Production des graphiques
Dans la même logique :
TXM (Heiden, Magué & Pincemin, 2010) - http://textometrie.ens-lyon.fr/
Pierre Ratinaud - Introduction à IRaMuTeQ - ENS - Lyon - 2013
Préparation des données et
écriture des scripts pour R
Installation
●
Normalement, des versions sont disponibles pour mac OS X, windows et linux
●
Il faut d'abord installer R (2.15.2)
●
Normalement, les dépendances de R sont installées au premier lancement ; sinon Edition →
Préférences puis cliquez sur « Vérifier » (Iramuteq → Préférences sous Mac)
●
Sinon directement dans R :
●
install.packages('lenomdelalibrairie')
●
ape, gee, proxy, ca, rgl, igraph, irlba, wordcloud, textometrieR *
●
Ne pas hésiter à mettre à jour ! *
En cas de problèmes
●
La liste de discussion :
●
https://lists.sourceforge.net/lists/listinfo/iramuteq-users accompagné du contexte
●
●
●
Mac OS X, windows ou linux ? Quelle version ? 32 ou 64 bits ? Quelle analyse ? Et si c'est
possible le corpus...
Joindre le fichier sdtout.log qui est dans le répertoire .iramuteq dans le répertoire de l'utilisateur
(C:\Documents and Settings\UserName sous windows XP; /Users/UserName/.iramuteq sous Mac
Os X et windows 7/8, /home/UserName sous linux)
En dernier recours à [email protected]
Pierre Ratinaud - Introduction à IRaMuTeQ - ENS - Lyon - 2013
Installation de la version du dépôt
●
Dépôt GIT :
●
http://www.netdig.org/git/iramuteq
●
Dépendances :
●
Python 2.7
●
wxpython 2.8 (2.9 sous Mac OS X)
●
Xlrd
●
Temps d'installation : 10 minutes
Pierre Ratinaud - Introduction à IRaMuTeQ - ENS - Lyon - 2013
Notions de texte, de segment de texte, et de regroupement de segment de texte
Découpage du corpus en textes
Un texte = un article, un entretien, un poème, un livre...
Un corpus contient au minimum un texte, mais généralement plusieurs.
Les textes sont introduits par quatre étoiles (****) suivies d'une série de
variables étoilées (*var_mod) qui seront utilisées comme variables
supplémentaires dans les analyses.
Possibilité d'introduire des variables pour marquer des paragraphes (-*var)
Possibilité d'introduire des variables illustratives dans le corps du texte
(_var_)
Les variables étoilées et les thématiques introduites dans le corpus ne doivent pas
contenir d'espaces ou de caractères spéciaux. Elles ne doivent contenir que des
caractères parmi a-z, A-Z, 1-9 et des tirets bas (_).
« *age 18 ans » n'est pas un bon codage → « *age_18 » est un bon codage
« *entretien_d'Emilie » n'est pas un bon codage → « *ent_emilie » est un bon codage
Préférez les codages du type *variable_modalité
Référez-vous aux exemples disponibles ici :
http://www.iramuteq.org/documentation/formatage-des-corpus-texte
●
●
Découpage des textes en segments de texte
Dans la classification double sur rst, deux classifications sont menées sur deux
tableaux différents. La différence entre les tableaux réside dans le nombre de
formes actives regroupées par ligne.
Pierre Ratinaud - Introduction à IRaMuTeQ - ENS - Lyon - 2013
rappels
•
Une suite de caractères bornée par deux caractères délimiteurs est une occurrence
(word-tokens).
•
Deux suites identiques de caractères constituent deux occurrences d'une même
forme graphique (word-type).
•
Délimiteurs: espace, retour à la ligne, [,.;?:!’/- )(]
•
Lemmatisation : réduction des verbes à l'infinitif, des noms au singulier et des
adjectifs au masculin singulier
Le petit chat est mort.
C'est dommage, il était sympa le chat.
le petit chat est mort
c est dommage il était sympa le chat
13 occurrences
10 formes
le petit chat être mort
c être dommage il être sympa le chat
13 occurrences
9 formes
le petit chat être mort
c être dommage il être sympa le chat
petit
chat
mort
dommage
sympa
1
1
1
0
0
0
1
0
1
1
Pierre Ratinaud - Introduction à IRaMuTeQ - ENS - Lyon - 2013
Les amis d'IRaMuTeq
●
TXM :)
●
Il vous faut un éditeur de texte !
●
Bloc-Note, wordpad, Microsoft Word
●
Libreoffice / openoffice
●
Vim, Emacs, Notepad++...
●
Surtout, attention à l'encodage ! *
●
Inkscape, gimp pour éditer les graphiques
●
Gephi, visone pour finaliser/améliorer les graphes de similitude ou poursuivre
l'analyse
Pierre Ratinaud - Introduction à IRaMuTeQ - ENS - Lyon - 2013