Introduction à IRaMuTeQ
Transcription
Introduction à IRaMuTeQ
Introduction à IRaMuTeQ Pierre Ratinaud ([email protected]) Laboratoire LERASS Université de Toulouse-Le Mirail IRaMuTeQ : présentation ● Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires ● Logiciel libre (licence GNU GPL) de lexicométrie Interface http://www.iramuteq.org Analyse des données Production des graphiques Dans la même logique : TXM (Heiden, Magué & Pincemin, 2010) - http://textometrie.ens-lyon.fr/ Pierre Ratinaud - Introduction à IRaMuTeQ - ENS - Lyon - 2013 Préparation des données et écriture des scripts pour R Installation ● Normalement, des versions sont disponibles pour mac OS X, windows et linux ● Il faut d'abord installer R (2.15.2) ● Normalement, les dépendances de R sont installées au premier lancement ; sinon Edition → Préférences puis cliquez sur « Vérifier » (Iramuteq → Préférences sous Mac) ● Sinon directement dans R : ● install.packages('lenomdelalibrairie') ● ape, gee, proxy, ca, rgl, igraph, irlba, wordcloud, textometrieR * ● Ne pas hésiter à mettre à jour ! * En cas de problèmes ● La liste de discussion : ● https://lists.sourceforge.net/lists/listinfo/iramuteq-users accompagné du contexte ● ● ● Mac OS X, windows ou linux ? Quelle version ? 32 ou 64 bits ? Quelle analyse ? Et si c'est possible le corpus... Joindre le fichier sdtout.log qui est dans le répertoire .iramuteq dans le répertoire de l'utilisateur (C:\Documents and Settings\UserName sous windows XP; /Users/UserName/.iramuteq sous Mac Os X et windows 7/8, /home/UserName sous linux) En dernier recours à [email protected] Pierre Ratinaud - Introduction à IRaMuTeQ - ENS - Lyon - 2013 Installation de la version du dépôt ● Dépôt GIT : ● http://www.netdig.org/git/iramuteq ● Dépendances : ● Python 2.7 ● wxpython 2.8 (2.9 sous Mac OS X) ● Xlrd ● Temps d'installation : 10 minutes Pierre Ratinaud - Introduction à IRaMuTeQ - ENS - Lyon - 2013 Notions de texte, de segment de texte, et de regroupement de segment de texte Découpage du corpus en textes Un texte = un article, un entretien, un poème, un livre... Un corpus contient au minimum un texte, mais généralement plusieurs. Les textes sont introduits par quatre étoiles (****) suivies d'une série de variables étoilées (*var_mod) qui seront utilisées comme variables supplémentaires dans les analyses. Possibilité d'introduire des variables pour marquer des paragraphes (-*var) Possibilité d'introduire des variables illustratives dans le corps du texte (_var_) Les variables étoilées et les thématiques introduites dans le corpus ne doivent pas contenir d'espaces ou de caractères spéciaux. Elles ne doivent contenir que des caractères parmi a-z, A-Z, 1-9 et des tirets bas (_). « *age 18 ans » n'est pas un bon codage → « *age_18 » est un bon codage « *entretien_d'Emilie » n'est pas un bon codage → « *ent_emilie » est un bon codage Préférez les codages du type *variable_modalité Référez-vous aux exemples disponibles ici : http://www.iramuteq.org/documentation/formatage-des-corpus-texte ● ● Découpage des textes en segments de texte Dans la classification double sur rst, deux classifications sont menées sur deux tableaux différents. La différence entre les tableaux réside dans le nombre de formes actives regroupées par ligne. Pierre Ratinaud - Introduction à IRaMuTeQ - ENS - Lyon - 2013 rappels • Une suite de caractères bornée par deux caractères délimiteurs est une occurrence (word-tokens). • Deux suites identiques de caractères constituent deux occurrences d'une même forme graphique (word-type). • Délimiteurs: espace, retour à la ligne, [,.;?:!’/- )(] • Lemmatisation : réduction des verbes à l'infinitif, des noms au singulier et des adjectifs au masculin singulier Le petit chat est mort. C'est dommage, il était sympa le chat. le petit chat est mort c est dommage il était sympa le chat 13 occurrences 10 formes le petit chat être mort c être dommage il être sympa le chat 13 occurrences 9 formes le petit chat être mort c être dommage il être sympa le chat petit chat mort dommage sympa 1 1 1 0 0 0 1 0 1 1 Pierre Ratinaud - Introduction à IRaMuTeQ - ENS - Lyon - 2013 Les amis d'IRaMuTeq ● TXM :) ● Il vous faut un éditeur de texte ! ● Bloc-Note, wordpad, Microsoft Word ● Libreoffice / openoffice ● Vim, Emacs, Notepad++... ● Surtout, attention à l'encodage ! * ● Inkscape, gimp pour éditer les graphiques ● Gephi, visone pour finaliser/améliorer les graphes de similitude ou poursuivre l'analyse Pierre Ratinaud - Introduction à IRaMuTeQ - ENS - Lyon - 2013