L`analyse du discours assistée par ordinateur: la méthode ALCESTE

Transcription

L`analyse du discours assistée par ordinateur: la méthode ALCESTE
L’analyse du discours assistée par
ordinateur: la méthode ALCESTE et le
logiciel IRAMUTEQ
Emmanuel MARTY
Université Nice Sophia Antipolis
Avec la contribution de Pascal Marchand et Pierre Ratinaud
Université Toulouse 3
Pour analyser le discours:
- La statistique n’est pas la seule approche possible ...
Tout est possible et est question de choix épistémologiques,
d’indicateurs et/ou de nature des corpus.
La statistique ne peut pas tout faire: il faut prévoir ce qu’on
lui demandera : HYPOTHESES
Ce n’est pas la statistique qui garantit la qualité d’une
recherche, mais le protocole.
Pourquoi l’ADAO en SHS ?
• Analyse de discours (enquêtes, analyse sur
archives): pourquoi, dans l’univers des mots
possibles, ceux-là ont-ils été choisis ?
• Lien avec la psychologie sociale, la linguistique,
les sciences de l’information et de la
communication, les sciences politiques…
Définir les mots récurrents, leurs fonctions,
leurs relations, leurs utilisations pour
reconstruire du sens.
3
Quelques définitions
• Les questions que se donne la statistique lexicale sont les
suivantes : « quels sont les textes les plus semblables en ce
qui concerne le vocabulaire et la fréquence des formes
utilisées ? Quelles sont les formes qui caractérisent chaque
texte, par leur présence ou leur absence ? »
(Lebart & Salem, 1994, p.135).
• Tableau lexical (formes * textes)
• La lexicométrie regroupe “ toute une série de méthodes qui
permettent d’opérer des ré-organisations formelles de la
séquence textuelle et des analyses statistiques portant sur le
vocabulaire à partir d’une segmentation ”
4
(Salem, 1986)
L’interprétation en ADT
Constitution (normes de saisie):
Interprétation
Codage
•caractères (accentuation, majuscules)
Corpus
Commentaires
Interprétation:
•a/à, la/là, traite/traité, prive/privé
•frappe
et orthographe
- concordances,
•pb ou pbm, qq
cooccurrences
et ou qlq, bcp, qd, M., Mme
•chiffres, etc.
de
Tableau lexical: distributions
formes lexicales brutes
- partition
/ réduitesautomatisées
ou de
-Variable(s)
Analyses
-Unités contexte segments Segmentation:
-Formes
Réorganisations
textuelles
-profils
de parties
(UC
-Reconnaissance
et lemmatisation
ou
variables
extraAnalyse
Analyses (longueurs
statistiquesimportantes)
-Segments
Corpus
textuelles)
-AFC, classification
-Analyse morphosyntaxique Résultats
codé
-Spécificités
Autres
5
André Salem (Paris, SFDS le 26/04/01)
Quelques logiciels de lexicométrie
• Alceste
 M. Reinert (http://www.image-zafar.com)
• Lexico 3
 A. Salem (http://lexico3.no-ip.org)
• Sphinx Lexica  Y. Baulac (http://www.lesphinx-developpement.fr)
• Hyperbase
 E. Brunet (http://ancilla.unice.fr/)
• IRAMuTeQ
 P. Ratinaud (Win, Mac, Linux)
(http://repere.no-ip.org/Members/logiciel/iramuteq)6
IRaMuTeQ (Pierre Ratinaud)
Logiciel libre et gratuit développé sur la base de logiciels libres:
- Python http://www.python.org
- R (R Development Core Team, 2009): http://r-project.org
- Lexique 3 (New, Pallier & Ferrand, 2005): http://lexique.org
Reproduit notamment la méthode ALCESTE (CDH)
(Ratinaud &
Dejean, 2009)
Analyse lexicale: 1. Segmentation
• Une suite de caractères bornée par deux caractères
délimiteurs est une occurrence (word-tokens). Deux suites
identiques constituent deux occurrences d'une même forme
graphique (word-type).
• Délimiteurs: espace, retour à la ligne, [(« ,.;?:!’/-_ »)]
• Le tiret / trait d’union / moins / parenthèse
• L’apostrophe
• e muet (c’, d’, j’, jusqu’, lorsqu’, qu’, m’, n’, quoiqu’,
presqu’, puisqu’, etc.)
• autre voyelle (ç’ pour ça, l’ pour le/la, s’ pour se/si, t’
pour te/tu, etc.).
• aujourd’hui ou prud’hommes (INTEX: Silberztein,
8
1993)
12528
8324
6211
5815
5217
4908
4631
4435
3832
3051
2982
2799
2441
2425
2273
2142
2060
2024
1977
1809
1410
1393
1368
1275
1214
de
la
l
et
les
le
à
des
d
est
en
que
une
nous
qui
un
pour
du
dans
il
au
notre
plus
pas
a
1195
1188
1183
1127
1117
1074
985
908
855
838
838
816
810
803
744
711
697
695
693
667
651
647
633
603
533
c
je
ne
par
ce
sur
qu
france
s
aux
n
nos
gouvernement
avec
mais
elle
cette
vous
politique
se
être
sont
leur
pays
tous
530
528
527
509
494
479
462
453
447
434
425
422
422
421
413
410
409
406
400
390
386
375
362
346
342
sera
doit
aussi
ont
français
y
j
etat
sans
ou
comme
ces
tout
son
avons
ses
même
été
faire
ils
faut
entreprises
emploi
bien
sa
341
323
310
306
297
290
290
288
283
282
280
278
278
266
265
265
264
263
262
256
243
241
236
235
235
Les index
ai
travail
entre
si
économique
aujourd
hui
dont
sociale
on
seront
monde
république
fait
loi
où
contre
leurs
action
europe
effort
peut
nationale
avenir
président
233
231
229
227
226
226
222
221
220
219
216
215
210
209
208
208
207
206
206
203
202
202
199
197
195
développement
économie
deux
enfin
encore
temps
ensemble
vie
société
depuis
ceux
donc
toutes
soit
droit
sécurité
ainsi
elles
moyens
cet
autres
cela
mesures
jeunes
croissance
Formes initiales / réduites
Lemmatisation
Reconnaître les chaînes de caractères communes :
deux formes se succédant dans un index
alphabétique sont potentiellement liées par une
racine commune (jeune, jeunes = jeune+).
Mais des formes très proches ne doivent pas
forcément être regroupées (grand, gras, grave  gra+) ;
Définir un critère permettant de décider de leur
regroupement : on peut, par exemple, construire une
liste des suffixes grammaticaux usuels (programme
SHRDLU de Winograd, 1972 ; logiciel Alceste).
10
+a
+able
+ablement
+ace
+ade
+age
+ai
+aie
+aient
+aire
+ais
+aise
+aison
+ait
+al
+ale
+ames
+amment
+ance
+ant
+ante
+ard
+as
+asse
+assent
+asses
+assez
+assiez
+assions
+at
+ates
+ateur
+atif
+ation
+atique
+ative
+atre
+atrice
+aux
+cale
+cite
+d
+dre
+e
+eau
+eaux
+ee
+een
+eenne
+elle
+ement
+emental
+ementaux
+emment
+ence
+ent
+ente
+er
+i
+era
+ible
+erai
+ice
+eraient
+icien
+erais
+icien
+erait
+icienne
+eras
+icienne
+ere
+ide
+erent
+idement
+eresse
+ie
+erez
+iel
+erie
+ielle
+eriez
+ien
+erions
+ienne
+eron
+ier
+erons
+iere
+eront +ieusement
+es
+iez
+esque
+if
+esse
+ille
+et
+iment
+ete
+imes
+ette
+in
+eur
+ion
+euse
+ions
+eusement
+ique
+eux
+ez
+ir
+ira
+irai
+iraient
+irais
+irait
+iras
+irent
+irez
+iriez
+irions
+irons
+iront
+is
+isant
+isante
+ise
+isme
+ison
+issage
+issaient
+issais
+issait
+issant
+issante
+isse
+issement
+issent
+isses
+issez
+issiez
+issions
+issons
+iste
+it
+ite
+ites
+itif
+ition
+itive
+itude
+lure
+ment
+mental
+mentaux
+mment
+nt
+oir
+oire
+on
+ons
+ont
+orat
+osite
+pre
+que
+r
+ra
+rai
+raient
+rais
+rait
+ras
+re
+u
+resse
+ude
+rez
+ue
+rice
+ueuse
+rie +ueusement
+riez
+ueux
+ron
+umes
+rons
+ur
+ront
+ure
+s
+urent
+se
+us
+sement
+use
+ssant
+usses
+sse
+ussiez
+ssement
+ussions
+ssent
+ut
+t
+utes
+te
+ux
+teur
+vre
+tif
+x
+tion
+tique
+tive
+tre
+trice
+tte
+tude
11
Formes initiales / réduites
Formes dont la flexion entraîne
morphologique: culpabilité et coupable
une
modification
Dictionnaire à étiquettes « DELAF » du Laboratoire
d’Automatique Documentaire et Linguistique (Université de
Paris 7). Cf. Gross, 1975, 1986 ; Gross et Senellart, 1998.
TreeTagger - a language independent part-of-speech tagger
http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
Lemmatiseur Lexique 3 (New, Pallier & Ferrand, 2005)
12
Regroupements (SR)
Segment
Fréq.
Segment
Fréq.
président de la république
98 sécurité sociale
22
Locutions
: “aujourd’hui”, “Etats-Unis”,
“peut-être”, “point
projet de loi
51 service public
22
de
vue”, “lutte des classes”, “sécurité
sociale”, ou “week-end”.
il y a
47 en ce qui concerne
21
partenaires
sociaux : Segments répétés46
enSalem
matière de
21
En corpus
mesdames et messieurs les députés
43 en même temps
21
En langue : Dictionnaires 42
Silberztein
en faveur
en sorte que(1993, 1998) 21
en matière
42 mise en place
21
Expressions
figées : Gross (1982):
prendre la poudre
en place
39 économie française
20
d’escampette
dans le cadre = fuir
35 commerce extérieur
20
parce qu
34 formation
professionnelle
19
La
définition des unités d’analyse
amène
à sortir du
mise en oeuvre
29 union européenne
19
champ
strictement statistique pour
envisager de repérer
mettre en oeuvre
27 assemblée nationale
19
les
statuts
syntaxiques (et sémantiques)
et
collectivités
locales
27 bien entendu des formes 18
secteur public
temps
partiel
18
l’usage
de la langue plutôt que26 la
seule
distribution des
en sorte graphiques… Et ça, c’est25une
protection
18
formes
autresociale
histoire !
bien sûr
25 construction européenne
18
13
Analyse lexicale : 2. partition /
segmentation
• La statistique mesure des différences
• Comparaison de modalités de variables
• Echantillonnage
• Hypothèses
• Approche hypothético-déductive avec variables précodées
• Approche inductive et reconstructions de variables a
posteriori après réorganisation de la matière textuelle
14
Tableau lexical formes * parties
En colonne, les parties (caractérisées
par des variables et modalités)
En ligne, les formes: liste des
mots du lexique issus de la
segmentation et lemmatisation
•Nombre d’occurrences
15
Tableau lexical formes * parties
LHumanité LaCroix
yougoslavie
1
considérable
13
controversé
5
sgen
4
garraud
7
originalité
2
chine
10
naturel
18
controverse
5
mener
81
projection
9
sensibilisation
5
constitutif
2
lnder
0
commentaire
15
radicalisation
4
rythme
8
bienvenu
3
cependant
37
tisser
4
souci
17
prétendu
7
défiler
6
peur
41
LeFigaro
4
10
6
2
3
9
10
25
15
68
10
4
7
14
25
10
21
2
86
8
51
3
10
85
LeMonde
3
21
14
0
0
7
24
34
16
80
2
2
5
0
16
14
5
1
66
2
20
4
18
85
LePoint
2
4
5
5
1
2
5
12
8
53
4
1
2
0
16
9
5
1
29
1
19
5
14
44
Libération
0
3
3
0
0
2
3
10
0
17
0
0
0
0
3
0
5
1
12
0
6
0
5
12
NouvelObs
1
0
8
1
3
0
1
0
0
0
2
0
8
1
7
1
4
0
46
2
1
0
0
0
1
0
0
0
4
0
0
0
1
0
2
0
18
0
3
1
6
1
0
0
12
0
38
5
16
Analyse lexicale 3 : statistiques
• Formes et réponses caractéristiques, ou spécificités
(profil)
• Méthodes factorielles
• Classification automatique
• Cooccurrences
et similitudes
17
3.1. Les spécificités lexicales
• Si l’on considère une forme lexicale particulière
dans un corpus, les occurrences de cette forme
peuvent se distribuer:
– de façon équilibrée dans toutes les parties (hasard)
– ou certaines parties peuvent révéler une fréquence de
cette forme plus élevée que d’autres (écart au hasard).
• A ce calcul, qui fait intervenir la comparaison d’une
distribution observée à une distribution équilibrée
(ou « théorique »), est associé une probabilité
(« Modèle hypergéométrique », Lafon, 1984).
18
3.2. La classification hiérarchique
descendante
Corpus
1ere partition du corpus
Classe 1
2e partition du corpus
3e partition
Classe 2 Classe 3 Classe 4 Classe 1
19
Tableau lexical
Parties = segments de texte, dits
« unités de contexte »
Segment 1
« Je ne veux pas être de la génération qui aura reporté le poids
d’unedu
dette
excessive
Formes
lexique
: sur ses enfants et petits-enfants. Mon
gouvernement sera celui de la responsabilité devant la
jeunesse. Nous pourrions utiliser la situation que nous avons
trouvée pour justifier des renoncements. Et bien non, nous ne
renonçons à rien. Cette majorité n’a pas été élue pour trouver des
Segment 2 excuses, mais des solutions. Je veux dire aux français la vérité. je
veux leur dire ce que nous ferons. Je veux qu’ils puissent être juges
•Présence
à chaque instant des chemins que nous empruntons.
» / absence
Extrait du discours de J-M Ayrault, 2012
Segment 3
Classification lexicale (méthode Reinert)
Formes/ UC
france
travail
nation
politique
engagement
pouvoir
social
projet
partenaires
a
b
1
1
1
0
0
0
0
0
0
c
1
0
1
0
1
0
1
0
1
0
1
1
1
1
0
0
0
d
1
1
0
0
0
0
1
1
1
e
1
1
1
0
0
0
0
0
0
f
0
1
0
0
0
0
1
1
1
g
h
0 0
0 1
1 0
1 1
1 0
1 1
0 0
0 1
0 0
i
0
1
0
1
0
1
0
1
0
Classe 1 (vert)
Classe 2 (jaune)
Classe 3 (rouge)
1ère partition 2ème partition
3ème partition
Classe 4
(bleu)
3.3. Analyse des correspondances
Français
20
Élite de la
nation
Littéraires
0
Histoire
10
20
Sûrement
bons ailleurs
Mathématiques
Scientifiques
0
3.4. Cooccurrences et analyse de
similitude
• L’ADS est une technique, reposant sur la théorie des
graphes, classiquement utilisée pour l’étude des
représentations sociales. Son objectif est d’étudier la
proximité et les relations entre les éléments d’un
ensemble, sous forme d’arbres maximum
24
3.4. Cooccurrences et analyse de similitude
25
Quelques références
• Lebart, L. & Salem, A. (1994). Statistique textuelle. Paris :
Dunod.
• Marchand, P. (1998). L’Analyse du Discours Assistée par
Ordinateur. Paris : Armand Colin.
• Reinert, M. (1990). ALCESTE - Une méthodologie d'analyse
des données textuelles et une application : Aurélia de Gérard de
Nerval. Bulletin de Méthodologie Sociologique, 26, p. 24-54.
• Ratinaud, P., & Dejean, S. (2009). IRaMuTeQ: implémentation
de la méthode ALCESTE d’analyse de texte dans un logiciel
libre. Modélisation Appliquée aux Sciences Humaines et
Sociales (MASHS2009), Toulouse, France.