Statistiques en sciences humaines avec

Transcription

Statistiques en sciences humaines avec
Cet ouvrage présente le logiciel R, car il est offert gratuitement,
appuyé par une communauté scientifique, accessible sur les principales plateformes et parce qu’il génère rapidement des graphiques de
très haute qualité sous des formats multiples.
Jean-Herman Guay
Aujourd’hui, avec la formidable disponibilité des données quantitatives et l’accès aux outils d’analyse, il n’y a plus de raison d’ignorer
les méthodes quantitatives. Elles doivent devenir, plus qu’avant, une
composante essentielle de l’analyse en sciences sociales.
Jean-Herman
Guay
• Une approche directe et vulgarisée des notions de statistiques... presque sans formule ;
• Des premiers pas jusqu’à l’analyse multivariée ;
• Le traitement des données, la production de graphiques ;
• Des exemples réels : corruption, mortalité routière, marché
immobilier, votes au Congrès américain, élections françaises ;
• Une centaine de codes disponibles sur Internet et exécutables
en quelques secondes ;
• Une réflexion méthodologique et épistémologique
pour mieux comprendre les données statistiques.
Au fil des pages, nous tenterons de montrer que les précieuses
possibilités du logiciel R exigent de leurs utilisateurs qu’ils sortent du
périmètre des « chiffres » pour entrer dans des considérations théoriques et qualitatives afin de redonner ensuite un sens aux chiffres.
Jean-Herman Guay est professeur titulaire à l’École de politique appliquée
de l’Université de Sherbrooke. Il y enseigne depuis plus de vingt ans. Auteur
d’articles et d’ouvrages, directeur de Perspective monde et de Bilan du siècle,
il aborde les méthodes quantitatives, non comme un but, mais comme un
moyen pour comprendre les phénomènes sociaux.
Site de l’auteur : dimension.usherbrooke.ca
Statistiques en sciences humaines avec
Pour guider l’apprentissage de ce logiciel, nous adoptons différentes
stratégies :
Statistiques en
sciences humaines
avec
Sciences sociales
Jean-Herman Guay 2.indd 1
14-08-14 16:31
Statistiques en sciences
humaines avec R
Méthodes de recherche en sciences humaines
Collection dirigée par Louis M. Imbeau
Au cœur des sciences humaines, la question de la méthode alimente les débats,
non seulement entre les « écoles » (modernisme/postmodernisme, qualitativisme/quantitativisme, monisme/pluralisme, individualisme/holisme, etc.),
mais aussi entre les chercheurs à l’intérieur de chaque école.
La méthode est aussi au coeur de la formation des chercheurs. En plus de la
maîtrise de plusieurs méthodes de recherche, devenir chercheur implique
l’habileté à jeter un regard critique sur son propre travail et sur celui des
autres.
Cette collection veut contribuer aux débats sur la méthode et à la formation
méthodologique des chercheurs des sciences humaines. Dans cet esprit, on y
accueillera aussi bien des essais critiques s’adressant aux spécialistes que des
manuels à l’intention des chercheurs, qu’ils soient expérimentés ou en
formation.
Dans la même collection
William Fox, Statistiques sociales. Traduction et adaptation de Louis M.
Imbeau (avec la collaboration d’Augustin Simard et de Thierry Rodon), PUL
et De Boeck, 1999 (14e tirage, 2012).
Gordon Mace et François Pétry, Guide d’élaboration d’un projet de recherche,
2e édition, PUL et De Boeck, 2000.
François Dépelteau, La démarche d’une recherche en sciences humaines. De la
question de départ à la communication des résultats, 2e édition, PUL et De
Boeck, 2000 (7e tirage, 2011).
Vincent Lemieux et Mathieu Ouimet, L’analyse structurale des réseaux sociaux,
PUL et De Boeck, 2004.
André Sanfaçon, La dissertation historique. Guide d’élaboration et de rédaction,
2e édition, PUL, 2005.
Patrick Gonzalez et Jean Crête, Jeux de société. Une initiation à la théorie des
jeux en sciences sociales, PUL, 2006.
François Pétry et François Gélineau, Guide pratique d’introduction à la
régression en sciences sociales, 2e édition, PUL, 2009.
Louis M. Imbeau, Statistiques sociales avec IBM SPSSmd. Cahier d’exercices de la
19e version, 2e tirage, 2012.
Jean-Herman Guay
Statistiques en sciences
humaines avec R
Deuxième édition
Revue et augmentée
Les Presses de l’Université Laval reçoivent chaque année du Conseil des
Arts du Canada et de la Société de développement des entreprises culturelles du Québec une aide financière pour l’ensemble de leur programme
de publication.
Nous reconnaissons l’aide financière du gouvernement du Canada par
­l’entremise de son Programme d’aide au développement de l’industrie de
­l’édition (PADIÉ) pour nos activités d’édition.
Mise en pages : Diane Trottier
Maquette de couverture : Laurie Patry
ISBN : 978-2-7637-2337-2
PDF 9782763723389
© Les Presses de l’Université Laval 2014
Dépôt légal 3e trimestre 2014
De Boeck
Les Presses de l’Université Laval
www.pulaval.com
Toute reproduction ou diffusion en tout ou en partie de ce livre par
quelque moyen que ce soit est interdite sans l’autorisation écrite des
Presses de l’Université Laval.
TA B L E D E S M AT I È R E S
Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI
Chapitre 1 Comprendre l’utilité des méthodes quantitatives . . . . . . . . . . . . . . . . . . 1
1.1
Les difficultés propres aux sciences sociales . . . . . . . . . . . . . . . . . . . . . 2
1.2
L’observation systématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3
La recherche quantitative et l’explication . . . . . . . . . . . . . . . . . . . . . . . 6
1.4
Un premier exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5
L’unité d’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6
La nature des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Chapitre 2
Découvrir les rudiments de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1
Avantages et désavantages de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2
L’installation de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3
Les premières commandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.4
La logique par objet de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5
De bonnes habitudes à acquérir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Chapitre 3
Apprivoiser R avec une série chronologique . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1
L’organisation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2
Un premier graphique, puis un second, amélioré . . . . . . . . . . . . . . . . 33
3.3
L’ajout de nouvelles variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4
L’ajout de textes à un graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Chapitre 4
Choisir et transformer les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1
Les hypothèses et le cadre d’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2
Création d’une base de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3
Les opérations à faire sur des données . . . . . . . . . . . . . . . . . . . . . . . . . 46
VIII
STATISTIQUES EN SCIENCES HUMAINES AVEC R
Chapitre 5
Présenter les variables d’une manière univariée . . . . . . . . . . . . . . . . . . . . . . . 55
5.1
Les sommaires numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2
Les histogrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3
Les listes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.4
Les tableaux de fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.5
Pour les audacieux : l’exploration de texte . . . . . . . . . . . . . . . . . . . . . . 66
Chapitre 6
Croiser deux variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.1
Deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.2
Une variable quantitative et une variable qualitative . . . . . . . . . . . . . 78
6.3
Deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Chapitre 7
Quantifier la relation entre deux variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7.1
L’association de deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . 92
7.2
L’association d’une quantitative et d’une qualitative . . . . . . . . . . . . . 97
7.3
L’association ou la corrélation de deux variables quantitatives . . . . . 99
7.4
Modèle, droite de régression et résidus . . . . . . . . . . . . . . . . . . . . . . . . .101
7.5
L’interprétation des mesures d’association . . . . . . . . . . . . . . . . . . . . . 106
7.6
Les corrélations sur des séries chronologiques . . . . . . . . . . . . . . . . . . 109
7.7
Les balises de Cohen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Chapitre 8
Bâtir des fonctions en explorant l’inférence . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
8.1
La marge d’erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
8.2
Une fonction plus complexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
8.3
Les tests de signification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
8.4
Des tests à la puissance des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
8.5
L’inférence remise en question . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
TABLE DES MATIÈRES
IX
Chapitre 9
Travailler avec trois ou quatre variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
9.1
Trois variables qualitatives : la variable contrôle . . . . . . . . . . . . . . . . . 136
9.2
Quatre variables quantitatives : les corrélations partielles . . . . . . . . 143
9.3
L’analyse de la causalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
Chapitre 10
Utiliser l’analyse de régression multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
10.1 Un premier exemple : le marché immobilier . . . . . . . . . . . . . . . . . . . . 152
10.2 La transformation des distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
10.3 Un deuxième exemple : classes et vote au Canada anglais . . . . . . . . . 164
10.4 Troisième exemple : la mortalité sur la route . . . . . . . . . . . . . . . . . . . . 173
10.5 La régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
10.6 La régression logistique multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . 183
Chapitre 11
Explorer l’analyse factorielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
11.1 L’analyse en composantes principales . . . . . . . . . . . . . . . . . . . . . . . . . . 192
11.2 Encore une analyse en composantes principales . . . . . . . . . . . . . . . . . 204
11.3 L’analyse des correspondances simples . . . . . . . . . . . . . . . . . . . . . . . . . 208
11.4 L’analyse des correspondances multiples . . . . . . . . . . . . . . . . . . . . . . . 215
Chapitre 12
Discuter des méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
12.1 L’utilité des méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
12.2 La variété des méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
12.3 La pluralité des observations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
Aide-mémoire des fonctions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
Aide-mémoire des actions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
Ressources bibliographiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
Avant-propos
«É
clectique », diront les critiques à propos de cet ouvrage. Ils n’auront
pas tort : on y combine des apprentissages méthodologiques, des
considérations analytiques, mais aussi des réflexions plus théoriques, voire
épistémologiques, par moment. Comme l’ouvrage vise également l’apprentissage du logiciel R, s’ajoutent évidemment des précisions techniques.
Contrairement à notre premier ouvrage de méthodologie1, publié il y a
une vingtaine d’années, lequel offrait une démarche linéaire, celui-ci
­enchevêtre des réflexions qui lui donnent à première vue un caractère
déconcertant.
Le pari que nous faisons est audacieux : en adoptant cet éclectisme, le
lecteur comprendra mieux les méthodes statistiques. En saisissant conjointement leur finalité et leur « opérationnalité », il découvrira comment il peut
les utiliser d’une manière créatrice et flexible. Ne travailler que sur l’aspect
mathématique ou informatique est rebutant pour les non-initiés des statistiques. À l’inverse, ne tenir compte que des aspects théoriques, sans se
soucier de leur mise en œuvre, risque d’amener certaines personnes à
abandonner rapidement l’aventure quantitative. Le manuel cherche donc à
répondre quasi simultanément aussi bien au comment qu’au pourquoi, en
pariant que la passion se développera en combinant d’une manière serrée
les deux questionnements, au fur et à mesure qu’ils surgissent.
Tant bien que mal, un fil conducteur, presque un parti pris, marque
toute notre exploration. On pourrait le résumer ainsi : aujourd’hui, avec la
formidable disponibilité des données quantitatives et l’accès aux outils
1. Jean-Herman Guay, Sciences humaines et méthodes quantitatives, Montréal, Éditions,
Beauchemin, 1992.
XII
STATISTIQUES EN SCIENCES HUMAINES AVEC R
d’analyse, il n’y a plus de raisons qui justifient un rejet, une ignorance ou
une méfiance des méthodes quantitatives. Elles doivent devenir, plus
qu’avant, une composante essentielle de l’analyse en sciences sociales. Cet
usage n’est cependant ni exclusif ni autonome. Au fil des pages, nous
tenterons de montrer que leurs précieuses possibilités exigent de leurs utilisateurs qu’ils sortent régulièrement du périmètre des « chiffres » pour entrer
dans des considérations théoriques et qualitatives afin de redonner ensuite
un sens aux chiffres.
Pour réaliser notre pari, le texte a été divisé en douze chapitres,
lesquels, par des itérations successives, permettent d’approfondir des
notions et des outils. Au départ, chaque fonction de R est amenée
simplement, puis on la retrouve aux chapitres suivants dans des contextes
plus élaborés et plus complexes. Ce processus pédagogique d’apprivoisement permet de consolider progressivement les apprentissages et
d’explorer la polyvalence des outils.
On trouve dans chacun des chapitres un accès aux données, des informations numériques et plusieurs graphiques. Pour faciliter l’exploration,
nous avons rendu disponibles plusieurs extraits du code sur Internet2 et
isolé ceux-ci clairement dans le texte. En procédant à des copier-coller de ce
que nous avons appelé des codes récapitulatifs (CR), le lecteur s’évitera un
travail fastidieux. Il pourra plus facilement expérimenter les options
présentées en partant de l’importation de la base de données jusqu’à la
production du tableau ou du graphique. Ainsi, il pourra adapter et personnaliser ces nombreuses recettes.
L’exposé se fait essentiellement par l’exemple. Et presque tous les
exemples sont réels. Nous nous sommes assurés qu’ils « collent » tant bien
que mal aux objets des sciences sociales. Il sera question de corruption, de
mortalité routière en Europe, du marché immobilier, des votes au Congrès
américain, des libertés économiques dans le monde, mais aussi des élections
canadiennes et françaises. Contrairement aux distributions fictives, nos
exemples montrent les difficultés, les défis et parfois les impasses qui
guettent les chercheurs. On comprendra que, chaque fois, l’usage que nous
en faisons renvoie aux finalités pédagogiques de l’ouvrage, sans plus.
Cet ouvrage ne couvre évidemment pas l’éventail complet des méthodes
quantitatives. Nous avons ciblé celles qui sont les plus utilisées en sciences
sociales ou qui, à nos yeux, méritent une plus grande utilisation. Voilà
pourquoi, après avoir exploré l’analyse univariée et bivariée, essentiellement
avec des populations, nous passons à l’inférence et à l’analyse de régression
2.
À l’adresse suivante : dimension.usherbrooke.ca.
AVANT-PROPOS
XIII
pour boucler la boucle avec l’analyse factorielle. Il en va de même de R : loin
de nous la prétention de faire le tour de ses possibilités.
L’ouvrage s’adresse à un public de curieux qui possèdent quelques
rudiments de méthodologie ou qui n’hésitent pas à fouiller à gauche et à
droite pour trouver des réponses aux questions qui pourraient surgir au fil
de la lecture. Plus précisément, il vise des étudiants des premier et deuxième
cycles universitaires qui doivent apprivoiser ou « ré-apprivoiser », parfois
contre leur gré, les bases des méthodes statistiques. Les gens plus avancés
n’y trouveront aucun profit. Ils risquent même d’être étonnés de nos
simplifications.
En terminant, je tiens à remercier Marc J. Mazerolle de l’Université du
Québec en Abitibi-Témiscamingue et Marc-André Bodet de l’Université
Laval pour leurs commentaires sur un manuscrit antérieur, Eugénie DostieGoulet pour ses avis et ses conseils, mais aussi Khalid Adnane et Serge
Gaudreau, de même que mes étudiants et étudiantes de l’Université de
Sherbrooke.
Je tiens enfin à remercier les Éditions de Boeck et les Presses de l’Université Laval. Si cet ouvrage est un défi pour l’auteur, il en va de même pour
son éditeur et toute son équipe qui doit combiner le texte, les graphiques,
les codes et les sorties de R, mêlant tant bien que mal les exigences du
français et celles propres aux fonctions de R.
C H A P I T R E 1 Comprendre l’utilité
des méthodes quantitatives
« Clarifier les termes est probablement la tâche la plus
ancienne de la méthodologie et aussi, malheureusement,
celle qui n’a pas de fin.1 »
Paul Lazarsfeld (1901-1976),
sociologue américain
L
e philosophe et mathématicien allemand Edmund Husserl (1859-1938)
aimait brandir un cube pour montrer à ses interlocuteurs d’une manière
très intuitive que, quel que soit l’angle qu’on lui donne, on ne voit que trois
faces. Une partie du réel est visible ; une autre échappe à l’observation. La
solution est simple : faire pivoter le cube pour s’assurer que les trois autres
faces puissent être vues !
D’emblée, la métaphore de Husserl s’applique à ce qui nous préoccupe.
Le chercheur ne peut simplement regarder un phénomène d’un seul point
de vue. En utilisant différentes méthodes – qualitatives et quantitatives –,
et pour chacune plusieurs outils, il le fait indéniablement pivoter. Le
chercheur ne se limite pas à une seule observation ; il ne doit pas être passif.
Sa capacité à examiner un problème sous plusieurs angles et à concilier les
lectures successives constitue même l’indice de sa virtuosité.
1.
Paul Lazarsfeld, Philosophie des sciences sociales, Paris, Éditions Gallimard, 1970, p. 258.
2
STATISTIQUES EN SCIENCES HUMAINES AVEC R
1.1 LES DIFFICULTÉS PROPRES AUX SCIENCES SOCIALES
La métaphore de Husserl est cependant trompeuse. Dans le domaine
des sciences sociales, même après maints efforts, une portion du réel résiste
à l’analyse et échappe à toute appréhension scientifique. Les limites sont
nombreuses.
La première, et peut-être la plus importante, est celle de la liberté. À
moins d’être partisan d’une approche déterministe et de croire que les êtres
humains sont comme des choses, sans volonté ni intention, la liberté des
personnes – quelle que soit la part qu’on lui reconnaît – constitue une
limitation fondamentale à toute prétention d’expliquer la totalité du
phénomène humain. Face à un même environnement, deux individus ayant
le même passé peuvent réagir différemment. On aura beau multiplier à
l’infini les explications, une indétermination, insaisissable scientifiquement,
persistera.
La deuxième difficulté est de l’ordre du protocole de recherche. En
sciences naturelles, les chercheurs peuvent généralement mieux maîtriser
les phénomènes à l’étude. Selon Claude Bernard (1813-1878), qui a défini
l’approche expérimentale, les faits « peuvent être artificiellement produits
au gré de l’observateur ». En laboratoire, les chercheurs peuvent aussi isoler
les termes de la relation en répartissant au hasard les causes parasitaires. Ils
peuvent enfin reprendre ad nauseam l’expérience en modifiant certains
aspects pour mieux scruter les interactions. Ces possibilités expérimentales
sont rares, voire impossibles, du côté des sciences sociales. Le plus souvent,
les chercheurs doivent trouver dans la réalité des variations et analyser
leurs concomitances. On parle alors d’une approche « quasi expérimentale ».
Les conclusions d’une analyse causale sont forcément moins assurées.
Le troisième problème renvoie au caractère historique de bien des
phénomènes sociaux. Ils sont ancrés dans un ici et maintenant et, conséquemment, la découverte d’une causalité dans une société sera impertinente
pour une autre société, ou pour la même quelques décennies plus tard. Par
exemple, une étude d’il y a trente ans sur l’écoute des bulletins de nouvelles
à la télévision a perdu aujourd’hui une large portion de sa pertinence,
compte tenu de l’émergence des nouveaux médias. Ce caractère « daté » et
« localisé » vaut par exemple évidemment pour les élections, mais aussi pour
le rapport à la religion, les comportements familiaux ou ceux qui concernent
la consommation. Sauf exception, les sciences naturelles ont devant elles un
objet de recherche plus stable et plus universel.
Dans certains domaines des sciences sociales – par exemple les sciences
politiques – s’ajoute un autre problème : l’opacité. Le vote individuel des
citoyens est secret, tout comme les échanges au sein d’un conseil des
CHAPITRE 1 – COMPRENDRE L’UTILITÉ DES MÉTHODES QUANTITATIVES
3
ministres. Plus encore, les processus de négociation, de persuasion ou
d’opposition sont souvent marqués par un jeu d’apparences. En criminologie, en psychologie et en anthropologie, une opacité analogue voile
plusieurs des phénomènes que l’on tente de comprendre. Dans plusieurs de
ces domaines, le chercheur, à l’instar d’un enquêteur de police2, travaille
avec des fragments ou des indices qui lui permettent au mieux de n’appréhender que la partie visible ou phénoménale de la réalité.
Liberté des personnes, opérationnalité de la recherche, historicité et
opacité de bien des phénomènes sont donc quatre limites fondamentales à
l’explication des phénomènes sociaux.
1.2 L’OBSERVATION SYSTÉMATIQUE
À l’instar de ce qui se faisait déjà du côté des sciences naturelles, et ce
malgré leurs difficultés singulières, les sciences sociales se sont peu à peu
orientées vers l’observation systématique des phénomènes. À partir du
milieu du XIXe siècle3, les chercheurs ont procédé à des analyses sophistiquées où l’on tente moins de juger moralement et davantage d’expliquer ou
de comprendre un ou plusieurs phénomènes.
Deux types d’observations se sont dégagés :
• Les méthodes qualitatives utilisent l’analyse de contenu, l’obser-
vation directe et l’observation participative. Le groupe de discussion
(focus group), l’entrevue semi dirigée et le récit de vie sont d’autres
options de l’observation qualitative4.
• Les méthodes quantitatives travaillent avec un ensemble de données
prélevées sur la base d’une unité commune. Ces données peuvent
être ensuite regroupées, comparées et quantifiées. On utilise des
proportions, des moyennes ou des corrélations en vue de relever les
caractéristiques communes ou les concomitances entre ces
carac­téristiques.
2. Nous reprenons ici l’analogie de John W. Tukey, utilisée dans son ouvrage Exploratory
data analysis, Addison-Wesley Publishing Company, 1977.
3. Ici on pense plus directement aux travaux de Quételet. Paul Lazarsfeld, « L’envers de
l’histoire des sciences sociales », Philosophie des sciences sociales, op. cit.
4. Pour en savoir plus sur ces méthodes, voir les chapitres 12 à 16 dans Benoît Gauthier,
Recherche sociale, de la problématique à la collecte des données, Montréal, Presses de l’Université du Québec, 2009. Notez bien que la séparation méthodologique n’est pas
étanche. Par exemple, pour l’analyse de contenu, on peut effectuer des analyses quantitatives très poussées, du type text mining.
4
STATISTIQUES EN SCIENCES HUMAINES AVEC R
On dit parfois que l’approche qualitative peut aller plus en profondeur,
mais ne peut par contre généraliser ses propres résultats. Inversement,
l’approche quantitative aurait l’avantage de la généralisation, mais serait
contrainte à une étude réductrice de la réalité puisqu’elle est limitée à des
attributs visibles, comparables et quantifiables. Selon cette logique, on
associe aussi le qualitatif à la compréhension et le quantitatif à
l’explication.
Ce clivage, bien qu’il soit réel, masque d’importants chevauchements.
Il y a des échantillonnages qui permettent difficilement la généralisation et,
inversement, des études quantitatives qui peuvent aller très loin, par des
batteries sophistiquées d’indicateurs. En fait, les deux approches sont interdépendantes : pour bâtir un questionnaire, pour exemplifier des observations
atypiques ou pour interpréter certains résultats, les quantitativistes
puiseront dans les analyses qualitatives. L’une et l’autre ont aussi en
commun une dépendance à l’endroit d’éléments théoriques ou logiques qui
donnent un sens aux analyses empiriques.
Recherche
théorique
Recherche
qualitative
Recherche
quantitative
Figure 1
La recherche scientifique, considérée globalement, apparaît donc
comme une construction dynamique qui combine diversement les trois
CHAPITRE 1 – COMPRENDRE L’UTILITÉ DES MÉTHODES QUANTITATIVES
5
ensembles5 : la recherche théorique, la recherche qualitative et la recherche
quantitative. Cette triangulation des méthodes est déjà présente chez Émile
Durkheim (1858-1917) et Max Weber (1864-1920), et plus récemment
dans les travaux épistémologiques et méthodologiques de Jean-Claude
Passeron.
Dans la pratique, il est cependant rare qu’un chercheur se livre aux
trois efforts simultanément. Une division du travail prévaut. Une discipline
peut aussi connaître des moments où l’effort est essentiellement théorique.
L’évolution n’est donc pas nécessairement synchrone ; la théorie peut être
en avance ou en retard, de même que la recherche empirique. Comme l’a
montré Thomas Kuhn (1922-1996) dans La structure des révolutions scientifiques, les processus de découvertes s’enchevêtrent souvent selon des
modèles déconcertants.
Même si cela est fait par des personnes différentes, voire par des
générations successives, et ce dans un désordre souvent créateur, il n’en
reste pas moins qu’à moyen et long terme c’est à l’intersection des trois
cercles que l’effort est optimal. Autant les chiffres peuvent isolément devenir
trompeurs, autant la théorie, sans la recherche empirique, peut sombrer
dans la « divagation6 ».
Régulièrement – du début du processus jusqu’à la discussion des
résultats –, les « quantitativistes » doivent donc se « connecter » aux autres
types de recherche en vue d’évaluer la pertinence de leurs résultats, ou plus
encore pour faire des choix stratégiques quant à la progression de leur
démarche quantitative.
5.
Plus fondamentalement, Emmanuel Kant (1724-1804) posait l’exigence de cette combinaison : « Des pensées sans matière sont vides ; des intuitions sans concepts sont
aveugles. Aussi est-il tout aussi nécessaire de rendre sensibles les concepts (c’est-à-dire
d’y joindre un objet donné dans l’intuition), que de rendre intelligibles les intuitions
(c’est-à-dire de les soumettre à des concepts). Ces deux facultés ou capacités ne sauraient non plus échanger leurs fonctions. L’entendement ne peut avoir l’intuition de
rien, ni les sens rien penser. La connaissance ne peut résulter que de leur union. »
Critique de la raison pure, Logique transcendantale, introduction. Paris GarnierFlammarion, 1976, p. 110.
6. Jean-Claude Passeron, Le raisonnement sociologique, Paris, Albin Michel, 1991, p. 572 :
« Bref, statisticiens et sociologues ont en commun de devoir, les uns et les autres, se
prémunir à la fois contre l’illusion du statisticien et contre l’illusion herméneutique.
C’est une définition possible du raisonnement sociologique – à tout le moins indicative
de sa fonction – que de dire qu’il vise à l’optimisation des compromis logiques entre les
exigences du raisonnement expérimental et celles de la contextualisation historique. »
6
STATISTIQUES EN SCIENCES HUMAINES AVEC R
1.3 LA RECHERCHE QUANTITATIVE ET L’EXPLICATION
La science aborde le réel en tentant de présenter le réel tel qu’il est.
Contrairement à une approche normative, qui vise à juger, ou prescriptive,
qui vise à formuler des propositions de changement, l’approche scientifique
tend à la neutralité, bien que l’on puisse, a posteriori, sur la base de ses
résultats, formuler des jugements et des recommandations.
Avec une approche quantitative, il convient d’abord de décrire le réel,
puis de classer les phénomènes observés. On construit alors des typologies,
on dégage des caractéristiques récurrentes, on élabore souvent des outils
d’observation et de mesure, sur la base d’indicateurs.
Une fois ce travail de description et de classification fait, le défi est
souvent celui de l’explication : y s’explique-t-il par x ? Dans Les règles de la
méthode sociologique, Émile Durkheim écrivait à propos de l’utilité de la
concomitance :
Nous n’avons qu’un moyen de démontrer qu’un phénomène est cause d’un
autre, c’est de comparer les cas où ils sont simultanément présents ou absents et de chercher si les variations qu’ils présentent dans ces différentes
combinaisons de circonstances témoignent que l’un dépend de l’autre7.
Pour établir un lien causal entre deux phénomènes contigus, cinq
critères doivent être généralement respectés.
• La cause doit précéder l’effet : x doit précéder y. L’antériorité est une
condition de la causalité. On utilise ainsi les termes « antécédent » ou
« déterminant » comme synonymes de « cause ».
• Logiquement ou théoriquement, on doit pouvoir retracer ce lien
entre x et y ; l’enchaînement doit donc être intelligible. Autrement,
on risque de prendre des coïncidences pour des causalités.
• La concomitance empirique entre x et y doit être fréquente et
répétée.
• On doit aussi avoir considéré d’autres causes possibles au phénomène
étudié ; autrement, une cause pourrait en dissimuler une autre.
• Enfin, une causalité est reconnue par la communauté scientifique
quand plusieurs enquêtes l’ont repérée.
Si ces critères semblent clairs à première vue, l’application présente
des difficultés parfois insolubles. Dans certains cas, l’antériorité est difficile
à établir : ou bien les phénomènes sont synchrones, ou bien il peut y avoir
7. Émile Durkheim, Les règles de la méthode sociologique, Paris, PUF, Quadridge, 1981,
p. 124.
CHAPITRE 1 – COMPRENDRE L’UTILITÉ DES MÉTHODES QUANTITATIVES
7
endogénéité : x influence y, et y influence à son tour x. Le deuxième critère
n’est guère plus évident : qu’est-ce qu’un enchaînement logique ou intelligible8 ? Le dernier critère pose une autre difficulté : les sciences sociales ne
sont pas marquées par une forte unité paradigmatique. Sur un grand nombre
de sujets, les investigations aboutissent à des résultats différents ; les
convergences unanimes sont rarissimes.
Les deux critères plus quantitatifs posent d’autres difficultés. La
concomitance n’est jamais parfaite : on trouvera des exceptions à la causalité
ou des circonstances où l’effet attendu ne se produit pas. Quant au contrôle
des « autres causes possibles », on devine qu’il est difficilement exhaustif, la
liste des antécédents potentiels étant théoriquement illimitée.
Bref, ces cinq critères sont des repères, et non des carcans. Ils doivent
nous guider au point de départ d’une recherche, pendant son élaboration et
jusqu’à la discussion finale. En vue d’en optimiser l’atteinte, on peut
envisager quelques stratégies.
• Distinguer les causes dont l’antériorité est manifeste des causes
dont l’antériorité est douteuse. Au moment de l’élaboration du
schéma causal, ou lors de l’analyse des résultats, il faut être soucieux
des liens complexes entre les variables. Et, à défaut d’une causalité,
il faut utiliser des méthodes qui travaillent sur des profils ou des
facteurs. Nous y reviendrons au chapitre 11.
• Rechercher les interprétations reconnues par la communauté scien-
tifique par une revue suffisante de la littérature. On y trouve alors
des causes déjà travaillées, susceptibles d’expliquer un phénomène.
• Accepter cette variété interprétative comme une source de nouvelles
hypothèses. Présenter les résultats non comme des certitudes, mais
plutôt comme des propositions qu’on soumet à la discussion
scientifique.
• Utiliser les mesures d’association et les tests de signification pour
établir ou non la concomitance. Recenser les cas qui se plient à la
causalité, mais aussi les exceptions ou les anomalies qui peuvent être
à l’origine de nouvelles investigations. Nous y reviendrons aux
chapitres 7 et 8.
8. Max Weber dans Économie et société écrit ainsi : « Seules les constructions rationnelles
d’une activité significative compréhensible constituent des types sociologiques du devenir réel que l’on peut observer dans la réalité au moins avec une certaine approximation »,
tome 1, p. 39. Aristote avait d’ailleurs écrit : « nous ne croyons connaître rien avant d’en
avoir saisi chaque fois le pourquoi », cité dans Gagnon et Hébert, En quête de science :
­introduction à l’épistémologie. Montréal, Fides, 2000.
8
STATISTIQUES EN SCIENCES HUMAINES AVEC R
Enfin, si les outils, causalités ou paradigmes généralement reconnus
paraissent désuets ou non valides, on comprendra qu’il faut innover. Ces
innovations sont cependant précédées d’une analyse critique des interprétations en vigueur.
1.4 UN PREMIER EXEMPLE
Travaillons sur un petit exemple pour mieux illustrer ces considérations. Posons une question de recherche : le vote est-il dépendant du revenu
des électeurs ? Cette recherche, si elle était vraiment menée, serait pertinente parce qu’on considérerait que les recherches menées jusque-là sont,
en partie ou en totalité, contradictoires, obsolètes ou incomplètes. Elles
présenteraient des lacunes analytiques que la nouvelle recherche tentera de
pallier9. C’est le préalable à tout effort scientifique additionnel.
Généralement, quand on entreprend une pareille démarche, c’est aussi
parce qu’on a en tête une réponse provisoire, appelée bien sûre hypothèse.
Implicitement ou explicitement, cette hypothèse s’oppose à une autre qu’on
appelle l’hypothèse nulle. Bien que généralement seule la première soit
formulée, le travail statistique est fondé sur les deux10. Et d’une manière
orthodoxe, on doit même poser l’hypothèse nulle comme première. Voilà
pourquoi H1, ou celle du chercheur, est définie comme l’hypothèse alternative à… l’hypothèse nulle, H0.
H1 : les pauvres votent plus pour la gauche que les riches.
H0 : les pauvres et les riches ne votent pas dans des proportions différentes pour la droite et la gauche. Dit autrement : le revenu n’est pour rien
dans le vote.
Le rapport entre le revenu et le vote répond assez bien aux critères
déjà énumérés. Il est manifeste que le revenu d’un individu précède le choix
électoral ; il y a donc antériorité de la cause présumée sur l’effet. Il est ensuite
possible d’établir un lien intelligible : les pauvres votent généralement à
gauche parce que cette famille politique met de l’avant des programmes
sociaux et une fiscalité progressive, du moins plus que la droite. Quant à la
concomitance, c’est ce qu’on tentera d’établir en analysant les résultats.
9.
La revue de la littérature ou l’état de la question au début d’une recherche vise à repérer
ces lacunes et à justifier la nouvelle recherche.
10. Généralement, une question de recherche a pleinement son sens si les deux hypothèses
– l’alternative et la nulle – sont crédibles ou du moins vraisemblables. Si l’hypothèse
nulle n’a aucun sens a priori ou n’est partagée par personne, c’est peut-être que vous
envisagez d’enfoncer une porte ouverte. L’hypothèse alternative doit alors généralement être spécifiée.
CHAPITRE 1 – COMPRENDRE L’UTILITÉ DES MÉTHODES QUANTITATIVES
9
Pour corroborer quantitativement cette hypothèse, on doit traduire
les concepts (gauche/droite, pauvre/riche) de l’hypothèse en des mesures,
par exemple des questions de sondage qui concrétiseront ce qu’on cherche à
vérifier. Le questionnaire en mains, on ira ensuite interroger un nombre
donné de personnes qui constitueront notre échantillon. Dans le vocabulaire
de la recherche quantitative, le revenu et le vote sont des variables11.
En simplifiant à l’extrême, la première variable peut prendre deux
valeurs : riche ou pauvre, et la seconde variable peut prendre deux valeurs :
gauche ou droite. Outre de varier, on demande à une variable d’avoir des
valeurs exclusives12 et exhaustives13. À propos de ce processus de classification, le sociologue français, Raymond Boudon écrivait :
Cette désignation ne fait que donner un autre nom à l’opération usuelle
par laquelle nous sommes amenés, dans la vie quotidienne comme dans
le travail scientifique, à subsumer une multitude de caractères particuliers
sous un petit nombre de concepts généraux14.
On sait pratiquement que ces deux variables n’agissent pas isolément.
Beaucoup d’autres variables contribuent à déterminer le vote : le genre de la
personne, ses origines, sa profession, sa scolarité, ses valeurs, etc. À la
limite, une série infinie de variables jouent un rôle. En ne travaillant empiriquement que le revenu et le vote, on procède donc à un découpage analytique,
généralement accepté dans la mesure où il est explicité.
Quand on collige systématiquement les informations sur plusieurs
individus, on obtient alors un ensemble de données brutes, appelé base de
données. Pour une population visée, l’électorat français par exemple, on peut
souhaiter obtenir une base exhaustive : le vote de chacun et le revenu de
chacun ! Cela est cependant impossible, à la fois physiquement et légalement.
On procède alors à un échantillonnage aléatoire en vue d’obtenir une série
d’observations représentatives de la population en interrogeant les électeurs
à la sortie des bureaux de vote.
11. Bien que cela ne soit pas au cœur de notre propos, il convient d’ajouter les précisions
suivantes. On distingue généralement le concept, la variable et l’indicateur. Le premier
est abstrait, le dernier est concret. La variable est à mi-chemin. Un même concept, celui
de revenu par exemple, peut être associé à plusieurs indicateurs. Dans un sondage d’opinion, le libellé des questions n’est pas sans effet sur les réponses. Chaque question est
un indicateur. Sur ces questions, il faut consulter le chapitre de Claire Durand et d’André
Blais, « La mesure », dans Benoît Gauthier Recherche sociale, de la problématique à la
­collecte des données, op. cit.
12. On ne doit pas pouvoir attribuer deux valeurs d’une variable à une même observation.
13. Toutes les observations doivent pouvoir être placées dans l’une ou l’autre des catégories
ou valeurs. Pour être conforme au critère d’exhaustivité, il faudrait minimalement ajouter : « ne pas voter ».
14. Raymond Boudon, L’analyse mathématique des faits sociaux, Paris, Plon, 1967, p. 12.
10
STATISTIQUES EN SCIENCES HUMAINES AVEC R
Regardez les résultats suivants. La base de données compte dix observations et deux variables ; on dira qu’elle est de dix par trois, en considérant
la colonne des observations.
Base
Évaluation
Observations
Variable revenu
Variable vote
Concordance
Personne1
Pauvre
Gauche
Oui
Personne2
Pauvre
Droite
Non
Personne3
Riche
Droite
Oui
Personne4
Riche
Droite
Oui
Personne5
Pauvre
Gauche
Oui
Personne6
Riche
Gauche
Non
Personne7
Pauvre
Gauche
Oui
Personne8
Riche
Droite
Oui
Personne9
Riche
Droite
Oui
Personne10
Pauvre
Gauche
Oui
Pour chacune des observations, on peut se demander s’il y a concordance entre les valeurs de l’observation et H1. La réponse est positive dans
huit cas sur dix. Malgré la simplicité de l’exemple, le résultat est assez
typique : l’hypothèse est corroborée dans plusieurs cas, mais pas pour tous.
Quatre des cinq riches ont voté à droite et quatre des cinq pauvres ont voté
à gauche. La question qui surgit est celle-ci : les deux exceptions suffisentelles à invalider l’hypothèse et à donner raison à l’hypothèse nulle ? C’est
précisément là que les méthodes quantitatives fournissent des mesures et
des tests qui permettent de trancher d’un côté ou de l’autre.
1.5 L’UNITÉ D’ANALYSE
Dans notre exemple, chaque électeur interrogé est considéré comme
une observation. On dit alors que l’unité d’analyse est une personne. Si nous
devions travailler avec toute la population française, la base de données
compterait donc des millions de lignes.
Pour diagnostiquer le même phénomène, il serait aussi possible de
travailler avec des agrégats ou environnements, par exemple le revenu et le
vote pour chaque région de France, chaque département ou chaque
commune. « L’analyse écologique consiste à mettre en relation entre elles
des données caractérisant un collectif territorial – par opposition à des
CHAPITRE 1 – COMPRENDRE L’UTILITÉ DES MÉTHODES QUANTITATIVES
11
données caractérisant des individus15. » En travaillant ainsi, la base de
données ne compterait que 27 observations dans le premier cas, 100 observations dans le deuxième et quelque 37 000 si l’unité d’analyse était la
commune.
Canada
Données agrégées
Données désagrégées
France
Provinces
Régions
Régions administratives
Départements
Municipalités
Communes
Individus
Individus
Travailler avec des agrégats est souvent plus facile. Les données sont
aisément disponibles et il n’y a pas de problème de confidentialité, l’anonymat étant préservé par l’agrégation. On peut par exemple vérifier si les
régions affichant un revenu plus bas votent plus à gauche.
Ce que plusieurs appellent l’analyse écologique16 présente cependant
une difficulté : lors d’une élection, les régions ne votent pas, ce sont les
individus des régions qui votent. On opère alors un glissement : si une
région est plus à gauche qu’une autre et qu’elle compte un plus grand nombre
de pauvres, et si une autre région est plus à droite et compte un plus grand
nombre de riches, on en déduira que les individus pauvres ont plutôt voté à
gauche et les individus riches à droite. Or, les seules informations dont on
dispose sont le nombre de gens riches/pauvres pour chaque agrégat, de
même que le nombre de votes gauche/droite, ou encore le revenu médian et
les pourcentages de vote de chaque région ; au sens strict, on ne sait rien du
vote individuel. En fait, sur la base d’une analyse de ce type, on présume un
comportement individuel ; on fait de l’« inférence écologique ». Cette
présomption fondamentale n’invalide pas ce type d’analyse. La sociologie
électorale, aux États-Unis comme en France, s’est développée ainsi. L’analyse
écologique est encore très présente en sciences sociales. Il faut cependant
être attentif à ces risques qu’on assimile à des paradoxes. Et pour y faire
face, il faut s’appuyer sur des analyses – quantitatives, qualitatives – menées
sur des individus qui corroborent le lien causal entre la classe et le vote.
15. Congrès de l’Association française de science politique 2009 : Joël Gombin, « Analyse
écologique, modèles multi niveaux et sociologie électorale : l’exemple des votes pour le
Front national ». Site : http://halshs.archives-ouvertes.fr/docs/00/42/20/81/PDF/ST513Gombin.pdf.
16. On associe l’École de Chicago, mais aussi les travaux de Siegfried à cette approche. Un
article classique de ce type d’analyse : Mattei Dogan, « Le vote ouvrier en France : analyse
écologique des élections de 1962 », Revue française de sociologie, 1965, vol. 6, no 6-4,
p. 435-471.
12
STATISTIQUES EN SCIENCES HUMAINES AVEC R
1.6 LA NATURE DES VARIABLES
Pour boucler notre tour de piste initial, examinons les principaux
types de variables.
Quantitatives
Qualitatives
Variables
Valeurs
exhaustives et
exclusives
Existence d’une Connaissance
hiérarchie
de ce qui sépare
les valeurs
Zéro a une
signification
précise
Nominale
OUI
NON
NON
NON
Ordinale
OUI
OUI
NON
NON
D’intervalle
OUI
OUI
OUI
NON
De rapport
OUI
OUI
OUI
OUI
• À lire les caractéristiques de chaque type de variable, on devine que
le sexe des personnes, par exemple, est une variable nominale
puisqu’elle ne comporte pas de hiérarchie. Il en va de même pour
l’intention de vote des électeurs, de leur lieu de naissance ou de leur
religion.
• Le niveau d’appui à un énoncé dans un sondage (tout à fait d’accord,
plutôt d’accord, etc.) est par contre un exemple de variable ordinale.
Il en va de même pour les niveaux de scolarité et certaines échelles
professionnelles.
• Pour la troisième, l’échelle d’intervalle, on donne souvent comme
exemple les années : la mesure de l’intervalle est claire, mais on ne
pourrait faire des moyennes sur les années elles-mêmes. Aussi, on
ne peut dire que l’année 2000 est deux fois plus récente que l’année
1000 du fait que le zéro ne signifie pas une absence, mais qu’il relève
d’une convention.
• Enfin, pour la quatrième, celle de rapport, on donne comme
exemple les revenus ou l’âge. Le zéro est alors associé à l’absence. On
sait par exemple que 2000 $ est un montant deux fois supérieur à
1000 $, ou qu’une femme de 40 ans a deux fois l’âge d’une autre de
20 ans. Ce dernier type de variable est heuristiquement le plus
intéressant, du moins dans la recherche quantitative puisqu’on peut
faire des calculs sur de telles distributions.
CHAPITRE 1 – COMPRENDRE L’UTILITÉ DES MÉTHODES QUANTITATIVES
13
Si cette typologie semble très étanche, la pratique de la recherche
nécessite des précisions : en fait, un même phénomène peut être traité selon
des échelles très différentes. Reprenons notre exemple. En ayant deux
catégories de revenus – riche et pauvre –, on se trouve manifestement avec
une variable qualitative. Si les revenus étaient fournis en dollars ou en
euros, nous aurions une variable quantitative de rapport qui nous permettrait de comparer quantitativement le revenu des électeurs de gauche avec
le revenu de ceux de droite. On obtiendrait ainsi des mesures de tendance
centrale. On pourrait aussi calculer des mesures de dispersion au sein de
chacun des deux groupes, grâce à l’écart type par exemple. Enfin, à défaut
d’une information aussi précise – souvent gênante ou intimidante pour les
répondants –, on aurait pu proposer quatre ou cinq tranches de revenu et
demander aux répondants à laquelle ils associent leur propre revenu. On
aurait alors une échelle ordinale, déjà beaucoup plus intéressante que
riche / pauvre, mais moins précise que l’échelle avec des valeurs numériques.
Le même phénomène peut donc être traduit dans trois échelles différentes.
Il faut aussi être attentif à l’unité d’analyse. Si nos observations sont
des agrégats – des pays, des provinces, des régions ou des municipalités, par
exemple –, le revenu moyen et le revenu médian seraient évidemment
autant de variables quantitatives. L’intention de vote pour un parti ou pour
l’autre est, au départ, une variable nominale. Par contre, si l’on devait classer
les partis selon la famille politique –, gauche, centre, droite –, on obtiendrait
une variable ordinale. Et si nos observations étaient des agrégats, tout
pourrait être configuré autrement : on pourrait avoir une variable qui
correspond aux pourcentages de vote pour le Parti X dans chacune des
circonscriptions électorales. Cette distribution en ferait évidemment une
variable quantitative de rapport. À la limite, dès qu’il s’agit d’agrégats, on se
trouve le plus souvent à travailler avec des données quantitatives puisque
tout attribut, même nominal, se traduit en un pourcentage d’individus de
l’agrégat qui possèdent cet attribut : pourcentage d’hommes dans l’industrie
automobile, pourcentage de femmes chez les plus de 70 ans, etc.
On devine enfin que l’on peut parfois faire le chemin inverse. En
choisissant des seuils, toutes les variables quantitatives peuvent être
ramenées à des variables nominales ou ordinales faites de catégories ou
modalités, par exemple riche/pauvre. L’avantage d’une donnée quantitative
est cependant déterminant : en ayant au départ des informations plus
précises, le chercheur garde la liberté de faire les regroupements, en deux,
quatre ou cinq catégories, selon les besoins de la recherche, ou encore de les
conserver intactes. L’inverse est impossible.
Comme nous le verrons plus tard, avec les variables quantitatives, il
existe un plus grand nombre d’outils, et surtout des outils plus sophistiqués.
Cela incite parfois même les chercheurs à codifier numériquement des
14
STATISTIQUES EN SCIENCES HUMAINES AVEC R
variables ordinales. Par exemple, 4 pour « tout à fait d’accord », 3 pour
« plutôt d’accord », 2, pour « plutôt en désaccord », 1 pour « tout à fait en
désaccord ». On peut alors utiliser les avantages de la quantification lors de
l’analyse des données, mais on présume – une fois de plus ! – que, dans la
tête des répondants, l’intervalle entre les choix proposés est identique, ce
qui n’est pas nécessairement le cas. Pour bénéficier des mêmes possibilités,
on va aussi transformer une variable nominale en une variable binaire sous
la forme suivante : 1 pour homme, et 0 pour femme. Ou encore : 1 « a voté »,
0 « n’a pas voté ». Ce type de variable est généralement appelé dichotomique,
par opposition à polytomique17.
En somme, le type de variable utilisé dépend de trois aspects : 1) la
nature du phénomène étudié, 2) l’unité d’analyse et 3) les regroupements
ou quantifications qu’on fait ou non.
Dans toutes les situations, pour choisir les données les plus appropriées et décider de les regrouper ou non, de quantifier ou non, il faut se
référer à l’hypothèse et à la littérature sur la question. Enfin, pour plus
d’assurance, il sera préférable d’utiliser des données reconnues par la
communauté scientifique.
Cinq préférences sur la collecte de données pour une analyse
quantitative
• On doit préférer travailler avec un grand nombre d’observations
plutôt qu’avec un petit nombre.
• On doit préférer travailler avec un échantillon aléatoire, ou quasi
aléatoire, plutôt qu’avec un échantillon qui n’a rien d’aléatoire.
• On doit préférer travailler avec des variables quantitatives plutôt
qu’avec des variables qualitatives.
• On doit préférer travailler avec des données standardisées ou
reconnues qu’avec des données qui ne le sont pas.
• On doit préférer travailler avec des données désagrégées qu’avec des
données agrégées.
Si ces préférences doivent nous servir de repères, il faut comprendre
que la recherche est pleine de contraintes. Le temps, les ressources et la
disponibilité des informations obligent à des aménagements. Le cadre opératoire d’une recherche est souvent très différent du cadre idéal. Les données
trouvées recoupent parfois imparfaitement ce qu’on cherche. Il faut souvent
17. Une grande partie de la confusion vient du fait qu’on donne souvent d’emblée des
valeurs numériques à des valeurs de variables ordinales ou nominales. Il faut alors se
référer au Codebook – ou livre des codes – d’une enquête pour savoir la signification des
chiffres utilisés.
CHAPITRE 1 – COMPRENDRE L’UTILITÉ DES MÉTHODES QUANTITATIVES
15
se rabattre sur des données agrégées ou des échantillons limités. On doit
enfin circonscrire l’objet de recherche dans le temps et l’espace.
L’attitude responsable sur le plan scientifique consiste à rendre transparents les choix qu’on a dû faire ici et là. Il faut aussi se rappeler que de très
bonnes recherches, contributives à l’avancement de la connaissance, ont été
menées avec des échantillons restreints, n’ayant d’ailleurs rien d’aléatoires18.
Plus encore, il est rare qu’une recherche ne prête pas flanc à la critique, d’une
manière ou d’une autre, même les plus sophistiquées.
Au total, quand on travaille avec des données, il n’y a pas d’assurance
parfaite. L’inexactitude ne doit cependant pas devenir un frein à la recherche ;
elle constitue plutôt un défi. La sociologue Claire Durand et le politologue
André Blais présentent l’ensemble de l’opération comme un processus de
traduction :
Cette construction consiste en un ensemble d’opérations qui permettent
de traduire un concept, exprimé dans un langage abstrait dans le langage
de l’observation. Cette traduction, qui n’est jamais tout à fait satisfaisante,
procède par approximation. Elle vise à classifier des objets à l’aide d’un
certain nombre d’opérations effectuées à partir de un ou plusieurs instruments de mise en forme de l’information. Pour que la traduction soit la
plus adéquate possible, il importe de faire d’abord preuve d’imagination de
façon à considérer l’éventail des possibles, et ensuite de rigueur, de façon à
écarter les indicateurs qui présentent de trop grandes lacunes19.
Cela étant dit, il ne fait aucun doute qu’aujourd’hui l’accès aux données
est beaucoup plus aisé qu’il y a vingt ou trente ans. Il est aussi beaucoup plus
facile de les récupérer et de les traiter dans un chiffrier puis dans R.
En évaluant les caractéristiques des objets que les sciences sociales et
humaines doivent étudier, le principe de modestie s’impose comme un
dénominateur : on ne pourra jamais tout décrire, tout mesurer et tout
expliquer. De la collecte des données jusqu’à l’interprétation des résultats,
on retrouve des incertitudes, des lacunes et des questions sans réponse.
Pour reprendre la métaphore de Husserl, ou pourrait dire ceci : même
si l’on doit impérativement – et peut-être plus qu’ailleurs – tourner et
retourner le cube dans tous les sens, notamment avec les variables et les
indicateurs, puis trianguler l’information sur la base de plusieurs méthodes,
une face au moins restera toujours inaccessible ! Gaston Bachelard (18841962), philosophe français des sciences, écrivait dans son ouvrage La
formation de l’esprit scientifique :
18. On pense ici en particulier aux travaux du psychologue Jean Piaget, notamment ceux
qui ont été réalisés avant la Deuxième Guerre mondiale.
19. Claire Durand et André Blais, « La mesure », dans Gauthier, op. cit., p. 249.
16
STATISTIQUES EN SCIENCES HUMAINES AVEC R
La connaissance du réel est une lumière qui projette toujours quelque part
des ombres. Elle n’est jamais immédiate et pleine. Les révélations du réel
sont toujours récurrentes. Le réel n’est jamais « ce qu’on pourrait croire »,
mais il est toujours ce qu’on aurait dû penser20.
Et en 2006, presque cent ans plus tard, le mathématicien français
Jean-Paul Benzécri, dressant un bilan de sa carrière et de ses contributions,
notamment du côté de l’analyse factorielle, écrivait :
Il faut que le statisticien, le géomètre, le sociologue soient modestes ! En
cherchant ce qu’on a toujours dû chercher, chaque génération ne peut avoir
fait plus que sa part : la question subsiste21.
Dans cette perspective, l’ambition d’une recherche – rapport, mémoire,
article ou monographie – n’est pas de tout expliquer, mais de contribuer à
l’avancement des connaissances. Et c’est dans l’esprit d’une récurrence sans
fin que le lecteur doit s’outiller sur le plan quantitatif… sans s’imaginer que
les chiffres donnent réponse à tout.
20. Gaston Bachelard, La formation de l’esprit scientifique, Paris, Vrin, 1970, p. 14.
21. Jean-Paul Benzécri, « L’analyse des données, histoire, bilan projets, […] perspective ».
Conférence Jean-Pierre Fénelon, Paris, 4 octobre 2006.
CHAPITRE 2
Découvrir les rudiments
de R
« Si les spécialistes des sciences sociales s’efforcent d’introduire le maximum de quantification et de mathématiques
dans leurs disciplines respectives, ce n’est pas pour sacrifier
à une mode, comme le pensent bon nombre d’ignorants.
C’est parce que l’introduction des mathématique dans une
science lui donne des instruments d’analyse dont l’efficacité
est sans commune mesure avec les procédés de comparaison
classiques1. »
Maurice Duverger (1917-), politologue français
C
omment procéder opérationnellement ? Il existe plusieurs logiciels
pour le traitement statistique des données. Les plus connus, et
longtemps les plus utilisés, étaient SPSS, SAS et STATA. Depuis quelques
années, R émerge avec force, entrant en concurrence avec les autres2. La
concurrence entre ces géants a même fait l’objet d’un article du New York
Times dont le titre est évocateur : Data Analysts Captivated by R’s Power3.
1. Maurice Duverger, Méthodes des sciences sociales, Paris, PUF, Thémis, 1964, 501 pages,
p. 400.
2.http://r4stats.com/popularity.
3. New York Times, 6 janvier 2009.
18
STATISTIQUES EN SCIENCES HUMAINES AVEC R
2.1 AVANTAGES ET DÉSAVANTAGES DE R
Les logiciels statistiques sont évidemment tous fondés sur les mêmes
algorithmes et produisent les mêmes résultats sur le plan mathématique4.
Une analyse comparative indique cependant qu’ils présentent des différences importantes. En fait, ils se distinguent et rivalisent sur plusieurs
plans : ergonomie, vitesse, rendu graphique, variété des outils ou même
abondance d’une littérature afférente. Le degré d’utilisation et de diffusion
auprès de certaines communautés disciplinaires varie également.
Cinq raisons pour travailler avec R
• Il est disponible gratuitement, ce qui n’est pas insignifiant pour les
étudiants !
• Il est accessible sur les principales plateformes.
• Il génère des graphiques de très haute qualité immédiatement dispo-
nibles en des formats multiples et récupérables pour le traitement
de texte, pour des logiciels de présentation, mais aussi pour des
publications professionnelles.
• Il est appuyé depuis plusieurs années par une communauté scientifique qui enrichit R de multiples librairies ou packages.
• Il s’agit enfin d’un logiciel ouvert, nullement associé à une entre-
prise commerciale ; sa continuité n’est donc pas extérieure à la
communauté scientifique, mais endogène à celle-ci.
R n’est pourtant pas sans difficulté. Premièrement, sa pauvre convivialité. Au départ, R rebute ! La courbe d’apprentissage est abrupte. De par
l’utilisation d’une fenêtre de console et l’entrée manuelle de commandes, R
peut même sembler décourageant car il rappelle les fenêtres DOS d’autrefois,
remplies de commandes d’une syntaxe à première vue énigmatique. Pour
décrire R, un étudiant, bûchant sur son travail lors d’un laboratoire, a utilisé
un oxymore très juste : « simple, mais capricieux ». R a indéniablement
quelque chose de rudimentaire, presque d’élémentaire, qui rappelle l’arithmétique, mais son langage est aussi truffé de détails qui exigent, au départ
du moins, une certaine persévérance.
La deuxième difficulté de R est l’envers de l’une de ses forces. Créé au
début des années 1990 par Robert Gentleman et Ross Ihaka à l’Université
d’Auckland en Nouvelle-Zélande, le projet est devenu un logiciel libre en
1995. Aujourd’hui, si l’équipe de base – Core team – veille à l’essentiel, il n’en
4.
Avec R, on notera que le degré de précision peut varier selon les fonctions, du moins par
défaut. Pour uniformiser le tout, on utilisera la commande options (digits=4).
CHAPITRE 2 – DÉCOUVRIR LES RUDIMENTS DE R
19
reste pas moins que le développement a un caractère éclectique, voire
anarchique. Des milliers packages complémentaires qui couvrent des procédures de recherche spécialisées se sont ajoutés au module de base. Ils ont été
développés par des chercheurs du monde entier, dans un grand nombre de
disciplines différentes. Cette créativité de la communauté R a une conséquence malheureuse, du moins pour les débutants : les procédures, les
options et les arguments sont parfois légèrement différents d’une fonction
à l’autre, ce qui complique l’apprentissage.
2.2 L’INSTALLATION DE R
Généralement, l’installation de R ne pose pas de problème. R n’est pas
un logiciel qui prend beaucoup de place sur l’ordinateur ; il ne demande pas
beaucoup à ses processeurs et à sa mémoire. Pour l’installer, suivez les
étapes :
• connectez-vous sur le site de R à l’adresse suivante : http://www.rproject.org/ ;
• puis, retrouvez la section « Download » et cliquez sur CRAN ;
• là, vous choisissez votre site miroir, situé à proximité ;
• normalement, vous devriez vous trouver sur une page qui vous
permet de télécharger R pour les différents systèmes d’exploitation.
Faites votre choix ;
• une fois R récupéré, son installation ne pose aucun problème.
Quand vous ouvrez R, une console apparaît et le signe (>) vous invite
à commencer votre session de travail. On peut entrer des commandes directement à cet endroit, mais une pratique plus efficace consiste à ouvrir un
fichier script, ou document sur Mac, et à se doter d’un espace de travail avec
deux fenêtres.
20
STATISTIQUES EN SCIENCES HUMAINES AVEC R
Figure 2
Comment faire ? Quand on ouvre R, seule la fenêtre du haut apparaît,
et ce au beau milieu de votre écran. Pour démarrer un fichier syntaxe, allez
dans Fichier (1) et cliquez sur Nouveau script sur Windows ou Nouveau
document sur Mac.
Nous vous suggérons de disposer les deux fenêtres5 comme nous
l’avons fait : la console en haut et le fichier de commandes en bas. Cette
ergonomie facilite le travail. À l’occasion, une troisième fenêtre apparaîtra,
celle des graphiques. L’onglet Édition (2) permet de copier-coller ou de
rechercher des éléments. L’onglet Packages et données (3) sera très utile pour
importer de nouveaux packages. Quant à l’onglet Fenêtres (4), il facilite la
navigation et vous permet de retrouver la fenêtre des résultats graphiques.
Sur Mac, les fenêtres graphiques sont nommées Quartz, alors que sur
Windows elles sont nommées Graphics : Device.
Pour activer une ligne de commande particulière, ou pour les activer
toutes, il suffira de les sélectionner dans votre fichier source et de les
5.
On peut aussi utiliser l’environnement de RStudio, qui a une ergonomie analogue à celle
qui est proposée. Ce logiciel peut plaire à certains. Les procédures de traitement sont
cependant fondamentalement identiques à celles qui sont présentées dans cet ouvrage.
CHAPITRE 2 – DÉCOUVRIR LES RUDIMENTS DE R
21
exécuter6. R traitera aussitôt les lignes en question et le résultat apparaîtra
dans la fenêtre supérieure. Le traitement est donc simple, malgré les
apparences. En procédant ainsi, vous pourrez bien voir toute votre
démarche, faire des changements au besoin et sauvegarder votre fichier
source aisément.
2.3 LES PREMIÈRES COMMANDES
Travaillons avec un exemple. Reprenons le dossier du vote selon le
revenu. Les données ont été au départ colligées dans un chiffrier électronique selon une méthode qui sera toujours la même.
• Chaque colonne correspond à une variable, et chaque ligne
correspond à une observation.
• La première ligne a un usage particulier ; on s’en sert pour placer le
nom des variables.
• La matrice doit être seule dans le fichier, sans note, sans ajout, sans
titre.
Une fois le fichier bâti, il a été sauvegardé dans le format csv, qui
signifie comma-separated values. Il s’agit d’un format reconnu, ouvert et
valable sous toutes les plateformes. Il permet de stocker des données
tabulaires sous forme de valeurs séparées par des points-virgules dans un
système d’exploitation en français.
Format du chiffrier
Format CSV
observations;revenu;vote
Personne1;Pauvre;Gauche
Personne2;Pauvre;Droite
Personne3;Riche;Droite
Personne4;Riche;Droite
Personne5;Pauvre;Gauche
Personne6;Riche;Gauche
Personne7;Pauvre;Gauche
Personne8;Riche;Droite
Personne9;Riche;Droite
Personne10;Pauvre;Gauche
6. Sur Mac et Windows, la disposition n’est pas identique. Sur un Mac, l’exécution de
lignes sélectionnées se fait par cmd+Retour. Sur un PC, il faut utiliser la troisième icône,
tout en haut, « exécuter la ligne ou la sélection ».

Documents pareils