Statistiques en sciences humaines avec
Transcription
Statistiques en sciences humaines avec
Cet ouvrage présente le logiciel R, car il est offert gratuitement, appuyé par une communauté scientifique, accessible sur les principales plateformes et parce qu’il génère rapidement des graphiques de très haute qualité sous des formats multiples. Jean-Herman Guay Aujourd’hui, avec la formidable disponibilité des données quantitatives et l’accès aux outils d’analyse, il n’y a plus de raison d’ignorer les méthodes quantitatives. Elles doivent devenir, plus qu’avant, une composante essentielle de l’analyse en sciences sociales. Jean-Herman Guay • Une approche directe et vulgarisée des notions de statistiques... presque sans formule ; • Des premiers pas jusqu’à l’analyse multivariée ; • Le traitement des données, la production de graphiques ; • Des exemples réels : corruption, mortalité routière, marché immobilier, votes au Congrès américain, élections françaises ; • Une centaine de codes disponibles sur Internet et exécutables en quelques secondes ; • Une réflexion méthodologique et épistémologique pour mieux comprendre les données statistiques. Au fil des pages, nous tenterons de montrer que les précieuses possibilités du logiciel R exigent de leurs utilisateurs qu’ils sortent du périmètre des « chiffres » pour entrer dans des considérations théoriques et qualitatives afin de redonner ensuite un sens aux chiffres. Jean-Herman Guay est professeur titulaire à l’École de politique appliquée de l’Université de Sherbrooke. Il y enseigne depuis plus de vingt ans. Auteur d’articles et d’ouvrages, directeur de Perspective monde et de Bilan du siècle, il aborde les méthodes quantitatives, non comme un but, mais comme un moyen pour comprendre les phénomènes sociaux. Site de l’auteur : dimension.usherbrooke.ca Statistiques en sciences humaines avec Pour guider l’apprentissage de ce logiciel, nous adoptons différentes stratégies : Statistiques en sciences humaines avec Sciences sociales Jean-Herman Guay 2.indd 1 14-08-14 16:31 Statistiques en sciences humaines avec R Méthodes de recherche en sciences humaines Collection dirigée par Louis M. Imbeau Au cœur des sciences humaines, la question de la méthode alimente les débats, non seulement entre les « écoles » (modernisme/postmodernisme, qualitativisme/quantitativisme, monisme/pluralisme, individualisme/holisme, etc.), mais aussi entre les chercheurs à l’intérieur de chaque école. La méthode est aussi au coeur de la formation des chercheurs. En plus de la maîtrise de plusieurs méthodes de recherche, devenir chercheur implique l’habileté à jeter un regard critique sur son propre travail et sur celui des autres. Cette collection veut contribuer aux débats sur la méthode et à la formation méthodologique des chercheurs des sciences humaines. Dans cet esprit, on y accueillera aussi bien des essais critiques s’adressant aux spécialistes que des manuels à l’intention des chercheurs, qu’ils soient expérimentés ou en formation. Dans la même collection William Fox, Statistiques sociales. Traduction et adaptation de Louis M. Imbeau (avec la collaboration d’Augustin Simard et de Thierry Rodon), PUL et De Boeck, 1999 (14e tirage, 2012). Gordon Mace et François Pétry, Guide d’élaboration d’un projet de recherche, 2e édition, PUL et De Boeck, 2000. François Dépelteau, La démarche d’une recherche en sciences humaines. De la question de départ à la communication des résultats, 2e édition, PUL et De Boeck, 2000 (7e tirage, 2011). Vincent Lemieux et Mathieu Ouimet, L’analyse structurale des réseaux sociaux, PUL et De Boeck, 2004. André Sanfaçon, La dissertation historique. Guide d’élaboration et de rédaction, 2e édition, PUL, 2005. Patrick Gonzalez et Jean Crête, Jeux de société. Une initiation à la théorie des jeux en sciences sociales, PUL, 2006. François Pétry et François Gélineau, Guide pratique d’introduction à la régression en sciences sociales, 2e édition, PUL, 2009. Louis M. Imbeau, Statistiques sociales avec IBM SPSSmd. Cahier d’exercices de la 19e version, 2e tirage, 2012. Jean-Herman Guay Statistiques en sciences humaines avec R Deuxième édition Revue et augmentée Les Presses de l’Université Laval reçoivent chaque année du Conseil des Arts du Canada et de la Société de développement des entreprises culturelles du Québec une aide financière pour l’ensemble de leur programme de publication. Nous reconnaissons l’aide financière du gouvernement du Canada par l’entremise de son Programme d’aide au développement de l’industrie de l’édition (PADIÉ) pour nos activités d’édition. Mise en pages : Diane Trottier Maquette de couverture : Laurie Patry ISBN : 978-2-7637-2337-2 PDF 9782763723389 © Les Presses de l’Université Laval 2014 Dépôt légal 3e trimestre 2014 De Boeck Les Presses de l’Université Laval www.pulaval.com Toute reproduction ou diffusion en tout ou en partie de ce livre par quelque moyen que ce soit est interdite sans l’autorisation écrite des Presses de l’Université Laval. TA B L E D E S M AT I È R E S Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI Chapitre 1 Comprendre l’utilité des méthodes quantitatives . . . . . . . . . . . . . . . . . . 1 1.1 Les difficultés propres aux sciences sociales . . . . . . . . . . . . . . . . . . . . . 2 1.2 L’observation systématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 La recherche quantitative et l’explication . . . . . . . . . . . . . . . . . . . . . . . 6 1.4 Un premier exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.5 L’unité d’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.6 La nature des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Chapitre 2 Découvrir les rudiments de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.1 Avantages et désavantages de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.2 L’installation de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.3 Les premières commandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.4 La logique par objet de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.5 De bonnes habitudes à acquérir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Chapitre 3 Apprivoiser R avec une série chronologique . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.1 L’organisation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.2 Un premier graphique, puis un second, amélioré . . . . . . . . . . . . . . . . 33 3.3 L’ajout de nouvelles variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.4 L’ajout de textes à un graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Chapitre 4 Choisir et transformer les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 4.1 Les hypothèses et le cadre d’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4.2 Création d’une base de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 4.3 Les opérations à faire sur des données . . . . . . . . . . . . . . . . . . . . . . . . . 46 VIII STATISTIQUES EN SCIENCES HUMAINES AVEC R Chapitre 5 Présenter les variables d’une manière univariée . . . . . . . . . . . . . . . . . . . . . . . 55 5.1 Les sommaires numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.2 Les histogrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.3 Les listes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 5.4 Les tableaux de fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5.5 Pour les audacieux : l’exploration de texte . . . . . . . . . . . . . . . . . . . . . . 66 Chapitre 6 Croiser deux variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 6.1 Deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 6.2 Une variable quantitative et une variable qualitative . . . . . . . . . . . . . 78 6.3 Deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 Chapitre 7 Quantifier la relation entre deux variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 7.1 L’association de deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . 92 7.2 L’association d’une quantitative et d’une qualitative . . . . . . . . . . . . . 97 7.3 L’association ou la corrélation de deux variables quantitatives . . . . . 99 7.4 Modèle, droite de régression et résidus . . . . . . . . . . . . . . . . . . . . . . . . .101 7.5 L’interprétation des mesures d’association . . . . . . . . . . . . . . . . . . . . . 106 7.6 Les corrélations sur des séries chronologiques . . . . . . . . . . . . . . . . . . 109 7.7 Les balises de Cohen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 Chapitre 8 Bâtir des fonctions en explorant l’inférence . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 8.1 La marge d’erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 8.2 Une fonction plus complexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 8.3 Les tests de signification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 8.4 Des tests à la puissance des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 8.5 L’inférence remise en question . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 TABLE DES MATIÈRES IX Chapitre 9 Travailler avec trois ou quatre variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 9.1 Trois variables qualitatives : la variable contrôle . . . . . . . . . . . . . . . . . 136 9.2 Quatre variables quantitatives : les corrélations partielles . . . . . . . . 143 9.3 L’analyse de la causalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 Chapitre 10 Utiliser l’analyse de régression multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 10.1 Un premier exemple : le marché immobilier . . . . . . . . . . . . . . . . . . . . 152 10.2 La transformation des distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 10.3 Un deuxième exemple : classes et vote au Canada anglais . . . . . . . . . 164 10.4 Troisième exemple : la mortalité sur la route . . . . . . . . . . . . . . . . . . . . 173 10.5 La régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 10.6 La régression logistique multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . 183 Chapitre 11 Explorer l’analyse factorielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 11.1 L’analyse en composantes principales . . . . . . . . . . . . . . . . . . . . . . . . . . 192 11.2 Encore une analyse en composantes principales . . . . . . . . . . . . . . . . . 204 11.3 L’analyse des correspondances simples . . . . . . . . . . . . . . . . . . . . . . . . . 208 11.4 L’analyse des correspondances multiples . . . . . . . . . . . . . . . . . . . . . . . 215 Chapitre 12 Discuter des méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 12.1 L’utilité des méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 12.2 La variété des méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 12.3 La pluralité des observations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230 Aide-mémoire des fonctions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 Aide-mémoire des actions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 Ressources bibliographiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237 Avant-propos «É clectique », diront les critiques à propos de cet ouvrage. Ils n’auront pas tort : on y combine des apprentissages méthodologiques, des considérations analytiques, mais aussi des réflexions plus théoriques, voire épistémologiques, par moment. Comme l’ouvrage vise également l’apprentissage du logiciel R, s’ajoutent évidemment des précisions techniques. Contrairement à notre premier ouvrage de méthodologie1, publié il y a une vingtaine d’années, lequel offrait une démarche linéaire, celui-ci enchevêtre des réflexions qui lui donnent à première vue un caractère déconcertant. Le pari que nous faisons est audacieux : en adoptant cet éclectisme, le lecteur comprendra mieux les méthodes statistiques. En saisissant conjointement leur finalité et leur « opérationnalité », il découvrira comment il peut les utiliser d’une manière créatrice et flexible. Ne travailler que sur l’aspect mathématique ou informatique est rebutant pour les non-initiés des statistiques. À l’inverse, ne tenir compte que des aspects théoriques, sans se soucier de leur mise en œuvre, risque d’amener certaines personnes à abandonner rapidement l’aventure quantitative. Le manuel cherche donc à répondre quasi simultanément aussi bien au comment qu’au pourquoi, en pariant que la passion se développera en combinant d’une manière serrée les deux questionnements, au fur et à mesure qu’ils surgissent. Tant bien que mal, un fil conducteur, presque un parti pris, marque toute notre exploration. On pourrait le résumer ainsi : aujourd’hui, avec la formidable disponibilité des données quantitatives et l’accès aux outils 1. Jean-Herman Guay, Sciences humaines et méthodes quantitatives, Montréal, Éditions, Beauchemin, 1992. XII STATISTIQUES EN SCIENCES HUMAINES AVEC R d’analyse, il n’y a plus de raisons qui justifient un rejet, une ignorance ou une méfiance des méthodes quantitatives. Elles doivent devenir, plus qu’avant, une composante essentielle de l’analyse en sciences sociales. Cet usage n’est cependant ni exclusif ni autonome. Au fil des pages, nous tenterons de montrer que leurs précieuses possibilités exigent de leurs utilisateurs qu’ils sortent régulièrement du périmètre des « chiffres » pour entrer dans des considérations théoriques et qualitatives afin de redonner ensuite un sens aux chiffres. Pour réaliser notre pari, le texte a été divisé en douze chapitres, lesquels, par des itérations successives, permettent d’approfondir des notions et des outils. Au départ, chaque fonction de R est amenée simplement, puis on la retrouve aux chapitres suivants dans des contextes plus élaborés et plus complexes. Ce processus pédagogique d’apprivoisement permet de consolider progressivement les apprentissages et d’explorer la polyvalence des outils. On trouve dans chacun des chapitres un accès aux données, des informations numériques et plusieurs graphiques. Pour faciliter l’exploration, nous avons rendu disponibles plusieurs extraits du code sur Internet2 et isolé ceux-ci clairement dans le texte. En procédant à des copier-coller de ce que nous avons appelé des codes récapitulatifs (CR), le lecteur s’évitera un travail fastidieux. Il pourra plus facilement expérimenter les options présentées en partant de l’importation de la base de données jusqu’à la production du tableau ou du graphique. Ainsi, il pourra adapter et personnaliser ces nombreuses recettes. L’exposé se fait essentiellement par l’exemple. Et presque tous les exemples sont réels. Nous nous sommes assurés qu’ils « collent » tant bien que mal aux objets des sciences sociales. Il sera question de corruption, de mortalité routière en Europe, du marché immobilier, des votes au Congrès américain, des libertés économiques dans le monde, mais aussi des élections canadiennes et françaises. Contrairement aux distributions fictives, nos exemples montrent les difficultés, les défis et parfois les impasses qui guettent les chercheurs. On comprendra que, chaque fois, l’usage que nous en faisons renvoie aux finalités pédagogiques de l’ouvrage, sans plus. Cet ouvrage ne couvre évidemment pas l’éventail complet des méthodes quantitatives. Nous avons ciblé celles qui sont les plus utilisées en sciences sociales ou qui, à nos yeux, méritent une plus grande utilisation. Voilà pourquoi, après avoir exploré l’analyse univariée et bivariée, essentiellement avec des populations, nous passons à l’inférence et à l’analyse de régression 2. À l’adresse suivante : dimension.usherbrooke.ca. AVANT-PROPOS XIII pour boucler la boucle avec l’analyse factorielle. Il en va de même de R : loin de nous la prétention de faire le tour de ses possibilités. L’ouvrage s’adresse à un public de curieux qui possèdent quelques rudiments de méthodologie ou qui n’hésitent pas à fouiller à gauche et à droite pour trouver des réponses aux questions qui pourraient surgir au fil de la lecture. Plus précisément, il vise des étudiants des premier et deuxième cycles universitaires qui doivent apprivoiser ou « ré-apprivoiser », parfois contre leur gré, les bases des méthodes statistiques. Les gens plus avancés n’y trouveront aucun profit. Ils risquent même d’être étonnés de nos simplifications. En terminant, je tiens à remercier Marc J. Mazerolle de l’Université du Québec en Abitibi-Témiscamingue et Marc-André Bodet de l’Université Laval pour leurs commentaires sur un manuscrit antérieur, Eugénie DostieGoulet pour ses avis et ses conseils, mais aussi Khalid Adnane et Serge Gaudreau, de même que mes étudiants et étudiantes de l’Université de Sherbrooke. Je tiens enfin à remercier les Éditions de Boeck et les Presses de l’Université Laval. Si cet ouvrage est un défi pour l’auteur, il en va de même pour son éditeur et toute son équipe qui doit combiner le texte, les graphiques, les codes et les sorties de R, mêlant tant bien que mal les exigences du français et celles propres aux fonctions de R. C H A P I T R E 1 Comprendre l’utilité des méthodes quantitatives « Clarifier les termes est probablement la tâche la plus ancienne de la méthodologie et aussi, malheureusement, celle qui n’a pas de fin.1 » Paul Lazarsfeld (1901-1976), sociologue américain L e philosophe et mathématicien allemand Edmund Husserl (1859-1938) aimait brandir un cube pour montrer à ses interlocuteurs d’une manière très intuitive que, quel que soit l’angle qu’on lui donne, on ne voit que trois faces. Une partie du réel est visible ; une autre échappe à l’observation. La solution est simple : faire pivoter le cube pour s’assurer que les trois autres faces puissent être vues ! D’emblée, la métaphore de Husserl s’applique à ce qui nous préoccupe. Le chercheur ne peut simplement regarder un phénomène d’un seul point de vue. En utilisant différentes méthodes – qualitatives et quantitatives –, et pour chacune plusieurs outils, il le fait indéniablement pivoter. Le chercheur ne se limite pas à une seule observation ; il ne doit pas être passif. Sa capacité à examiner un problème sous plusieurs angles et à concilier les lectures successives constitue même l’indice de sa virtuosité. 1. Paul Lazarsfeld, Philosophie des sciences sociales, Paris, Éditions Gallimard, 1970, p. 258. 2 STATISTIQUES EN SCIENCES HUMAINES AVEC R 1.1 LES DIFFICULTÉS PROPRES AUX SCIENCES SOCIALES La métaphore de Husserl est cependant trompeuse. Dans le domaine des sciences sociales, même après maints efforts, une portion du réel résiste à l’analyse et échappe à toute appréhension scientifique. Les limites sont nombreuses. La première, et peut-être la plus importante, est celle de la liberté. À moins d’être partisan d’une approche déterministe et de croire que les êtres humains sont comme des choses, sans volonté ni intention, la liberté des personnes – quelle que soit la part qu’on lui reconnaît – constitue une limitation fondamentale à toute prétention d’expliquer la totalité du phénomène humain. Face à un même environnement, deux individus ayant le même passé peuvent réagir différemment. On aura beau multiplier à l’infini les explications, une indétermination, insaisissable scientifiquement, persistera. La deuxième difficulté est de l’ordre du protocole de recherche. En sciences naturelles, les chercheurs peuvent généralement mieux maîtriser les phénomènes à l’étude. Selon Claude Bernard (1813-1878), qui a défini l’approche expérimentale, les faits « peuvent être artificiellement produits au gré de l’observateur ». En laboratoire, les chercheurs peuvent aussi isoler les termes de la relation en répartissant au hasard les causes parasitaires. Ils peuvent enfin reprendre ad nauseam l’expérience en modifiant certains aspects pour mieux scruter les interactions. Ces possibilités expérimentales sont rares, voire impossibles, du côté des sciences sociales. Le plus souvent, les chercheurs doivent trouver dans la réalité des variations et analyser leurs concomitances. On parle alors d’une approche « quasi expérimentale ». Les conclusions d’une analyse causale sont forcément moins assurées. Le troisième problème renvoie au caractère historique de bien des phénomènes sociaux. Ils sont ancrés dans un ici et maintenant et, conséquemment, la découverte d’une causalité dans une société sera impertinente pour une autre société, ou pour la même quelques décennies plus tard. Par exemple, une étude d’il y a trente ans sur l’écoute des bulletins de nouvelles à la télévision a perdu aujourd’hui une large portion de sa pertinence, compte tenu de l’émergence des nouveaux médias. Ce caractère « daté » et « localisé » vaut par exemple évidemment pour les élections, mais aussi pour le rapport à la religion, les comportements familiaux ou ceux qui concernent la consommation. Sauf exception, les sciences naturelles ont devant elles un objet de recherche plus stable et plus universel. Dans certains domaines des sciences sociales – par exemple les sciences politiques – s’ajoute un autre problème : l’opacité. Le vote individuel des citoyens est secret, tout comme les échanges au sein d’un conseil des CHAPITRE 1 – COMPRENDRE L’UTILITÉ DES MÉTHODES QUANTITATIVES 3 ministres. Plus encore, les processus de négociation, de persuasion ou d’opposition sont souvent marqués par un jeu d’apparences. En criminologie, en psychologie et en anthropologie, une opacité analogue voile plusieurs des phénomènes que l’on tente de comprendre. Dans plusieurs de ces domaines, le chercheur, à l’instar d’un enquêteur de police2, travaille avec des fragments ou des indices qui lui permettent au mieux de n’appréhender que la partie visible ou phénoménale de la réalité. Liberté des personnes, opérationnalité de la recherche, historicité et opacité de bien des phénomènes sont donc quatre limites fondamentales à l’explication des phénomènes sociaux. 1.2 L’OBSERVATION SYSTÉMATIQUE À l’instar de ce qui se faisait déjà du côté des sciences naturelles, et ce malgré leurs difficultés singulières, les sciences sociales se sont peu à peu orientées vers l’observation systématique des phénomènes. À partir du milieu du XIXe siècle3, les chercheurs ont procédé à des analyses sophistiquées où l’on tente moins de juger moralement et davantage d’expliquer ou de comprendre un ou plusieurs phénomènes. Deux types d’observations se sont dégagés : • Les méthodes qualitatives utilisent l’analyse de contenu, l’obser- vation directe et l’observation participative. Le groupe de discussion (focus group), l’entrevue semi dirigée et le récit de vie sont d’autres options de l’observation qualitative4. • Les méthodes quantitatives travaillent avec un ensemble de données prélevées sur la base d’une unité commune. Ces données peuvent être ensuite regroupées, comparées et quantifiées. On utilise des proportions, des moyennes ou des corrélations en vue de relever les caractéristiques communes ou les concomitances entre ces caractéristiques. 2. Nous reprenons ici l’analogie de John W. Tukey, utilisée dans son ouvrage Exploratory data analysis, Addison-Wesley Publishing Company, 1977. 3. Ici on pense plus directement aux travaux de Quételet. Paul Lazarsfeld, « L’envers de l’histoire des sciences sociales », Philosophie des sciences sociales, op. cit. 4. Pour en savoir plus sur ces méthodes, voir les chapitres 12 à 16 dans Benoît Gauthier, Recherche sociale, de la problématique à la collecte des données, Montréal, Presses de l’Université du Québec, 2009. Notez bien que la séparation méthodologique n’est pas étanche. Par exemple, pour l’analyse de contenu, on peut effectuer des analyses quantitatives très poussées, du type text mining. 4 STATISTIQUES EN SCIENCES HUMAINES AVEC R On dit parfois que l’approche qualitative peut aller plus en profondeur, mais ne peut par contre généraliser ses propres résultats. Inversement, l’approche quantitative aurait l’avantage de la généralisation, mais serait contrainte à une étude réductrice de la réalité puisqu’elle est limitée à des attributs visibles, comparables et quantifiables. Selon cette logique, on associe aussi le qualitatif à la compréhension et le quantitatif à l’explication. Ce clivage, bien qu’il soit réel, masque d’importants chevauchements. Il y a des échantillonnages qui permettent difficilement la généralisation et, inversement, des études quantitatives qui peuvent aller très loin, par des batteries sophistiquées d’indicateurs. En fait, les deux approches sont interdépendantes : pour bâtir un questionnaire, pour exemplifier des observations atypiques ou pour interpréter certains résultats, les quantitativistes puiseront dans les analyses qualitatives. L’une et l’autre ont aussi en commun une dépendance à l’endroit d’éléments théoriques ou logiques qui donnent un sens aux analyses empiriques. Recherche théorique Recherche qualitative Recherche quantitative Figure 1 La recherche scientifique, considérée globalement, apparaît donc comme une construction dynamique qui combine diversement les trois CHAPITRE 1 – COMPRENDRE L’UTILITÉ DES MÉTHODES QUANTITATIVES 5 ensembles5 : la recherche théorique, la recherche qualitative et la recherche quantitative. Cette triangulation des méthodes est déjà présente chez Émile Durkheim (1858-1917) et Max Weber (1864-1920), et plus récemment dans les travaux épistémologiques et méthodologiques de Jean-Claude Passeron. Dans la pratique, il est cependant rare qu’un chercheur se livre aux trois efforts simultanément. Une division du travail prévaut. Une discipline peut aussi connaître des moments où l’effort est essentiellement théorique. L’évolution n’est donc pas nécessairement synchrone ; la théorie peut être en avance ou en retard, de même que la recherche empirique. Comme l’a montré Thomas Kuhn (1922-1996) dans La structure des révolutions scientifiques, les processus de découvertes s’enchevêtrent souvent selon des modèles déconcertants. Même si cela est fait par des personnes différentes, voire par des générations successives, et ce dans un désordre souvent créateur, il n’en reste pas moins qu’à moyen et long terme c’est à l’intersection des trois cercles que l’effort est optimal. Autant les chiffres peuvent isolément devenir trompeurs, autant la théorie, sans la recherche empirique, peut sombrer dans la « divagation6 ». Régulièrement – du début du processus jusqu’à la discussion des résultats –, les « quantitativistes » doivent donc se « connecter » aux autres types de recherche en vue d’évaluer la pertinence de leurs résultats, ou plus encore pour faire des choix stratégiques quant à la progression de leur démarche quantitative. 5. Plus fondamentalement, Emmanuel Kant (1724-1804) posait l’exigence de cette combinaison : « Des pensées sans matière sont vides ; des intuitions sans concepts sont aveugles. Aussi est-il tout aussi nécessaire de rendre sensibles les concepts (c’est-à-dire d’y joindre un objet donné dans l’intuition), que de rendre intelligibles les intuitions (c’est-à-dire de les soumettre à des concepts). Ces deux facultés ou capacités ne sauraient non plus échanger leurs fonctions. L’entendement ne peut avoir l’intuition de rien, ni les sens rien penser. La connaissance ne peut résulter que de leur union. » Critique de la raison pure, Logique transcendantale, introduction. Paris GarnierFlammarion, 1976, p. 110. 6. Jean-Claude Passeron, Le raisonnement sociologique, Paris, Albin Michel, 1991, p. 572 : « Bref, statisticiens et sociologues ont en commun de devoir, les uns et les autres, se prémunir à la fois contre l’illusion du statisticien et contre l’illusion herméneutique. C’est une définition possible du raisonnement sociologique – à tout le moins indicative de sa fonction – que de dire qu’il vise à l’optimisation des compromis logiques entre les exigences du raisonnement expérimental et celles de la contextualisation historique. » 6 STATISTIQUES EN SCIENCES HUMAINES AVEC R 1.3 LA RECHERCHE QUANTITATIVE ET L’EXPLICATION La science aborde le réel en tentant de présenter le réel tel qu’il est. Contrairement à une approche normative, qui vise à juger, ou prescriptive, qui vise à formuler des propositions de changement, l’approche scientifique tend à la neutralité, bien que l’on puisse, a posteriori, sur la base de ses résultats, formuler des jugements et des recommandations. Avec une approche quantitative, il convient d’abord de décrire le réel, puis de classer les phénomènes observés. On construit alors des typologies, on dégage des caractéristiques récurrentes, on élabore souvent des outils d’observation et de mesure, sur la base d’indicateurs. Une fois ce travail de description et de classification fait, le défi est souvent celui de l’explication : y s’explique-t-il par x ? Dans Les règles de la méthode sociologique, Émile Durkheim écrivait à propos de l’utilité de la concomitance : Nous n’avons qu’un moyen de démontrer qu’un phénomène est cause d’un autre, c’est de comparer les cas où ils sont simultanément présents ou absents et de chercher si les variations qu’ils présentent dans ces différentes combinaisons de circonstances témoignent que l’un dépend de l’autre7. Pour établir un lien causal entre deux phénomènes contigus, cinq critères doivent être généralement respectés. • La cause doit précéder l’effet : x doit précéder y. L’antériorité est une condition de la causalité. On utilise ainsi les termes « antécédent » ou « déterminant » comme synonymes de « cause ». • Logiquement ou théoriquement, on doit pouvoir retracer ce lien entre x et y ; l’enchaînement doit donc être intelligible. Autrement, on risque de prendre des coïncidences pour des causalités. • La concomitance empirique entre x et y doit être fréquente et répétée. • On doit aussi avoir considéré d’autres causes possibles au phénomène étudié ; autrement, une cause pourrait en dissimuler une autre. • Enfin, une causalité est reconnue par la communauté scientifique quand plusieurs enquêtes l’ont repérée. Si ces critères semblent clairs à première vue, l’application présente des difficultés parfois insolubles. Dans certains cas, l’antériorité est difficile à établir : ou bien les phénomènes sont synchrones, ou bien il peut y avoir 7. Émile Durkheim, Les règles de la méthode sociologique, Paris, PUF, Quadridge, 1981, p. 124. CHAPITRE 1 – COMPRENDRE L’UTILITÉ DES MÉTHODES QUANTITATIVES 7 endogénéité : x influence y, et y influence à son tour x. Le deuxième critère n’est guère plus évident : qu’est-ce qu’un enchaînement logique ou intelligible8 ? Le dernier critère pose une autre difficulté : les sciences sociales ne sont pas marquées par une forte unité paradigmatique. Sur un grand nombre de sujets, les investigations aboutissent à des résultats différents ; les convergences unanimes sont rarissimes. Les deux critères plus quantitatifs posent d’autres difficultés. La concomitance n’est jamais parfaite : on trouvera des exceptions à la causalité ou des circonstances où l’effet attendu ne se produit pas. Quant au contrôle des « autres causes possibles », on devine qu’il est difficilement exhaustif, la liste des antécédents potentiels étant théoriquement illimitée. Bref, ces cinq critères sont des repères, et non des carcans. Ils doivent nous guider au point de départ d’une recherche, pendant son élaboration et jusqu’à la discussion finale. En vue d’en optimiser l’atteinte, on peut envisager quelques stratégies. • Distinguer les causes dont l’antériorité est manifeste des causes dont l’antériorité est douteuse. Au moment de l’élaboration du schéma causal, ou lors de l’analyse des résultats, il faut être soucieux des liens complexes entre les variables. Et, à défaut d’une causalité, il faut utiliser des méthodes qui travaillent sur des profils ou des facteurs. Nous y reviendrons au chapitre 11. • Rechercher les interprétations reconnues par la communauté scien- tifique par une revue suffisante de la littérature. On y trouve alors des causes déjà travaillées, susceptibles d’expliquer un phénomène. • Accepter cette variété interprétative comme une source de nouvelles hypothèses. Présenter les résultats non comme des certitudes, mais plutôt comme des propositions qu’on soumet à la discussion scientifique. • Utiliser les mesures d’association et les tests de signification pour établir ou non la concomitance. Recenser les cas qui se plient à la causalité, mais aussi les exceptions ou les anomalies qui peuvent être à l’origine de nouvelles investigations. Nous y reviendrons aux chapitres 7 et 8. 8. Max Weber dans Économie et société écrit ainsi : « Seules les constructions rationnelles d’une activité significative compréhensible constituent des types sociologiques du devenir réel que l’on peut observer dans la réalité au moins avec une certaine approximation », tome 1, p. 39. Aristote avait d’ailleurs écrit : « nous ne croyons connaître rien avant d’en avoir saisi chaque fois le pourquoi », cité dans Gagnon et Hébert, En quête de science : introduction à l’épistémologie. Montréal, Fides, 2000. 8 STATISTIQUES EN SCIENCES HUMAINES AVEC R Enfin, si les outils, causalités ou paradigmes généralement reconnus paraissent désuets ou non valides, on comprendra qu’il faut innover. Ces innovations sont cependant précédées d’une analyse critique des interprétations en vigueur. 1.4 UN PREMIER EXEMPLE Travaillons sur un petit exemple pour mieux illustrer ces considérations. Posons une question de recherche : le vote est-il dépendant du revenu des électeurs ? Cette recherche, si elle était vraiment menée, serait pertinente parce qu’on considérerait que les recherches menées jusque-là sont, en partie ou en totalité, contradictoires, obsolètes ou incomplètes. Elles présenteraient des lacunes analytiques que la nouvelle recherche tentera de pallier9. C’est le préalable à tout effort scientifique additionnel. Généralement, quand on entreprend une pareille démarche, c’est aussi parce qu’on a en tête une réponse provisoire, appelée bien sûre hypothèse. Implicitement ou explicitement, cette hypothèse s’oppose à une autre qu’on appelle l’hypothèse nulle. Bien que généralement seule la première soit formulée, le travail statistique est fondé sur les deux10. Et d’une manière orthodoxe, on doit même poser l’hypothèse nulle comme première. Voilà pourquoi H1, ou celle du chercheur, est définie comme l’hypothèse alternative à… l’hypothèse nulle, H0. H1 : les pauvres votent plus pour la gauche que les riches. H0 : les pauvres et les riches ne votent pas dans des proportions différentes pour la droite et la gauche. Dit autrement : le revenu n’est pour rien dans le vote. Le rapport entre le revenu et le vote répond assez bien aux critères déjà énumérés. Il est manifeste que le revenu d’un individu précède le choix électoral ; il y a donc antériorité de la cause présumée sur l’effet. Il est ensuite possible d’établir un lien intelligible : les pauvres votent généralement à gauche parce que cette famille politique met de l’avant des programmes sociaux et une fiscalité progressive, du moins plus que la droite. Quant à la concomitance, c’est ce qu’on tentera d’établir en analysant les résultats. 9. La revue de la littérature ou l’état de la question au début d’une recherche vise à repérer ces lacunes et à justifier la nouvelle recherche. 10. Généralement, une question de recherche a pleinement son sens si les deux hypothèses – l’alternative et la nulle – sont crédibles ou du moins vraisemblables. Si l’hypothèse nulle n’a aucun sens a priori ou n’est partagée par personne, c’est peut-être que vous envisagez d’enfoncer une porte ouverte. L’hypothèse alternative doit alors généralement être spécifiée. CHAPITRE 1 – COMPRENDRE L’UTILITÉ DES MÉTHODES QUANTITATIVES 9 Pour corroborer quantitativement cette hypothèse, on doit traduire les concepts (gauche/droite, pauvre/riche) de l’hypothèse en des mesures, par exemple des questions de sondage qui concrétiseront ce qu’on cherche à vérifier. Le questionnaire en mains, on ira ensuite interroger un nombre donné de personnes qui constitueront notre échantillon. Dans le vocabulaire de la recherche quantitative, le revenu et le vote sont des variables11. En simplifiant à l’extrême, la première variable peut prendre deux valeurs : riche ou pauvre, et la seconde variable peut prendre deux valeurs : gauche ou droite. Outre de varier, on demande à une variable d’avoir des valeurs exclusives12 et exhaustives13. À propos de ce processus de classification, le sociologue français, Raymond Boudon écrivait : Cette désignation ne fait que donner un autre nom à l’opération usuelle par laquelle nous sommes amenés, dans la vie quotidienne comme dans le travail scientifique, à subsumer une multitude de caractères particuliers sous un petit nombre de concepts généraux14. On sait pratiquement que ces deux variables n’agissent pas isolément. Beaucoup d’autres variables contribuent à déterminer le vote : le genre de la personne, ses origines, sa profession, sa scolarité, ses valeurs, etc. À la limite, une série infinie de variables jouent un rôle. En ne travaillant empiriquement que le revenu et le vote, on procède donc à un découpage analytique, généralement accepté dans la mesure où il est explicité. Quand on collige systématiquement les informations sur plusieurs individus, on obtient alors un ensemble de données brutes, appelé base de données. Pour une population visée, l’électorat français par exemple, on peut souhaiter obtenir une base exhaustive : le vote de chacun et le revenu de chacun ! Cela est cependant impossible, à la fois physiquement et légalement. On procède alors à un échantillonnage aléatoire en vue d’obtenir une série d’observations représentatives de la population en interrogeant les électeurs à la sortie des bureaux de vote. 11. Bien que cela ne soit pas au cœur de notre propos, il convient d’ajouter les précisions suivantes. On distingue généralement le concept, la variable et l’indicateur. Le premier est abstrait, le dernier est concret. La variable est à mi-chemin. Un même concept, celui de revenu par exemple, peut être associé à plusieurs indicateurs. Dans un sondage d’opinion, le libellé des questions n’est pas sans effet sur les réponses. Chaque question est un indicateur. Sur ces questions, il faut consulter le chapitre de Claire Durand et d’André Blais, « La mesure », dans Benoît Gauthier Recherche sociale, de la problématique à la collecte des données, op. cit. 12. On ne doit pas pouvoir attribuer deux valeurs d’une variable à une même observation. 13. Toutes les observations doivent pouvoir être placées dans l’une ou l’autre des catégories ou valeurs. Pour être conforme au critère d’exhaustivité, il faudrait minimalement ajouter : « ne pas voter ». 14. Raymond Boudon, L’analyse mathématique des faits sociaux, Paris, Plon, 1967, p. 12. 10 STATISTIQUES EN SCIENCES HUMAINES AVEC R Regardez les résultats suivants. La base de données compte dix observations et deux variables ; on dira qu’elle est de dix par trois, en considérant la colonne des observations. Base Évaluation Observations Variable revenu Variable vote Concordance Personne1 Pauvre Gauche Oui Personne2 Pauvre Droite Non Personne3 Riche Droite Oui Personne4 Riche Droite Oui Personne5 Pauvre Gauche Oui Personne6 Riche Gauche Non Personne7 Pauvre Gauche Oui Personne8 Riche Droite Oui Personne9 Riche Droite Oui Personne10 Pauvre Gauche Oui Pour chacune des observations, on peut se demander s’il y a concordance entre les valeurs de l’observation et H1. La réponse est positive dans huit cas sur dix. Malgré la simplicité de l’exemple, le résultat est assez typique : l’hypothèse est corroborée dans plusieurs cas, mais pas pour tous. Quatre des cinq riches ont voté à droite et quatre des cinq pauvres ont voté à gauche. La question qui surgit est celle-ci : les deux exceptions suffisentelles à invalider l’hypothèse et à donner raison à l’hypothèse nulle ? C’est précisément là que les méthodes quantitatives fournissent des mesures et des tests qui permettent de trancher d’un côté ou de l’autre. 1.5 L’UNITÉ D’ANALYSE Dans notre exemple, chaque électeur interrogé est considéré comme une observation. On dit alors que l’unité d’analyse est une personne. Si nous devions travailler avec toute la population française, la base de données compterait donc des millions de lignes. Pour diagnostiquer le même phénomène, il serait aussi possible de travailler avec des agrégats ou environnements, par exemple le revenu et le vote pour chaque région de France, chaque département ou chaque commune. « L’analyse écologique consiste à mettre en relation entre elles des données caractérisant un collectif territorial – par opposition à des CHAPITRE 1 – COMPRENDRE L’UTILITÉ DES MÉTHODES QUANTITATIVES 11 données caractérisant des individus15. » En travaillant ainsi, la base de données ne compterait que 27 observations dans le premier cas, 100 observations dans le deuxième et quelque 37 000 si l’unité d’analyse était la commune. Canada Données agrégées Données désagrégées France Provinces Régions Régions administratives Départements Municipalités Communes Individus Individus Travailler avec des agrégats est souvent plus facile. Les données sont aisément disponibles et il n’y a pas de problème de confidentialité, l’anonymat étant préservé par l’agrégation. On peut par exemple vérifier si les régions affichant un revenu plus bas votent plus à gauche. Ce que plusieurs appellent l’analyse écologique16 présente cependant une difficulté : lors d’une élection, les régions ne votent pas, ce sont les individus des régions qui votent. On opère alors un glissement : si une région est plus à gauche qu’une autre et qu’elle compte un plus grand nombre de pauvres, et si une autre région est plus à droite et compte un plus grand nombre de riches, on en déduira que les individus pauvres ont plutôt voté à gauche et les individus riches à droite. Or, les seules informations dont on dispose sont le nombre de gens riches/pauvres pour chaque agrégat, de même que le nombre de votes gauche/droite, ou encore le revenu médian et les pourcentages de vote de chaque région ; au sens strict, on ne sait rien du vote individuel. En fait, sur la base d’une analyse de ce type, on présume un comportement individuel ; on fait de l’« inférence écologique ». Cette présomption fondamentale n’invalide pas ce type d’analyse. La sociologie électorale, aux États-Unis comme en France, s’est développée ainsi. L’analyse écologique est encore très présente en sciences sociales. Il faut cependant être attentif à ces risques qu’on assimile à des paradoxes. Et pour y faire face, il faut s’appuyer sur des analyses – quantitatives, qualitatives – menées sur des individus qui corroborent le lien causal entre la classe et le vote. 15. Congrès de l’Association française de science politique 2009 : Joël Gombin, « Analyse écologique, modèles multi niveaux et sociologie électorale : l’exemple des votes pour le Front national ». Site : http://halshs.archives-ouvertes.fr/docs/00/42/20/81/PDF/ST513Gombin.pdf. 16. On associe l’École de Chicago, mais aussi les travaux de Siegfried à cette approche. Un article classique de ce type d’analyse : Mattei Dogan, « Le vote ouvrier en France : analyse écologique des élections de 1962 », Revue française de sociologie, 1965, vol. 6, no 6-4, p. 435-471. 12 STATISTIQUES EN SCIENCES HUMAINES AVEC R 1.6 LA NATURE DES VARIABLES Pour boucler notre tour de piste initial, examinons les principaux types de variables. Quantitatives Qualitatives Variables Valeurs exhaustives et exclusives Existence d’une Connaissance hiérarchie de ce qui sépare les valeurs Zéro a une signification précise Nominale OUI NON NON NON Ordinale OUI OUI NON NON D’intervalle OUI OUI OUI NON De rapport OUI OUI OUI OUI • À lire les caractéristiques de chaque type de variable, on devine que le sexe des personnes, par exemple, est une variable nominale puisqu’elle ne comporte pas de hiérarchie. Il en va de même pour l’intention de vote des électeurs, de leur lieu de naissance ou de leur religion. • Le niveau d’appui à un énoncé dans un sondage (tout à fait d’accord, plutôt d’accord, etc.) est par contre un exemple de variable ordinale. Il en va de même pour les niveaux de scolarité et certaines échelles professionnelles. • Pour la troisième, l’échelle d’intervalle, on donne souvent comme exemple les années : la mesure de l’intervalle est claire, mais on ne pourrait faire des moyennes sur les années elles-mêmes. Aussi, on ne peut dire que l’année 2000 est deux fois plus récente que l’année 1000 du fait que le zéro ne signifie pas une absence, mais qu’il relève d’une convention. • Enfin, pour la quatrième, celle de rapport, on donne comme exemple les revenus ou l’âge. Le zéro est alors associé à l’absence. On sait par exemple que 2000 $ est un montant deux fois supérieur à 1000 $, ou qu’une femme de 40 ans a deux fois l’âge d’une autre de 20 ans. Ce dernier type de variable est heuristiquement le plus intéressant, du moins dans la recherche quantitative puisqu’on peut faire des calculs sur de telles distributions. CHAPITRE 1 – COMPRENDRE L’UTILITÉ DES MÉTHODES QUANTITATIVES 13 Si cette typologie semble très étanche, la pratique de la recherche nécessite des précisions : en fait, un même phénomène peut être traité selon des échelles très différentes. Reprenons notre exemple. En ayant deux catégories de revenus – riche et pauvre –, on se trouve manifestement avec une variable qualitative. Si les revenus étaient fournis en dollars ou en euros, nous aurions une variable quantitative de rapport qui nous permettrait de comparer quantitativement le revenu des électeurs de gauche avec le revenu de ceux de droite. On obtiendrait ainsi des mesures de tendance centrale. On pourrait aussi calculer des mesures de dispersion au sein de chacun des deux groupes, grâce à l’écart type par exemple. Enfin, à défaut d’une information aussi précise – souvent gênante ou intimidante pour les répondants –, on aurait pu proposer quatre ou cinq tranches de revenu et demander aux répondants à laquelle ils associent leur propre revenu. On aurait alors une échelle ordinale, déjà beaucoup plus intéressante que riche / pauvre, mais moins précise que l’échelle avec des valeurs numériques. Le même phénomène peut donc être traduit dans trois échelles différentes. Il faut aussi être attentif à l’unité d’analyse. Si nos observations sont des agrégats – des pays, des provinces, des régions ou des municipalités, par exemple –, le revenu moyen et le revenu médian seraient évidemment autant de variables quantitatives. L’intention de vote pour un parti ou pour l’autre est, au départ, une variable nominale. Par contre, si l’on devait classer les partis selon la famille politique –, gauche, centre, droite –, on obtiendrait une variable ordinale. Et si nos observations étaient des agrégats, tout pourrait être configuré autrement : on pourrait avoir une variable qui correspond aux pourcentages de vote pour le Parti X dans chacune des circonscriptions électorales. Cette distribution en ferait évidemment une variable quantitative de rapport. À la limite, dès qu’il s’agit d’agrégats, on se trouve le plus souvent à travailler avec des données quantitatives puisque tout attribut, même nominal, se traduit en un pourcentage d’individus de l’agrégat qui possèdent cet attribut : pourcentage d’hommes dans l’industrie automobile, pourcentage de femmes chez les plus de 70 ans, etc. On devine enfin que l’on peut parfois faire le chemin inverse. En choisissant des seuils, toutes les variables quantitatives peuvent être ramenées à des variables nominales ou ordinales faites de catégories ou modalités, par exemple riche/pauvre. L’avantage d’une donnée quantitative est cependant déterminant : en ayant au départ des informations plus précises, le chercheur garde la liberté de faire les regroupements, en deux, quatre ou cinq catégories, selon les besoins de la recherche, ou encore de les conserver intactes. L’inverse est impossible. Comme nous le verrons plus tard, avec les variables quantitatives, il existe un plus grand nombre d’outils, et surtout des outils plus sophistiqués. Cela incite parfois même les chercheurs à codifier numériquement des 14 STATISTIQUES EN SCIENCES HUMAINES AVEC R variables ordinales. Par exemple, 4 pour « tout à fait d’accord », 3 pour « plutôt d’accord », 2, pour « plutôt en désaccord », 1 pour « tout à fait en désaccord ». On peut alors utiliser les avantages de la quantification lors de l’analyse des données, mais on présume – une fois de plus ! – que, dans la tête des répondants, l’intervalle entre les choix proposés est identique, ce qui n’est pas nécessairement le cas. Pour bénéficier des mêmes possibilités, on va aussi transformer une variable nominale en une variable binaire sous la forme suivante : 1 pour homme, et 0 pour femme. Ou encore : 1 « a voté », 0 « n’a pas voté ». Ce type de variable est généralement appelé dichotomique, par opposition à polytomique17. En somme, le type de variable utilisé dépend de trois aspects : 1) la nature du phénomène étudié, 2) l’unité d’analyse et 3) les regroupements ou quantifications qu’on fait ou non. Dans toutes les situations, pour choisir les données les plus appropriées et décider de les regrouper ou non, de quantifier ou non, il faut se référer à l’hypothèse et à la littérature sur la question. Enfin, pour plus d’assurance, il sera préférable d’utiliser des données reconnues par la communauté scientifique. Cinq préférences sur la collecte de données pour une analyse quantitative • On doit préférer travailler avec un grand nombre d’observations plutôt qu’avec un petit nombre. • On doit préférer travailler avec un échantillon aléatoire, ou quasi aléatoire, plutôt qu’avec un échantillon qui n’a rien d’aléatoire. • On doit préférer travailler avec des variables quantitatives plutôt qu’avec des variables qualitatives. • On doit préférer travailler avec des données standardisées ou reconnues qu’avec des données qui ne le sont pas. • On doit préférer travailler avec des données désagrégées qu’avec des données agrégées. Si ces préférences doivent nous servir de repères, il faut comprendre que la recherche est pleine de contraintes. Le temps, les ressources et la disponibilité des informations obligent à des aménagements. Le cadre opératoire d’une recherche est souvent très différent du cadre idéal. Les données trouvées recoupent parfois imparfaitement ce qu’on cherche. Il faut souvent 17. Une grande partie de la confusion vient du fait qu’on donne souvent d’emblée des valeurs numériques à des valeurs de variables ordinales ou nominales. Il faut alors se référer au Codebook – ou livre des codes – d’une enquête pour savoir la signification des chiffres utilisés. CHAPITRE 1 – COMPRENDRE L’UTILITÉ DES MÉTHODES QUANTITATIVES 15 se rabattre sur des données agrégées ou des échantillons limités. On doit enfin circonscrire l’objet de recherche dans le temps et l’espace. L’attitude responsable sur le plan scientifique consiste à rendre transparents les choix qu’on a dû faire ici et là. Il faut aussi se rappeler que de très bonnes recherches, contributives à l’avancement de la connaissance, ont été menées avec des échantillons restreints, n’ayant d’ailleurs rien d’aléatoires18. Plus encore, il est rare qu’une recherche ne prête pas flanc à la critique, d’une manière ou d’une autre, même les plus sophistiquées. Au total, quand on travaille avec des données, il n’y a pas d’assurance parfaite. L’inexactitude ne doit cependant pas devenir un frein à la recherche ; elle constitue plutôt un défi. La sociologue Claire Durand et le politologue André Blais présentent l’ensemble de l’opération comme un processus de traduction : Cette construction consiste en un ensemble d’opérations qui permettent de traduire un concept, exprimé dans un langage abstrait dans le langage de l’observation. Cette traduction, qui n’est jamais tout à fait satisfaisante, procède par approximation. Elle vise à classifier des objets à l’aide d’un certain nombre d’opérations effectuées à partir de un ou plusieurs instruments de mise en forme de l’information. Pour que la traduction soit la plus adéquate possible, il importe de faire d’abord preuve d’imagination de façon à considérer l’éventail des possibles, et ensuite de rigueur, de façon à écarter les indicateurs qui présentent de trop grandes lacunes19. Cela étant dit, il ne fait aucun doute qu’aujourd’hui l’accès aux données est beaucoup plus aisé qu’il y a vingt ou trente ans. Il est aussi beaucoup plus facile de les récupérer et de les traiter dans un chiffrier puis dans R. En évaluant les caractéristiques des objets que les sciences sociales et humaines doivent étudier, le principe de modestie s’impose comme un dénominateur : on ne pourra jamais tout décrire, tout mesurer et tout expliquer. De la collecte des données jusqu’à l’interprétation des résultats, on retrouve des incertitudes, des lacunes et des questions sans réponse. Pour reprendre la métaphore de Husserl, ou pourrait dire ceci : même si l’on doit impérativement – et peut-être plus qu’ailleurs – tourner et retourner le cube dans tous les sens, notamment avec les variables et les indicateurs, puis trianguler l’information sur la base de plusieurs méthodes, une face au moins restera toujours inaccessible ! Gaston Bachelard (18841962), philosophe français des sciences, écrivait dans son ouvrage La formation de l’esprit scientifique : 18. On pense ici en particulier aux travaux du psychologue Jean Piaget, notamment ceux qui ont été réalisés avant la Deuxième Guerre mondiale. 19. Claire Durand et André Blais, « La mesure », dans Gauthier, op. cit., p. 249. 16 STATISTIQUES EN SCIENCES HUMAINES AVEC R La connaissance du réel est une lumière qui projette toujours quelque part des ombres. Elle n’est jamais immédiate et pleine. Les révélations du réel sont toujours récurrentes. Le réel n’est jamais « ce qu’on pourrait croire », mais il est toujours ce qu’on aurait dû penser20. Et en 2006, presque cent ans plus tard, le mathématicien français Jean-Paul Benzécri, dressant un bilan de sa carrière et de ses contributions, notamment du côté de l’analyse factorielle, écrivait : Il faut que le statisticien, le géomètre, le sociologue soient modestes ! En cherchant ce qu’on a toujours dû chercher, chaque génération ne peut avoir fait plus que sa part : la question subsiste21. Dans cette perspective, l’ambition d’une recherche – rapport, mémoire, article ou monographie – n’est pas de tout expliquer, mais de contribuer à l’avancement des connaissances. Et c’est dans l’esprit d’une récurrence sans fin que le lecteur doit s’outiller sur le plan quantitatif… sans s’imaginer que les chiffres donnent réponse à tout. 20. Gaston Bachelard, La formation de l’esprit scientifique, Paris, Vrin, 1970, p. 14. 21. Jean-Paul Benzécri, « L’analyse des données, histoire, bilan projets, […] perspective ». Conférence Jean-Pierre Fénelon, Paris, 4 octobre 2006. CHAPITRE 2 Découvrir les rudiments de R « Si les spécialistes des sciences sociales s’efforcent d’introduire le maximum de quantification et de mathématiques dans leurs disciplines respectives, ce n’est pas pour sacrifier à une mode, comme le pensent bon nombre d’ignorants. C’est parce que l’introduction des mathématique dans une science lui donne des instruments d’analyse dont l’efficacité est sans commune mesure avec les procédés de comparaison classiques1. » Maurice Duverger (1917-), politologue français C omment procéder opérationnellement ? Il existe plusieurs logiciels pour le traitement statistique des données. Les plus connus, et longtemps les plus utilisés, étaient SPSS, SAS et STATA. Depuis quelques années, R émerge avec force, entrant en concurrence avec les autres2. La concurrence entre ces géants a même fait l’objet d’un article du New York Times dont le titre est évocateur : Data Analysts Captivated by R’s Power3. 1. Maurice Duverger, Méthodes des sciences sociales, Paris, PUF, Thémis, 1964, 501 pages, p. 400. 2.http://r4stats.com/popularity. 3. New York Times, 6 janvier 2009. 18 STATISTIQUES EN SCIENCES HUMAINES AVEC R 2.1 AVANTAGES ET DÉSAVANTAGES DE R Les logiciels statistiques sont évidemment tous fondés sur les mêmes algorithmes et produisent les mêmes résultats sur le plan mathématique4. Une analyse comparative indique cependant qu’ils présentent des différences importantes. En fait, ils se distinguent et rivalisent sur plusieurs plans : ergonomie, vitesse, rendu graphique, variété des outils ou même abondance d’une littérature afférente. Le degré d’utilisation et de diffusion auprès de certaines communautés disciplinaires varie également. Cinq raisons pour travailler avec R • Il est disponible gratuitement, ce qui n’est pas insignifiant pour les étudiants ! • Il est accessible sur les principales plateformes. • Il génère des graphiques de très haute qualité immédiatement dispo- nibles en des formats multiples et récupérables pour le traitement de texte, pour des logiciels de présentation, mais aussi pour des publications professionnelles. • Il est appuyé depuis plusieurs années par une communauté scientifique qui enrichit R de multiples librairies ou packages. • Il s’agit enfin d’un logiciel ouvert, nullement associé à une entre- prise commerciale ; sa continuité n’est donc pas extérieure à la communauté scientifique, mais endogène à celle-ci. R n’est pourtant pas sans difficulté. Premièrement, sa pauvre convivialité. Au départ, R rebute ! La courbe d’apprentissage est abrupte. De par l’utilisation d’une fenêtre de console et l’entrée manuelle de commandes, R peut même sembler décourageant car il rappelle les fenêtres DOS d’autrefois, remplies de commandes d’une syntaxe à première vue énigmatique. Pour décrire R, un étudiant, bûchant sur son travail lors d’un laboratoire, a utilisé un oxymore très juste : « simple, mais capricieux ». R a indéniablement quelque chose de rudimentaire, presque d’élémentaire, qui rappelle l’arithmétique, mais son langage est aussi truffé de détails qui exigent, au départ du moins, une certaine persévérance. La deuxième difficulté de R est l’envers de l’une de ses forces. Créé au début des années 1990 par Robert Gentleman et Ross Ihaka à l’Université d’Auckland en Nouvelle-Zélande, le projet est devenu un logiciel libre en 1995. Aujourd’hui, si l’équipe de base – Core team – veille à l’essentiel, il n’en 4. Avec R, on notera que le degré de précision peut varier selon les fonctions, du moins par défaut. Pour uniformiser le tout, on utilisera la commande options (digits=4). CHAPITRE 2 – DÉCOUVRIR LES RUDIMENTS DE R 19 reste pas moins que le développement a un caractère éclectique, voire anarchique. Des milliers packages complémentaires qui couvrent des procédures de recherche spécialisées se sont ajoutés au module de base. Ils ont été développés par des chercheurs du monde entier, dans un grand nombre de disciplines différentes. Cette créativité de la communauté R a une conséquence malheureuse, du moins pour les débutants : les procédures, les options et les arguments sont parfois légèrement différents d’une fonction à l’autre, ce qui complique l’apprentissage. 2.2 L’INSTALLATION DE R Généralement, l’installation de R ne pose pas de problème. R n’est pas un logiciel qui prend beaucoup de place sur l’ordinateur ; il ne demande pas beaucoup à ses processeurs et à sa mémoire. Pour l’installer, suivez les étapes : • connectez-vous sur le site de R à l’adresse suivante : http://www.rproject.org/ ; • puis, retrouvez la section « Download » et cliquez sur CRAN ; • là, vous choisissez votre site miroir, situé à proximité ; • normalement, vous devriez vous trouver sur une page qui vous permet de télécharger R pour les différents systèmes d’exploitation. Faites votre choix ; • une fois R récupéré, son installation ne pose aucun problème. Quand vous ouvrez R, une console apparaît et le signe (>) vous invite à commencer votre session de travail. On peut entrer des commandes directement à cet endroit, mais une pratique plus efficace consiste à ouvrir un fichier script, ou document sur Mac, et à se doter d’un espace de travail avec deux fenêtres. 20 STATISTIQUES EN SCIENCES HUMAINES AVEC R Figure 2 Comment faire ? Quand on ouvre R, seule la fenêtre du haut apparaît, et ce au beau milieu de votre écran. Pour démarrer un fichier syntaxe, allez dans Fichier (1) et cliquez sur Nouveau script sur Windows ou Nouveau document sur Mac. Nous vous suggérons de disposer les deux fenêtres5 comme nous l’avons fait : la console en haut et le fichier de commandes en bas. Cette ergonomie facilite le travail. À l’occasion, une troisième fenêtre apparaîtra, celle des graphiques. L’onglet Édition (2) permet de copier-coller ou de rechercher des éléments. L’onglet Packages et données (3) sera très utile pour importer de nouveaux packages. Quant à l’onglet Fenêtres (4), il facilite la navigation et vous permet de retrouver la fenêtre des résultats graphiques. Sur Mac, les fenêtres graphiques sont nommées Quartz, alors que sur Windows elles sont nommées Graphics : Device. Pour activer une ligne de commande particulière, ou pour les activer toutes, il suffira de les sélectionner dans votre fichier source et de les 5. On peut aussi utiliser l’environnement de RStudio, qui a une ergonomie analogue à celle qui est proposée. Ce logiciel peut plaire à certains. Les procédures de traitement sont cependant fondamentalement identiques à celles qui sont présentées dans cet ouvrage. CHAPITRE 2 – DÉCOUVRIR LES RUDIMENTS DE R 21 exécuter6. R traitera aussitôt les lignes en question et le résultat apparaîtra dans la fenêtre supérieure. Le traitement est donc simple, malgré les apparences. En procédant ainsi, vous pourrez bien voir toute votre démarche, faire des changements au besoin et sauvegarder votre fichier source aisément. 2.3 LES PREMIÈRES COMMANDES Travaillons avec un exemple. Reprenons le dossier du vote selon le revenu. Les données ont été au départ colligées dans un chiffrier électronique selon une méthode qui sera toujours la même. • Chaque colonne correspond à une variable, et chaque ligne correspond à une observation. • La première ligne a un usage particulier ; on s’en sert pour placer le nom des variables. • La matrice doit être seule dans le fichier, sans note, sans ajout, sans titre. Une fois le fichier bâti, il a été sauvegardé dans le format csv, qui signifie comma-separated values. Il s’agit d’un format reconnu, ouvert et valable sous toutes les plateformes. Il permet de stocker des données tabulaires sous forme de valeurs séparées par des points-virgules dans un système d’exploitation en français. Format du chiffrier Format CSV observations;revenu;vote Personne1;Pauvre;Gauche Personne2;Pauvre;Droite Personne3;Riche;Droite Personne4;Riche;Droite Personne5;Pauvre;Gauche Personne6;Riche;Gauche Personne7;Pauvre;Gauche Personne8;Riche;Droite Personne9;Riche;Droite Personne10;Pauvre;Gauche 6. Sur Mac et Windows, la disposition n’est pas identique. Sur un Mac, l’exécution de lignes sélectionnées se fait par cmd+Retour. Sur un PC, il faut utiliser la troisième icône, tout en haut, « exécuter la ligne ou la sélection ».