Cours Complet avec exercices corrigé.
Transcription
Cours Complet avec exercices corrigé.
Cours d’introduction à l’analyse des données en sociologie Dominique BEYNIER Janvier 2013 2 Chapitre 1 Préambule épistémologique La volonté du Politique, tant de mesurer l’étendue du territoire sur lequel s’exerce son pouvoir que de dénombrer la population qui l’habite, n’est pas une préoccupation récente ; on peut même la considérer comme concomitante de des débuts de notre civilisation. 1 Comme les textes bibliques l’attestent 2 le dénombrement et la comptabilité des richesses font que les liens qu’entretiennent le Politique et le Savant ne sont pas nouveaux. Les liens étranges qu’entretiennent hommes politiques et sondeurs en sont une nouvelle forme. Leurs formes et leurs finalités ont évolué, mais la punition de David a marqué la civilisation occidentale qui en a gardé le souvenir longtemps : " Au Moyen Age chrétien, Saint Ambroise et Saint Augustin condamneront le péché d’orgueil commis par David " 3 . En France il faut attendre la fin du XVIIIème siècle et la loi du 22 juillet 1781 pour que soit admise l’idée d’un recensement général de la population qui substitue aux techniques arithmétiques celle du dénombrement par tête 4 . L’ancienneté et la permanence de liens 5 entre le Savant et le Politique d’une part, le dénombrement ou la description des populations et le Politique d’autre part, ne sont sans doute ni la marque qu’ils sont inévitables, ni la preuve de leur innocuité sur le statut de toute démarche scientifique visant à mieux connaître la société. Nombre de découvertes scientifiques ont vu leur diffusion interdite ou contrariée par le Politique. Par exemple au Moyen Age la diffusion des connaissances sur le fonctionnement du système solaire a été l’objet de nombreux interdits voire d’exécutions comme celle de Giordano Bruno le 6 Février de l’an de grâce 1600, torturé et brûlé vif, par l’inquisition catholique, à Rome, sur le Campo dei Fiori, pour avoir refusé d’abjurer ses idées. Le politique qui tenait sa légitimité de Dieu et de son représentant sur terre le Pape n’avait que faire que la terre tourne autour du soleil ou l’inverse, si ce n’est que l’ordre social, dont un des piliers était l’ordre naturel des choses établies dans la Genèse se trouvait remis en cause par l’héliotropisme. Si l’ordre divin qui garantissait le vrai était remis en cause, l’ordre social qu’il garantissait pouvait être remis en cause, ses fondements 1. Dans la Bible, deuxième livre de Samuel on peut lire : "... Ira de Yatir. Garev le Ytrite. Uri le Yttite. Au total trente-sept. La colère du Seigneur s’enflamma encore contre les Israélites et il excita David contre eux " Va dénombre Israël et Juda. " Le roi dit à Joab chef de l’armée qui était avec lui : " Parcourez donc toutes les tribus d’Israël, de Dan à Béer-Shéva, et recensez le peuple, que j’en sache le nombre."..." 2. Les textes principaux sont Nombres (26,1 et 26,51) pour le recensement ordonné à Moïse dans le Sinaï, Samuel 2 (24,1-3 ; 24,9 ; 24,15) pour le recensement effectué par David qui entraîna la colère de Dieu et enfin pour le même recensement Chroniques (21-1,17). 3. HETCH (J.), 1987, L’idée de dénombrement jusqu’à la révolution, in Pour une histoire de la statistique, Insee, édition Economica, Paris, tome 1, p. 24. 4. HETCH (J.) op. cit. p. 70 5. HETCH (J.) op. cit. p. 21-81 3 n’étant plus assurés. Même si, à l’époque actuelle, le Politique se mêle rarement de limiter la diffusion des connaissances il lui arrive encore, au nom de la raison d’Etat, d’en retarder la publicité. Les ruptures et évolutions successives dans la constitution des sciences se marquent d’une autonomisation du discours scientifique au regard de ceux de la religion, de la morale et du pouvoir. Une des constantes du savoir scientifique est à lire dans l’apparition d’un sujet des sciences qui s’autonomise pour devenir le sujet même du discours scientifique. Le discours scientifique s’autorise de lui-même, de la mise en œuvre de méthodes et d’un ensemble de références paradigmatiques. En revanche, il ne s’autorise ni du Politique ni de la religion ni des modalités financières de sa production, ni même du savant qui le porte. A l’inverse, l’inutilité du discours scientifique ne fonde en rien sa scientificité, et a contrario, l’utilité apparente de ce dernier n’est en rien rédhibitoire quant à la scientificité d’une pratique. Pourtant certaines "bellesâmes" universitaires sont péremptoires sur cette question : "Dès lors qu’elles se sont laissées coloniser par l’État administratif, qu’elles ont cessé de croire au bien fondé de leurs propres questions, qu’elles se sont mises à répondre à la ’demande sociale’ d’être utiles, elles n’ont plus répondu à rien du tout et sont devenues inutiles." 6 . La quantification a partie liée avec le Politique ou à défaut les politiques publiques du fait de leur utilité, cela n’invalide pas le statut scientifique de la pratique des sociologues qui y participent, même si cette dernière répond ce faisant à la demande sociale. "Mais si la sociologie doit rester pure, elle doit se préoccuper de son application. Durkheim disait qu’elle ne vaudrait "pas une heure de peine" si elle n’avait pas d’utilité pratique..." 7 Le sociologue peut encore être utile à la politique d’une autre façon. Sans se mêler d’elle, ni aux politiciens, ni aux bureaux, il peut aider ceux-ci, par des enquêtes impartiales, par le simple enregistrement scientifique des faits, [...]" 8 . Rechercher l’origine de ce rapport ancien qui existe entre le Politique et le Savant, entre le politique et les statistiques est sans doute une démarche vaine qui n’a d’autre signification que de donner du sens et permettre de penser que cette collaboration a commencé à un moment de l’histoire sociale ou de l’histoire des idées. L’existence mythique de ce temps du début, permet de continuer cette activité statistique comme si elle perpétuait une pratique établie. 9 Pour autant les modalités de collaboration, trouvent difficilement dans l’histoire des formes analogues d’une époque à l’autre, de coopération entre la statistique et le Politique. L’Ined, l’Insee, même s’ils s’inscrivent dans le prolongement de ce qui se passait au XVIIème siècle ne recouvrent pas la même réalité du travail statistique que celle décrite par Liliane Viré : "D’autres encore ont tenté de donner à la statistique une origine tout à fait précise : l’enquête prescrite aux commissaires royaux de 1630 ou les premières enquêtes industrielles organisées en 1692, ou encore les initiatives officielles d’un Necker, d’un Turgot, voire d’un Colbert, et pourquoi pas d’un Sully faisant de la statistique sans le savoir." 10 Fixer 6. CAILLÉ (A.), (1993), La démission des clercs. La crise des sciences sociales et l’oubli du politique, édition de la Découverte, collection Armillaire, Paris, 1993, p. 21 7. MAUSS (M.), (1927), "Divisions et proportions des divisions de la sociologie", in l’Année Sociologique, nouvelle série, 2, (1924-1925), pp. 3-21, Melin 8. MAUSS (M.), (1927), op. cit., p. 77 9. "De commencement ; il n’y en aurait sans doute pas ; et au lieu d’être celui dont vient le discours, je serai plutôt au hasard de son déroulement, une mince lacune, le point de sa disparition possible", FOUCAULT (M.), 1970, L’ordre du discours. Leçon inaugurale prononcée au Collège de France le 2 novembre 1970, édition NRF Gallimard, Paris, 1971, pp. 7-8 10. VIRÉ (L.), (1980), "La statistique dans les départements belges. Eléments pour in critique ;" in La statistique en France à l’époque napoléonienne, journée d’étude, Paris 14 février 1980, Ehess, Centre Guillaume Jacquemyns Bruxelles. 4 1.1. Les formes de collaboration à l’aube du XIXème siècle l’origine au XVIIème siècle ou montrer l’existence de l’activité de dénombrement depuis la plus haute antiquité ne résout pas la question des liens entretenus entre le Politique et la statistique. Afin d’essayer de comprendre ces liens la mise en perspective se bornera à retracer ce qui s’est passé pendant la montée en puissance de la République et la mise en place progressive des structures administratives de l’éducation et de la recherche qui existent encore aujourd’hui même si elles sont très menacées par le libéralisme ambiant. Parmi toutes les collaborations entre le politique et les clercs certaines ont pris la forme de productions quantitatives voire plus récemment de statistiques. 1.1 Les formes de collaboration à l’aube du XIXème siècle En s’appuyant tant sur ses propres travaux de recherche qu’en s’appuyant sur ceux de JeanClaude Perrot, Stuart Woolf insiste sur l’intense activité statistique qui se développe en Europe entre 1770 et 1840 et dont il pense qu’elle jette les bases des recherches quantitatives ’modernes’ " 11 Il décrit la centralisation à l’œuvre à l’époque et l’organisation d’un bureau des statistiques dépendant directement du Ministère de l’intérieur dont les effectifs passent de 145 en 1792 à 235 en 1818. 12 . Hors de ce cadre strictement étatique, les débuts institutionnels de cette activité statistique peuvent être datés de 1803 avec la création à Paris de la Société de Statistique qui se propose six missions : – "topographie physique et médicale ; – métrologie statistique et histoire naturelle ; – population et services publics ; – agriculture et économie rurale ; – industrie, commerce et travaux publics ; – construction publique et beaux-arts." 13 Les statistiques élaborées par cette Société sont essentiellement descriptives : il s’agit de décrire comme le font les sciences de la nature de l’époque. Elles ne recourent pas aux probabilités et ne proposent aucune théorie. Comme le montre l’énumération des six missions, les statistiques se présentent comme universalistes et se différencient des démarches évaluatives qui ne portent que sur des recensements ponctuels de populations. Cette manière de faire des statistiques a très vite évolué et la description généraliste disparait au profit de la mesure. C’est pendant l’Empire que s’est transformée la conception des statistiques et que se sont mis en place les outils et les techniques de recollement des données. Stuart Woolf 14 et Liliane Viré 15 permettent de dégager pour le début du XIXème siècle les formes particulières de cette activité. La classification proposée par Liliane Viré ordonne le champ en trois catégories : les statistiques descriptives, les statistiques régulières, et les statistiques bilans. Cette classification que l’on retrouve dans la littérature produite par les historiens des statistiques tient au 11. WOOLF (S.), (1980), "Contribution à l’histoire des origines de la statistique : 1785-1815." in La statistique en France à l’époque napoléonienne, journée d’étude, Paris 14 février 1980, Ehess, Centre Guillaume Jacquemyns Bruxelles p. 46. 12. CHASSAGNE (S.), (1980), "Les bureaux centraux : Le personnel et les mécanismes administratifs." in La statistique en France à l’époque napoléonienne, journée d’étude, Paris 14 février 1980, Ehess, Centre Guillaume Jacquemyns Bruxelles p. 46. 13. VIRÉ (L.), (1980), op. cit. p. 18 14. WOOLF (S.), (1980), op. cit. pp. 50-58 15. VIRÉ (L.), op. cit. pp. 21-25 5 1.2. Politique et statistiques publiques mélange des critères de classification. Ils se réfèrent soit à des méthodes, soit à des périodicités, soit à un champ d’investigation ce qui rend les critères non exclusifs. En conséquence il est difficile, avec cette typologie, de produire un ordonnancement indiscutable de l’ensemble des productions statistiques de l’époque. Malgré tout cela donne un peu de lisibilité à la diversité des travaux produits. – Les statistiques descriptives sont en grande partie constituées par les mémoires des Préfets qui, dans leur forme, sont des textes décrivant la situation des départements ; sur des points particuliers elles font usage de tableaux ou d’états élaborés au niveau central qu’il s’agit de compléter dans les départements. Ces rapports préfectoraux reprennent dans l’ensemble les grandes catégories du travail statistique telles que les a définies la Société Statistique créée à Paris en 1803. Deux remarques, d’une part le terme de statistique tel qu’il est employé ici ne renvoie pas directement à la quantification et, d’autre part, l’uniformité des tableaux préparés au niveau central prépare la voie comparative de la sociologie dont Emile Durkheim a écrit à la fin du XIXème siècle : "On n’explique qu’en comparant. Une investigation scientifique ne peut donc arriver à sa fin que si elle porte sur des faits comparables et elle a d’autant plus de chances de réussir qu’elle est plus assurée d’avoir réuni tous ceux qui peuvent être utilement comparés." 16 – Les statistiques régulières se présentent sous la forme de tableaux statistiques ; elles sont les ancêtres des enquêtes effectuées à l’heure actuelle par les différentes administrations. Ces collectes sont diffusées de manière analogue dans tous les départements. – Les statistiques bilans apparaissent comme la catégorie la plus hétérogène quand à la forme des travaux réalisés et à leur manque d’uniformité d’un lieu à l’autre. Il s’agit d’études ponctuelles sur des faits sociaux symbolisés comme des problèmes. 1.2 Politique et statistiques publiques La grande majorité des textes produits à cette époque sont accompagnés [...] de mémoires ou de rapports qui situent les données les plus représentatives, la tendance globale et les conditions qui ont entouré l’enquête." 17 Les précautions prises dans ces travaux servent d’une part à préciser les traits saillants qui doivent être retenus dans la multiplicité des informations qu’ils colligent, et d’autre part, les contraintes de regard qui ont pesé sur le recueil des données. La motivation de ces mémoires annexées aux statistiques du XIXème siècle, si elle peut faire penser aux précautions méthodologiques dont au XXème et au début du XXIème siècle, les chercheurs en sciences sociales entourent leur démarche, est simplement de permettre aux politiques de comparer des choses qui soient comparables indépendamment des contextes différents de recueil des données ayant pu influer sur le résultat de la collecte. Les caractéristiques de ces collectes d’informations permettent de donner quitus à Stuart Woolf, qui voit dans ces travaux l’origine de la préoccupation quantitative actuelle. En revanche il est difficile, compte tenu de l’internalité étatique du mode de production des connaissances ainsi rassemblées, d’y voir les prémisses des recherches actuelles qu’elles soient l’œuvre de grands organismes de recherche ou de pratiques contractuelles. Pourtant, déjà à cette époque, ce travail de données à des fins de gouvernement pose assez 16. DURKHEIM (E.), (1894), Le suicide. Étude de sociologie., 6ème édition, édition Quadrige PUF, Paris, 1991, pp. 1-2 17. VIRÉ (L.), (1980), op. cit. p. 23 6 1.2. Politique et statistiques publiques clairement la difficulté à mesurer à travers des réponses l’ampleur des phénomènes sociaux ou plus simplement des niveaux de production. Denis Woronoff 18 , dans son travail réalisé sur les usines sidérurgiques du XIXème siècle montre les difficultés rencontrées pour élaborer ces recueils de données et les interpréter par la suite. Ce que décrit Denis Woronoff pourrait servir d’illustration à ce cours consacré à l’analyse des données pour attirer l’attention sur la complexité et les risques inhérents à toute construction d’un questionnaire. 19 A ses yeux d’historien, et compte tenu de ce que l’on sait aujourd’hui sur les techniques de recueil de données quant aux difficultés méthodologiques inhérentes à ces méthodes, il voit comme difficultés : l’intention qui a suscité l’élaboration du questionnaire, le destinataire, et la technique des questions qui comporte tout à la fois les libellés, l’ordre et le nombre de questions ainsi que les consignes permettant de donner les réponses sous des formes exploitables. Il est évident que ces questions de méthode sont celles de notre époque, donc d’un certain état de développement des sciences sociales et qu’elles n’étaient pas forcément celles du XIXème siècle. Liliane Viré montre que les questions que se posaient les politiques de cette époque n’étaient pas élaborées dans le paradigme méthodologique et scientifique dominant de notre siècle, mais dans un paradigme visant à l’efficacité et l’exploitabilité des enquêtes : "De toute façon, les critères imposés sont plus proches d’une exigence de conformité administrative que de rigueur scientifique." 20 Les critères de cette exigence administrative se traduisent par trois types d’incitation : l’uniformisation des documents, la rapidité dans le recueil des réponses, la vraisemblance des réponses. C’est essentiellement cette dernière incitation qui rend les recueils de données réalisés au XIXème siècle difficilement compatibles avec l’appréciation que nous portons, de nos jours, sur la scientificité. Comme le rapporte Liliane Viré le temps nécessaire pour répondre aux questionnaires étaient souvent trop long, et les informations données par les personnes interrogées peu sincères. En conséquence de cet état de chose, pour répondre à l’exigence de vraisemblance les clercs ont souvent été amenés à déduire. La déduction ou plutôt l’induction comme on la nommait à l’époque se substituait ainsi à l’observation des faits. On extrapolait ainsi les quantités d’un produit à partir de la fabrication d’autres objets. Par exemple la production de laine dans un département à partir du nombre de moutons dans le département, la production industrielle à partir du nombre d’ouvriers, la production annuelle à partir de productions mensuelles ou trimestrielles. En fait d’induction il s’agissait, la plus part du temps, d’appliquer des coefficients de passage, soit entre deux activités soit entre deux périodes sans que personne ne s’intéresse vraiment aux règles qui présidaient à leur élaboration. Cette manière de fonctionner même si elle évoque nos façons de faire apparaît très différente de celles que nous utilisons pour fabriquer ce type d’estimateur dans nos démarches de recherche. Les recherches des historiens qui travaillent sur ces données du XIXème siècle montrent que l’utilité de ces données recueillies de manière quantitative se limitait, d’une part à satisfaire les exigences de retour d’information au niveau central de l’administration de l’Etat, et d’autre part à les transmettre sous une forme numérique à des fins de comparaisons tant tempo18. WORONOFF (D.), 1980, "Les grilles d’enquêtes", in La statistique en France à l’époque napoléonienne. Journées d’études, Paris 14 février 1980, Ehess, Paris, Centre Guillaume Jacquemyns, Bruxelles, pp. 163-169 19. Bien qu’il semble anachronique d’utiliser le terme de questionnaire pour parler des recueils de données au début du XIXème siècle, comme D. Woronoff, nous le retenons pour qualifier, de façon générique, les documents de l’époque destinés au recollement des informations. A défaut d’être référés à une discipline scientifique, d’une part ils comportent une intention qui sous-tend et organise l’ensemble des questions, et d’autre part, la forme matérielle de celles-ci lues au travers de leur ordonnancement et de leur type de formulations employés évoque de manière assez précise ce qu’est à l’heure actuelle la forme du questionnaire. 20. VIRÉ (L.), op. cit. p. 34 7 1.3. Quelques développements récents relles qu’administrativo-géographiques. Il s’agit de recueillir de l’information et non pas de produire de la connaissance. Ainsi lorsqu’il s’agit de résoudre l’opposition entre les méthodes des topographistes et des algébristes à la tête de l’organisme chargé de collecter les mémoires des préfets on voit que le remplacement de A. de Ferrière (un topologiste) par E. Duvillard (un algébriste) puis ensuite l’éviction de ce dernier par Ch. Et. de Coquebert de Monbret (un administrateur) ne sont pas guidés par des considérations scientifiques. "Le gouvernement impérial se soucie peu des méthodes statistiques, il ne propose pas de construire une science mais de réunir quelques instruments pour l’action et croit y parvenir aux moindres frais [...] Coquebert de Monbret, esprit positif, ancien membre du conseil des poids et mesures et plus récemment directeur des douanes et péages sur le Rhin, vit hors des querelles épistémologiques tout en gérant de son mieux l’héritage de Chaptal." 21 . Cette absence de préoccupation scientifique est aussi décrite par Thimonir Markovich 22 qui explique la différence de qualité entre les statistiques françaises et anglaises au XVIIIème siècle par la différence d’autoritarisme des deux régimes : Une telle situation s’explique bien par les différences des régimes politiques entre les deux pays [...] Le cas des statistiques françaises et anglaises au XVIIIème siècle nous permet simplement de constater une liaison entre régime politique et organisation statistique 23 Les liens qui existent entre l’Etat et les organismes chargés d’élaborer les données statistiques permettant de décrire la France se sont affirmés et complexifiés tout au long du XIXème siècle et au début du XXème 24 . L’apparition de divers organismes ayant cette tâche pour mission peut laisser penser que l’élaboration des statistiques sur la Nation n’a pu se libérer du joug étatique mais, ce serait compter sans la montée en puissance d’une part de nouvelles formes de la scientificité et, d’autre part, du consensus social sur le fait que l’activité humaine se mesure à l’aune de la science. 1.3 Quelques développements récents A coté du développement de l’Insee 25 apparaissent pendant cette période, dans le paysage français de nombreux autres organismes de recherche dont la dotation tant en personnels qu’en moyens revient à l’Etat. 26 Pour autant ces organismes de recherche n’entretiennent pas avec l’Etat le même type de relations ; pour la plupart, dans le cadre des missions qui leur sont confiées, ils définissent par eux-mêmes leurs programmes de recherche et ils procèdent de manière interne, en fonction de ceux-ci et de leurs propres critères de scientificité, à l’évaluation des résultats obtenus. Personne ne doute de l’indépendance du CNRS par rapport à l’Etat, en revanche de temps à autre, en fonction des problèmes sociaux traités les résultats ou 21. PERROT (J.-C.), (1987), "La statistique régionale à l’époque de Napoléon. in Pour une histoire de la statistique, Insee, édition Economica, Paris, tome 1 p. 240 22. MARKOVICH (T.), (1987), "Statistiques industrielles et système politique. in Pour une histoire de la statistique, Insee, édition Economica, Paris, tome 1 pp. 317-326 23. MARKOVICH (T.), op. cit. p. 319, (souligné par l’auteur) 24. Indépendamment des textes que nous avons utilisés de manière plus précise de nombreuses communications à dimension historique sont présentées dans les 2 tomes de l’ouvrage Pour une histoire de la statistique Insee, édition Economica, Paris, (tome 1 : 593 p., tome 2 : 969 p.) ; ils permettent de mesurer comment s’est peu à peu structuré le champ des données utiles à la conduite de l’Etat. 25. Pour plus d’information sur l’évolution de l’Insee qui est une des formes institutionnelles prises par l’évolution des instances chargées de la mise en œuvre de l’élaboration des statistiques nationales on consultera : MOREAU (C.), PESKINE (B.), (1987), " Les statistiques de 1946 à 1985 : principaux faits", in Pour une histoire de la statistique Insee, édition Economica, Paris, tome 2, pp. 915-934 26. A l’Insee, se sont ajoutés : l’Ined, l’Inserm, le commissariat au plan, le Credoc, la sixième section de l’Ehess, le Cereq, plus récemment la Mire. 8 1.4. Commande sociale et scientificité indicateurs fournis par l’Insee sont contestés et leur objectivité mise en doute par telle ou telle partie de la classe politique ou des médias. L’Ined dont la création et le statut le rattache à un ministère a vu régulièrement au cours du temps son indice de fécondité contesté. En 1990 par exemple une polémique a débuté à la suite d’un article de presse paru dans le Nouvel Observateur sous le titre "Les mensonges du natalisme" et dans lequel Hervé Le Bras écrivait : "Dans aucun de ces rapports on ne trouve l’explication entre les deux indices par la hausse de l’âge à la maternité. Pis, comme la citation initiale le montre, la confusion est entretenue entre indice conjoncturel et renouvellement des générations. Incompétence ? On n’ose pas le penser. Manipulation ? " 27 . On le voit la polémique au-delà de la critique sur la pertinence d’utiliser un indice conjoncturel plutôt qu’un indice structurel 28 se double au mieux de soupçons sur l’existence de raisons extra-scientifiques et donc politiques quant au choix de privilégier un mode de calcul plutôt que l’autre, au pire d’une mise en cause de l’honnêteté scientifique de l’Ined. Ce raccourci historique nous a conduit des statistiques balbutiantes du début du XIXème siècle visant à décrire l’état de la société jusqu’à la mise en place des organismes d’Etat actuels qui procèdent au recollement et à la fabrication des données permettant de lire la réalité sociale, et s’accompagnent sur les dernières années de l’instauration de politiques contractuelles de recherche. Dans le même temps où se structurent les organismes de recherche dans les universités, sur le modèle de la VIème section de l’Ehess apparaissent dans le champ des sciences sociales, un certain nombre d’équipes, de laboratoires, de départements ou d’instituts qui s’inscrivent dans ce type de démarche. Ces diverses structures mettent en œuvre soit avec l’Etat ou ses services extérieurs et décentralisés, soit avec des collectivités territoriales, soit même avec des organismes associatifs ou privés des contrats de recherche destinés à produire pour ces organismes un ensemble de connaissances leur permettant de mettre en œuvre, d’infléchir, de modifier leur action. Cette mise en place de la recherche contractuelle s’est effectuée depuis les années 1950, elle s’est développée inégalement dans les universités. Au début elles étaient le résultat d’individualités et de jeunes équipes ; maintenant pour des raisons de rationalisation l’ensemble de la recherche s’inscrit dans des programmes ou des appels d’offre entourés d’une bureaucratie scientifique qui classe, contrôle légitime les objets de recherche puis évalue la production. La question de la liberté du chercheur dans la détermination des objets est beaucoup moins prégnante depuis la généralisation des procédures contractuelles. 1.4 Commande sociale et scientificité Pourtant la prégnance de la commande sociale est suffisamment importante aux yeux de Michel Amiot 29 pour qu’il propose une classification de la recherche en sociologie en deux catégories clivées sur le fait qu’elles sont ou non dépendantes d’un commanditaire. Dans le premier groupe les recherches sont dites "libres", dans le second elles sont dites "déterminées". "Dans le premier le chercheur définit, seul, les problèmes qu’il se pose, il prend en charge l’investigation de problèmes qui sont également définis par son commanditaire, à partir de considérations extra scientifiques" 30 . Plus que la hiérarchisation entre les deux types de recherche qu’il constitue 27. LE BRAS (H.), (1990), "Les mensonges du natalisme, in Le Nouvel Observateur, 18 mai 1990 28. Somme des naissances réduite versus descendance finale 29. AMIOT (M.), (1986), Contre l’Etat les sociologues : Eléments pour une histoire de la sociologie urbaine en France (1900-1980), édition de l’Ehess, Paris 30. AMIOT (M.), (1986), op. cit. p. 48 9 1.4. Commande sociale et scientificité c’est la question du libre arbitre absolu du chercheur dans la détermination des problèmes qu’il pose qu’il faut interroger car il s’agit là d’un coup de force épistémologique d’une rare audace. L’activité de recherche serait-elle la seule activité humaine autonome de toute contingence qui influerait sur la distribution des modalités de sa réalisation. Que l’on se place d’un point de vue cumulatif dans l’appréciation que l’on porte sur l’histoire des sciences, que l’on pense que les progrès se font par ruptures, par recompositions paradigmatiques, aucune de ces explications épistémologiques ne prétend que les chercheurs définissent seuls les problèmes qu’ils se posent. Nous nous contenterons de trois réfutations à cette assertion d’une possible liberté absolue du chercheur dans le choix de ses objets. La première trouve sa légitimité dans le point de vue développé par Gaston Bachelard avec le concept "d’obstacle épistémologique". 31 , une notion centrale dans l’analyse qu’il fait du progrès de la science dans La formation de l’esprit scientifique. La genèse des obstacles s’explique par les rapports imaginaires que le chercheur entretient avec sa pratique scientifique et sa propre histoire. L’épistémologie de Gaston Bachelard n’est pas sans connotation psychologique. Pour pouvoir tenir cette position d’un rapport imaginaire entre la pratique scientifique et la propre histoire du scientifique, il recourt à la libido du savant comme instance explicative ultime. Même si le recours à la libido du chercheur est une explication dont les fondements en sociologie paraissent mal assurés il n’en est pas moins vrai qu’une pratique scientifique où le chercheur définit seul ses questions, se trouve mise en question par l’hypothèse bachelardienne. Le recours à la libido du chercheur renouvelle dans le champ de l’activité scientifique de l’homme la blessure narcissique faite auparavant par Freud au sujet cartésien en le décentrant vers une zone qui échappe à sa conscience. La seconde réfutation possible d’un libre choix du chercheur peut s’étayer par les travaux de Georges Canguilhem. L’émergence du traitement des pathologies de la thyroïde, explique Canguilhem 32 semble s’inscrire dans une suite de hasards et de l’existence d’un génie découvreur : J.-F. Cointet, médecin genevois. Mais telle n’est point la réalité fait-il remarquer : la découverte de l’iode comme traitement est le résultat d’une rencontre entre deux préoccupations inscrites dans les différents processus sociaux et scientifiques du XIXème siècle. La première est la recherche d’une augmentation de la production de salpêtre par B. Courtois, salpêtrier de son état, qui souhaite obtenir cette substance en grande quantité à partir du varech comme matière première ; cette production s’accompagne d’une substance supplémentaire qui endommage les machines en les faisant rouiller. Devant cette situation il se renseigne auprès ce deux chimistes de l’époque (Clément et Desorme) pour obtenir une explication et le cas échéant une solution à ce problème. Devant ce qui pourrait apparaître comme une trouvaille placée sous le signe d’une coïncidence. Canguilhem s’empresse de préciser qu’il n’en n’est rien. L’industrie de l’époque est tout orientée vers la recherche de nouveaux processus de production. L’apparition de nouveaux produits ne peut pas être considérée comme fortuite, mais comme le résultat d’actions volontaires des hommes sur leur environnement. De plus l’intervention des deux chimistes et l’identification d’un nouveau produit n’est que la conséquence de l’orientation de la chimie de l’époque toute occupée à l’identification de nouveaux produits : "[...] en un certain sens la découverte de l’iode survient dans un contexte théorique et technique qui de toute façon l’eût appelée par d’autres voies." 33 A cette même époque nous dit G. Canguilhem, sur une trentaine d’années, dans ce qui peut être appelé le même contexte 31. BACHELARD (G.), (1934), La formation de l’esprit scientifique édition Vrin, Paris, 1965 32. CANGUILHEM (G.), (1958), "Pathologie et physiologie de la glande thyroïde au XIXème siècle", in Etudes d’histoire et de philosophie des sciences, édition Vrin, deuxième édition, Paris, 1970, pp. 274-294 33. CANGUILHEM (G.), op. cit. p. 283 10 1.4. Commande sociale et scientificité industriel et scientifique de nombreuses autres substances sont découvertes : la morphine, la strychnine, la quinine, l’alizarine, la codéine... De plus l’utilisation de l’iode à des fins thérapeutiques s’inscrit dans un développement de la médecine qui, à cette époque, devient ce que Claude Bernard appelle la médecine empirique. Cette médecine qui n’est pas encore la médecine expérimentale, ne conçoit pas encore les maladies comme un ensemble à décrire, à organiser et à hiérarchiser ; elle les appréhende par des actions contrôlées qui sont autant de tentatives pour influer sur le cours des maladies en vue de rétablir la santé. Cette conception pré-expérimentale du traitement des maladies se traduit dans les faits par la recherche de réactions du corps humain rationnellement contrôlables, suite à l’absorption de produits chimiques nouvellement identifiés :"[...] je l’essayais, (l’iode) avec infiniment de précautions, et je réussis. L’iode mêlé avec du sucre, offrit de grands inconvénients ; je la prescrivis en friction. Je crus m’apercevoir que c’était une préparation qui agissait sur certains estomac et alors le traitement devenait difficile. J’essayais l’hydriodate de soude et aussi celui de potasse iodurée ; j’eu plein succès. Une grande pratique m’avait fourni, pendant une année entière, un grand nombre et une variété infinie de cas..." 34 Au travers de cette exemple analysant la posture du chercheur face au développement de sa discipline la position de Georges Canghuilhem est on ne peut plus tranchée : l’apparition de connaissances scientifiques nouvelles ne s’explique ici que par rapport, d’une part, des pratiques mercantiles, celle de chimistes et de médecins par exemple, d’autre part, par l’état de développement tout à la fois d’une discipline (la médecine pré-expérimentale) et de la recherche scientifique dans un autre domaine (la chimie découvreuse et classificatrice) dans une forme de société donnée (Paris et la Suisse du milieu du XIXème siècle). La critique de la liberté du chercheur non contraint par des financements contractuels, qui pour Michel Amiot et l’alpha et l’oméga de la scientificité, peut être menée depuis d’autres lieux de l’épistémologie. Sans vouloir réfuter l’hypothèse d’une science qui se développerait de sa propre logique et de la liberté du chercheur il est possible modestement de faire bouger les lignes. Michel Foucault dans des écrits qui ont près de 40 ans et qui datent de quelques années avant qu’il ne soit nommé Professeur au Collège de France à la chaire d’épistémologie occupée avant lui par Gaston Bachelard et Georges Canguilhem prenait une position qui, en minorant la place des individus au profit de celle des structures, par anticipation s’opposait radicalement à la thèse de Michel Amiot 35 : "Les conditions pour qu’apparaissent un objet de discours, les conditions historiques pour qu’on puisse en dire ’quelque chose’ [...] sont nombreuses et lourdes. Ce qui veut dire qu’on ne peut pas parler à n’importe quelle époque de n’importe quoi ; il ne suffit pas d’ouvrir les yeux, de faire attention, ou de prendre conscience, pour que de nouveaux objets aussitôt s’illuminent [...] ". 36 Pour Michel Foulcault, l’objet d’investigation scientifique n’existe que par un substrat de relations, une structure ou encore un réseau qui se compose non seulement d’instances qui pour certaines sont sociales, d’autres économiques, certaines normatives mais aussi classificatoires. Ce réseau n’est pas pour autant l’objet, il ne participe pas de sa forme particulière, mais il est nécessaire pour que l’objet puisse apparaître. Ces substrats dont la liste n’est pas limitative ne sont donc pas l’objet mais ce qui lui permet d’exister. Il n’y a pas dans cette perspective de lien entre la constitution des objets et la structure qui les sous-tend. Si cette perspective supprime le lien consubstantiel qui existe entre l’objet et la structure qui le permet, elle n’évacue pas pour autant l’historicité de 34. COINDET (J.-F.) cité par CANGUILHEM (G.) in op cit. p. 284 35. AMIOT (M.), (1986),op. cit. passim 36. FOULCAULT (M.), (1969), L’archéologie du savoir, édition NRF Gallimard, Paris ; p. 61 11 1.4. Commande sociale et scientificité celui-ci. Toutes proportions gardées ce que nous invite à penser Michel Foucault en affirmant qu’il n’y a rien de la structure dans les objets est un coup de force théorique qui ressemble à celui proposé par Ferdinand de Saussure dans son cours de linguistique générale par lequel s’inaugure le champ de l’analyse de la langue quand il énonce que le lien qui unit les mots et les choses n’est pas une piste de recherche pour la linguistique : Pour certaines personnes la langue, ramenée à son principe essentiel, est une nomenclature [...] Cette conception est critiquable à bien des égards. Elle suppose des idées toutes faites préexistant aux mots [...], enfin elle laisse supposer que le lien qui unit un nom et une chose est une opération toute simple, ce qui est bien loin d’être vrai. 37 Ferdinand de Saussure insiste sur l’arbitraire du signe qu’il ne faut pas confondre avec le libre choix du sujet et réfute l’onomatopée comme preuve qu’il existe quelque chose de la chose dans le mot. Le rapport qu’établit Michel Foucault entre l’objet et la structure est du même ordre que celui qui unit chez Ferdinand de Saussure le mot et la chose. La position du chercheur dans le fantasme de décider seul de son objet fait dans l’Archéologie du savoir l’objet d’une double critique : l’une sur la validité de chercheur capable d’appréhender en toute conscience ses choix, l’autre possibilité, compte tenu de l’état de développement d’une société, de choisir n’importe quel objet. La liberté du chercheur qui choisit en toute conscience et en toute liberté tout comme l’opposition entre recherche ’libre’ et recherche ’déterminée’ devient nettement moins opérante. Il est possible d’avancer que pour partie, toute recherche est traversée par ’l’extra-scientifique’. Reste la question du commanditaire. La présence de ce tiers dans la recherche contractuelle pose la question de ses conditions de production. Celles-ci seraient-elles rédhibitoires de toute production scientifique ? A cette question, bien qu’il escamote la question de la recherche ’pure’, Michel Amiot dans son analyse du développement de la sociologie urbaine nous donne de bonnes pistes de réflexion : les recherches urbaines ont été menées sur commande même quand elles ont été conduites par des sociologies se référant à un appareil conceptuel fortement structuré et d’autre part se réclamant d’une idéologie dont tout laisse penser qu’elle ne les prédisposait pas à quelque concession que ce soit avec ’l’État bourgeois’. Cette pratique de la recherche contractuelle les aurait poussées hors du terrain de leur discipline et conduites sur celui de la planification. Au détour d’une longue analyse sur les rapports qu’entretiennent les chercheurs marxistes sur la ville avec les technocrates planificateurs des années 70, Michel Amiot 38 conclut d’une part, sur l’hypothèse d’un aveuglement des chercheurs quant aux buts poursuivis par les commanditaires des recherches, et d’autre part, sur l’immixtion de considérations issues de l’idéologie planificatrice dans les conclusions de ces sociologues sur la crise urbaine :"Pour les marxistes, une problématique qui prend au sérieux la croyance qu’entretiennent les techniciens au service de l’État dans leur propre capacité à mette de l’ordre dans le désordre de la crise urbaine et à réaliser autour des solutions qu’ils préconisent est une problématique idéologique, ignorante des véritables intérêts que servent sciemment ou à leur insu, les hauts responsables de l’État." 39 En résumé, les marxistes brocardés par Michel Amiot, s’aveuglent en intégrant comme acquis dans leurs analyses que les décideurs ne peuvent pas imposer, dans la construction de l’objet, les solutions qu’ils proposent. Michel Amiot récuse qu’il puisse exister, même si cela implique une appréhension spécifique des problèmes sociaux à étudier, qu’il soit possible pour un chercheur, compte tenu de la prégnance des solutions préconisées par les décideurs, de garder le 37. SAUSSURE (F.), (1906) "Cours de linguistique générale", publié par BALLY (C.), SECHEHAYE (A.), RIEDUNGER (A.), édition, 5ème édition, Payot, Paris 1960, p. 97 38. AMIOT (M.), (1986), op. cit. pp. 143-316 39. AMIOT (M.), (1986), op. cit. p. 188 12 1.4. Commande sociale et scientificité monopole de la formulation de la problématique et des moyens à mettre en œuvre. Pourtant ce sont ces prérogatives qui font de la recherche contractuelle autre chose qu’un simple recueil de données ou encore une simple recherche empirique. Des auteurs très différents insistent sur le fait que la recherche empirique n’est pas une recherche sans théorisation, Bernard Lecuyer insiste sur "le souci d’analyse et de généralisation" 40 dans la recherche "sociale empirique". Dans le même article il précise que cette recherche se caractérise primo par l’exploitation de données existantes, secundo par le recueil de matériaux qualitatifs et quantitatifs originaux, tertio par la mise en œuvre d’une méthodologie de recherche structurée qui s’appuie sur un exposé systématique des théories sous-jacentes, des méthodes de traitement puis des résultats, et quarto par un souci d’interprétation des matériaux recueillis et une volonté de généralisation du propos. Ces quatre règles devant tout à la fois permettre de mesurer les options prises tant sur le plan méthodologique que sur la conduite de la démarche et de favoriser tant l’évaluation de l’objectivité des généralisations formulées que la validité des solutions entrevues. Ces quatre règles se calquent sur celles habituellement préconisées pour mener une recherche en sociologie même si elles ne représentent que l’une des voies possibles qu’emprunte cette discipline. En revanche, elles ne rendent compte ni de l’attente de l’institution, ni du regard que cette dernière porte sur le chercheur mais qui pourtant participe de celui qu’il porte sur l’objet qu’il étudie, ni a fortiori des conditions financières objectives de réalisation de la recherche. Avec une toute autre approche Louis Moreau de Bellaing, qui a enseigné longtemps l’anthropologie au département de sociologie de l’université de Caen Basse-Normandie écrivait : On pourrait penser à moins de ramener la sociologie empirique à l’empirisme généralisé, c’est à dire à la quantification et à la qualification par l’enquête [que] la spécificité de ses terrains et de ses méthodes n’apparaît guère. La ramener en effet à la qualification et la quantification du terrain, c’est oublier que, même lorsqu’elle est empirique elle requiert de la théorie. 41 Il s’agit là d’un débat sur la recherche empirique et non sur la recherche contractuelle qui elle se caractérise par la commande et dont on ne voit pas trop pourquoi elle ne pourrait a priori développer son propre appareil conceptuel et ses propres méthodes d’investigation en pensant que, in fine, les rapports qu’elle entretient avec les décideurs peuvent se résumer par une formule lapidaire qu’il est coutume d’attribuer à Robert Merton : "L’homme d’action utilise les sciences sociales comme un poivrot un réverbère : non pour s’éclairer mais pour s’appuyer dessus". Cette représentation particulière de la recherche sociale introduit une dose certaine d’inutilité dans la finalité utilitaire de la recherche sur commande. Pour autant il ne s’agit peut-être que d’une illusion qui permet au chercheur embarqué dans ce type de recherche de se penser comme un chercheur "libre" et par là même de préserver son identité. Dans ce type de recherche les chercheurs d’une part, les commanditaires de l’autre, sont les acteurs d’un jeu d’illusions qui constitue l’espace dans lequel se tissent les rapports sociaux qui régissent les règles de fonctionnement qui sous-tendent et permettent la recherche contractuelle. Ce champ de la recherche contractuelle peut ainsi être d’autant plus piégé qu’il se double de temps à autre d’une tentative de subversion d’un champ par l’autre. Le politique peut chercher pour sa part à imposer au chercheur ses vues, à l’empêcher de se réapproprier la question qu’il pose par crainte de la voir se diluer dans une reformulation scientifique. A l’inverse, le sociologue peut essayer, par un effet d’imposition théorique, de convaincre le commanditaire du 40. LECUYER (B.), (1968), "Histoire et sociologie", in Les faits et les principes. Cahiers semestriels d’Épistémologie sociologique, édition Athropos, Paris, n° 6, p. 124 41. MOREAU de BELLAING (L.), "L’éthique de la connaissance sociologique in Sociologues en quête de sociologie, Cahiers du Laboratoire de Sociologie Antropologique de l’université de Caen, édition LASA, Caen, p. 82. (c’est nous qui insérons [que] faute de quoi la citation, bien que fidèlement reproduite, semble incomplète. 13 1.5. Quantification et mathématisation de la réalité sociale bien-fondé de ses vues alors que celles-ci ne sont que connexes à la question posée et ne sont en rien la seule façon de la poser mais une parmi d’autres. La difficulté est à son comble, lorsque le sociologue pour ’reformuler’ la question savante du planificateur-économiste, se tourne vers une problématique scientifique déjà incorporée dans un appareil de pouvoir. [...] L’arène a-telle encore un contour lorsque chacun des protagonistes est pour l’autre un cheval de Troie. 42 . Ces débats sur recherche ’pure’ ou contractuelle ou sur appel d’offre paraissent éloignés de la question de la quantification, pourtant ils participent des doutes qui pèsent sur la capacité des chiffres à rendre compte de la réalité sociale ou des opinions qui y circulent. Les sondages du mois d’août 2010 sur l’opinion des Français quand à l’approbation des mesures sécuritaires annoncées lors d’un discours présidentiel ont montré les limites de ce que peuvent dire les chiffres en fonction entre d’une part l’idéologie qui pèse sur la formulation des questions posées, et d’autre part, l’ingérence du politique dans leur formulation puis leur interprétation. 1.5 Quantification et mathématisation de la réalité sociale La profusion de discours sur la nature des liens qu’entretiennent quantification, mathématisation et réalité sociale fait que cette présentation ne sera pas une énième histoire des essais entrepris soit pour décrire et analyser le social d’un point de vue quantitatif, soit pour dégager sa structure en s’appuyant sur des outils mathématiques. Elle cherche à montrer ce que la quantification et les traitements s’appuyant sur la quantification permettent d’entrevoir des phénomènes sociaux qui nous échapperaient autrement, à analyser la manière dont quantification et mathématisation du social orientent notre regard dans l’approche des phénomènes sociaux. Dès le début de ce texte, l’ancienneté d’un mode de lecture quantifié du réel a été soulignée dans le souci de mettre en évidence les liens anciens qu’entretiennent les politiques et la recherche. Spécifier la portée d’une lecture quantifiée de la réalité, en montrant qu’il s’agit d’un regard permettant d’entrevoir des aspects de celle-ci que d’autres modes de lecture ne permettent pas de distinguer, est gravide de questions épistémologiques complexes tout à la fois sur : le statut de l’objet, du chercheur et de l’objectivité dans les sciences sociales. Pour une part ces questions ont reçu des réponses partielles dans le début de ce document consacré plus particulièrement à la question de la recherche contractuelle. En revanche, toute ou partie des réponses avancées dans cette partie l’ont été avec le tropisme d’un engagement dans la recherche contractuelle ce qui a limité l’ampleur du champ examiné. 1.5.1 Un modèle : le suicide Tout le monde connaît l’injonction durkheimienne faite à tout sociologue qui se frotte à l’analyse des faits sociaux : "La première règle et la plus fondamentale est de considérer les faits sociaux comme des choses" 43 Cette exhortation du chapitre II des Règles de la méthode sociologique, doit être rapportée à l’époque à laquelle elle a été formulée. D’une pat, elle conserve la marque d’une époque où les paradigmes dominants sont ceux de la physique newtonienne, de la thermodynamique ou encore de la chimie, et d’autre part, elle participe à fonder, par la mise en place de ce rapport à l’objet, l’observation des faits sociaux comme une science : "A 42. AMIOT (M.), (1986), op. cit. p. 188 43. DURKHEIM (E.), (19XX), Les règles de la méthode sociologique, édition PUF, collection Quadrige, Paris, 1991, 6ème édition, p. 15. Souligné par l’auteur 14 1.5. Quantification et mathématisation de la réalité sociale un moment où un ordre nouveau de phénomènes devient l’objet de science, il se trouve déjà représenté dans l’esprit [...]. Avant les premiers rudiments de la physique et de la chimie, les hommes avaient déjà..." 44 Le travail scientifique consiste dans cette perspective hypothético-déductive à se détacher des explications intuitives qui sont le résultat des idées véhiculées par l’observation, la description et la comparaison. On retrouve chez Émile Durkheim la démarche utilisée dans tous les paradigmes scientifiques antérieurs et contemporains à son œuvre : les classifications de Linné, l’analyse de l’évolution des espèces de Darwin, la médecine de Cabanis ou de Broussais. Pour reprendre un exemple déjà utilisé, Georges Canguilhem caractérise la médecine du début du XIXème siècle par un mode opératoire pré-expérimental qui privilégie comme moyen de recherche la répétition des prescriptions, sans certitude sur leur validité. Par la suite seulement, les médecins de l’époque élaborent des solutions en s’appuyant sur le plus grand nombre de cas traités ayant eu une issue favorable. Il ne s’agit pas encore, comme dans la médecine expérimentale telle que l’initia Claude Bernard, d’avoir une théorie que l’on confirme à travers, ce que de nos jours on appelle un plan d’expérience 45 . Ce mode de confirmation s’est développé de manière contemporaine à la jeunesse d’Émile Durkheim 46 C’est dans le cadre de cette montée en puissance de paradigmes nouveaux qu’un détour par Émile Durkheim est utile car il a lui même initié l’utilisation des données quantitatives. 47 Comme Christian Baudelot et Roger Establet 48 le font remarquer, il est d’usage de négliger les tableaux de données abondamment fournis par Emile Durkheim. La lecture du Suicide s’abstrait d’un passage par les chiffres. Cette approche génère une explication dans laquelle involue l’explication du suicide comme objet d’étude sociologique. Sont ainsi disséquée avec force commentaires la typologie des 4 types de suicides proposés par Émile Durkheim et la portée de l’explication sociale de son origine sans que soit mis en évidence le travail sur les données qui permet à Émile Durkheim de réfuter diverses autres explications du suicide (climatique, chronologique, géographique, psychologique, ...). Ainsi, par exemple, sans que soient examinés les mécanismes d’inférence utilisés 49 pour élaborer une nouvelle approche du suicide, se développe une incantation sociologique qui débouche sur un discours spéculatif prenant appui sur les quelques lignes que constitue la note de bas de page dans laquelle est formulée la possibilité de l’existence d’une quatrième forme suicide : "le suicide fataliste" 50 . Quelles motivations méthodologiques ou scientifiques ont pu pousser Émile Durkheim à faire le choix d’une démarche quantitative pour analyser le suicide d’un point de vue sociologique comme en témoigne le sous-titre de son ouvrage ? Elles semblent doubles : pour une part 44. DURKHEIM (E.), (19XX), op. cit. p ; 15 45. Les plans d’expérience sont conçus comme la mise en scène technique d’une théorie proposant une explication causale des phénomènes. Ils racontent les théories à valider par des agencements d’appareils ou par des successions de manipulations qui les mettent en scène 46. De nombreux passages de son œuvre font référence à la santé et à la médecine ; on notera par exemple : DURKHEIM (E.), (19XX), Les règles de la méthode sociologique, édition PUF, collection Quadrige, Paris, 1991, 6ème édition, pp. 47-75. DURKHEIM (E.), (19XX), La division du travail social, édition PUF, collection Quadrige, Paris, 1991, 2ème édition, pp. 223-227. 47. DURKHEIM (E.), (19XX), Le suicide. Étude sociologique, édition PUF, collection Quadrige, Paris, 1991, 6ème édition, 463 p. 48. BAUDELOT (C.), ESTABLET (R.), (19XX), Durkheim et le suicide, édition PUF, Paris, 1993, 4ème édition, p. 15. 49. Comme le fait BOUDON (R.), (1967), in L’analyse mathématique des faits sociaux, édition Plon, pp. 27-49 50. DURKHEIM (E.), (19XX), op. cit., note1, p. 311 15 1.5. Quantification et mathématisation de la réalité sociale la nature du problème étudié, pour une autre, la gageure qu’il s’impose à lui-même. Sauf à vouloir faire un travail strictement spéculatif et sans confrontation aucune à des données de quelque sorte qu’elles soient la compréhension de ce que recouvre le suicide impose de trouver des sources d’information. Le témoignage direct des personnes qui se sont suicidé étant, c’est une évidence, impossible à recueillir, il reste la possibilité d’utiliser, soit le témoignage de rescapés, soit des données issues de rencontres immédiates ou médiatisées avec le suicide, soit de données enregistrées à d’autres fins 51 que de réunir des matériaux en vue d’un travail de sociologie. Les données issues de notre perception plus ou moins directe du suicide sont, soit celles que nous pouvons enregistrer dans notre environnement social, soit celles que nous percevons à travers des témoignages de proches ou par la pratique quotidienne des médias. Les premières comme les secondes sont sujettes à toutes sortes de cautions possibles compte tenu de l’enchevêtrement des affects dont elles sont inséparables. Pour les premières il n’est nul besoin d’explications complémentaires pour comprendre en quoi leur validité est compromise. Pour les secondes, comme le décrivent Christian Baudelot et Roger Establet, elles sont prises dans la nécessité des médias de produire quotidiennement des évènements qui ne sont pas des évènements quotidiens 52 . Par le choix fait de parler des suicides exceptionnels, elles font l’impasse sur les suicides ordinaires dont les modalités de réalisation ne sont pas une pour le journaliste et le lecteur du journal. L’échantillon que représente ces formes de suicides spectaculaires ne peut pas être considéré comme représentatif de l’ensemble des suicides, voire même, il n’est qu’une des illustrations possibles de ceux qui se présentent sous des formes de mise en oeuvre rares et propres à marquer l’imaginaire. La seule méthode était, pour parvenir à une vision globale du suicide, le recours à des données quantifiées, recueillies avec le souci qu’elles soient systématiques et exhaustives. Qu’elles l’aient été à des fins de contrôle social, de maintien de l’orde public, d’explication de l’état de santé des populations voire à celles d’évaluation de l’ordre moral, n’en fait pas moins qu’elles étaient en dehors des quelques milliers de fiches réalisées par Marcel Mauss les seules disponibles et les moins chargées d’affect. Pour autant ces données quantitatives posent la question de leur adéquation avec les définitions successives du suicide données par Emile Durkheim au début de son ouvrage et ceux enregistrés dans les données administratives qu’il a mobilisées. On admire d’autant plus la typologie des suicides (anomiste, altruiste, égoïste, fataliste) car pour le suicide altruiste par exemple, je doute qu’aucune statistique n’ai enregistré sous la rubrique suicide les actes héroïques décrit par Emile Durkheim lorsqu’il constitue cette catégorie. A l’inverse des statistiques administratives la doxa est prompte à déclarer suicidaire tel ou tel acte héroïque accompli et ayant entrainé la mort alors que l’acteur de cet acte paraissait conscient de cette fin possible. 1.5.2 Lecture de l’objet ou effet de lecture Si à partir du suicide un constat qui s’impose est qu’Émile Durkheim s’est contenté de données quantitatives faute de mieux ou car elles étaient les seules disponibles, l’intérêt des démarches quantitatives serait important mais apparaitrait comme un pis-aller incapable de procurer quelque motivation à leur utilisation. De plus ce serait oublier que la grille de lecture adoptée pour lire un objet quel qu’il soit influe sur la perception de cet objet comme le font la problématique et la posture institutionnelle occupée. L’exemple métaphorique du filet donné par 51. État civil, médecine, justice, police... 52. BAUDELOT (C.), ESTABLET (R.), (19XX), op. cit. p. 78 et sq. 16 1.5. Quantification et mathématisation de la réalité sociale Ludwig Wittgenstein est susceptible de clarifier notre propos : "Représentons nous une surface blanche couverte de tâches noires irrégulières. Et nous dirions : quelque soit l’image qui en résulte, je puis toujours en donner la description approximative qui me plaira, en recouvrant la surface d’un fin filet adéquat à mailles carrées et de dire de chaque carré qu’il est blanc ou noir. De cette manière j’aurais donné une forme unifiée à la description de la surface. Cette forme est arbitraire, car j’aurais tout aussi bien pu me servir d’un filet à mailles triangulaires ou hexagonales et obtenir un résultat non moins satisfaisant." 53 Suivent des considérations sur les avantages respectifs de la forme des mailles en fonction de leur taille puis une référence à la mécanique comme mode de découpage du réel. Il serait sans doute difficile de savoir ce que représente ce filet, outil de découpage du réel ou théorie permettant le découpage du réel, si à la fin de ce passage Ludwig Wittgenstein ne mettait sur le même plan le système numéral et celui de la mécanique. Il ne cherche pas à nous dire que tous les systèmes sont équivalents, le système numéral est plus apte à lire les nombres et le système mécanique à lire les phénomènes physiques, en revanche chacun génère des effets de lecture qui tiennent tant à son organisation interne qu’aux outils de lecture qui lui sont spécifiques. La manière dont Ludwig Wittgenstein pose cette question indique que la forme de lecture, qu’elle soit instrumentale ou référée à une théorie, détermine les modalités que prendra cette description. "La mécanique détermine une forme de description de l’univers du fait qu’elle dit : toutes les propositions de la description de l’univers doivent être obtenues d’une manière donnée à partir d’un nombre de propositions données - les axiomes mécanistes." 54 A suivre Ludwig Wittgenstein, n’y a-t-il pas un risque d’invalider l’idée même d’une connaissance du réel si la lecture qu’on en fait nous apprend plus de choses sur la théorie elle-même que sur le réel lui-même ? Cette dérive vers un relativisme généralisé, qui rendrait toute tentative de connaissance vaine, n’est possible que si est faite l’impasse sur l’affirmation de l’existence d’un lien entre la chose décrite et le fait que cette chose puisse être décrite par tel outil ou telle théorie. "Qu’une image telle que celle mentionnée plus haut puisse être décrite au moyen d’un filet d’une forme donnée n’énonce rien sur l’image elle-même. [...] Mais ce qui caractérise l’image c’est qu’elle puisse être décrite intégralement au moyen d’un filet déterminé d’une finesse déterminée." 55 Peut-on aller jusqu’à dire que la description numérale du social nous renseigne plus sur l’ordre numéral que sur le social, ou du moins, que c’est la possibilité que le social puisse être lu selon un ordre numéral qui nous apprend quelque chose sur le social ? C’est une réponse qui se pose inéluctablement en examinant ce que les chiffres disent du social :"Comme ces variables reposent sur des catégorisations a priori, l’étude de leurs liaisons revient souvent à vérifier que cette catégorisation a bien un sens." 56 . Formulé autrement cela permettrait d’écrire : l’impossibilité de lire le social par un recours au chiffre ne renseigne-t-elle pas plus sur l’opacité des phénomènes sociaux que sur les limites des approches numérales ? La position théorico-logique adoptée par Ludwig Wittgenstein semble devoir limiter toute production de connaissance à celle de la logique du système d’investigation du réel puis, de manière induite, à savoir sur le réel qui tient de ce que la logique à l’œuvre dans la procédure discursive pour le décrire puisse en rendre compte. Les propositions de René Thom qui sont 53. WITTGENSTEIN (L.), (19XX) Tractacus logico-philosophicus, traduction KLOSSOWSKI (P.), introduction RUSSEL (B.), édition Gallimard, collection Tel, Paris, 1993, (6.341), p. 99. 54. WITTGENSTEIN (L.), (19XX) op. cit., p. 99. 55. WITTGENSTEIN (L.), (19XX) op. cit., p. 100. 56. DEGENNE (A.), FORSÉ (M.), (1994)Les réseaux sociaux. Une analyse structurale en sociologie. édition Armand Colin, collection U, Paris, p. 6 17 1.5. Quantification et mathématisation de la réalité sociale très différentes induisent elles aussi la possibilité d’une connaissance seulement relative. Pour ce mathématicien la science se développe par un processus d’objectivation dont la faible stabilité serait le meilleur garant de scientificité : "Faut-il croire alors que la réalité, telle que nous la dépeint la science est plus fondamentale que celle que nous vivons au niveau usuel ? Et cette dernière contient deux ingrédients : la solidité de la matière et, d’autre part, l’évidence immédiate du psychisme. C’est plutôt sur ce plan que je ressens les choses. Je suis tenté de dire pour moi, que c’est que la réalité naïve qui est ontologiquement antérieure à la réalité scientifique. Celle-ci est toujours construite et ne vaut que ce que valent les constructions scientifiques : des choses éminemment temporaires." 57 La question posée par René Thom sur la perception sensible et la perception scientifique reprend une opposition ancienne dont on trouve des traces chez Platon dans la discussion sur le continu et le discontinu. Seule l’opération intellectuelle de Zénon d’Élée qui, contrairement à toutes les expériences sensibles que nous en avons, pense le temps comme discontinu, permet que le lièvre ne rattrape jamais la tortue. L’activité scientifique telle que René Thom la conçoit consiste à fabriquer du discontinu avec du continu" 58 et s’apparente à celle que produit une caméra de cinéma qui discrétise le continue en un certain nombre d’images discontinues. Le travail scientifique pour René Thom est la prise de vue et non la projection ; celle-ci comme la perception sensible, grâce à une astuce et au phénomène de permanence rétinienne donne l’illusion d’un continu. 1.5.3 De quelques truismes Percevoir ce qui tient du filet et ce que raconte sur l’objet le fait qu’il puisse être lu avec ce dernier n’a pas grand chose à voir avec le mode intuitif qui préside généralement à l’utilisation des méthodes numérales pour lire le social. Le rapport entre les outils et ce qui est vu du social est maîtrisé par les chercheurs, même si souvent ce n’est que sur un mode dégradé. Cela peut être résumé en disant qu’ils ne sont pas dupes et qu’ils savent que ce qu’ils voient du réel est pour partie lié tant aux théories sous-jacentes à leurs investigations, qu’aux outils qu’ils utilisent. En revanche les quidams, non utilisateurs de statistiques, n’entent pas dans ces subtilités et sont prompts à penser que si les chiffres donnent une bonne photographie de la réalité, on peut cependant leur faire dire tout et le contraire. A travers cette opinion fort répandue, dans laquelle s’exprime, pour le moins un certain scepticisme sur l’objectivité des chiffres, est à lire en filigrane l’impossibilité, pour les non initiés, de percevoir la subjectivité contrôlée des opérations de dénombrement. Bien qu’il soit répandu de penser qu’on puisse leur faire dire n’importe quoi, les chiffres, les valeurs numériques sont, dans la pratique quotidienne, pensés sur le mode de l’objectivité. 59 Cette croyance dans l’objectivité du chiffre a plusieurs origines. Tout d’abord la certitude, basée sur l’expérience, qu’il existe un lien stable entre la forme scripturale ou phonétique d’un chiffre et une quantité. Ensuite le sentiment que la numération échappe à la contingence par un ordre interne qui n’existe que de lui-même. Pour autant, ces deux perceptions de l’objectivité des chiffres reposent à la fois, sur une perception d’un ordre interne des systèmes de numération 57. THOM (R.), (1991), Prédire n’est pas expliquer. Entretien réalisé par Émile Noël et rédigé par Yves Bonin, édition ESHEL, collection La Question, Paris, pp. 88-89 58. THOM (R.), (1991), op.cit., p. 82 59. On trouve la trace de cette forme de certitude de l’objectivité du nombre et de la vérité inhérente aux chiffres dans de nombreux de proverbes au rang desquels on peut noter : "C’est sûr comme 2 et 2 font 4. ", ”jamais deux sans trois" ... 18 1.5. Quantification et mathématisation de la réalité sociale et, sur l’absence de la prise en compte qu’il s’agit, dans la pratique courante, de compter des objets qui n’appartiennent pas à cet ordre. Distribuer c’est en effet mettre en relation un ensemble d’éléments avec l’ensemble des réels. En effet, si l’on s’en tient à la définition usuelle d’une distribution, il s’agit de l’application des éléments de Q vers R 60 , ce qui nécessite que caractère des éléments de Q qui permet d’effectuer l’application soit défini de manière précise, s’il ne s’agit pas d’un caractère qui luimême est un élément de R. Cette définition appartient en propre au chercheur ou à des codes qui s’imposent à lui mais en rien à l’ordre numéral (l’ensemble sur lequel aboutit l’application soit celui des réels, c’est à dire un ensemble infini ordonné continu qui présente la particularité qu’entre deux de ces valeurs il existe un nombre infini de valeurs et, d’autre part, que le caractère pris en compte pour les éléments de l’ensemble Q soit lui aussi exprimé par un réel. Les données usuellement manipulées par les praticiens des sciences sociales ne répondent que rarement à ces contraintes. Celles qui présentent la particularité de pouvoir être exprimées par un réel sont : l’âge, le temps de trajet, la distance domicile lieu de travail et le montant des revenus... Cela ne représente que quelques variables parmi toutes celles utilisées ou construites par les chercheurs en sociologie. Si on considère le travail à l’oeuvre dans la fabrication d’une distribution au regard du système logique que développe Wittgenstein, nous travaillons dans le non-sens. Ce non-sens, d’une part entraine quelque méfiance du public quand aux chiffres, d’autre part, nécessite que cette phase d’ordonnancement du réel donne à lire tout à la fois ses présupposés et ses méthodes. Si nous avons esquissé ce qu’est une distribution pour autant nous n’avons pas encore posé la question du dénombrement. Essayer de répondre à cette dernière implique à la fois un retour en arrière et un détour. Retour en arrière car le terme de quantitatif qui l’englobe mérite à lui seul un effort de définition. Il recouvre deux opérations que nous avons évoquées sans prendre le temps de les préciser : le dénombrement d’une part, la mesure d’autre part ce qui nécessite de reposer la question trop vite évacuée de la distinction entre qualitatif et quantitatif. Le résultat des opérations de dénombrement produit des nombres qui sont extérieurs aux objets et appartiennent à N : il n’y a pas d’association entre ce nombre et chaque objet. Dans le cas d’une mesure, la valeur est constitutive de chaque objet, modifier cette valeur modifie les propriétés de l’objet. Une valeur peut être définie de manière discrète ou continue 61 mais n’en appartient pas moins à R. Cette opposition entre discret et continu, qui souvent se redouble de celle du qualitatif et quantitatif, ne peut se résoudre qu’en essayant de montrer sur quelle base repose cette dernière opposition et, comment si l’on pose d’autres postulats que ceux de la mesure pour définir les caractères des éléments de Q, s’opère l’aporie de l’opposition du jeu d’équivalences : quantitatif égale mathématique - sous entendu scientifique - qualitatif égale non mathématique - sous 60. Ludwig Wittgenstein considère ainsi que :"des expressions telles que «1 est un nombre», «il n’y a qu’un zéro» et d’autres analogues sont dénuées de sens. (II n’y a pas plus de sens à dire ’il n’y a qu’un 1’ qu’à dire : ’2+2 à trois heures font 4’.)"(op. cit., p 56, 4.1272). Sans reprendre l’ensemble du raisonnement à l’oeuvre dans le Tractatus, le raisonnement de Wittgenstein permet de saisir comment, dans les trois premières de ces locutions, sont confondus deux niveaux de proposition, le premier faisant référence à l’élément d’une série, le «un», le «zéro», le second à une forme logique générale. La quatrième expression indique une opération possible suivant l’ordre général mais la relie à une temporalité qui est extérieure à cet ordre. 61. Il peut être utile de rappeler que cette difficulté est issue de la philosophie aristotélicienne qui distingue le discret du continu. Cette distinction est effectuée au sein même de l’acte de mesurer et se construit sur l’existence d’une unité de mesure. Quand on mesure quelque chose, si on utilise un nombre entier de fois l’unité de mesure et que cela suffit, on l’exprime par un entier, sinon, on réduit l’unité de mesure, ou, ce qui revient au même, on utilise des parties fractionnaires de l’unité. 19 1.5. Quantification et mathématisation de la réalité sociale entendu non scientifique -. Les bases sur lesquelles repose le détour que je vous propose sont anciennes et l’itinéraire que nous allons suivre a déjà été balisé par d’autres, au rang desquels, sur un mode épistémologique et philosophique, dans lequel Gilles-Gaston Granger 62 s’est illustré. Le point de départ de ce cheminement est le théorème dit de Descartes-Euler-Poincaré 63 qui énonce que dans tout polyèdre convexe la somme du nombre de Sommets et du nombre de Faces moins le nombre d’Arêtes est toujours égal à deux S +F −A = 2. Les nombres manipulés dans cette assertion ne sont pas des mesures des polyèdres mais le dénombrement de certaines de leurs caractéristiques. En fait, dans cette perspective, le polyèdre est un ensemble Q dans lequel on dénombre successivement les éléments qui ont pour caractère d’être Sommet, Face ou encore Arête. 64 La démonstration de l’existence de cette relation S + F − A = 2 peut, comme la plupart de celles qui portent sur des questions de dénombrement, s’effectuer par récurrence 65 . On suppose le plus petit polyèdre convexe possible 66 : un tétraèdre. On positionne à la verticale et à l’extérieur d’une de ses faces un point que l’on joint à chacun des sommets de cette face. On crée ainsi 3 nouvelles faces, 3 nouvelles arêtes et un nouveau sommet : Tétraèdre Création d’un point Suppression de Polyèdre à 6 faces ⇒ ⇒ ⇒ ⇒ 4F 3F 1F 6F + 4S 1S - 6A 3A = 2 + 5S - 9A = 2 Dans cette opération qu’il est possible de répéter n fois on remarque que l’évolution du polyèdre ne dépend que la forme de la face à l’extérieur de laquelle on élève le point : si celle-ci a 3 côtés on crée 3 faces, 3 arêtes, et un sommet, on supprime une face ; si celle-ci a 4 côtés on crée 4 faces, 4 arêtes, et un sommet, on supprime une face. Appliquons la formule F +S−A = x à cette extension 2F +1S−3A = 0, le bilan de cette extension est nul sur l’égalité F +S −A = 2 qui caractérise le tétraèdre convexe dont on est parti. Il serait possible de répéter la démonstration pour une face à n côtés et de montrer que cette démonstration est vraie pour n + 1 faces. Le nombre de fois où l’on transforme le polyèdre par cette méthode ne change rien à l’égalité S + F − A = 2. Le dénombrement des côtés n’est pas une mesure du polyèdre au sens habituel où son résultat n’est pas susceptible de calcul, il permet de caractériser sa forme. La complexification de la forme d’un polyèdre est un moyen d’approcher comment le dénombrement permet de penser la forme. Comme l’écrit Gilles-Gaston Granger : "le nombre 62. GRANGER (G.-G.), (1988) Pour la connaissance philosophique, Paris 1988, édition Odile Jacob, chapitre 4, p.93-122. 63. Cette propriété est connue sous le nom de théorème de Descartes-EulerPoincaré. La démonstration de cette propriété connue de Descartes sera faite par Euler. Poincaré la généralise aux espaces à n dimensions et aux polyèdres non homéomorphes à la sphère. 64. La distinction n’est pas si simple que cela. C’est le statut d’objet que l’on donne au polyèdre et à ces éléments constitutifs qui rendent cette distinction possible. Si le polyèdre considéré est un élément dans un ensemble de polyèdres, son nombre de sommets, de faces et d’arêtes devient une mesure du polyèdre. Si c’est le polyèdre qui est lui-même considéré comme un ensemble, le nombre de sommets, de faces et d’arêtes devient le résultat du dénombrement d’un certain nombre d’éléments du polyèdre. 65. Le calcul par récurrence comporte généralement deux étapes : tout d’abord on démontre que la propriété est vraie pour n = 1, puis on démontre que si elle vraie pour n, alors elle est vraie pour n = n + 1 66. Le polygone qui a le moins de côtés est le triangle ; pour construire un volume il faut au moins un point extérieur à ce polygone. Le nombre de faces triangulaires que l’on peut fabriquer avec 4 points se détermine Pr n! 4! par la formule Cnr = r!(n−r)! = r!n = 3!(4−3)! = 24 = 4 f aces, avec n=4 car quatre points ; r=3 car il faut trois 6 points pour déterminer un plan. Ce mode de calcul n’est pas généralisable. 20 1.5. Quantification et mathématisation de la réalité sociale de faces, sommets, et arêtes sont des propriétés qualitatives de la figure. " 67 Comment le quantitatif parle-t-il du qualitatif ? Si l’exemple que nous avons utilisé permet de l’entrevoir, il ne resterait qu’un exercice de style si l’utilisation des termes de graphe et de réseau utilisés par des sociologues comme Alain Degenne 68 ou Michel Forsé 69 n’y faisaient écho. Il est en effet possible partant de n’importe quel polyèdre convexe, après lui avoir enlevé une face, de produire, sur un plan, par déformations successives un réseau plan qui comporte S sommets, A arêtes et N − 1 faces. Le rapport entre le nombre de Faces, de Sommets et d’Arêtes peut ainsi s’écrire : F + S − A = 1. La simplification de ce réseau peut s’effectuer en joignant deux sommets séparés par un angle dans les polygones autres que le triangle. Ainsi, à chaque opération on génère une face, une arête et deux sommets supplémentaires 70 soit : 1F + 1A − 2S = 0. Chaque tracé d’une arête supplémentaire ne modifie pas l’équilibre du réseau si on le considère du point de vue du rapport constant entre son nombre de faces, d’arêtes et de sommets. L’augmentation récurrente du nombre de ces objets constitutifs de la forme ne modifie pas la forme qui se traduit par cette situation d’équilibre, mais leur nombre apparaît comme une propriété qualitative de ce réseau. Cette figure obtenue par déformations successives d’un polyèdre, jusqu’à ce qu’il soit plan, donne naissance à une figure géométrique dont le maillage rappelle étrangement celle obtenue lors du tracé de simplexes 71 . La figure ainsi constituée de faces, sommets et arêtes n’est pourtant pas un graphe 72 de simplexes, les briques ne se présentent ni sous la forme d’objets qu’on peut combiner, ni d’objets qui sont orientés, c’est à dire permettant de décrire des parcours. Passer de ce réseau obtenu par déformation à un graphe de simplexes nécessite donc que soit défini un certain nombre d’opérations possibles sur F , A, et S. Cela dépasse les limites fixées à ce cours et mènerait à s’intéresser à la structure des groupes abéliens ; pour autant, les quelques développements dans lesquels nous nous sommes commis permettent d’entrevoir en quoi les limites usuelles qui opposent les sociologues sur l’approche quantitative et qualitative des faits sociaux est plus idéologique que basée sur une opposition stricte entre ces deux modes d’approche du social. 67. GRANGER (G.-G), (1988), op. cit. p.106. 68. DEGENNE (A), (1988), "Un domaine d’interaction entre les mathématiques et les sciences sociales : les réseaux sociaux", in Mathématiques et Sciences humaines. 26ème année, n°104, pp. 5-18 ; ou encore DEGENNE (A), (1972), Techniques ordinales en analyse de données statistiques. Ed. Hachette, Paris, collection Hachette Université, 160 p. 69. DEGENNE (A.), FORSÉ (M.), 1994, op. cit. passim, 288 p. 70. On note quelques imprécisions dans la démonstration proposée par GillesGaston Granger dans son ouvrage Pour la connaissance philosophique, (op. cit. p. 106). D’une part, il n’envisage pas que le tracé de diagonales dans des polyèdres de plus de quatre cotés ne génère pas obligatoirement des triangles et que, de plus, l’ordre choisi pour commencer les tracés des diagonales influe sur le résultat ; il ne s’agit donc pas d’une simple opération mécanique et itérative comme il le laisse entendre, mais de choix successifs effectués par un opérateur. D’autre part, il n’intègre pas de manière explicite dans son exposé que la création de chaque nouvelle arête génère deux nouveaux sommets pour que ce soit un jeu à somme nulle. 71. Pour plus de détails sur les simplexes voir par exemple DEGENNE (A.), (1972), op. cit. ou DIEUDONNÉ (1976), "Que font les mathématiciens", in L’âge de la science., édition Dunod, Paris, n°2 72. De façon intuitive un graphe est un schéma constitué par un ensemble (supposé fini) de point x1 , x2 , ..., xi , Xn , et par un ensemble de flèches reliant chacune deux points. Les points sont appelés sommets et les flèches arcs du graphe. [...] DEGENNE (A.), FORSÉ (M.), 1994, op. cit., p. 77 21 1.5. Quantification et mathématisation de la réalité sociale 1.5.4 Une opération intellectuelle : les distributions Les modalités des variables qui caractérisent les individus dans une population 73 ne sont que rarement des réels comme nous l’avons déjà esquissé. La quantification de quelques caractéristiques d’une population peut, une fois le travail de recueil de données et leur traitement effectués, se donner à lire comme une mesure de cette population 74 . Pour autant les techniques utilisées auprès de chaque individu pour obtenir cette valeur ne sont pas de l’ordre de la mesure mais du dénombrement. Ce dernier n’est pas une opération neutre ; le choix des individus, celui des variables sont dictés par ce que l’on cherche et par les moyens dont on dispose pour mener à bien le travail. La multiplicité des phases, voire des intervenants qui participent au dénombrement mérite que l’on y passe quelque temps. La formalisation mathématique permet assez bien de s’y retrouver : si vous comptez 12 personnes dont les revenus s’élèvent à 784,32 euros vous écrivez cela sous la forme ni xi dans cette expression, ni c’est le dénombrement et xi c’est la mesure. L’importance de la littérature produite tant par les statisticiens que par les sociologues sur les difficultés liées au dénombrement dénote l’ampleur de la question. Cette dernière se redouble des relations qu’entretiennent ces deux figures de la recherche dans le champ des sciences sociales. Il parait nécessaire d’en montrer pour partie les tenants et aboutissants afin de préciser un peu mieux les enjeux que recouvre le recours à des techniques quantitatives dans la lecture des faits sociaux. 1.5.5 Statistique ou sociologie Les clivages entre statistique et sociologie ont plusieurs origines ; ils sont pour la plupart à lire dans leur degré d’institutionnalisation respective. La statistique est plus anciennement instituée tout à la fois par sa participation aux prises de décision des politiques et par l’ancienneté de l’enseignement universitaire dont elle fait l’objet. La sociologie quant à elle, après une phase de début d’institutionnalisation universitaire avant la première guerre mondiale, voit quasiment disparaître son audience entre les deux guerres pour, peu à peu, reprendre à partir des années 1950 une place parmi les enseignements universitaires et, comme nous l’avons déjà montré, une place dans la conduite de la Cité. Mais tout cela est sans doute insuffisant pour expliquer les rapports compliqués qu’entretiennent ces deux activités. Dans le droit fil de notre réflexion sur les rapports qu’entretiennent les théories, les outils et les objets, une des différences les plus nettes entre ces deux modes d’appréhension du réel s’articule autour de leur propre instrumentalisation. Reprenant une distinction proposée pour d’autres raisons par Claude Lévi-Strauss, Christian Baudelot 75 apparente l’activité du statisticien à celle du bricoleur et celle du sociologue à celle de l’ingénieur : "[...] à la différence de l’ingénieur, le bricoleur ne subordonne pas l’exécution de ses tâches à l’obtention de matières premières et d’outils conçus et procurés à la mesure de son projet : son univers instrumental est clos et 73. A la succession ensemble, élément, caractère, valeur du caractère correspondent dans notre pratique et dans un vocabulaire qui nous est plus familier population, individu, variable, modalité. Compte tenu des exemples que nous allons manipuler c’est cette dernière terminologie qui sera employée (sauf nécessité de formalisation mathématique) dans la suite de ce polycopié. 74. Le passage du dénombrement à la mesure s’effectue sans que l’on y prenne garde. Quand l’élément pris en compte dans Ω est l’individu, le nombre d’individus comptabilisés ni représente le résultat d’une opération de dénombrement mais ce même ni devient la mesure de Ω si je m’intéresse à un ensemble dont Ω est un élément. 75. BAUDELOT (C.), (1982), "La source et l’objet" in Actes de la journée d’étude ’Sociologie et statistique’ Paris, Document polycopié de l’Institut National de la Statistique et des Etudes Economiques et de la Société Française de Sociologie, 1982, tome 1, p. 23. 22 1.5. Quantification et mathématisation de la réalité sociale la règle de son projet est toujours de s’arranger avec les "moyens du bord", c’est-à-dire un ensemble d’outils et de matériaux hétéroclites au surplus, parce que la composition de l’ensemble n’est pas en rapport avec le projet du moment [...] L’ensemble des moyens du bricoleur n’est donc pas définissable par un projet ; il se définit par son instrumentalité. " 76 L’utilisation par des sociologues de cette citation de Claude Lévi-Straus laisse entendre que le sociologue, plus que le statisticien, aurait comme l’ingénieur la faculté d’utiliser "des outils conçus et procurés à la mesure de son projet", ce qui, compte tenu de la valorisation sociale respective des professions, tend à établir une hiérarchisation du travail respectif des sociologues et des statisticiens. En revanche, cette citation extraite de ’La pensée sauvage’ n’est pourtant pas complètement appropriée pour comparer leurs rapports respectifs aux outils. Dans leurs activités de recherche, les sociologues font appel à des outils dont la diversité n’a souvent d’égale que leur manipulation approximative. Ils se comportent, dans ce cas de figure, comme les bricoleurs qui ont trouvé des outils dont la complexité et la finalité leur échappent parfois et qu’ils utilisent alors à contre emploi. Cette critique sur la limite de l’utilisation des méthodes statistiques par les sociologues, que nous avons souvent rencontrée dans nos lectures 77 , atténue la prétention de ces derniers à se penser du côté des ingénieurs. Une des caractéristiques de ces derniers est que non seulement ils ont accès à des caisses contenant des outils complexes mais, que de plus, ils savent à la fois les utiliser et en concevoir de nouveaux. Par ailleurs, les travaux menés par les statisticiens les ont conduits, d’une part, à entamer une réflexion sur leur propre discipline et sur son instrumentalisation et, d’autre part, en questionnant les effets propres de leurs outils dans la saisie des fait sociaux, à se donner les moyens de construire leurs objets à partir de leurs pratiques : "[...] les statisticiens on dû se poser eux-mêmes les questions des rapports de leur activité à la théorie, et ils l’ont fait dans des termes originaux qui résultent des positions respectives des statistiques et de la sociologie." 78 Dans l’ensemble des textes portant, d’une part sur la recherche d’identité, tant des statisticiens que des sociologues, et d’autre part, sur la complexité des liens de dépendance, de pouvoir, de prééminence, de reconnaissance mutuelle, de concurrence, fait penser à des rapports sociaux complexes 79 . C’est sur cet enchevêtrement que s’articulent les liens que créent, d’une part, l’usage commun, tant de méthodes cherchant à recueillir des informations en nombre, que des 76. LÉVI-STRAUSS (C.) (19XX), La pensée sauvage, Paris 1985 77. (104) i.e. : GROSSETTI (M.), (1987), "Le retour du test du Khi2. Un usage exploratoire d’un test classique", in Parcours méthodologiques, Cahiers du centre de recherches sociologiques, n°5, février 1987, p. 133 : "Les principaux outils statistiques de la sociologie en France ont longtemps été des comptages simples, les tables de contingence, quelques calculs de moyennes et, bien sûr, l’inévitable ennemi des étudiants de cycle de sociologie : le test du Khi2. Même si ça et là des chercheurs poussaient plus loin le recours à la statistique (Claude Thélot ou Alain Degenne par exemple), le lot de la plupart de ceux qui utilisaient les enquêtes par questionnaires restant l’examen fastidieux de longues listes de tableaux avec le test de Khi2 et l’aspirine pour seule aide." 78. AFFICHARD (J.), (1982), "Contribution de la statistique à la mise en forme de la demande sociale d’information. Essai d’introduction à l’histoire des statistiques écrite par les statisticiens". in Actes de la journée d’étude ’Sociologie et statistique’ Paris, Document polycopié de l’Institut National de la Statistique et des Etudes Economiques et de la Société Française de Sociologie, 1982, tome 1, p. 11. 79. Cette intuition de rapports sociaux complexes est développée par JeanCaude Passeron : "La sociologie n’aurait à rendre compte de ses concepts qu’au tribunal d’une théorie où le statisticien ne saurait être cité que comme témoin subalterne. [...] À la limite, selon cette théorie impériale de la connaissance sociologique, la signification du raisonnement statistique, sa mise en assertion signifiante, ne pourrait lui advenir que d’une ontologie historique : ce serait toujours à lui de s’amender pour mériter de servir par ses ’constats iIIustratifs’ des énoncés sociologiques qui tirent d’ailleurs, c’est à dire d’une réalité supra-empirique, leur évidence théorique." PASSERON (J.-C.), (1991), Le raisonnement sociologique. L’espace non-poppérien du raisonnement naturel. collection Essais et Recherches, édition Nathan, Paris, pp. 111-112. 23 1.5. Quantification et mathématisation de la réalité sociale outils permettant de présenter la somme des informations recueillies et, d’autre part, l’apparente similitude des objets de recherche. L’inventaire de ces objets, pourrait s’apparenter à un inventaire dont l’exhaustivité ne pourrait même pas se clôturer sur l’existence d’un raton laveur 80 . Mais, là n’est pas notre propos ; pour autant, au détour de notre analyse portant sur l’utilisation et l’intérêt de certaines méthodes puis, sur celle de quelques outils, nous retrouvons pour partie ces objets communs aux statisticiens et aux sociologues. Ces objets sont à la fois lus et façonnés par les moyens qu’ils mettent en oeuvre pour les analyser. 1.5.6 De l’usage de quelques méthodes L’inventaire puis la classification des diverses méthodes communes à ces deux activités restent une gageure que nous ne cherchons pas à relever. D’autres avant nous, dans le champ de la sociologie, s’y sont aventurés avec quelque succès 81 . Nous nous proposons, modestement, d’envisager seulement certaines des phases, qu’il est d’usage d’appeler quantitatives dans une démarche de recherche et ce, non pas du strict point de vue de leur description ou de leur mise en oeuvre méthodologique, mais en essayant de montrer ce qu’elles donnent à voir. Les dénombrements Comme nous l’avons esquissé précédemment, le dénombrement n’est pas en soi une méthode spécifique ni de la sociologie, ni de la statistique. Il évoque l’énumération et le comptage qui ne sont pas, en propre, des opérations réservées à ces deux registres d’activité et le dénombrement n’est ni qualitatif ni quantitatif il leur est antérieur. Les entomologistes dénombrent les variétés d’insectes sans que cela apparaisse comme une spécificité dans leur discipline. Cette activité ne fait pas, de celui qui s’y livre, une variété d’entomologiste spécifique. Il en est de même pour le botaniste qui dénombre les différentes orchidées qu’il est possible de rencontrer dans telle ou telle aire géographique. Chacun demeure, malgré cette activité de dénombrement, qui botaniste, qui entomologiste et personne ne s’étonne de leur façon de travailler. En revanche, dénombrer dans le cadre d’une activité sociologique fait de vous un "sociologue quantitativiste" voire plus simplement un "quantitativiste". Comme il n’existe pas plus de "sociologue qualitativiste" que de "qualitativiste", cette précision dans l’acte de dénomination, qui permet, par une métonymie, de résumer le sociologue quantitativiste par une partie de son activité, le subsume en un sociologue qui n’en est pas vraiment un 82 . Il s’agit là d’un sérieux renversement de perspective, si l’on s’en tient à ce que disaient de l’utilité du dénombrement les Pères fondateurs de la sociologie française. Pour Emile Durkheim, le terme statistique, dans Le suicide, semble synonyme de dénombrement. Elle est un moyen de lecture tant des actes criminels que des mariages ou encore des décès qui se produisent dans une société et c’est elle qui permet d’inférer par le dénombrement qu’il s’agit non de comportements individuels mais de faits sociaux : "La vérité, c’est qu’ici, comme quand il s’agit du suicide, les chiffres de la statistique expriment, non l’intensité moyenne des dispositions individuelles, mais celle de la force collective qui pousse au mariage. " 83 80. PREVERT (J.), (1946), "Inventaire", in Paroles, collection folio, 1976 81. GRAWITZ (M.), (19XX) Méthodes des sciences sociales. éditions Dalloz, Paris, 1993, 9ème édition, 870 p. 82. Bien que sur un autre sujet, on trouvera des exemples d’analyse de cette présentation métonymique des activités et des personnes dans le travail de GUILLAUMIN (C.), (1972), L’idéologie raciste. Genèse et langage actuel. édition Mouton, Paris. 83. DURKHEIM (E.), (18XX), Op. cit., note p. 345 24 1.5. Quantification et mathématisation de la réalité sociale Traitant des origines de la morale, Emile Durkheim pousse plus loin cette analyse en insistant sur la supériorité de la valeur démonstrative des régularités observées par le dénombrement sur celles permises par les valeurs moyennes dont se sert Quételet(110). C’est d’ailleurs sur cet argument de la régularité statistique qu’il fonde une des positions centrales de son interprétation : la "morale vient de la société" 84 elle procède de la conscience de celle-ci et non pas de celle des individus. "L’observation confirme l’hypothèse. D’un côté les régularités des données statistiques impliquent qu’il existe des tendances collectives, extérieures aux individus ; de l’autre, dans un nombre considérable de cas importants, nous pouvons directement constater cette extériorité. " 85 Le dénombrement sert ici à valider une hypothèse, il peut être utilisé faute d’autres informations non biaisées par l’affectivité ou la perception sensible et servir à la mise à distance du réel, comme nous l’avons déjà envisagé dans ce polycopié. Mais là ne s’arrête pas l’utilité du dénombrement car, s’il permet la mise à distance, il met aussi au dehors de l’objet et favorise ainsi une prise de recul avec l’objet "Nous partons du dehors parce qu’il est immédiatement donné, mais c’est pour atteindre le dedans. Le procédé est, sans doute, compliqué mais il n’y en a pas d’autre, si l’on veut faire porter la recherche, non sur l’ordre de fait que l’on veut étudier, mais sur le sentiment personnel que l’on en a." 86 ". Cette extériorité à la chose sociale, que permet l’utilisation des dénombrements, nous paraît répondre à l’injonction durkheimienne : "considérer les faits sociaux comme des choses" et de ce fait s’inscrit dans une tentative de mise à distance de la connaissance sensible. Cette conception des mécanismes permettant l’objectivation est à réinscrire dans l’état de développement des connaissances de l’époque. Cette mise à distance par le nombre, qui est un des caractères les plus «immédiatement accessibles» 87 , serait sans doute réductrice si elle ne se doublait pas d’une recherche de caractéristiques moins visibles. Pour autant, ce regard porté sur les choses sociales à travers le nombre, détermine une part importante des modes d’explications mis en place pour en rendre compte. L’approche quantitative du suicide induit ainsi chez Emile Durkheim, d’une part, une production de tableaux qui sont tout à la fois la manifestation d’opérations de dénombrement et d’organisation du réel par des distributions et, d’autre part, la recherche soit de régularités, soit de ruptures, soit de parallélismes dans les évolutions. L’ensemble de ces activités ne sont pas la sociologie ; pour autant à l’origine de cette discipline, elles en semblent inséparables et au coeur même de sa démarche. En regrettant que ce ne soit pas suffisamment le cas dans l’Année sociologique, Marcel Mauss n’affirmait-il pas, dans un passage issu d’un texte de 1927 , qui, si l’on en croit le nombre de reprises dont il est l’objet, fait figure de maxime pour les sociologues : " La statistique, mathématique sociale, pourtant d’origine sociologique elle même, semble se réduire pour nous aux problèmes usuels : de la population [...], de la criminologie et de l’état civil [...], de l’économie, cette partie de nos sciences qui se vante d’être le domaine du nombre et des lois du nombre et qui l’est en effet en partie. Cette restriction de l’emploi des statistiques est inexacte. Au fond tout problème social est statistique. La fréquence du fait, le nombre des individus participants, la répétition au long du temps, l’importance absolue et relative des actes et de leurs effets par rapport au reste de la vie, etc., tout est mesurable et devrait être compté. 88 84. DURKHEIM (E.), (18XX), op. cit. p. 360 85. DURKHEIM (E.), (18XX), op. cit. p. 360 86. DURKHEIM (E.), (1897), Le suicide. Etude de sociologie. op.cit. note 1 page 356 87. DURKHEIM (E.), (1894), Les règles de la méthode sociologique. op.cit. p. XIII 88. MAUSS (M.), (1927), "Divisions et proportions des divisions de la sociologie", in l’Année Sociologique, nouvelle série, 2, (1924-1925), pp. 3-21, Melin. (C’est nous qui soulignons). 25 1.5. Quantification et mathématisation de la réalité sociale Cette citation, bien qu’un peu longue, rappelle l’importance du dénombrement dans le travail sociologique, mais dénombrer ce n’est pas faire oeuvre sociologique, c’est une technique du sociologue qui lui permet de prendre du recul par rapport au phénomène que le sociologue veut examiner ; donc c’est une technique qui lui permet de le lire. Ce point de vue sur l’efficacité de la quantification pour lire le social que réaffirme Marcel Mauss à la suite d’Emile Durkheim est revendiqué dans des travaux contemporains. Ainsi Alain Girard propose une interprétation du choix du conjoint 89 qui, n’étant plus contraint par une pression familiale, ne repose pas pour autant sur la seule subjectivité des individus mais sur la fréquentation de lieux homogames livrés à l’activité laborieuse ou de loisirs de certains groupes socioprofessionnels. Le sujet ne choisit pas en toute liberté son conjoint, les unions restent homogames même si le choix apparaît en première approche libéré de tout dirigisme. Cet exemple est repris ultérieurement par Michel Bozon et François Héran qui montrent comment les méthodes statistiques leur permettent de saisir, d’une part, sur quels ensembles d’éléments repose le fait de tomber amoureux et, d’autre part, comment ces ensembles sont liés à l’appartenance à tel ou tel milieu social. En revanche, soulignent-ils, les méthodes quantitatives ne sont pas le seul moyen qui permette de saisir la complexité des variables en jeu dans le fait de tomber amoureux. 90 Cet exemple ne cherche pas à ouvrir un débat sur l’existence d’une primauté de la démarche quantitative sur la démarche qualitative ou l’inverse il tente seulement de dégager l’existence d’une spécificité d’un regard sur la chose sociale tout orienté par le dénombrement 91 . Si ce dernier est un moyen d’accès à la réalité sociale, se trouve immédiatement posée la question de la nature de ce qui est dénombré, c’est-à-dire des unités de compte, des entités qu’elles recouvrent et de la précision de leurs limites. L’usage des nomenclatures La fabrication de classements et de nomenclatures ponctue l’histoire de l’humanité depuis celle d’Aristote sur les animaux, à celle Mendeleïev sur les éléments, en passant par celle de Linné puis, dans un autre genre, à celle reprise de Borges par Michel Foucault au début de Les Mots et les choses 92 : "a) appartenant à l’Empereur, b) embaumés, c) apprivoisés, d) cochons de lait, e) sirènes, f ) fabuleux, g) chiens en liberté, h) inclus dans la présente classification, i) qui s’agitent comme des fous, j) innombrables, k) dessinés avec un pinceau très fin en poils de chameau, l) et cætera, m) qui viennent de casser la cruche, n) qui de loin semblent des mouches" 93 Ce système classificatoire du monde animal, dont Michel Foucault écrit qu’il l’a 89. GIRARD (A.), (1964), Le choix du conjoint. une enquête psychosociologique en France. Travaux et documents, cahier n° 44. édition PUF INED, Paris, 1964, 201 p. 90. BOZON (M.) HERAN (F.), (1988), "La découverte du conjoint. Les scènes de rencontre.", in Population n° 1, édition INED, Paris 1988, p. 121-149. 91. Avec quelques réserves sur la participation des méthodes à la constitution de l’objet, nous rejoignons en cela Jean-Claude COMBESSIE qui écrit : "Notre intention n’est pas de nier l’existence d’effets de méthode sur l’objet à la constitution duquel elles participent mais il nous apparaît que celles qui sont le plus couramment relevées ne sont imputables à aucune différence d’extension de l’objet en tant que tel [...] mais à la diversité des points de vue qui sont pris sur l’objet ou, en d’autres termes au nombre de relations différentes dans lequel il est inséré et qui le construisent au sens plein comme objet social." dans Effet de méthode." COMBESSIE (J.-C.), (1982), "A propos du marché du travail" in Actes de la journée d’étude «Sociologie et statistique Paris, Document polycopié de l’Institut National de la Statistique et des Etudes Economiques et de la Société Française de Sociologie, 1982, tome 1, p. 111. 92. FOUCAULT (M.), (1966), Les mots et les choses. Une archéologie des sciences humaines, édition NRF Gallimard, Paris 1966, p. 7. 93. BORGES (J. L.), "La Langue analytique de John Wilkins" in Oeuvres complètes, édition établie par Jean-Pierre Bernès, Bibliothèque de la Pléiade, Gallimard, Paris 1993, p.749. 26 1.5. Quantification et mathématisation de la réalité sociale "fait rire longtemps, non sans un malaise certain et difficile à vaincre" 94 , illustre, par les rapprochements qu’il provoque, les différentes possibilités qui s’ouvrent pour classer le monde animal, les différents regards qui peuvent être posés sur celui-ci et, par là-même, les effets sur le réel d’une classification s’appuyant sur des principes hétéroclites. Cette hétérodoxie des catégories de la classification des animaux dans La Langue analytique de John Wilkins 95 pose la question du choix des critères permettant l’ordonnancement de l’ensemble sur lequel s’effectue la projection, depuis l’ensemble Q dans les cas où les caractères des éléments de Q n’appartiennent pas aux espaces ordonnés qui sont ceux définis par les mathématiques. Si donc l’ordre n’est pas consubstantiel du caractère des éléments de Q, le travail d’ordonnancement est à faire pour chaque recherche car "il n’y a pas de bonne catégorie en soi indépendamment des pratiques étudiées" 96 ajouterions-nous dans le droit fil de la problématique développée pour mener à bien la recherche. Dans ce contexte, les sociologues utilisent fréquemment les résultats de dénombrements effectués par d’autres et à d’autres fins. Cette voie est ancienne, les statistiques utilisées par Emile Durkheim dans Le suicide ont été élaborées pour d’autres que lui et avec d’autres finalités que de recomposer le regard porté sur ce qui, jusqu’alors, était considéré comme un événement individuel mettant fin à une vie. 97 La fiabilité relative des données recueillies par d’autres et à d’autres fins n’est pas spécifique d’un temps ancien et révolu. Ainsi, les statistiques de la police et plus particulièrement l’état 4001 rempli chaque mois dans chaque commissariat de police que nous avons dû utiliser, 98 nous ont permis de nous confronter aux diverses difficultés rencontrées lors de l’utilisation de ce qu’il est coutume d’appeler les "statistiques sociales". Les rubriques de cet état 4001, dont les définitions sont pour le moins succinctes, sont renseignées différemment d’un commissariat à l’autre, d’un agent de la force publique à l’autre, et, de plus, ne sont pas les mêmes d’une année sur l’autre. Les travaux d’évaluation de la délinquance ne peuvent, compte tenu de ces difficultés, être entièrement menés à bien avec cette unique source. 99 La faible qualité de ces sources statistiques n’est pas le seul problème que rencontre le chercheur lorsqu’il est confronté à des données dont la définition et le recollement lui échappent. Celles-ci se présentent souvent sous la forme de tableaux et le retour aux données individuelles pour fabriquer d’autres variables ou d’autres tableaux par associations de variables n’est pas 94. FOUCAULT (M.), (1966), Les mots et les choses, op. cit. p. 9 95. BORGES (J. L.) Ibid. 96. De SINGLY (F.), (1982), "Les bons usages de la statistique dans la recherche sociologique", in Sociologie et Statistique, revue Economie et Statistique n°168, édition de l’Insee, Paris, 1984, p. 17. Le propos tenu par François de Singly n’est pas obligatoirement le reflet de sa position car, bien que ce texte ne soit pas entre guillemets dans son article, cette citation, comme tout le texte dont elle est issue, est un rapport sur les communications présentées à la journée d’étude «Statistique et sociologie» organisée par la Société française de sociologie et l’Insee à Paris en 1982 97. Il serait ici possible de critiquer la nature des sources statistiques qu’utilise Emile Durkheim, d’en montrer l’hétérogénéité relative, les risques de sur ou sous enregistrement qui leur sont inhérents, voire d’examiner si les chiffres qu’il manipule correspondent à la définition qu’il se donne lui-même du suicide : "On appelle suicide tout cas de mort qui résulte directement ou indirectement d’un acte positif ou négatif, accompli par la victime elle même et qu’elle savait produire ce résultat."(Le suicide. Op. cit. p. 5.) Pour autant, même si les méthodes statistiques utilisées sont sommaires et les chiffres manipulés incertains -il est impossible que les données recueillies satisfassent à cette définition- la démarche reste un des exemples les plus lumineux de ce qu’apporte l’usage des données quantifiées dans une démarche sociologique. 98. BEYNIER (D.), (198X), Diagnostic local de sécurité, (collaboration technique de Briard (V.) et Deuss (K.)), rapport pour le Conseil Intercommunal de Prévention de la Délinquance (C.I.P.D.) de la Communauté Urbaine de Cherbourg(C.U.C.). 165 pages (dont annexes) 99. Depuis cette expérience nous ne doutons pas des chiffres qui retracent l’évolution de la criminalité mais de la faisabilité de leur production. 27 1.5. Quantification et mathématisation de la réalité sociale toujours possible. Cette dernière forme de difficulté n’est pas spécifique de l’utilisation des données sociales issues des services dont l’activité principale n’est pas la collecte d’informations statistiques. Comme le montre Odile Benoit-Guilbot, l’utilisation des données colligées par l’Insee 100 est l’occasion de quelques contrariétés pour le chercheur. Son travail ne se limite pas à une réorganisation des données fabriquées par l’Insee à des fins qui n’étaient pas celles pour lesquelles il cherche à les utiliser. Pour mener à bien son travail, le chercheur est souvent amené à les recomposer pour rechercher d’autres relations que celles qui sont mises en évidence dans les tableaux publiés. Ainsi, qui n’a pas été confronté à des tableaux qui ne donnent à lire que des fréquences en ligne ou en colonne sans référence ni à l’effectif total ni aux effectifs marginaux et ainsi ne permettent aucune des opérations usuelles. Il est dans ce cas nécessaire de retourner aux données brutes pour la fabrication de nouveaux tableaux et, le cas échéant, de nouvelles variables plus propres à rendre compte du réel. Ce travail n’est pas toujours possible compte tenu des formes données à l’enregistrement des données ou à l’étendue de l’aire géographique choisie 101 . Les difficultés qu’évoque Odile Benoit-Guilbot ont assez peu de répercussions sur la pratique d’une démographie élémentaire. Les choses sont relativement simples et peu discutables ; les événements qui intéressent les démographes lorsqu’ils travaillent dans les pays développés sont assez clairement identifiables et recollés avec précision (i.e. : dates de naissance ou de décès, individus) ou sont le fruit de découpages effectués par d’autres et qu’ils utilisent au mieux sans participer de leur définition (i.e. : limites communales ou cantonales, pays d’origine, statuts matrimoniaux ). Les catégories ne sont plus aussi évidentes quand elles recouvrent des réalités autres que biologiques, administratives ou juridiques. Les débats internes à l’Insee pour définir ce qu’est un chef de ménage et le passage d’une définition à l’autre pour enregistrer ce renseignement cachent bien autre chose qu’un simple changement de nomenclature. Avant 1982, était considéré comme chef de ménage la personne qui, sur la fiche de recensement décrivant la composition du ménage, occupait la première ligne. Cette méthode avait pour avantage d’être techniquement simple et de refléter un ordre de prééminence dont la gestion était dévolue à la famille. Certes, il reflétait aussi bien d’autres choses parmi lesquelles on peut énumérer la persistance de la position historiquement et idéologiquement acquise par les hommes comme chef de famille et la soumission plus ou moins admise des femmes à ce qui se donnait comme un ordre établi. En revanche, cette position occupée dans la liste décrivant la composition des ménages, ne reflétait en rien ni l’activité salariée ou non des personnes la composant, ni leurs âges respectifs, même si, pour les enfants présents dans ces listes, l’usage prédominant est de les classer du plus vieux au plus jeune. Les tableaux fournis par l’Insee à partir de cette nouvelle nomenclature mise en place pour déterminer le chef de ménage ne permettent plus de lire l’ordre interne fixé par les familles ; mais de savoir, qui en fonction de son activité professionnelle, de son sexe et de son âge, a été choisi pour occuper cette place. On a gagné en précision sur la définition de cette catégorie sur le plan socio-économique tel que le définit l’Insee ; en revanche on a sans doute perdu en connaissance sur la hiérarchisation que se 100. BENOIT-GUILBOT (O.), (1982), "L’odyssée du sociologue a la recherche de données Insee", in Actes de la journée d’étude Sociologie et statistique Paris, Document polycopié de l’Institut National de la Statistique et des Etudes Economiques et de la Société Française de Sociologie, 1982, tome 1, pp. 33-38 101. Si, depuis la description de la situation que faisait en 1982 Odile BENOIT-GUILBOT, les facilités de fabrication de nouveaux tableaux, de recomposition de variables se sont accrues, en revanche, l’impossibilité, pour des raisons de confidentialité, d’obtenir de nouveaux traitements sur des aires géographiques ou administratives continues peuplées de moins de 2000 habitants entrave toute possibilité d’effectuer des enquêtes locales à partir des fichiers de l’Insee 28 1.5. Quantification et mathématisation de la réalité sociale donnent par elles-mêmes les familles. Les enjeux autour de la fabrication des nomenclatures ne sont pas un problème localisé. Ce qui peut paraître la simple question d’une définition des catégories socioprofessionnelles et l’élaboration d’une nomenclature fait l’objet d’une littérature abondante de plus d’une centaine de références 102 . Cette profusion de textes, sur un instrument de classification au demeurant familier ne peut être le fait du hasard. L’examen rapide, ne serait-ce que de l’ordre dans lequel sont rangées les catégories sociales et le nombre de subdivisions dont elles sont l’objet, montre que plus qu’un outil neutre permettant d’enregistrer un reflet de la réalité, elles traduisent aussi, pour une part, la position sociale des personnes qui ont construit cette taxinomie. Le résultat, à certains égards, peut sembler digne de Borges. Dans le recensement de 1975 103 , le nombre de sous-groupes permettant la classification des cadres est ainsi un sujet de questions sans réponse pour toute personne qui cherche dans la taxinomie elle-même les réponses à son organisation. Le responsable ou plus exactement les responsables de cette classification sont des personnels de l’Insee qui appartiennent à la catégorie des cadres du public. De cette appartenance ils tirent une meilleure connaissance des signes de distinction en usage entre cadres du public, que de ceux qui régissent la distinction entre les cadres du privé, la taxinomie des premiers est ainsi plus précise que celle des seconds. Cela se traduit par une différence dans le nombre d’exemples donnés pour illustrer les rubriques. Cette différence n’est en rien le reflet d’un écart numérique entre les deux populations. Si l’on tient compte de ce dernier élément la disparité de traitement devient encore plus criante. Classification à la Borges disions-nous, peut-être exagérons-nous, encore que, comme le faisaient remarquer Alain Desrosières et Laurent Thévenot, en reprenant les catégories en vigueur lors du recensement de 1975, le classificateur lui même qui est un cadre supérieur du public, dans quelle rubrique se range-t-il ? "’32 professeurs ; professions littéraires et scientifiques’, ’33, ingénieurs’, ’34 cadres administratifs supérieurs’ 104 La solution n’est pas simple et dépend de la personne qui est chargée de mettre en oeuvre la classification. Cette conclusion rejoint celle à laquelle était arrivée l’étude menée par Dominique Merllié 105 sur les classifications faites sur la profession des pères des entrants à l’université. Ce chercheur s’interroge sur les disparités importantes qu’il constate entre l’enregistrement de la structure socioprofessionnelle colligée au niveau ministériel, réalisée dans les universités sur les lieux d’inscription et les résultats donnés par d’autres modes d’investigation 106 . Les différences qu’il observe sont liées, d’une 102. On trouve une bibliographie sur ce thème à la fin des articles de : DESROSIÈRES (A.) THÉVENOT (L.), (1979), "Les mots et les chiffres : les nomenclatures socioprofessionnelles.", in Economie et Statistique, n°110 édition de l’Insee, Paris, 1979, p 49-65. DESROSIÈRES (A.), (1987), "Les nomenclatures de professions et d’emplois" ; in Pour une histoire de la statistique (tome 2, matériaux), Paris, édition Insee, Economica, 1987, p. 35-56. THÉVENOT (L.), (1987), "Les enquêtes formation qualification professionnelle et leurs ancêtres français.", in Pour une histoire de la statistique, (tome 2 matériaux) Paris, édition Insee, Economica, 1987, p. 117-166. 103. Les critiques de cette nomenclature de 1975 faites, tant par des statisticiens au sein même de l’Insee que par des sociologues, entraîneront des modifications profondes qui se font sentir dès le recensement de 1982. Sur la refonte de la nomenclature, on peut se référer à la présentation commentée qu’en font DESROSIÈRES (A.) GOY (A.) THÉVENOT (L.), (1983) "L’identité sociale dans le travail statistique. La nouvelle nomenclature des professions et catégories socioprofessionnelles". in Economie et Statistique, n° 152, 1983, 104. DESROSIÈRES (A.) THÉVENOT (L.), (19XX) "Les mots et les chiffres : les nomenclatures socioprofessionnelles.", op. cit. p 50. 105. MERLLlÉ (D.), (1982), "Une nomenclature et sa mise en oeuvre. Les statistiques sur l’origine sociales des étudiants", in Actes de la recherche en sciences sociales., édition M.S.H. et E.H.E.S.S., Paris, 1982, n° 50, pp. 3-47. 106. "On peut trouver d’autres indications confirmant que des écarts relativement important séparent l’évaluation des catégories socio-professionnelles des pères des étudiants dans l’enquête administrative des inscriptions de celle d’autres enquêtes." MERLLlÉ (D.), op. cit. p.19. Parmi ces autres enquêtes on peut noter : celles 29 1.5. Quantification et mathématisation de la réalité sociale part aux modes de recueil des données, à la précision de l’information communiquée par les étudiants, au niveau de formation donnée aux codeurs et à l’appréciation qu’ils portent sur la qualité de l’information qu’ils traitent 107 et, d’autre part, à la connaissance sensible que les codeurs ont des catégories socioprofessionnelles qu’ils sont amenés à codifier 108 . Les taxinomies sensibles et taxinomies savantes Ce lien qu’entretiennent les nomenclatures avec la perception sensible n’est pas une constatation nouvelle. Elles peuvent ne refléter que le sens commun dont nous parle Durkheim au début des Règles de la méthode sociologique et dans ce cas, il insiste 109 , elles sont un obstacle entre la réalité et nous, cela d’autant plus qu’elles apparaissent naturelles. Pour paraphraser Emile Durkheim, les catégories doivent procéder des idées et non des choses ; pour autant, nous ne sommes pas à l’abri dans cette perspective de quelques déboires. Les classifications logiques ou taxinomies savantes ne sont pas sans générer, elles aussi, ce que nous avons envie d’appeler ’l’effet Borges’. Leur modèle est de près ou de loin la réussite que représente en botanique le travail effectué par Linné 110 qui, à partir de quelques éléments simples et clairement identifiés, organise et décrit l’ensemble de la flore. Cette classification logique ou savante se substitue à un ensemble de classifications qui se basaient tantôt sur les vertus des plantes, tantôt sur leurs couleurs ou encore sur leurs liens avec telle ou telle mythologie ou conte de fées. Il est tentant de procéder pour toutes les taxinomies de la même manière : identifier un ensemble de caractéristiques, puis procéder, par la suite, à une classification systématique. Cette méthode, qui a eu le succès que l’on sait pour le monde végétal, tient en grande partie d’une part, à la visibilité immédiate des caractères constitutifs retenus et, d’autre part, à leur stabilité relative tant dans leur forme que dans leur fonction. Le monde animal se prête déjà moins facilement à ce type de classification. L’activité humaine, quant à elle, semble un défi aux critères de visibilité et de stabilité qui sont le gage de la faisabilité du travail taxinomique. La difficulté intervient pour les classifications logiques de manière cruciale au moment de la réalisées sur le devenir des étudiants dans plusieurs universités et l’étude longitudinale réalisée par le service des statistiques du Ministère de l’éducation nationale sur l’ensemble des bacheliers 1975 inscrits par la suite en université et dont les inscriptions successives sont suivies de 1975-1976 à 1979-1980. Cf. la Note d’information n° 82-13 du 3 mai 1982 du SIG ES. 107. A des fins pédagogiques, dans le cadre d’un enseignement de statistique nous avons effectué l’expérience suivante : demander à chaque étudiant la profession de son père. Nous en avons fabriqué une liste qui à été redonnée aux étudiants avec la consigne de classer ces métiers selon la grille en 9 positions de l’I.N.S.E.E. ; 83 étudiants ont suivi la consigne, la catégorie cadre moyen a été proposé 12 fois par un étudiant, et 54 fois par un autre. Entre ces deux bornes la distribution des effectifs est quasi normale. 108. L’étude, déjà citée, de Dominique Merllié a vu ses conclusions confirmées par celle réalisée par Jean Peneff sur 144 dossiers d’étudiants s’inscrivant en première année de sociologie à l’université de Nantes pour l’année universitaire 1979-1980. Ces auteurs mettent en évidence l’invraisemblance des résultats obtenus par l’étude des dossiers que font remplir les services administratifs et il analyse les mécanismes qui participent de ces résultats : "Tout d’abord la mauvaise qualité des informations communiquées par les étudiants, ensuite les différences dans le codage des réponses et enfin les conditions de recueil." MERLLIÉ (D.) PENEFF (J.), (1984), "La fabrication statistique ou le métier du père.", in Sociologie du travail, n°2, édition Dunod, Paris 1984, pp. 195-211. 109. DURKHEIM (E.), (1984), op. cit. p. 16. "Encore les notions ainsi formées ne présentent-elles cette justesse pratique que de manière approximative et seulement dans la généralité des cas. Que de fois elles sont aussi dangereuse qu’inadéquates ! Ce n’est donc pas en les élaborant de quelque manière qu’on s’y prenne que l’on arrivera jamais à découvrir les lois de la réalité. Elle sont, au contraire un voile qui s’interpose entre les choses et nous et qui nous les masque d’autant mieux qu’on le croit plus transparent. 110. LINNE (C.), Système sexuel des végétaux p. 21, Philosophie botanique §284, cité par FOUCAULT (M.), (19XX), Les mots et les choses, Op. cit. pp. 149-162 30 1.5. Quantification et mathématisation de la réalité sociale mise en oeuvre, car leurs modes opératoires se heurtent, non seulement à la faible lisibilité des éléments distinctifs qui les organisent, mais, de plus, aux taxinomies naturelles qui organisent la perception du monde chez les personnes qui sont amenées à les utiliser. La classification des catégories socioprofessionnelles, utilisée par l’Insee lors des derniers recensements, est un essai de classification savante ; pour autant, de nombreuses ambiguïtés demeurent et sont laissées soit à l’appréciation des codeurs, soit à un système de convention dont la classification ne peut seule rendre compte. Il ne s’agit pas là de la marque de l’incapacité à organiser le réel par une application sur un ensemble dont l’ordre ne serait pas, comme pour celui des réels, indiscutable car constitutif même de l’ensemble, mais de la conséquence de la différence d’usage des mots qui existent entre leur utilisation par les taxinomistes et celle qu’en font les individus dans leur rapports sociaux. Les taxinomistes cherchent par des caractères qui paraissent objectifs — niveau de diplôme, formation, forme d’exercice de la profession, statut de l’employeur, branche d’activité — à ordonner, ce faisant il font correspondre de manière stricte des mots et des définitions. Les individus eux utilisent l’énonciation de leur profession afin d’exister pour eux et pour les autres. Cette énonciation pour les individus interrogés lors d’enquêtes ou de sondages ne prend pas sens dans un rapport étroit entre une dénomination et ce qu’elle recouvre mais dans le lien que ces personnes entretiennent avec les autres quand elles racontent leur profession ou leur position sociale. Le fait qu’une personne se réclame d’un statut d’ingénieur en telle ou telle spécialité n’en fait pas forcément quelqu’un qui a obtenu un titre d’ingénieur délivré par une des écoles dûment accréditées pour ce type de certification. Il s’agit, la plupart du temps, soit d’une personne qui se réclame de ce titre car le rôle qu’elle joue dans l’entreprise s’apparente à celui que la communauté de travail prête à l’ingénieur, soit d’un individu qui diplômé ou non exerce une activité de conseil, de conception, d’expertise dans un champ professionnel où le titre d’ingénieur n’existe pas (ingénieur d’intérieur, ingénieur horticole ... ). Cette différence de conception, entre la certification et l’aspiration d’appartenance à un groupe social, n’est pas sans provoquer quelques hiatus entre ce qu’enregistrent les taxinomies savantes et ce que se représentent les individus d’eux-mêmes 111 . La complexité des opérations de classification fut dès le début de leur mise en oeuvre, un sujet de débats entre scientifiques car dans le même moment où elles autorisent le dénombrement des plantes par espèces, des individus par activités, des décès par causes, des productions par aires géographiques, elles ordonnent la lecture du monde, elles disent quelque chose sur sa forme et donc, comme nous avons essayé de le montrer, sur sa qualité. Les premières, celles de Linné, qui servent comme nous l’avons écrit de modèle aux taxinomies savantes, ont été en leur temps l’objet de débats qui concernaient la conception du monde et non la pertinence de leur découpage du monde végétal. Comme le rappelle Michel Foucault dans Les mots et les choses, l’opposition entre Linné et Buffon repose essentiellement sur un désaccord profond quant à l’existence d’invariants communs à toutes les espèces permettant, 111. DESROSIÈRES (A.) et THÉVENOT (L.) rappellent, par exemple, que le rapprochement de plusieurs sources R.P. de 1975 et Enquête emploi de la même période sur 17000 personnes dont on s’est assuré qu’elles n’ont pas changé d’emploi, montre que "39% des individus classés au recensement dans la rubrique «78.09 -Ingénieur et cadre technique supérieur de l’informatique)) et 31% de ceux placés dans la rubrique «78.10 Ingénieur et cadre supérieur spécialiste de l’organisation et de la gestion, ingénieur conseil» ont été affectés à d’autres rubriques à l’enquête emploi ; [...] Les variations dans les déclarations des mêmes individus touchent 33% des bulletins affectés à la première rubrique et 57% de ceux qui ont été placés dans la seconde.", in "Les mots et les chiffres : les nomenclatures socioprofessionnelles", op. cit., p. 53 31 1.5. Quantification et mathématisation de la réalité sociale comme le propose Linné, d’en classer toutes formes 112 . La quantification des caractères comme expression de la forme c’est à dire comme ordre numéral discontinu au sens où ce qui est un n’est pas deux par le simple principe de continuité que représente l’ajout de un. C’est ce dernier point qui l’oppose à Buffon dont la représentation de la nature le poussait à classer selon les similitudes qui existaient d’une espèce à l’autre. Le système de classification de Buffon se propose d’ordonner les espèces selon une opposition basée sur des critères de similarité dissimilarité. On compare deux espèces et on regarde leur similarités et leur dissimilarités. Les dissimilarités sont les caractéristiques des espèces. On renouvelle la comparaison deux à deux avec n espèces et ainsi on garde un noyau de similarité qui est la trace de la continuité des différentes espèces. Nos idées générales dit Buffon, "sont relatives à une échelle continue d’objets, de laquelle nous n’apercevons nettement que les milieux et dont les extrémités fuient et échappent toujours plus à nos considérations» [...]Et Bonnet disait dans le même sens qu’iI n’y a pas de sauts dans la nature : tout y est gradué, nuancé. Si entre deux êtres quelconques, il existait un vide que serait la raison de passage de l’un à l’autre ? Il n’est donc point d’être au dessus et au dessous duquel il n’y en ait qui s’en rapprochent par quelques caractères et qui s’en éloignent par d’autres" 113 . L’opposition de Buffon et de Linné dépasse la simple classification des événements produite par un choix de mode classificatoire, les options retenues par chacun sont révélatrices, tant de l’organisation du monde que de la manière dont la connaissance s’articule au réel. Pour Buffon, il est clair que la connaissance produite par les classifications s’articule sur un repérage préalable des espèces, c’est à dire sur des classifications sensibles, et le travail consiste dans ce cas à décrire les différences existantes. En revanche, le système classificatoire proposé par Linné pour le monde végétal, tout comme celui de Mendeleïev pour les éléments, permet, par une simple combinatoire des caractères de base, de décrire des espèces encore inconnues mais possibles : "Le système indique des plantes, même celles dont il n’a pas fait mention ; ce que ne peut jamais faire l’énumération d’un catalogue" 114 . Si l’on suit Linné, l’énumération à l’inverse de la classification ne produit pas de savoir nouveau, elle énumère les objets que l’on connaît déjà en leur donnant un ordre analogue à celui que l’on trouve dans un catalogue. En revanche, les classifications savantes produisent un savoir sur le réel, elles permettent d’en connaître l’organisation et les trous. Cette conception de la fonction des classifications parait fort moderne ; sans les inaugurer, elle laisse entrevoir l’utilisation que nous faisons des techniques actuelles de classification. Il n’en reste pas moins que la description qui est ainsi donnée du réel dépend des éléments de base qui ont été retenus pour la mise en oeuvre de la taxinomie, le nombre de classes déterminé dépend du nombre de critères retenus. Ainsi, par exemple, Linné calcule que leur combinaison permettra la description de 5776 configurations. La valeur obtenue par Linné correspond au calcul 4 × 38 × 38. Pour nous 38 organes et 4 modalités par organe représentent 384 = 75557863725914300000000 issues possibles. Pour autant, cette classification exclut tout autre élément que ceux dont elle peut rendre compte : les plantes n’ont plus ni odeur, ni saveur, ni couleur ; les plantes que voit Linné et qu’il décrit ont en grande partie perdu le contact avec la perception sensible ; le goût de la pomme de terre ne peut être comparé à celui 112. Ainsi, Michel Foucault, reprenant le raisonnement proposé par Linné rappelle cette phrase qu’il nous présente comme extraite de Philosophie Botanique : "Sache que ce n’est pas le caractère qui constitue le genre, mais le genre qui constitue le caractère, que le caractère découle du genre, non le genre du caractère". FOUCAULT (M.), (19XX), op. cit. p. 159. 113. FOUCAULT (M.), (19XX), op. cit. pp. 159-160. 114. FOUCAULT (M.), (19XX), op. cit. p. 159. 32 1.5. Quantification et mathématisation de la réalité sociale du chou dans cette taxinomie. Figure 1.1 – Codage pour 3 organes et 4 états Organe A B C a Aa Ba Ca Etat b c Ab Ac Bb Bc Cb Cc d Ad Bd Cd Figure 1.2 – Énumération des possibilités pour 3 organes et 4 états 00 16 32 48 01 Aa,Ba,Ca Ab,Ba,Ca Ac,Ba,Ca Ad,Ba,Ca 02 Aa,Ba,Cb Ab,Ba,Cb Ac,Ba,Cb Ad,Ba,Cb 03 Aa,Ba,Cc Ab,Ba,Cc Ac,Ba,Cc Ad,Ba,Cc 04 Aa,Ba,Cd Ab,Ba,Cd Ac,Ba,Cd Ad,Ba,Cd 05 Aa,Bb,Ca Ab,Bb,Ca Ac,Bb,Ca Ad,Bb,Ca 06 Aa,Bb,Cb Ab,Bb,Cb Ac,Bb,Cb Ad,Bb,Cb 07 Aa,Bb,Cc Ab,Bb,Cc Ac,Bb,Cc Ad,Bb,Cc 08 Aa,Bb,Cd Ab,Bb,Cd Ac,Bb,Cd Ad,Bb,Cd 09 Aa,Bc,Ca Ab,Bc,Ca Ac,Bc,Ca Ad,Bc,Ca 10 Aa,Bc,Cb Ab,Bc,Cb Ac,Bc,Cb Ad,Bc,Cb 11 Aa,Bc,Cc Ab,Bc,Cc Ac,Bc,Cc Ad,Bc,Cc 12 Aa,Bc,Cd Ab,Bc,Cd Ac,Bc,Cd Ad,Bc,Cd 13 Aa,Bd,Ca Ab,Bd,Ca Ac,Bd,Ca Ad,Bd,Ca 14 Aa,Bd,Cb Ab,Bd,Cb Ac,Bd,Cb Ad,Bd,Cb 15 Aa,Bd,Cc Ab,Bd,Cc Ac,Bd,Cc Ad,Bd,Cc 16 Aa,Bd,Cd Ab,Bd,Cd Ac,Bd,Cd Ad,Bd,Cd Pour suivre la progression de l’énumération la lecture des cases s’effectue en colonne ↓. Le numéro d’ordre de la case est donné en additionnant les nombres en italique qui sont au dessus des colonnes et ceux en début de ligne Pour 3 organes et 4 états il y a 64 combinaisons possibles ce qui s’obtient par 43 = 64 combinaisons. Pour o organes et e état il y a en possibilités. Dans le champ de la recherche en sociologie, la question de la définition des variables à utiliser est un des points cruciaux de la mise au point des protocoles de recherche. Dès l’écriture du projet, l’utilisation de catégories de lecture, que nous ne disons pas savantes, mais seulement sociologiques, oppose le découpage que nous proposons du réel à celui que permettent les catégories issues soit d’une perception sensible soit d’une grille de lecture administrative. Dans 33 1.5. Quantification et mathématisation de la réalité sociale cette phase préliminaire de négociations, l’opération de classification du réel, les bases mêmes de ce que peut être ultérieurement le travail de traitement des données est déjà à l’oeuvre. Par exemple, il est habituel que les personnes, peu familiarisées avec l’utilisation des catégories socioprofessionnelles, pensent que le recueil et l’exploitation, de cette seule donnée, sur une aire géographique ou administrative, fournissent un indicateur de substitution à la connaissance toujours plus complexe à appréhender du niveau de vie, du niveau culturel quand ce n’est pas en plus des besoins de sécurité ou de santé voire du potentiel de consommation. La sociologie a dans ce cas dépassé toutes les espérances qu’elle peut avoir d’être reconnue ; non seulement les sociologues sont sommés de donner leur opinion à propos de tout et de rien dans les médias, mais une vulgate "sociologique" marque de son empreinte la réflexion des décideurs et des élus qui pensent que tout s’explique par une mise en relation avec les catégories socioprofessionnelles. 115 Bien évidemment, la ventilation d’une population sur l’ensemble des catégories socioprofessionnelles n’est pas sans relation avec les caractéristiques que sont le niveau culturel, la consommation, la santé, mais, aucune de celles-ci ne participe directement à la construction de cette taxinomie qui repose sur des critères au rang desquels on note les oppositions actif / non actif, indépendant / salarié, puis, dans un second temps, une partition suivant la profession, le grade, le caractère public ou privé de l’employeur, la fonction, la spécialité. 116 Comme le montre l’étude déjà ancienne de Jeannine Verdès Leroux 117 , la composition du groupe social que représentent les travailleurs sociaux de sexe féminin est traversée par une forte disparité de leur origine sociale, de leur choix de conjoint et des postes de travail qu’elles occupent. L’appartenance à cette catégorie sociale CS 4332 118 ne dit rien sur les trajectoires sociales, sur les revenus, sur les stratégies matrimoniales et, de ce fait, n’indique rien de précis sur le pouvoir d’achat, la consommation de santé, de loisirs 119 . Comme la classification de Linné ne permet pas de parler du goût car ce critère a été exclu lors de la construction, pour la même raison, les catégories sociales ne devraient pas permettre d’évaluer des comportements. Ce qui se conçoit bien de la disparité entre l’amer et le sucré pour les fruits, - car ces caractères sont indépendants de l’appartenance au groupe des fruits - se conçoit plus difficilement pour les revenus qui sont partiellement liés à l’appartenance à une catégorie sociale. De plus, comme le 115. Cette propagation dans le corps social d’une vulgate sociologique est sans doute à l’origine du nombre croissant de demandes dont la sociologie est l’objet. De cela les sociologues auraient mauvais gré de se plaindre ; en revanche, elle s’accompagne aussi d’une prolifération d’études ou de recherches qui bien que cherchant à résoudre un problème social et à l’expliquer par une mise en relation avec les catégories socioprofessionnelles, n’ont de sociologique que le nom dont elles se parent 116. Pour plus d’information, on consultera la notice technique du : Recensement de la population de 1990. Population active. Résultat du sondage au quart. Insee Résultats, Démographie et Société, n°25, 1993, pp. 174-182. 117. VERDÈS-LEROUX (J.), (1978), Le travail social, édition de Minuit, Paris, 1978 p.57-60. 118. Insee Résultats Démographie et Société. op. cit. p. 200 119. Ventilation de la catégorie sociale du père et ceIle du conjoint des assistantes sociales PCS PCS du père Profession du conjoint Agriculteurs 10.6 1.8 Ouvriers Agricole 0.2 0.2 Ouvriers 7.3 3.0 Employés 15.7 15.0 Cadres moyens 8.3 23.0 Commerçants-artisans 17.5 8.0 Cadres supérieurs 22.1 34.0 Professions Libérales 14.3 12.0 Non réponse 4.0 3.0 34 1.5. Quantification et mathématisation de la réalité sociale rappelle Pierre Bourdieu, 120 , dans la société elle-même les limites des groupes sont peu assurées. Cette difficulté des groupes à se donner des limites simples socialement reconnues montre à l’évidence que la catégorisation du social ne peut se faire simplement par une mise en oeuvre systématique des seuls éléments qui constituent la classification savante que sont les catégories socioprofessionnelles de l’Insee "Aux frontières statistiques, qui se dessinent autour des groupes ce terrain ’bâtard’ dont parle Platon, à propos de la frontière de l’être et du non être, défi lancé au pouvoir de discrimination des systèmes de classement sociaux (Jeune ou vieux ? Citadin ou campagnards ? Riche ou pauvre ? Bourgeois ou petits-bourgeois ? etc.), le numerus clausus dans la forme limite que lui donne les mesures discriminatoires substitue des limites tranchées, à un près ; aux principes de sélection, d’inclusion et d’exclusion, fondés sur une pluralité de critères plus ou moins étroitement liés entre eux et le plus souvent implicites, il substitue une opération institutionnalisée, donc consciente et organisée, de ségrégation, de discrimination, fondée sur un critère et un seul (pas de femmes, ou de juifs, ou de noirs) qui ne laisse place à aucun raté du classement." 121 . Si nous essayons de résumer ce qui vient d’être développé, les catégories sont hétérogènes 122 , leurs limites sont peu marquées, leur construction oscille entre la reprise des découpages sensibles du monde et une mise en ordre scientifique qui nécessite que soit abandonnée une part des informations disponibles. L’examen des taxinomies nous renseigne autant sur la pensée qui les sous-tend que sur la réalité qu’elles permettent de lire. Pour reprendre Wittgenstein, il est possible que l’information essentielle qu’elles donnent sur la réalité soit que cette dernière peut être lue avec le filet de catégories. En grande partie, cela rejoint ce que nous enseigne le modèle hypothético-déductif dont s’inspire la sociologie. Bâtir une théorie qui décrit les effets et les causes, construire un plan d’expérience dans lequel on observe l’enchaînement des effets et des causes, l’observation répétée n fois avec succès de la "manip" valide la théorie. Dans cette description rapide et sans doute simplificatrice des phases d’un processus de recherche expérimentale, il n’est, en apparence, nullement question de catégories. Pourtant elles sont à l’oeuvre dans la construction même du plan d’expérience, le choix des outils de mesure, du matériel utilisé et de l’ordre des opérations mises en place. Tout cela constitue la forme du filet qui permet de mesurer les résultats produits par la succession des événements. Il est possible de dénombrer la quantité de matériel utilisé, des outils de mesure et des opérations mises en place. Cette quantification permet de tracer les grandes lignes de la forme de l’expérience. Le résultat de celle-ci fait l’objet, soit de dénombrement, soit de mesure : soit le dénombrement de certains caractères qui se manifestent, soit la mesure d’effets qui se produisent pendant le déroulement de l’expérience et, dans ce cas, ce que l’on mesure dépend évidemment de ce qui a été mis en place pour mener à bien l’expérience. Dénombrement d’une part, mesure d’autre part ; la première de ces activités, comme nous l’avons fait remarquer s’apparente à une opération simple de décompte par entiers, la seconde, quant à elle, suppose la référence à un ensemble continu de valeurs ordonnées, celui des réels. On pourrait croire dans ce cas que la production puis le recueil de ce type de données ne sont pas 120. BOURDIEU (P.), (1979), La distinction. Critique sociale du jugement. éditions de Minuit, Paris, 1979, pp. 179-182. 121. BOURDIEU (P.), (1979), op. cit. p.181. 122. Sur ce point particulier, Alain DEGENNE et Michel FORSÉ indiquent que les regroupements faits sur les catégories professionnelles peuvent influer sur les conclusions mêmes que l’on peut produire à partir de leur mise en relation avec d’autres caractères : "Par exemple supposons que l’on procède à une répartition en quelques catégories sociales des individus et que l’on s’aperçoive que cette variable n’a pas d’effet sur la pratique religieuse. On ne peut pas définitivement en conclure que la position sociale n’a pas d’effet sur cette pratique Il se peut que se soit le regroupement opéré (PCS par exemple) qui ne «fonctionne» pas. D’autres regroupements pourraient avoir un effet significatif ". DEGENNE (A.) FORSÉ (M.), (1994), op. cit. p. 6. 35 1.5. Quantification et mathématisation de la réalité sociale contingentes de catégories sensibles ou savantes qui influeraient sur la lecture que l’on peut en avoir. Notre expérience, renouvelée chaque année, de l’évaluation par plus d’une centaine d’étudiants de la largeur du mur situé derrière le bureau de la salle où nous enseignons la statistique descriptive nous a, depuis longtemps, conforté dans l’idée que les caractères métriques ne sont pas à l’abri d’influences extérieures à la mesure. On y remarque d’une part l’attraction produite par les valeurs entières qui dénote qu’implicitement l’unité de mesure et la précision de leur évaluation est le mètre et d’autre part parmi les valeurs entières, un attrait plus particulier pour les chiffres à connotation magique ou sacrée comme 7,10,12,13,20. 123 En tout état de cause, la manipulation de réels n’empêche en rien, que les opérations de partitionnement de ces valeurs réelles en classes restent l’objet de choix dont les raisons sont extérieures à l’ordre des réels. Elles peuvent être des raisons, soit de présentation de résultat, volonté de mettre en évidence tel aspect plutôt que tel autre par exemple, soit de considérations sur l’instrumentation qui a permis la production des mesures. Ainsi, transformer l’ensemble des 177 réponses données pour l’évaluation de la taille du mur, nécessite de prendre en compte tout à la fois l’attrait pour les valeurs entières et le fait que ces valeurs ont été obtenues par estimation. La simple opération de fabrication de classes de 1 mètre d’amplitude n’est pas sans nécessiter des choix qui se traduisent, à titre d’exemple, par le fait de retenir des bornes du type [9,5m ;10,5m[ qui traduisent d’une part, que, pour les étudiants qui ont répondu 10m, on considère que l’erreur sur l’évaluation de la taille du mur est uniformément répartie entre 9,5m et 10,5m et, d’autre part, que l’unité de mesure implicitement retenue est le mètre. Ne pas avoir conscience que toute opération de distribution, même effectuée sur des mesures précises, raconte non seulement la réalité mais aussi les conditions de production de cette distribution, expose toute production de ventilation qui n’énonce pas clairement ses modalités de production, à des déboires analogues à ceux que narre Joseph Klatzmann et qui peuvent se résumer par la critique, que sur le fond il récuse, : "on peut faire dire aux chiffres tout ce qu’on veut" 124 . La lecture et l’interprétation des tableaux de chiffres Les présentations les plus usuelles données à des distributions sont les tableaux, les graphiques et la fabrication de valeurs censées les résumer. Si la forme prise par les tableaux ne dépend que du nombre de caractères mis en relation et de ce fait ne pose qu’un problème de lecture, il n’en n’est pas de même pour les graphiques et les valeurs calculées pour lesquels la nature du caractère oriente le choix des possibles. Nous ne chercherons pas à développer la production des représentations qui a fait l’objet de nombreux articles de la part d’un chercheur comme Jacques Bertin qui a mis en évidence, au travers d’un ouvrage de base 125 et de nombreux articles, les apports des traitements graphiques des données par rapport aux traitements mathématiques. Dans un article de synthèse paru en 1980, 126 il souligne que les modes de traitement utilisés pour exploiter les renseignements 123. (tailles en mètres ; effectifs), (7 ; 6), (8 ; 11), (9 ; 8), (10 ; 34), (11 ; 8), (12 ; 24), (13 ; 25), (14 ; 6), (15 ; 12), (16 ; 2), (17 ; 4), (18 ; 2), (19 ; 0), (20 ; 6), (21 ; 1) (25 ; 2), (30 ; 2) (35 ;1), soit 156 valeurs entières sur les 177 réponses données. 124. KLATZMANN (J.), (1985), Attention statistiques ! Comment en déjouer les pièges., édition La découverte, Paris, 1985, Cahiers libres, n° 405, p. 7. 125. BERTIN (B.), (1967), Sémiologie graphique, les diagrammes - les réseaux les cartes., édition GauthierVillars, Paris, 1967 126. BERTIN (J.), (1980), "Traitements graphiques et mathématiques. Différence fondamentale et complémentarité", in Mathématique et sciences humaines, E.H.E.S.S., 1980, n°72, pp. 60-71 36 1.5. Quantification et mathématisation de la réalité sociale contenus dans un tableau 127 comportant 59 lignes et 26 colonnes donnent des résultats qui sont pour partie différents. Il en tire trois conclusions qui, pour tout utilisateur des techniques statistiques devraient guider le travail quotidien : – "qu’il n’y a pas de traitement parfait, – qu’il faut dans tous les cas ’interpréter’ , – que l’image n’est que le résultat d’un certain algorithme et que c’est en fait cet algorithme que l’on interprète" 128 . Les deux dernières conclusions redoublent le questionnement que nous avons mené sur l’importance que jouent dans la perception des objets d’une part, la construction d’une problématique qui donne à lire la position théorique occupée et, d’autre part, l’effet de filtre que joue la fabrication des catégories. Si elles mettent en forme les données, si elles les simplifient, si elles les résument, elles ne peuvent se passer d’une interprétation ; cela rappelle qu’elles ne sont pas qu’une aide à la lecture des données mais qu’elles produisent aussi, compte tenu des opérations qu’elles mettent en oeuvre, des effets propres sur la lecture de la réalité. Dans les méthodes de traitement graphique des données, ce que nous disions, tant sur l’anamorphisme des objets que sur l’effet de catégorisation du réel propre aux distributions, rejoint les positions que défend cet auteur. Parfois les effets de catégorisation des variables, redoublés de l’oubli momentané que leur ordonnancement n’est pas naturel mais seulement conventionnel, induisent dans les représentations graphiques le retour inopiné d’une hiérarchisation mal contrôlée. Ce n’est pas que nous voulions ici émettre quelque remarque critique tant sur un livre phare de la sociologie française, que sur un auteur dont les apports à cette dernière sont indéniables, mais il est vrai que les graphiques de la page 15 de La distinction 129 sont la marque de ce genre de lapsus statistique. Passons sur le fait que les diagrammes en bâton 130 y soient appelés des histogrammes 131 , cette confusion est commune et elle ne porterait pas à conséquences si elle n’était pas accompagnée de droites ou de courbes en forme de cloches qui laissent à penser que la nature de la variable manipulée se confond avec l’ensemble des réels. Pierre Bourdieu, par cette représentation, laisse entendre que les catégories sociales forment un axe ordonné et hiérarchisé de manière stricte 132 , or, comme le font remarquer Alain Desrosières 127. Les individus (lignes) sont des plaques-boucles mérovingiennes décrites par la présence 1 absence de 26 caractères (colonnes). Les traitements comparés sont l’analyse factorielle, la classification automatique, l’analyse hiérarchique, le classement visuel. 128. BERTIN (J.), (1980), op. cit. p. 61 129. BOURDIEU (P.), (19XX), La distinction. Critique sociale du jugement., op. cit., p. 15. 130. BOURDIEU (P.), (19XX), ibid. p. 14. 131. Ce n’est pas faire preuve d’une rigidité statistique que de rappeler qu’un histogramme est l’aire sous la courbe des densités de fréquence et que le fait qu’il s’agisse d’une fonction implique que celle ci soit continue sur x. Ce que, sans rentrer dans des considérations mathématiques, nous indique l’étymologie d’histogramme. 132. Le texte de Pierre Bourdieu (op. cit. p-p. 12-17) ne laisse à ce propos aucun doute. Il y parle successivement de : "corrélation la plus forte entre la performance et le capital scolaire" (ibid. p. 12), "d’histogramme" (ibid. p. 14), "forte corrélation entre une variable dite indépendante et une variable dépendante" (ibid. p.16). Quand il pondère son propos en insistant sur le fait que "On n’a rien expliqué, ni rien compris lorsque l’on établit une forte corrélation" (ibid. p. 16) c’est pour affirmer "Ainsi, pour interpréter adéquatement les différences constatées, entre les classes ou au sein de la même classe, dans le rapport aux différents arts légitimes, peinture, musique, théâtre, littérature, etc., il faudrait analyser complètement les usages sociaux, légitimes ou illégitimes, auxquelles se prête chacun des arts, des oeuvres ou des institutions considérés" (ibid. p.17) ce n’est pas les catégories sociales qu’il interroge mais les pratiques culturelles. Il serait aussi possible de montrer le glissement sémantique opéré par Pierre Bourdieu entre catégories socioprofessionnelles et classes ou fractions de classe si cela n’avait déjà était fait par Nicos Poulantzas. POULANTZAS (N.), (1974), Les classes sociales dans le capitalisme aujourd’hui. Ed. Le Seuil, Paris, 1974, coll. Sociologie politique. 37 1.5. Quantification et mathématisation de la réalité sociale Figure 1.3 – Bourdieup15 et Laurent Thévenot, si ces catégories peuvent être pensées comme ’un grand axe’, 133 dans le même temps ils insistent sur la multidimensionnalité de cet axe. A cet égard les courbes 1 et 3, dans les graphiques empruntés à Pierre Bourdieu, montrent comment, sur les caractères ’Le clavecin bien tempéré’ et ’Beau Danube bleu’, les catégories sociales qu’il considère ont des comportements quasi antagonistes. La visibilité graphique de cette opposition des comportements est le résultat d’un ordonnancement des catégories qui reprend le grand axe dont nous parlent Alain Desrosières et Laurent Thévenot et qu’illustre le plan factoriel emprunté à Alain Desrosière et Michel Gollac 134 . Cet axe est le premier dans le cas d’une analyse factorielle 133. DESROSIÈRES (A.), THÉVENOT (L.), (19XX), Les mots et les chiffres : les nomenclatures socioprofessionnelles. Op. cit. p 56. 134. DESROSIÈRE (A.), GOLLAC (M.), (1982), Trajectoires ouvrières, systèmes d’emplois et comportements sociaux, in Economie et Statistique, n° 147, 1982, p. 51. 38 1.5. Quantification et mathématisation de la réalité sociale Figure 1.4 – derogollacp51 multiple intégrant des caractères divers pour décrire une population ; il est quasiment stable d’une étude à l’autre. Les catégories sociales dont il rend compte ne sont pas positionnées sur l’axe comme des réels sur un axe. Elles contribuent à sa forme ou y sont corrélées. Elles ne sont pas des points mais les centres de gravité des sous-ensembles des points que constituent les individus affectés, entre autres, de l’appartenance à l’une des catégories sociales. Les exemples qui permettent d’illustrer ce que nous avançons sont multiples et permettent tous de conclure à la même difficulté de hiérarchiser de manière stricte et stable les catégories sociales. L’étude faite par Alain Desrosières et Michel Gollac 135 , qui peut permettre de clarifier notre propos montre la diversité de la catégorie ouvriers en expliquant comment elle recouvre des diversités de trajectoires sociales et géographiques, d’emploi occupé, de lieu de résidence et de pratiques socioculturelles. La méthodologie utilisée pour saisir la complexité de la catégorie ouvriers fait apparaître l’existence d’un axe qui ordonne les catégories sociales, elle illustre la relative stabilité de leur succession, enfin elle permet de voir que les centres de gravité que sont ces catégories ne sont pas sur l’axe. Pour autant, on entrevoit bien que la forme de courbe en cloche que nous propose Pierre Bourdieu pour le caractère ’Rhapsody in blue’ est dépendante de l’ordre qu’il donne à ses catégories sociales. Par ailleurs, on peut s’interroger sur l’algorithme de lissage qui, à partir d’une distribution comme celle qui caractérise l’usage de ’Rhapsody in blue’, produit une courbe symétrique ayant une forme gaussienne. Cette représentation gra135. DESROSIÈRE (A.), GOLLAC (M.), (1982), ibid., pp. 43-66. 39 1.5. Quantification et mathématisation de la réalité sociale phique ainsi examinée est un des exemples multiples 136 de l’oubli tout à la fois de la nature des variables manipulées et du caractère conventionnel de leur hiérarchisation. Il illustre en quoi les formes de représentations graphiques, qui sont un moment supplémentaire de l’objectivation de la réalité orientent le regard et produisent des effets qui sont spécifiques de la pensée et des algorithmes qui les sous-tendent. Ainsi, aux classes moyennes correspond une musique moyenne qui distribue normalement les pratiques musicales des groupes sociaux hiérarchisés d’un moins de capital à un plus de capital dont la nature est difficile à préciser. L’exploitation graphique des données présentées sous forme de tableau n’est pas la seule à s’exposer au risque de contre-emploi des données. Comme le montre Jean-Claude Passeron 137 , la polysémie de la variable âge quand elle est utilisée sur une des marges d’un tableau montre, à l’évidence, que si la définition des variables doit se faire avant le début du travail de recherche, cela ne suffit pas à résoudre les difficultés ultérieures d’interprétation : le constat d’une corrélation ou d’un lien entre l’âge et un autre phénomène ne permet pas de conclure que la dépendance est due à l’âge ; peut-être reflète elle seulement un effet de génération. Ce que reflète cette dépendance statistique ne s’explique ainsi pas par l’âge mais par l’itinéraire social, professionnel, qu’ont parcouru depuis leur naissance les personnes considérées. Sur un seul tableau la détermination de l’effet âge ou de l’effet cohorte ne peut être, comme le souligne Jean-Claude Passeron, qu’un effet d’interprétation du chercheur : représentation déformée, voire étonnante, de la réalité qu’ils sont sensés refléter au plus juste. "L’interprétation, et donc l’énonciation sociologique - qu’elle soit formulée par un statisticien ou un sociologue -commence lorsqu’on entreprend ici de choisir sur d’autres attendus que ceux livrés par le tableau lui-même une formulation conceptuelle spécifiant ce que mesure ’l’âge des sujets’. Ce risque doit être pris car c’est le seul chemin qui permette de mettre un constat de ce type en relation avec d’autres constats." 138 Si, sur bien des points, nous ne pouvons qu’acquiescer à ce type de propos qui reflète la prise de risque interprétative, nous voulons insister sur la nécessité d’autant plus grande de l’existence d’une problématique. Elle seule permet d’expliquer le choix des autres constats avec lesquels on établit des relations, elle seule permet de justifier les interprétations qui découlent de la mise en relation du contenu du tableau avec d’autres constats. Le sens que l’on va ainsi donner à la variable dépend donc de la problématique et il est clair que la situation que décrit Jean-Claude Passeron ne peut survenir que d’un manque de problématique. En fonction de ce qui est cherché le mode de relevé de l’âge est différent et, ainsi, les données recueillies peuvent permettre de résoudre avec des moyens de calcul idoines l’alternative ’effet âge/effet cohorte/effet période’ qui nous est donnée comme insurmontable par autre chose que le raisonnement et la prise de risque. 139 136. KLATZMANN (J.), (19XX), Attention statistiques ! Comment en déjouer les pièges, op. cit. Cet ouvrage contient, sur plus d’une centaine de pages, une variété d’exemples, soit de représentations graphiques soit de calculs, qui ayant oublié ce qu’ils manipulent comme type de donnée, induisent une représentation déformée, voire étonnante, de la réalité qu’ils sont sensés refléter au plus juste. 137. PASSERON (J.-C.), (19XX), Le raisonnement sociologique. L’espace nonpoppérien du raisonnement naturel. op. cit., pp.111-133. 138. PASSERON (J.-C.), (19XX), ibid. p. 120. (souligné par l’auteur lui même) 139. L’utilisation de modèles log-linéaire généralisé avec un logiciel comme GLIM (Generalised Linear Interactive Modeling) développé par "the Working Party on Statistical Computing of the Royal Statistical Society", Oxford, 1978, permet de différencier les aspects âge et cohorte de la mortalité générale ou par cause, à condition que les données lui soit présentées sous la forme d’une matrice avec les âges en ligne et les périodes en colonne et des taux de mortalité dans chacune des cellules. 40 1.5. Quantification et mathématisation de la réalité sociale 1.5.7 Essai de conclusion Les exemples donnés sur l’importance des formes prises par le dénombrement pourraient inviter à exposer plus longuement l’influence déterminante de cette opération sur les diverses phases du travail de recherche. Il serait possible de montrer notamment comment le dénombrement détermine, dès sa mise en oeuvre, les diverses techniques de traitement des données qui sont utilisées ultérieurement. Cette incitation à prolonger notre texte, si nous voulions y répondre, nécessiterait, non pas une simple extension de ce que nous présentons là, mais un tout autre argumentaire qui impliquerait que nous élargissions notre réflexion au delà du lien qu’entretiennent quantification et construction de l’objet. L’entrée dans cette nouvelle aventure nécessiterait que l’articulation du propos se fasse sur le lien complexe qui existe entre la construction de l’objet, la forme des données et leur mode de traitement. Notre expérience du travail de recherche en collaboration avec des "médecins chercheurs" a depuis longtemps attiré notre attention sur l’existence d’un double mouvement. Tantôt sont disponibles des données épidémiologiques ou cliniques dont le mode de recueil n’a pas été dicté par une problématique bien établie et l’on veut montrer l’existence de telle ou telle relation ; la question qui se pose alors est : quelle méthode de calcul permet à la fois d’arriver à la confirmation de l’intuition et d’exprimer le résultat avec un intervalle de confiance. Tantôt, la presse médicale fait mention de l’utilisation de méthodologies de traitement des données ; il s’agit alors, soit de construire ou de recueillir, soit d’exhumer des informations qui permettront de les utiliser. Ainsi, et semble-t-il sans que cela ne pose d’autres questions que celles de la difficulté et de l’intérêt respectif de toutes les méthodes, un sous-ensemble de la communauté scientifique médicale oscille entre, d’une part la recherche de techniques qui puissent traiter des données recueillies sans construction préalable d’un objet de recherche et, d’autre part, la quête de données pour éprouver les dernières techniques sans que l’utilisation de celles-ci soient dictées par une nécessité interne à l’objet d’étude. L’analyse des rapports entre les données et leur traitement, comme l’illustre l’exemple médical, excède le simple champ de l’épistémologie pour ouvrir sur une anthropologie de la production scientifique telle qu’elle a été développée par des auteurs comme Alfred Shütz 140 ou encore Bruno Latour et Steve Woolgar 141 . Cette dimension anthropologique complétant l’étude épistémologique permettrait, sans doute, de formuler une explication sociologique de la mise en scène d’une recherche médicale qui privilégie l’utilisation des données quantitatives et des modes de traitement sophistiqués de données plutôt que la recherche clinique. Peut-être ainsi entreverrions nous ce qui à nos yeux n’est qu’une intuition : d’une part une diminution du champ d’application du paradigme clinique 142 au soin des malades et d’autre part qui, comme le paradigme clinique qui avait au XIXème siècle mis à distance la souffrance et la parole du malade, met à distance le corps en le faisant disparaître, soit dans le nombre, soit dans la parcellisation. La mise en place de ce nouveau paradigme redistribue tout à la fois les rapports des médecins chercheurs tant avec les malades qu’avec 140. SCHUTZ (A.), (19XX),Le chercheur et le quotidien. Phénoménologie des sciences sociales. (trad. Anne Noschis-Gilliéron) ; Paris, éditions Méridien Klincksieck, 1994, 20 édition, 286 p. 141. LATOUR (B.) WOOLGAR (S.), (19XX), La vie des laboratoires. La production des faits scientifiques., (trad. Michel Biezunski) Paris, éditions de la Découverte, 1988, 300 p. 142. On peut essayer de caractériser la définition que cet auteur donne du paradigme médical et de son émergence : "Comment l’espace plat, homogène des classes peut-il devenir visible dans un système géographique de masses différenciées par leur volume et leur distance ? Comment une maladie, définie par sa place dans une famille, peut-elle se caractériser par son siège dans un organisme ? C’est le problème de ce qu’on pourrait appeler la spatialisation secondaire".Michel FOUCAULT (M.), (19XX), Naissance de la clinique. Une archéologie du regard médical., Paris, 1983, édition PUF, coll. Galien, 5ème édition, p. 8 41 1.5. Quantification et mathématisation de la réalité sociale leurs pairs. Cette redistribution s’accompagne d’une modification des modes de légitimation : être un bon médecin, ce n’est plus être bon clinicien et être reconnu comme tel, c’est publier sous une forme mathématisée les résultats de ses recherches et l’exposé de sa pratique clinique quand on en maintient une. L’exemple que nous avons esquissé est extérieur à la sociologie. Cette réflexion, qu’il nous est plus facile de mener sur un champ scientifique auquel nous ne participons qu’à temps partiel, pourrait sans doute s’étendre à notre discipline de rattachement et, plus particulièrement, à la façon dont on essaie par un traitement sophistiqué des données de pallier la faiblesse de construction des objets. Ces pistes de recherche pourraient à terme venir compléter l’exposé que nous avons tenté sur les mécanismes et les difficultés inhérentes à une approche des faits sociaux par le dénombrement. Au terme de ce préambule il paraît nécessaire de rappeler ce qui semble avoir émergé dans ce texte : Tout d’abord l’impossibilité à faire la part du scientifique et du non scientifique à partir de l’existence ou de la non existence d’une commande. Cette dernière, bien que pouvant prendre des formes diverses, influe sur la forme du travail. Ensuite, deux thèmes se sont affirmés au fil des pages de ce travail. D’une part le dénombrement n’est pas une opération de simple comptage mais implique pour son effectuation des opérations complexes de définition à des fins de distribution du réel. D’autre part dénombrer n’est pas un équivalent de quantifier : dénombrer peut permettre, comme nous avons essayé de le montrer, de donner, non une mesure de l’objet étudié, mais une représentation de sa forme. Ainsi pensons-nous avoir rappelé, si cela était utile, que l’opposition entre démarche quantitative et qualitative n’est pas aussi nette que l’opinion le laisse entendre. 42 Chapitre 2 Rappels de statistiques élémentaires Avant toute mise en œuvre d’une quelconque technique statistique il convient de s’assurer de la nature des variables manipulées. De leur nature dépend le sens qu’auront les résultats obtenus. Il est au demeurant assez facile d’obtenir une moyenne sur une variable sexe dès lors que l’on a appliqué une convention de codification telle que celle de l’INSEE qui s’exprime au travers de Homme = 1, Femme = 2. Que voudrait dire d’obtenir à un tel calcul une valeur moyenne de 1,5 ? Certainement pas que le sexe dans cette population a comme moyenne 1.5, mais que nous sommes en présence d’une population comportant 50 % d’hommes et 50 % de femmes. Le risque de produire des résultats de ce type s’est fortement aggravé avec l’apparition des logiciels " presse bouton ". 2.1 Deux types de variables On peut les classer en deux grands types : quantitatives ou qualitatives. Les quantitatives appelées encore numériques représentent soit des quantités (nombres cardinaux) soit des classements (nombres ordinaux). Elles sont régies par un ordre strict qui leur est inhérent. Les variables qualitatives appelées quelques fois alphanumériques représentent des caractéristiques de forme de situation ou de statut. Elles ne sont pas régies par un ordre strict mais conventionnel. 2.1.1 Les variables quantitatives Les variables cardinales : Numériques discontinues ou discrètes, elles représentent des quantités entières : Exemples : nombre d’enfants nombre de pièces d’un logement nombre de partenaires. . . Les variables numériques continues : Elles représentent des quantités ou des mesures des scores : Les variables ordinales Elles représentent des classements des choix des préférences : 43 2.2. Dénombrement, classification, statistique Exemples : distance entre deux points taux de natalité revenus. . . Exemples : ordre d’arrivée numéro dans une rue. . . ordre de préférence entre divers objets. . . 2.1.2 Les variables qualitatives Les variables non ordinales L’ordre qu’elles reflètent est conventionnel : on a l’habitude de donner comme équivalent à oui le chiffre 1 et le 2 pour non. On peut très bien inverser cette convention sans que cela ne change quoique ce soit à la distribution. Les variables ordinales Quand elles sont qualitatives, elles ne reflètent pas un ordre strict, la distance entre deux successeurs n’est ni explicite ni homogène : A la question : "Aimez-vous untel : pas du tout, Exemples : Pas du tout Un peu Beaucoup Passionnément À la folie Code1 0 1 2 3 4 Code2 0 5 6 7 12 un peu, beaucoup, passionnément, à la folie ? Les deux types de codage proposés pour les modalités de réponse reflètent des logiques de pensé différentes. Le premier codage (0,1,2,3,4) ne prend en compte que l’intensité et suppose que les écarts qui existent entre chaque niveau de l’échelle proposée sont de même taille, qu’ils représentent la même distance. Le second codage essai de mettre en évidence la rupture qui existe entre ne pas aimer et aimer d’une part et entre aimer même passionnément et aimer de manière déraisonnable (à la folie) d’autre part. Ce deuxième codage essaie de mettre en évidence les changements d’état que dissimulent les modalités d’une telle variable à la fois qualitative et ordinale. On aime ou on aime pas, on et raisonnable ou pas. 2.2 Dénombrement, classification, statistique Ces termes sont proches pour autant il correspondent à des organisations des données différentes. Le dénombrement correspond à une des formes les plus anciennes de l’activité démographique, il s’agit d’établir des listes d’individus présentant un certain nombre de caractéristiques accolées un identificateur. La classification correspond à la fabrication de sous-listes en fonction d’un ou de plusieurs critères. La statistique correspond à des opérations de comptage des individus en fonction d’un ou de plusieurs critères. Les opérations de dénombrement ou encore de recensement comme celle de classification permettent le retour aux unités qui ont été dénombrées ou classifiées. Les statistiques ne permettent plus quant à elles de retourner aux individus. 44 2.2. Dénombrement, classification, statistique Dénombrement Figure 2.1 – Exemple de dénombrement Identifiant ID01 ID02 ID03 ID04 ID05 ID06 ID07 ID08 ID09 ID10 Sexe H F F H F H F F H F Activité O N O N O N N O O O Classification Figure 2.2 – Deux exemples de classification sur un critère HOMME FEMME ID02 ID01 ID04 ID03 ID06 ID05 ID09 ID07 ACTIF NON-ACTIF ID01 ID02 ID03 ID04 ID05 ID06 ID08 ID07 ID08 ID10 ID09 ID10 Une classification peut se faire comme un tri sur un ou plusieurs critères mais elle permet de retrouver les éléments qui participent à chacun des groupes. La classification précédente Figure 2.3 – Un exemple de classification sur deux critères ACTIF NON-ACTIF HOMME ID09 ID02-ID04-ID06 FEMME ID01-ID03-ID05-ID09-ID10 ID07 comporte 4 groupes l’un constitué des femmes actives (ID01-ID03-ID05-ID09-ID10), le l’autre des hommes non-actifs (ID02-ID04-ID06) et enfin de 2 groupes l’un comportant une femme non-active (ID07) l’autre comportant un homme actif (ID09). 45 2.2. Dénombrement, classification, statistique Statistique La statistique ne permet pas de retrouver les individus : En fonction des ouvrages et des loFigure 2.4 – Deux exemples de statistique sur un critère HOMME FEMME 4 6 ACTIF NON-ACTIF 6 4 giciels utilisés ce type d’opération qui consiste à faire correspondre à chacune des modalités d’une variable un effectif est dénommée tri à plat, distribution sur un critère, distribution monovariée. Figure 2.5 – Un exemple de statistique sur deux critères ACTIF NON-ACTIF TOTAL HOMME 1 3 4 FEMME 5 1 6 TOTAL 6 4 10 En fonction des ouvrages et des logiciels utilisés ce type d’opération qui consiste à faire correspondre à l’intersection de chacune des modalités de deux variables un effectif est dénommée tri croisé, distribution sur deux critères, distribution bivariée. Ce tableau ressemble étrangement à celui présentant une classification sur deux critères, pourtant il en diffère par a lecture que l’on peut en faire. Le groupe le plus nombreux est celui des hommes non-actifs il comprend 5 personnes ce qui représente la moitié de la population étudiée, le second groupe par ordre décroissant d’effectif est celui des femmes actives il comporte 3 personnes. Enfin deux autres groupes de 1 personne, celui des hommes actifs et celui des femmes inactives. D’autres lectures de ce tableau sont possibles : cette population comporte un peu plus d’actifs que d’inactifs (6 actifs pour 4 inactifs) ; cette population comporte un peu plus de femmes que d’hommes (6 hommes pour 4 femmes). On peut encore continuer en s’attachant à une lecture en colonne écrire que dans cette population quand on est en présence d’un homme 1 fois sur 4 il est actif, que si on est en présence d’une femmes que 5 fois sur 6 elle est active ou encore en s’attachant à une lecture en ligne écrire que lorsqu’on rencontre un actif 1 fois sur 6 c’est un homme et que lorsque l’on rencontre un inactif 3 fois sur quatre c’est un homme. Dans les dénombrement et les classifications, on peut retrouver les individus ; dans les statistiques on perd les individus et on voit des quantités qui traduisent des formes. Cette opération fait perdre une certaine partie de l’information, (les caractéristiques de chacun) mais dans le même temps elle permet d’exprimer de comparer des quantités. Cette opération correspond ce qu’en mathématique on appelle une distribution ; distribution d’un ensemble de départ la population vers un ensemble d’arrive comportant une partition. Cette partition n’est jamais 46 2.2. Dénombrement, classification, statistique naturelle, elle est toujours le résultat d’une opération intellectuelle. Les catégories d’actifs, de genre ne sont pas naturelles mais des construits sociaux. Distribution Sur un plan mathématique, une distribution est une application de Ω sur �. Plus précisément Figure 2.6 – Distribution pour des variables quantitatives, une distribution est une application d’un caractère X des éléments de l’ensemble Ω sur l’ensemble � des xi qui décrivent le caractère X. Si pour les variables quantitatives, cette définition est immédiatement utilisable, pour les variables qualitatives, cette opération est impossible à réaliser sauf à bricoler une table de correspondance entre les modalités des variables qualitative et des valeurs numériques. Il est donc nécessaire de construire une autre définition utilisable pour les types de variables. Cela constitue une phase spécifique du travail statistique : le codage des questionnaires. Une distribution est une application d’une variable X définissant les individus d’une population Ω sur l’ensemble � des modalités xi qui décrivent la variable X. Figure 2.7 – Quelques équivalences de vocabulaire Ensemble Élément Caractère � Population Individu Variable Modalité Dans la première colonne on trouve un vocabulaire plutôt mathématique ou ensembliste, dans la seconde on trouve un vocabulaire plus démographique : population ou échantillon (toutes les personnes, toutes les institutions, tous les objets dont on possède le questionnaire), puis l’individu (une personne, une institution, un objet), puis la variable retenue (le genre, la taille, le prix) et enfin la modalité (homme ou femme, grand(e) ou petit(e), cher ou bon marché). 47 2.3. Quelques principes de notation Figure 2.8 – Distribution 2.3 Quelques principes de notation Figure 2.9 – Cohérence dans la notation des variables Série 1 Série 2 ni fi N � Ω � �r � i=1 xi �s−1 j=1 yj δ ∆ x Me Q1 ... Q4 D1 ... D1 0 C1 ... C1 00 V(x) σ(x) ρ cov(x,y) 2.4 Variable X Y Indice i j Variable provisoire u v Multiplicateur h k Dernière variable r s effectif partiel fréquence partielle effectif total ensemble des réels ensemble ou population � indique une sommation xi = x1 + x2 + ... + xi + ... + xr indique que l’on fait la somme du premier�au dernier des xi indique un produit sur tous les éléments yi = y1 × y2 × ... × yj × ys indique que l’on fait le produit du premier l’avant dernier des yj est utilisé pour les densités est utilisé soit pour le résultat d’un écart, soit pour identifier une droite est utilisé pour la moyenne des modalités xi de la variable x est utilisé pour la médiane sont utilisés pour les quartiles sont utilisés pour les déciles sont utilisés pour les centiles est utilisé pour la variance des modalités xi de la variable x est utilisé pour l’écart type des modalités xi de la variable x est utilisé pour le coefficient de corrélation linéaire est utilisé pour la covariance des modalités xi et yj des variables x et y Quelques rappels sur les opérations L’addition et la soustraction dans � sont associatives et commutatives, on peut donc regrouper des parties de calcul et modifier l’ordre des calculs sans affecter le résultat, leur élément neutre 48 2.5. Diverses représentations d’une distribution est le nombre 0. Exemples n1 + n2 + n3 + n4 = N (n1 + n4 ) + (n3 + n2 ) = N 1 + 2 + 3 + 4 = 10 (1 + 4) + (3 + 2) = 10 5 + 5 = 10 La multiplication et la division dans � sont associatives et commutatives, on peut donc regrouper des parties de calcul et modifier l’ordre des calculs sans affecter le résultat, leur élément neutre est le nombre 1. n1 × n2 × n3 × n4 = N (n1 × n4 ) × (n3 × n2 ) = N 1 × 2 × 3 × 4 = 24 (1 × 4) × (3 × 2) = 24 4 × 6 = 24 Attention : Lorsque l’addition, la soustraction, la multiplication et la division dans � sont mélanges, il existe une priorité implicite de calcul lorsque vous utilisez vos calculettes. Les calculettes notation polonaise inverse ne nécessitent pas l’utilisation de parenthèses mais demande une bonne attention à l’ordre dans lequel sont introduites les valeurs et les opérateurs. Les parenthèses servent à préciser les blocs de calcul effectuer, leur ordre ou emboitement. D’une manière générale, pour la précision des calculs, effectuez toujours les multiplications avant les divisions. Petits rappels. (N/0) est une opération impossible, on peut approcher cette impossibilité en disant qu’il s’agit de répartir quelque chose entre personne. Donner quelque chose à personne est une opération impossible. (0/N ) est possible et correspond donner une quantité égale à 0 à N individus. Ne rien donner à une ou plusieurs personnes est quelque chose de tout fait réalisable. 2.5 Diverses représentations d’une distribution Sous forme de tableau. Les nombres de maladies déclaré sont des valeurs xi . Les quantités d’individus qui correspondent un nombre de maladies déclaré sont des effectifs partiels, on les note ni . La somme des effectifs ni donne l’effectif total que l’on note N . r � ni = N i=1 Cette formule indique que si l’on fait la somme de toutes les classes ni qui constituent la population N , on obtient la population N . 2.5.1 Le Diagramme en bâtons Sous forme de graphique cartésien ou diagramme en bâtons, on peut représenter le nombre d’individus en fonction du nombre de maladies déclaré dans un diagramme. 49 2.6. Les fréquences : Figure 2.10 – Nombre de maladies déclaré en Basse-Normandie Nombre de maladies déclaré xi 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Total Nombre d’individus ni 582 927 318 086 184 226 103 225 70 301 38 224 24 911 12 428 7 967 3 290 1 637 1 978 701 305 1 350 206 Figure 2.11 – Diagramme cartésien (en bâtons) 2.6 Les fréquences : Ce sont des nombres décimaux compris entre 0 et 1. Dans une distribution le plus petit effectif que peut représenter ni est 0 s’il n’y a personne dans la classe, le plus grand est N si tous les individus sont dans la même classe. Dans le premier cas 0/N = 0, dans le second N/N = 1. Elles s’obtiennent en divisant un effectif partiel par la population totale. Tout cela peut être résumé par les quatre formules suivantes : fi = 50 ni N 2.6. Les fréquences : 0 ≤ ni ≤ N 0 ni N ≤ ≤ N N N 0 ≤ fi ≤ 1 La première indique comment on calcule une fréquence, la seconde indique que ni est compris entre 0 et N , la troisième et la quatrième montrent que fi ne peut varier qu’entre 0 et 1. � Nous avons vu précédemment que ri=1 ni = N on peut démontrer que la valeur maximum d’une fréquence est 1. r � i=1 r � i=1 r � i=1 fi = 1 fi = n1 n2 ni nr n1 + n2 + ... + ni + ... + nr + + ... + + ... + = N N N N N fi = N =1 N Les pourcentages Ils recouvrent deux réalités différentes. Lorsqu’ils sont compris entre 0 et 100 ils peuvent représenter soit une fréquence multiplie par 100, soit un coefficient multiplicateur. En revanche, lorsque le pourcentage est supérieur à 100 il ne peut pas s’agir d’une fréquence multipliée par 100. Les pourcentages négatifs sont aussi des coefficients multiplicateurs indiquant une décroissance. 2.6.1 L’histogramme et sa construction : D’un point de vue mathématique, il s’agit de l’aire sous la courbe en escalier des densités de fréquences dans une série regroupe en classes. C’est donc une surface. C’est une représentation par une surface. Que l’on trace ou que l’on lise un histogramme, ce qui est important, c’est la taille des surfaces et non leur hauteur. Figure 2.12 – Fonction en escalier Si on s’intéresse l’étymologie du terme, histo dans histogramme est de la même origine que histo dans histologie à savoir tissu. L’histologie est en médecine l’étude des tissus. Donc histo, dans histogramme nous indique bien qu’il s’agit d’une représentation par une surface. 51 2.6. Les fréquences : Concrètement, pour le tracé, on n’utilise pas les notions d’aire sous la courbe et de courbe en escalier, on calcule les densités de fréquence sur des intervalles entre des bornes. Les densités de fréquence en statistiques ou densité de probabilité en probabilité s’expriment par des nombres décimaux qui ne sont pas forcément compris entre 0 et 1 qui correspondent au rapport qui existe entre une quantité d’une chose et une quantité d’autre chose exprimée sous la forme d’une quantité, d’une distance, d’une surface, d’un volume. Les deux quantités n’ont pas besoin d’être de même nature. Par exemple : nombre de perles rouges parmi l’ensemble des perles d’un sac, de piquets par rapport la longueur d’une clôture, de personnes par rapport la surface d’une pièce, de sucre par rapport un volume de café. δ(fi ) = fi f requence = ∆i amplitude Ce faisant, on effectue une opération intellectuelle qui modifie la réalité, sur l’intervalle que représentent les deux bornes d’une classe on considère que la densité est identique. Figure 2.13 – Ménages ordinaires dans l’enquête la Basse-Normandie devant sa santé Classes Borne inf Borne sup Bornes Amplitudes 0 10 0 10 10 à 19 ans 10 20 10 20 à 49 ans 20 50 50 à 59 ans 50 60 à 69 ans fi δ(f i) 165 977 0,1229 0,0123 10 198 637 0,1471 0,0147 20 30 551 353 0,4083 0,0136 60 50 10 123 929 0,0918 0,0092 60 70 60 10 148 624 0,1101 0,0110 70 à 79 ans 70 80 70 10 118 729 0,0879 0,0088 80 à 89 ans 80 90 80 10 37 547 0,0278 0,0028 90 et plus 90 100 90 10 5 410 0,0040 0,0004 143 Somme 1 350 206 1,0000 0 à 9 ans Limite 100 ni Les densités de fréquence calculées pour chaque classe postulent que l’on considère que la population est uniformément répartie entre leurs bornes. Cela revient dire que pour la classe des 10-19 ans, il y a autant d’individus qui ont 10, 11, 12, ..., 19 ans et que, pour chaque âge, il y a autant d’individus nés chaque jour de l’année, chaque heure de chaque jour, chaque minute de chaque heure, etc. Le tracé d’un histogramme consiste dans le calcul des densités de fréquence de chaque classe. Pour ce faire on divise, comme l’indique la formule précédente, la fréquence de la classe par son amplitude. Sur un diagramme cartésien on utilise l’axe des abscisses (l’axe horizontal) pour y reporter les bornes des classes. Ici on est dans un cas classique mais qui mérite une explication la bonne supérieure de la classe 10-19 est 20 puisque on a 19 ans jusqu’à ce que l’on ait 20 ans, 19 ans ne correspond pas à une valeur discrète mais à une valeur continue d’une durée d’une année. Sur l’axe des ordonnées (l’axe vertical) on reporte les densités de 143. Les valeurs sur fond jaune sont les bornes des classes. 52 2.7. Les fréquences cumulées croissantes et décroissantes fréquence. Pour chaque borne on reporte les valeurs des densités de fréquence (δfi ), puis on trace les traits horizontaux et verticaux qui matérialisent la surface qui représente l’effectif de chaque classe. Une fois ce travail fini, on efface l’échelle des densités de fréquence et on reporte les effectifs de chaque classe au dessus ou l’intérieur des surfaces. Figure 2.14 – Eléments de tracé Figure 2.15 – Tracé définitif de l’histogramme 2.7 Les fréquences cumulées croissantes et décroissantes La courbe des fréquences cumulées croissantes permet de connaître quelle proportion d’individus a un caractère xi inférieur à une valeur-seuil. La courbe des fréquences cumulées décroissantes permet de connaître quelle proportion d’individus a un caractère xi supérieur à une valeur-seuil. Les points qui correspondent à la valeur des fréquences cumulées aux bornes des classes sont joints par des segments de droite. Cela correspond à la même hypothèse d’équipartition des effectifs à l’intérieure des classes. Toute autre forme de jonction entre ces points indiquerait que la répartition entre les bornes n’est pas uniforme. La formule générale de calcul de cette interpolation linéaire est : 53 2.7. Les fréquences cumulées croissantes et décroissantes Figure 2.16 – Tracé des courbes des fréquences cumulées croissantes et décroissantes Figure 2.17 – Population des ménages ordinaires de l’enquête la Basse-Normandie devant sa santé Classes 0 à 9 ans 10 à 19 ans 20 à 49 ans 50 à 59 ans 60 à 69 ans 70 à 79 ans 80 à 89 ans 90 et plus Somme Borne inf 0 10 20 50 60 70 80 90 Borne sup 10 20 50 60 70 80 90 100 Bornes 0 10 20 50 60 70 80 90 100 Fi 0,1229 0,1471 0,4083 0,0918 0,1101 0,0879 0,0278 0,004 0,9999 X −x X − inconnu = F −f F − f (inconnu) FCi↑ 0 0,1229 0,27 0,6783 0,7701 0,8802 0,9681 0,9959 0,9999 FCi↓ 1 0,8771 0,7300 0,3217 0,2299 0,1198 0,0319 0,0041 0,0001 F est la fréquence de la borne supérieure de la classe incluant la valeur inconnue (cherchée) f est la fréquence de la borne inférieure de la classe incluant la valeur inconnue (cherchée) X est la borne qui correspond à F x est la borne qui correspond à f Cette formule permet de calculer aussi bien une fréquence cumulée inconnue croissante en fonction d’une valeur connue, qu’une valeur inconnue en fonction d’une fréquence cumulée croissante connue. La valeur inconnue peut être la médiane, un qua rtile, un décile, un centile ou toute autre valeur comprise entre le minimum et maximum de la distribution. La fréquence inconnue peut être n’importe quelle fréquence entre 0 et 1. Les calculs peuvent être faits sur les fréquences ou les pourcentages. En revanche, il faut être cohérent sur la manière d’exprimer les proportions, on ne peut pas mélanger dans un même calcul fréquences et pourcentages. 54 Chapitre 3 Les valeurs centrales des distributions Les valeurs centrales servent à fournir un résumé de la dispersion des modalités d’une variable retenue pour caractériser les individus d’une population. On cherche à remplacer cette diversité par un nombre unique qui donne une bonne idée, un bon ordre de grandeur de ce qui est observé. Cela vise à permettre en première approximation à comparer deux séries en ramenant leur comparaison à celle de deux nombres. Les valeurs centrales doivent répondre à un certain nombre de critères qui ont été précisés dans la littérature statistique. Ces critères réduisent l’arbitraire qu’il y aurait à construire de multiples valeurs centrales. Pour autant, il existe de nombreuses manières de fabriquer des valeurs centrales si on ne suit pas les recommandations classiques que l’on trouve dans la littérature. Yule avait précisé ces critères, il en proposait six : – La valeur centrale doit être indépendante des observateurs et ne pas être liée à leur appréciation. Elle doit être définie de manière objective. – Elle doit être le reflet de toutes les valeurs de la série considérée. Quelques fois cependant on peut choisir une valeur exceptionnelle de la série ou une anomalie de la série pour caractériser cette dernière. – Elle doit être facile à concevoir et avoir une signification concrète. – Elle doit être simple à calculer. – Elle doit être faiblement sensible aux fluctuations de l’échantillonnage. C’est-à-dire que si on calcule cette variable centrale dans un échantillon correctement élaboré, elle doit être proche de la même valeur centrale dans la population générale dont est issu l’échantillon. – Elle doit se prêter des calculs ultérieurs surtout si l’on doit caractériser plusieurs séries. Il est à noter que cette valeur centrale peut être soit une valeur réellement observée dans la série soit une valeur intermédiaire qui n’est pas observable dans la série. 3.1 La médiane Définition : La médiane est une valeur qui sépare un ensemble Ω en deux sous-ensembles Ω’ et Ω” d’effectifs égaux. Dans Ω’ l’ensemble des xi est inférieur à la médiane. Dans Ω” l’ensemble des xi est supérieur à la médiane. Cela s’écrit ∀xi ∈ Ω’, xi ≤ M e pour la premier, et ∀xi ∈ Ω”, xi ≥ M e pour la seconde. X −x X − Me = F −f F − f (M e) 55 3.1. La médiane Par exemple la médiane des âges est un âge tel que la moitié des personnes a un âge inférieur et l’autre moitié un âge supérieur. Mode d’emploi pour calculer une médiane : Dans le tableau chercher parmi les fréquences cumulées croissantes les fréquences qui encadrent la fréquence 0,5 qui correspond à la fréquence de la médiane. F est la fréquence qui constitue la borne supérieure de cet encadrement. f est la fréquence qui constitue la borne inférieure de cet encadrement. X est la borne qui correspond à F x est la borne qui correspond à f Me est la valeur de la médiane (ce que l’on cherche dans le cas présent). f(Me) est gal 0,5 . Exemple de calcul sur la distribution des âges de la population de l’enquête santé 50 − 20 50 − M e = ⇒ 0, 678 − 0, 270 0, 678 − 0, 50 30 50 − M e = ⇒ 0, 408 0, 178 5, 34 = 0, 408(50 − M e) ⇒ 5, 34 = 20, 4 − 0, 408(M e) 5, 34 − 20, 4 = −0, 408(M e) ⇒ Me = 5, 34 − 20, 4 −15, 06 ⇒ ⇒ 36, 9 −0, 408 −0, 408 La médiane est très intéressante comme valeur centrale car elle n’est pas sensible aux valeurs extrêmes (celles-ci n’interviennent pas dans son calcul). Elle se prête assez mal aux calculs ultérieurs, par exemple, quand on a calculé la médiane de deux séries, on ne peut pas connaître la médiane des deux séries confondues. Mais, en revanche, elle possède une propriété importante : la somme de la valeur absolue des écarts de tous les éléments de la série par rapport la médiane est minimum. Elle est utilisée dans des indicateurs économiques comme celui du seuil de pauvreté qui est égal, en France, pour une personne seule à 50% ou 60% du revenu médian. 3.1.1 D’autres valeurs centrales de même nature que la médiane Les quartiles : Ils sont au nombre de 4. On les note : Q1 , Q2 , Q3 , Q4 . Ils correspondent aux fréquences cumulées : 0.25, 0.50, 0.75, 1.0 Les déciles : Ils sont au nombre de 10. On les note : D1 , D2 , . . . , D5 , . . . D10 . Ils correspondent aux fréquences cumulées : 0.1, 0.2, . . . , 0.5, . . . , 1. Les centiles : Ils sont au nombre de 100. On les note : C1 , C2 , . . . , C50 , . . . , C100 . Ils correspondent aux fréquences cumulées : 0.01, 0.02, . . . , 0.50, . . . , 100. Remarque : On note que Q2 , D5 , C50 correspondent la même fréquence cumulée croissante : 0,50. 144. Unité : euros constants de 2007. Source : Insee, personnes vivant en France métropolitaine dans un ménage dont le revenu déclaré au fisc est positif ou nul et dont la personne de référence n’est pas étudiante 56 3.2. Le mode Figure 3.1 – Evolution des seuils de pauvreté mensuels Année 144 1970 1975 1979 1984 1990 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 3.2 Seuil à 60% 473 595 686 713 760 778 776 791 809 826 844 863 863 861 876 890 908 Seuil à 50% 395 497 573 595 635 649 648 660 675 690 705 719 720 718 730 741 757 Le mode Le mode qui est souvent noté sous la forme d’un M est la valeur qui correspond, quand les classes sont inégales, à la classe dont la densité de fréquence est la plus grande. Quand les classes sont égales ou quand la distribution se fait sur une variable discrète, c’est la modalité de la variable qui correspond l’effectif le plus important ou la plus grande fréquence quand la distribution est exprimée en fréquences. C’est donc sur un histogramme ou sur un diagramme en bâtons suivant le cas la modalité qui correspond à la classe ou au point le plus haut. La détermination du mode ne correspond pas un mode de calcul particulier. La manière dont sont découpées ou regroupées les classes influent assez fortement sur la valeur du mode. 3.3 Les moyennes Calculer une moyenne revient à chercher le point d’équilibre d’un système , ce point d’équilibre dépend la fois de la masse des objets du système et de leurs positions relatives dans le système. Un bon exemple de la relation entre masse et distance est la balance romaine, on équilibre une masse importante situe sur un plateau près du point de suspension en déplaçant plus ou moins loin de ce point de suspension une masselotte beaucoup plus légère afin d’obtenir l’équilibre. L’importance de la distance de la masselotte au point de suspension compense l’importance de la masse posée sur le plateau. L’équilibre ainsi obtenu peut être détruit soit en modifiant la quantité contenue sur le plateau de la balance, soit en modifiant la distance de la masselotte au point d’équilibre. Dans le calcul de la moyenne la distance correspond xi la masse ni 57 3.3. Les moyennes Figure 3.2 – Principe la base de la moyenne Figure 3.3 – La balance romaine comme illustration du principe la base de la moyenne 3.3.1 Les moyennes arithmétiques et algébriques Elles sont les plus connues et les plus utilisées au point que lorsque rien n’est précisé, c’est de l’une d’elles dont il s’agit. La première s’effectue sur des nombres positif �+ , la seconde sur l’ensemble des nombres positifs ou négatifs �. Elles peuvent se calculer soit en utilisant les fréquences (fi ) soit en utilisant les effectifs (ni ). Ces deux façons de faire se retrouvent dans les deux formules suivantes qui sont équivalentes. x= �r i=1 fi xi x= 1 N Si on utilise des pourcentages la formule devient x = x= �r i=1 ni xi 1 100 r 1 � ni x i ⇒ N �r i=1 pourc.i xi i=1 n1 x 1 + ... + N n1 x1 + ... + N ni x i + ... + N ni xi + ... + N nr x r ⇒ N nr xr ⇒ N f1 x1 + ... + fi xi + ... + fr xr = r � fi xi i=1 Les principes l’œuvre dans la détermination de la moyenne font qu’elle est indépendante de l’origine et de l’unité de mesure qui sert se repérer dans le système qu’elle décrit. Il est ainsi possible de calculer une moyenne algébrique en changeant d’origine et/ou d’échelle. Pour se faire, on choisit un centre de classe x0 si possible situé au centre de la distribution et 58 3.3. Les moyennes correspondant un effectif ni important. On cherche une valeur h qui correspond au plus grand diviseur des intervalles entre les centres de classe. Ce nombre n’est pas forcément un entier. ui = xi − x0 ⇒ xi = hui + x0 h Figure 3.4 – Calcul de la moyenne d’âge des moins de 90 ans dans l’enquête santé Classe 0 à 14 ans 15 à 29 ans 30 à 59 ans 60 à 74 ans 75 à 89 ans Total Moyennes ni 262220 265596 512079 218788 86112 1344795 ui -5 -3 0 3 5 xi 7,5 22,5 45 67,5 82,5 Borne inf 0 15 30 60 75 Borne sup 15 30 60 75 90 ni x i 1966650 5975910 23043555 14768190 7104240 52858545 x = 39, 3 ni u i -1311100 -796788 0 656364 430560 -1020964 u = −0, 7592 Dans le tableau 2.3 on choisit une valeur xi au centre de la distribution avec un effectif important. Ici on prend donc x3 = 45 centre de la classe 30-60 ans comme valeur de x0 . Pour trouver h on calcule les intervalles entre les centres de classe xi (7,5 - 22,5 - 45 - 67,5 - 82,5) ce qui donne successivement (15 - 22,5 - 22,5 - 15). Le plus grand diviseur commun de ces quatre 0 nombres est 7,5. Donc h = 7,5. Si on applique la formule ui = xi −x avec les paramètres x0 h = 45 et h = 7,5 on obtient les valeurs de la colonne ui . Calcul de la moyenne sans variable provisoire : x = x = 1 � ni .xi N 1 × 52 858 545 = 39.31 1 344 795 Calcul de la moyenne avec variable provisoire : u = u = 1 � ni .ui N 1 × −1 020 964 = −0, 7 592 1 344 795 A partir de la valeur u on obtient nouveau la valeur x de la manière suivante : x = hu + x0 ⇒ ((7, 5 × −0, 7592) + 45) ⇒ x = 39, 3 3.3.2 Moyenne harmonique Prenons un exemple pour illustrer l’intérêt de la moyenne harmonique. Supposons que vous faites une balade vélo : vous commencez par escalader une côte de 1km 20km/h, puis vous redescendez cette même côte 30km/h. Quelle est votre vitesse moyenne ? La première réponse qui vient la tête est 25 km heure, c’est oublier que la moyenne ne dépend pas que des deux vitesses mais aussi du temps pendant lequel ont été réalises ces deux vitesses. 59 3.3. Les moyennes Pour réaliser la monté il faut : 60 minutes×1 = 3 minutes 20 60 minutes×1 Pour réaliser la descente il faut : = 2 minutes 30 Le temps total mis est donc de 5 minutes. 2km ont été fait en 5 minutes la moyenne horaire 2km se trouve donc être de 5mn × 60mn = 24km/h On peut raisonner autrement : Soit v la vitesse moyenne, t le temps total mis, on a v = 2t . Ce qui peut s’écrire t = 2km v . Par ailleurs t = t1 + t2 , où t1 est le temps mis pour monter, et 1 t2 le temps mis pour descendre. On peut aussi écrire t1 = 1km v1 , et t2 = v2 , où v1 est la vitesse pour monter et v2 celle pour descendre. On peut aussi écrire : 2km 1km 1km 1 1 1 0, 0500 + 0, 0333 1 = + = + ⇒ = ⇒v= ⇒ v = 24km/h v v1 v2 20 30 v 2 0, 0417 La vitesse moyenne est la moyenne harmonique des deux vitesses ! H= r 1 � 1 ni N xi i=1 3.3.3 Moyenne géométrique Voici un exemple d’application de cette moyenne issue des derniers mouvements de lutte contre les réformes universitaires en cours : la télévision régionale annonce après une des manifestations 15 000 manifestants selon la police, et 45 000 selon les organisateurs. Pour connaître le nombre de manifestants, la première idée est de prendre la moyenne arithmétique des deux estimations : on trouverait alors 30 000 personnes. En faisant ce type de calcul, on surestime l’importance du chiffre donné par les organisateurs par rapport au chiffre communiqué par la police. Si pour cette même manifestation, la police avait annoncé 5 000 manifestants, on trouverait 25 000, ce qui diminue peu le chiffre moyen. Un autre raisonnement consiste se dire que les organisateurs et la police biaisent le résultat dans la même proportion : le nombre par lequel les organisateurs multiplient le nombre réel de manifestants est le même que celui par lequel la police divise le nombre réel de manifestants. Dans ce cas il est plus juste d’utiliser la moyenne géométrique du chiffre annoncé par la police et les organisateurs pour estimer le nombre réel de manifestants. Avec les valeurs annonces par nos deux estimateurs, on trouve 22 913 personnes. Les organisateurs vont être déçus ! D’une manière générale, la moyenne géométrique atténue le poids relatif des valeurs les plus hautes. � � � r � � r � r r �� �� 1 � 1 � n n � G= log(xi ) ⇒ xi ⇒ xi ⇒ L = � xi N N i=1 3.3.4 i=1 i=1 i=1 Moyenne quadratique Cette moyenne qui amplifie les valeurs importantes de xi est utilise dans le calcul de l’écarttype. � � r �1 � � Q= ni x2i N i=1 60 3.4. Comparaison des caractéristiques des valeurs centrales 3.3.5 Exercice sur les moyennes D’une manière générale, ces diverses formes de moyennes donnent des résultats qui s’étagent comme suit : x1 ≤ H ≤ G ≤ X ≤ Q2 ≤ Qn ≤ xr Imaginons une entreprise ayant 10 salariés dont Roland qui est la fois le directeur et le propriétaire de la petite entreprise et dont le salaire s’élève 110 000e annuels. Les neuf autres salariés ont des salaires qui varient de 6 800e pour Jean 14 300e pour Pierre. La moyenne algébrique salaire de la majorité des x des salaires dans l’entreprise s’élève 20 350e, ce qui est nettement supérieur aux salaires des neufs Employéés dont le salaire moyen s’élève 10 388,89e. Si on considère la moyenne algébrique x=20 350e on a l’impression que cette entreprise paye correctement ses salariés, en revanche cette impression reflète assez mal ce qu’il en est des revenus des neufs Employés. Le calcul de la moyenne algébrique pour les 10 salariés est fortement impacté par le salaire de Roland. Les moyennes harmoniques H et géométriques H qui s’élèvent respectivement 12 843,80e et 10 834,18e reflètent mieux la rallié des salaires de cette entreprise pour les Employés. Le salaire le plus important a été fortement pondéré par ces deux types de calcul. Figure 3.5 – Calcul des différentes moyennes sur le salaire annuel dans une petite entreprise Prénom Jean Pierre Simone Annick Paul Jacques Raymonde Christiane Roland Léa Somme Moyenne Moyenne 3.4 salaire 6 800,00e 14 300,00e 12 500,00e 13 000,00e 10 200,00e 8 000,00e 9 000,00e 11 000,00e 110 000,00e 8 700,00e 203 500,00e algébrique 20 350,00e log10(salaire) 3,832508913 4,155336037 4,096910013 4,113943352 4,008600172 3,903089987 3,954242509 4,041392685 5,041392685 3,939519253 41,08693561 géométrique 12 843,80e ln(salaire) 8,824677891 9,568014816 9,433483923 9,472704636 9,230142999 8,987196821 9,104979856 9,305650552 11,60823564 9,071078305 94,60616544 géométrique 12 843,80e 1 salaire 0,000147059 0,000069930 0,000080000 0,000076923 0,000098039 0,000125000 0,000111111 0,000090909 0,000009091 0,000114943 0,000923005 harmonique 10 834,18e Salaire2 46240000 204490000 156250000 169000000 104040000 64000000 81000000 121000000 12100000000 75690000 13121710000 quadratique 36 223,90e Comparaison des caractéristiques des valeurs centrales La moyenne c’est une des meilleures valeurs centrales : le calcul est simple, elle dépend de toutes les valeurs, elle est toujours déterminée, elle se prête bien aux calculs ultérieurs, elle est peu affectée par les fluctuations d’échantillonnage. En revanche surtout dans les cas de petits échantillons, elle est assez sensible aux valeurs extrêmes. La médiane, sa détermination est relativement simple. Elle repose sur le classement, elle peut être utilisée dans certains cas où le calcul de la moyenne est impossible du fait de classes extrêmes sans limites précises. Elle est peu sensible aux valeurs extrêmes, dans le cas où de 61 3.4. Comparaison des caractéristiques des valeurs centrales telles valeurs extrêmes sont à craindre elle est particulièrement recommandée. En revanche elle est peu recommandée dans le cas de variations très discontinues ou dans le cas où elle devrait être utilisée dans des calculs ultérieurs. Le mode, c’est une valeur importante. Il est quelque fois difficile à déterminer (dans le cas de classes inégales). Son utilisation est importante en complément de la moyenne dans le cas de distributions asymétriques. 62 Chapitre 4 Les indices de dispersion 4.1 Les fréquences cumulées et les indices de dispersion. Les indicateurs centraux (moyenne, médiane, mode) sont un bon résumé d’une distribution mais comme l’indique ce que nous venons d’écrire sur l’intérêt du mode, ils ne permettent pas de caractériser la forme des distributions. Les modalités sont-elles très groupées autour de la valeur centrale ou au contraire très dispersées voire toutes inférieures ou supérieures. C’est pour répondre cette interrogation qu’on utilise des indicateurs de dispersion. L’utilisation conjointe des trois indicateurs centraux usuels permet d’avoir une idée de la forme d’une distribution. 4.1.1 L’intervalle inter-quartile Il est utilisé comme un indicateur de dispersion des distributions, il repose sur la mesure de l’amplitude qui sépare Q1 de Q3 . Il permet de spécifier la forme d’une distribution ou de comparer la forme de deux distributions. Figure 4.1 – Pourcentage 100 % 75 % 50 % 25 % 0% Indicateur Max Q3 Q2 Q1 Min Âge de l’homme 93 59 45 35 19 Âge de la femme 90 57 42 33 17 L’amplitude des deux distributions est relativement semblable (74 ans pour les hommes, 73 ans pour les femmes). L’âge médian des hommes est supérieur de 3 ans celui des femmes. En revanche les deux populations ont une répartition analogue autour de la médiane, l’écart entre Q1 et Q3 s’élève 24 ans aussi bien pour les hommes que pour les femmes. 4.1.2 La variance On en donne deux définitions qui correspondent à deux manières d’effectuer les calculs permettant de l’obtenir. 63 4.1. Les fréquences cumulées et les indices de dispersion. – La variance c’est la moyenne des carrés des écarts la moyenne : V (x) = x=r 1 � ni (xi − x)2 N i=1 V (x) = x=r � i=1 fi (xi − x)2 – La variance c’est la moyennes du carré des xi , moins le carré de la moyenne : x=r 1 � V (x) = ni .x2i − x2 N i=1 V (x) = x=r � i=1 fi .x2i − x2 Les formules exprimées en fréquences ou en effectifs sont équivalentes la seule chose qui change 1 c’est la disparition du car la somme des fréquences est comme nous l’avons vue, égale à 1 N 1 1 ce qui reviendrait écrire � ce qui est gal . fi 1 En revanche, l’équivalence des deux formules n’est pas évidente, c’est pourquoi nous en présentons la démonstration suivante effectuée sur les formules exprimées en fréquences. Pour 2 2 2 suivre cette � démonstration il suffit � de se rappeler des choses suivantes : (a − b) = a + b − 2ab puis que fi = 1 et enfin que f i xi = x � V (x) = fi (xi − x)2 � V (x) = fi (x2i − 2xi x + x2 ) �� � � � V (x) = fi x2i − 2 f i xi x + fi x2 � V (x) = fi x2i − x2 Si vous n’avez pas trouvé tout se joue dans la troisième ligne qui se simplifie de la manière suivante : � � – fi� x2i reste fi x2i 2 – −2 � ( 2 fi xi x) ⇒2−2(x2× x) ⇒ −2x – fi x ⇒ 1 × x ⇒ �x 2 � La ligne 3 devient : fi xi − 2x2 + x2 ce qui donne bien : fi x2i − x2 Le calcul de la variance s’effectue relativement simplement, nous allons illustrer ce calcul en calculant la variance des âges de la population de l’enquête santé. Tout comme pour la moyenne il est possible d’utiliser des variables provisoires. Le tableau choisi étant le même que celui de l’exercice présentant le calcul de la moyenne nous avons repris les valeurs x0 = 45 et h = 7.5 retenues pour calculez les variables provisoires ui . Nous présentons les deux manières de calculer la variance, la première directement en n’utilisant pas de variable provisoire, la seconde en passant par les variables provisoires ui Pour calculer la variance, il est nécessaire de connaître la moyenne, rappelons que la formule 1 � 1 de la moyenne de x est x = ni .xi celle de la variance V (x) = ni .x2i − x2 et que la N N 1 � 1 moyenne de u est u = ni .ui celle de la variance V (u) = ni .u2i − u2 N N 64 4.1. Les fréquences cumulées et les indices de dispersion. Figure 4.2 – Calcul de la variance sur l’âge des moins de 90 ans dans l’enquête santé Classe 0 à 14 ans 15 à 29 ans 30 à 59 ans 60 à 74 ans 75 à 89 ans Total 262 265 512 218 86 1 344 ni 220 596 079 788 112 795 xi 7.5 22.5 45 67.5 82.5 1 5 23 14 7 52 ni x i 966 650 975 910 043 555 768 190 104 240 858 545 14 134 1 036 996 586 2 769 ni x2i 749 875 457 975 959 975 852 825 099 800 120 450 ui -5 -3 0 3 5 ni u i -1 311 100 -796 788 0 656 364 430 560 -1 020 964 6 2 1 2 13 ni u2i 555 500 390 364 0 969 092 152 800 067 756 Calcul sans variable provisoire : x = x = 1 � ni .xi N 1 × 52 858 545 = 39.31 1 344 795 1 � ni .x2i − x2 N 1 2 769 120 450 − 39.312 = 514.18 1 344 795 V (x) = V (x) = Calcul avec variables provisoires : Ce calcul est identique celui effectué sans variable provisoire, il nécessite simplement de repasser de ui xi la fin des calculs. u = u = V (u) = V (u) = 1 � ni .ui N 1 × −1 020 964 = 514.18 1 344 795 1 � ni .u2i − u2 N 1 13 067 756 − (−0, 7 592)2 = 9.14 1 344 795 Nous avons déjà expliqué le passage de u à x qui repose sur la formule ayant permis de xi − x0 calculer les ui qui est : ui = . Cependant comme la variance prend pour origine dans h son calcul la moyenne, et que x et u occupe la même place au sein de la distribution le décalage d’échelle produit par xi − x0 n’intervient pas dans le passage de V (u) V (x) ainsi V (x) = V (u) × h2 = 9.14 × 7.52 = 514.18. Quelques éléments sur l’utilité et la nature de la variance Pour montrer l’intérêt de l’utilisation de la variance, nous allons tout d’abord regarder ce que donne le calcul de la moyenne dans la comparaison des résultats obtenus par deux groupes d’étudiants (X et Y ) à un même test. Les notes obtenues à ce test peuvent varier entre 0 65 4.1. Les fréquences cumulées et les indices de dispersion. Figure 4.3 – Tableau de report des résultats à un même test par deux groupes d’étudiants groupe X x i ni ni x i 2 2 4 3 3 9 4 4 16 5 3 15 6 2 12 14 56 groupe Y yj nj ni y j 2 5 10 3 3 9 4 2 8 5 3 15 6 5 30 18 72 et 7. Les notes consignées dans le tableau de report sont, pour des raisons de simplification, arrondies à l’entier le plus proche. En conséquence une note xi correspond l’intervalle xi −0.5 ≤ xi < xi + 0.5 Les moyennes obtenues par les groupes X et Y sont toutes les deux de 4 ce qui laisserait penser que ces deux groupes ont réussi de la même manière le test proposé. Or un simple coup d’œil sur la forme des distributions montre que le groupe X comporte de nombreuses personnes situées autour de la moyenne alors que le groupe Y comporte peu de personnes autour de la moyenne mais en revanche de nombreuses personnes qui ont soit raté le test, soit l’ont réussi parfaitement. 6 6 5 5 4 4 3 3 2 2 1 1 −1 1 2 3 4 5 −1 1 2 3 4 5 6 7 −1 −1 Les deux histogrammes ci dessus montrent à l’évidence la différence de forme des populations étudiantes qui ont passé le même test. A la place de tracer ces deux histogrammes il est possible de calculer les variances des résultat obtenus pour chacun des deux groupes. 1 � 1 Pour le groupe X V (x) = ni .x2i − x = × 246 − 42 = 1.57. N 14 1 � 1 Pour le groupe Y V (y) = nj .yj2 − y = × 334 − 42 = 2.56. N 18 La comparaison de la variance sur les résultats obtenus par les deux groupes permet de constater que la variance du groupe Y est égale celle du groupe X multiplié par 1.63. Cette différence entre les deux variances indique une plus grande dispersion des individus dans le groupe Y 66 6 7 4.1. Les fréquences cumulées et les indices de dispersion. comparé à celle du groupe X. La variance du groupe Y est de 63% supérieure à celle du groupe X. Approche graphique de la variance Pour comprendre ce que représente graphiquement une variance nous allons construire un exemple simple de distribution composée de trois individus sur laquelle nous calculerons moyenne et variance. Individu A B C Total xi 1 3 8 ni 1 1 1 N =3 ni x i 1 3 8 � ni xi = 12 ni .x2i 1 9 64 � ni .x2i = 74 Ce tableau reflète l’attribution d’une note 3 individus A, B et C et les éléments de calcul nécessaires au calcul de la moyenne et de la variance des notes attribuées. Il peut être représenté par un diagramme en bâtons qui pour chaque note donne l’effectif des personnes ayant obtenu cette note. Ici il fait correspondre l’effectif 1 aux notes 1, 3 et 8. Figure 4.4 – Diagramme en bâtons sur l’exemple de trois individus 2 1 −1 −1 1 2 3 5 x La moyenne des notes attribuées est égale : x = Première méthode de calcul V (x) = = = = 6 7 8 9 1 � 1 ni xi = × 12 = 4. N 3 1 � ni (xi − x)2 N � 1� (1 − 4)2 + (3 − 4)2 + (8 − 4)2 3 � 1� (−3)2 + (−1)2 + 42 3 26 = 8.67 3 C’est ce calcul qu’illustre le graphique ci-dessous, l’individu A qui a comme note 1 entretient avec la moyenne 4 un écart de -3, si on élève cette surface au carré cela représente un carré de surface 9, l’individu B qui a comme note 3 entretient avec la moyenne 4 un écart de -1, 67 4.1. Les fréquences cumulées et les indices de dispersion. si on élève cette surface au carré cela représente un carré de de surface 1, l’individu C qui a comme note 8 entretient avec la moyenne 4 un écart de 4 si on élève cette surface au carré cela représente un carré de surface 16, si on additionne ces 3 carrés on obtient une surface de 64, si on la divise par le nombre de carrés 3 on obtient un carré moyen de 8.67 de surface. Figure 4.5 – Décomposition des surfaces dans la première méthode 4 3 C 2 A 1 B 1 −1 −1 2 3 5 x 6 7 8 9 Seconde méthode de calcul V (x) = = = = 1 � ni .x2i − x2 N � � � � �� 1 �� 1 × 12 + 1 × 32 + 1 × 82 − 42 3 1 (1 + 9 + 64) − 16 3 74 − 16 = 24.66 − 16 = 8.67 3 Ce second calcul revient faire les calculs suivants : l’individu A a eu comme note 1 ce qui permet de construire une surface de 1 de côté soit de 1 de surface, l’individu B a eu comme note 3 ce qui permet de construire une surface de 3 de côté soit de 9 de surface, l’individu C a eu comme note 8 ce qui permet de construire une surface de 8 de côté soit de 64 de surface, on additionne toutes ces surfaces ce qui permet de construire une surface de 74, on divise cette surface par 3 ce qui donne un carré de 24.66 auquel on retranche le carré de la moyenne 4 soit un carré de 16, ce qui donne un carré 8.66. 4.1.3 L’écart-type C’est un indice de dispersion autour de la moyenne très utilisé, car c’est une distance et non une surface, il s’exprime dans la même unité que la variable sur laquelle il est calculé. Si on regarde des salaires exprimés en euros, il va représenter un �écart en euros. On le note avec la lettre grecque σ. Sa formule est assez explicite σ(x) = V (x). L’écart-type est la racine carrée de la variance. Comme nous avons montré que la variance est un carré moyen, l’écart 68 4.1. Les fréquences cumulées et les indices de dispersion. Figure 4.6 – Décomposition des surfaces dans la seconde méthode x23 = 64 x22 = 9 x2 = 16 x21 = 1 type est le côté de ce carré moyen. Il joue un rôle important dans l’étude de la loi normale dite aussi loi de Gauss. Cette question sera abordée ultérieurement dans ce polycopié. 69 4.1. Les fréquences cumulées et les indices de dispersion. 70 Chapitre 5 Les statistiques bivariées 5.1 Les distributions bivariées Elles permettent de caractériser un individu ou plusieurs par rapport aux modalités de deux variables, ou encore elles placent un individu ou plusieurs à l’intersection des modalités de deux variables. On peut en donner deux représentations l’une ensembliste, l’autre cartésienne. Elles peuvent être construites sur des variables quantitatives ou qualitatives. Quand on a des variables quantitatives on utilise le calcul du coefficient de corrélation pour vérifier si leurs variations sont liées, en revanche si les variables sont qualitatives on utilise le calcul du χ2 pour mettre en évidence le lien qu’elles peuvent entretenir. Figure 5.1 – Deux représentations d’une distribution bivariée Dans ce type de notation les xi et yj correspondent aux modalités de la variable, les xi correspondent aux modalités de la variable x. Les indices i et j correspondent à l’énumération des modalités : x1 correspond à la première modalité de la variable, x2 correspond à la deuxième modalité ainsi de suite jusqu’à la dernière modalité dont l’indice est r. Même raisonnement pour y mais dernière modalité a pour indice s. D’une manière générale lorsque on souhaite désigner une modalité de la variable x ou y, mais aussi lorsque l’on désigne les modalités des v soit de la variable x soit de la variable y on utilise xi ou yj de manière générique. Le point dans les notations remplace un indice que l’on ne prend pas en compte on le dit muet (car il ne s’exprime pas). Ainsi (ni .) dans le tableau ci-dessus est l’effectif de tous les individus ayant comme modalité i pour la variable x quelle que soit la modalité pour la variable y ; il 71 5.2. La corrélation linéaire Figure 5.2 – Principe de notation dans les tableaux bivariés x y y1 y2 ··· yj ··· ys totaux x1 x2 ··· xi ··· xr totaux n11 n12 ··· n1j ··· n1s n1. n21 n22 ··· n2j ··· n2s n2. ··· ··· ··· ··· ··· ··· ··· ni1 ni2 ··· nij ··· nis ni. ··· ··· ··· ··· ··· ··· ··· nr1 nr2 ··· nrj ··· nrs nr. n.1 n.2 ··· n.j ··· n.s N s’agit de la somme de la colonne du tableau correspondant à la modalité (xi ). Ainsi, du fait des règles de d’additivité et de commutativité dans �, on peut calculer l’effectif � total d’un tableau de plusieurs manières soit en calculant la somme des cases du tableau N = nij� , soit en calculant les sommes des colonnes puis en additionnant les sommes obtenuesN =� ni. , soit en calculant les sommes des lignes puis en additionnant les sommes obtenues N = n.j : N= 5.2 � nij = � ni. = � n.j La corrélation linéaire Figure 5.3 – Un exemple de distribution bivariée sur des données numériques : la taille et le poids classes [165 ; 170[ [160 ; 165[ [155 ; 160[ [150 ; 155[ ni. [40 ; 45[ 0 0 2 20 22 [45 ; 50[ 1 5 18 9 33 [50 ; 55[ 7 12 4 1 24 [55 ; 60[ 14 6 1 0 21 n.j 22 23 25 30 N=100 Sur le tableau précédent les variables x et y sont respectivement le poids et la taille. Il est possible de calculer la moyenne et la variance des poids et des tailles des individus. Il s’agit là de calculs monovariés qui ont déjà été vus dans une des parties précédentes de ce polycopié. Le coefficient de corrélation linéaire est un moyen de mesurer la covariation des variables qui participent de ces deux distributions monovariés. Sa formule est donnée par le rapport entre la mesure de la covariation des xi et de yj que l’on note COV (x, y) et la racine carrée de la variance sur x et sur y, se note : COV (x, y) ρ= � V (x) × V (y) 72 5.2. La corrélation linéaire ρ= COV (x, y) σ(x) × σ(y) Le coefficient de corrélation linéaire ρ sert à montrer l’existence d’une liaison de type linéaire entre une variation observée sur un caractère X des individus d’une population et un caractère Y de ces mêmes individus. Les variables x et y doivent être numériques. Figure 5.4 – Tableau des points classes [40 ; 45[ [45 ; 50[ [165; 170[ [160; 165[ [155; 160[ ∗ ∗ [150; 155[ ∗∗∗∗∗ ∗∗∗∗∗ ∗∗∗∗∗ ∗∗∗∗∗ ∗ ∗ ∗ ∗∗ ∗∗ ∗ ∗ ∗∗ ∗∗∗∗∗ ∗∗∗∗∗ ∗ ∗ ∗∗ ∗∗∗ ∗∗∗ ∗∗∗ [50 ; 55[ ∗ ∗∗ ∗∗∗ ∗∗∗ ∗∗∗ ∗∗∗ ∗ ∗ ∗ ∗ ∗ [55 ; 60[ ∗∗∗ ∗ ∗ ∗∗ ∗∗∗ ∗ ∗ ∗∗ ∗∗ ∗∗ ∗ ∗ ∗ Dans ce tableau nous avons remplacé les effectifs par des astérisques ∗, en fonction des effectifs des cases la densité d’astérisques est plus ou moins importante. Toutes les cases du tableaux ont la même surface. Le tableau présente des zones où il existe de nombreuses ∗ donc où il existe des fortes densités d’astérisques (∗) d’autres où il y en a moins, enfin des zones où il n’y en a pas. Le calcul de corrélation vise donner une indication de la forme constituée des zones de forte, moyenne et faible densité. Ainsi le résultat attendu ici est un chiffre qui indiquerait que les ∗ sont situées sur la diagonale montante et que lorsque la taille augmente le poids augmente lui aussi. Par exemple une covariation linéaire entre : x le poids et y la taille x la note en statistiques et y la note en démographie. Le coefficient de corrélation linéaire ne met pas en évidence une relation de causalité entre X et Y. Il ne permet pas de dire que X détermine Y ou que Y dépend de X. ρ est compris entre -1 et +1, c’est un cosinus. Quand la valeur absolue est proche de 1 cela indique qu’il existe un lien entre la variation sur x et celle sur y. Quand la valeur absolue est proche de 0 cela indique qu’il n’existe pas de lien entre la variation sur x et sur y. 73 5.3. La covariance Quand le signe est positif cela indique que si x augmente y augmente. Quand le signe est négatif cela indique que si x diminue y augmente ou, ce qui est la même chose, que si y diminue x augmente. En première approximation et sans pour l’instant entrer dans la diversité des situations possibles les valeurs de ρ traduisent les cinq formes de nuages suivantes : y y y y y � � � � � � � � � � � � � �� � � � �� � � �� � � � � � � � �� �� � � � � � �� �� � � � � �� �� �� � � � � �� r = −1 x r � −1 x r=0 x r � +1 x r = +1 x Une valeur proche de 0 n’est pas la preuve d’une absence de liens entre les variations de x et y. Des liens de type fonctionnel peuvent exister entre deux variables sans que le coefficient de corrélation ne puisse les détecter comme l’illustre les deux graphiques suivants. L’un représente une parabole dont l’équation est : f (x) = ax2 + bx2 + c, l’autre une courbe gaussienne dont � � 1 xi − x 2 − 1 σ l’équation est : p(x) = √ � e 2 σ 2π � � � � � �� �� � �� � �� parabole ��� �� �� � normale ρ proche de 0 marque seulement l’absence d’une corrélation linéaire entre x et y mais peut occulter un lien de type non linéaire ou encore fonctionnel autre que de la forme : y = ax + b qui est l’équation de la droite. 5.3 La covariance Pour calculer ρ il faut connaître la covariance cov(x, y). La covariance présente de nombreuses analogies avec la variance. Elle est elle aussi une surface moyenne. Comme la variance elle peut être exprimée par deux formules : 1ere formule : r � s � cov(x, y) = fij (xi − x) (yj − y) i=1 j=1 cov(x, y) = r s 1 �� nij (xi − x) (yj − y) N i=1 j=1 2nde formule : cov(x, y) = r � s � i=1 j=1 74 fij xi yj − X × Y 5.3. La covariance cov(x, y) = r s 1 �� nij xi yj − X × Y N i=1 j=1 Comme pour la variance, une démonstration assez simple permet de passer d’une formule l’autre de la covariance. De la même façon que la variance est une surface, la covariance est elle aussi une surface. Pour montrer cela, prenons un exemple simple de calcul de corrélation sur quatre individus. Chaque individu a passé deux tests, chacun de ces deux tests ils ont obtenu une note qui varie entre 2 et 6 pour le test X et entre 1 et 5 pour le test Y. Les résultats de cette passation des tests sont contenus dans le tableau suivant qui contient pour chaque individu les deux notes obtenues. Figure 5.5 – résultats aux tests pour chaque individu individus a b c d score au test X 2 6 5 3 score au test Y 5 2 4 1 Les moyennes obtenues à chacun de ces tests sont : 2+6+5+3 16 x= ⇒ ⇒4 4 4 5+2+4+1 12 y= ⇒ ⇒3 4 4 Les variances sur x et y sont : � � 1 74 2 2 2 2 V (x) = × (2 + 6 + 5 + 3 ) − x2 ⇒ − 42 ⇒ 18.5 − 16 ⇒ 2.5 4 4 � � 1 46 2 2 2 2 V (y) = × (5 + 2 + 4 + 1 ) − y 2 ⇒ − 32 ⇒ 11.5 − 9 ⇒ 2.5 4 4 Il est possible de proposer une autre présentation de ces données sous la forme d’un tableau de données plus conforme l’exemple présent sur les poids et les tailles. Figure 5.6 – présentation des résultats sous forme d’un tableau de contingence y 1 2 3 4 5 x 2 3 4 5 6 1(d) 1(b) 1(c) 1(a) Dans ce tableau les quatre individus sont positionnés dans les cellules qui correspondent à l’intersection de leurs résultats obtenus aux deux tests. Par exemple la notation 1(a) correspond 75 5.4. Tableau permettant de calculer r pour l’exemple taille poids à un individu qui est l’individu a qui a obtenu 2 au test X et 5 au test Y. Il est possible de donner une représentation graphique du calcul de corrélation à l’œuvre dans cet exemple. Figure 5.7 – Illustration graphique d’un calcul de corrélation 6 a(2, 5) 5 c(5, 4) 4 y 2 b(6, 2) 1 −1 −1 d(3, 1) 1 2 3 x 5 6 7 Explicitation d’un calcul de corrélation sur les individus a, b, c, d du tableau qui a permis la construction du graphique précédent. r = cov(x, y) = cov(x, y) � V (x)V (y) r s 1 �� nij (xi − x) (yj − y) N i=1 j=1 cov(x, y) = cov(x, y) = cov(x, y) = cov(x, y) = 5.4 1 4 1 4 1 4 1 4 × ((2 − 4) × (5 − 3) + (6 − 4) × (2 − 3) + (5 − 4) × (4 − 3) + (3 − 4) × (1 − 3)) × ((−2) × (+2) + (+2) × (−1) + (+1) × (+1) + (−1) × (−2)) × ((−4) + (−2) + (+1) + (+2)) × (−3) Tableau permettant de calculer r pour l’exemple taille poids La décomposition des calculs que nous allons suivre est celle qu’il faut appliquer sur tous les tableaux de ce type. 1. Prévoir que les cellules contenant les nij dans le tableau soient assez grandes pour y introduire une autre case ; 2. Positionner le tableau sur une feuille en sorte que l’on puisse insérer 2 colonnes à gauche, 2 lignes au dessus, 3 lignes à droite, 5 lignes en dessous ; 76 5.4. Tableau permettant de calculer r pour l’exemple taille poids 3. Calculer les sommes des colonnes pour remplir la ligne ni. ; 4. Calculer les sommes des lignes pour remplir la colonne n.j ; 5. Calculez l’effectif total N ; 6. Déterminer les centres des classes contenus dans la ligne xi ; 7. Rechercher si le besoin s’en fait sentir une variable ui permettant de simplifier les calculs ultérieurs. Pour ce faire on utilise la même technique que celle utilisée pour les distributions univariées. (Choix d’une variable xi au centre de distribution, si possible avec un effectif élevé, une fois cette variable choisie, elle devient x0 , puis rechercher les intervalles entre les centres des classes, ensuite rechercher le plus grand diviseur de ces intervalles, ce plus grand diviseur devient h0 ) ; 8. Déterminer les centres des classes contenus dans la colonne yj ; 9. Rechercher si le besoin s’en fait sentir une variable vj permettant de simplifier les calculs ultérieurs. Pour ce faire on utilise la même technique que celle utilisée pour les distributions univariées. (Choix d’une variable yj au centre de distribution, si possible avec un effectif élevé, une fois cette variable choisie, elle devient y0 , puis rechercher les intervalles entre les centres des classes, ensuite rechercher le plus grand diviseur de ces intervalles, ce plus grand diviseur devient k0 ) ; � 10. Calculer la ligne ni. ui en multipliant ni. par� ui puis faire la somme de cette ligne ni. ui . Calculer la moyenne u en divisant le total ni. ui par N ; 11. � Calculer la colonne n.j vj en multipliant n.j par vj puis � faire la somme de cette colonne n.j vj . Calculer la moyenne v en divisant le total n.j vj par N ; 12. � Calculer la ligne ni. u2i en multipliant ni. ui par ui puis faire la somme de cette ligne ni. u2i ; 13. Calculer la colonne n.j vj2 en multipliant n.j vj par vj puis faire la somme de cette colonne � n.j vj2 ; 1 � 14. Calculer la variance sur u en effectuant V (u) = ni. u2i − u2 : N 1 � 15. Calculer la variance sur u en effectuant V (v) = n.j vj2 − v 2 ; N � 16. Le cas chant calculer l’écart-type sur u en effectuant σ(u) = V (u) � 17. Le cas chant calculer l’écart-type sur v en effectuant σ(v) = V (v) 18. Effectuer le calcul nij×vj ce qui permet d’obtenir vj nij . À titre d’exemple cela consiste à multiplier successivement la valeur vj = −1 par la valeur nij = 0 et inscrire le résultat de ce produit à l’intérieur de la case fabriquée dans la cellule contenant l’effectif nij , répéter pour toutes les cellules contenant les effectif nij ; � 19. Effectuer par colonne la somme des vj nij et placer ces totaux dans la ligne nij vj ; � � 20. Effectuer le produit des ui par les nij vj ce qui permet d’obtenir des ui nij vj ; � � � 21. On effectue ensuite la somme des ui nij vj ce qui permet d’obtenir ui nij vj ; � � 22. Pour obtenir la COV (u, v) il ne reste plus qu’à diviser ui nij vj par N ; � � 1 23. On a ainsi COV (uv) = nij ui vj − (u × v) ; N COV (uv) 24. Ayant calcul V (u) et V (v) on peut déterminer r = � ; V (uV (v) 77 5.4. Tableau permettant de calculer r pour l’exemple taille poids 25. C’est fini ! ! ! Retrouvons les phases successives de ce calcul de décomposition de la formule de la covariance : COV (uv) = = = = = = 5.4.1 1 �� nij ui vj − (u × v) N nij vj � nij vj � ui nij vj � � ui nijvj 1 � � ui nij vj N Calcul développé sur l’exemple taille poids On remplace tout les xi par des ui en utilisant x0 = 47.5 et h = 5 ui = u1 = u2 = u3 = u4 = xi − x0 h 42.5 − 47.5 5 47.5 − 47.5 5 52.5 − 47.5 5 57.5 − 47.5 5 78 = −1 =0 =1 =2 5.4. Tableau permettant de calculer r pour l’exemple taille poids On remplace tout les yj par des vj en utilisant y0 = 157.5 et k = 5 vj = v1 = v2 = v3 = v4 = yj − y0 k 167.5 − 157.5 5 162.5 − 157.5 5 157.5 − 157.5 5 152.5 − 157.5 5 =2 =1 =0 = −1 1 44 Σni. ui = = 0.44 N 100 1 37 On calcule v = Σn.j vj = = 0.37 N 100 1 130 On calcule V (u) = Σni. .u2i − u2 = − 0.442 = 1.11 N 100 1 141 On calcule V (v) = Σn.j .vj2 − v 2 = − 0.372 = 1.27 N 100 1 �r �s 113 0n calcule cov(u, v) = nij ui vj = − (0.44 × 0.37) = 0.97 N i=1 j=1 100 cov(u, v) 0.97 0.97 On calcule r = � =√ � � 0.82 1.19 1.11 × 1.27 V (u)V (v) A partir de ces résultats on peut retrouver les valeurs x, y, V (x), V (y) et cov(x, y) x = x0 + hu = 47.5 + (5 × 0.44) = 49.7 y = y0 + kv = 157.5 + (5 × 0.37) = 159.35 V (x) = V (u) × h2 = 1.11 × 52 = 27.75 V (y) = V (v) × k 2 = 1.27 × 52 = 31.75 cov(x, y) = cov(u, v) × h × k = 0.97 × 5 × 5 = 24.15 cov(x, y 24.15 r=� =√ � 0.82 27.75 × 31.75 V (x)V (y) On remarque que le coefficient de corrélation n’est pas modifié qu’il soit calcul sur x, y ou u, v cela vient du fait qu’il n’est rien d’autre que le cosinus de l’angle fait par les droites de régression ∆ et ∆� . On calcule u = 5.4.2 Droites de régression Ces 2 droites minimisent sur x et y les écarts à l’intérieur de nuages de points. Comme se sont des droites elles sont de la forme y = ax + b. Équation de ∆ : y = y−y = cov(x, y) (x − x) + y V (x) cov(x, y) (x − x) V (x) (5.1) dans ce cas a = cov(x, y) V (x) 79 5.4. Tableau permettant de calculer r pour l’exemple taille poids equation de ∆� : x = x−x = cov(x, y) (y − y) + x V (y) cov(x, y) (y − y) V (y) (5.2) dans ce cas a� = cov(x, y) V (y) Calcul pour ∆ : cov(x, y) 24.15 � � 0.87 V (x) 27.75 y − y = a(x − x) a = y − 159.35 = 0.87(x − 49, 7) y = 0.87x − 43.24 + 159.35 y = 0.87x + 116.11 (5.3) Calcul pour ∆� : cov(x, y) 24.15 = � 0.76 V (y) 31.75 x − x = a� (y − y) a� = x − 49.6 = 0.76(y − 159.35) x − 49.6 = y − 159.35 0.76 1.32x − 65.39 = y − 159.35 −y = −1.32x − 159.35 + 65.39 −y = −1.32x − 93.96 y = 1.32x + 93.96 (5.4) Recherche des points : ∆ ∆ ∆� ∆� valeure de x 40 60 40 60 équation pour calculer y y = 0.87x + 116.11 y = 0.87x + 116.11 y = 1.32x + 93.96 y = 1.32x + 93.96 80 valeur de y 150.91 168.31 146.76 173.16 5.4. Tableau permettant de calculer r pour l’exemple taille poids T aille en cm (∆� ) 170 (∆) 167.5 165 162.5 160 y 157.5 155 152.5 150 35 40 x 50 45 42.5 47.5 55 60 52.5 P oids en kg 57.5 145 Aspect des droites de corrélation en fonction de la valeur de r y y y y y x r = 1, σx = σy x y x r = 1, σx > σy x 81 x r = 1, σx < σy x 5.4. Tableau permettant de calculer r pour l’exemple taille poids y y y y y x x r = −1, σx = σy y x x r = −1, σx > σy y x x r = −1, σx < σy y y y y y x r � 1, σx � σy x x r � 1, σx > σy y x y y y y x x r � −1, σx � σy y x x r � −1, σx > σy y x x r � −1, σx < σy y y y y x r = 0, σx = σy x x r � 1, σx < σy x y x r = 0, σx � σy x 82 x r = 0, σx � σy x 5.5. Différentes formes de nuages en fonction des valeurs de r, σ(x), σ(y) 5.5 Différentes formes de nuages en fonction des valeurs de r, σ(x), σ(y) σx = σy σ x > σy � y r=1 � 1 × y r1 � 4 �� �� � � �� � � � x �� ��� �� �� �� �� � �� � �� 7 r=0 x x x ��� � � � ��� � � ��� ���� � � � ���� �������������� � ��� �������� ����� �� � �� � ��� � � ��� � � �� �� � � �� 13 x r � −1 16 �� �� � � � ��� � �� �� � �� � � x � x × 8 x x ������������ � � � ����� �� ������������ � � � � ��� �������� ��� �� ��� � � � � � � � ������ ��������� � � 14 x 12 × y 15 � �� �� � ������ �� �� �� � � x 17 x 83 � x � �� � � �� ���� �− � � ��� �� x �� × y � �� �� � � ���� � � � ��� ���� ����� � � �� � � � � ����� ���� � � � �� ���� � �� � ������ ����� � ����� �� � � 9 × y y � 6 × y � � �� � � � � ������� �� � � �� � � ���� ���� � �� ������ ������� ������ � ����������� ��� �� 11 × y 3 � � � � �� ��� � �� �� � � � � × y 5 × y � ��� � � �� ��� � � � � � ������� �� � � ��� � � ���� ���� ���� � � � ��� � ���� ����� ��� � ����������� �� �� � �� � � � ������ ��������� � � � � � � ��� ��� � ��� ��� ����� ������ ���� � �� �� �� �� ������ ������������ � � × y × y �� � ���� � � � �� y 10 −1 < r < 0 � 2 y ���� ���� ��� � �� � �� � � �� �� � � � �� � � �� � � ��� �� �� ���� �� � �� �� � � � � ��� �� ���� � � �� � �� ���� � ��� � �� � ������� �� � � � �� � �� × y y y � × y 0<r<1 σ x < σy 18c x � ���� ��� � ��� ���� �� �� �� ���� ��� ���� �� � � ������ � ����� ��� � ����������� ��� �� � �� � � � x � �� � � �� ���� � � ��� ������ �������� ������ ��� ������������ ����� � � �� � �� ������� � �� �� � � �� x � � ��� � � ��� � �� ��� �� � � x 5.6. Test du χ2 y � r = −1 � y � � 19 5.6 �� �� �� �� y �� � x �� � �� ���� ��� � 20 �� x 21 � � �� �� �� �� � � � � � � x Test du χ2 Le test du χ2 peut être utilisé soit comme test d’homogénéité pour étudier si la population observée est un échantillon non biaisé d’une population générale connue selon les mêmes critères de classement, soit comme test d’indépendance permettant d’examiner les covariations entre deux variables correspondant aux lignes et colonnes d’un tableau de contingence. C’est cette seconde forme d’utilisation qui est détaillée ici. La formule usuelle qui correspond cet usage est : (O − E)2 E Dans laquelle O signifie Observé et E Espéré . Bien que cette formule soit explicite sur la démarche générale utilisée, elle ne rend pas exactement compte de l’ensemble des opérations à effectuer pour calculer le χ2 , c’est pourquoi nous proposons la formule suivante plus descriptive des calculs à effectuer : χ2 = χ2 = ΣΣ (nij − eij )2 eij Dans laquelle eij est égal : eij = (ni. .n.j ) Σnij Le χ2 s’interprète en fonction de sa valeur, d’une loi de probabilité (la loi du χ2 ) qui fait l’objet d’une table, de son nombre de degrés de liberté. L’entrée dans cette table est guidée par le nombre de degrés de libertés. Ce nombre de degrés de liberté (DDL, DF ou encore ν) est égal, lorsque les marges sont connues, au nombre de cellules du tableau (nij ) que l’on peut remplir sans tenir compte des autres (nij ) et sous la seule contrainte des marges (ni. et n.j ). On peut démontrer que cette valeur est égale au nombre de lignes moins une, multiplié par le nombre de colonnes moins une : ν = (lignes - 1) × (colonnes-1) La probabilité que l’on obtient en cherchant une valeur dans une table du χ2 est la probabilité que ce que l’on observe soit lié au hasard. Plus cette probabilité est faible plus on peut inférer un effet entre les deux variables. En sociologie on a coutume de n’interpréter que les tableaux pour lesquels la probabilité est inférieure 0.05 (1 chance sur 20). Dans d’autres disciplines on utilise des seuils plus drastiques 0.01, 0.001 voire 0.0001. La référence à une loi de probabilité pour ajuster plutôt qu’à la probabilité exacte donnée par le binôme de Pascal tient au fait que le calcul de la probabilité exacte fait appel à des 84 5.6. Test du χ2 chiffres qui deviennent vite très grand et nécessite beaucoup de temps pour être calculés dès que les effectifs et la taille du tableau augmentent. Un exemple de calcul de probabilité exacte est donné plus loin dans ce polycopié, il montre que l’on atteint très vite les limites de calcul des calculettes scientifiques existant sur le marché. D’une manière générale les tables de χ2 donnent la probabilité pour p comprise entre .99 et .90 pour une part, pour .05 .et .01 d’autre part. Pour p compris entre .90 et .10 les tables ne détaillent pas la probabilité correspondant au χ2 obtenu car il est d’usage et raisonnable de ne pas se prononcer sur l’indépendance de deux variables si la valeur de la probabilité est comprise entre ces deux bornes. En effet dans ce cas de figure cela revient à se prononcer en ayant entre 1 chance sur 10 et 9 chances sur 10 d’affirmer qu’il existe un lien alors qu’il existerait entre 9 chance sur 10 et une chance sur 10 pour que ce lien n’existe pas. Une table de χ2 et un mode d’emploi de la table du χ2 sont donnés dans les annexe de ce polycopié. De nombreuses contraintes existe pour calculer un χ2 , la plus importante est l’obligation d’avoir des valeurs espérés eij supérieures à 5. Le χ2 comme la variance est une surface. Il peut être interprété comme la quantité d’information contenue dans le tableau Plus le χ2 est important plus la quantité d’information contenue dans le tableau est importante. Cette quantité d’information doit être rapportée à la fois au nombre de degrés de liberté et à l’effectif de la population. Pour prendre en compte le rôle joué par l’effectif dans le calcul du χ2 il est nécessaire d’utiliser un autre indice le φ qui est une mesure de la distance entre le tableau observé et celui des valeurs espérées. Le φ est une nombre qui varie entre -1 et +1 en cela il s’apparente au coefficient de corrélation dont nous avons vu qu’il est un cosinus. Une information dans le calcul du χ2 est ce qui est différent de ce que l’on attend. Ce que l’on attend c’est donc la norme introduite par les marges. Attention ! ! ! c’est ce que font de manière automatique les logiciels de traitement d’enquêtes. Imaginons deux cas d’école : Dans le premier on examine dans un lycée ordinaire la réussite au BAC en fonction des CSP simplifies des parents. On obtient un χ2 significatif avec une probabilité p de 0.01. Ce tableau contient donc une quantité d’information non négligeable qui peut être résumée de façon lapidaire de la manière suivante : la réussite au BAC n’est pas sans lien avec la CSP des parents. Les enfants dont la PCS des parents reflète que ces derniers sont relativement bien dotés tant du point de vue des diplômes que des moyens financiers et de culture réussissent mieux au BAC. Si du point de vue la de théorie de l’information ce tableau contient de l’information, il n’en est pas de même du point de vue de la sociologie, ce tableau ne faisant que confirmer des connaissances depuis longtemps établies. Dans le second, purement imaginaire, on examine aussi la réussite au BAC en fonction de la CSP des parents. Le lycée n’est pas un lycée ordinaire mais un établissement qui s’est lancé dans la mise en place d’innovations pédagogiques visant permettre aux enfants dont les parents sont les moins bien dotés de réussir aussi bien que ceux dont les parents sont mieux dotés. Le χ2 est faible la probabilité p qui lui est associe est égale 0.97. Du point de vue de la théorie de l’information, compte tenu de la norme importée à partir des marges, ce tableau ne contient pas d’information, du point de vue de la sociologie ou des sciences de l’éducation il n’en serait pas de même, on serait en présence d’une pédagogie qui abolie la reproduction sociale. Pour mettre en évidence l’effet de cette pédagogie il faudrait utiliser le χ2 comme test d’homogénéité et fabriquer une norme qui reflète ce qui se passe dans l’ensemble de tous les autres lycées puis regarder si la population observée dans notre établissement expérimental 85 5.7. Calcul d’un premier χ2 est un échantillon possible ou non, de la population générale. Dans le sciences humaines, avant de rejeter l’interprétation d’un tableau, quand le χ2 utilisé comme test de contingence, est non significatif il est nécessaire de bien examiner la norme introduite lors de son calcul avec les hypothèses de la recherche. Le cas chant on peut refaire ce calcul en utilisant le χ2 comme test d’homognité avec une norme appropriée à l’hypothèse qui est sous-adjacente. 5.7 Calcul d’un premier χ2 Exemple de calcul comment : Figure 5.8 – Âge et Statut matrimonial légal ; Tableau Observé 20-29 ans 30-34 ans 35 ans & + Total marié 1 8 12 21 concubin 9 6 6 21 célibataire 50 21 32 103 Total 60 35 50 145 Figure 5.9 – Tableau espéré ou d’indépendance ou encore attendu 20-29 ans 30-34 ans 35 ans & + Total marié 8.69 5.07 7.24 21.00 concubin 8.69 5.07 7.24 21.00 86 célibataire 42.62 24.67 35.52 103.00 Total 60.00 35.00 50.00 145.00 5.7. Calcul d’un premier χ2 Ce tableau contient une hypothèse forte qu’il s’agit de bien garder en tête lors du passage à l’interprétation. La référence à laquelle est comparée le tableau observé est construite à partir des marges, la norme dans ce cas est un tableau dans lequel il n’y pas d’effet de x sur y ou de y sur x. Il représente le tableau le plus probable celui où le hasard seul intervient dans sa fabrication. Le tableau espéré est le reflet de la structure des marges. Il est donc ce que l’on attend comme situation de référence, celle où il n’y a pas d’effe d’une variable sur l’autre. Si on calcule un χ2 sur un tableau de contingence le χ2 vaut zéro, la probabilité associée est 1. Figure 5.10 – Structure des Lignes du Tableau espéré 20-29 ans 30-34 ans 35 ans & + Total marié 14.48 14.48 14.48 14.48 concubin 14.48 14.48 14.48 14.48 célibataire 71.04 71.04 71.04 71.04 Total 100.00 100.00 100.00 100.00 Figure 5.11 – Structure des Colonnes du Tableau espéré 20-29 ans 30-34 ans 35 ans & + Total marié 41.38 24.14 34.48 100.00 concubin 41.38 24.14 34.48 100.00 célibataire 41.38 24.14 34.48 100.00 Total 41.38 24.14 34.48 100.00 Figure 5.12 – Tableau des Ecarts 20-29 ans 30-34 ans 35 ans & + Total marié -7.69 +2.93 +4.76 0.00 concubin +0.31 +0.93 -1.24 0.00 célibataire +7.38 -3.86 -3.52 0.00 Total 0.00 0.00 0.00 0.00 Il est difficile de se servir des valeurs de ce tableau pour évaluer l’importance des écarts. Les écarts ou les erreurs d’estimation et de mesure sont proportionnels à ce que l’on attend. Par exemple lors d’une invitation dîner que l’on a lancée, se tromper de 5 personnes sur un nombre d’invités que l’on croit être de 5 fait que, soit on sera seul et cela risque d’être un peu triste, soit on se retrouve à 11, et il risque à la fois de manquer de chaises et les invités risquent de rester sur leur faim. En revanche se tromper de 5 personnes, alors que l’on en a invité 50, fait que l’on sera 45 ou 55 à table et il est fort possible que l’erreur ne se voit pas, que tout le monde mange à sa faim, que l’on ne s’ennuie pas). 87 5.7. Calcul d’un premier χ2 Figure 5.13 – Tableau des Signes 20-29 ans 30-34 ans 35 ans & + marié + + concubin + + - célibataire + - Figure 5.14 – Tableau des Contributions 20-29 ans 30-34 ans 35 ans & + Total marié 6.80 1.69 3.13 11.61 concubin 0.01 0.17 0.21 0.39 célibataire 1.28 0.60 0.35 2.23 Total 8.09 2.46 3.69 14.24 χ2 = 14.24; DF = 4 ; p � 0.0066 Quelques commentaires sur les conclusions à visée interprétative de ce calcul : Tout d’abord il n’y a qu’environ 6 chances sur 1000 pour qu’un tel tableau observé soit le fait du hasard. Il existe donc un lien entre les variables âges et situations matrimoniales qui explique un tel tableau. La situation matrimoniale est liée l’âge. L’information la plus importante (contribution au χ2 = 6.80) consiste dans le fait que les 20-29 ans sont moins souvent mariés qu’ils devraient l’être s’ils se comportaient comme l’ensemble de la population, la deuxième information (contribution au χ2 = 3.13) consiste dans le fait que que les 35 ans et plus sont plus souvent mariés que l’ensemble de la population. C’est la situation matrimoniale marié qui contribue le plus à l’information contenue dans le tableau (contribution au χ2 = 11.61). Cette situation est donc très liée à l’âge. La troisième information contenue dans ce tableau (contribution au χ2 = 1.69) est le fait que les 30-34 ans sont plus souvent mariés que le reste de la population. La quatrième information consiste dans le fait que les moins de 30 ans sont ceux qui sont le plus souvent célibataires en comparaison avec le reste de l’échantillon (contribution au χ2 = 1.28). En revanche, le fait d’être concubin est la situation matrimoniale qui contribue le moins à l’information contenue dans le tableau (contribution au χ2 = 0.39) ; cette faible contribution au χ2 mérite comme c’est souvent le cas que l’on cherche comprendre ce qu’elle signifie. Comme cela à déjà été précisé au début de cette présentation du χ2 , l’information dans la théorie de l’information mesure ce qui est différent de ce que l’on attend, est différente de l’information du sociologue. En effet les cellules du tableau contenant une forte contribution au χ2 donc une grande quantité d’informations du point de vue de la théorie de l’information mettent dans ce tableau en évidence des truismes : on est moins souvent marié quand on a moins de 30 ans plus souvent quand on a un âge supérieur, et on est plus souvent célibataire quand on a moins de 30 ans. Mais à l’inverse les faibles contribution χ2 que l’on observe dans la colonne concubin nous indique qu’à tous les âges on a une proportion équivalente, à celle qui est attendue ; de personnes qui se déclarent vivre en concubinage. Autrement dit le concubinage comme situation matrimoniale est dans cette population indépendante de l’âge 88 5.7. Calcul d’un premier χ2 ce qui pour le sociologue est le cas échéant, en fonction de la problématique et des hypothèses, une information, alors que du point de vue de la théorie de l’information ce n’est pas le cas. 89 5.8. Définition et utilisation du ϕ 5.8 Définition et utilisation du ϕ Le ϕ est une distance. On l’obtient en pondant le χ2 par l’effectif de la population par N et en extrayant la racine carre de cette surface moyenne. Il présente du point de vue du calcul une grande analogie avec l’écart-type et du point de sa nature une forte analogie avec le cosinus et le coefficient de corrélation ρ. La valeur du ϕ est comprise entre +1 et −1. Plus la distance entre le tableau d’indépendance et le tableau observé est grande plus | ϕ | est grande. Dans le cas d’un tableau 2 × 2 le ϕ et r le coefficient de corrélation ont la même valeur si l’on représente les modalités des deux variables qualitatives qui ont servi à calculer le χ2 sous la forme de nombres entiers successifs. Figure 5.15 – Équivalence du ϕ et du coefficient de corrélation r dans un tableau 2 × 2 ϕ= Rose Bleu Total Homme 10 30 40 Femme 20 40 60 Total 30 70 100 r= 1 2 Total 1 10 30 40 2 20 40 60 Total 30 70 100 r= 3 4 Total 6 10 30 40 7 20 40 60 Total 30 70 100 La formule qui permet d’obtenir la valeur de ϕ quand on connaît le χ2 ϕ= � χ2 N � L’opération χ2 donnant ±ϕ on obtient le signe de ϕ en l’affectant du signe de la valeur de cellule n11 du tableau des écarts dans le calcul du χ2 ou si l’on a pas ce tableau en appliquant n11 − (n1. .n.1 ) la formule . N Dans le cas d’un tableau 2×2 on peut démontrer que la formule précédente du ϕ est équivalente celle ci-dessous. ϕ= (n11 .n22 ) − (n21 .n12 ) √ n1. .n2. .n.1 .n.2 ((n11 .n22 ) − (n21 .n12 ))2 n1. .n2. .n.1 .n.2 (n − e11 ) (n12 − e12 ) (n21 − e21 ) (n22 − e22 ) 11 χ2 = + + + e11 e12 e21 e22 ϕ2 = Dans cette formule le signe est celui de la différence : (n11 .n22 ) − (n21 .n12 ) L’expression du χ2 en fonction de n11 , n12 , n21 , n22 s’obtient partir de : 90 (5.5) 5.8. Définition et utilisation du ϕ (n11 + n12 )(n21 + n22 ) n11 + n12 + n21 + n22 n11 (n11 + n12 + n21 + n22 ) (n11 + n12 )(n21 + n22 ) = − n11 + n12 + n21 + n22 n11 + n12 + n21 + n22 2 n + (n11 .n12 ) + (n11 .n21 ) + (n11 .n22 ) − n211 − (n11 .n21 ) − (n11 .n12 ) − (n12 .n21 ) = 11 n11 + n12 + n21 + n22 (n11 .n22 ) − (n12 .n21 ) = n11 + n12 + n21 + n22 (5.6) n11 − e11 = n11 − Figure 5.16 – Repère pour le calcul du ϕ y1 y2 ni. x1 n11 n12 n1. x2 n21 n22 n2. 91 n.j n.1 n.2 Σnij 5.8. Définition et utilisation du ϕ Exemple d’utilisation du φ sur le temps plein ou le temps partiel des hommes et des femmes appartenant au champ des professions du secteur social et d’âge 20-29 ans Figure 5.17 – Tous les temps pleins disponibles sont occupés par des hommes les femmes occupent quand il en reste ceux qu’ils ont laissés vacants Hypothèse Homme Femme Total Temps plein 1324 2455 3779 Temps partiel 0 3234 3234 Total 1324 5689 7013 χ2 = 1396.751 ; ϕ = 0.446 ; ϕ ; p � 0 Figure 5.18 – Tableau Observé Observé Homme Femme Total Temps plein 954 2825 3779 Temps partiel 370 2864 3234 Total 1324 5689 7013 χ2 = 216.618 ; ϕ = 0.176 ; ν = 1 ; p � 0 Figure 5.19 – Tableau Espéré Espéré Homme Femme Total Temps plein 713.45 3065.55 3779 χ2 = 0 ; ϕ = 0 ; ϕ ; p = 1 92 Temps partiel 610.55 2623.45 3234 Total 1324 5689 7013 5.8. Définition et utilisation du ϕ Figure 5.20 – Tous les temps pleins disponibles sont occupés par des femmes les hommes occupent quand il en reste ceux qu’elles ont laissés vacants Hypothèse Homme Femme Total Temps plein 0 3779 3779 Temps partiel 1324 1910 3234 Total 1324 5689 7013 χ2 = 1907.185 ; ϕ = −0.521 ; ϕ ; p � 0 Pour le commentaire qui suit nous considèrerons que pour un travailleur le fait d’être employé à plein temps est plus favorable que d’être employé temps partiel. Si l’on essaie de placer ces 4 tableaux les uns par rapport aux autres de façon à mieux visualiser leurs distances entre eux : on observe que la distance entre l’indépendance du tableau décrivant la situation la plus favorable aux femmes est plus grande que celle qui sépare la situation la plus favorable aux hommes de l’indépendance. La situation observée est située entre la situation d’indépendance et celle qui est la plus favorable aux hommes. En revanche la situation observée est plus proche de l’indépendance que de la situation la plus favorable aux hommes. On peut donc conclure dans ce cas de figure que le tableau observé montre une situation favorable aux hommes même si cette situation est plus proche de l’indépendance que d’une situation qui leur serait complètement favorable. Figure 5.21 – Position des différents tableaux les uns par rapport aux autres (travailleurs sociaux) Situation favorable aux femmes −0.52 −→ Indépendance +0.18 −→ Observé +0.26 −→ Situation favorable aux hommes Le même type de calcul sur des garçons et des filles qui trois ans auparavant ont passé un BAC professionnel montre que la situation d’emploi au regard du temps plein et du temps partiel est sensiblement différente entre le deux sexes. La situation observée est là aussi entre celle de l’indépendance et celle qui serait la plus favorable aux hommes, mais celle plus proche de la situation la plus favorable aux hommes que de la situation d’indépendance qui traduit la non ségrégation des femmes au regard d’une attribution d’un temps plein. Figure 5.22 – Position des différents tableaux les uns par rapport aux autres (BAC professionnel) Situation favorable aux femmes −0.52 −→ Indépendance +0.36 −→ 93 Observé +0.20 −→ Situation favorable aux hommes 5.9. Probabilités exactes sur un tableau 2 × 2 5.9 Probabilités exactes sur un tableau 2 × 2 Figure 5.23 – Structure du tableau 2 × 2 X X ni. Y n11 n12 n1. Y n21 n22 n2. n.j n.1 n.2 Σnij Le modèle sous-jacent pour le calcul de la probabilité conditionnelle d’observer n11 individus dans la première case en connaissant les distributions marginales est celui d’un tirage exhaustif : une urne qui contient N boules dont n1. sont X et n2. sont X. On en prélève n11 . La probabilité d’obtenir le tableau observé est la probabilité que parmi ces n1. boules n11 soient X et n21 soient X. Il s’obtient avec la formule : Cnn1.11 × Cnn2.21 n1. CN n1. ! n.2 ! n2. ! (N − n.2 )! = n11 ! (n1. − n11 )! n12 ! (n2. − n12 )! N ! n1. ! n2. ! n.1 ! n.2 ! = N ! n11 ! n12 ! n21 ! n22 ! n1. ! n2. ! n.1 ! n.2 ! = N ! n11 ! n12 ! n21 ! n22 ! p(n11 ) = (5.7) Figure 5.24 – Marges du tableau 2 × 2 servant d’exemple y1 y2 ni. 0 5 5 7 0 7 x1 n11 n12 5 x2 n21 n22 7 n.j 7 5 12 Figure 5.25 – Ensemble des tableaux pour toutes les possibles quand les marges sont fixées 7 1 6 7 2 5 7 3 4 7 4 5 4 1 5 3 2 5 2 3 5 1 12 5 7 12 5 7 12 5 7 12 5 94 valeurs n11 3 4 7 7 5 12 5 0 5 2 5 7 7 5 12 5.9. Probabilités exactes sur un tableau 2 × 2 Valeur du calcul quand n11 = 0 p(n11 ) = 5! 7! 7! 5! 120 × 5 040 × 5 040 × 120 365 783 040 000 = = = 0, 001 3 12! 0! 5! 7! 0! 479 001 600 × 1 × 120 × 5 040 × 1 289 700 167 680 000 Figure 5.26 – Probabilité d’apparition des tableaux en fonction des valeurs n11 possibles quand les marges sont fixées conformément aux tableaux précédents valeur de n11 probabilité 0 0,001 3 1 0,042 0 2 0,265 2 3 0,441 9 4 0,211 0 5 0,026 5 Σ pi 1,000 0 95 5.9. Probabilités exactes sur un tableau 2 × 2 96 Chapitre 6 Introduction à l’analyse des données Sous les dénominations génériques analyse des données et analyse factorielle, il existe une diversité de techniques de traitement de données qui correspondent à des types de données différents (qualitatives vs. quantitatives) ou à des structurations de tableaux différentes. 6.1 Les types de tableaux de données en analyse des données. Prenons l’exemple d’une population de 4 individus, caractérisés par leur sexe et leur situation matrimoniale ainsi que leur localisation géographique, leur âge, et leur revenu. – La variable sexe comporte 3 modalités : homme, femme, sans réponse. – La variable situation matrimoniale comporte 5 modalités : célibataire, marié, veuf, divorcé, sans réponse. – La variable localisation comporte 2 modalités : rural, urbain. – La variable âge est numérique. – La variable revenu est numérique. Le fichier de données se présente de la manière suivante : Figure 6.1 – Exemple de tableau de données Nom Jean Colette Pierre Yvette Sexe Homme Femme Homme Femme Situation matrimoniale Célibataire Veuve Divorcé Sans réponse 97 Localisation Rural Urbain Urbain Rural Âge 45 56 23 29 Revenu annuel 25400 27500 26200 15900 6.1. Les types de tableaux de données en analyse des données. 6.1.1 Les tableaux de contingence Figure 6.2 – Exemple de tableau de contingence simple Homme Femme Rural 1 1 Urbain 1 1 Figure 6.3 – Exemple de tableau de contingence juxtaposé Rural 1 1 Homme Femme 6.1.2 Urbain 1 1 Célibataire 1 0 Mari 0 0 Veuf 0 1 Divorcé 1 0 SR 0 1 Les tableaux de Burt Figure 6.4 – Exemple de tableau Burt Homme Femme SR Célibat Marié Veuf Divorcé SR Rural Urbain 6.1.3 Homme 2 0 0 1 0 0 1 0 1 1 Femme 0 2 0 0 0 1 0 1 1 1 SR 0 0 0 0 0 0 0 0 0 0 Célib. 1 0 0 1 0 0 0 0 1 0 Marié 0 0 0 0 0 0 0 0 0 0 Veuf 0 1 0 0 0 1 0 0 0 1 Div. 1 0 0 0 0 0 1 0 0 1 SR 0 1 0 0 0 0 0 1 1 0 Rural 1 1 0 1 0 0 0 1 2 0 Urb. 1 1 0 0 0 1 1 0 0 2 Les tableaux disjonctifs complets Figure 6.5 – Exemple de tableau disjonctif complet Nom Jean Colette Pierre Yvette Homme 1 0 1 0 Femme 0 1 0 1 SR 0 0 0 0 Célibataire 1 0 0 0 Marié 0 0 0 0 98 Veuf 0 1 0 0 Divorcé 0 0 1 0 SR 0 0 0 1 Rural 1 0 0 1 Urbain 0 1 1 0 ≤ 40 0 0 1 1 >40 1 1 0 0 6.1. Les types de tableaux de données en analyse des données. 6.1.4 Diverses formes d’analyse des données L’analyse en composantes principales (ACP) Elle est utilisée pour traiter des données de type numérique qui reflètent des quantités qui ont un sens autre que de donner un effectif dans un tableau croisé. Par exemple cela peut être une taille, un taux de fécondité, un taux de morbidité, de mortalité, etc. L’analyse factorielle des correspondances (AFC) Elle est utilisée pour traiter des tableaux de contingence. L’analyse factorielle des correspondances multiples(AFM) Elle est utilisée pour traiter des fichiers de données contenant des variables numériques ou nominales. Si les données sont numériques elles doivent être préalablement transformées en classes. D’autres techniques de classifications comme les analyses hiérarchiques les analyses discriminantes ou les analyses de clusters sont des techniques dont les soubassements théoriques reposent sur les mêmes prémices. Définition L’analyse factorielle traite des tableaux de nombres, elle remplace des tableaux difficiles à lire par des tableaux plus simples qui sont une bonne approximation de ceux-ci. Le mot factoriel renvoie au terme de facteur : mise en facteur, factorisation. En mathématiques la factorisation c’est une technique qui permet d’écrire sous une forme plus simple une formule compliquée en faisant ressortir les éléments qui sont communs à l’ensemble des parties qui la composent. Il est question dans le cas de l’analyse factorielle de représenter une même réalité sous une forme plus agréable à lire. L’analyse factorielle d’un tableau c’est sa décomposition en une série de facteurs. 6.1.5 Les tapes d’une AFC L’exemple développé est un exemple bricolé à des fins d’exercices pour permettre de comprendre le raisonnement suivi. L’exemple est tiré de l’enquête sur le choix du conjoint de Girard. Le travail pour des fins pédagogiques sépare l’explication des étapes successives qui permettent la construction des plans factoriels, de celle des méthodes numériques permettant l’extraction des facteurs. Le questionnaire utilisé par Girard contenait entre autres questions, une question visant connaitre la qualité que les hommes avaient repéré dès le premier coup d’œil chez leur conjointe, lors de leur première rencontre. 99 6.1. Les types de tableaux de données en analyse des données. Un détour par le χ2 Figure 6.6 – Tableau Observé C. S. p. Prof, Cadr sup. Insti, Inter publ Agriculteur Ouvrier nq TOTAL Intelligente 13 20 7 10 50 Courageuse 5 8 22 5 40 Affectueuse 2 2 1 5 10 TOTAL 20 30 30 20 100 Figure 6.7 – Tableau Espéré C. S. p. Prof, Cadr sup. Insti, Inter publ Agriculteur Ouvrier nq TOTAL Intelligente 10 15 15 10 50 Courageuse 8 12 12 8 40 Affectueuse 2 3 3 2 10 TOTAL 20 30 30 20 100 Figure 6.8 – Tableau des écarts C. S. p. Prof, Cadr sup. Insti, Inter publ Agriculteur Ouvrier nq TOTAL Intelligente +3 +5 -8 0 0 Courageuse -3 -4 +10 -3 0 Affectueuse 0 -1 -2 +3 0 TOTAL 0 0 0 0 0 Figure 6.9 – Tableau des contributions CSP. Prof, Cadr sup. Insti, Inter publ Agriculteur Ouvrier nq TOTAL Intelligente 0.90 1.67 4.27 0.00 6.83 Courageuse 1.13 1.33 8.33 1.13 11.92 Valeur du χ2 : 24.92 100 Affectueuse 0.00 0.33 1.33 4.50 6.17 TOTAL 2.03 3.33 13.93 5.63 24.92 6.1. Les types de tableaux de données en analyse des données. Nombre de degrés de liberté (ν) : 6 (4 lignes − 1) × (3 colonnes − 1) Probabilité associée au χ2 : 0,000389 (soit environ 4 chances sur dix mille pour que ce qui est observé sur ce tableau soit dû au hasard). Un certain nombre de commentaires peut être effectué sur ce résultat : tout d’abord, il est quasi impossible que de tels résultats soient le fait du hasard ; la probabilité que le hasard puise générer un tel tableau est d’environ 4 sur 10 000. Le lien entre les PCS et les qualités reconnues est avéré. L’examen des contributions des lignes et des colonnes montre que c’est la qualité courage qui est la plus porteuse d’information. Cette qualité est choisie de manière très différente que les autres qualités. Il est possible de faire la même constatation pour les agriculteurs qui se sont positionnés très différemment des autres PCS. L’examen conjoint des contributions des cellules, et des signes des tableaux des écarts, montre que l’information la plus importante de ce tableau — environ 30% de l’information totale (8, 33 ÷ 24, 92 × 100)— consiste dans le fait que les agriculteurs reconnaissent plus souvent le courage comme étant la première qualité qu’ils ont reconnue chez leur conjointe. La seconde information consiste dans le fait que les ouvriers sont plus nombreux que les autres à repérer comme qualité l’affection chez leur conjointe entre 15% et 20% de l’information totale (4, 50 ÷ 24, 92 × 100). La troisième information consiste dans le fait que les agriculteurs ont perçu moins souvent que les autres PCS l’intelligence comme caractéristique de leur conjointe lors de leur premier rencontre. On peut mener ce raisonnement sur toutes les cases contribuant au χ2 . Les contributions zéro au χ2 signifient par exemple dans ce tableau que les professeurs et cadres supérieurs ont reconnu ni plus ni moins que les autres l’affection comme tant la qualité qui les a frappés lors de leur première rencontre avec leur conjointe. On pourrait faire la même remarque pour ouvrier et intelligence. Première analyse factorielle L’analyse factorielle repose pour partie sur des prémices analogues : en revanche, elle propose un type d’analyse différent des tableaux de données. Elle se propose de décomposer un tableau complexe en une suite de tableaux simples. Un tableau simple est un tableau que l’on peut résumer par ses marges, c.a.d. qui peut être reconstruit quand l’on connaît les marges. Parmi les tableaux de décomposition du χ2 le tableau observé est un tableau simple. On le fabrique en multipliant les totaux des lignes par les totaux des colonnes et les divisant par l’effectif total. Le tableau qu’analyse l’AFC est celui des restes, c’est un tableau complexe c’est aussi celui qui ne contient que de l’information au sens de la théorie de l’information. Dans cette dernière rappelons qu’une information est ce qui est différent de ce que l’on attend. Ce que l’on attend c’est le hasard : le tableau espéré. Tableau des restes (écarts)(R0 ) (étape 1) Intelligente Courageuse Affectueuse Prof, Cadr-sup +3 -3 0 Insti, Inter-publ +5 -4 -1 Agriculteur -8 +10 -2 Ouvrier nq 0 -3 +3 101 6.1. Les types de tableaux de données en analyse des données. Extraction du premier facteur (F1 ) (étape 2) Intelligente Courageuse Affectueuse Prof, Cadr-sup Insti, Inter-publ Agriculteur Ouvrier nq +1 -2 +1 +1 +1 -4 +2 Tableau constitué grâce au premier facteur (T1 ) (étape 3) Intelligente Courageuse Affectueuse Prof, Cadr-sup +1 -2 1 Insti, Inter-publ +1 -2 +1 Agriculteur -4 +8 -4 Ouvrier nq +2 -4 +2 Tableau (R1 = R0 − T1 ) (étape 4) Intelligente Courageuse Affectueuse Prof, Cadr-sup +2 -1 -1 Insti, Inter-publ +4 -2 -2 Agriculteur -4 +2 +2 Ouvrier nq -2 +1 +1 Extraction du second facteur (F2 ) (étape 5) Intelligente Courageuse Affectueuse Prof, Cadr-sup Insti, Inter-publ Agriculteur Ouvrier nq +2 -1 -1 Tableau constitué grâce au second facteur (T2 ) (étape 6) Intelligente Courageuse Affectueuse Prof, Cadr-sup +2 -1 -1 Insti, Inter-publ +4 -2 -2 Agriculteur -4 +2 +2 Ouvrier nq -2 -1 -1 Tableau (R2 = R1 − T2 ) (étape 7) Intelligente Courageuse Affectueuse Prof, Cadr-sup 0 0 0 Insti, Inter-publ 0 0 0 Agriculteur 0 0 0 Ouvrier nq 0 0 0 102 +1 +2 -2 -1 6.1. Les types de tableaux de données en analyse des données. Nous rappelons que la suite de ces tableaux n’explique pas comment sont extraits les facteurs mais comment les calculs s’enchaînent. Le premier tableau est celui des restes R0 , du point de vue factoriel, c’est un tableau compliqué, la manière dont il est rempli ne dépend pas de ces marges qui sont d’ailleurs toutes égales à zéro. Par une technique numérique, qui sera expliquée dans un temps ultérieur, on fabrique des marges au tableau des restes R0 en sorte qu’elles soient une bonne approximation de ce dernier. On obtient 1 premier facteur F1 composé de ces deux marges que nous venons d’extraire. Avec ces deux marges on fabrique le tableau simple T1 qui résulte du simple produit des marges. Ce tableau T1 est une approximation de R0 mais il n’épuise pas toute l’information contenue dans ce dernier. Pour extraire l’information qui reste à factoriser on effectue la soustraction case à case des tableaux R0 et T1 ce qui nous permet de construire le tableau R1 = R0 − T1 . Ce tableau n’est pas un tableau simple. On le soumet au même type de transformation que le tableau R0 , ce qui permet d’obtenir un second facteur F2 . Le produit des deux marges qui constituent le facteur F2 permet d’obtenir un tableau T2 qui constitue une bonne approximation du reste de l’information contenue dans R1 . Pour voir s’il reste de l’information on soustrait T2 à R1 , R2 = R1 − T2 , l’ensemble des cases du tableau R2 est égal à zéro. Il n’y a donc plus d’information à factoriser. Ce résultat est obtenu après deux extractions de facteurs. Figure 6.10 – Représentation séparée des axes 1 et 2 Agrig −5 −5 −4 −4 Insti P rof e Af f ec Intel Ouvri Coura −3 −3 −2 −1 0 Ouvri Af f ec AgrigCoura −2 −1 +1 +2 Axe 1 +3 Intel P rof eInsti 0 +1 +2 Axe 2 +3 Ce résultat n’est pas le résultat du hasard. Il a été démontré que ce type de résultat est obtenu après un nombre d’extraction de facteurs égal à la plus petite dimension du tableau moins 1. Le tableau examiné fait 4 lignes et 3 colonnes le nombre de facteurs que l’on peut extraire est donc de 3 − 1 = 2. On peut une fois extraits les facteurs les reporter sur deux axes (axe 1 facteur 1, axe 2 facteur 2). Les valeurs obtenues lors de l’extraction des facteurs sont les coordonnées sur les axes. Ainsi par exemple dans le tableau dans le tableau F1 à l’étape 2 du calcul en face de la modalité Agriculteurs sur la même ligne on a obtenu la valeur -4. c’est donc cette valeur -4 qui sert de coordonnée à la modalité agriculteur sur l’axe 1. On effectue pour toutes les modalités en ligne et en colonne la même opération pour les axes 1 et 2. 103 6.1. Les types de tableaux de données en analyse des données. Premières interprétations des axes factoriels La lecture successive des axes 1 et 2 permet déjà d’effectuer une première analyse des résultats produits par l’AFC. Le Premier axe est celui de l’opposition entre d’une part, la PCS Agriculteur qui a reconnu dans le premier coup d’œil et de manière massive le courage comme qualité chez leur compagne, et d’autre part, les PCS Instituteur et Cadre-Moyen, Professeur et Cadre supérieur, et Ouvrier Non Qualifié qui eux dans les mêmes circonstances ont repéré l’intelligence ou l’affection comme qualité caractérisant leur compagne. Le second axe, quant à lui, apporte comme c’est souvent le cas une précision sur le premier axe en mettant en évidence une autre division dans notre population. Il oppose d’un côté les PCS Instituteur et Cadre-Moyen, Professeur et Cadre supérieur qui ont reconnu de manière élective l’intelligence, et de l’autre la PCS Agriculteur ou les qualités reconnues au premier regard lors de la première rencontre. On reporte ensuite les valeurs des facteurs sur les axes 1 et 2 puis on croise les deux axes. Cela permet d’obtenir un plan factoriel relativement simple à lire. Simple à lire puisque compte tenu de la taille du tableau seuls 2 facteurs pouvaient être extraits. Cette opération est possible pour les lignes et les colonnes de ce tableau car nous sommes dans le cas d’une AFC et dans ce cas les distances calculées sur les lignes et les colonnes sont de même nature. dans le cas des ACP cette représentation des lignes et des colonnes sur le même plan est d’une manière générale à proscrire car les distances ne sont pas de même nature. Avec 2 facteurs, c’est un plan qui peut être défini, en revanche, si la plus petite dimension du tableau était 4 on pourrait extraire 3 facteurs et du même coup ce serait un volume que nous aurions examiner. Sur le plan déterminé par les axes 1 et 2 se sont les projections des points qui sont représentées. En fait les points sont situés au sein du nuage soit au dessus soit-au-dessous du plan, très rarement, exceptionnellement ils sont sur le plan. Premier plan factoriel et premières interprétations La lecture du plan issu de cette analyse se fait donc sur des principes simples : proximité entre les points, opposition entre les secteurs. Le secteur supérieur gauche montre la forte liaison qui existe entre le fait d’appartenir à la PCS Instituteurs Cadres-moyens avec le fait d’avoir reconnu au premier coup d’œil l’intelligence comme qualité de leur compagne. Dans ce quadrant on remarque aussi la liaison qui existe entre le fait d’appartenir aux PCS Professeurs et Cadres-supérieurs et le fait d’avoir entrevue au premier regard l’intelligence comme la qualité caractérisant leur compagne. Pour autant ce lien, bien que net, n’est pas aussi important que celui qui la PCS Instituteurs Cadres-moyens à cette même qualité. L’attraction légère des PCS plus vers les ouvriers provient du fait qu’une part de celles-ci ont reconnu au premier regard l’affection comme qualité caractérisant leur compagne. A ces deux PCS s’opposent le comportement des Agriculteurs qui affirment massivement que le courage est la qualité qu’ils ont reconnu au premier coup d’œil chez leur compagne lors de leur première rencontre. La position de la PCS Ouvriers Non Qualifiés entre Agriculteurs et Professeurs s’explique par le fait qu’ils ont de manière élective reconnu l’affection comme qualité chez leur compagne au premier regard lors de leur première rencontre mais que dans le même temps une part d’entre eux a aussi reconnu l’affection comme qualité de leur compagne, tout comme l’a fait une partie 104 6.1. Les types de tableaux de données en analyse des données. des agriculteurs. Figure 6.11 – Représentation du plan formé par les axes 1 et 2 +5 +4 +3 D× IN ST IT U T EU RS +2 Intelligente c × +1 C P ROF ESSEU RS O × 0 Courageuse × −1 −2 K× Af f ectueuse I × × +1 +2 F G OU V RIERS AGRICU LT EU RS −3 −4 −4 −3 −2 −1 0 105 +3 +4 6.1. Les types de tableaux de données en analyse des données. Méthode numérique d’extraction des facteurs Imaginons le tableau suivant : 1 2 4 1 3 5 1 1 L’étape 0 du calcul consiste à dire que ce tableau ou cette matrice 2 3 peut être 4 5 � � approximé par un vecteur 1 1 . C’est l’étape 0 du tableau ci-dessous. Ensuite comme l’illustrent ce même tableau et le calcul matriciel qui suit on effectue le produit de notre matrice initiale par ce vecteur ce qui permet d’obtenir un nouveau vecteur qui correspond à l’étape 1 du tableau ci-dessous. Les tapes 0, 2, 4,. . . sont numérotés dans la première colonne du tableau ci-après, les étapes 1, 3, 5, . . . sont numérotées dans la première ligne de ce même tableau. � � 1 1 2 1 2 3 5 V1 = × = 1 4 5 9 Pour obtenir ce résultat on effectue les calculs suivants dont on trouve le résultat à l’étape 1 dans le tableau suivant : 1 × 1 + 1 × 1 = 2 1×2+1×3=5 1×4+1×5=9 On continue en effectuant le calcul suivant : V2 = � 1 2 4 1 3 5 � � � 2 48 × 5 = 62 9 Pour obtenir ce résultat on effectue les calculs suivants dont on trouve le résultat à l’étape 1 dans le tableau suivant : 2 × 1 + 5 × 2 + 9 × 4 = 48 2 × 1 + 5 × 3 + 9 × 5 = 62 De manière itérative on répète ce calcul en surveillant ce que donne l’évolution de ces chiffres exprimés en pourcentage. En examinant cette évolution dans le tableau ci-dessous on remarque que ces pourcentages se stabilisent au bout d’un certain nombre d’itérations. Lorsque cela se produit c’est que la méthode utilisée ne peut aller plus loin. A ce moment on possède des marges stables d’un tableau. Il est donc possible de reconstituer l’intérieur de ce tableau à partir de l’effectif total, on produit d’abord les marges puis l’intérieur du tableau comme dans le cas du tableau espéré. Pour savoir si l’opération doit être recommencée on soustrait le tableau obtenu du tableau de départ. Si la différence des deux tableaux case à case n’est pas nulle on recommence la même opération de décomposition sur le tableau obtenu par soustraction. 106 6.1. Les types de tableaux de données en analyse des données. Figure 6.12 – Processus numérique d’extraction de facteur Il est possible d’exprimer cette suite de calcul par une formalisation matricielle. Bien que nous ne nous lancerons pas dans cette voie, comme nous avons de temps à autre utilisé cette formalisation nous nous permettons de donner quelques éléments de calcul matriciel. 6.1.6 Quelques rappels sur les matrices Quelques règles sur les produits des matrices. On peut multiplier 2 matrices si le nombre de colonnes de la matrice de gauche est égal au nombre de lignes de la matrice de droite. Les 2 autres dimensions (lignes de la matrice de gauche et colonne de la matrice de droite) peuvent être quelconques. Elles donnent la taille de la matrice résultat. L’opération est complexe à décrire mais simple à faire selon un principe : ligne de la matrice droite par colonne de la matrice gauche. Imaginons 2 matrices l’une M(4, 3) de 4 lignes et de 3 colonnes que l’on veut multiplier par une matrice de N(3, 2) 3 lignes et de 2 colonnes. Cette multiplication donne une matrice résultat de 4 lignes et 2 colonnes. Cette opération suit la logique de l’expression suivante, et peut être représenté par le graphique suivant : a d M ×N ⇒ g j b c au + bw + cy av + bx + cz u v e f du + ew + f y dv + ex + f z w x = × gu + hw + iy gv + hx + iz h i y z k l ju + kw + ly jv + kx + lz �� �� �� ����� ����� ����� ����� 107 6.1. Les types de tableaux de données en analyse des données. Le nombre de combinaisons que l’on peut obtenir n’est pas si important que l’on ne puisse les représenter, il se résume à six cas. Les matrices d’origines sont constituées de � et les matrices résultats de �. Il faut noter que le produit d’une matrice par un vecteur-colonne est un autre vecteur colonne, que le produit d’une matrice par un vecteur ligne donne un autre vecteur-ligne. Le produit de deux matrices n’est pas commutatif M1 × M2 �= M2 × M1 . Dans le cas du produit d’un vecteur ligne par un vecteur colonne on obtient une matrice symétrique. (Une matrice symétrique est une matrice qui est telle que deux éléments symétriques par rapport sa diagonale sont identiques.) Dans le cas d’un produit d’un vecteur-colonne par un vecteur-ligne on obtient un nombre qui est une matrice(1,1) que l’on appelle aussi un scalaire. (Il correspond au produit scalaire de deux vecteurs) ��� ��� ��� ��� ��� �������� �������� ����� ����� ������� ������� ������� ������� ������� � � � � � ������ ������ ������ �� �� �� �� �� �� �� �� �� �� ������� �� ������ ������� ������� ������� ������� ������� ������� � � � � � � ������� Vérification du plan factoriel par le calcul vectoriel Les calculs que nous allons présenter visent à montrer qu’il existe bien un lien entre le plan factoriel présent et le tableau des restes qu’il est censé représenter. Pour ce faire nous allons remonter au tableau des restes par une autre méthode que celle qui nous a permis de construire le plan factoriel. Pour réaliser ce retour vers le plan factoriel nous proposons de revenir au tableau des restes en partant des coordonnes des points sur le plan factoriel en utilisant une méthode reposant sur les produits scalaires. Produit scalaire : D’un point de vue géométrique un produit scalaire est un nombre qui s’obtient en projetant perpendiculairement un vecteur sur un autre et en faisant le produit de la longueur du vecteur sur lequel on projette par la longueur de la projection de l’autre. −→ −−→ OA × OB = OA� × OB OA = 8, 00cm OB = 11, 0cm OA� = 6, 14cm −→ −−→ OA × OB = 11, 0cm × 6, 10cm = 67, 54 108 6.1. Les types de tableaux de données en analyse des données. Figure 6.13 – Produit scalaire −→ Si on note : OA → V1 −−→ OB → V2 α l’angle des deux vecteurs L1 et L2 la longueur des deux vecteurs Le produit scalaire V1 × V2 = L1 × L2 × cos(α) = 67, 41 Le produit scalaire est commutatif : V 1 × V 2 = V2 × V1 Si V1 et V2 sont perpendiculaires cos(α) = 0 Si V1 et V2 sont sur la même droite cos(α) = ±1 le produit scalaire se réduit au produit des deux longueurs, le produit scalaire d’un vecteur par lui même est gal au carré de sa longueur. Théorème de Pythagore : dans un triangle rectangle le carré de l’hypoténuse est gal à la somme des carrés des deux côtés de l’angle droit. Après ces quelques rappels passons à la vérification du fait que le graphique formé par les deux axes reflète bien le tableau des restes. Le plus simple d’abord : L’intersection Agriculteur avec Courageux. −−→ −→ Les deux segments sont superposés, le produit vectoriel de OK par OI se résume au produit de la longueur des deux vecteurs. Il nous faut donc calculez ces deux longueurs. Le théorème de Pythagore peut ici être utilisé avec profit. Le point K est de coordonnes xi = −4, yj = −2 le point I est de cordonnes xi = −2, yj = −1 √ OK 2 = Ox2y + Oyi2 = 42 + 22 = 20 ⇒ OK = 20 = 4, 47 √ OI 2 = Ox2y + Oyj2 = 22 + 12 = 5 ⇒ OI = 5 = 2, 24 −−→ −→ OK × OI = 4, 47 × 2, 24 = 10 L’intersection du tableau des restes pour Agriculteur avec Courageux contient bien la valeur 10. 109 6.1. Les types de tableaux de données en analyse des données. Un peu plus compliqué : L’intersection Profession supérieur et intellectuelle avec Intelligente −−→ −−→ Les deux vecteurs ne sont pas superposés le produit vectoriel de OD par OC ne se résume −−→ −−→ pas au produit de la longueur des deux vecteurs mais à celui de OD par la projection OC sur −−→ −−→ OD que nous appellerons par convention OC � . Il nous faut donc calculez ces deux longueurs. Si le théorème de Pythagore peut ici être utilisé avec profit pour calculer la longueur de OD car nous en connaissons les coordonnes en revanche les coordonnes de C � nous sont inconnues. pour les connaître un peu de trigonométrie est nécessaire. Le point D est de coordonnes xi = 1, yj = 2√ OD2 = Ox2y + Oyi2 = 12 + 22 = 5 ⇒ OD = 5 = 2, 24 Pour la longueur de OC � c’est un peu plus complexe : Calculons d’abord la longueur de OC : √ OC 2 = Ox2y + Oyi2 = 12 + 12 = 2 ⇒ OC = 2 = 1, 4142 � pour cela nous allons utiliser la fonction arctangente qui permet Calculons ensuite l’angle x0c de retourner une valeur angulaire quand on connaît les coordonnes xi , yj d’un point sur un repère orthonormé. La valeur angulaire est retournée en radian. Les angles s’expriment de trois manières différentes : Degré, Radian, Grade. Dans un tour complet de cercle, il y a : 360 degrés, 2π radian, 400 grades. Il existe des formules simple de passage d’un système d’unité à l’autre : Angle en radian = π×(angle180en degré) Angle en radian = π×(angle200en grade) en degré) Angle en grade = 200×(angle 180 Angle en grade = 200×(angleπ en grade) Angle en degré = 180×(angleπ en radian) en grade) Angle en degré = 180×(angle 200 Bien que l’expression en radian soit moins explicite nous resterons dans cet exercice en radian car le but est d’obtenir les longueurs des segments qui nous intéressent. � : x0c � = arctangente (1 ; 1) = 0,7853 rad Calcul de l’angle x0c � : x0d � = arctangente (1 ; 2) =1,1071 rad Calcul de l’angle x0d � Calcul de l’angle c0d par soustraction des deux angles : 1,1071 rad - 0,7853 rad = 0,3218 rad Calculons maintenant la longueur de OC � La longueur de la projection d’un vecteur sur un axe quand on connait l’angle qu’il forme avec la droite est égal à la longueur du vecteur multiplié par le cosinus de de l’angle : � × 0C ⇒ cos(0, 3218) × 1, 4142 ⇒ 0, 9487 × 1, 4142 ⇒ 1, 34 OC � = cos(c0d) −−→ −−→ OD × OC = OD × OC � = 2, 24 × 1, 34 = 3 L’intersection du tableau des restes pour Profession supérieur et intellectuelle avec Intelligente contient bien la valeur 3. 110 Chapitre 7 Analyse des données 7.1 Exemple d’AFC et interprétation Les documents qui suivent résultent d’une analyse factorielle effectue avec Trideux version 4.2 sur un tableau construit partir d’un sondage préélectoral de 2002 qui a cherché à associer le vote pour les candidats déclarés et la lecture de journaux et de magazines. Les résultats ont été consignés dans le premier tableau (certains des candidats déclarés ne sont pas présentés dans ce tableau pour des raisons d’effectif). Liste exhaustive des candidats déclarés avec leur appartenance politique : – Christine BOUTIN (FRS Divers Droite) – Corinne LEPAGE (CAP21 Ecologiste) – Jean-Marie LE PEN (FN) – François BAYROU (Nouvelle UDF) – Olivier BESANCENOT (LCR) – Jean-Pierre CHEVNEMENT (MDC) – Jacques CHIRAC (RPR) – Daniel GLUCKSTEIN (Parti des travailleurs) – Robert HUE (PCF) – Lionel JOSPIN (PS) – Arlette LAGUILLER (LO) – Alain MADELIN (DL) – Noël MAMERE (Les Verts) – Bruno MEGRET (MNR) – Jean SAINT-JOSSE (CPNT) – Christiane Marie TAUBIRA-DELANNON (PRG) Liste des journaux et magazines : La Croix (LACRO), Le Figaro (LEFIG), Libération (LIBER), Le Monde (LEMON), Le Parisien (LEPAR), Le Canard (LECAN), L’Express (LEXPR), Marianne (MARIA), Nouvel Obs (NOUVE), Paris Match (MATCH), Télérama (TELER), Le Point (LEPOI). 111 Laguiller Besancenot Hue Jospin Taubira Chevenement Mamère Lepage Sain-Joss Bayrou Madelin Chirac Boutin Megret Le-Pen Blanc Laguiller Besancenot Hue Jospin Taubira Chevenement Mamère Lepage Sain-Joss Bayrou Madelin Chirac Boutin Megret Le-Pen Blanc Sum LACRO 0.000000 0.036364 0.071429 0.012658 0.066667 0.033333 0.057143 0.208333 0.136364 0.212766 0.037037 0.117886 0.347826 0.090909 0.083333 0.111111 LACRO 0 2 2 3 2 2 4 5 3 20 2 29 8 2 14 2 100 LEFIG 0.040816 0.036364 0.000000 0.029536 0.033333 0.033333 0.014286 0.125000 0.045455 0.085106 0.166667 0.142276 0.130435 0.136364 0.130952 0.055556 LEFIG 2 2 0 7 1 2 1 3 1 8 9 35 3 3 22 1 100 LEXPR 4 2 1 15 2 4 5 2 3 8 9 22 1 5 16 1 100 MARIA 6 6 2 19 3 15 4 2 3 10 5 9 1 3 10 2 100 NOUVE 4 7 2 35 3 5 8 1 1 6 3 14 1 0 9 1 100 LECAN 0.163265 0.127273 0.178571 0.122363 0.066667 0.116667 0.128571 0.083333 0.181818 0.042553 0.037037 0.03252 0.000000 0.090909 0.059524 0.055556 LEXPR 0.081633 0.036364 0.035714 0.063291 0.066667 0.066667 0.071429 0.083333 0.136364 0.085106 0.166667 0.089431 0.043478 0.227273 0.095238 0.055556 MARIA 0.122449 0.109091 0.071429 0.080169 0.100000 0.250000 0.057143 0.083333 0.136364 0.106383 0.092593 0.036585 0.043478 0.136364 0.059524 0.111111 NOUVE 0.081633 0.127273 0.071429 0.147679 0.100000 0.083333 0.114286 0.041667 0.045455 0.06383 0.055556 0.056911 0.043478 0.000000 0.053571 0.055556 TELER 4 8 5 28 4 7 13 2 0 10 3 9 2 0 3 2 100 MATCH 0.081633 0.036364 0.035714 0.063291 0.000000 0.033333 0.028571 0.083333 0.136364 0.074468 0.074074 0.117886 0.086957 0.090909 0.130952 0.166667 MATCH 4 2 1 15 0 2 2 2 3 7 4 29 2 2 22 3 100 Figure 7.2 – Fréquences en ligne LECAN 8 7 5 29 2 7 9 2 4 4 2 8 0 2 10 1 100 LEPAR 0.081633 0.054545 0.142857 0.050633 0.066667 0.066667 0.085714 0.041667 0.045455 0.06383 0.037037 0.093496 0.086957 0.090909 0.160714 0.055556 LEPAR 4 3 4 12 2 4 6 1 1 6 2 23 2 2 27 1 100 LEMON 0.102041 0.109091 0.071429 0.109705 0.100000 0.083333 0.100000 0.083333 0.045455 0.053191 0.074074 0.073171 0.043478 0.090909 0.071429 0.055556 LEMON 5 6 2 26 3 5 7 2 1 5 4 18 1 2 12 1 100 LIBER 0.122449 0.145455 0.107143 0.172996 0.166667 0.083333 0.142857 0.000000 0.045455 0.021277 0.037037 0.036585 0.000000 0.000000 0.041667 0.055556 LIBER 6 8 3 41 5 5 10 0 1 2 2 9 0 0 7 1 100 Figure 7.1 – Tableau Observé TELER 0.081633 0.145455 0.178571 0.118143 0.133333 0.116667 0.185714 0.083333 0.000000 0.106383 0.055556 0.036585 0.086957 0.000000 0.017857 0.111111 LEPOI 2 2 1 7 3 2 1 2 1 8 9 41 2 1 16 2 100 LEPOI 0.040816 0.036364 0.035714 0.029536 0.100000 0.033333 0.014286 0.083333 0.045455 0.085106 0.166667 0.166667 0.086957 0.045455 0.095238 0.111111 � 49 55 28 237 30 60 70 24 22 94 54 246 23 22 168 18 1200 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 � 7.1. Exemple d’AFC et interprétation 112 Laguiller Besancenot Hue Jospin Taubira Chevenement Mamère Lepage Sain-Joss Bayrou Madelin Chirac Boutin Megret Le-Pen Blanc Laguiller Besancenot Hue Jospin Taubira Chevenement Mamère Lepage Sain-Joss Bayrou Madelin Chirac Boutin Megret Le-Pen Blanc Sum LACRO 4.0833 4.5833 2.3333 19.7500 2.5000 5.0000 5.8333 2.0000 1.8333 7.8333 4.5000 20.5000 1.9167 1.8333 14.0000 1.5000 LACRO 0.0000 0.0200 0.0200 0.0300 0.0200 0.0200 0.0400 0.0500 0.0300 0.2000 0.0200 0.2900 0.0800 0.0200 0.1400 0.0200 1.0000 LEFIG 4.0833 4.5833 2.3333 19.7500 2.5000 5.0000 5.8333 2.0000 1.8333 7.8333 4.5000 20.5000 1.9167 1.8333 14.0000 1.5000 LEFIG 0.0200 0.0200 0.0000 0.0700 0.0100 0.0200 0.0100 0.0300 0.0100 0.0800 0.0900 0.3500 0.0300 0.0300 0.2200 0.0100 1.0000 LIBER 4.0833 4.5833 2.3333 19.7500 2.5000 5.0000 5.8333 2.0000 1.8333 7.8333 4.5000 20.5000 1.9167 1.8333 14.0000 1.5000 LIBER 0.0600 0.0800 0.0300 0.4100 0.0500 0.0500 0.1000 0.0000 0.0100 0.0200 0.0200 0.0900 0.0000 0.0000 0.0700 0.0100 1.0000 LEMON 4.0833 4.5833 2.3333 19.7500 2.5000 5.0000 5.8333 2.0000 1.8333 7.8333 4.5000 20.5000 1.9167 1.8333 14.0000 1.5000 LEMON 0.0500 0.0600 0.0200 0.2600 0.0300 0.0500 0.0700 0.0200 0.0100 0.0500 0.0400 0.1800 0.0100 0.0200 0.1200 0.0100 1.0000 LEPAR 4.0833 4.5833 2.3333 19.7500 2.5000 5.0000 5.8333 2.0000 1.8333 7.8333 4.5000 20.5000 1.9167 1.8333 14.0000 1.5000 LEPAR 0.0400 0.0300 0.0400 0.1200 0.0200 0.0400 0.0600 0.0100 0.0100 0.0600 0.0200 0.2300 0.0200 0.0200 0.2700 0.0100 1.0000 LEXPR 0.0400 0.0200 0.0100 0.1500 0.0200 0.0400 0.0500 0.0200 0.0300 0.0800 0.0900 0.2200 0.0100 0.0500 0.1600 0.0100 1.0000 MARIA 0.0600 0.0600 0.0200 0.1900 0.0300 0.1500 0.0400 0.0200 0.0300 0.1000 0.0500 0.0900 0.0100 0.0300 0.1000 0.0200 1.0000 NOUVE 0.0400 0.0700 0.0200 0.3500 0.0300 0.0500 0.0800 0.0100 0.0100 0.0600 0.0300 0.1400 0.0100 0.0000 0.0900 0.0100 1.0000 113 LECAN 4.0833 4.5833 2.3333 19.7500 2.5000 5.0000 5.8333 2.0000 1.8333 7.8333 4.5000 20.5000 1.9167 1.8333 14.0000 1.5000 LEXPR 4.0833 4.5833 2.3333 19.7500 2.5000 5.0000 5.8333 2.0000 1.8333 7.8333 4.5000 20.5000 1.9167 1.8333 14.0000 1.5000 MARIA 4.0833 4.5833 2.3333 19.7500 2.5000 5.0000 5.8333 2.0000 1.8333 7.8333 4.5000 20.5000 1.9167 1.8333 14.0000 1.5000 NOUVE 4.0833 4.5833 2.3333 19.7500 2.5000 5.0000 5.8333 2.0000 1.8333 7.8333 4.5000 20.5000 1.9167 1.8333 14.0000 1.5000 Figure 7.4 – Effectifs espérés LECAN 0.0800 0.0700 0.0500 0.2900 0.0200 0.0700 0.0900 0.0200 0.0400 0.0400 0.0200 0.0800 0.0000 0.0200 0.1000 0.0100 1.0000 MATCH 4.0833 4.5833 2.3333 19.7500 2.5000 5.0000 5.8333 2.0000 1.8333 7.8333 4.5000 20.5000 1.9167 1.8333 14.0000 1.5000 MATCH 0.0400 0.0200 0.0100 0.1500 0.0000 0.0200 0.0200 0.0200 0.0300 0.0700 0.0400 0.2900 0.0200 0.0200 0.2200 0.0300 1.0000 Figure 7.3 – Fréquences en colonne TELER 4.0833 4.5833 2.3333 19.7500 2.5000 5.0000 5.8333 2.0000 1.8333 7.8333 4.5000 20.5000 1.9167 1.8333 14.0000 1.5000 TELER 0.0400 0.0800 0.0500 0.2800 0.0400 0.0700 0.1300 0.0200 0.0000 0.1000 0.0300 0.0900 0.0200 0.0000 0.0300 0.0200 1.0000 LEPOI 4.0833 4.5833 2.3333 19.7500 2.5000 5.0000 5.8333 2.0000 1.8333 7.8333 4.5000 20.5000 1.9167 1.8333 14.0000 1.5000 LEPOI 0.0200 0.0200 0.0100 0.0700 0.0300 0.0200 0.0100 0.0200 0.0100 0.0800 0.0900 0.4100 0.0200 0.0100 0.1600 0.0200 1.0000 7.1. Exemple d’AFC et interprétation Laguiller Besancenot Hue Jospin Taubira Chevenement Mamère Lepage Sain-Joss Bayrou Madelin Chirac Boutin Megret Le-Pen Blanc Sum Laguiller Besancenot Hue Jospin Taubira Chevenement Mamère Lepage Sain-Joss Bayrou Madelin Chirac Boutin Megret Le-Pen Blanc LACRO 4.0830 1.4560 0.0480 14.2060 0.1000 1.8000 0.5760 4.5000 0.7420 18.8970 1.3890 3.5240 19.3080 0.0150 0.0000 0.1670 70.8120 LACRO -4.0833 -2.5833 -0.3333 -16.7500 -0.5000 -3.0000 -1.8333 3.0000 1.1667 12.1667 -2.5000 8.5000 6.0833 0.1667 0.0000 0.5000 LEFIG 1.0630 1.4560 2.3330 8.2310 0.9000 1.8000 4.0050 0.5000 0.3790 0.0040 4.5000 10.2560 0.6120 0.7420 4.5710 0.1670 41.5190 LEFIG -2.0833 -2.5833 -2.3333 -12.7500 -1.5000 -3.0000 -4.8333 1.0000 -0.8333 0.1667 4.5000 14.5000 1.0833 1.1667 8.0000 -0.5000 LIBER 0.9000 2.5470 0.1900 22.8640 2.5000 0.0000 2.9760 2.0000 0.3790 4.3440 1.3890 6.4510 1.9170 1.8330 3.5000 0.1670 53.9570 LIBER 1.9167 3.4167 0.6667 21.2500 2.5000 0.0000 4.1667 -2.0000 -0.8333 -5.8333 -2.5000 -11.5000 -1.9167 -1.8333 -7.0000 -0.5000 LEMON 0.2060 0.4380 0.0480 1.9780 0.1000 0.0000 0.2330 0.0000 0.3790 1.0250 0.0560 0.3050 0.4380 0.0150 0.2860 0.1670 5.6720 LEMON 0.9167 1.4167 -0.3333 6.2500 0.5000 0.0000 1.1667 0.0000 -0.8333 -2.8333 -0.5000 -2.5000 -0.9167 0.1667 -2.0000 -0.5000 LEPAR 0.0020 0.5470 1.1900 3.0410 0.1000 0.2000 0.0050 0.5000 0.3790 0.4290 1.3890 0.3050 0.0040 0.0150 12.0710 0.1670 20.3440 LECAN 3.9167 2.4167 2.6667 9.2500 -0.5000 2.0000 3.1667 0.0000 2.1667 -3.8333 -2.5000 -12.5000 -1.9167 0.1667 -4.0000 -0.5000 LEXPR -0.0833 -2.5833 -1.3333 -4.7500 -0.5000 -1.0000 -0.8333 0.0000 1.1667 0.1667 4.5000 1.5000 -0.9167 3.1667 2.0000 -0.5000 MARIA 1.9167 1.4167 -0.3333 -0.7500 0.5000 10.0000 -1.8333 0.0000 1.1667 2.1667 0.5000 -11.5000 -0.9167 1.1667 -4.0000 0.5000 NOUVE -0.0833 2.4167 -0.3333 15.2500 0.5000 0.0000 2.1667 -1.0000 -0.8333 -1.8333 -1.5000 -6.5000 -0.9167 -1.8333 -5.0000 -0.5000 114 LECAN 3.7570 1.2740 3.0480 4.3320 0.1000 0.8000 1.7190 0.0000 2.5610 1.8760 1.3890 7.6220 1.9170 0.0150 1.1430 0.1670 31.7190 LEXPR 0.0020 1.4560 0.7620 1.1420 0.1000 0.2000 0.1190 0.0000 0.7420 0.0040 4.5000 0.1100 0.4380 5.4700 0.2860 0.1670 15.4970 MARIA 0.9000 0.4380 0.0480 0.0280 0.1000 20.0000 0.5760 0.0000 0.7420 0.5990 0.0560 6.4510 0.4380 0.7420 1.1430 0.1670 32.4290 NOUVE 0.0020 1.2740 0.0480 11.7750 0.1000 0.0000 0.8050 0.5000 0.3790 0.4290 0.5000 2.0610 0.4380 1.8330 1.7860 0.1670 22.0970 MATCH -0.0833 -2.5833 -1.3333 -4.7500 -2.5000 -3.0000 -3.8333 0.0000 1.1667 -0.8333 -0.5000 8.5000 0.0833 0.1667 8.0000 1.5000 MATCH 0.0020 1.4560 0.7620 1.1420 2.5000 1.8000 2.5190 0.0000 0.7420 0.0890 0.0560 3.5240 0.0040 0.0150 4.5710 1.5000 20.6820 Figure 7.6 – Contributions au χ2 LEPAR -0.0833 -1.5833 1.6667 -7.7500 -0.5000 -1.0000 0.1667 -1.0000 -0.8333 -1.8333 -2.5000 2.5000 0.0833 0.1667 13.0000 -0.5000 Figure 7.5 – Ecarts l’indépendance TELER 0.0020 2.5470 3.0480 3.4460 0.9000 0.8000 8.8050 0.0000 1.8330 0.5990 0.5000 6.4510 0.0040 1.8330 8.6430 0.1670 39.5780 TELER -0.0833 3.4167 2.6667 8.2500 1.5000 2.0000 7.1667 0.0000 -1.8333 2.1667 -1.5000 -11.5000 0.0833 -1.8333 -11.0000 0.5000 LEPOI 1.0630 1.4560 0.7620 8.2310 0.1000 1.8000 4.0050 0.0000 0.3790 0.0040 4.5000 20.5000 0.0040 0.3790 0.2860 0.1670 43.6340 � 11.9800 16.3450 12.2860 80.4180 7.6000 29.2000 26.3430 8.0000 9.6360 28.2980 20.2220 67.5610 25.5220 12.9090 38.2860 3.3330 397.9390 LEPOI -2.0833 -2.5833 -1.3333 -12.7500 0.5000 -3.0000 -4.8333 0.0000 -0.8333 0.1667 4.5000 20.5000 0.0833 -0.8333 2.0000 0.5000 7.1. Exemple d’AFC et interprétation 7.1. Exemple d’AFC et interprétation 1. Faites une analyse des résultats obtenus en effectuant tout d’abord une analyse des tableaux de contingence exprimés sous la forme effectifs nij , fréquences en ligne fi. et fréquences en colonne f.j puis les divers tableaux de décomposition du χ2 2. Ensuite effectuez l’interprétation de l’AFC . 3. Commentez ce qu’apporte de plus cette méthode. La qualité des commentaires et leur rédaction seront des éléments déterminants dans la notation. Proposition de commentaires Commentaire tableau 1 La structure de ce tableau permet de comprendre un peu mieux comment cette enquête a été réalisée. On a consulté 100 lecteurs de chaque journal ou hebdomadaire auxquels on a demandé pour qui ils voteraient aux élections présidentielles de 2002. Chaque colonne du tableau comporte 100 individus ce qui fait que les effectifs partiels nij sont aussi les pourcentages en colonne f.j . Nous n’utiliserons donc pas le tableau des fréquences en colonne puisque cette conformation de tableau permet de lire directement la structure en colonne et donc de faire des comparaisons directes de celle-ci. La colonne total permet de constater que trois intentions de vote indépendamment des journaux lus représentent un lectorat très abondant 651 individus sur les 1200 possibles. Elles concernent les lecteurs de journaux décidés voter Chirac (446), Jospin (237), Le Pen (168). Par ordre d’importance décroissant on trouve les électeurs de Chirac parmi les lecteurs de : La Croix, Le Figaro, Le Parisien, l’Express, Paris-Match et le Point. Suivant le même ordre ceux de Jospin se trouvent parmi les lecteurs de Libération, Le Monde, Le Canard enchaîné, Marianne, Le Nouvel-Observateur, Télérama. On peut fabriquer un indicateur simple de distance, entre les lectorats des divers journaux et le fait de vouloir voter Chirac ou Jospin. Cet indicateur est fabriqué avec le nombre de lecteurs d’un journal votant Chirac moins le nombre de lecteurs du même journal votant Jospin. On obtient le tableau comportant trois lignes suivant : Figure 7.7 – Tableau Observé Jospin Chirac Différence LACRO 3 29 26 LEFIG 7 35 28 LIBER 41 9 -32 LEMON 26 18 -8 LEPAR 12 23 11 LECAN 29 8 -21 LEXPR 15 22 7 MARIA 19 9 -10 NOUVE 35 14 -21 MATCH 15 29 14 TELER 28 9 -19 Ce procédé est ici possible car le nombre de lecteurs de journaux votant Chirac est très proche de celui de ceux qui votent Jospin (246 vs. 237). Le Point est le journal qui se caractérise la fois par le plus grand écart en valeur absolue et le plus grand écart négatif entre les partisans de Chirac et ceux de Jospin, il est donc de ce point de vue le journal qui exprime le mieux ce dans quoi se reconnaissent les électeurs de Chirac et le journal qui marque le mieux la différence entre les partisans de ces deux hommes politiques, entre une certaine conception de la droite et de la gauche. Libération est le journal qui se caractérise la fois par le deuxième plus grand écart en valeur absolue et le plus grand écart positif entre les partisans de Chirac et ceux de Jospin, il est donc de ce point de vue le journal qui exprime ce dans quoi se reconnaissent les électeurs de Jospin et aussi le journal qui marque la différence entre les partisans de ces deux hommes politiques, entre une certaine conception de la droite et de la gauche. Le Figaro et La Croix peuvent, bien que dans une proportion moindre, être analysés comme Le Point, à l’inverse Le Canard et le Nouvel-Observateur peuvent, bien que dans une proportion moindre, être analysés comme Libration. L’express bien qu’il soit plus caractéristique des partisans de 115 LEPOI 7 41 34 7.1. Exemple d’AFC et interprétation Chirac et Le Monde bien qu’il soit plus caractéristique des partisans de Jospin sont les deux journaux qui marquent le moins la différence entre les deux tendances politiques incarnées par ces deux hommes politiques. L’électorat de Le Pen bien que représentant des effectifs de lecteurs moins élevés lit les mêmes journaux que celui de Chirac. Le journal le plus caractéristique de l’lectorat de Le Pen est Le Parisien (avec le nombre de lecteurs le plus important), et ensuite, on trouve par ordre décroissant : Le Figaro, l’Express et Paris Match. Commentaire du tableau 2 Avant de commencer, bien que le nombre de personnes interrogées lors de ce sondage soit important (N = 1200), certaines lignes ont des effectifs ni. très petits < 30. Les fréquences de ces lignes sont donc regarder avec la plus grande circonspection. Sont dans ce cas les lignes représentant les partisans de Blanc, Megret, Boutin, Saint-Joss, Le Page, et Hue. Pour les autres nous ne retiendrons que les fréquences en lignes supérieures ou égales 0.1000 fij ≥ 0.1 ce qui permet de caractériser rapidement les journaux et magazines que lisent les partisans des autres hommes politiques inclus dans cette enquête. Par ordre croissant d’intérêt les lecteurs de : – Laguiller lisent Le Canard enchaîné, Libération, Marianne, Le Monde ; – Besancenot lisent Libération, Le Canard enchainé, Le Monde, Marianne ; – Jospin lisent Libération, Le Nouvel Observateur, Le Canard enchainé, Télérama, Le Monde ; – Chevênement lisent Télérama, Libération, Le Canard enchaîné, Le Monde ; – Mamère lisent Télérama, Libération, Le Canard enchaîné, Le Nouvel Observateur, Le Monde ; – Chirac lisent Le Point, Le Figaro, La Croix, Paris-Match ; – Le Pen lisent Le Parisien, Paris-Match, Le Figaro. Commentaire du tableau 6 Le χ2 est de 397.939 pour un nombre de degrés de liberté ν = (12−1)×(16−1) = 165 ce qui donne une probabilité p = 2.79679E −21 (cette probabilité peut être obtenue avec certaines calculettes scientifiques ou plus simplement avec un tableur inclus dans la suite Open Office ou dans celle de Microsoft Office en utilisant la fonction Loi de KHI 2 qui a besoin comme paramètre de la valeur du χ2 et du nombre de degrés de liberté et donne en sortie la probabilité que le contenu du tableau soit lié au hasard) ce qui signifie ici que la probabilité est exprimée par un chiffre qui commence par un zéro, virgule, puis vingt zéro, et enfin les chiffres deux, sept, neuf, six, neuf et sept. Une probabilité infime pour ne pas dire nulle que ce tableau soit dû au hasard. On peut donc avancer sans trop de risque de se tromper qu’il y a donc un lien entre le fait d’être partisan de tel ou tel homme politique et le fait de lire tel ou tel journal ou magazine. Si l’on veut connaitre la distance qui sépare le tableau espéré � (celui où il n’y a pas de lien entre le fait d’être partisan) et celui observé χ2 χ2 397.939 on obtient : ϕ = ⇒ ϕ2 = ⇒ ⇒ 0.57 La distance maximale est 1, nous en N N 1 200 sommes ici pas si loin, car il faut se rappeler que ϕ =| 1 | ne s’obtient que lorsque toutes les valeurs sont sur la diagonale. Si nous ne retenons dans le tableau de contribution que les contributions au χ2 supérieures 10 ce qui représente environ 2.5% de l’information contenue dans le tableau. A titre de rappel l’information contenue dans un tableau se mesure par le χ2 , et chaque case contribue pour une partie de cette information. La part d’information contenue dans une case est donc égale 116 7.1. Exemple d’AFC et interprétation au contenu de la case divisé par le χ2 . La recherche des contribution des lignes les plus importantes fait apparaître trois hommes politique : Jospin, Chirac, Le Pen. ces trois lignes présentent les plus fortes contributions au χ2 . La contribution au χ2 étant pondérée ce n’est pas un effet des effectifs qui est en cause pour ces lignes. Cette forte contribution au χ2 révèle le fait que pour les partisans de ces trois hommes politiques, le choix de lire un journal plutôt qu’un autre relève en aucun cas du hasard, il existe un lien certain entre le fait de vouloir voter pour ces trois hommes politiques et le journal lu. A l’inverse, le fait d’être lecteur de Saint Josse ou Lepage est faiblement lié au fait de lire tel ou tel journal. La recherche des contribution des lignes les plus importantes fait apparaître quatre journaux : La Croix, Libération, Le Point, Le Figaro. La lecture de ces quatre journaux est très liée au fait d’être un électeur potentiel de tel ou tel homme politique. A l’inverse le fait de lire Le Monde semble peut lié au fait d’être électeur d’un homme politique plutôt que d’un autre. Avec l’hypothèse sous-jacente est les 1200 lecteurs de la presse interrogés se comportent indépendamment du fait qu’ils sont aussi des électeurs potentiels d’un homme politique ; l’examen des cases du tableau qui ont des contributions supérieures ou égales à 10 montre que : 1. La Croix est moins lue par les électeurs de Jospin. 2. La Croix est plus souvent lue par les électeurs de Boutin ou Bayrou. 3. Le Figaro est plus lu par les électeurs de Chirac. 4. Le Parisien est plus lu par les électeurs de Le Pen. 5. Marianne est plus lue par les lecteurs de Chevênement. 6. Le Nouvel-Observateur est plus lu par les électeurs de Jospin. 7. Le Point est plus lu par les électeurs de Chirac. 117 7.1. Exemple d’AFC et interprétation TRIDEUX Version 4.2 - Juin 2008 Renseignements Ph.Cibois Laboratoire PRINTEMPS Université de Versailles - St-Quentin [email protected] Calcul des facteurs Le nom du fichier des noms de modalités est afcvote2002.MOD 1 Ce fichier d’impression a pour nom afcvote2002.AFC 2 Le nombre total de lignes du tableau est de 16 Le nombre total de colonnes du tableau est de 12 Le nombre de lignes supplémentaires est de 0 Le nombre de colonnes supplémentaires est de 0 Le nombre de lignes actives est de 16 Le nombre de colonnes actives est de 12 Le seuil d’édition des lignes est de 0 AFC : Analyse des correspondances ********************************* Le phi-deux est de : 0.331616 Le nombre de facteurs a extraire est de 11 Facteur 1 Valeur propre = 0.206144 Pourcentage du total Facteur 2 Valeur propre = 0.047207 Pourcentage du total Facteur 3 Valeur propre = 0.031667 Pourcentage du total Facteur 4 Valeur propre = 0.020244 Pourcentage du total Facteur 5 Valeur propre = 0.009473 Pourcentage du total Facteur 6 Valeur propre = 0.007561 Pourcentage du total Facteur 7 Valeur propre = 0.004814 Pourcentage du total Facteur 8 Valeur propre = 0.002071 Pourcentage du total Facteur 9 Valeur propre = 0.001689 Pourcentage du total Facteur 10 Valeur propre = 0.000570 Pourcentage du total Facteur 11 Valeur propre = 0.000175 Pourcentage du total = 62.2 = 14.2 = 9.5 = 6.1 = 2.9 = 2.3 = 1.5 = 0.6 = 0.5 = 0.2 = 0.1 La description des axes ci-dessus fait appel plusieurs éléments : 1. Voire l’annexe sur le logiciel Tri-deux. 2. Ibidem. 118 7.1. Exemple d’AFC et interprétation – les valeurs propres que l’on écrit λα , elles sont comprises entre 0 et 1 en analyse factorielle des correspondances, ici ces valeurs propres valent λ1 = 0.206144 pour le premier axe, λ2 = 0.047207 pour le second, · · · , λ1 1 = 0.000175 pour le 11eme et dernier axe. Le nombre maximum d’axes que l’on peut extraire est égal la plus petite dimension moins 1. Ici comme l’indique les premières lignes sous l’entête des résultats le tableau fait 16 lignes et 12 colonnes. Le nombre maximum d’axes que l’on peut extraire est donc de 11 (12-1), – les pourcentages, qui sont suivant les ouvrages et les logiciels appelés : pourcentages de variance ou pourcentages d’inertie, ils correspondent une valeur propre divisée par la somme λi des valeurs propres et multipliées par 100 : pourcentagei = �r × 100 ; (parfois les i=1 λi logiciels expriment cette valeur sous la forme d’une fréquence). – le phi-deux que l’on note ϕ2 , est égal la somme des λi , on nomme quelques fois cette valeur la trace t, il s’agit de l’inertie totale du nuage de points, ou encore de sa variance totale. Les λi , les valeurs propres, représentent les inerties ou variances de chaque axe. Par ailleurs cette � valeur est le carré du ϕ du tableau analyser. Rappel : le ϕ est gal racine de χ2 sur N : χ2 ϕ= . Cette formule permet quand on connaît le ϕ de retrouver le χ2 du tableau et N d’obtenir sa significativité. De plus le ϕ même si nous ne possédons que de sa valeur absolue |ϕ| est une mesure de la valeur absolue de la distance qui sépare le tableau analyser de la situation d’indépendance. Le calcul du χ2 s’obtient en appliquant la formule : χ2 = ϕ2 × N , χ2 = 0.331616 × 1200 119 120 QLT 946 976 883 995 817 997 993 906 886 988 990 991 978 961 978 468 972 F=1 -392 -527 -440 -555 -342 -406 -533 367 88 292 339 491 688 364 360 137 COS2 628 935 441 909 461 338 755 403 18 283 307 878 427 225 568 102 622 ACT. LaCr LeFi Libe LeMo LePa LeCa Lexp Mari Nouv Pari Tele LePo Moy. QLT 997 971 985 862 985 924 965 995 956 945 975 960 972 F=1 598 607 -689 -196 200 -487 203 -231 -413 348 -503 563 COS2 506 887 881 674 196 749 266 165 770 585 640 727 622 Modalités en colonne ACT. Lag Bes Hue Jos Tau Che Mam Lep Sai Bay Mad Chi Bou Meg LeP Bla Moy. CPF 145 149 192 15 16 96 17 22 69 49 102 128 83 CPF 571 47 31 13 28 1 29 43 3 46 146 43 83 COS2 111 15 87 28 27 53 54 429 27 695 164 38 481 16 171 100 142 COS2 457 64 32 133 77 1 106 76 7 127 208 56 142 F=2 -165 66 195 -97 83 160 143 378 109 457 -248 -102 731 -97 -197 136 F=2 569 -163 -131 -87 -125 -21 -128 157 -40 -162 287 -156 CPF 30 62 22 295 14 40 80 13 1 32 25 240 44 12 88 1 62 F=3 108 5 189 40 7 -141 -189 -459 166 2 142 130 CPF 24 4 19 40 4 27 25 61 5 347 58 45 217 4 115 6 62 COS2 16 0 66 29 0 63 230 649 125 0 51 39 95 F=3 -202 46 51 103 135 -481 154 -52 -419 -23 -142 124 243 -548 -46 -24 CPF 30 0 94 4 0 52 94 554 73 0 53 44 83 COS2 167 7 6 31 72 475 63 8 402 2 54 56 53 512 9 3 95 F=4 70 -82 -27 -30 327 157 -86 -113 -56 140 -77 -222 CPF 53 3 2 66 14 365 44 2 102 1 29 100 36 174 10 0 62 COS2 7 16 1 16 526 78 48 39 14 94 15 113 61 F=4 93 -47 301 -24 -200 -109 81 -26 182 -45 -388 -65 110 29 222 -25 Somme des Cos2 pour le facteurs affichés (QLT) Coordonnées factorielles (F= ) Contributions pour la variable(COS2) et contributions pour le facteur(CPF) Lignes du tableau CPF 20 28 3 4 441 102 30 53 13 80 25 202 83 COS2 35 8 206 2 158 24 18 2 76 7 402 15 11 1 216 3 61 F=5 87 -9 34 17 -190 94 123 -92 51 101 -117 -99 F=5 30 -49 -192 82 -153 -195 -38 138 391 19 0 -16 71 202 -57 -11 COS2 11 0 2 5 177 28 98 26 12 49 35 22 29 CPF 17 5 104 6 50 29 19 1 30 8 334 43 12 1 341 0 62 CPF 66 1 10 2 317 78 133 74 23 89 120 86 83 F=6 18 -39 40 -18 -43 -42 -183 115 78 137 -102 39 COS2 4 8 84 20 93 78 4 57 349 1 0 1 4 69 14 1 29 COS2 0 4 3 5 9 5 217 40 28 90 26 3 23 CPF 4 12 90 141 62 201 9 40 296 3 0 5 10 79 48 0 62 CPF 4 16 18 3 20 19 370 145 67 205 115 17 83 F=6 12 32 -161 42 -40 119 -193 -47 78 2 -154 29 41 -285 9 219 CPF 1 6 80 46 5 93 286 6 15 0 141 23 4 196 2 95 62 La Croix Le Figaro Libération Le Monde Le Parisien Le Canard L Express Marianne Nouvel Obs Paris Match Télérama Le Point COS2 1 3 59 5 6 29 99 7 14 0 63 3 2 138 0 259 23 7.1. Exemple d’AFC et interprétation 7.1. Exemple d’AFC et interprétation Interprétation des résultats Représentation simplifiée de l’axe 1 Jospin Mamère Besancenot Libération Le Pen Chirac Télérama Le Canard Nouvel-Observateur −700 −600 −500 −400 −300 −200 −100 Le Point La Croix Le Figaro 0 100 200 300 400 500 600 700 Axe 1 Représentation simplifiée de l’axe 2 Le Pen Lepage Bayrou Télérama −700 −600 −500 −400 −300 −200 −100 0 100 200 300 400 Boutin La Croix 500 600 700 500 600 700 Axe 2 Représentation simplifiée de l’axe 3 Megret Jospin Chirac Chevênement Saint-Josse Marianne Express −700 −600 −500 −400 −300 −200 −100 Nouvel-Observateur Libération 0 100 200 300 400 Axe 3 En utilisant les colonnes F=1, F=2, F=3 qui représentent les coordonnées des points et les CPF contributions propres du facteur (en ne retenant que les points dont la contribution est supérieure la moyenne la plus basse des contributions des lignes et des colonnes) on a pu fabriquer les trois graphiques précédents. L’axe 1 oppose le fait de lire Libération, Télérama, Le Canard enchaîné et le NouvelObservateur et d’être électeur potentiel de Jospin, Mamère et Besancenot au fait de lire Le Figaro, La Croix, Le Point et le fait d’être électeur potentiel de Chirac et Le Pen. Cet axe 121 7.1. Exemple d’AFC et interprétation oppose la droite et la gauche, il raconte une évidence comme c’est souvent le cas du premier axe en AFC, mais dans le même temps il montre la robustesse de cette évidence. L’axe 2 oppose le fait d’être électeur potentiel de Le Pen et celui de lire Télérama, La Croix et le fait de voter Lepage Bayrou et Boutin. Cet axe distingue deux droites l’une extrême pas forcément reliée une publication bien identifiée et l’autre plutôt modéré et très liée la presse chrétienne votant Lepage ou Bayrou ou encore Boutin. L’axe 3 oppose le fait de lire Marianne, l’Express et d’être électeur de Mégret, Chevênement, Saint-Josse au fait de lire le Nouvel Observateur, Libération et d’être électeur potentiel de Jospin et Chirac. Cet axe distingue d’un coté des hommes politique représentant des petits partis le cas échant minoritaires ou contestataires dans leur courant et lisant Marianne ou l’Express qui sont des journaux eux mêmes contestataires dans leur courant de l’autre coté des hommes politiques présidentiables dont les lecteurs lisent des journaux institués. On retrouve ces oppositions 2 à 2 sur les graphiques ci dessous. 122 Chapitre 8 Exercices de révision 8.1 8.1.1 Statistiques monovariés et bivariées Exercice 1 Question 1 La population de l’enquête emploi de 1996 dont on a extrait les 5 PCS qui constituent les métiers de l’intervention sociale a permis de construire le tableau suivant : Population des intervenants sociaux par âges 1996 AGE 15 19 ans 20 24 ans 25 29 ans 30 39 ans 40 49 ans 50 59 ans 60 69 ans 70 79 ans Effectif 2640 28905 51863 127587 150589 75740 8069 366 fréquence 0.6 6.5 11.6 28.6 33.8 17.0 1.8 0.1 Effectif cumulée 2640 31545 83408 210995 361584 437324 445393 445759 fréquence cumulée 0.6 7.1 18.7 47.3 81.1 98.1 99.9 100.0 Pour cette population Tracez : – L’histogramme. – La courbe des fréquences cumulées croissantes. – Calculez la médiane. – Calculez la moyenne et l’écart type en utilisant une variable provisoire. Les calculs effectués pour chacune des 5 PCS a permis de calculer les valeurs suivantes qu’en concluez-vous ? Profession=Assistantes sociales Effectif 37774 Moyenne 39.84 Ecart-type 9.34 123 Minimum 23.00 Maximum 61.00 8.1. Statistiques monovariés et bivariées Profession=Éducateurs spécialisés Effectif 99171 Moyenne 38.64 Ecart-type 9.28 Minimum 21.00 Maximum 65.00 Profession=Animateurs socio-culturels et de loisirs Effectif 49648 Moyenne 33.63 Ecart-type 9.93 Minimum 19.00 Maximum 58.00 Profession=Conseillers familiaux Effectif 7328 Moyenne 39.44 Ecart-type 10.62 Minimum 24.00 Maximum 57.00 Profession=Assistantes maternelles, gardiennes d’enfants, travailleuses familiales Effectif 251838 Moyenne 42.00 Ecart-type 10.11 Minimum 16.00 Maximum 70.00 Question 2 Le tableau suivant a été établi entre l’âge et l’ancienneté des 5 PCS à partir des calculs déjà effectués et présentés plus loin calculez la covariance et tracez les droites de régression. Ancienneté des intervenants sociaux par âge (année 1996) Effectif Col Pct moins de 1 1 4 ans 5 9 ans 10 14 ans 15 19 ans 20 24 ans 25 29 ans 30 39 ans Total 15 19 ans 604 22.88 2036 77.12 0 0.00 0 0.00 0 0.00 0 0.00 0 0.00 0 0.00 2640 20 24 ans 4678 16.18 23204 80.28 1023 3.54 0 0.00 0 0.00 0 0.00 0 0.00 0 0.00 28905 25 29 ans 4041 7.79 36966 71.28 10856 20.93 0 0.00 0 0.00 0 0.00 0 0.00 0 0.00 51863 30 39 ans 7381 5.80 59931 47.12 35594 27.98 15557 12.23 7758 6.10 971 0.76 0 0.00 0 0.00 127192 40 49 ans 4517 3.02 45112 30.13 31570 21.09 25572 17.08 21959 14.67 14512 9.69 5368 3.59 1113 0.74 149723 Pour effectuer les calculs les éléments suivants sont donnés 124 50 59 ans 409 0.54 13529 17.95 12214 16.21 15287 20.28 15910 21.11 10141 13.46 5461 7.25 2413 3.20 75364 60 69 ans 0 0.00 997 12.36 653 8.09 946 11.72 2309 28.62 1339 16.59 911 11.29 914 11.33 8069 70 79 ans 0 0.00 366 100.00 0 0.00 0 0.00 0 0.00 0 0.00 0 0.00 0 0.00 366 Total 21630 182141 91910 57362 47936 26963 11740 4440 444122 8.1. Statistiques monovariés et bivariées Age Ancienneté minimum 16.00 0 maximum 70.00 38.00 Moyenne Ecart-type ge 40.10 10.21 ancienneté 7.97 7.55 corrélation r 0.55 Question 3 Complétez les cellules incomplètes. Calculez le χ2 puis commentez ? A partir de cette même enquête emploi a été construit un tableau mettant en relation pour chaque personne sa PCS et le diplôme le plus élevé qu’elle a obtenu. Effectif espéré Ecart Contribution Assistantes sociales Éducateurs spécialisés Animateurs socio-culturels et de loisirs Conseillers familiaux Assistantes maternelles, gardiennes d’enfants, travailleuses familiales Total 2me et 3me cycle 41.911 20.464 21.447 22.476 119.77 53.726 66.048 81.195 55.456 26.897 28.559 30.324 9.026 3.97 5.056 6.4391 15.325 136.43 -121.1 107.51 1er cycle Universit. 24.654 20.552 4.1022 0.8188 83.241 53.957 29.284 15.894 71.854 27.012 44.842 74.44 33.869 3.987 29.882 223.97 28.908 137.02 -108.1 85.302 paramèd, soc.avec Bac. 306.6 52.082 254.52 1243.9 253.31 136.73 116.57 99.386 31.231 68.453 -37.22 20.24 21.561 10.104 11.458 12.993 1.8936 347.23 -345.3 343.45 paramèd, soc.sans Bac 53.449 21.364 32.085 48.186 173.68 56.088 117.59 246.53 10.591 28.079 -17.49 10.892 3.5094 4.1445 -0.635 0.0973 10.882 142.43 -131.6 121.5 Bac. gn. + tech. 37.101 44.843 -7.742 1.3365 233.92 117.73 116.19 114.67 119.57 241.492 242.527 614.598 252.108 529.174 125 6.2235 8.6993 -2.476 0.7046 132.36 Dipl. Niv. BP CAP BEPC 8.8997 156.58 -147.7 139.28 317.08 411.07 -93.99 21.49 241.09 205.8 35.293 6.0525 14.694 30.375 -15.68 8.0954 1265.9 1043.9 222.05 47.235 CEP aucun diplme Total 0 71.766 -71.77 71.766 26.636 188.41 -161.8 138.91 19.781 94.325 -74.54 58.911 3.623 13.922 -10.3 7.6191 796.85 478.46 318.39 211.87 4.2289 89.202 -84.97 80.944 44.271 234.19 -189.9 154.01 77.169 117.24 -40.07 13.697 0 17.305 -17.3 17.305 926.97 476.85 1847.71 846.888 1052.64 5627.14 1251.9 626.74 92.507 3179.1 8.1. Statistiques monovariés et bivariées 8.1.2 Exercice 2 Question 1 En 1998 est réalisée une enquête sur les bacheliers professionnels. Cette enquête a permis de construire le tableau suivant. Anne de naissance 1980-1978 1977 1976 1975 1974 1973 1972-1965 TOTAL Effectif 5 127 373 331 154 39 49 1078 Pourcentage 0,5 11,8 34,6 30,7 14,3 3,6 4,5 100 % cumulé 0,5 12,2 46,8 77,6 91,8 95,5 100 Tracez l’histogramme des âges au moment de l’enquête. Tracez la courbe des fréquences cumulées décroissantes des âges. Calculez la médiane des âges au moment de l’enquête. Calculez la moyenne et l’écart-type des âges au moment de l’enquête. Question 2 Lors de cette même enquête a été réalisée une série de tableaux mettant en relation les PCS des pères et des mères de ces bacheliers. Certains de ces tableaux sont incomplets veuillez les compléter afin de calculer le χ2 et de commenter la relation qui existent entre la PCS des pères et celle des mères. Agriculteur Enseignant/Libéral Artisan Intermédiaire Employé Ouvrier TOTAL Agriculteur Enseignant/Libéral Artisan Intermédiaire Employé Ouvrier Agriculteur Enseignant/Libéral Artisan Intermédiaire Employé Ouvrier TOTAL Agriculteur Enseignant/Libéral Artisan Intermédiaire Employé Ouvrier Agriculteur 77 0 2 0 0 10 89 Enseignant/Libéral 4 13 9 4 4 12 46 Artisan 2 4 46 5 5 4 66 Intermédiaire 2 9 8 15 2 7 43 Employé 3 18 35 31 72 82 241 Ouvrier 2 8 15 12 21 166 224 Agriculteur Enseignant/Libéral 5,84 3,37 7,46 4,35 6,75 18,23 Artisan 8,38 4,84 Intermédiaire 5,46 3,15 6,97 4,06 6,31 17,04 Employé 30,59 Ouvrier 28,43 16,43 36,33 21,17 Enseignant/Libéral 0,58 27,47 0,32 0,03 1,12 2,13 31,64 Artisan 4,86 0,15 Intermédiaire 2,19 10,84 0,15 29,43 2,94 5,92 51,47 Employé 24,89 Enseignant/Libéral + + - Artisan - Intermédiaire + + + - Employé - 6,53 14,44 8,41 13,06 35,27 Agriculteur 6,53 10,71 8,41 13,06 18,11 Agriculteur - 6,24 9,68 26,16 0,25 2,26 18,77 - 126 22,77 TOTAL 90 52 115 67 104 281 709 95,52 2,97 37,99 1,91 68,20 + + - Ouvrier 24,58 4,32 12,53 3,97 TOTAL 45,06 849,71 Ouvrier - 8.1. Statistiques monovariés et bivariées Question 3 La même enquête a permis de produire le tableau suivant mettant en relation entre leur premier salaire en 1998 et leur salaire au moment de l’enquête. – – – – A partir des deux tableaux suivant Calculez la moyenne sur X et Y Calculez le coefficient de corrélation et tracez les 2 droites de régression. Commentez. vj -12 -5 0 5 14 yj 2000 3750 5000 6250 8500 B sup 3000 4500 5500 7000 10000 Binf 1000 3000 4500 5500 7000 ui xi B sup Binf Classes [2000; 3000[ [3000; 4500[ [4500; 5500[ [5500; 7000[ [7000; 10000[ ni. ni. ui 2 n �i. (ui ) vj nij � ui vj nij -12 2000 3000 1000 [2000; 3000[ 3 13 2 1 -5 3750 4500 3000 [3000; 4500[ 19 -228 2736 -96 1152 19 -95 475 -60 300 0 5000 5500 4500 [4500; 5500[ 5 6250 7000 5500 [5500; 7000[ 14 8500 10000 7000 [7000; 10000[ 15 24 2 41 0 0 148 0 31 12 43 215 1075 323 1615 1 9 10 140 1960 131 1834 13 5 1 Pour ce faire sont données les indications suivantes : h x0 k y0 N u V (u) σ(u) COV (u, v) 500 5000 500 5000 132 0,24 47,3 6,87 36,31 v V (v) σ(v) n.j 3 26 22 58 23 132 32 6246 n.j vj -36 -130 0 290 322 446 4901 3,38 41,9 6,47 Question 4 Dans la même enquête la distribution des salaires à l’embauche se caractérise par les paramètres suivants : Moyenne 5362,12 Ecart-type 1323,33 Variance 1751198,83 médiane 5400 Moy. géométrique 5176,25 Moy. harmonique 4955,02 Éffectif 353 Qu’est-ce qui selon vous explique le faible écart entre médiane, moyenne algébrique, moyenne géométrique et moyenne harmonique. 127 n.j (vj )2 432 650 0 1450 4508 7040 8.1. Statistiques monovariés et bivariées 128 Chapitre 9 Annexe 129 9.1. Table χ2 9.1 Table χ2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 0,995 0,0000 0,0100 0,0717 0,2070 0,4117 0,6757 0,9893 1,3444 1,7349 2,1559 2,6032 3,0738 3,5650 4,0747 4,6009 5,1422 5,6972 6,2648 6,8440 7,4338 8,0337 8,6427 9,2604 9,8862 10,5197 11,1602 11,8076 12,4613 13,1211 13,7867 17,1918 20,7065 24,3110 27,9907 31,7348 35,5345 39,3831 43,2752 47,2060 51,1719 55,1696 59,1963 63,2496 67,3276 0,990 0,0002 0,0201 0,1148 0,2971 0,5543 0,8721 1,2390 1,6465 2,0879 2,5582 3,0535 3,5706 4,1069 4,6604 5,2293 5,8122 6,4078 7,0149 7,6327 8,2604 8,8972 9,5425 10,1957 10,8564 11,5240 12,1981 12,8785 13,5647 14,2565 14,9535 18,5089 22,1643 25,9013 29,7067 33,5705 37,4849 41,4436 45,4417 49,4750 53,5401 57,6339 61,7541 65,8984 70,0649 0,975 0,0010 0,0506 0,2158 0,4844 0,8312 1,2373 1,6899 2,1797 2,7004 3,2470 3,8157 4,4038 5,0088 5,6287 6,2621 6,9077 7,5642 8,2307 8,9065 9,5908 10,2829 10,9823 11,6886 12,4012 13,1197 13,8439 14,5734 15,3079 16,0471 16,7908 20,5694 24,4330 28,3662 32,3574 36,3981 40,4817 44,6030 48,7576 52,9419 57,1532 61,3888 65,6466 69,9249 74,2219 0,950 0,0039 0,1026 0,3518 0,7107 1,1455 1,6354 2,1673 2,7326 3,3251 3,9403 4,5748 5,2260 5,8919 6,5706 7,2609 7,9616 8,6718 9,3905 10,1170 10,8508 11,5913 12,3380 13,0905 13,8484 14,6114 15,3792 16,1514 16,9279 17,7084 18,4927 22,4650 26,5093 30,6123 34,7643 38,9580 43,1880 47,4496 51,7393 56,0541 60,3915 64,7494 69,1260 73,5198 77,9295 0,900 0,0158 0,2107 0,5844 1,0636 1,6103 2,2041 2,8331 3,4895 4,1682 4,8652 5,5778 6,3038 7,0415 7,7895 8,5468 9,3122 10,0852 10,8649 11,6509 12,4426 13,2396 14,0415 14,8480 15,6587 16,4734 17,2919 18,1139 18,9392 19,7677 20,5992 24,7967 29,0505 33,3504 37,6886 42,0596 46,4589 50,8829 55,3289 59,7946 64,2778 68,7772 73,2911 77,8184 82,3581 0,100 2,7055 4,6052 6,2514 7,7794 9,2364 10,6446 12,0170 13,3616 14,6837 15,9872 17,2750 18,5493 19,8119 21,0641 22,3071 23,5418 24,7690 25,9894 27,2036 28,4120 29,6151 30,8133 32,0069 33,1962 34,3816 35,5632 36,7412 37,9159 39,0875 40,2560 46,0588 51,8051 57,5053 63,1671 68,7962 74,3970 79,9730 85,5270 91,0615 96,5782 102,0789 107,5650 113,0377 118,4980 0,050 3,8415 5,9915 7,8147 9,4877 11,0705 12,5916 14,0671 15,5073 16,9190 18,3070 19,6751 21,0261 22,3620 23,6848 24,9958 26,2962 27,5871 28,8693 30,1435 31,4104 32,6706 33,9244 35,1725 36,4150 37,6525 38,8851 40,1133 41,3371 42,5570 43,7730 49,8018 55,7585 61,6562 67,5048 73,3115 79,0819 84,8206 90,5312 96,2167 101,8795 107,5217 113,1453 118,7516 124,3421 0,025 5,0239 7,3778 9,3484 11,1433 12,8325 14,4494 16,0128 17,5345 19,0228 20,4832 21,9200 23,3367 24,7356 26,1189 27,4884 28,8454 30,1910 31,5264 32,8523 34,1696 35,4789 36,7807 38,0756 39,3641 40,6465 41,9232 43,1945 44,4608 45,7223 46,9792 53,2033 59,3417 65,4102 71,4202 77,3805 83,2977 89,1771 95,0232 100,8393 106,6286 112,3934 118,1359 123,8580 129,5612 0,010 6,6349 9,2103 11,3449 13,2767 15,0863 16,8119 18,4753 20,0902 21,6660 23,2093 24,7250 26,2170 27,6882 29,1412 30,5779 31,9999 33,4087 34,8053 36,1909 37,5662 38,9322 40,2894 41,6384 42,9798 44,3141 45,6417 46,9629 48,2782 49,5879 50,8922 57,3421 63,6907 69,9568 76,1539 82,2921 88,3794 94,4221 100,4252 106,3929 112,3288 118,2357 124,1163 129,9727 135,8067 0,005 7,8794 10,5966 12,8382 14,8603 16,7496 18,5476 20,2777 21,9550 23,5894 25,1882 26,7568 28,2995 29,8195 31,3193 32,8013 34,2672 35,7185 37,1565 38,5823 39,9968 41,4011 42,7957 44,1813 45,5585 46,9279 48,2899 49,6449 50,9934 52,3356 53,6720 60,2748 66,7660 73,1661 79,4900 85,7490 91,9517 98,1051 104,2149 110,2856 116,3211 122,3246 128,2989 134,2465 140,1695 Notice d’utilisation : La table de χ2 comporte 3 zones : – La colonne de gauche qui contient : des valeurs correspondant à un nombre de degrés de liberté. – La ligne du haut qui correspond à des probabilités qui indique que ce qui est observé dans le tableau fabriqué est lié au hasard. – Les autres cases contiennent chacune une valeur de χ2 caractéristique d’un nombre de degrés de liberté et d’une probabilité. Une fois calcul le χ2 effectué et le nombre de degrés de liberté déterminé, on cherche dans la table la ligne qui correspond au nombre de degrés de liberté. Après on cherche dans les cases qui constituent cette ligne le χ2 obtenu. Généralement la valeur obtenue pour le χ2 lors du calcul n’est pas présente dans cette ligne. Si c’est le cas on remonte la colonne où l’on a trouvé une valeur correspondant au χ2 calculé et on note la probabilité obtenue. En revanche on est dans un des quatre cas suivants : 1. La valeur observée est, dans la ligne correspondant au nombre de degrés de liberté du tableau observé, inférieure à la première valeur de la ligne considérée. 2. La valeur observée est, dans la ligne correspondant au nombre de degrés de liberté du tableau observé, supérieure à la dernier valeur de la ligne considérée. 130 9.1. Table χ2 3. La valeur observée est, dans la ligne correspondant au nombre de degrés de liberté du tableau observé, comprise entre deux valeurs consécutives la ligne mais les deux valeurs sont respectivement celles qui correspondent aux probabilités 0,90 et 0,10. 4. La valeur observée est, dans la ligne correspondant au nombre de degrés de liberté du tableau observé, comprise entre deux valeurs consécutives la ligne dans ce cas on note les deux probabilités d’encadrement. Les manières de conclure sont respectivement les suivantes : 1. On conclue dans ce cas que la probabilité de ce que l’on observe a plus de 999 chances sur 1000 d’être lie au hasard, et donc qu’il n’y a pas lien entre la variable x et la variable y. 2. On conclue dans ce cas que la probabilité de ce que l’on observe a moins de 1 chance sur 1000 d’être lie au hasard, et donc qu’il existe certainement un lien entre la variable x et la variable y. 3. On conclue dans ce cas que la probabilité de ce que l’on observe ne permet pas de savoir si ce que l’on observe est li au hasard ou non. Dans ce cas il faut certainement augmenter la taille de l’échantillon ou essayer de regrouper des cellules si elles ne l’ont pas été ou de les regrouper autrement. 4. Deux hypothèses : – Les bornes d’encadrements sont comprises entre 0.999 et 0.900 et l’on conclue que ce que l’on observe est li au hasard. – Les bornes d’encadrements sont comprises entre 0.100 et 0.001 et l’on conclue que ce que l’on observe est li au hasard entre pi fois sur 1 000 et pi fois sur 1 000 et qu’il existe certainement un lien entre la variable x et la variable y. 131 9.2. Logiciel 9.2 Logiciel Le logiciel utilisé pour les exercices d’analyse des données est gratuit il s’appelle TRI-DEUX, il a été développé par le Professeur des Université Émérite Philippe CIBOIS de l’Université de Marne la Vallée. Vous pouvez télécharger la version 4.2 de ce logiciel sur son site à l’adresse suivante : http : //pagesperso − orange.f r/cibois/SiteP hCibois.htm (Une version 5.0 a été mise en ligne fin 2009) Vous trouverez sur le site une notice d’installation. Le logiciel comporte à la fois un didacticiel et des éléments de cours. Vous trouverez aussi sur le site de Philippe CIBOIS des documents précieux pour vous aider à progresser en statistiques. 9.2.1 Petite notice additionnelle version 4.2 Le logiciel possède un module de saisie des données mais je vous conseille d’utiliser un tableur pour réaliser cette opération. Si vous suivez la suite des opérations décrites ci-dessous vous n’aurez pas de difficulté à réaliser cette phase préalable du travail. Pour l’exemple on saisit un tableau de 14 colonnes, et 12 lignes, la première colonne comporte le nom des lignes ou individus et la première ligne le nom des colonnes ou des variables. 1. Saisir le fichier dans Excel 2. Sauver une première fois comme fichier XLS en lui donnant un nom 3. Formater largeur colonne A à 4 de largeur 4. Formater toutes les autres colonnes (B...N) à 1,2,3 de largeur en fonction du nombre de modalités de la variable : moins de 9 modalités, moins de 99 modalités, moins de 999 modalités. 5. Se mettre dans la zone des donnes A1 6. Sauver dans un répertoire de travail sous forme d’un fichier DBF3 ou DBF4 (dbase) – par exemple : C :\\Mes Documents\\DSTS2\\monfichier 7. Répondre OK à garder seulement la feuille active 8. Répondre OUI à garder seulement les fonctionnalités 9. Fermer le fichier 10. Répondre non à enregistrer les modifications 11. Fermer Excel 12. Ouvrir TRIDEUX 13. Allez dans Fichier de démarrage et régler le niveau d’utilisateur à 2 14. Dans Fichier de démarrage allez à première utilisation puis répondez aux questions ou renseignez les champs : – Mes données existent déjà sur un support informatique ? répondre OUI – Nom du fichier (sans l’extension) Donnez le nom du fichier sauvé – Valider – Choisir le répertoire A l’aide du menu déroulant choisir le répertoire – Valider Quand vous validez le nom et le répertoire doivent s’afficher 15. Allez dans Nouvelle données – Cela fabrique plusieurs fichiers : 132 9.2. Logiciel – *.DAT – *.POS – *.IMP 16. Allez dans Editeur Choisir Autre – Fichier ouvrir (vérifier type fichier tous *.*) – Charger le fichier *.dat – Sauver le fichier avec le même nom en changeant l’extension en BRT *.BRT – Fermer le fichier 17. Aller dans Editeur Choisir Autre – Dans l’éditeur écrire : – Titre – LA=2 LI=11 CO=13 LS=0 – NVA1 suivi de 3 espaces + CR – NVA2 suivi de 3 espaces + CR – .... suivi de 3 espaces + CR – .... suivi de 3 espaces + CR – NV13 suivi de 3 espaces – Enregistrer sous *.MOD – Fermer le fichier 18. Allez à Analyse Factorielle commencer avec item2 – Introduire les noms longs 19. Allez à Analyse Factorielle item 3 (tris croisés et pourcentages et chi2) 20. Allez à Analyse Factorielle item 4 (tableau) – Choisir le nombre d’axes – Demander les cos2 – Demander l’impression des lignes. 21. Allez à Analyse Factorielle item 5 (plan) Détails d’une partie de la notice additionnelle à Tri2 version 4.2 133 Logiciel EXCEL feuille de calcul Saisir les données identifiant colonne sur la première ligne identifiant ligne sur la première colonne. Les identifiants lignes et colonnes sont uniques (pas 2 fois le même nom). Enregistrer en fichier EXCEL (extension .XLS) une première fois. Lui donner un nom. D’une manière générale un o c’est des lettres, des chiffres et le caractère underscore (_) le souligné de la touche du chiffre 8. Si possible ne pas dépasser 32 caractères éviter les accents les espaces et autres fantaisies. Toujours dans EXCEL sauver en DBF après avoir régler les largeurs de colonnes à 4 pour la première à 1, 2 ou 3 pour les suivantes, 1 aucun effectif de la colonne ne doit dépasser 9 2 aucun effectif de la colonne ne doit dépasser 99 3 aucun effectif de la colonne ne doit dépasser 999 Se positionner dans la case A1 La case A1 doit avoir un nom pour les individus (IND par exemple) Le nom des colonnes ne doit pas dépasser 3 caractères (SEX pour sexe) Le nom des lignes (colonne A1 doit comporter 4 caractères). A l’apparition de cet écran répondre OK A l’apparition de cet écran cliquer sur OUI Fermer le fichier L’écran suivant apparaît : Répondre NON Passer dans TRI² Faire les étapes 13 14 15 16 Editeur Autre Fichier ouvrir (vérifier type fichier tous *.*) Charger le fichier *.dat Vous voyez apparaître l’écran suivant Enregistrez le fichier avec le même non en changeant l’extension en BRT *.BRT L’écran suivant apparaî : Fermez le fichier 16 Editeur Autre Dans l’éditeur écrire : Titre sur la première ligne LA=2 LI=11 CO=13 LS=0 NVA1 suivi de 3 espaces + CR NVA2 suivi de 3 espaces + CR ……….. suivi de 3 espaces + CR ……….. suivi de 3 espaces + CR NV13 suivi de 3 espaces Enregistrer sous *.MOD Ne pas sauter de lignes blanches 4 lettres ou chiffres par nom de colonnes Les noms de variables sont uniques Ne pas dépasser 15 caractères par nom Ne pas laisser des lignes vierges en fin de fichier (la surbrillance doit s’arrêter au niveau de la dernière variable) On obtient l’écran suivant : Reprendre à 18 9.2. Logiciel Bibliographie – AFFICHARD Joëlle, (1982), "Contribution de la statistique à la mise en forme de la demande sociale d’information. Essai d’introduction à l’histoire des statistiques écrite par les statisticiens". in Actes de la journée d’étude ’Sociologie et statistique’, Paris, Document polycopié de l’Institut National de la Statistique et des Etudes Economiques et de la Société Française de Sociologie, 1982, tome 1, pp. 1-15. – AMIOT Michel, (1980), Contre l’Etat, les sociologues : Eléments pour une histoire de la sociologie urbaine en France 1900 1980, Paris, édition E.H.E.S.S., 1986, 304 p. – BACHELARD Gaston, (1938), La formation de l’esprit scientifique, 5ème édition, Vrin Paris 1965. – BAUDELOT Christian, ESTABLET Roger, (1984), Durkheim et le suicide, édition PUF 4ème édition 1993 124 p. – BAUDELOT Christian, (1982), "La source et l’objet" in Actes de la journée d’étude ’Sociologie et statistique’, Paris, Document polycopié de l’Institut National de la Statistique et des Etudes Economiques et de la Société Française de Sociologie, 1982, tome 1, pp. 17-32 – BENOIT-GUILBOT Odile, (1982), "L’odyssée du sociologue à la recherche de données Insee", in Actes de la journée d’étude ’Sociologie et statistique’, Paris, Document polycopié de l’Institut National de la Statistique et des Etudes Economiques et de la Société Française de Sociologie, 1982, tome 1, pp. 33-38 – BERGER Peter, LUCKMAN Thomas, (1966), La construction sociale de la réalité, traduction TRAMINIAUX Pierre, édition Méridiens-Klincksieck, 3ème édition, Paris, 1986, 288 p. – BERTAUX Daniel, (1977), Destins personnels et structure de classe. Pour une critique de l’anthropologie politique. Paris, édition PUF, 1977, col. Politiques, 322 p. – BERTAUX-WIAM et al. Entre travail et famille la construction sociale des trajectoires sociales., document multigraphié, Centre de Sociologie Urbaine I.R.E.S.C.O. 176 p. plus annexes. – BERTHELOT Jean-Michel, (1990), L’intelligence du social. Le pluralisme explicatif en sociologie. Paris, édition PUF, 1990, 249p. – BERTIN Jacques, (1980),Traitements graphiques et mathématiques. Différence fondamentale et complémentarité. in Mathématique et sciences humaines. Ehess. 1980 n° 72 pp. 60-71. – BERTIN Jacques, (1976) , Sémiologie graphique, Les diagrammes – Les réseaux – Les cartes,Paris, Editions Gauthier-Villar, p. XXX 1967 – BOLTANSKI Luc, THEVENOT Laurent, (1990), De la justification, les économies de la grandeur. , Paris, édition NRF Gallimard, 1991, 493 p. – BORGES Jorges Luis, (1957), "La Langue analytique de John Wilkins", in Oeuvres complètes. (édition établie par BERNES Jean-Pierre), Bibliothèque de la Pléiade, Paris, Gallimard, 1993, pp. 747-751. – BOUDON,Raymond, (1967), L’analyse mathématique des faits sociaux., Paris, édition Plon, 1967,464 p. – BOUDON Raymond, (1971), Les mathématiques en sociologie., Paris, édition PUF, 1971, collection SUP, 268 p. – BOURDIEU Pierre, PASSERON Jean-Claude, CHAMBOREDON, Jean-Claude, (1968), Le métier de sociologue. Préalables épistémologiques., La Haye, édition Mouton, 1983, 4ème édition, 357 p. – BOURDIEU Pierre, (1979), La distinction. Critique sociale du jugement., Paris, édition de Minuit, 1979, 670 p. 139 9.2. Logiciel – BOZON Michel, HERAN François, (1987), "La découverte du conjoint. (1) Évolution et morphologie des scènes de rencontre.", in Population, Paris, édition INED,. 1987, volume 42, n° 6, pp. 943-985. – BOZON Michel, HERAN François, (1988), "La découverte du conjoint.(2) Les scènes de rencontre dans l’espace social.", in Population, Paris, édition INED,. 1988, volume 43, n° 1, pp. 121-149. – CAILLE Alain, (1989), Critique de la raison utilitaire, édition de La Découverte, Paris, 1989, p. XXX – CAILLE Alain, (1993), La démission des clercs. La crise des sciences sociales et l’oubli du politique. Paris, édition de La Découverte, coll. Armillaire, Paris, 1993, 297 p. – CANGUILHEM Georges, (1958), "Pathologie et physiologie de la thyroïde au XIXème siècle", in Etudes d’histoire et de philosophie des sciences, Paris, édition Vrin, 1970, deuxième édition, pp. 274-294. – CHASSAGNE Serge, (1980), "Les bureaux centraux : le personnel et les mécanismes administratifs" in La statistique en France à l’époque napoléonienne. Journée d’étude, Paris 14 février 1980, Paris, Ehess et Bruxelles, Centre Guillaume Jacquemyns, pp. 150-161. – COMBESSIE Jean-Claude, (1982), "Effet de méthode. A propos du marché du travail", in Actes de la journée d’étude ’Sociologie et statistique’,Paris, Document polycopié de l’Institut National de la Statistique et des Etudes Economiques et de la Société Française de Sociologie, 1982, tome 1, pp. 109-128. – DEGENNE Alain, FORSE Michel, (1994), Les réseaux sociaux. Une analyse structurale en sociologie, Paris, édition Armand Colin, 1994, 288 p. – DEGENNE Alain, (1972) Techniques ordinales en analyse de données statistiques, Paris, édition Hachette, collection Hachette Université, 1972, 160 p.. – DEGENNE Alain, (1988), "Un domaine d’interaction entre les mathématiques et les sciences sociales : les réseaux sociaux", in Mathématiques et Sciences humaines 26ème année, 1988, n°104, p. 5-18. – DESROSIÈRE Alain, GOLLAC Michel, (1982), "Trajectoires ouvrières, systèmes d’emplois et comportements sociaux", in Economie et Statistique, Paris, édition de l’Insee, 1982, n° 147, p. 43-66. – DESROSIÈRES Alain, THEVENOT Laurent, (1979), "Les mots et les chiffres : les nomenclatures socioprofessionnelles", in Economie et Statistique, (1979), Paris, édition de l’Insee, 1979, n°110, pp. 49-65. – DESROSIÈRES Alain, (1987), "Les nomenclatures de professions et d’emplois", in Pour une histoire de la statistique, tome 2 matériaux, Paris, édition Insee, Economica, 1987, pp. 35-56. – DURKHEIM Emile, (1897), Le suicide. Etude de sociologie., Paris , édition PUF, 1991, collection Quadrige, 4ème édition, 463 p. – DURKHEIM Emile, (1894), Les règles de la méthode sociologique, Paris, édition PUF, 1991, collection Quadrige, 6ème édition, 149 p. – FERRAND et al. Entre travail et famille la construction sociale des trajectoires sociales. Centre de Sociologie Urbaine I.R.E.S.C.O. 176 pages plus annexes. – FERRIER Jean-Louis, Holbein, les ambassadeurs. Anatomie d’un chef d’oeuvre. Paris, édition Denoël Gonthier, 1977, 109 p. – FONTAINE et al. Entre travail et famille la construction sociale des trajectoires sociales. Centre de Sociologie Urbaine I.R.E.S.C.O. 176 pages plus annexes. – FOUCAULT Michel, (1976), Histoire de la sexualité, la volonté de savoir, Paris, édition 140 9.2. Logiciel – – – – – – – – – – – – – – – – – – – – NRF Gallimard, 1976, 211 p. FOUCAULT Michel, (1969) L’archéologie du savoir, Paris, édition, NRF Gallimard, 1969, 275 p. FOUCAULT Michel, (1970), L’ordre du discours. Leçon inaugurale prononcée au Collège de France le 2 novembre 1970. Paris, édition NRF Gallimard, 1971, 81 p. FOUCAULT Michel, (1966), Les mots et les choses. Une archéologie des sciences humaines, édition NRF Gallimard, Paris 1966, 400 p. FOUCAULT Michel, (1963), Naissance de la clinique. Une archéologie du regard médical, Paris, édition PUF, 1983, collection Galien, 5ème édition, 214 p. GIRARD Alain, (1964), Le choix du conjoint. une enquête psychosociologique en France, Paris, édition PUF INED, 1964, coll. Travaux et documents, cahier n° 44, 201 p. GRANGER Gilles-Gaston, (1988), Pour la connaissance philosophique, édition Odile Jacob, Paris 1988, 286 p. GROSSETTI Michel, (1987), "Le retour du test du Khi2. Un usage exploratoire d’un test classique", in Parcours méthodologiques, Cahiers du centre de recherches sociologique, n° 5, février 1987 ; pp. 131-141. HETCH Jacqueline, (1987), "L’idée de dénombrement jusqu’à la révolution", in Pour une histoire de la statistique, tome 1 contributions, Paris, édition Insee, Economica, 1987, pp. 21-81. HIRISCHI Travis, SELVIN Hanon, (1975), Recherches en délinquance principes de l’analyse qualitative, Paris, édition Mouton, La Haye, 1975. IFRAH Georges, (1994), Histoire universelle des chiffres, l’intelligence des hommes racontée par les nombres et le calcul, Paris, édition Robert Laffont, 1994, collection Bouquins, 2 tomes. IMBERT et col. Entre travail et famille la construction sociale des trajectoires sociales. Centre de Sociologie Urbaine I.R.E.S.C.O. 176 pages plus annexes. KLATZMANN Joseph, (1985), Attention statistiques ! Comment en déjouer les pièges, Paris, édition La Découverte, 1985, cahiers libres 405, 126 p. LATOUR Bruno, WOOLGAR Steve, (1979), La vie des laboratoires. La production des faits scientifiques, traduction BIEZUNSKI Michel, Paris, édition La Découverte, 1988. 300 p. LECUYER Bernard, (1968), "Histoire et sociologie", in Les faits et les principes, Cahiers semestriels d’Epistémologie sociologique Paris, édition Anthropos,1968, n° 6, pp. 119-131. MARKOVICH Tihomir, (1987), "Statistiques industrielles et systèmes politiques", in Pour une histoire de la statistique, tome 1 Contributions, Paris, édition Insee, Economica, 1987, pp. 317-326. MAUSS Marcel, (1927), "Divisions et proportions des divisions de la sociologie", in l’Année Sociologique, nouvelle série, 2, (1924-1925), pp. 3-21, Melin. MERLLlÉ Dominique, (1982), "Une nomenclature et sa mise en oeuvre. Les statistiques sur l’origine sociale des étudiants", in Actes de la recherche en sciences sociales, édition MSH et Ehess, 1982 n° 50 pp. 3-47. MERTON Robert, (1949), Eléments de théorie et de méthode sociologique, 1957,Paris édition Plon, 384 p. MOREAU Christine, PESKINE Brigitte, (1987) "Les statistiques de 1946 à 1985 : principaux faits", in Pour une histoire de la statistique, tome 2 matériaux, Paris, édition Insee, Economica, 1987, p 915-934. MOREAU DE BELLAING Louis, (1986), "L’éthique de la connaissance sociologique", in Sociologues en quête de sociologie, Cahiers du Laboratoire de Sociologie Anthropologique (LASA) de l’université de Caen n° 5 1986 141 9.2. Logiciel – PASSERON Jean-Claude, (1991), Le raisonnement sociologique. L’espace nonpoppérien du raisonnement naturel, collection Essais et Recherches, édition Nathan, Paris 1991, 408 p. – PENEFF Jean, (1984), "La fabrication statistique ou le métier du père", in Sociologie du travail, édition Dunod, Paris 1984, n° 2, pp. 195-211. – PERROT Jean-Claude, (1987), "La statistique régionale à l’époque de Napoléon", in Pour une histoire de la statistique, tome 1 Contributions, Paris, édition Insee, Economica, 1987, pp. 233-253. – SAUSSURE Ferdinand (de), Cours de linguistique générale, (1857-1913), (publié par Charles BALLY, Albert SECHEHAYE Albert, RIEDUNGER Albert) 5ème , édition Payot, Paris 1960, 337 p. – SCHUTZ Alfred, (1987), Le chercheur et le quotidien. Phénoménologie des sciences sociales, traduction THÉVENOT Laurent, (1987), "Les enquêtes formation qualification professionnelle et leurs ancêtres français", in Pour une histoire de la statistique, tome 2 Matériaux, Paris, édition Insee, Economica, 1987, pp. 117-166. – THOM René, (1987), "Interview de René Thom", in Mathématiques et Sciences humaines, 15ème année, 1987, n° 59, pp. 27-38. – THOM René, Prédire n’est pas expliquer, entretiens réalisés par Emile Noël et rédigé par Yves Bonin, col La Question édition ESHEL, Paris 1991, 175 p. – VERDÈS-LEROUX Jeannine, Le travail social, édition de Minuit, Paris 1978, 273 p. – VIRÉ Liliane La statistique dans les neuf département belges. Eléments pour une critique in La statistique en France à l’époque napoléonienne. Journée d’étude, Paris 14 février 1980, E.H.E.S.S., Centre Guillaume Jacquemyns Bruxelles pp. 13-43. – WITTGENSTEIN Ludwig, (1921), Tractatus logico-philosophicus, suivi de Investigations philosophiques, (traduction de KLOSSOWSKI Pierre) introduction de Bertrand RUSSELL, édition Tel Gallimard, Paris 1993, 364p. – WOOLF Stuart, (1980), "Contribution à l’histoire des origines de la statistique : France, 1789- 1815", in La statistique en France à l’époque napoléonienne. Journée d’étude, Paris 14 février 1980, Ehess., Centre Guillaume Jacquemyns Bruxelles, pp. 45-126. 142 Chapitre 10 Table des matières 143 144 Table des matières 1 Préambule épistémologique 1.1 Les formes de collaboration à l’aube du XIXème siècle . . . 1.2 Politique et statistiques publiques . . . . . . . . . . . . . . . 1.3 Quelques développements récents . . . . . . . . . . . . . . . 1.4 Commande sociale et scientificité . . . . . . . . . . . . . . . 1.5 Quantification et mathématisation de la réalité sociale . . . 1.5.1 Un modèle : le suicide . . . . . . . . . . . . . . . . . 1.5.2 Lecture de l’objet ou effet de lecture . . . . . . . . . 1.5.3 De quelques truismes . . . . . . . . . . . . . . . . . . 1.5.4 Une opération intellectuelle : les distributions . . . . 1.5.5 Statistique ou sociologie . . . . . . . . . . . . . . . . 1.5.6 De l’usage de quelques méthodes . . . . . . . . . . . Les dénombrements . . . . . . . . . . . . . . . . . . L’usage des nomenclatures . . . . . . . . . . . . . . . Les taxinomies sensibles et taxinomies savantes . . . La lecture et l’interprétation des tableaux de chiffres 1.5.7 Essai de conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 5 6 8 9 14 14 16 18 22 22 24 24 26 30 36 41 2 Rappels de statistiques élémentaires 2.1 Deux types de variables . . . . . . . . . . . . . . . . 2.1.1 Les variables quantitatives . . . . . . . . . . . 2.1.2 Les variables qualitatives . . . . . . . . . . . 2.2 Dénombrement, classification, statistique . . . . . . . 2.3 Quelques principes de notation . . . . . . . . . . . . 2.4 Quelques rappels sur les opérations . . . . . . . . . . 2.5 Diverses représentations d’une distribution . . . . . . 2.5.1 Le Diagramme en bâtons . . . . . . . . . . . 2.6 Les fréquences : . . . . . . . . . . . . . . . . . . . . . 2.6.1 L’histogramme et sa construction : . . . . . . 2.7 Les fréquences cumulées croissantes et décroissantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 43 43 44 44 48 48 49 49 50 51 53 . . . . 55 55 56 57 57 3 Les valeurs centrales des distributions 3.1 La médiane . . . . . . . . . . . . . . . . . 3.1.1 D’autres valeurs centrales de même 3.2 Le mode . . . . . . . . . . . . . . . . . . . 3.3 Les moyennes . . . . . . . . . . . . . . . . 145 . . . . nature . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . que la médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Table des matières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 59 60 60 61 61 4 Les indices de dispersion 4.1 Les fréquences cumulées et les indices de dispersion. . . . . . . . 4.1.1 L’intervalle inter-quartile . . . . . . . . . . . . . . . . . . 4.1.2 La variance . . . . . . . . . . . . . . . . . . . . . . . . . . Quelques éléments sur l’utilité et la nature de la variance Approche graphique de la variance . . . . . . . . . . . . . Première méthode de calcul . . . . . . . . . . . . . Seconde méthode de calcul . . . . . . . . . . . . . . 4.1.3 L’écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 63 63 63 65 67 67 68 68 statistiques bivariées Les distributions bivariées . . . . . . . . . . . . . . . . . . . . . . . . La corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . La covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tableau permettant de calculer r pour l’exemple taille poids . . . . . 5.4.1 Calcul développé sur l’exemple taille poids . . . . . . . . . . . 5.4.2 Droites de régression . . . . . . . . . . . . . . . . . . . . . . . Aspect des droites de corrélation en fonction de la valeur de r Différentes formes de nuages en fonction des valeurs de r, σ(x), σ(y) Test du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Calcul d’un premier χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . Définition et utilisation du ϕ . . . . . . . . . . . . . . . . . . . . . . Probabilités exactes sur un tableau 2 × 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 71 72 74 76 78 79 81 83 84 86 90 94 . . . . . . . . . . . . . 97 97 98 98 98 99 99 100 101 104 104 106 107 108 3.4 5 Les 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 3.3.1 Les moyennes arithmétiques et algébriques . . . 3.3.2 Moyenne harmonique . . . . . . . . . . . . . . . 3.3.3 Moyenne géométrique . . . . . . . . . . . . . . 3.3.4 Moyenne quadratique . . . . . . . . . . . . . . 3.3.5 Exercice sur les moyennes . . . . . . . . . . . . Comparaison des caractéristiques des valeurs centrales . . . . . . . . . . . . 6 Introduction à l’analyse des données 6.1 Les types de tableaux de données en analyse des données. 6.1.1 Les tableaux de contingence . . . . . . . . . . . . . 6.1.2 Les tableaux de Burt . . . . . . . . . . . . . . . . . 6.1.3 Les tableaux disjonctifs complets . . . . . . . . . . 6.1.4 Diverses formes d’analyse des données . . . . . . . 6.1.5 Les tapes d’une AFC . . . . . . . . . . . . . . . . . Un détour par le χ2 . . . . . . . . . . . . . . . . . Première analyse factorielle . . . . . . . . . . . . . Premières interprétations des axes factoriels . . . . Premier plan factoriel et premières interprétations Méthode numérique d’extraction des facteurs . . . 6.1.6 Quelques rappels sur les matrices . . . . . . . . . . Vérification du plan factoriel par le calcul vectoriel 146 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Table des matières 7 Analyse des données 111 7.1 Exemple d’AFC et interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Commentaire du tableau 2 . . . . . . . . . . . . . . . . . . . . . . 116 Commentaire du tableau 6 . . . . . . . . . . . . . . . . . . . . . . 116 8 Exercices de révision 8.1 Statistiques monovariés et bivariées . . . . . . . . . . . . . . . . . . . . . . . . 8.1.1 Exercice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1.2 Exercice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 . 123 . 123 . 126 9 Annexe 9.1 Table χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2 Logiciel . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.1 Petite notice additionnelle version 4.2 . . . . . Détails d’une partie de la notice additionnelle à Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . 10 Table des matières . . . . . . . . . . . . . . . . . . . . . Tri2 version . . . . . . . . . . . . . 4.2 . . . . . . . . . . . . . . . . . . . . . . 129 130 132 132 133 139 143 147 Index Affichard J., 23, 139 Amiot M., 9, 11, 12, 14, 139 Bachelard G., 10, 11, 139 Bally C., 12, 142 Baudelot C., 15, 16, 22, 139 Biezunski M., 41, 141 Boudon R., 15, 139 Bourdieu P., 35, 37–39, 139 Moreau de Bellaing L., 13, 141 Neker J., 4 Passeron J-C., 23, 40, 139, 142 Peneff J., 30, 142 Perrot J-C., 5, 8, 142 Peskine B., 8, 141 Riedunger A., 12, 142 Canguilhem G., 10, 11, 15, 140 Colbert J-B., 4 Saussure F., 12, 142 Schütz A., 41, 142 Sechehaye A., 12, 142 Degenne A., 17, 21, 23, 35, 140 Durkheim E., 4, 6, 14–16, 24–27, 30, 139, 140 Sully M., 4 Thévenot L., 29, 31, 38, 142 Thom R., 17, 18, 142 Foucault M., 4, 11, 12, 26, 27, 30–32, 41, 140, Tugot J., 4 141 Verdès-Leroux J., 34, 142 Viré L., 4–7, 142 Girard A., 26, 99, 141 Granger G-G., 20, 21, 141 Wittgenstein L., 17, 19, 35, 142 Grossetti M., 23, 141 Woolf S., 5, 142 Woolgar S., 41, 141 Hetch J., 3, 141 Hirischi T., 141 Establet R., 15, 16, 139 Ifrah G., 141 Imbert XX., 141 Klatzmann J., 36, 40, 141 Latour B., 41, 141 Lecuyer B., 13, 141 Linné C., 15, 26, 30–32, 34 Markovich T., 8, 141 Mauss M., 4, 16, 25, 26, 141 Merllié D., 29, 30, 141 Merton R., 13, 141 Moreau C., 8, 141 148