Cours Complet avec exercices corrigé.

Transcription

Cours d’introduction à l’analyse des données en sociologie
Dominique BEYNIER
Janvier 2013
2
Chapitre 1
Préambule épistémologique
La volonté du Politique, tant de mesurer l’étendue du territoire sur lequel s’exerce son pouvoir que de dénombrer la population qui l’habite, n’est pas une préoccupation récente ; on
peut même la considérer comme concomitante de des débuts de notre civilisation. 1 Comme
les textes bibliques l’attestent 2 le dénombrement et la comptabilité des richesses font que
les liens qu’entretiennent le Politique et le Savant ne sont pas nouveaux. Les liens étranges
qu’entretiennent hommes politiques et sondeurs en sont une nouvelle forme. Leurs formes et
leurs finalités ont évolué, mais la punition de David a marqué la civilisation occidentale qui en
a gardé le souvenir longtemps : " Au Moyen Age chrétien, Saint Ambroise et Saint Augustin
condamneront le péché d’orgueil commis par David " 3 . En France il faut attendre la fin du
XVIIIème siècle et la loi du 22 juillet 1781 pour que soit admise l’idée d’un recensement général
de la population qui substitue aux techniques arithmétiques celle du dénombrement par tête 4 .
L’ancienneté et la permanence de liens 5 entre le Savant et le Politique d’une part, le dénombrement ou la description des populations et le Politique d’autre part, ne sont sans doute ni la
marque qu’ils sont inévitables, ni la preuve de leur innocuité sur le statut de toute démarche
scientifique visant à mieux connaître la société. Nombre de découvertes scientifiques ont vu
leur diffusion interdite ou contrariée par le Politique. Par exemple au Moyen Age la diffusion
des connaissances sur le fonctionnement du système solaire a été l’objet de nombreux interdits
voire d’exécutions comme celle de Giordano Bruno le 6 Février de l’an de grâce 1600, torturé
et brûlé vif, par l’inquisition catholique, à Rome, sur le Campo dei Fiori, pour avoir refusé
d’abjurer ses idées. Le politique qui tenait sa légitimité de Dieu et de son représentant sur
terre le Pape n’avait que faire que la terre tourne autour du soleil ou l’inverse, si ce n’est
que l’ordre social, dont un des piliers était l’ordre naturel des choses établies dans la Genèse
se trouvait remis en cause par l’héliotropisme. Si l’ordre divin qui garantissait le vrai était
remis en cause, l’ordre social qu’il garantissait pouvait être remis en cause, ses fondements
1. Dans la Bible, deuxième livre de Samuel on peut lire : "... Ira de Yatir. Garev le Ytrite. Uri le Yttite.
Au total trente-sept. La colère du Seigneur s’enflamma encore contre les Israélites et il excita David contre eux
" Va dénombre Israël et Juda. " Le roi dit à Joab chef de l’armée qui était avec lui : " Parcourez donc toutes
les tribus d’Israël, de Dan à Béer-Shéva, et recensez le peuple, que j’en sache le nombre."..."
2. Les textes principaux sont Nombres (26,1 et 26,51) pour le recensement ordonné à Moïse dans le Sinaï,
Samuel 2 (24,1-3 ; 24,9 ; 24,15) pour le recensement effectué par David qui entraîna la colère de Dieu et enfin
pour le même recensement Chroniques (21-1,17).
3. HETCH (J.), 1987, L’idée de dénombrement jusqu’à la révolution, in Pour une histoire de la statistique,
Insee, édition Economica, Paris, tome 1, p. 24.
4. HETCH (J.) op. cit. p. 70
5. HETCH (J.) op. cit. p. 21-81
3
n’étant plus assurés. Même si, à l’époque actuelle, le Politique se mêle rarement de limiter la
diffusion des connaissances il lui arrive encore, au nom de la raison d’Etat, d’en retarder la
publicité. Les ruptures et évolutions successives dans la constitution des sciences se marquent
d’une autonomisation du discours scientifique au regard de ceux de la religion, de la morale
et du pouvoir.
Une des constantes du savoir scientifique est à lire dans l’apparition d’un sujet des sciences
qui s’autonomise pour devenir le sujet même du discours scientifique. Le discours scientifique
s’autorise de lui-même, de la mise en œuvre de méthodes et d’un ensemble de références paradigmatiques. En revanche, il ne s’autorise ni du Politique ni de la religion ni des modalités
financières de sa production, ni même du savant qui le porte. A l’inverse, l’inutilité du discours
scientifique ne fonde en rien sa scientificité, et a contrario, l’utilité apparente de ce dernier
n’est en rien rédhibitoire quant à la scientificité d’une pratique. Pourtant certaines "bellesâmes" universitaires sont péremptoires sur cette question : "Dès lors qu’elles se sont laissées
coloniser par l’État administratif, qu’elles ont cessé de croire au bien fondé de leurs propres
questions, qu’elles se sont mises à répondre à la ’demande sociale’ d’être utiles, elles n’ont plus
répondu à rien du tout et sont devenues inutiles." 6 .
La quantification a partie liée avec le Politique ou à défaut les politiques publiques du fait
de leur utilité, cela n’invalide pas le statut scientifique de la pratique des sociologues qui y
participent, même si cette dernière répond ce faisant à la demande sociale.
"Mais si la sociologie doit rester pure, elle doit se préoccuper de son application. Durkheim
disait qu’elle ne vaudrait "pas une heure de peine" si elle n’avait pas d’utilité pratique..." 7 Le
sociologue peut encore être utile à la politique d’une autre façon. Sans se mêler d’elle, ni aux
politiciens, ni aux bureaux, il peut aider ceux-ci, par des enquêtes impartiales, par le simple enregistrement scientifique des faits, [...]" 8 . Rechercher l’origine de ce rapport ancien qui existe
entre le Politique et le Savant, entre le politique et les statistiques est sans doute une démarche
vaine qui n’a d’autre signification que de donner du sens et permettre de penser que cette collaboration a commencé à un moment de l’histoire sociale ou de l’histoire des idées. L’existence
mythique de ce temps du début, permet de continuer cette activité statistique comme si elle
perpétuait une pratique établie. 9 Pour autant les modalités de collaboration, trouvent difficilement dans l’histoire des formes analogues d’une époque à l’autre, de coopération entre la
statistique et le Politique. L’Ined, l’Insee, même s’ils s’inscrivent dans le prolongement de ce qui
se passait au XVIIème siècle ne recouvrent pas la même réalité du travail statistique que celle
décrite par Liliane Viré : "D’autres encore ont tenté de donner à la statistique une origine tout
à fait précise : l’enquête prescrite aux commissaires royaux de 1630 ou les premières enquêtes
industrielles organisées en 1692, ou encore les initiatives officielles d’un Necker, d’un Turgot,
voire d’un Colbert, et pourquoi pas d’un Sully faisant de la statistique sans le savoir." 10 Fixer
6. CAILLÉ (A.), (1993), La démission des clercs. La crise des sciences sociales et l’oubli du politique, édition
de la Découverte, collection Armillaire, Paris, 1993, p. 21
7. MAUSS (M.), (1927), "Divisions et proportions des divisions de la sociologie", in l’Année Sociologique,
nouvelle série, 2, (1924-1925), pp. 3-21, Melin
8. MAUSS (M.), (1927), op. cit., p. 77
9. "De commencement ; il n’y en aurait sans doute pas ; et au lieu d’être celui dont vient le discours, je
serai plutôt au hasard de son déroulement, une mince lacune, le point de sa disparition possible", FOUCAULT
(M.), 1970, L’ordre du discours. Leçon inaugurale prononcée au Collège de France le 2 novembre 1970, édition
NRF Gallimard, Paris, 1971, pp. 7-8
10. VIRÉ (L.), (1980), "La statistique dans les départements belges. Eléments pour in critique ;" in La
statistique en France à l’époque napoléonienne, journée d’étude, Paris 14 février 1980, Ehess, Centre Guillaume
Jacquemyns Bruxelles.
4
1.1. Les formes de collaboration à l’aube du XIXème siècle
l’origine au XVIIème siècle ou montrer l’existence de l’activité de dénombrement depuis la plus
haute antiquité ne résout pas la question des liens entretenus entre le Politique et la statistique. Afin d’essayer de comprendre ces liens la mise en perspective se bornera à retracer ce
qui s’est passé pendant la montée en puissance de la République et la mise en place progressive
des structures administratives de l’éducation et de la recherche qui existent encore aujourd’hui
même si elles sont très menacées par le libéralisme ambiant. Parmi toutes les collaborations
entre le politique et les clercs certaines ont pris la forme de productions quantitatives voire
plus récemment de statistiques.
1.1
Les formes de collaboration à l’aube du XIXème siècle
En s’appuyant tant sur ses propres travaux de recherche qu’en s’appuyant sur ceux de JeanClaude Perrot, Stuart Woolf insiste sur l’intense activité statistique qui se développe en Europe
entre 1770 et 1840 et dont il pense qu’elle jette les bases des recherches quantitatives ’modernes’ " 11 Il décrit la centralisation à l’œuvre à l’époque et l’organisation d’un bureau des
statistiques dépendant directement du Ministère de l’intérieur dont les effectifs passent de 145
en 1792 à 235 en 1818. 12 .
Hors de ce cadre strictement étatique, les débuts institutionnels de cette activité statistique
peuvent être datés de 1803 avec la création à Paris de la Société de Statistique qui se propose
six missions :
– "topographie physique et médicale ;
– métrologie statistique et histoire naturelle ;
– population et services publics ;
– agriculture et économie rurale ;
– industrie, commerce et travaux publics ;
– construction publique et beaux-arts." 13
Les statistiques élaborées par cette Société sont essentiellement descriptives : il s’agit de décrire
comme le font les sciences de la nature de l’époque. Elles ne recourent pas aux probabilités
et ne proposent aucune théorie. Comme le montre l’énumération des six missions, les statistiques se présentent comme universalistes et se différencient des démarches évaluatives qui
ne portent que sur des recensements ponctuels de populations. Cette manière de faire des
statistiques a très vite évolué et la description généraliste disparait au profit de la mesure.
C’est pendant l’Empire que s’est transformée la conception des statistiques et que se sont mis
en place les outils et les techniques de recollement des données. Stuart Woolf 14 et Liliane
Viré 15 permettent de dégager pour le début du XIXème siècle les formes particulières de cette
activité. La classification proposée par Liliane Viré ordonne le champ en trois catégories : les
statistiques descriptives, les statistiques régulières, et les statistiques bilans. Cette classification que l’on retrouve dans la littérature produite par les historiens des statistiques tient au
11. WOOLF (S.), (1980), "Contribution à l’histoire des origines de la statistique : 1785-1815." in La statistique en France à l’époque napoléonienne, journée d’étude, Paris 14 février 1980, Ehess, Centre Guillaume
Jacquemyns Bruxelles p. 46.
12. CHASSAGNE (S.), (1980), "Les bureaux centraux : Le personnel et les mécanismes administratifs."
in La statistique en France à l’époque napoléonienne, journée d’étude, Paris 14 février 1980, Ehess, Centre
Guillaume Jacquemyns Bruxelles p. 46.
13. VIRÉ (L.), (1980), op. cit. p. 18
14. WOOLF (S.), (1980), op. cit. pp. 50-58
15. VIRÉ (L.), op. cit. pp. 21-25
5
1.2. Politique et statistiques publiques
mélange des critères de classification. Ils se réfèrent soit à des méthodes, soit à des périodicités,
soit à un champ d’investigation ce qui rend les critères non exclusifs. En conséquence il est
difficile, avec cette typologie, de produire un ordonnancement indiscutable de l’ensemble des
productions statistiques de l’époque. Malgré tout cela donne un peu de lisibilité à la diversité
des travaux produits.
– Les statistiques descriptives sont en grande partie constituées par les mémoires des Préfets
qui, dans leur forme, sont des textes décrivant la situation des départements ; sur des points
particuliers elles font usage de tableaux ou d’états élaborés au niveau central qu’il s’agit de
compléter dans les départements. Ces rapports préfectoraux reprennent dans l’ensemble les
grandes catégories du travail statistique telles que les a définies la Société Statistique créée
à Paris en 1803. Deux remarques, d’une part le terme de statistique tel qu’il est employé
ici ne renvoie pas directement à la quantification et, d’autre part, l’uniformité des tableaux
préparés au niveau central prépare la voie comparative de la sociologie dont Emile Durkheim a écrit à la fin du XIXème siècle : "On n’explique qu’en comparant. Une investigation
scientifique ne peut donc arriver à sa fin que si elle porte sur des faits comparables et elle
a d’autant plus de chances de réussir qu’elle est plus assurée d’avoir réuni tous ceux qui
peuvent être utilement comparés." 16
– Les statistiques régulières se présentent sous la forme de tableaux statistiques ; elles sont les
ancêtres des enquêtes effectuées à l’heure actuelle par les différentes administrations. Ces
collectes sont diffusées de manière analogue dans tous les départements.
– Les statistiques bilans apparaissent comme la catégorie la plus hétérogène quand à la forme
des travaux réalisés et à leur manque d’uniformité d’un lieu à l’autre. Il s’agit d’études
ponctuelles sur des faits sociaux symbolisés comme des problèmes.
1.2
Politique et statistiques publiques
La grande majorité des textes produits à cette époque sont accompagnés [...] de mémoires ou
de rapports qui situent les données les plus représentatives, la tendance globale et les conditions
qui ont entouré l’enquête." 17
Les précautions prises dans ces travaux servent d’une part à préciser les traits saillants qui
doivent être retenus dans la multiplicité des informations qu’ils colligent, et d’autre part, les
contraintes de regard qui ont pesé sur le recueil des données. La motivation de ces mémoires
annexées aux statistiques du XIXème siècle, si elle peut faire penser aux précautions méthodologiques dont au XXème et au début du XXIème siècle, les chercheurs en sciences sociales
entourent leur démarche, est simplement de permettre aux politiques de comparer des choses
qui soient comparables indépendamment des contextes différents de recueil des données ayant
pu influer sur le résultat de la collecte. Les caractéristiques de ces collectes d’informations
permettent de donner quitus à Stuart Woolf, qui voit dans ces travaux l’origine de la préoccupation quantitative actuelle. En revanche il est difficile, compte tenu de l’internalité étatique
du mode de production des connaissances ainsi rassemblées, d’y voir les prémisses des recherches actuelles qu’elles soient l’œuvre de grands organismes de recherche ou de pratiques
contractuelles.
Pourtant, déjà à cette époque, ce travail de données à des fins de gouvernement pose assez
16. DURKHEIM (E.), (1894), Le suicide. Étude de sociologie., 6ème édition, édition Quadrige PUF, Paris,
1991, pp. 1-2
17. VIRÉ (L.), (1980), op. cit. p. 23
6
1.2. Politique et statistiques publiques
clairement la difficulté à mesurer à travers des réponses l’ampleur des phénomènes sociaux
ou plus simplement des niveaux de production. Denis Woronoff 18 , dans son travail réalisé
sur les usines sidérurgiques du XIXème siècle montre les difficultés rencontrées pour élaborer
ces recueils de données et les interpréter par la suite. Ce que décrit Denis Woronoff pourrait servir d’illustration à ce cours consacré à l’analyse des données pour attirer l’attention
sur la complexité et les risques inhérents à toute construction d’un questionnaire. 19 A ses
yeux d’historien, et compte tenu de ce que l’on sait aujourd’hui sur les techniques de recueil
de données quant aux difficultés méthodologiques inhérentes à ces méthodes, il voit comme
difficultés : l’intention qui a suscité l’élaboration du questionnaire, le destinataire, et la technique des questions qui comporte tout à la fois les libellés, l’ordre et le nombre de questions
ainsi que les consignes permettant de donner les réponses sous des formes exploitables. Il est
évident que ces questions de méthode sont celles de notre époque, donc d’un certain état de
développement des sciences sociales et qu’elles n’étaient pas forcément celles du XIXème siècle.
Liliane Viré montre que les questions que se posaient les politiques de cette époque n’étaient
pas élaborées dans le paradigme méthodologique et scientifique dominant de notre siècle, mais
dans un paradigme visant à l’efficacité et l’exploitabilité des enquêtes : "De toute façon, les
critères imposés sont plus proches d’une exigence de conformité administrative que de rigueur
scientifique." 20
Les critères de cette exigence administrative se traduisent par trois types d’incitation : l’uniformisation des documents, la rapidité dans le recueil des réponses, la vraisemblance des
réponses. C’est essentiellement cette dernière incitation qui rend les recueils de données réalisés au XIXème siècle difficilement compatibles avec l’appréciation que nous portons, de nos
jours, sur la scientificité. Comme le rapporte Liliane Viré le temps nécessaire pour répondre
aux questionnaires étaient souvent trop long, et les informations données par les personnes
interrogées peu sincères. En conséquence de cet état de chose, pour répondre à l’exigence de
vraisemblance les clercs ont souvent été amenés à déduire. La déduction ou plutôt l’induction
comme on la nommait à l’époque se substituait ainsi à l’observation des faits. On extrapolait
ainsi les quantités d’un produit à partir de la fabrication d’autres objets. Par exemple la production de laine dans un département à partir du nombre de moutons dans le département, la
production industrielle à partir du nombre d’ouvriers, la production annuelle à partir de productions mensuelles ou trimestrielles. En fait d’induction il s’agissait, la plus part du temps,
d’appliquer des coefficients de passage, soit entre deux activités soit entre deux périodes sans
que personne ne s’intéresse vraiment aux règles qui présidaient à leur élaboration. Cette manière de fonctionner même si elle évoque nos façons de faire apparaît très différente de celles
que nous utilisons pour fabriquer ce type d’estimateur dans nos démarches de recherche. Les
recherches des historiens qui travaillent sur ces données du XIXème siècle montrent que l’utilité de ces données recueillies de manière quantitative se limitait, d’une part à satisfaire les
exigences de retour d’information au niveau central de l’administration de l’Etat, et d’autre
part à les transmettre sous une forme numérique à des fins de comparaisons tant tempo18. WORONOFF (D.), 1980, "Les grilles d’enquêtes", in La statistique en France à l’époque napoléonienne.
Journées d’études, Paris 14 février 1980, Ehess, Paris, Centre Guillaume Jacquemyns, Bruxelles, pp. 163-169
19. Bien qu’il semble anachronique d’utiliser le terme de questionnaire pour parler des recueils de données au
début du XIXème siècle, comme D. Woronoff, nous le retenons pour qualifier, de façon générique, les documents
de l’époque destinés au recollement des informations. A défaut d’être référés à une discipline scientifique, d’une
part ils comportent une intention qui sous-tend et organise l’ensemble des questions, et d’autre part, la forme
matérielle de celles-ci lues au travers de leur ordonnancement et de leur type de formulations employés évoque
de manière assez précise ce qu’est à l’heure actuelle la forme du questionnaire.
20. VIRÉ (L.), op. cit. p. 34
7
1.3. Quelques développements récents
relles qu’administrativo-géographiques. Il s’agit de recueillir de l’information et non pas de
produire de la connaissance. Ainsi lorsqu’il s’agit de résoudre l’opposition entre les méthodes
des topographistes et des algébristes à la tête de l’organisme chargé de collecter les mémoires
des préfets on voit que le remplacement de A. de Ferrière (un topologiste) par E. Duvillard
(un algébriste) puis ensuite l’éviction de ce dernier par Ch. Et. de Coquebert de Monbret
(un administrateur) ne sont pas guidés par des considérations scientifiques. "Le gouvernement
impérial se soucie peu des méthodes statistiques, il ne propose pas de construire une science
mais de réunir quelques instruments pour l’action et croit y parvenir aux moindres frais [...]
Coquebert de Monbret, esprit positif, ancien membre du conseil des poids et mesures et plus
récemment directeur des douanes et péages sur le Rhin, vit hors des querelles épistémologiques
tout en gérant de son mieux l’héritage de Chaptal." 21 . Cette absence de préoccupation scientifique est aussi décrite par Thimonir Markovich 22 qui explique la différence de qualité entre
les statistiques françaises et anglaises au XVIIIème siècle par la différence d’autoritarisme des
deux régimes : Une telle situation s’explique bien par les différences des régimes politiques
entre les deux pays [...] Le cas des statistiques françaises et anglaises au XVIIIème siècle nous
permet simplement de constater une liaison entre régime politique et organisation statistique 23
Les liens qui existent entre l’Etat et les organismes chargés d’élaborer les données statistiques
permettant de décrire la France se sont affirmés et complexifiés tout au long du XIXème siècle
et au début du XXème 24 . L’apparition de divers organismes ayant cette tâche pour mission
peut laisser penser que l’élaboration des statistiques sur la Nation n’a pu se libérer du joug
étatique mais, ce serait compter sans la montée en puissance d’une part de nouvelles formes de
la scientificité et, d’autre part, du consensus social sur le fait que l’activité humaine se mesure
à l’aune de la science.
1.3
Quelques développements récents
A coté du développement de l’Insee 25 apparaissent pendant cette période, dans le paysage
français de nombreux autres organismes de recherche dont la dotation tant en personnels
qu’en moyens revient à l’Etat. 26 Pour autant ces organismes de recherche n’entretiennent pas
avec l’Etat le même type de relations ; pour la plupart, dans le cadre des missions qui leur
sont confiées, ils définissent par eux-mêmes leurs programmes de recherche et ils procèdent
de manière interne, en fonction de ceux-ci et de leurs propres critères de scientificité, à l’évaluation des résultats obtenus. Personne ne doute de l’indépendance du CNRS par rapport à
l’Etat, en revanche de temps à autre, en fonction des problèmes sociaux traités les résultats ou
21. PERROT (J.-C.), (1987), "La statistique régionale à l’époque de Napoléon. in Pour une histoire de la
statistique, Insee, édition Economica, Paris, tome 1 p. 240
22. MARKOVICH (T.), (1987), "Statistiques industrielles et système politique. in Pour une histoire de la
statistique, Insee, édition Economica, Paris, tome 1 pp. 317-326
23. MARKOVICH (T.), op. cit. p. 319, (souligné par l’auteur)
24. Indépendamment des textes que nous avons utilisés de manière plus précise de nombreuses communications à dimension historique sont présentées dans les 2 tomes de l’ouvrage Pour une histoire de la statistique
Insee, édition Economica, Paris, (tome 1 : 593 p., tome 2 : 969 p.) ; ils permettent de mesurer comment s’est
peu à peu structuré le champ des données utiles à la conduite de l’Etat.
25. Pour plus d’information sur l’évolution de l’Insee qui est une des formes institutionnelles prises par
l’évolution des instances chargées de la mise en œuvre de l’élaboration des statistiques nationales on consultera :
MOREAU (C.), PESKINE (B.), (1987), " Les statistiques de 1946 à 1985 : principaux faits", in Pour une
histoire de la statistique Insee, édition Economica, Paris, tome 2, pp. 915-934
26. A l’Insee, se sont ajoutés : l’Ined, l’Inserm, le commissariat au plan, le Credoc, la sixième section de
l’Ehess, le Cereq, plus récemment la Mire.
8
1.4. Commande sociale et scientificité
indicateurs fournis par l’Insee sont contestés et leur objectivité mise en doute par telle ou telle
partie de la classe politique ou des médias. L’Ined dont la création et le statut le rattache à un
ministère a vu régulièrement au cours du temps son indice de fécondité contesté. En 1990 par
exemple une polémique a débuté à la suite d’un article de presse paru dans le Nouvel Observateur sous le titre "Les mensonges du natalisme" et dans lequel Hervé Le Bras écrivait : "Dans
aucun de ces rapports on ne trouve l’explication entre les deux indices par la hausse de l’âge
à la maternité. Pis, comme la citation initiale le montre, la confusion est entretenue entre
indice conjoncturel et renouvellement des générations. Incompétence ? On n’ose pas le penser.
Manipulation ? " 27 . On le voit la polémique au-delà de la critique sur la pertinence d’utiliser
un indice conjoncturel plutôt qu’un indice structurel 28 se double au mieux de soupçons sur
l’existence de raisons extra-scientifiques et donc politiques quant au choix de privilégier un
mode de calcul plutôt que l’autre, au pire d’une mise en cause de l’honnêteté scientifique de
l’Ined.
Ce raccourci historique nous a conduit des statistiques balbutiantes du début du XIXème siècle
visant à décrire l’état de la société jusqu’à la mise en place des organismes d’Etat actuels qui
procèdent au recollement et à la fabrication des données permettant de lire la réalité sociale,
et s’accompagnent sur les dernières années de l’instauration de politiques contractuelles de
recherche.
Dans le même temps où se structurent les organismes de recherche dans les universités, sur
le modèle de la VIème section de l’Ehess apparaissent dans le champ des sciences sociales,
un certain nombre d’équipes, de laboratoires, de départements ou d’instituts qui s’inscrivent
dans ce type de démarche. Ces diverses structures mettent en œuvre soit avec l’Etat ou ses
services extérieurs et décentralisés, soit avec des collectivités territoriales, soit même avec des
organismes associatifs ou privés des contrats de recherche destinés à produire pour ces organismes un ensemble de connaissances leur permettant de mettre en œuvre, d’infléchir, de
modifier leur action. Cette mise en place de la recherche contractuelle s’est effectuée depuis
les années 1950, elle s’est développée inégalement dans les universités. Au début elles étaient
le résultat d’individualités et de jeunes équipes ; maintenant pour des raisons de rationalisation l’ensemble de la recherche s’inscrit dans des programmes ou des appels d’offre entourés
d’une bureaucratie scientifique qui classe, contrôle légitime les objets de recherche puis évalue
la production. La question de la liberté du chercheur dans la détermination des objets est
beaucoup moins prégnante depuis la généralisation des procédures contractuelles.
1.4
Commande sociale et scientificité
Pourtant la prégnance de la commande sociale est suffisamment importante aux yeux de Michel
Amiot 29 pour qu’il propose une classification de la recherche en sociologie en deux catégories
clivées sur le fait qu’elles sont ou non dépendantes d’un commanditaire. Dans le premier groupe
les recherches sont dites "libres", dans le second elles sont dites "déterminées". "Dans le premier le chercheur définit, seul, les problèmes qu’il se pose, il prend en charge l’investigation de
problèmes qui sont également définis par son commanditaire, à partir de considérations extra
scientifiques" 30 . Plus que la hiérarchisation entre les deux types de recherche qu’il constitue
27. LE BRAS (H.), (1990), "Les mensonges du natalisme, in Le Nouvel Observateur, 18 mai 1990
28. Somme des naissances réduite versus descendance finale
29. AMIOT (M.), (1986), Contre l’Etat les sociologues : Eléments pour une histoire de la sociologie urbaine
en France (1900-1980), édition de l’Ehess, Paris
30. AMIOT (M.), (1986), op. cit. p. 48
9
c’est la question du libre arbitre absolu du chercheur dans la détermination des problèmes qu’il
pose qu’il faut interroger car il s’agit là d’un coup de force épistémologique d’une rare audace.
L’activité de recherche serait-elle la seule activité humaine autonome de toute contingence qui
influerait sur la distribution des modalités de sa réalisation.
Que l’on se place d’un point de vue cumulatif dans l’appréciation que l’on porte sur l’histoire des sciences, que l’on pense que les progrès se font par ruptures, par recompositions
paradigmatiques, aucune de ces explications épistémologiques ne prétend que les chercheurs
définissent seuls les problèmes qu’ils se posent.
Nous nous contenterons de trois réfutations à cette assertion d’une possible liberté absolue
du chercheur dans le choix de ses objets. La première trouve sa légitimité dans le point de
vue développé par Gaston Bachelard avec le concept "d’obstacle épistémologique". 31 , une notion centrale dans l’analyse qu’il fait du progrès de la science dans La formation de l’esprit
scientifique. La genèse des obstacles s’explique par les rapports imaginaires que le chercheur
entretient avec sa pratique scientifique et sa propre histoire. L’épistémologie de Gaston Bachelard n’est pas sans connotation psychologique. Pour pouvoir tenir cette position d’un rapport
imaginaire entre la pratique scientifique et la propre histoire du scientifique, il recourt à la
libido du savant comme instance explicative ultime. Même si le recours à la libido du chercheur est une explication dont les fondements en sociologie paraissent mal assurés il n’en est
pas moins vrai qu’une pratique scientifique où le chercheur définit seul ses questions, se trouve
mise en question par l’hypothèse bachelardienne. Le recours à la libido du chercheur renouvelle
dans le champ de l’activité scientifique de l’homme la blessure narcissique faite auparavant
par Freud au sujet cartésien en le décentrant vers une zone qui échappe à sa conscience.
La seconde réfutation possible d’un libre choix du chercheur peut s’étayer par les travaux de
Georges Canguilhem. L’émergence du traitement des pathologies de la thyroïde, explique Canguilhem 32 semble s’inscrire dans une suite de hasards et de l’existence d’un génie découvreur :
J.-F. Cointet, médecin genevois. Mais telle n’est point la réalité fait-il remarquer : la découverte de l’iode comme traitement est le résultat d’une rencontre entre deux préoccupations
inscrites dans les différents processus sociaux et scientifiques du XIXème siècle.
La première est la recherche d’une augmentation de la production de salpêtre par B. Courtois,
salpêtrier de son état, qui souhaite obtenir cette substance en grande quantité à partir du
varech comme matière première ; cette production s’accompagne d’une substance supplémentaire qui endommage les machines en les faisant rouiller. Devant cette situation il se renseigne
auprès ce deux chimistes de l’époque (Clément et Desorme) pour obtenir une explication et
le cas échéant une solution à ce problème. Devant ce qui pourrait apparaître comme une
trouvaille placée sous le signe d’une coïncidence. Canguilhem s’empresse de préciser qu’il n’en
n’est rien. L’industrie de l’époque est tout orientée vers la recherche de nouveaux processus de
production. L’apparition de nouveaux produits ne peut pas être considérée comme fortuite,
mais comme le résultat d’actions volontaires des hommes sur leur environnement. De plus
l’intervention des deux chimistes et l’identification d’un nouveau produit n’est que la conséquence de l’orientation de la chimie de l’époque toute occupée à l’identification de nouveaux
produits : "[...] en un certain sens la découverte de l’iode survient dans un contexte théorique
et technique qui de toute façon l’eût appelée par d’autres voies." 33 A cette même époque nous
dit G. Canguilhem, sur une trentaine d’années, dans ce qui peut être appelé le même contexte
31. BACHELARD (G.), (1934), La formation de l’esprit scientifique édition Vrin, Paris, 1965
32. CANGUILHEM (G.), (1958), "Pathologie et physiologie de la glande thyroïde au XIXème siècle", in
Etudes d’histoire et de philosophie des sciences, édition Vrin, deuxième édition, Paris, 1970, pp. 274-294
33. CANGUILHEM (G.), op. cit. p. 283
10
industriel et scientifique de nombreuses autres substances sont découvertes : la morphine, la
strychnine, la quinine, l’alizarine, la codéine... De plus l’utilisation de l’iode à des fins thérapeutiques s’inscrit dans un développement de la médecine qui, à cette époque, devient ce
que Claude Bernard appelle la médecine empirique. Cette médecine qui n’est pas encore la
médecine expérimentale, ne conçoit pas encore les maladies comme un ensemble à décrire, à
organiser et à hiérarchiser ; elle les appréhende par des actions contrôlées qui sont autant de
tentatives pour influer sur le cours des maladies en vue de rétablir la santé. Cette conception
pré-expérimentale du traitement des maladies se traduit dans les faits par la recherche de
réactions du corps humain rationnellement contrôlables, suite à l’absorption de produits chimiques nouvellement identifiés :"[...] je l’essayais, (l’iode) avec infiniment de précautions, et je
réussis. L’iode mêlé avec du sucre, offrit de grands inconvénients ; je la prescrivis en friction.
Je crus m’apercevoir que c’était une préparation qui agissait sur certains estomac et alors le
traitement devenait difficile. J’essayais l’hydriodate de soude et aussi celui de potasse iodurée ;
j’eu plein succès. Une grande pratique m’avait fourni, pendant une année entière, un grand
nombre et une variété infinie de cas..." 34 Au travers de cette exemple analysant la posture
du chercheur face au développement de sa discipline la position de Georges Canghuilhem est
on ne peut plus tranchée : l’apparition de connaissances scientifiques nouvelles ne s’explique
ici que par rapport, d’une part, des pratiques mercantiles, celle de chimistes et de médecins
par exemple, d’autre part, par l’état de développement tout à la fois d’une discipline (la médecine pré-expérimentale) et de la recherche scientifique dans un autre domaine (la chimie
découvreuse et classificatrice) dans une forme de société donnée (Paris et la Suisse du milieu
du XIXème siècle).
La critique de la liberté du chercheur non contraint par des financements contractuels, qui
pour Michel Amiot et l’alpha et l’oméga de la scientificité, peut être menée depuis d’autres
lieux de l’épistémologie. Sans vouloir réfuter l’hypothèse d’une science qui se développerait
de sa propre logique et de la liberté du chercheur il est possible modestement de faire bouger
les lignes. Michel Foucault dans des écrits qui ont près de 40 ans et qui datent de quelques
années avant qu’il ne soit nommé Professeur au Collège de France à la chaire d’épistémologie
occupée avant lui par Gaston Bachelard et Georges Canguilhem prenait une position qui, en
minorant la place des individus au profit de celle des structures, par anticipation s’opposait
radicalement à la thèse de Michel Amiot 35 : "Les conditions pour qu’apparaissent un objet de
discours, les conditions historiques pour qu’on puisse en dire ’quelque chose’ [...] sont nombreuses et lourdes. Ce qui veut dire qu’on ne peut pas parler à n’importe quelle époque de
n’importe quoi ; il ne suffit pas d’ouvrir les yeux, de faire attention, ou de prendre conscience,
pour que de nouveaux objets aussitôt s’illuminent [...] ". 36 Pour Michel Foulcault, l’objet d’investigation scientifique n’existe que par un substrat de relations, une structure ou encore un
réseau qui se compose non seulement d’instances qui pour certaines sont sociales, d’autres
économiques, certaines normatives mais aussi classificatoires. Ce réseau n’est pas pour autant
l’objet, il ne participe pas de sa forme particulière, mais il est nécessaire pour que l’objet
puisse apparaître. Ces substrats dont la liste n’est pas limitative ne sont donc pas l’objet mais
ce qui lui permet d’exister. Il n’y a pas dans cette perspective de lien entre la constitution des
objets et la structure qui les sous-tend. Si cette perspective supprime le lien consubstantiel qui
existe entre l’objet et la structure qui le permet, elle n’évacue pas pour autant l’historicité de
34. COINDET (J.-F.) cité par CANGUILHEM (G.) in op cit. p. 284
35. AMIOT (M.), (1986),op. cit. passim
36. FOULCAULT (M.), (1969), L’archéologie du savoir, édition NRF Gallimard, Paris ; p. 61
11
celui-ci. Toutes proportions gardées ce que nous invite à penser Michel Foucault en affirmant
qu’il n’y a rien de la structure dans les objets est un coup de force théorique qui ressemble
à celui proposé par Ferdinand de Saussure dans son cours de linguistique générale par lequel
s’inaugure le champ de l’analyse de la langue quand il énonce que le lien qui unit les mots et
les choses n’est pas une piste de recherche pour la linguistique : Pour certaines personnes la
langue, ramenée à son principe essentiel, est une nomenclature [...] Cette conception est critiquable à bien des égards. Elle suppose des idées toutes faites préexistant aux mots [...], enfin
elle laisse supposer que le lien qui unit un nom et une chose est une opération toute simple,
ce qui est bien loin d’être vrai. 37 Ferdinand de Saussure insiste sur l’arbitraire du signe qu’il
ne faut pas confondre avec le libre choix du sujet et réfute l’onomatopée comme preuve qu’il
existe quelque chose de la chose dans le mot. Le rapport qu’établit Michel Foucault entre
l’objet et la structure est du même ordre que celui qui unit chez Ferdinand de Saussure le
mot et la chose. La position du chercheur dans le fantasme de décider seul de son objet fait
dans l’Archéologie du savoir l’objet d’une double critique : l’une sur la validité de chercheur
capable d’appréhender en toute conscience ses choix, l’autre possibilité, compte tenu de l’état
de développement d’une société, de choisir n’importe quel objet.
La liberté du chercheur qui choisit en toute conscience et en toute liberté tout comme l’opposition entre recherche ’libre’ et recherche ’déterminée’ devient nettement moins opérante. Il
est possible d’avancer que pour partie, toute recherche est traversée par ’l’extra-scientifique’.
Reste la question du commanditaire. La présence de ce tiers dans la recherche contractuelle
pose la question de ses conditions de production. Celles-ci seraient-elles rédhibitoires de toute
production scientifique ? A cette question, bien qu’il escamote la question de la recherche ’pure’, Michel Amiot dans son analyse du développement de la sociologie urbaine nous donne
de bonnes pistes de réflexion : les recherches urbaines ont été menées sur commande même
quand elles ont été conduites par des sociologies se référant à un appareil conceptuel fortement
structuré et d’autre part se réclamant d’une idéologie dont tout laisse penser qu’elle ne les
prédisposait pas à quelque concession que ce soit avec ’l’État bourgeois’. Cette pratique de
la recherche contractuelle les aurait poussées hors du terrain de leur discipline et conduites
sur celui de la planification. Au détour d’une longue analyse sur les rapports qu’entretiennent
les chercheurs marxistes sur la ville avec les technocrates planificateurs des années 70, Michel Amiot 38 conclut d’une part, sur l’hypothèse d’un aveuglement des chercheurs quant aux
buts poursuivis par les commanditaires des recherches, et d’autre part, sur l’immixtion de
considérations issues de l’idéologie planificatrice dans les conclusions de ces sociologues sur la
crise urbaine :"Pour les marxistes, une problématique qui prend au sérieux la croyance qu’entretiennent les techniciens au service de l’État dans leur propre capacité à mette de l’ordre
dans le désordre de la crise urbaine et à réaliser autour des solutions qu’ils préconisent est une
problématique idéologique, ignorante des véritables intérêts que servent sciemment ou à leur
insu, les hauts responsables de l’État." 39
En résumé, les marxistes brocardés par Michel Amiot, s’aveuglent en intégrant comme acquis
dans leurs analyses que les décideurs ne peuvent pas imposer, dans la construction de l’objet,
les solutions qu’ils proposent. Michel Amiot récuse qu’il puisse exister, même si cela implique
une appréhension spécifique des problèmes sociaux à étudier, qu’il soit possible pour un chercheur, compte tenu de la prégnance des solutions préconisées par les décideurs, de garder le
37. SAUSSURE (F.), (1906) "Cours de linguistique générale", publié par BALLY (C.), SECHEHAYE (A.),
RIEDUNGER (A.), édition, 5ème édition, Payot, Paris 1960, p. 97
38. AMIOT (M.), (1986), op. cit. pp. 143-316
39. AMIOT (M.), (1986), op. cit. p. 188
12
monopole de la formulation de la problématique et des moyens à mettre en œuvre. Pourtant
ce sont ces prérogatives qui font de la recherche contractuelle autre chose qu’un simple recueil
de données ou encore une simple recherche empirique. Des auteurs très différents insistent sur
le fait que la recherche empirique n’est pas une recherche sans théorisation, Bernard Lecuyer
insiste sur "le souci d’analyse et de généralisation" 40 dans la recherche "sociale empirique".
Dans le même article il précise que cette recherche se caractérise primo par l’exploitation de
données existantes, secundo par le recueil de matériaux qualitatifs et quantitatifs originaux,
tertio par la mise en œuvre d’une méthodologie de recherche structurée qui s’appuie sur un
exposé systématique des théories sous-jacentes, des méthodes de traitement puis des résultats,
et quarto par un souci d’interprétation des matériaux recueillis et une volonté de généralisation
du propos. Ces quatre règles devant tout à la fois permettre de mesurer les options prises tant
sur le plan méthodologique que sur la conduite de la démarche et de favoriser tant l’évaluation
de l’objectivité des généralisations formulées que la validité des solutions entrevues. Ces quatre
règles se calquent sur celles habituellement préconisées pour mener une recherche en sociologie même si elles ne représentent que l’une des voies possibles qu’emprunte cette discipline.
En revanche, elles ne rendent compte ni de l’attente de l’institution, ni du regard que cette
dernière porte sur le chercheur mais qui pourtant participe de celui qu’il porte sur l’objet qu’il
étudie, ni a fortiori des conditions financières objectives de réalisation de la recherche.
Avec une toute autre approche Louis Moreau de Bellaing, qui a enseigné longtemps l’anthropologie au département de sociologie de l’université de Caen Basse-Normandie écrivait : On
pourrait penser à moins de ramener la sociologie empirique à l’empirisme généralisé, c’est à
dire à la quantification et à la qualification par l’enquête [que] la spécificité de ses terrains et
de ses méthodes n’apparaît guère. La ramener en effet à la qualification et la quantification
du terrain, c’est oublier que, même lorsqu’elle est empirique elle requiert de la théorie. 41 Il
s’agit là d’un débat sur la recherche empirique et non sur la recherche contractuelle qui elle
se caractérise par la commande et dont on ne voit pas trop pourquoi elle ne pourrait a priori
développer son propre appareil conceptuel et ses propres méthodes d’investigation en pensant
que, in fine, les rapports qu’elle entretient avec les décideurs peuvent se résumer par une
formule lapidaire qu’il est coutume d’attribuer à Robert Merton : "L’homme d’action utilise
les sciences sociales comme un poivrot un réverbère : non pour s’éclairer mais pour s’appuyer
dessus". Cette représentation particulière de la recherche sociale introduit une dose certaine
d’inutilité dans la finalité utilitaire de la recherche sur commande. Pour autant il ne s’agit
peut-être que d’une illusion qui permet au chercheur embarqué dans ce type de recherche de
se penser comme un chercheur "libre" et par là même de préserver son identité. Dans ce type
de recherche les chercheurs d’une part, les commanditaires de l’autre, sont les acteurs d’un
jeu d’illusions qui constitue l’espace dans lequel se tissent les rapports sociaux qui régissent
les règles de fonctionnement qui sous-tendent et permettent la recherche contractuelle.
Ce champ de la recherche contractuelle peut ainsi être d’autant plus piégé qu’il se double de
temps à autre d’une tentative de subversion d’un champ par l’autre. Le politique peut chercher
pour sa part à imposer au chercheur ses vues, à l’empêcher de se réapproprier la question qu’il
pose par crainte de la voir se diluer dans une reformulation scientifique. A l’inverse, le sociologue peut essayer, par un effet d’imposition théorique, de convaincre le commanditaire du
40. LECUYER (B.), (1968), "Histoire et sociologie", in Les faits et les principes. Cahiers semestriels d’Épistémologie sociologique, édition Athropos, Paris, n° 6, p. 124
41. MOREAU de BELLAING (L.), "L’éthique de la connaissance sociologique in Sociologues en quête de
sociologie, Cahiers du Laboratoire de Sociologie Antropologique de l’université de Caen, édition LASA, Caen, p.
82. (c’est nous qui insérons [que] faute de quoi la citation, bien que fidèlement reproduite, semble incomplète.
13
1.5. Quantification et mathématisation de la réalité sociale
bien-fondé de ses vues alors que celles-ci ne sont que connexes à la question posée et ne sont en
rien la seule façon de la poser mais une parmi d’autres. La difficulté est à son comble, lorsque
le sociologue pour ’reformuler’ la question savante du planificateur-économiste, se tourne vers
une problématique scientifique déjà incorporée dans un appareil de pouvoir. [...] L’arène a-telle encore un contour lorsque chacun des protagonistes est pour l’autre un cheval de Troie. 42 .
Ces débats sur recherche ’pure’ ou contractuelle ou sur appel d’offre paraissent éloignés de la
question de la quantification, pourtant ils participent des doutes qui pèsent sur la capacité des
chiffres à rendre compte de la réalité sociale ou des opinions qui y circulent. Les sondages du
mois d’août 2010 sur l’opinion des Français quand à l’approbation des mesures sécuritaires annoncées lors d’un discours présidentiel ont montré les limites de ce que peuvent dire les chiffres
en fonction entre d’une part l’idéologie qui pèse sur la formulation des questions posées, et
d’autre part, l’ingérence du politique dans leur formulation puis leur interprétation.
1.5
Quantification et mathématisation de la réalité sociale
La profusion de discours sur la nature des liens qu’entretiennent quantification, mathématisation et réalité sociale fait que cette présentation ne sera pas une énième histoire des essais
entrepris soit pour décrire et analyser le social d’un point de vue quantitatif, soit pour dégager sa structure en s’appuyant sur des outils mathématiques. Elle cherche à montrer ce que la
quantification et les traitements s’appuyant sur la quantification permettent d’entrevoir des
phénomènes sociaux qui nous échapperaient autrement, à analyser la manière dont quantification et mathématisation du social orientent notre regard dans l’approche des phénomènes
sociaux.
Dès le début de ce texte, l’ancienneté d’un mode de lecture quantifié du réel a été soulignée
dans le souci de mettre en évidence les liens anciens qu’entretiennent les politiques et la recherche. Spécifier la portée d’une lecture quantifiée de la réalité, en montrant qu’il s’agit d’un
regard permettant d’entrevoir des aspects de celle-ci que d’autres modes de lecture ne permettent pas de distinguer, est gravide de questions épistémologiques complexes tout à la fois
sur : le statut de l’objet, du chercheur et de l’objectivité dans les sciences sociales. Pour une
part ces questions ont reçu des réponses partielles dans le début de ce document consacré
plus particulièrement à la question de la recherche contractuelle. En revanche, toute ou partie
des réponses avancées dans cette partie l’ont été avec le tropisme d’un engagement dans la
recherche contractuelle ce qui a limité l’ampleur du champ examiné.
1.5.1
Un modèle : le suicide
Tout le monde connaît l’injonction durkheimienne faite à tout sociologue qui se frotte à l’analyse des faits sociaux : "La première règle et la plus fondamentale est de considérer les faits
sociaux comme des choses" 43 Cette exhortation du chapitre II des Règles de la méthode sociologique, doit être rapportée à l’époque à laquelle elle a été formulée. D’une pat, elle conserve
la marque d’une époque où les paradigmes dominants sont ceux de la physique newtonienne,
de la thermodynamique ou encore de la chimie, et d’autre part, elle participe à fonder, par la
mise en place de ce rapport à l’objet, l’observation des faits sociaux comme une science : "A
42. AMIOT (M.), (1986), op. cit. p. 188
43. DURKHEIM (E.), (19XX), Les règles de la méthode sociologique, édition PUF, collection Quadrige,
Paris, 1991, 6ème édition, p. 15. Souligné par l’auteur
14
un moment où un ordre nouveau de phénomènes devient l’objet de science, il se trouve déjà
représenté dans l’esprit [...]. Avant les premiers rudiments de la physique et de la chimie, les
hommes avaient déjà..." 44
Le travail scientifique consiste dans cette perspective hypothético-déductive à se détacher des
explications intuitives qui sont le résultat des idées véhiculées par l’observation, la description
et la comparaison. On retrouve chez Émile Durkheim la démarche utilisée dans tous les paradigmes scientifiques antérieurs et contemporains à son œuvre : les classifications de Linné,
l’analyse de l’évolution des espèces de Darwin, la médecine de Cabanis ou de Broussais. Pour
reprendre un exemple déjà utilisé, Georges Canguilhem caractérise la médecine du début du
XIXème siècle par un mode opératoire pré-expérimental qui privilégie comme moyen de recherche la répétition des prescriptions, sans certitude sur leur validité. Par la suite seulement,
les médecins de l’époque élaborent des solutions en s’appuyant sur le plus grand nombre de
cas traités ayant eu une issue favorable. Il ne s’agit pas encore, comme dans la médecine expérimentale telle que l’initia Claude Bernard, d’avoir une théorie que l’on confirme à travers, ce
que de nos jours on appelle un plan d’expérience 45 . Ce mode de confirmation s’est développé
de manière contemporaine à la jeunesse d’Émile Durkheim 46 C’est dans le cadre de cette
montée en puissance de paradigmes nouveaux qu’un détour par Émile Durkheim est utile car
il a lui même initié l’utilisation des données quantitatives. 47
Comme Christian Baudelot et Roger Establet 48 le font remarquer, il est d’usage de négliger
les tableaux de données abondamment fournis par Emile Durkheim. La lecture du Suicide
s’abstrait d’un passage par les chiffres. Cette approche génère une explication dans laquelle
involue l’explication du suicide comme objet d’étude sociologique. Sont ainsi disséquée avec
force commentaires la typologie des 4 types de suicides proposés par Émile Durkheim et la
portée de l’explication sociale de son origine sans que soit mis en évidence le travail sur les
données qui permet à Émile Durkheim de réfuter diverses autres explications du suicide (climatique, chronologique, géographique, psychologique, ...). Ainsi, par exemple, sans que soient
examinés les mécanismes d’inférence utilisés 49 pour élaborer une nouvelle approche du suicide,
se développe une incantation sociologique qui débouche sur un discours spéculatif prenant appui sur les quelques lignes que constitue la note de bas de page dans laquelle est formulée la
possibilité de l’existence d’une quatrième forme suicide : "le suicide fataliste" 50 .
Quelles motivations méthodologiques ou scientifiques ont pu pousser Émile Durkheim à faire
le choix d’une démarche quantitative pour analyser le suicide d’un point de vue sociologique
comme en témoigne le sous-titre de son ouvrage ? Elles semblent doubles : pour une part
44. DURKHEIM (E.), (19XX), op. cit. p ; 15
45. Les plans d’expérience sont conçus comme la mise en scène technique d’une théorie proposant une
explication causale des phénomènes. Ils racontent les théories à valider par des agencements d’appareils ou par
des successions de manipulations qui les mettent en scène
46. De nombreux passages de son œuvre font référence à la santé et à la médecine ; on notera par exemple :
DURKHEIM (E.), (19XX), Les règles de la méthode sociologique, édition PUF, collection Quadrige, Paris,
1991, 6ème édition, pp. 47-75.
DURKHEIM (E.), (19XX), La division du travail social, édition PUF, collection Quadrige, Paris, 1991, 2ème
édition, pp. 223-227.
47. DURKHEIM (E.), (19XX), Le suicide. Étude sociologique, édition PUF, collection Quadrige, Paris, 1991,
6ème édition, 463 p.
48. BAUDELOT (C.), ESTABLET (R.), (19XX), Durkheim et le suicide, édition PUF, Paris, 1993, 4ème
édition, p. 15.
49. Comme le fait BOUDON (R.), (1967), in L’analyse mathématique des faits sociaux, édition Plon, pp.
27-49
50. DURKHEIM (E.), (19XX), op. cit., note1, p. 311
15
la nature du problème étudié, pour une autre, la gageure qu’il s’impose à lui-même. Sauf à
vouloir faire un travail strictement spéculatif et sans confrontation aucune à des données de
quelque sorte qu’elles soient la compréhension de ce que recouvre le suicide impose de trouver
des sources d’information. Le témoignage direct des personnes qui se sont suicidé étant, c’est
une évidence, impossible à recueillir, il reste la possibilité d’utiliser, soit le témoignage de
rescapés, soit des données issues de rencontres immédiates ou médiatisées avec le suicide, soit
de données enregistrées à d’autres fins 51 que de réunir des matériaux en vue d’un travail de
sociologie.
Les données issues de notre perception plus ou moins directe du suicide sont, soit celles que
nous pouvons enregistrer dans notre environnement social, soit celles que nous percevons à
travers des témoignages de proches ou par la pratique quotidienne des médias. Les premières
comme les secondes sont sujettes à toutes sortes de cautions possibles compte tenu de l’enchevêtrement des affects dont elles sont inséparables. Pour les premières il n’est nul besoin
d’explications complémentaires pour comprendre en quoi leur validité est compromise. Pour
les secondes, comme le décrivent Christian Baudelot et Roger Establet, elles sont prises dans
la nécessité des médias de produire quotidiennement des évènements qui ne sont pas des évènements quotidiens 52 . Par le choix fait de parler des suicides exceptionnels, elles font l’impasse
sur les suicides ordinaires dont les modalités de réalisation ne sont pas une pour le journaliste
et le lecteur du journal. L’échantillon que représente ces formes de suicides spectaculaires ne
peut pas être considéré comme représentatif de l’ensemble des suicides, voire même, il n’est
qu’une des illustrations possibles de ceux qui se présentent sous des formes de mise en oeuvre
rares et propres à marquer l’imaginaire.
La seule méthode était, pour parvenir à une vision globale du suicide, le recours à des données quantifiées, recueillies avec le souci qu’elles soient systématiques et exhaustives. Qu’elles
l’aient été à des fins de contrôle social, de maintien de l’orde public, d’explication de l’état de
santé des populations voire à celles d’évaluation de l’ordre moral, n’en fait pas moins qu’elles
étaient en dehors des quelques milliers de fiches réalisées par Marcel Mauss les seules disponibles et les moins chargées d’affect. Pour autant ces données quantitatives posent la question
de leur adéquation avec les définitions successives du suicide données par Emile Durkheim au
début de son ouvrage et ceux enregistrés dans les données administratives qu’il a mobilisées.
On admire d’autant plus la typologie des suicides (anomiste, altruiste, égoïste, fataliste) car
pour le suicide altruiste par exemple, je doute qu’aucune statistique n’ai enregistré sous la
rubrique suicide les actes héroïques décrit par Emile Durkheim lorsqu’il constitue cette catégorie. A l’inverse des statistiques administratives la doxa est prompte à déclarer suicidaire tel
ou tel acte héroïque accompli et ayant entrainé la mort alors que l’acteur de cet acte paraissait
conscient de cette fin possible.
1.5.2
Lecture de l’objet ou effet de lecture
Si à partir du suicide un constat qui s’impose est qu’Émile Durkheim s’est contenté de données
quantitatives faute de mieux ou car elles étaient les seules disponibles, l’intérêt des démarches
quantitatives serait important mais apparaitrait comme un pis-aller incapable de procurer
quelque motivation à leur utilisation. De plus ce serait oublier que la grille de lecture adoptée
pour lire un objet quel qu’il soit influe sur la perception de cet objet comme le font la problématique et la posture institutionnelle occupée. L’exemple métaphorique du filet donné par
51. État civil, médecine, justice, police...
52. BAUDELOT (C.), ESTABLET (R.), (19XX), op. cit. p. 78 et sq.
16
Ludwig Wittgenstein est susceptible de clarifier notre propos : "Représentons nous une surface
blanche couverte de tâches noires irrégulières. Et nous dirions : quelque soit l’image qui en
résulte, je puis toujours en donner la description approximative qui me plaira, en recouvrant
la surface d’un fin filet adéquat à mailles carrées et de dire de chaque carré qu’il est blanc ou
noir. De cette manière j’aurais donné une forme unifiée à la description de la surface. Cette
forme est arbitraire, car j’aurais tout aussi bien pu me servir d’un filet à mailles triangulaires
ou hexagonales et obtenir un résultat non moins satisfaisant." 53
Suivent des considérations sur les avantages respectifs de la forme des mailles en fonction de
leur taille puis une référence à la mécanique comme mode de découpage du réel. Il serait sans
doute difficile de savoir ce que représente ce filet, outil de découpage du réel ou théorie permettant le découpage du réel, si à la fin de ce passage Ludwig Wittgenstein ne mettait sur le
même plan le système numéral et celui de la mécanique. Il ne cherche pas à nous dire que tous
les systèmes sont équivalents, le système numéral est plus apte à lire les nombres et le système
mécanique à lire les phénomènes physiques, en revanche chacun génère des effets de lecture
qui tiennent tant à son organisation interne qu’aux outils de lecture qui lui sont spécifiques.
La manière dont Ludwig Wittgenstein pose cette question indique que la forme de lecture,
qu’elle soit instrumentale ou référée à une théorie, détermine les modalités que prendra cette
description. "La mécanique détermine une forme de description de l’univers du fait qu’elle
dit : toutes les propositions de la description de l’univers doivent être obtenues d’une manière
donnée à partir d’un nombre de propositions données - les axiomes mécanistes." 54 A suivre
Ludwig Wittgenstein, n’y a-t-il pas un risque d’invalider l’idée même d’une connaissance du
réel si la lecture qu’on en fait nous apprend plus de choses sur la théorie elle-même que sur
le réel lui-même ? Cette dérive vers un relativisme généralisé, qui rendrait toute tentative de
connaissance vaine, n’est possible que si est faite l’impasse sur l’affirmation de l’existence d’un
lien entre la chose décrite et le fait que cette chose puisse être décrite par tel outil ou telle
théorie. "Qu’une image telle que celle mentionnée plus haut puisse être décrite au moyen d’un
filet d’une forme donnée n’énonce rien sur l’image elle-même. [...] Mais ce qui caractérise
l’image c’est qu’elle puisse être décrite intégralement au moyen d’un filet déterminé d’une finesse déterminée." 55
Peut-on aller jusqu’à dire que la description numérale du social nous renseigne plus sur l’ordre
numéral que sur le social, ou du moins, que c’est la possibilité que le social puisse être lu
selon un ordre numéral qui nous apprend quelque chose sur le social ? C’est une réponse qui se
pose inéluctablement en examinant ce que les chiffres disent du social :"Comme ces variables
reposent sur des catégorisations a priori, l’étude de leurs liaisons revient souvent à vérifier que
cette catégorisation a bien un sens." 56 . Formulé autrement cela permettrait d’écrire : l’impossibilité de lire le social par un recours au chiffre ne renseigne-t-elle pas plus sur l’opacité des
phénomènes sociaux que sur les limites des approches numérales ?
La position théorico-logique adoptée par Ludwig Wittgenstein semble devoir limiter toute
production de connaissance à celle de la logique du système d’investigation du réel puis, de
manière induite, à savoir sur le réel qui tient de ce que la logique à l’œuvre dans la procédure
discursive pour le décrire puisse en rendre compte. Les propositions de René Thom qui sont
53. WITTGENSTEIN (L.), (19XX) Tractacus logico-philosophicus, traduction KLOSSOWSKI (P.), introduction RUSSEL (B.), édition Gallimard, collection Tel, Paris, 1993, (6.341), p. 99.
54. WITTGENSTEIN (L.), (19XX) op. cit., p. 99.
55. WITTGENSTEIN (L.), (19XX) op. cit., p. 100.
56. DEGENNE (A.), FORSÉ (M.), (1994)Les réseaux sociaux. Une analyse structurale en sociologie. édition
Armand Colin, collection U, Paris, p. 6
17
très différentes induisent elles aussi la possibilité d’une connaissance seulement relative. Pour
ce mathématicien la science se développe par un processus d’objectivation dont la faible stabilité serait le meilleur garant de scientificité : "Faut-il croire alors que la réalité, telle que nous
la dépeint la science est plus fondamentale que celle que nous vivons au niveau usuel ? Et cette
dernière contient deux ingrédients : la solidité de la matière et, d’autre part, l’évidence immédiate du psychisme. C’est plutôt sur ce plan que je ressens les choses. Je suis tenté de dire pour
moi, que c’est que la réalité naïve qui est ontologiquement antérieure à la réalité scientifique.
Celle-ci est toujours construite et ne vaut que ce que valent les constructions scientifiques :
des choses éminemment temporaires." 57
La question posée par René Thom sur la perception sensible et la perception scientifique reprend une opposition ancienne dont on trouve des traces chez Platon dans la discussion sur le
continu et le discontinu. Seule l’opération intellectuelle de Zénon d’Élée qui, contrairement à
toutes les expériences sensibles que nous en avons, pense le temps comme discontinu, permet
que le lièvre ne rattrape jamais la tortue. L’activité scientifique telle que René Thom la conçoit
consiste à fabriquer du discontinu avec du continu" 58 et s’apparente à celle que produit une
caméra de cinéma qui discrétise le continue en un certain nombre d’images discontinues. Le
travail scientifique pour René Thom est la prise de vue et non la projection ; celle-ci comme
la perception sensible, grâce à une astuce et au phénomène de permanence rétinienne donne
l’illusion d’un continu.
1.5.3
De quelques truismes
Percevoir ce qui tient du filet et ce que raconte sur l’objet le fait qu’il puisse être lu avec ce
dernier n’a pas grand chose à voir avec le mode intuitif qui préside généralement à l’utilisation
des méthodes numérales pour lire le social. Le rapport entre les outils et ce qui est vu du
social est maîtrisé par les chercheurs, même si souvent ce n’est que sur un mode dégradé.
Cela peut être résumé en disant qu’ils ne sont pas dupes et qu’ils savent que ce qu’ils voient
du réel est pour partie lié tant aux théories sous-jacentes à leurs investigations, qu’aux outils
qu’ils utilisent. En revanche les quidams, non utilisateurs de statistiques, n’entent pas dans
ces subtilités et sont prompts à penser que si les chiffres donnent une bonne photographie de
la réalité, on peut cependant leur faire dire tout et le contraire. A travers cette opinion fort
répandue, dans laquelle s’exprime, pour le moins un certain scepticisme sur l’objectivité des
chiffres, est à lire en filigrane l’impossibilité, pour les non initiés, de percevoir la subjectivité
contrôlée des opérations de dénombrement.
Bien qu’il soit répandu de penser qu’on puisse leur faire dire n’importe quoi, les chiffres, les
valeurs numériques sont, dans la pratique quotidienne, pensés sur le mode de l’objectivité. 59
Cette croyance dans l’objectivité du chiffre a plusieurs origines. Tout d’abord la certitude,
basée sur l’expérience, qu’il existe un lien stable entre la forme scripturale ou phonétique d’un
chiffre et une quantité. Ensuite le sentiment que la numération échappe à la contingence par un
ordre interne qui n’existe que de lui-même. Pour autant, ces deux perceptions de l’objectivité
des chiffres reposent à la fois, sur une perception d’un ordre interne des systèmes de numération
57. THOM (R.), (1991), Prédire n’est pas expliquer. Entretien réalisé par Émile Noël et rédigé par Yves
Bonin, édition ESHEL, collection La Question, Paris, pp. 88-89
58. THOM (R.), (1991), op.cit., p. 82
59. On trouve la trace de cette forme de certitude de l’objectivité du nombre et de la vérité inhérente aux
chiffres dans de nombreux de proverbes au rang desquels on peut noter : "C’est sûr comme 2 et 2 font 4. ",
”jamais deux sans trois" ...
18
et, sur l’absence de la prise en compte qu’il s’agit, dans la pratique courante, de compter des
objets qui n’appartiennent pas à cet ordre.
Distribuer c’est en effet mettre en relation un ensemble d’éléments avec l’ensemble des réels.
En effet, si l’on s’en tient à la définition usuelle d’une distribution, il s’agit de l’application
des éléments de Q vers R 60 , ce qui nécessite que caractère des éléments de Q qui permet
d’effectuer l’application soit défini de manière précise, s’il ne s’agit pas d’un caractère qui luimême est un élément de R. Cette définition appartient en propre au chercheur ou à des codes
qui s’imposent à lui mais en rien à l’ordre numéral (l’ensemble sur lequel aboutit l’application
soit celui des réels, c’est à dire un ensemble infini ordonné continu qui présente la particularité
qu’entre deux de ces valeurs il existe un nombre infini de valeurs et, d’autre part, que le
caractère pris en compte pour les éléments de l’ensemble Q soit lui aussi exprimé par un réel.
Les données usuellement manipulées par les praticiens des sciences sociales ne répondent que
rarement à ces contraintes. Celles qui présentent la particularité de pouvoir être exprimées par
un réel sont : l’âge, le temps de trajet, la distance domicile lieu de travail et le montant des
revenus... Cela ne représente que quelques variables parmi toutes celles utilisées ou construites
par les chercheurs en sociologie. Si on considère le travail à l’oeuvre dans la fabrication d’une
distribution au regard du système logique que développe Wittgenstein, nous travaillons dans
le non-sens. Ce non-sens, d’une part entraine quelque méfiance du public quand aux chiffres,
d’autre part, nécessite que cette phase d’ordonnancement du réel donne à lire tout à la fois
ses présupposés et ses méthodes.
Si nous avons esquissé ce qu’est une distribution pour autant nous n’avons pas encore posé la
question du dénombrement. Essayer de répondre à cette dernière implique à la fois un retour
en arrière et un détour. Retour en arrière car le terme de quantitatif qui l’englobe mérite à lui
seul un effort de définition. Il recouvre deux opérations que nous avons évoquées sans prendre
le temps de les préciser : le dénombrement d’une part, la mesure d’autre part ce qui nécessite
de reposer la question trop vite évacuée de la distinction entre qualitatif et quantitatif.
Le résultat des opérations de dénombrement produit des nombres qui sont extérieurs aux
objets et appartiennent à N : il n’y a pas d’association entre ce nombre et chaque objet. Dans
le cas d’une mesure, la valeur est constitutive de chaque objet, modifier cette valeur modifie
les propriétés de l’objet. Une valeur peut être définie de manière discrète ou continue 61 mais
n’en appartient pas moins à R.
Cette opposition entre discret et continu, qui souvent se redouble de celle du qualitatif et
quantitatif, ne peut se résoudre qu’en essayant de montrer sur quelle base repose cette dernière
opposition et, comment si l’on pose d’autres postulats que ceux de la mesure pour définir les
caractères des éléments de Q, s’opère l’aporie de l’opposition du jeu d’équivalences : quantitatif
égale mathématique - sous entendu scientifique - qualitatif égale non mathématique - sous
60. Ludwig Wittgenstein considère ainsi que :"des expressions telles que «1 est un nombre», «il n’y a qu’un
zéro» et d’autres analogues sont dénuées de sens. (II n’y a pas plus de sens à dire ’il n’y a qu’un 1’ qu’à dire :
’2+2 à trois heures font 4’.)"(op. cit., p 56, 4.1272). Sans reprendre l’ensemble du raisonnement à l’oeuvre
dans le Tractatus, le raisonnement de Wittgenstein permet de saisir comment, dans les trois premières de ces
locutions, sont confondus deux niveaux de proposition, le premier faisant référence à l’élément d’une série, le
«un», le «zéro», le second à une forme logique générale. La quatrième expression indique une opération possible
suivant l’ordre général mais la relie à une temporalité qui est extérieure à cet ordre.
61. Il peut être utile de rappeler que cette difficulté est issue de la philosophie aristotélicienne qui distingue
le discret du continu. Cette distinction est effectuée au sein même de l’acte de mesurer et se construit sur
l’existence d’une unité de mesure. Quand on mesure quelque chose, si on utilise un nombre entier de fois l’unité
de mesure et que cela suffit, on l’exprime par un entier, sinon, on réduit l’unité de mesure, ou, ce qui revient
au même, on utilise des parties fractionnaires de l’unité.
19
entendu non scientifique -. Les bases sur lesquelles repose le détour que je vous propose sont
anciennes et l’itinéraire que nous allons suivre a déjà été balisé par d’autres, au rang desquels,
sur un mode épistémologique et philosophique, dans lequel Gilles-Gaston Granger 62 s’est
illustré.
Le point de départ de ce cheminement est le théorème dit de Descartes-Euler-Poincaré 63 qui
énonce que dans tout polyèdre convexe la somme du nombre de Sommets et du nombre de
Faces moins le nombre d’Arêtes est toujours égal à deux S +F −A = 2. Les nombres manipulés
dans cette assertion ne sont pas des mesures des polyèdres mais le dénombrement de certaines
de leurs caractéristiques. En fait, dans cette perspective, le polyèdre est un ensemble Q dans
lequel on dénombre successivement les éléments qui ont pour caractère d’être Sommet, Face
ou encore Arête. 64
La démonstration de l’existence de cette relation S + F − A = 2 peut, comme la plupart
de celles qui portent sur des questions de dénombrement, s’effectuer par récurrence 65 . On
suppose le plus petit polyèdre convexe possible 66 : un tétraèdre. On positionne à la verticale
et à l’extérieur d’une de ses faces un point que l’on joint à chacun des sommets de cette face.
On crée ainsi 3 nouvelles faces, 3 nouvelles arêtes et un nouveau sommet :
Tétraèdre
Création d’un point
Suppression de
Polyèdre à 6 faces
⇒
⇒
⇒
⇒
4F
3F
1F
6F
+
4S
1S
-
6A
3A
=
2
+
5S
-
9A
=
2
Dans cette opération qu’il est possible de répéter n fois on remarque que l’évolution du polyèdre
ne dépend que la forme de la face à l’extérieur de laquelle on élève le point : si celle-ci
a 3 côtés on crée 3 faces, 3 arêtes, et un sommet, on supprime une face ; si celle-ci a 4
côtés on crée 4 faces, 4 arêtes, et un sommet, on supprime une face. Appliquons la formule
F +S−A = x à cette extension 2F +1S−3A = 0, le bilan de cette extension est nul sur l’égalité
F +S −A = 2 qui caractérise le tétraèdre convexe dont on est parti. Il serait possible de répéter
la démonstration pour une face à n côtés et de montrer que cette démonstration est vraie pour
n + 1 faces. Le nombre de fois où l’on transforme le polyèdre par cette méthode ne change
rien à l’égalité S + F − A = 2. Le dénombrement des côtés n’est pas une mesure du polyèdre
au sens habituel où son résultat n’est pas susceptible de calcul, il permet de caractériser sa
forme. La complexification de la forme d’un polyèdre est un moyen d’approcher comment le
dénombrement permet de penser la forme. Comme l’écrit Gilles-Gaston Granger : "le nombre
62. GRANGER (G.-G.), (1988) Pour la connaissance philosophique, Paris 1988, édition Odile Jacob, chapitre
4, p.93-122.
63. Cette propriété est connue sous le nom de théorème de Descartes-EulerPoincaré. La démonstration de
cette propriété connue de Descartes sera faite par Euler. Poincaré la généralise aux espaces à n dimensions et
aux polyèdres non homéomorphes à la sphère.
64. La distinction n’est pas si simple que cela. C’est le statut d’objet que l’on donne au polyèdre et à ces
éléments constitutifs qui rendent cette distinction possible. Si le polyèdre considéré est un élément dans un
ensemble de polyèdres, son nombre de sommets, de faces et d’arêtes devient une mesure du polyèdre. Si c’est
le polyèdre qui est lui-même considéré comme un ensemble, le nombre de sommets, de faces et d’arêtes devient
le résultat du dénombrement d’un certain nombre d’éléments du polyèdre.
65. Le calcul par récurrence comporte généralement deux étapes : tout d’abord on démontre que la propriété
est vraie pour n = 1, puis on démontre que si elle vraie pour n, alors elle est vraie pour n = n + 1
66. Le polygone qui a le moins de côtés est le triangle ; pour construire un volume il faut au moins un point
extérieur à ce polygone. Le nombre de faces triangulaires que l’on peut fabriquer avec 4 points se détermine
Pr
n!
4!
par la formule Cnr = r!(n−r)!
= r!n = 3!(4−3)!
= 24
= 4 f aces, avec n=4 car quatre points ; r=3 car il faut trois
6
points pour déterminer un plan. Ce mode de calcul n’est pas généralisable.
20
de faces, sommets, et arêtes sont des propriétés qualitatives de la figure. " 67 Comment le
quantitatif parle-t-il du qualitatif ? Si l’exemple que nous avons utilisé permet de l’entrevoir,
il ne resterait qu’un exercice de style si l’utilisation des termes de graphe et de réseau utilisés
par des sociologues comme Alain Degenne 68 ou Michel Forsé 69 n’y faisaient écho. Il est en
effet possible partant de n’importe quel polyèdre convexe, après lui avoir enlevé une face, de
produire, sur un plan, par déformations successives un réseau plan qui comporte S sommets,
A arêtes et N − 1 faces. Le rapport entre le nombre de Faces, de Sommets et d’Arêtes peut
ainsi s’écrire : F + S − A = 1.
La simplification de ce réseau peut s’effectuer en joignant deux sommets séparés par un angle
dans les polygones autres que le triangle. Ainsi, à chaque opération on génère une face, une
arête et deux sommets supplémentaires 70 soit : 1F + 1A − 2S = 0. Chaque tracé d’une
arête supplémentaire ne modifie pas l’équilibre du réseau si on le considère du point de vue du
rapport constant entre son nombre de faces, d’arêtes et de sommets. L’augmentation récurrente
du nombre de ces objets constitutifs de la forme ne modifie pas la forme qui se traduit par
cette situation d’équilibre, mais leur nombre apparaît comme une propriété qualitative de ce
réseau. Cette figure obtenue par déformations successives d’un polyèdre, jusqu’à ce qu’il soit
plan, donne naissance à une figure géométrique dont le maillage rappelle étrangement celle
obtenue lors du tracé de simplexes 71 . La figure ainsi constituée de faces, sommets et arêtes
n’est pourtant pas un graphe 72 de simplexes, les briques ne se présentent ni sous la forme
d’objets qu’on peut combiner, ni d’objets qui sont orientés, c’est à dire permettant de décrire
des parcours.
Passer de ce réseau obtenu par déformation à un graphe de simplexes nécessite donc que soit
défini un certain nombre d’opérations possibles sur F , A, et S. Cela dépasse les limites fixées
à ce cours et mènerait à s’intéresser à la structure des groupes abéliens ; pour autant, les
quelques développements dans lesquels nous nous sommes commis permettent d’entrevoir en
quoi les limites usuelles qui opposent les sociologues sur l’approche quantitative et qualitative
des faits sociaux est plus idéologique que basée sur une opposition stricte entre ces deux modes
d’approche du social.
67. GRANGER (G.-G), (1988), op. cit. p.106.
68. DEGENNE (A), (1988), "Un domaine d’interaction entre les mathématiques et les sciences sociales : les
réseaux sociaux", in Mathématiques et Sciences humaines. 26ème année, n°104, pp. 5-18 ; ou encore DEGENNE
(A), (1972), Techniques ordinales en analyse de données statistiques. Ed. Hachette, Paris, collection Hachette
Université, 160 p.
69. DEGENNE (A.), FORSÉ (M.), 1994, op. cit. passim, 288 p.
70. On note quelques imprécisions dans la démonstration proposée par GillesGaston Granger dans son ouvrage Pour la connaissance philosophique, (op. cit. p. 106). D’une part, il n’envisage pas que le tracé de
diagonales dans des polyèdres de plus de quatre cotés ne génère pas obligatoirement des triangles et que, de
plus, l’ordre choisi pour commencer les tracés des diagonales influe sur le résultat ; il ne s’agit donc pas d’une
simple opération mécanique et itérative comme il le laisse entendre, mais de choix successifs effectués par un
opérateur. D’autre part, il n’intègre pas de manière explicite dans son exposé que la création de chaque nouvelle
arête génère deux nouveaux sommets pour que ce soit un jeu à somme nulle.
71. Pour plus de détails sur les simplexes voir par exemple DEGENNE (A.), (1972), op. cit. ou DIEUDONNÉ
(1976), "Que font les mathématiciens", in L’âge de la science., édition Dunod, Paris, n°2
72. De façon intuitive un graphe est un schéma constitué par un ensemble (supposé fini) de point
x1 , x2 , ..., xi , Xn , et par un ensemble de flèches reliant chacune deux points. Les points sont appelés sommets
et les flèches arcs du graphe. [...] DEGENNE (A.), FORSÉ (M.), 1994, op. cit., p. 77
21
1.5.4
Une opération intellectuelle : les distributions
Les modalités des variables qui caractérisent les individus dans une population 73 ne sont que
rarement des réels comme nous l’avons déjà esquissé. La quantification de quelques caractéristiques d’une population peut, une fois le travail de recueil de données et leur traitement
effectués, se donner à lire comme une mesure de cette population 74 . Pour autant les techniques utilisées auprès de chaque individu pour obtenir cette valeur ne sont pas de l’ordre de
la mesure mais du dénombrement. Ce dernier n’est pas une opération neutre ; le choix des
individus, celui des variables sont dictés par ce que l’on cherche et par les moyens dont on
dispose pour mener à bien le travail. La multiplicité des phases, voire des intervenants qui
participent au dénombrement mérite que l’on y passe quelque temps. La formalisation mathématique permet assez bien de s’y retrouver : si vous comptez 12 personnes dont les revenus
s’élèvent à 784,32 euros vous écrivez cela sous la forme ni xi dans cette expression, ni c’est
le dénombrement et xi c’est la mesure. L’importance de la littérature produite tant par les
statisticiens que par les sociologues sur les difficultés liées au dénombrement dénote l’ampleur
de la question. Cette dernière se redouble des relations qu’entretiennent ces deux figures de
la recherche dans le champ des sciences sociales. Il parait nécessaire d’en montrer pour partie
les tenants et aboutissants afin de préciser un peu mieux les enjeux que recouvre le recours à
des techniques quantitatives dans la lecture des faits sociaux.
1.5.5
Statistique ou sociologie
Les clivages entre statistique et sociologie ont plusieurs origines ; ils sont pour la plupart à
lire dans leur degré d’institutionnalisation respective. La statistique est plus anciennement
instituée tout à la fois par sa participation aux prises de décision des politiques et par l’ancienneté de l’enseignement universitaire dont elle fait l’objet. La sociologie quant à elle, après
une phase de début d’institutionnalisation universitaire avant la première guerre mondiale,
voit quasiment disparaître son audience entre les deux guerres pour, peu à peu, reprendre à
partir des années 1950 une place parmi les enseignements universitaires et, comme nous l’avons
déjà montré, une place dans la conduite de la Cité. Mais tout cela est sans doute insuffisant
pour expliquer les rapports compliqués qu’entretiennent ces deux activités. Dans le droit fil
de notre réflexion sur les rapports qu’entretiennent les théories, les outils et les objets, une
des différences les plus nettes entre ces deux modes d’appréhension du réel s’articule autour
de leur propre instrumentalisation. Reprenant une distinction proposée pour d’autres raisons
par Claude Lévi-Strauss, Christian Baudelot 75 apparente l’activité du statisticien à celle du
bricoleur et celle du sociologue à celle de l’ingénieur : "[...] à la différence de l’ingénieur, le
bricoleur ne subordonne pas l’exécution de ses tâches à l’obtention de matières premières et
d’outils conçus et procurés à la mesure de son projet : son univers instrumental est clos et
73. A la succession ensemble, élément, caractère, valeur du caractère correspondent dans notre pratique
et dans un vocabulaire qui nous est plus familier population, individu, variable, modalité. Compte tenu des
exemples que nous allons manipuler c’est cette dernière terminologie qui sera employée (sauf nécessité de
formalisation mathématique) dans la suite de ce polycopié.
74. Le passage du dénombrement à la mesure s’effectue sans que l’on y prenne garde. Quand l’élément pris
en compte dans Ω est l’individu, le nombre d’individus comptabilisés ni représente le résultat d’une opération
de dénombrement mais ce même ni devient la mesure de Ω si je m’intéresse à un ensemble dont Ω est un
élément.
75. BAUDELOT (C.), (1982), "La source et l’objet" in Actes de la journée d’étude ’Sociologie et statistique’
Paris, Document polycopié de l’Institut National de la Statistique et des Etudes Economiques et de la Société
Française de Sociologie, 1982, tome 1, p. 23.
22
la règle de son projet est toujours de s’arranger avec les "moyens du bord", c’est-à-dire un
ensemble d’outils et de matériaux hétéroclites au surplus, parce que la composition de l’ensemble n’est pas en rapport avec le projet du moment [...] L’ensemble des moyens du bricoleur
n’est donc pas définissable par un projet ; il se définit par son instrumentalité. " 76 L’utilisation
par des sociologues de cette citation de Claude Lévi-Straus laisse entendre que le sociologue,
plus que le statisticien, aurait comme l’ingénieur la faculté d’utiliser "des outils conçus et
procurés à la mesure de son projet", ce qui, compte tenu de la valorisation sociale respective
des professions, tend à établir une hiérarchisation du travail respectif des sociologues et des
statisticiens. En revanche, cette citation extraite de ’La pensée sauvage’ n’est pourtant pas
complètement appropriée pour comparer leurs rapports respectifs aux outils. Dans leurs activités de recherche, les sociologues font appel à des outils dont la diversité n’a souvent d’égale
que leur manipulation approximative. Ils se comportent, dans ce cas de figure, comme les
bricoleurs qui ont trouvé des outils dont la complexité et la finalité leur échappent parfois et
qu’ils utilisent alors à contre emploi. Cette critique sur la limite de l’utilisation des méthodes
statistiques par les sociologues, que nous avons souvent rencontrée dans nos lectures 77 , atténue la prétention de ces derniers à se penser du côté des ingénieurs. Une des caractéristiques
de ces derniers est que non seulement ils ont accès à des caisses contenant des outils complexes
mais, que de plus, ils savent à la fois les utiliser et en concevoir de nouveaux. Par ailleurs, les
travaux menés par les statisticiens les ont conduits, d’une part, à entamer une réflexion sur
leur propre discipline et sur son instrumentalisation et, d’autre part, en questionnant les effets
propres de leurs outils dans la saisie des fait sociaux, à se donner les moyens de construire
leurs objets à partir de leurs pratiques : "[...] les statisticiens on dû se poser eux-mêmes les
questions des rapports de leur activité à la théorie, et ils l’ont fait dans des termes originaux
qui résultent des positions respectives des statistiques et de la sociologie." 78
Dans l’ensemble des textes portant, d’une part sur la recherche d’identité, tant des statisticiens
que des sociologues, et d’autre part, sur la complexité des liens de dépendance, de pouvoir, de
prééminence, de reconnaissance mutuelle, de concurrence, fait penser à des rapports sociaux
complexes 79 . C’est sur cet enchevêtrement que s’articulent les liens que créent, d’une part,
l’usage commun, tant de méthodes cherchant à recueillir des informations en nombre, que des
76. LÉVI-STRAUSS (C.) (19XX), La pensée sauvage, Paris 1985
77. (104) i.e. : GROSSETTI (M.), (1987), "Le retour du test du Khi2. Un usage exploratoire d’un test
classique", in Parcours méthodologiques, Cahiers du centre de recherches sociologiques, n°5, février 1987, p.
133 : "Les principaux outils statistiques de la sociologie en France ont longtemps été des comptages simples,
les tables de contingence, quelques calculs de moyennes et, bien sûr, l’inévitable ennemi des étudiants de cycle
de sociologie : le test du Khi2. Même si ça et là des chercheurs poussaient plus loin le recours à la statistique
(Claude Thélot ou Alain Degenne par exemple), le lot de la plupart de ceux qui utilisaient les enquêtes par
questionnaires restant l’examen fastidieux de longues listes de tableaux avec le test de Khi2 et l’aspirine pour
seule aide."
78. AFFICHARD (J.), (1982), "Contribution de la statistique à la mise en forme de la demande sociale
d’information. Essai d’introduction à l’histoire des statistiques écrite par les statisticiens". in Actes de la
journée d’étude ’Sociologie et statistique’ Paris, Document polycopié de l’Institut National de la Statistique et
des Etudes Economiques et de la Société Française de Sociologie, 1982, tome 1, p. 11.
79. Cette intuition de rapports sociaux complexes est développée par JeanCaude Passeron : "La sociologie
n’aurait à rendre compte de ses concepts qu’au tribunal d’une théorie où le statisticien ne saurait être cité que
comme témoin subalterne. [...] À la limite, selon cette théorie impériale de la connaissance sociologique, la
signification du raisonnement statistique, sa mise en assertion signifiante, ne pourrait lui advenir que d’une
ontologie historique : ce serait toujours à lui de s’amender pour mériter de servir par ses ’constats iIIustratifs’
des énoncés sociologiques qui tirent d’ailleurs, c’est à dire d’une réalité supra-empirique, leur évidence théorique." PASSERON (J.-C.), (1991), Le raisonnement sociologique. L’espace non-poppérien du raisonnement
naturel. collection Essais et Recherches, édition Nathan, Paris, pp. 111-112.
23
outils permettant de présenter la somme des informations recueillies et, d’autre part, l’apparente similitude des objets de recherche.
L’inventaire de ces objets, pourrait s’apparenter à un inventaire dont l’exhaustivité ne pourrait même pas se clôturer sur l’existence d’un raton laveur 80 . Mais, là n’est pas notre propos ;
pour autant, au détour de notre analyse portant sur l’utilisation et l’intérêt de certaines méthodes puis, sur celle de quelques outils, nous retrouvons pour partie ces objets communs aux
statisticiens et aux sociologues. Ces objets sont à la fois lus et façonnés par les moyens qu’ils
mettent en oeuvre pour les analyser.
1.5.6
De l’usage de quelques méthodes
L’inventaire puis la classification des diverses méthodes communes à ces deux activités restent
une gageure que nous ne cherchons pas à relever. D’autres avant nous, dans le champ de
la sociologie, s’y sont aventurés avec quelque succès 81 . Nous nous proposons, modestement,
d’envisager seulement certaines des phases, qu’il est d’usage d’appeler quantitatives dans une
démarche de recherche et ce, non pas du strict point de vue de leur description ou de leur mise
en oeuvre méthodologique, mais en essayant de montrer ce qu’elles donnent à voir.
Les dénombrements
Comme nous l’avons esquissé précédemment, le dénombrement n’est pas en soi une méthode
spécifique ni de la sociologie, ni de la statistique. Il évoque l’énumération et le comptage qui
ne sont pas, en propre, des opérations réservées à ces deux registres d’activité et le dénombrement n’est ni qualitatif ni quantitatif il leur est antérieur. Les entomologistes dénombrent les
variétés d’insectes sans que cela apparaisse comme une spécificité dans leur discipline. Cette
activité ne fait pas, de celui qui s’y livre, une variété d’entomologiste spécifique. Il en est de
même pour le botaniste qui dénombre les différentes orchidées qu’il est possible de rencontrer
dans telle ou telle aire géographique. Chacun demeure, malgré cette activité de dénombrement, qui botaniste, qui entomologiste et personne ne s’étonne de leur façon de travailler.
En revanche, dénombrer dans le cadre d’une activité sociologique fait de vous un "sociologue
quantitativiste" voire plus simplement un "quantitativiste". Comme il n’existe pas plus de
"sociologue qualitativiste" que de "qualitativiste", cette précision dans l’acte de dénomination,
qui permet, par une métonymie, de résumer le sociologue quantitativiste par une partie de son
activité, le subsume en un sociologue qui n’en est pas vraiment un 82 . Il s’agit là d’un sérieux
renversement de perspective, si l’on s’en tient à ce que disaient de l’utilité du dénombrement
les Pères fondateurs de la sociologie française. Pour Emile Durkheim, le terme statistique, dans
Le suicide, semble synonyme de dénombrement. Elle est un moyen de lecture tant des actes
criminels que des mariages ou encore des décès qui se produisent dans une société et c’est elle
qui permet d’inférer par le dénombrement qu’il s’agit non de comportements individuels mais
de faits sociaux : "La vérité, c’est qu’ici, comme quand il s’agit du suicide, les chiffres de la
statistique expriment, non l’intensité moyenne des dispositions individuelles, mais celle de la
force collective qui pousse au mariage. " 83
80. PREVERT (J.), (1946), "Inventaire", in Paroles, collection folio, 1976
81. GRAWITZ (M.), (19XX) Méthodes des sciences sociales. éditions Dalloz, Paris, 1993, 9ème édition, 870 p.
82. Bien que sur un autre sujet, on trouvera des exemples d’analyse de cette présentation métonymique des
activités et des personnes dans le travail de GUILLAUMIN (C.), (1972), L’idéologie raciste. Genèse et langage
actuel. édition Mouton, Paris.
83. DURKHEIM (E.), (18XX), Op. cit., note p. 345
24
Traitant des origines de la morale, Emile Durkheim pousse plus loin cette analyse en insistant
sur la supériorité de la valeur démonstrative des régularités observées par le dénombrement
sur celles permises par les valeurs moyennes dont se sert Quételet(110). C’est d’ailleurs sur cet
argument de la régularité statistique qu’il fonde une des positions centrales de son interprétation : la "morale vient de la société" 84 elle procède de la conscience de celle-ci et non pas
de celle des individus. "L’observation confirme l’hypothèse. D’un côté les régularités des données statistiques impliquent qu’il existe des tendances collectives, extérieures aux individus ; de
l’autre, dans un nombre considérable de cas importants, nous pouvons directement constater
cette extériorité. " 85 Le dénombrement sert ici à valider une hypothèse, il peut être utilisé
faute d’autres informations non biaisées par l’affectivité ou la perception sensible et servir
à la mise à distance du réel, comme nous l’avons déjà envisagé dans ce polycopié. Mais là
ne s’arrête pas l’utilité du dénombrement car, s’il permet la mise à distance, il met aussi au
dehors de l’objet et favorise ainsi une prise de recul avec l’objet "Nous partons du dehors parce
qu’il est immédiatement donné, mais c’est pour atteindre le dedans. Le procédé est, sans doute,
compliqué mais il n’y en a pas d’autre, si l’on veut faire porter la recherche, non sur l’ordre
de fait que l’on veut étudier, mais sur le sentiment personnel que l’on en a." 86 ". Cette extériorité à la chose sociale, que permet l’utilisation des dénombrements, nous paraît répondre
à l’injonction durkheimienne : "considérer les faits sociaux comme des choses" et de ce fait
s’inscrit dans une tentative de mise à distance de la connaissance sensible.
Cette conception des mécanismes permettant l’objectivation est à réinscrire dans l’état de
développement des connaissances de l’époque. Cette mise à distance par le nombre, qui est
un des caractères les plus «immédiatement accessibles» 87 , serait sans doute réductrice si elle
ne se doublait pas d’une recherche de caractéristiques moins visibles. Pour autant, ce regard
porté sur les choses sociales à travers le nombre, détermine une part importante des modes
d’explications mis en place pour en rendre compte. L’approche quantitative du suicide induit
ainsi chez Emile Durkheim, d’une part, une production de tableaux qui sont tout à la fois la
manifestation d’opérations de dénombrement et d’organisation du réel par des distributions
et, d’autre part, la recherche soit de régularités, soit de ruptures, soit de parallélismes dans
les évolutions.
L’ensemble de ces activités ne sont pas la sociologie ; pour autant à l’origine de cette discipline, elles en semblent inséparables et au coeur même de sa démarche. En regrettant que ce
ne soit pas suffisamment le cas dans l’Année sociologique, Marcel Mauss n’affirmait-il pas,
dans un passage issu d’un texte de 1927 , qui, si l’on en croit le nombre de reprises dont il
est l’objet, fait figure de maxime pour les sociologues : " La statistique, mathématique sociale,
pourtant d’origine sociologique elle même, semble se réduire pour nous aux problèmes usuels :
de la population [...], de la criminologie et de l’état civil [...], de l’économie, cette partie de nos
sciences qui se vante d’être le domaine du nombre et des lois du nombre et qui l’est en effet en
partie. Cette restriction de l’emploi des statistiques est inexacte. Au fond tout problème social
est statistique. La fréquence du fait, le nombre des individus participants, la répétition au long
du temps, l’importance absolue et relative des actes et de leurs effets par rapport au reste de
la vie, etc., tout est mesurable et devrait être compté. 88
84. DURKHEIM (E.), (18XX), op. cit. p. 360
85. DURKHEIM (E.), (18XX), op. cit. p. 360
86. DURKHEIM (E.), (1897), Le suicide. Etude de sociologie. op.cit. note 1 page 356
87. DURKHEIM (E.), (1894), Les règles de la méthode sociologique. op.cit. p. XIII
88. MAUSS (M.), (1927), "Divisions et proportions des divisions de la sociologie", in l’Année Sociologique,
nouvelle série, 2, (1924-1925), pp. 3-21, Melin. (C’est nous qui soulignons).
25
Cette citation, bien qu’un peu longue, rappelle l’importance du dénombrement dans le travail
sociologique, mais dénombrer ce n’est pas faire oeuvre sociologique, c’est une technique du
sociologue qui lui permet de prendre du recul par rapport au phénomène que le sociologue
veut examiner ; donc c’est une technique qui lui permet de le lire. Ce point de vue sur l’efficacité de la quantification pour lire le social que réaffirme Marcel Mauss à la suite d’Emile
Durkheim est revendiqué dans des travaux contemporains. Ainsi Alain Girard propose une
interprétation du choix du conjoint 89 qui, n’étant plus contraint par une pression familiale, ne
repose pas pour autant sur la seule subjectivité des individus mais sur la fréquentation de lieux
homogames livrés à l’activité laborieuse ou de loisirs de certains groupes socioprofessionnels.
Le sujet ne choisit pas en toute liberté son conjoint, les unions restent homogames même si le
choix apparaît en première approche libéré de tout dirigisme. Cet exemple est repris ultérieurement par Michel Bozon et François Héran qui montrent comment les méthodes statistiques
leur permettent de saisir, d’une part, sur quels ensembles d’éléments repose le fait de tomber
amoureux et, d’autre part, comment ces ensembles sont liés à l’appartenance à tel ou tel milieu social. En revanche, soulignent-ils, les méthodes quantitatives ne sont pas le seul moyen
qui permette de saisir la complexité des variables en jeu dans le fait de tomber amoureux. 90
Cet exemple ne cherche pas à ouvrir un débat sur l’existence d’une primauté de la démarche
quantitative sur la démarche qualitative ou l’inverse il tente seulement de dégager l’existence
d’une spécificité d’un regard sur la chose sociale tout orienté par le dénombrement 91 . Si ce
dernier est un moyen d’accès à la réalité sociale, se trouve immédiatement posée la question
de la nature de ce qui est dénombré, c’est-à-dire des unités de compte, des entités qu’elles
recouvrent et de la précision de leurs limites.
L’usage des nomenclatures
La fabrication de classements et de nomenclatures ponctue l’histoire de l’humanité depuis celle
d’Aristote sur les animaux, à celle Mendeleïev sur les éléments, en passant par celle de Linné
puis, dans un autre genre, à celle reprise de Borges par Michel Foucault au début de Les Mots
et les choses 92 : "a) appartenant à l’Empereur, b) embaumés, c) apprivoisés, d) cochons de
lait, e) sirènes, f ) fabuleux, g) chiens en liberté, h) inclus dans la présente classification, i)
qui s’agitent comme des fous, j) innombrables, k) dessinés avec un pinceau très fin en poils
de chameau, l) et cætera, m) qui viennent de casser la cruche, n) qui de loin semblent des
mouches" 93 Ce système classificatoire du monde animal, dont Michel Foucault écrit qu’il l’a
89. GIRARD (A.), (1964), Le choix du conjoint. une enquête psychosociologique en France. Travaux et
documents, cahier n° 44. édition PUF INED, Paris, 1964, 201 p.
90. BOZON (M.) HERAN (F.), (1988), "La découverte du conjoint. Les scènes de rencontre.", in Population
n° 1, édition INED, Paris 1988, p. 121-149.
91. Avec quelques réserves sur la participation des méthodes à la constitution de l’objet, nous rejoignons en
cela Jean-Claude COMBESSIE qui écrit : "Notre intention n’est pas de nier l’existence d’effets de méthode sur
l’objet à la constitution duquel elles participent mais il nous apparaît que celles qui sont le plus couramment
relevées ne sont imputables à aucune différence d’extension de l’objet en tant que tel [...] mais à la diversité
des points de vue qui sont pris sur l’objet ou, en d’autres termes au nombre de relations différentes dans lequel
il est inséré et qui le construisent au sens plein comme objet social." dans Effet de méthode." COMBESSIE
(J.-C.), (1982), "A propos du marché du travail" in Actes de la journée d’étude «Sociologie et statistique
Paris, Document polycopié de l’Institut National de la Statistique et des Etudes Economiques et de la Société
Française de Sociologie, 1982, tome 1, p. 111.
92. FOUCAULT (M.), (1966), Les mots et les choses. Une archéologie des sciences humaines, édition NRF
Gallimard, Paris 1966, p. 7.
93. BORGES (J. L.), "La Langue analytique de John Wilkins" in Oeuvres complètes, édition établie par
Jean-Pierre Bernès, Bibliothèque de la Pléiade, Gallimard, Paris 1993, p.749.
26
"fait rire longtemps, non sans un malaise certain et difficile à vaincre" 94 , illustre, par les
rapprochements qu’il provoque, les différentes possibilités qui s’ouvrent pour classer le monde
animal, les différents regards qui peuvent être posés sur celui-ci et, par là-même, les effets sur
le réel d’une classification s’appuyant sur des principes hétéroclites.
Cette hétérodoxie des catégories de la classification des animaux dans La Langue analytique
de John Wilkins 95 pose la question du choix des critères permettant l’ordonnancement de
l’ensemble sur lequel s’effectue la projection, depuis l’ensemble Q dans les cas où les caractères des éléments de Q n’appartiennent pas aux espaces ordonnés qui sont ceux définis par
les mathématiques. Si donc l’ordre n’est pas consubstantiel du caractère des éléments de Q, le
travail d’ordonnancement est à faire pour chaque recherche car "il n’y a pas de bonne catégorie en soi indépendamment des pratiques étudiées" 96 ajouterions-nous dans le droit fil de la
problématique développée pour mener à bien la recherche. Dans ce contexte, les sociologues
utilisent fréquemment les résultats de dénombrements effectués par d’autres et à d’autres fins.
Cette voie est ancienne, les statistiques utilisées par Emile Durkheim dans Le suicide ont été
élaborées pour d’autres que lui et avec d’autres finalités que de recomposer le regard porté sur
ce qui, jusqu’alors, était considéré comme un événement individuel mettant fin à une vie. 97
La fiabilité relative des données recueillies par d’autres et à d’autres fins n’est pas spécifique
d’un temps ancien et révolu. Ainsi, les statistiques de la police et plus particulièrement l’état
4001 rempli chaque mois dans chaque commissariat de police que nous avons dû utiliser, 98
nous ont permis de nous confronter aux diverses difficultés rencontrées lors de l’utilisation de
ce qu’il est coutume d’appeler les "statistiques sociales". Les rubriques de cet état 4001, dont
les définitions sont pour le moins succinctes, sont renseignées différemment d’un commissariat
à l’autre, d’un agent de la force publique à l’autre, et, de plus, ne sont pas les mêmes d’une
année sur l’autre. Les travaux d’évaluation de la délinquance ne peuvent, compte tenu de ces
difficultés, être entièrement menés à bien avec cette unique source. 99
La faible qualité de ces sources statistiques n’est pas le seul problème que rencontre le chercheur lorsqu’il est confronté à des données dont la définition et le recollement lui échappent.
Celles-ci se présentent souvent sous la forme de tableaux et le retour aux données individuelles
pour fabriquer d’autres variables ou d’autres tableaux par associations de variables n’est pas
94. FOUCAULT (M.), (1966), Les mots et les choses, op. cit. p. 9
95. BORGES (J. L.) Ibid.
96. De SINGLY (F.), (1982), "Les bons usages de la statistique dans la recherche sociologique", in Sociologie
et Statistique, revue Economie et Statistique n°168, édition de l’Insee, Paris, 1984, p. 17. Le propos tenu par
François de Singly n’est pas obligatoirement le reflet de sa position car, bien que ce texte ne soit pas entre
guillemets dans son article, cette citation, comme tout le texte dont elle est issue, est un rapport sur les
communications présentées à la journée d’étude «Statistique et sociologie» organisée par la Société française
de sociologie et l’Insee à Paris en 1982
97. Il serait ici possible de critiquer la nature des sources statistiques qu’utilise Emile Durkheim, d’en montrer
l’hétérogénéité relative, les risques de sur ou sous enregistrement qui leur sont inhérents, voire d’examiner si
les chiffres qu’il manipule correspondent à la définition qu’il se donne lui-même du suicide : "On appelle suicide
tout cas de mort qui résulte directement ou indirectement d’un acte positif ou négatif, accompli par la victime
elle même et qu’elle savait produire ce résultat."(Le suicide. Op. cit. p. 5.) Pour autant, même si les méthodes
statistiques utilisées sont sommaires et les chiffres manipulés incertains -il est impossible que les données
recueillies satisfassent à cette définition- la démarche reste un des exemples les plus lumineux de ce qu’apporte
l’usage des données quantifiées dans une démarche sociologique.
98. BEYNIER (D.), (198X), Diagnostic local de sécurité, (collaboration technique de Briard (V.) et Deuss
(K.)), rapport pour le Conseil Intercommunal de Prévention de la Délinquance (C.I.P.D.) de la Communauté
Urbaine de Cherbourg(C.U.C.). 165 pages (dont annexes)
99. Depuis cette expérience nous ne doutons pas des chiffres qui retracent l’évolution de la criminalité mais
de la faisabilité de leur production.
27
toujours possible. Cette dernière forme de difficulté n’est pas spécifique de l’utilisation des
données sociales issues des services dont l’activité principale n’est pas la collecte d’informations statistiques. Comme le montre Odile Benoit-Guilbot, l’utilisation des données colligées
par l’Insee 100 est l’occasion de quelques contrariétés pour le chercheur. Son travail ne se limite
pas à une réorganisation des données fabriquées par l’Insee à des fins qui n’étaient pas celles
pour lesquelles il cherche à les utiliser. Pour mener à bien son travail, le chercheur est souvent
amené à les recomposer pour rechercher d’autres relations que celles qui sont mises en évidence
dans les tableaux publiés.
Ainsi, qui n’a pas été confronté à des tableaux qui ne donnent à lire que des fréquences en
ligne ou en colonne sans référence ni à l’effectif total ni aux effectifs marginaux et ainsi ne permettent aucune des opérations usuelles. Il est dans ce cas nécessaire de retourner aux données
brutes pour la fabrication de nouveaux tableaux et, le cas échéant, de nouvelles variables plus
propres à rendre compte du réel. Ce travail n’est pas toujours possible compte tenu des formes
données à l’enregistrement des données ou à l’étendue de l’aire géographique choisie 101 .
Les difficultés qu’évoque Odile Benoit-Guilbot ont assez peu de répercussions sur la pratique
d’une démographie élémentaire. Les choses sont relativement simples et peu discutables ; les
événements qui intéressent les démographes lorsqu’ils travaillent dans les pays développés sont
assez clairement identifiables et recollés avec précision (i.e. : dates de naissance ou de décès,
individus) ou sont le fruit de découpages effectués par d’autres et qu’ils utilisent au mieux sans
participer de leur définition (i.e. : limites communales ou cantonales, pays d’origine, statuts
matrimoniaux ). Les catégories ne sont plus aussi évidentes quand elles recouvrent des réalités
autres que biologiques, administratives ou juridiques. Les débats internes à l’Insee pour définir ce qu’est un chef de ménage et le passage d’une définition à l’autre pour enregistrer ce
renseignement cachent bien autre chose qu’un simple changement de nomenclature.
Avant 1982, était considéré comme chef de ménage la personne qui, sur la fiche de recensement décrivant la composition du ménage, occupait la première ligne. Cette méthode avait
pour avantage d’être techniquement simple et de refléter un ordre de prééminence dont la
gestion était dévolue à la famille. Certes, il reflétait aussi bien d’autres choses parmi lesquelles
on peut énumérer la persistance de la position historiquement et idéologiquement acquise par
les hommes comme chef de famille et la soumission plus ou moins admise des femmes à ce qui
se donnait comme un ordre établi. En revanche, cette position occupée dans la liste décrivant
la composition des ménages, ne reflétait en rien ni l’activité salariée ou non des personnes la
composant, ni leurs âges respectifs, même si, pour les enfants présents dans ces listes, l’usage
prédominant est de les classer du plus vieux au plus jeune. Les tableaux fournis par l’Insee
à partir de cette nouvelle nomenclature mise en place pour déterminer le chef de ménage ne
permettent plus de lire l’ordre interne fixé par les familles ; mais de savoir, qui en fonction de
son activité professionnelle, de son sexe et de son âge, a été choisi pour occuper cette place. On
a gagné en précision sur la définition de cette catégorie sur le plan socio-économique tel que le
définit l’Insee ; en revanche on a sans doute perdu en connaissance sur la hiérarchisation que se
100. BENOIT-GUILBOT (O.), (1982), "L’odyssée du sociologue a la recherche de données Insee", in Actes de
la journée d’étude Sociologie et statistique Paris, Document polycopié de l’Institut National de la Statistique
et des Etudes Economiques et de la Société Française de Sociologie, 1982, tome 1, pp. 33-38
101. Si, depuis la description de la situation que faisait en 1982 Odile BENOIT-GUILBOT, les facilités de
fabrication de nouveaux tableaux, de recomposition de variables se sont accrues, en revanche, l’impossibilité,
pour des raisons de confidentialité, d’obtenir de nouveaux traitements sur des aires géographiques ou administratives continues peuplées de moins de 2000 habitants entrave toute possibilité d’effectuer des enquêtes
locales à partir des fichiers de l’Insee
28
donnent par elles-mêmes les familles. Les enjeux autour de la fabrication des nomenclatures ne
sont pas un problème localisé. Ce qui peut paraître la simple question d’une définition des catégories socioprofessionnelles et l’élaboration d’une nomenclature fait l’objet d’une littérature
abondante de plus d’une centaine de références 102 . Cette profusion de textes, sur un instrument de classification au demeurant familier ne peut être le fait du hasard. L’examen rapide,
ne serait-ce que de l’ordre dans lequel sont rangées les catégories sociales et le nombre de subdivisions dont elles sont l’objet, montre que plus qu’un outil neutre permettant d’enregistrer
un reflet de la réalité, elles traduisent aussi, pour une part, la position sociale des personnes
qui ont construit cette taxinomie. Le résultat, à certains égards, peut sembler digne de Borges.
Dans le recensement de 1975 103 , le nombre de sous-groupes permettant la classification des
cadres est ainsi un sujet de questions sans réponse pour toute personne qui cherche dans la
taxinomie elle-même les réponses à son organisation. Le responsable ou plus exactement les
responsables de cette classification sont des personnels de l’Insee qui appartiennent à la catégorie des cadres du public. De cette appartenance ils tirent une meilleure connaissance des signes
de distinction en usage entre cadres du public, que de ceux qui régissent la distinction entre
les cadres du privé, la taxinomie des premiers est ainsi plus précise que celle des seconds. Cela
se traduit par une différence dans le nombre d’exemples donnés pour illustrer les rubriques.
Cette différence n’est en rien le reflet d’un écart numérique entre les deux populations. Si l’on
tient compte de ce dernier élément la disparité de traitement devient encore plus criante. Classification à la Borges disions-nous, peut-être exagérons-nous, encore que, comme le faisaient
remarquer Alain Desrosières et Laurent Thévenot, en reprenant les catégories en vigueur lors
du recensement de 1975, le classificateur lui même qui est un cadre supérieur du public, dans
quelle rubrique se range-t-il ? "’32 professeurs ; professions littéraires et scientifiques’, ’33, ingénieurs’, ’34 cadres administratifs supérieurs’ 104 La solution n’est pas simple et dépend de la
personne qui est chargée de mettre en oeuvre la classification. Cette conclusion rejoint celle à
laquelle était arrivée l’étude menée par Dominique Merllié 105 sur les classifications faites sur
la profession des pères des entrants à l’université. Ce chercheur s’interroge sur les disparités
importantes qu’il constate entre l’enregistrement de la structure socioprofessionnelle colligée
au niveau ministériel, réalisée dans les universités sur les lieux d’inscription et les résultats
donnés par d’autres modes d’investigation 106 . Les différences qu’il observe sont liées, d’une
102. On trouve une bibliographie sur ce thème à la fin des articles de :
DESROSIÈRES (A.) THÉVENOT (L.), (1979), "Les mots et les chiffres : les nomenclatures socioprofessionnelles.", in Economie et Statistique, n°110 édition de l’Insee, Paris, 1979, p 49-65.
DESROSIÈRES (A.), (1987), "Les nomenclatures de professions et d’emplois" ; in Pour une histoire de la
statistique (tome 2, matériaux), Paris, édition Insee, Economica, 1987, p. 35-56.
THÉVENOT (L.), (1987), "Les enquêtes formation qualification professionnelle et leurs ancêtres français.", in
Pour une histoire de la statistique, (tome 2 matériaux) Paris, édition Insee, Economica, 1987, p. 117-166.
103. Les critiques de cette nomenclature de 1975 faites, tant par des statisticiens au sein même de l’Insee que
par des sociologues, entraîneront des modifications profondes qui se font sentir dès le recensement de 1982. Sur
la refonte de la nomenclature, on peut se référer à la présentation commentée qu’en font DESROSIÈRES (A.)
GOY (A.) THÉVENOT (L.), (1983) "L’identité sociale dans le travail statistique. La nouvelle nomenclature
des professions et catégories socioprofessionnelles". in Economie et Statistique, n° 152, 1983,
104. DESROSIÈRES (A.) THÉVENOT (L.), (19XX) "Les mots et les chiffres : les nomenclatures socioprofessionnelles.", op. cit. p 50.
105. MERLLlÉ (D.), (1982), "Une nomenclature et sa mise en oeuvre. Les statistiques sur l’origine sociales
des étudiants", in Actes de la recherche en sciences sociales., édition M.S.H. et E.H.E.S.S., Paris, 1982, n° 50,
pp. 3-47.
106. "On peut trouver d’autres indications confirmant que des écarts relativement important séparent l’évaluation des catégories socio-professionnelles des pères des étudiants dans l’enquête administrative des inscriptions
de celle d’autres enquêtes." MERLLlÉ (D.), op. cit. p.19. Parmi ces autres enquêtes on peut noter : celles
29
part aux modes de recueil des données, à la précision de l’information communiquée par les
étudiants, au niveau de formation donnée aux codeurs et à l’appréciation qu’ils portent sur la
qualité de l’information qu’ils traitent 107 et, d’autre part, à la connaissance sensible que les
codeurs ont des catégories socioprofessionnelles qu’ils sont amenés à codifier 108 .
Les taxinomies sensibles et taxinomies savantes
Ce lien qu’entretiennent les nomenclatures avec la perception sensible n’est pas une constatation nouvelle. Elles peuvent ne refléter que le sens commun dont nous parle Durkheim au début
des Règles de la méthode sociologique et dans ce cas, il insiste 109 , elles sont un obstacle entre
la réalité et nous, cela d’autant plus qu’elles apparaissent naturelles. Pour paraphraser Emile
Durkheim, les catégories doivent procéder des idées et non des choses ; pour autant, nous ne
sommes pas à l’abri dans cette perspective de quelques déboires. Les classifications logiques
ou taxinomies savantes ne sont pas sans générer, elles aussi, ce que nous avons envie d’appeler
’l’effet Borges’. Leur modèle est de près ou de loin la réussite que représente en botanique le
travail effectué par Linné 110 qui, à partir de quelques éléments simples et clairement identifiés,
organise et décrit l’ensemble de la flore. Cette classification logique ou savante se substitue
à un ensemble de classifications qui se basaient tantôt sur les vertus des plantes, tantôt sur
leurs couleurs ou encore sur leurs liens avec telle ou telle mythologie ou conte de fées. Il est
tentant de procéder pour toutes les taxinomies de la même manière : identifier un ensemble
de caractéristiques, puis procéder, par la suite, à une classification systématique.
Cette méthode, qui a eu le succès que l’on sait pour le monde végétal, tient en grande partie
d’une part, à la visibilité immédiate des caractères constitutifs retenus et, d’autre part, à leur
stabilité relative tant dans leur forme que dans leur fonction. Le monde animal se prête déjà
moins facilement à ce type de classification. L’activité humaine, quant à elle, semble un défi
aux critères de visibilité et de stabilité qui sont le gage de la faisabilité du travail taxinomique.
La difficulté intervient pour les classifications logiques de manière cruciale au moment de la
réalisées sur le devenir des étudiants dans plusieurs universités et l’étude longitudinale réalisée par le service
des statistiques du Ministère de l’éducation nationale sur l’ensemble des bacheliers 1975 inscrits par la suite en
université et dont les inscriptions successives sont suivies de 1975-1976 à 1979-1980. Cf. la Note d’information
n° 82-13 du 3 mai 1982 du SIG ES.
107. A des fins pédagogiques, dans le cadre d’un enseignement de statistique nous avons effectué l’expérience
suivante : demander à chaque étudiant la profession de son père. Nous en avons fabriqué une liste qui à été
redonnée aux étudiants avec la consigne de classer ces métiers selon la grille en 9 positions de l’I.N.S.E.E. ; 83
étudiants ont suivi la consigne, la catégorie cadre moyen a été proposé 12 fois par un étudiant, et 54 fois par
un autre. Entre ces deux bornes la distribution des effectifs est quasi normale.
108. L’étude, déjà citée, de Dominique Merllié a vu ses conclusions confirmées par celle réalisée par Jean
Peneff sur 144 dossiers d’étudiants s’inscrivant en première année de sociologie à l’université de Nantes pour
l’année universitaire 1979-1980. Ces auteurs mettent en évidence l’invraisemblance des résultats obtenus par
l’étude des dossiers que font remplir les services administratifs et il analyse les mécanismes qui participent
de ces résultats : "Tout d’abord la mauvaise qualité des informations communiquées par les étudiants, ensuite
les différences dans le codage des réponses et enfin les conditions de recueil." MERLLIÉ (D.) PENEFF (J.),
(1984), "La fabrication statistique ou le métier du père.", in Sociologie du travail, n°2, édition Dunod, Paris
1984, pp. 195-211.
109. DURKHEIM (E.), (1984), op. cit. p. 16. "Encore les notions ainsi formées ne présentent-elles cette
justesse pratique que de manière approximative et seulement dans la généralité des cas. Que de fois elles sont
aussi dangereuse qu’inadéquates ! Ce n’est donc pas en les élaborant de quelque manière qu’on s’y prenne que
l’on arrivera jamais à découvrir les lois de la réalité. Elle sont, au contraire un voile qui s’interpose entre les
choses et nous et qui nous les masque d’autant mieux qu’on le croit plus transparent.
110. LINNE (C.), Système sexuel des végétaux p. 21, Philosophie botanique §284, cité par FOUCAULT (M.),
(19XX), Les mots et les choses, Op. cit. pp. 149-162
30
mise en oeuvre, car leurs modes opératoires se heurtent, non seulement à la faible lisibilité des
éléments distinctifs qui les organisent, mais, de plus, aux taxinomies naturelles qui organisent
la perception du monde chez les personnes qui sont amenées à les utiliser.
La classification des catégories socioprofessionnelles, utilisée par l’Insee lors des derniers recensements, est un essai de classification savante ; pour autant, de nombreuses ambiguïtés
demeurent et sont laissées soit à l’appréciation des codeurs, soit à un système de convention
dont la classification ne peut seule rendre compte.
Il ne s’agit pas là de la marque de l’incapacité à organiser le réel par une application sur un
ensemble dont l’ordre ne serait pas, comme pour celui des réels, indiscutable car constitutif
même de l’ensemble, mais de la conséquence de la différence d’usage des mots qui existent
entre leur utilisation par les taxinomistes et celle qu’en font les individus dans leur rapports
sociaux. Les taxinomistes cherchent par des caractères qui paraissent objectifs — niveau de
diplôme, formation, forme d’exercice de la profession, statut de l’employeur, branche d’activité — à ordonner, ce faisant il font correspondre de manière stricte des mots et des définitions.
Les individus eux utilisent l’énonciation de leur profession afin d’exister pour eux et pour les
autres. Cette énonciation pour les individus interrogés lors d’enquêtes ou de sondages ne prend
pas sens dans un rapport étroit entre une dénomination et ce qu’elle recouvre mais dans le lien
que ces personnes entretiennent avec les autres quand elles racontent leur profession ou leur
position sociale. Le fait qu’une personne se réclame d’un statut d’ingénieur en telle ou telle
spécialité n’en fait pas forcément quelqu’un qui a obtenu un titre d’ingénieur délivré par une
des écoles dûment accréditées pour ce type de certification. Il s’agit, la plupart du temps, soit
d’une personne qui se réclame de ce titre car le rôle qu’elle joue dans l’entreprise s’apparente
à celui que la communauté de travail prête à l’ingénieur, soit d’un individu qui diplômé ou
non exerce une activité de conseil, de conception, d’expertise dans un champ professionnel où
le titre d’ingénieur n’existe pas (ingénieur d’intérieur, ingénieur horticole ... ). Cette différence
de conception, entre la certification et l’aspiration d’appartenance à un groupe social, n’est
pas sans provoquer quelques hiatus entre ce qu’enregistrent les taxinomies savantes et ce que
se représentent les individus d’eux-mêmes 111 .
La complexité des opérations de classification fut dès le début de leur mise en oeuvre, un sujet
de débats entre scientifiques car dans le même moment où elles autorisent le dénombrement
des plantes par espèces, des individus par activités, des décès par causes, des productions par
aires géographiques, elles ordonnent la lecture du monde, elles disent quelque chose sur sa
forme et donc, comme nous avons essayé de le montrer, sur sa qualité.
Les premières, celles de Linné, qui servent comme nous l’avons écrit de modèle aux taxinomies
savantes, ont été en leur temps l’objet de débats qui concernaient la conception du monde et
non la pertinence de leur découpage du monde végétal. Comme le rappelle Michel Foucault
dans Les mots et les choses, l’opposition entre Linné et Buffon repose essentiellement sur un
désaccord profond quant à l’existence d’invariants communs à toutes les espèces permettant,
111. DESROSIÈRES (A.) et THÉVENOT (L.) rappellent, par exemple, que le rapprochement de plusieurs
sources R.P. de 1975 et Enquête emploi de la même période sur 17000 personnes dont on s’est assuré qu’elles
n’ont pas changé d’emploi, montre que "39% des individus classés au recensement dans la rubrique «78.09
-Ingénieur et cadre technique supérieur de l’informatique)) et 31% de ceux placés dans la rubrique «78.10 Ingénieur et cadre supérieur spécialiste de l’organisation et de la gestion, ingénieur conseil» ont été affectés à
d’autres rubriques à l’enquête emploi ; [...] Les variations dans les déclarations des mêmes individus touchent
33% des bulletins affectés à la première rubrique et 57% de ceux qui ont été placés dans la seconde.", in "Les
mots et les chiffres : les nomenclatures socioprofessionnelles", op. cit., p. 53
31
comme le propose Linné, d’en classer toutes formes 112 . La quantification des caractères comme
expression de la forme c’est à dire comme ordre numéral discontinu au sens où ce qui est un
n’est pas deux par le simple principe de continuité que représente l’ajout de un. C’est ce
dernier point qui l’oppose à Buffon dont la représentation de la nature le poussait à classer
selon les similitudes qui existaient d’une espèce à l’autre. Le système de classification de Buffon se propose d’ordonner les espèces selon une opposition basée sur des critères de similarité
dissimilarité. On compare deux espèces et on regarde leur similarités et leur dissimilarités.
Les dissimilarités sont les caractéristiques des espèces. On renouvelle la comparaison deux à
deux avec n espèces et ainsi on garde un noyau de similarité qui est la trace de la continuité
des différentes espèces. Nos idées générales dit Buffon, "sont relatives à une échelle continue
d’objets, de laquelle nous n’apercevons nettement que les milieux et dont les extrémités fuient
et échappent toujours plus à nos considérations» [...]Et Bonnet disait dans le même sens qu’iI
n’y a pas de sauts dans la nature : tout y est gradué, nuancé. Si entre deux êtres quelconques,
il existait un vide que serait la raison de passage de l’un à l’autre ? Il n’est donc point d’être
au dessus et au dessous duquel il n’y en ait qui s’en rapprochent par quelques caractères et qui
s’en éloignent par d’autres" 113 .
L’opposition de Buffon et de Linné dépasse la simple classification des événements produite
par un choix de mode classificatoire, les options retenues par chacun sont révélatrices, tant
de l’organisation du monde que de la manière dont la connaissance s’articule au réel. Pour
Buffon, il est clair que la connaissance produite par les classifications s’articule sur un repérage
préalable des espèces, c’est à dire sur des classifications sensibles, et le travail consiste dans
ce cas à décrire les différences existantes. En revanche, le système classificatoire proposé par
Linné pour le monde végétal, tout comme celui de Mendeleïev pour les éléments, permet, par
une simple combinatoire des caractères de base, de décrire des espèces encore inconnues mais
possibles : "Le système indique des plantes, même celles dont il n’a pas fait mention ; ce que
ne peut jamais faire l’énumération d’un catalogue" 114 .
Si l’on suit Linné, l’énumération à l’inverse de la classification ne produit pas de savoir nouveau, elle énumère les objets que l’on connaît déjà en leur donnant un ordre analogue à celui
que l’on trouve dans un catalogue. En revanche, les classifications savantes produisent un savoir sur le réel, elles permettent d’en connaître l’organisation et les trous. Cette conception
de la fonction des classifications parait fort moderne ; sans les inaugurer, elle laisse entrevoir
l’utilisation que nous faisons des techniques actuelles de classification.
Il n’en reste pas moins que la description qui est ainsi donnée du réel dépend des éléments
de base qui ont été retenus pour la mise en oeuvre de la taxinomie, le nombre de classes
déterminé dépend du nombre de critères retenus. Ainsi, par exemple, Linné calcule que leur
combinaison permettra la description de 5776 configurations. La valeur obtenue par Linné
correspond au calcul 4 × 38 × 38. Pour nous 38 organes et 4 modalités par organe représentent
384 = 75557863725914300000000 issues possibles. Pour autant, cette classification exclut tout
autre élément que ceux dont elle peut rendre compte : les plantes n’ont plus ni odeur, ni
saveur, ni couleur ; les plantes que voit Linné et qu’il décrit ont en grande partie perdu le
contact avec la perception sensible ; le goût de la pomme de terre ne peut être comparé à celui
112. Ainsi, Michel Foucault, reprenant le raisonnement proposé par Linné rappelle cette phrase qu’il nous
présente comme extraite de Philosophie Botanique : "Sache que ce n’est pas le caractère qui constitue le
genre, mais le genre qui constitue le caractère, que le caractère découle du genre, non le genre du caractère".
FOUCAULT (M.), (19XX), op. cit. p. 159.
113. FOUCAULT (M.), (19XX), op. cit. pp. 159-160.
114. FOUCAULT (M.), (19XX), op. cit. p. 159.
32
du chou dans cette taxinomie.
Figure 1.1 – Codage pour 3 organes et 4 états
Organe
A
B
C
a
Aa
Ba
Ca
Etat
b
c
Ab Ac
Bb Bc
Cb Cc
d
Ad
Bd
Cd
Figure 1.2 – Énumération des possibilités pour 3 organes et 4 états
00
16
32
48
01 Aa,Ba,Ca Ab,Ba,Ca Ac,Ba,Ca
Ad,Ba,Ca
02 Aa,Ba,Cb Ab,Ba,Cb Ac,Ba,Cb
Ad,Ba,Cb
03 Aa,Ba,Cc Ab,Ba,Cc Ac,Ba,Cc
Ad,Ba,Cc
04 Aa,Ba,Cd Ab,Ba,Cd Ac,Ba,Cd
Ad,Ba,Cd
05 Aa,Bb,Ca Ab,Bb,Ca Ac,Bb,Ca
Ad,Bb,Ca
06 Aa,Bb,Cb Ab,Bb,Cb Ac,Bb,Cb
Ad,Bb,Cb
07 Aa,Bb,Cc Ab,Bb,Cc Ac,Bb,Cc
Ad,Bb,Cc
08 Aa,Bb,Cd Ab,Bb,Cd Ac,Bb,Cd
Ad,Bb,Cd
09 Aa,Bc,Ca Ab,Bc,Ca Ac,Bc,Ca
Ad,Bc,Ca
10 Aa,Bc,Cb Ab,Bc,Cb Ac,Bc,Cb
Ad,Bc,Cb
11 Aa,Bc,Cc Ab,Bc,Cc Ac,Bc,Cc
Ad,Bc,Cc
12 Aa,Bc,Cd Ab,Bc,Cd Ac,Bc,Cd
Ad,Bc,Cd
13 Aa,Bd,Ca Ab,Bd,Ca Ac,Bd,Ca
Ad,Bd,Ca
14 Aa,Bd,Cb Ab,Bd,Cb Ac,Bd,Cb
Ad,Bd,Cb
15 Aa,Bd,Cc Ab,Bd,Cc Ac,Bd,Cc
Ad,Bd,Cc
16 Aa,Bd,Cd Ab,Bd,Cd Ac,Bd,Cd
Ad,Bd,Cd
Pour suivre la progression de l’énumération
la lecture des cases s’effectue en colonne ↓.
Le numéro d’ordre de la case est donné en additionnant
les nombres en italique qui sont au dessus des colonnes
et ceux en début de ligne
Pour 3 organes et 4 états il y a 64 combinaisons possibles ce qui s’obtient par 43 = 64 combinaisons. Pour o organes et e état il y a en possibilités.
Dans le champ de la recherche en sociologie, la question de la définition des variables à utiliser
est un des points cruciaux de la mise au point des protocoles de recherche. Dès l’écriture du
projet, l’utilisation de catégories de lecture, que nous ne disons pas savantes, mais seulement
sociologiques, oppose le découpage que nous proposons du réel à celui que permettent les catégories issues soit d’une perception sensible soit d’une grille de lecture administrative. Dans
33
cette phase préliminaire de négociations, l’opération de classification du réel, les bases mêmes
de ce que peut être ultérieurement le travail de traitement des données est déjà à l’oeuvre. Par
exemple, il est habituel que les personnes, peu familiarisées avec l’utilisation des catégories socioprofessionnelles, pensent que le recueil et l’exploitation, de cette seule donnée, sur une aire
géographique ou administrative, fournissent un indicateur de substitution à la connaissance
toujours plus complexe à appréhender du niveau de vie, du niveau culturel quand ce n’est pas
en plus des besoins de sécurité ou de santé voire du potentiel de consommation.
La sociologie a dans ce cas dépassé toutes les espérances qu’elle peut avoir d’être reconnue ;
non seulement les sociologues sont sommés de donner leur opinion à propos de tout et de
rien dans les médias, mais une vulgate "sociologique" marque de son empreinte la réflexion
des décideurs et des élus qui pensent que tout s’explique par une mise en relation avec les
catégories socioprofessionnelles. 115
Bien évidemment, la ventilation d’une population sur l’ensemble des catégories socioprofessionnelles n’est pas sans relation avec les caractéristiques que sont le niveau culturel, la consommation, la santé, mais, aucune de celles-ci ne participe directement à la construction de cette
taxinomie qui repose sur des critères au rang desquels on note les oppositions actif / non
actif, indépendant / salarié, puis, dans un second temps, une partition suivant la profession,
le grade, le caractère public ou privé de l’employeur, la fonction, la spécialité. 116 Comme le
montre l’étude déjà ancienne de Jeannine Verdès Leroux 117 , la composition du groupe social
que représentent les travailleurs sociaux de sexe féminin est traversée par une forte disparité
de leur origine sociale, de leur choix de conjoint et des postes de travail qu’elles occupent.
L’appartenance à cette catégorie sociale CS 4332 118 ne dit rien sur les trajectoires sociales,
sur les revenus, sur les stratégies matrimoniales et, de ce fait, n’indique rien de précis sur le
pouvoir d’achat, la consommation de santé, de loisirs 119 . Comme la classification de Linné ne
permet pas de parler du goût car ce critère a été exclu lors de la construction, pour la même
raison, les catégories sociales ne devraient pas permettre d’évaluer des comportements. Ce qui
se conçoit bien de la disparité entre l’amer et le sucré pour les fruits, - car ces caractères sont
indépendants de l’appartenance au groupe des fruits - se conçoit plus difficilement pour les
revenus qui sont partiellement liés à l’appartenance à une catégorie sociale. De plus, comme le
115. Cette propagation dans le corps social d’une vulgate sociologique est sans doute à l’origine du nombre
croissant de demandes dont la sociologie est l’objet. De cela les sociologues auraient mauvais gré de se plaindre ;
en revanche, elle s’accompagne aussi d’une prolifération d’études ou de recherches qui bien que cherchant à
résoudre un problème social et à l’expliquer par une mise en relation avec les catégories socioprofessionnelles,
n’ont de sociologique que le nom dont elles se parent
116. Pour plus d’information, on consultera la notice technique du : Recensement de la population de 1990.
Population active. Résultat du sondage au quart. Insee Résultats, Démographie et Société, n°25, 1993, pp.
174-182.
117. VERDÈS-LEROUX (J.), (1978), Le travail social, édition de Minuit, Paris, 1978 p.57-60.
118. Insee Résultats Démographie et Société. op. cit. p. 200
119. Ventilation de la catégorie sociale du père et ceIle du conjoint des assistantes sociales
PCS
PCS du père Profession du conjoint
Agriculteurs
10.6
1.8
Ouvriers Agricole
0.2
0.2
Ouvriers
7.3
3.0
Employés
15.7
15.0
Cadres moyens
8.3
23.0
Commerçants-artisans
17.5
8.0
Cadres supérieurs
22.1
34.0
Professions Libérales
14.3
12.0
Non réponse
4.0
3.0
34
rappelle Pierre Bourdieu, 120 , dans la société elle-même les limites des groupes sont peu assurées. Cette difficulté des groupes à se donner des limites simples socialement reconnues montre
à l’évidence que la catégorisation du social ne peut se faire simplement par une mise en oeuvre
systématique des seuls éléments qui constituent la classification savante que sont les catégories
socioprofessionnelles de l’Insee "Aux frontières statistiques, qui se dessinent autour des groupes
ce terrain ’bâtard’ dont parle Platon, à propos de la frontière de l’être et du non être, défi lancé
au pouvoir de discrimination des systèmes de classement sociaux (Jeune ou vieux ? Citadin
ou campagnards ? Riche ou pauvre ? Bourgeois ou petits-bourgeois ? etc.), le numerus clausus
dans la forme limite que lui donne les mesures discriminatoires substitue des limites tranchées,
à un près ; aux principes de sélection, d’inclusion et d’exclusion, fondés sur une pluralité de
critères plus ou moins étroitement liés entre eux et le plus souvent implicites, il substitue une
opération institutionnalisée, donc consciente et organisée, de ségrégation, de discrimination,
fondée sur un critère et un seul (pas de femmes, ou de juifs, ou de noirs) qui ne laisse place à
aucun raté du classement." 121 . Si nous essayons de résumer ce qui vient d’être développé, les
catégories sont hétérogènes 122 , leurs limites sont peu marquées, leur construction oscille entre
la reprise des découpages sensibles du monde et une mise en ordre scientifique qui nécessite
que soit abandonnée une part des informations disponibles. L’examen des taxinomies nous
renseigne autant sur la pensée qui les sous-tend que sur la réalité qu’elles permettent de lire.
Pour reprendre Wittgenstein, il est possible que l’information essentielle qu’elles donnent sur
la réalité soit que cette dernière peut être lue avec le filet de catégories. En grande partie,
cela rejoint ce que nous enseigne le modèle hypothético-déductif dont s’inspire la sociologie.
Bâtir une théorie qui décrit les effets et les causes, construire un plan d’expérience dans lequel
on observe l’enchaînement des effets et des causes, l’observation répétée n fois avec succès de
la "manip" valide la théorie. Dans cette description rapide et sans doute simplificatrice des
phases d’un processus de recherche expérimentale, il n’est, en apparence, nullement question
de catégories. Pourtant elles sont à l’oeuvre dans la construction même du plan d’expérience,
le choix des outils de mesure, du matériel utilisé et de l’ordre des opérations mises en place.
Tout cela constitue la forme du filet qui permet de mesurer les résultats produits par la succession des événements. Il est possible de dénombrer la quantité de matériel utilisé, des outils
de mesure et des opérations mises en place. Cette quantification permet de tracer les grandes
lignes de la forme de l’expérience. Le résultat de celle-ci fait l’objet, soit de dénombrement,
soit de mesure : soit le dénombrement de certains caractères qui se manifestent, soit la mesure
d’effets qui se produisent pendant le déroulement de l’expérience et, dans ce cas, ce que l’on
mesure dépend évidemment de ce qui a été mis en place pour mener à bien l’expérience. Dénombrement d’une part, mesure d’autre part ; la première de ces activités, comme nous l’avons
fait remarquer s’apparente à une opération simple de décompte par entiers, la seconde, quant
à elle, suppose la référence à un ensemble continu de valeurs ordonnées, celui des réels. On
pourrait croire dans ce cas que la production puis le recueil de ce type de données ne sont pas
120. BOURDIEU (P.), (1979), La distinction. Critique sociale du jugement. éditions de Minuit, Paris, 1979,
pp. 179-182.
121. BOURDIEU (P.), (1979), op. cit. p.181.
122. Sur ce point particulier, Alain DEGENNE et Michel FORSÉ indiquent que les regroupements faits sur
les catégories professionnelles peuvent influer sur les conclusions mêmes que l’on peut produire à partir de
leur mise en relation avec d’autres caractères : "Par exemple supposons que l’on procède à une répartition en
quelques catégories sociales des individus et que l’on s’aperçoive que cette variable n’a pas d’effet sur la pratique
religieuse. On ne peut pas définitivement en conclure que la position sociale n’a pas d’effet sur cette pratique Il
se peut que se soit le regroupement opéré (PCS par exemple) qui ne «fonctionne» pas. D’autres regroupements
pourraient avoir un effet significatif ". DEGENNE (A.) FORSÉ (M.), (1994), op. cit. p. 6.
35
contingentes de catégories sensibles ou savantes qui influeraient sur la lecture que l’on peut
en avoir. Notre expérience, renouvelée chaque année, de l’évaluation par plus d’une centaine
d’étudiants de la largeur du mur situé derrière le bureau de la salle où nous enseignons la
statistique descriptive nous a, depuis longtemps, conforté dans l’idée que les caractères métriques ne sont pas à l’abri d’influences extérieures à la mesure. On y remarque d’une part
l’attraction produite par les valeurs entières qui dénote qu’implicitement l’unité de mesure et
la précision de leur évaluation est le mètre et d’autre part parmi les valeurs entières, un attrait
plus particulier pour les chiffres à connotation magique ou sacrée comme 7,10,12,13,20. 123
En tout état de cause, la manipulation de réels n’empêche en rien, que les opérations de partitionnement de ces valeurs réelles en classes restent l’objet de choix dont les raisons sont
extérieures à l’ordre des réels. Elles peuvent être des raisons, soit de présentation de résultat,
volonté de mettre en évidence tel aspect plutôt que tel autre par exemple, soit de considérations
sur l’instrumentation qui a permis la production des mesures. Ainsi, transformer l’ensemble
des 177 réponses données pour l’évaluation de la taille du mur, nécessite de prendre en compte
tout à la fois l’attrait pour les valeurs entières et le fait que ces valeurs ont été obtenues par
estimation. La simple opération de fabrication de classes de 1 mètre d’amplitude n’est pas sans
nécessiter des choix qui se traduisent, à titre d’exemple, par le fait de retenir des bornes du
type [9,5m ;10,5m[ qui traduisent d’une part, que, pour les étudiants qui ont répondu 10m, on
considère que l’erreur sur l’évaluation de la taille du mur est uniformément répartie entre 9,5m
et 10,5m et, d’autre part, que l’unité de mesure implicitement retenue est le mètre. Ne pas
avoir conscience que toute opération de distribution, même effectuée sur des mesures précises,
raconte non seulement la réalité mais aussi les conditions de production de cette distribution,
expose toute production de ventilation qui n’énonce pas clairement ses modalités de production, à des déboires analogues à ceux que narre Joseph Klatzmann et qui peuvent se résumer
par la critique, que sur le fond il récuse, : "on peut faire dire aux chiffres tout ce qu’on veut" 124 .
La lecture et l’interprétation des tableaux de chiffres
Les présentations les plus usuelles données à des distributions sont les tableaux, les graphiques
et la fabrication de valeurs censées les résumer. Si la forme prise par les tableaux ne dépend
que du nombre de caractères mis en relation et de ce fait ne pose qu’un problème de lecture,
il n’en n’est pas de même pour les graphiques et les valeurs calculées pour lesquels la nature
du caractère oriente le choix des possibles.
Nous ne chercherons pas à développer la production des représentations qui a fait l’objet de
nombreux articles de la part d’un chercheur comme Jacques Bertin qui a mis en évidence, au
travers d’un ouvrage de base 125 et de nombreux articles, les apports des traitements graphiques
des données par rapport aux traitements mathématiques. Dans un article de synthèse paru
en 1980, 126 il souligne que les modes de traitement utilisés pour exploiter les renseignements
123. (tailles en mètres ; effectifs), (7 ; 6), (8 ; 11), (9 ; 8), (10 ; 34), (11 ; 8), (12 ; 24), (13 ; 25), (14 ; 6), (15 ; 12),
(16 ; 2), (17 ; 4), (18 ; 2), (19 ; 0), (20 ; 6), (21 ; 1) (25 ; 2), (30 ; 2) (35 ;1), soit 156 valeurs entières sur les 177
réponses données.
124. KLATZMANN (J.), (1985), Attention statistiques ! Comment en déjouer les pièges., édition La découverte, Paris, 1985, Cahiers libres, n° 405, p. 7.
125. BERTIN (B.), (1967), Sémiologie graphique, les diagrammes - les réseaux les cartes., édition GauthierVillars, Paris, 1967
126. BERTIN (J.), (1980), "Traitements graphiques et mathématiques. Différence fondamentale et complémentarité", in Mathématique et sciences humaines, E.H.E.S.S., 1980, n°72, pp. 60-71
36
contenus dans un tableau 127 comportant 59 lignes et 26 colonnes donnent des résultats qui
sont pour partie différents. Il en tire trois conclusions qui, pour tout utilisateur des techniques
statistiques devraient guider le travail quotidien :
– "qu’il n’y a pas de traitement parfait,
– qu’il faut dans tous les cas ’interpréter’ ,
– que l’image n’est que le résultat d’un certain algorithme et que c’est en fait cet algorithme
que l’on interprète" 128 .
Les deux dernières conclusions redoublent le questionnement que nous avons mené sur l’importance que jouent dans la perception des objets d’une part, la construction d’une problématique
qui donne à lire la position théorique occupée et, d’autre part, l’effet de filtre que joue la fabrication des catégories. Si elles mettent en forme les données, si elles les simplifient, si elles
les résument, elles ne peuvent se passer d’une interprétation ; cela rappelle qu’elles ne sont pas
qu’une aide à la lecture des données mais qu’elles produisent aussi, compte tenu des opérations
qu’elles mettent en oeuvre, des effets propres sur la lecture de la réalité. Dans les méthodes de
traitement graphique des données, ce que nous disions, tant sur l’anamorphisme des objets que
sur l’effet de catégorisation du réel propre aux distributions, rejoint les positions que défend
cet auteur. Parfois les effets de catégorisation des variables, redoublés de l’oubli momentané
que leur ordonnancement n’est pas naturel mais seulement conventionnel, induisent dans les
représentations graphiques le retour inopiné d’une hiérarchisation mal contrôlée. Ce n’est pas
que nous voulions ici émettre quelque remarque critique tant sur un livre phare de la sociologie française, que sur un auteur dont les apports à cette dernière sont indéniables, mais il
est vrai que les graphiques de la page 15 de La distinction 129 sont la marque de ce genre
de lapsus statistique. Passons sur le fait que les diagrammes en bâton 130 y soient appelés
des histogrammes 131 , cette confusion est commune et elle ne porterait pas à conséquences
si elle n’était pas accompagnée de droites ou de courbes en forme de cloches qui laissent à
penser que la nature de la variable manipulée se confond avec l’ensemble des réels. Pierre
Bourdieu, par cette représentation, laisse entendre que les catégories sociales forment un axe
ordonné et hiérarchisé de manière stricte 132 , or, comme le font remarquer Alain Desrosières
127. Les individus (lignes) sont des plaques-boucles mérovingiennes décrites par la présence 1 absence de
26 caractères (colonnes). Les traitements comparés sont l’analyse factorielle, la classification automatique,
l’analyse hiérarchique, le classement visuel.
128. BERTIN (J.), (1980), op. cit. p. 61
129. BOURDIEU (P.), (19XX), La distinction. Critique sociale du jugement., op. cit., p. 15.
130. BOURDIEU (P.), (19XX), ibid. p. 14.
131. Ce n’est pas faire preuve d’une rigidité statistique que de rappeler qu’un histogramme est l’aire sous la
courbe des densités de fréquence et que le fait qu’il s’agisse d’une fonction implique que celle ci soit continue
sur x. Ce que, sans rentrer dans des considérations mathématiques, nous indique l’étymologie d’histogramme.
132. Le texte de Pierre Bourdieu (op. cit. p-p. 12-17) ne laisse à ce propos aucun doute. Il y parle successivement de : "corrélation la plus forte entre la performance et le capital scolaire" (ibid. p. 12), "d’histogramme"
(ibid. p. 14), "forte corrélation entre une variable dite indépendante et une variable dépendante" (ibid. p.16).
Quand il pondère son propos en insistant sur le fait que "On n’a rien expliqué, ni rien compris lorsque l’on
établit une forte corrélation" (ibid. p. 16) c’est pour affirmer "Ainsi, pour interpréter adéquatement les différences constatées, entre les classes ou au sein de la même classe, dans le rapport aux différents arts légitimes,
peinture, musique, théâtre, littérature, etc., il faudrait analyser complètement les usages sociaux, légitimes ou
illégitimes, auxquelles se prête chacun des arts, des oeuvres ou des institutions considérés" (ibid. p.17) ce n’est
pas les catégories sociales qu’il interroge mais les pratiques culturelles. Il serait aussi possible de montrer le
glissement sémantique opéré par Pierre Bourdieu entre catégories socioprofessionnelles et classes ou fractions
de classe si cela n’avait déjà était fait par Nicos Poulantzas. POULANTZAS (N.), (1974), Les classes sociales
dans le capitalisme aujourd’hui. Ed. Le Seuil, Paris, 1974, coll. Sociologie politique.
37
Figure 1.3 – Bourdieup15
et Laurent Thévenot, si ces catégories peuvent être pensées comme ’un grand axe’, 133 dans
le même temps ils insistent sur la multidimensionnalité de cet axe. A cet égard les courbes 1
et 3, dans les graphiques empruntés à Pierre Bourdieu, montrent comment, sur les caractères
’Le clavecin bien tempéré’ et ’Beau Danube bleu’, les catégories sociales qu’il considère ont des
comportements quasi antagonistes. La visibilité graphique de cette opposition des comportements est le résultat d’un ordonnancement des catégories qui reprend le grand axe dont nous
parlent Alain Desrosières et Laurent Thévenot et qu’illustre le plan factoriel emprunté à Alain
Desrosière et Michel Gollac 134 . Cet axe est le premier dans le cas d’une analyse factorielle
133. DESROSIÈRES (A.), THÉVENOT (L.), (19XX), Les mots et les chiffres : les nomenclatures socioprofessionnelles. Op. cit. p 56.
134. DESROSIÈRE (A.), GOLLAC (M.), (1982), Trajectoires ouvrières, systèmes d’emplois et comportements
sociaux, in Economie et Statistique, n° 147, 1982, p. 51.
38
Figure 1.4 – derogollacp51
multiple intégrant des caractères divers pour décrire une population ; il est quasiment stable
d’une étude à l’autre. Les catégories sociales dont il rend compte ne sont pas positionnées sur
l’axe comme des réels sur un axe. Elles contribuent à sa forme ou y sont corrélées. Elles ne sont
pas des points mais les centres de gravité des sous-ensembles des points que constituent les
individus affectés, entre autres, de l’appartenance à l’une des catégories sociales. Les exemples
qui permettent d’illustrer ce que nous avançons sont multiples et permettent tous de conclure
à la même difficulté de hiérarchiser de manière stricte et stable les catégories sociales. L’étude
faite par Alain Desrosières et Michel Gollac 135 , qui peut permettre de clarifier notre propos
montre la diversité de la catégorie ouvriers en expliquant comment elle recouvre des diversités
de trajectoires sociales et géographiques, d’emploi occupé, de lieu de résidence et de pratiques
socioculturelles. La méthodologie utilisée pour saisir la complexité de la catégorie ouvriers
fait apparaître l’existence d’un axe qui ordonne les catégories sociales, elle illustre la relative
stabilité de leur succession, enfin elle permet de voir que les centres de gravité que sont ces catégories ne sont pas sur l’axe. Pour autant, on entrevoit bien que la forme de courbe en cloche
que nous propose Pierre Bourdieu pour le caractère ’Rhapsody in blue’ est dépendante de
l’ordre qu’il donne à ses catégories sociales. Par ailleurs, on peut s’interroger sur l’algorithme
de lissage qui, à partir d’une distribution comme celle qui caractérise l’usage de ’Rhapsody in
blue’, produit une courbe symétrique ayant une forme gaussienne. Cette représentation gra135. DESROSIÈRE (A.), GOLLAC (M.), (1982), ibid., pp. 43-66.
39
phique ainsi examinée est un des exemples multiples 136 de l’oubli tout à la fois de la nature des
variables manipulées et du caractère conventionnel de leur hiérarchisation. Il illustre en quoi
les formes de représentations graphiques, qui sont un moment supplémentaire de l’objectivation de la réalité orientent le regard et produisent des effets qui sont spécifiques de la pensée
et des algorithmes qui les sous-tendent. Ainsi, aux classes moyennes correspond une musique
moyenne qui distribue normalement les pratiques musicales des groupes sociaux hiérarchisés
d’un moins de capital à un plus de capital dont la nature est difficile à préciser. L’exploitation
graphique des données présentées sous forme de tableau n’est pas la seule à s’exposer au risque
de contre-emploi des données. Comme le montre Jean-Claude Passeron 137 , la polysémie de la
variable âge quand elle est utilisée sur une des marges d’un tableau montre, à l’évidence, que
si la définition des variables doit se faire avant le début du travail de recherche, cela ne suffit
pas à résoudre les difficultés ultérieures d’interprétation : le constat d’une corrélation ou d’un
lien entre l’âge et un autre phénomène ne permet pas de conclure que la dépendance est due à
l’âge ; peut-être reflète elle seulement un effet de génération. Ce que reflète cette dépendance
statistique ne s’explique ainsi pas par l’âge mais par l’itinéraire social, professionnel, qu’ont
parcouru depuis leur naissance les personnes considérées. Sur un seul tableau la détermination de l’effet âge ou de l’effet cohorte ne peut être, comme le souligne Jean-Claude Passeron,
qu’un effet d’interprétation du chercheur : représentation déformée, voire étonnante, de la
réalité qu’ils sont sensés refléter au plus juste. "L’interprétation, et donc l’énonciation sociologique - qu’elle soit formulée par un statisticien ou un sociologue -commence lorsqu’on entreprend ici de choisir sur d’autres attendus que ceux livrés par le tableau lui-même une formulation conceptuelle spécifiant ce que mesure ’l’âge des sujets’. Ce risque doit être pris car
c’est le seul chemin qui permette de mettre un constat de ce type en relation avec d’autres
constats." 138 Si, sur bien des points, nous ne pouvons qu’acquiescer à ce type de propos qui
reflète la prise de risque interprétative, nous voulons insister sur la nécessité d’autant plus
grande de l’existence d’une problématique. Elle seule permet d’expliquer le choix des autres
constats avec lesquels on établit des relations, elle seule permet de justifier les interprétations
qui découlent de la mise en relation du contenu du tableau avec d’autres constats. Le sens que
l’on va ainsi donner à la variable dépend donc de la problématique et il est clair que la situation que décrit Jean-Claude Passeron ne peut survenir que d’un manque de problématique.
En fonction de ce qui est cherché le mode de relevé de l’âge est différent et, ainsi, les données
recueillies peuvent permettre de résoudre avec des moyens de calcul idoines l’alternative ’effet
âge/effet cohorte/effet période’ qui nous est donnée comme insurmontable par autre chose que
le raisonnement et la prise de risque. 139
136. KLATZMANN (J.), (19XX), Attention statistiques ! Comment en déjouer les pièges, op. cit. Cet ouvrage
contient, sur plus d’une centaine de pages, une variété d’exemples, soit de représentations graphiques soit de
calculs, qui ayant oublié ce qu’ils manipulent comme type de donnée, induisent une représentation déformée,
voire étonnante, de la réalité qu’ils sont sensés refléter au plus juste.
137. PASSERON (J.-C.), (19XX), Le raisonnement sociologique. L’espace nonpoppérien du raisonnement
naturel. op. cit., pp.111-133.
138. PASSERON (J.-C.), (19XX), ibid. p. 120. (souligné par l’auteur lui même)
139. L’utilisation de modèles log-linéaire généralisé avec un logiciel comme GLIM (Generalised Linear Interactive Modeling) développé par "the Working Party on Statistical Computing of the Royal Statistical Society",
Oxford, 1978, permet de différencier les aspects âge et cohorte de la mortalité générale ou par cause, à condition
que les données lui soit présentées sous la forme d’une matrice avec les âges en ligne et les périodes en colonne
et des taux de mortalité dans chacune des cellules.
40
1.5.7
Essai de conclusion
Les exemples donnés sur l’importance des formes prises par le dénombrement pourraient inviter à exposer plus longuement l’influence déterminante de cette opération sur les diverses
phases du travail de recherche. Il serait possible de montrer notamment comment le dénombrement détermine, dès sa mise en oeuvre, les diverses techniques de traitement des données
qui sont utilisées ultérieurement. Cette incitation à prolonger notre texte, si nous voulions y
répondre, nécessiterait, non pas une simple extension de ce que nous présentons là, mais un
tout autre argumentaire qui impliquerait que nous élargissions notre réflexion au delà du lien
qu’entretiennent quantification et construction de l’objet. L’entrée dans cette nouvelle aventure nécessiterait que l’articulation du propos se fasse sur le lien complexe qui existe entre la
construction de l’objet, la forme des données et leur mode de traitement. Notre expérience du
travail de recherche en collaboration avec des "médecins chercheurs" a depuis longtemps attiré
notre attention sur l’existence d’un double mouvement. Tantôt sont disponibles des données
épidémiologiques ou cliniques dont le mode de recueil n’a pas été dicté par une problématique bien établie et l’on veut montrer l’existence de telle ou telle relation ; la question qui
se pose alors est : quelle méthode de calcul permet à la fois d’arriver à la confirmation de
l’intuition et d’exprimer le résultat avec un intervalle de confiance. Tantôt, la presse médicale
fait mention de l’utilisation de méthodologies de traitement des données ; il s’agit alors, soit
de construire ou de recueillir, soit d’exhumer des informations qui permettront de les utiliser.
Ainsi, et semble-t-il sans que cela ne pose d’autres questions que celles de la difficulté et de
l’intérêt respectif de toutes les méthodes, un sous-ensemble de la communauté scientifique
médicale oscille entre, d’une part la recherche de techniques qui puissent traiter des données
recueillies sans construction préalable d’un objet de recherche et, d’autre part, la quête de
données pour éprouver les dernières techniques sans que l’utilisation de celles-ci soient dictées
par une nécessité interne à l’objet d’étude. L’analyse des rapports entre les données et leur
traitement, comme l’illustre l’exemple médical, excède le simple champ de l’épistémologie pour
ouvrir sur une anthropologie de la production scientifique telle qu’elle a été développée par des
auteurs comme Alfred Shütz 140 ou encore Bruno Latour et Steve Woolgar 141 . Cette dimension
anthropologique complétant l’étude épistémologique permettrait, sans doute, de formuler une
explication sociologique de la mise en scène d’une recherche médicale qui privilégie l’utilisation
des données quantitatives et des modes de traitement sophistiqués de données plutôt que la
recherche clinique. Peut-être ainsi entreverrions nous ce qui à nos yeux n’est qu’une intuition : d’une part une diminution du champ d’application du paradigme clinique 142 au soin des
malades et d’autre part qui, comme le paradigme clinique qui avait au XIXème siècle mis à
distance la souffrance et la parole du malade, met à distance le corps en le faisant disparaître,
soit dans le nombre, soit dans la parcellisation. La mise en place de ce nouveau paradigme
redistribue tout à la fois les rapports des médecins chercheurs tant avec les malades qu’avec
140. SCHUTZ (A.), (19XX),Le chercheur et le quotidien. Phénoménologie des sciences sociales. (trad. Anne
Noschis-Gilliéron) ; Paris, éditions Méridien Klincksieck, 1994, 20 édition, 286 p.
141. LATOUR (B.) WOOLGAR (S.), (19XX), La vie des laboratoires. La production des faits scientifiques.,
(trad. Michel Biezunski) Paris, éditions de la Découverte, 1988, 300 p.
142. On peut essayer de caractériser la définition que cet auteur donne du paradigme médical et de son
émergence : "Comment l’espace plat, homogène des classes peut-il devenir visible dans un système géographique
de masses différenciées par leur volume et leur distance ? Comment une maladie, définie par sa place dans une
famille, peut-elle se caractériser par son siège dans un organisme ? C’est le problème de ce qu’on pourrait appeler
la spatialisation secondaire".Michel FOUCAULT (M.), (19XX), Naissance de la clinique. Une archéologie du
regard médical., Paris, 1983, édition PUF, coll. Galien, 5ème édition, p. 8
41
leurs pairs. Cette redistribution s’accompagne d’une modification des modes de légitimation :
être un bon médecin, ce n’est plus être bon clinicien et être reconnu comme tel, c’est publier
sous une forme mathématisée les résultats de ses recherches et l’exposé de sa pratique clinique
quand on en maintient une. L’exemple que nous avons esquissé est extérieur à la sociologie.
Cette réflexion, qu’il nous est plus facile de mener sur un champ scientifique auquel nous ne
participons qu’à temps partiel, pourrait sans doute s’étendre à notre discipline de rattachement
et, plus particulièrement, à la façon dont on essaie par un traitement sophistiqué des données
de pallier la faiblesse de construction des objets. Ces pistes de recherche pourraient à terme
venir compléter l’exposé que nous avons tenté sur les mécanismes et les difficultés inhérentes
à une approche des faits sociaux par le dénombrement. Au terme de ce préambule il paraît
nécessaire de rappeler ce qui semble avoir émergé dans ce texte : Tout d’abord l’impossibilité à
faire la part du scientifique et du non scientifique à partir de l’existence ou de la non existence
d’une commande. Cette dernière, bien que pouvant prendre des formes diverses, influe sur la
forme du travail. Ensuite, deux thèmes se sont affirmés au fil des pages de ce travail. D’une
part le dénombrement n’est pas une opération de simple comptage mais implique pour son
effectuation des opérations complexes de définition à des fins de distribution du réel. D’autre
part dénombrer n’est pas un équivalent de quantifier : dénombrer peut permettre, comme nous
avons essayé de le montrer, de donner, non une mesure de l’objet étudié, mais une représentation de sa forme. Ainsi pensons-nous avoir rappelé, si cela était utile, que l’opposition entre
démarche quantitative et qualitative n’est pas aussi nette que l’opinion le laisse entendre.
42
Chapitre 2
Rappels de statistiques élémentaires
Avant toute mise en œuvre d’une quelconque technique statistique il convient de s’assurer
de la nature des variables manipulées. De leur nature dépend le sens qu’auront les résultats
obtenus. Il est au demeurant assez facile d’obtenir une moyenne sur une variable sexe dès lors
que l’on a appliqué une convention de codification telle que celle de l’INSEE qui s’exprime au
travers de Homme = 1, Femme = 2. Que voudrait dire d’obtenir à un tel calcul une valeur
moyenne de 1,5 ?
Certainement pas que le sexe dans cette population a comme moyenne 1.5, mais que nous
sommes en présence d’une population comportant 50 % d’hommes et 50 % de femmes. Le
risque de produire des résultats de ce type s’est fortement aggravé avec l’apparition des logiciels
" presse bouton ".
2.1
Deux types de variables
On peut les classer en deux grands types : quantitatives ou qualitatives. Les quantitatives appelées encore numériques représentent soit des quantités (nombres cardinaux) soit des
classements (nombres ordinaux). Elles sont régies par un ordre strict qui leur est inhérent.
Les variables qualitatives appelées quelques fois alphanumériques représentent des caractéristiques de forme de situation ou de statut. Elles ne sont pas régies par un ordre strict mais
conventionnel.
2.1.1
Les variables quantitatives
Les variables cardinales : Numériques discontinues ou discrètes, elles représentent des quantités
entières :
Exemples :
nombre d’enfants
nombre de pièces d’un logement
nombre de partenaires. . .
Les variables numériques continues : Elles représentent des quantités ou des mesures des
scores :
Les variables ordinales Elles représentent des classements des choix des préférences :
43
2.2. Dénombrement, classification, statistique
Exemples :
distance entre deux points
taux de natalité
revenus. . .
Exemples :
ordre d’arrivée
numéro dans une rue. . .
ordre de préférence entre divers objets. . .
2.1.2
Les variables qualitatives
Les variables non ordinales
L’ordre qu’elles reflètent est conventionnel : on a l’habitude de donner comme équivalent à
oui le chiffre 1 et le 2 pour non. On peut très bien inverser cette convention sans que cela ne
change quoique ce soit à la distribution.
Les variables ordinales
Quand elles sont qualitatives, elles ne reflètent pas un ordre strict, la distance entre deux
successeurs n’est ni explicite ni homogène : A la question : "Aimez-vous untel : pas du tout,
Exemples :
Pas du tout
Un peu
Beaucoup
Passionnément
À la folie
Code1
0
1
2
3
4
Code2
0
5
6
7
12
un peu, beaucoup, passionnément, à la folie ? Les deux types de codage proposés pour les
modalités de réponse reflètent des logiques de pensé différentes. Le premier codage (0,1,2,3,4)
ne prend en compte que l’intensité et suppose que les écarts qui existent entre chaque niveau
de l’échelle proposée sont de même taille, qu’ils représentent la même distance. Le second
codage essai de mettre en évidence la rupture qui existe entre ne pas aimer et aimer d’une
part et entre aimer même passionnément et aimer de manière déraisonnable (à la folie) d’autre
part. Ce deuxième codage essaie de mettre en évidence les changements d’état que dissimulent
les modalités d’une telle variable à la fois qualitative et ordinale. On aime ou on aime pas, on
et raisonnable ou pas.
2.2
Dénombrement, classification, statistique
Ces termes sont proches pour autant il correspondent à des organisations des données différentes. Le dénombrement correspond à une des formes les plus anciennes de l’activité démographique, il s’agit d’établir des listes d’individus présentant un certain nombre de caractéristiques
accolées un identificateur. La classification correspond à la fabrication de sous-listes en fonction d’un ou de plusieurs critères. La statistique correspond à des opérations de comptage
des individus en fonction d’un ou de plusieurs critères. Les opérations de dénombrement ou
encore de recensement comme celle de classification permettent le retour aux unités qui ont
été dénombrées ou classifiées. Les statistiques ne permettent plus quant à elles de retourner
aux individus.
44
Dénombrement
Figure 2.1 – Exemple de dénombrement
Identifiant
ID01
ID02
ID03
ID04
ID05
ID06
ID07
ID08
ID09
ID10
Sexe
H
F
F
H
F
H
F
F
H
F
Activité
O
N
O
N
O
N
N
O
O
O
Classification
Figure 2.2 – Deux exemples de classification sur un critère
HOMME
FEMME
ID02
ID01
ID04
ID03
ID06
ID05
ID09
ID07
ACTIF
NON-ACTIF
ID01
ID02
ID03
ID04
ID05
ID06
ID08
ID07
ID08
ID10
ID09
ID10
Une classification peut se faire comme un tri sur un ou plusieurs critères mais elle permet
de retrouver les éléments qui participent à chacun des groupes. La classification précédente
Figure 2.3 – Un exemple de classification sur deux critères
ACTIF
NON-ACTIF
HOMME
ID09
ID02-ID04-ID06
FEMME
ID01-ID03-ID05-ID09-ID10
ID07
comporte 4 groupes l’un constitué des femmes actives (ID01-ID03-ID05-ID09-ID10), le l’autre
des hommes non-actifs (ID02-ID04-ID06) et enfin de 2 groupes l’un comportant une femme
non-active (ID07) l’autre comportant un homme actif (ID09).
45
Statistique
La statistique ne permet pas de retrouver les individus : En fonction des ouvrages et des loFigure 2.4 – Deux exemples de statistique sur un critère
HOMME
FEMME
4
6
ACTIF
NON-ACTIF
6
4
giciels utilisés ce type d’opération qui consiste à faire correspondre à chacune des modalités
d’une variable un effectif est dénommée tri à plat, distribution sur un critère, distribution
monovariée.
Figure 2.5 – Un exemple de statistique sur deux critères
ACTIF
NON-ACTIF
TOTAL
HOMME
1
3
4
FEMME
5
1
6
TOTAL
6
4
10
En fonction des ouvrages et des logiciels utilisés ce type d’opération qui consiste à faire correspondre à l’intersection de chacune des modalités de deux variables un effectif est dénommée
tri croisé, distribution sur deux critères, distribution bivariée.
Ce tableau ressemble étrangement à celui présentant une classification sur deux critères, pourtant il en diffère par a lecture que l’on peut en faire. Le groupe le plus nombreux est celui des
hommes non-actifs il comprend 5 personnes ce qui représente la moitié de la population étudiée, le second groupe par ordre décroissant d’effectif est celui des femmes actives il comporte
3 personnes. Enfin deux autres groupes de 1 personne, celui des hommes actifs et celui des
femmes inactives. D’autres lectures de ce tableau sont possibles : cette population comporte
un peu plus d’actifs que d’inactifs (6 actifs pour 4 inactifs) ; cette population comporte un
peu plus de femmes que d’hommes (6 hommes pour 4 femmes). On peut encore continuer en
s’attachant à une lecture en colonne écrire que dans cette population quand on est en présence
d’un homme 1 fois sur 4 il est actif, que si on est en présence d’une femmes que 5 fois sur 6
elle est active ou encore en s’attachant à une lecture en ligne écrire que lorsqu’on rencontre
un actif 1 fois sur 6 c’est un homme et que lorsque l’on rencontre un inactif 3 fois sur quatre
c’est un homme.
Dans les dénombrement et les classifications, on peut retrouver les individus ; dans les statistiques on perd les individus et on voit des quantités qui traduisent des formes. Cette opération
fait perdre une certaine partie de l’information, (les caractéristiques de chacun) mais dans le
même temps elle permet d’exprimer de comparer des quantités. Cette opération correspond
ce qu’en mathématique on appelle une distribution ; distribution d’un ensemble de départ la
population vers un ensemble d’arrive comportant une partition. Cette partition n’est jamais
46
naturelle, elle est toujours le résultat d’une opération intellectuelle. Les catégories d’actifs, de
genre ne sont pas naturelles mais des construits sociaux.
Distribution
Sur un plan mathématique, une distribution est une application de Ω sur �. Plus précisément
Figure 2.6 – Distribution
pour des variables quantitatives, une distribution est une application d’un caractère X des
éléments de l’ensemble Ω sur l’ensemble � des xi qui décrivent le caractère X.
Si pour les variables quantitatives, cette définition est immédiatement utilisable, pour les
variables qualitatives, cette opération est impossible à réaliser sauf à bricoler une table de
correspondance entre les modalités des variables qualitative et des valeurs numériques. Il est
donc nécessaire de construire une autre définition utilisable pour les types de variables. Cela
constitue une phase spécifique du travail statistique : le codage des questionnaires.
Une distribution est une application d’une variable X définissant les individus d’une population
Ω sur l’ensemble � des modalités xi qui décrivent la variable X.
Figure 2.7 – Quelques équivalences de vocabulaire
Ensemble
Élément
Caractère
�
Population
Individu
Variable
Modalité
Dans la première colonne on trouve un vocabulaire plutôt mathématique ou ensembliste, dans
la seconde on trouve un vocabulaire plus démographique : population ou échantillon (toutes
les personnes, toutes les institutions, tous les objets dont on possède le questionnaire), puis
l’individu (une personne, une institution, un objet), puis la variable retenue (le genre, la taille,
le prix) et enfin la modalité (homme ou femme, grand(e) ou petit(e), cher ou bon marché).
47
2.3. Quelques principes de notation
Figure 2.8 – Distribution
2.3
Quelques principes de notation
Figure 2.9 – Cohérence dans la notation des variables
Série 1
Série 2
ni
fi
N
�
Ω
�
�r
� i=1 xi
�s−1
j=1 yj
δ
∆
x
Me
Q1 ... Q4
D1 ... D1 0
C1 ... C1 00
V(x)
σ(x)
ρ
cov(x,y)
2.4
Variable
X
Y
Indice
i
j
Variable provisoire
u
v
Multiplicateur
h
k
Dernière variable
r
s
effectif partiel
fréquence partielle
effectif total
ensemble des réels
ensemble ou population �
indique une sommation
xi = x1 + x2 + ... + xi + ... + xr
indique que l’on fait la somme du premier�au dernier des xi
indique un produit sur tous les éléments yi = y1 × y2 × ... × yj × ys
indique que l’on fait le produit du premier l’avant dernier des yj
est utilisé pour les densités
est utilisé soit pour le résultat d’un écart, soit pour identifier une droite
est utilisé pour la moyenne des modalités xi de la variable x
est utilisé pour la médiane
sont utilisés pour les quartiles
sont utilisés pour les déciles
sont utilisés pour les centiles
est utilisé pour la variance des modalités xi de la variable x
est utilisé pour l’écart type des modalités xi de la variable x
est utilisé pour le coefficient de corrélation linéaire
est utilisé pour la covariance des modalités xi et yj des variables x et y
Quelques rappels sur les opérations
L’addition et la soustraction dans � sont associatives et commutatives, on peut donc regrouper
des parties de calcul et modifier l’ordre des calculs sans affecter le résultat, leur élément neutre
48
2.5. Diverses représentations d’une distribution
est le nombre 0.
Exemples
n1 + n2 + n3 + n4 = N
(n1 + n4 ) + (n3 + n2 ) = N
1 + 2 + 3 + 4 = 10
(1 + 4) + (3 + 2) = 10
5 + 5 = 10
La multiplication et la division dans � sont associatives et commutatives, on peut donc regrouper des parties de calcul et modifier l’ordre des calculs sans affecter le résultat, leur élément
neutre est le nombre 1.
n1 × n2 × n3 × n4 = N
(n1 × n4 ) × (n3 × n2 ) = N
1 × 2 × 3 × 4 = 24
(1 × 4) × (3 × 2) = 24
4 × 6 = 24
Attention : Lorsque l’addition, la soustraction, la multiplication et la division dans � sont
mélanges, il existe une priorité implicite de calcul lorsque vous utilisez vos calculettes. Les
calculettes notation polonaise inverse ne nécessitent pas l’utilisation de parenthèses mais demande une bonne attention à l’ordre dans lequel sont introduites les valeurs et les opérateurs.
Les parenthèses servent à préciser les blocs de calcul effectuer, leur ordre ou emboitement.
D’une manière générale, pour la précision des calculs, effectuez toujours les multiplications
avant les divisions.
Petits rappels.
(N/0) est une opération impossible, on peut approcher cette impossibilité en disant qu’il s’agit
de répartir quelque chose entre personne. Donner quelque chose à personne est une opération
impossible.
(0/N ) est possible et correspond donner une quantité égale à 0 à N individus. Ne rien donner
à une ou plusieurs personnes est quelque chose de tout fait réalisable.
2.5
Diverses représentations d’une distribution
Sous forme de tableau.
Les nombres de maladies déclaré sont des valeurs xi . Les quantités d’individus qui correspondent un nombre de maladies déclaré sont des effectifs partiels, on les note ni . La somme
des effectifs ni donne l’effectif total que l’on note N .
r
�
ni = N
i=1
Cette formule indique que si l’on fait la somme de toutes les classes ni qui constituent la
population N , on obtient la population N .
2.5.1
Le Diagramme en bâtons
Sous forme de graphique cartésien ou diagramme en bâtons, on peut représenter le nombre
d’individus en fonction du nombre de maladies déclaré dans un diagramme.
49
2.6. Les fréquences :
Figure 2.10 – Nombre de maladies déclaré en Basse-Normandie
Nombre de maladies déclaré xi
0
1
2
3
4
5
6
7
8
9
10
11
12
13
Total
Nombre d’individus ni
582 927
318 086
184 226
103 225
70 301
38 224
24 911
12 428
7 967
3 290
1 637
1 978
701
305
1 350 206
Figure 2.11 – Diagramme cartésien (en bâtons)
2.6
Les fréquences :
Ce sont des nombres décimaux compris entre 0 et 1. Dans une distribution le plus petit effectif
que peut représenter ni est 0 s’il n’y a personne dans la classe, le plus grand est N si tous les
individus sont dans la même classe. Dans le premier cas 0/N = 0, dans le second N/N = 1.
Elles s’obtiennent en divisant un effectif partiel par la population totale. Tout cela peut être
résumé par les quatre formules suivantes :
fi =
50
ni
N
0 ≤ ni ≤ N
0
ni
N
≤
≤
N
N
N
0 ≤ fi ≤ 1
La première indique comment on calcule une fréquence, la seconde indique que ni est compris
entre 0 et N , la troisième et la quatrième
montrent que fi ne peut varier qu’entre 0 et 1.
�
Nous avons vu précédemment que ri=1 ni = N on peut démontrer que la valeur maximum
d’une fréquence est 1.
r
�
i=1
r
�
i=1
r
�
i=1
fi = 1
fi =
n1 n2
ni
nr
n1 + n2 + ... + ni + ... + nr
+
+ ... +
+ ... +
=
N
N
N
N
N
fi =
N
=1
N
Les pourcentages
Ils recouvrent deux réalités différentes. Lorsqu’ils sont compris entre 0 et 100 ils peuvent
représenter soit une fréquence multiplie par 100, soit un coefficient multiplicateur. En revanche,
lorsque le pourcentage est supérieur à 100 il ne peut pas s’agir d’une fréquence multipliée
par 100. Les pourcentages négatifs sont aussi des coefficients multiplicateurs indiquant une
décroissance.
2.6.1
L’histogramme et sa construction :
D’un point de vue mathématique, il s’agit de l’aire sous la courbe en escalier des densités de
fréquences dans une série regroupe en classes. C’est donc une surface. C’est une représentation
par une surface. Que l’on trace ou que l’on lise un histogramme, ce qui est important, c’est la
taille des surfaces et non leur hauteur.
Figure 2.12 – Fonction en escalier
Si on s’intéresse l’étymologie du terme, histo dans histogramme est de la même origine que
histo dans histologie à savoir tissu. L’histologie est en médecine l’étude des tissus. Donc histo,
dans histogramme nous indique bien qu’il s’agit d’une représentation par une surface.
51
Concrètement, pour le tracé, on n’utilise pas les notions d’aire sous la courbe et de courbe en
escalier, on calcule les densités de fréquence sur des intervalles entre des bornes.
Les densités de fréquence en statistiques ou densité de probabilité en probabilité s’expriment
par des nombres décimaux qui ne sont pas forcément compris entre 0 et 1 qui correspondent au
rapport qui existe entre une quantité d’une chose et une quantité d’autre chose exprimée sous
la forme d’une quantité, d’une distance, d’une surface, d’un volume. Les deux quantités n’ont
pas besoin d’être de même nature. Par exemple : nombre de perles rouges parmi l’ensemble
des perles d’un sac, de piquets par rapport la longueur d’une clôture, de personnes par rapport
la surface d’une pièce, de sucre par rapport un volume de café.
δ(fi ) =
fi
f requence
=
∆i
amplitude
Ce faisant, on effectue une opération intellectuelle qui modifie la réalité, sur l’intervalle que
représentent les deux bornes d’une classe on considère que la densité est identique.
Figure 2.13 – Ménages ordinaires dans l’enquête la Basse-Normandie devant sa santé
Classes
Borne inf
Borne sup
Bornes
Amplitudes
0
10
0
10
10 à 19 ans
10
20
10
20 à 49 ans
20
50
50 à 59 ans
50
60 à 69 ans
fi
δ(f i)
165 977
0,1229
0,0123
10
198 637
0,1471
0,0147
20
30
551 353
0,4083
0,0136
60
50
10
123 929
0,0918
0,0092
60
70
60
10
148 624
0,1101
0,0110
70 à 79 ans
70
80
70
10
118 729
0,0879
0,0088
80 à 89 ans
80
90
80
10
37 547
0,0278
0,0028
90 et plus
90
100
90
10
5 410
0,0040
0,0004
143
Somme
1 350 206
1,0000
0 à 9 ans
Limite
100
ni
Les densités de fréquence calculées pour chaque classe postulent que l’on considère que la
population est uniformément répartie entre leurs bornes. Cela revient dire que pour la classe
des 10-19 ans, il y a autant d’individus qui ont 10, 11, 12, ..., 19 ans et que, pour chaque
âge, il y a autant d’individus nés chaque jour de l’année, chaque heure de chaque jour, chaque
minute de chaque heure, etc.
Le tracé d’un histogramme consiste dans le calcul des densités de fréquence de chaque classe.
Pour ce faire on divise, comme l’indique la formule précédente, la fréquence de la classe par
son amplitude. Sur un diagramme cartésien on utilise l’axe des abscisses (l’axe horizontal)
pour y reporter les bornes des classes. Ici on est dans un cas classique mais qui mérite une
explication la bonne supérieure de la classe 10-19 est 20 puisque on a 19 ans jusqu’à ce que
l’on ait 20 ans, 19 ans ne correspond pas à une valeur discrète mais à une valeur continue
d’une durée d’une année. Sur l’axe des ordonnées (l’axe vertical) on reporte les densités de
143. Les valeurs sur fond jaune sont les bornes des classes.
52
2.7. Les fréquences cumulées croissantes et décroissantes
fréquence. Pour chaque borne on reporte les valeurs des densités de fréquence (δfi ), puis on
trace les traits horizontaux et verticaux qui matérialisent la surface qui représente l’effectif de
chaque classe. Une fois ce travail fini, on efface l’échelle des densités de fréquence et on reporte
les effectifs de chaque classe au dessus ou l’intérieur des surfaces.
Figure 2.14 – Eléments de tracé
Figure 2.15 – Tracé définitif de l’histogramme
2.7
Les fréquences cumulées croissantes et décroissantes
La courbe des fréquences cumulées croissantes permet de connaître quelle proportion d’individus a un caractère xi inférieur à une valeur-seuil.
La courbe des fréquences cumulées décroissantes permet de connaître quelle proportion d’individus a un caractère xi supérieur à une valeur-seuil.
Les points qui correspondent à la valeur des fréquences cumulées aux bornes des classes sont
joints par des segments de droite. Cela correspond à la même hypothèse d’équipartition des
effectifs à l’intérieure des classes. Toute autre forme de jonction entre ces points indiquerait
que la répartition entre les bornes n’est pas uniforme. La formule générale de calcul de cette
interpolation linéaire est :
53
2.7. Les fréquences cumulées croissantes et décroissantes
Figure 2.16 – Tracé des courbes des fréquences cumulées croissantes et décroissantes
Figure 2.17 – Population des ménages ordinaires de l’enquête la Basse-Normandie devant sa
santé
Classes
0 à 9 ans
10 à 19 ans
20 à 49 ans
50 à 59 ans
60 à 69 ans
70 à 79 ans
80 à 89 ans
90 et plus
Somme
Borne inf
0
10
20
50
60
70
80
90
Borne sup
10
20
50
60
70
80
90
100
Bornes
0
10
20
50
60
70
80
90
100
Fi
0,1229
0,1471
0,4083
0,0918
0,1101
0,0879
0,0278
0,004
0,9999
X −x
X − inconnu
=
F −f
F − f (inconnu)
FCi↑
0
0,1229
0,27
0,6783
0,7701
0,8802
0,9681
0,9959
0,9999
FCi↓
1
0,8771
0,7300
0,3217
0,2299
0,1198
0,0319
0,0041
0,0001
F est la fréquence de la borne supérieure de la classe incluant la valeur inconnue (cherchée)
f est la fréquence de la borne inférieure de la classe incluant la valeur inconnue (cherchée)
X est la borne qui correspond à F
x est la borne qui correspond à f
Cette formule permet de calculer aussi bien une fréquence cumulée inconnue croissante en
fonction d’une valeur connue, qu’une valeur inconnue en fonction d’une fréquence cumulée
croissante connue. La valeur inconnue peut être la médiane, un qua rtile, un décile, un centile
ou toute autre valeur comprise entre le minimum et maximum de la distribution. La fréquence
inconnue peut être n’importe quelle fréquence entre 0 et 1. Les calculs peuvent être faits sur
les fréquences ou les pourcentages. En revanche, il faut être cohérent sur la manière d’exprimer
les proportions, on ne peut pas mélanger dans un même calcul fréquences et pourcentages.
54
Chapitre 3
Les valeurs centrales des distributions
Les valeurs centrales servent à fournir un résumé de la dispersion des modalités d’une variable
retenue pour caractériser les individus d’une population. On cherche à remplacer cette diversité
par un nombre unique qui donne une bonne idée, un bon ordre de grandeur de ce qui est
observé. Cela vise à permettre en première approximation à comparer deux séries en ramenant
leur comparaison à celle de deux nombres. Les valeurs centrales doivent répondre à un certain
nombre de critères qui ont été précisés dans la littérature statistique. Ces critères réduisent
l’arbitraire qu’il y aurait à construire de multiples valeurs centrales. Pour autant, il existe de
nombreuses manières de fabriquer des valeurs centrales si on ne suit pas les recommandations
classiques que l’on trouve dans la littérature. Yule avait précisé ces critères, il en proposait
six :
– La valeur centrale doit être indépendante des observateurs et ne pas être liée à leur appréciation. Elle doit être définie de manière objective.
– Elle doit être le reflet de toutes les valeurs de la série considérée. Quelques fois cependant on
peut choisir une valeur exceptionnelle de la série ou une anomalie de la série pour caractériser
cette dernière.
– Elle doit être facile à concevoir et avoir une signification concrète.
– Elle doit être simple à calculer.
– Elle doit être faiblement sensible aux fluctuations de l’échantillonnage. C’est-à-dire que si
on calcule cette variable centrale dans un échantillon correctement élaboré, elle doit être
proche de la même valeur centrale dans la population générale dont est issu l’échantillon.
– Elle doit se prêter des calculs ultérieurs surtout si l’on doit caractériser plusieurs séries.
Il est à noter que cette valeur centrale peut être soit une valeur réellement observée dans la
série soit une valeur intermédiaire qui n’est pas observable dans la série.
3.1
La médiane
Définition : La médiane est une valeur qui sépare un ensemble Ω en deux sous-ensembles
Ω’ et Ω” d’effectifs égaux. Dans Ω’ l’ensemble des xi est inférieur à la médiane. Dans Ω”
l’ensemble des xi est supérieur à la médiane. Cela s’écrit ∀xi ∈ Ω’, xi ≤ M e pour la premier,
et ∀xi ∈ Ω”, xi ≥ M e pour la seconde.
X −x
X − Me
=
F −f
F − f (M e)
55
3.1. La médiane
Par exemple la médiane des âges est un âge tel que la moitié des personnes a un âge inférieur
et l’autre moitié un âge supérieur.
Mode d’emploi pour calculer une médiane :
Dans le tableau chercher parmi les fréquences cumulées croissantes les fréquences qui encadrent
la fréquence 0,5 qui correspond à la fréquence de la médiane.
F est la fréquence qui constitue la borne supérieure de cet encadrement.
f est la fréquence qui constitue la borne inférieure de cet encadrement.
X est la borne qui correspond à F
x est la borne qui correspond à f
Me est la valeur de la médiane (ce que l’on cherche dans le cas présent).
f(Me) est gal 0,5 .
Exemple de calcul sur la distribution des âges de la population de l’enquête santé
50 − 20
50 − M e
=
⇒
0, 678 − 0, 270
0, 678 − 0, 50
30
50 − M e
=
⇒
0, 408
0, 178
5, 34 = 0, 408(50 − M e) ⇒
5, 34 = 20, 4 − 0, 408(M e)
5, 34 − 20, 4 = −0, 408(M e) ⇒
Me =
5, 34 − 20, 4
−15, 06
⇒
⇒ 36, 9
−0, 408
−0, 408
La médiane est très intéressante comme valeur centrale car elle n’est pas sensible aux valeurs
extrêmes (celles-ci n’interviennent pas dans son calcul). Elle se prête assez mal aux calculs
ultérieurs, par exemple, quand on a calculé la médiane de deux séries, on ne peut pas connaître
la médiane des deux séries confondues. Mais, en revanche, elle possède une propriété importante : la somme de la valeur absolue des écarts de tous les éléments de la série par rapport
la médiane est minimum.
Elle est utilisée dans des indicateurs économiques comme celui du seuil de pauvreté qui est
égal, en France, pour une personne seule à 50% ou 60% du revenu médian.
3.1.1
D’autres valeurs centrales de même nature que la médiane
Les quartiles : Ils sont au nombre de 4. On les note : Q1 , Q2 , Q3 , Q4 . Ils correspondent aux
fréquences cumulées : 0.25, 0.50, 0.75, 1.0
Les déciles : Ils sont au nombre de 10. On les note : D1 , D2 , . . . , D5 , . . . D10 . Ils correspondent
aux fréquences cumulées : 0.1, 0.2, . . . , 0.5, . . . , 1.
Les centiles : Ils sont au nombre de 100. On les note : C1 , C2 , . . . , C50 , . . . , C100 . Ils correspondent aux fréquences cumulées : 0.01, 0.02, . . . , 0.50, . . . , 100.
Remarque : On note que Q2 , D5 , C50 correspondent la même fréquence cumulée croissante :
0,50.
144. Unité : euros constants de 2007. Source : Insee, personnes vivant en France métropolitaine dans un
ménage dont le revenu déclaré au fisc est positif ou nul et dont la personne de référence n’est pas étudiante
56
3.2. Le mode
Figure 3.1 – Evolution des seuils de pauvreté mensuels
Année 144
1970
1975
1979
1984
1990
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
3.2
Seuil à 60%
473
595
686
713
760
778
776
791
809
826
844
863
863
861
876
890
908
Seuil à 50%
395
497
573
595
635
649
648
660
675
690
705
719
720
718
730
741
757
Le mode
Le mode qui est souvent noté sous la forme d’un M est la valeur qui correspond, quand les
classes sont inégales, à la classe dont la densité de fréquence est la plus grande. Quand les
classes sont égales ou quand la distribution se fait sur une variable discrète, c’est la modalité
de la variable qui correspond l’effectif le plus important ou la plus grande fréquence quand la
distribution est exprimée en fréquences. C’est donc sur un histogramme ou sur un diagramme
en bâtons suivant le cas la modalité qui correspond à la classe ou au point le plus haut. La
détermination du mode ne correspond pas un mode de calcul particulier. La manière dont
sont découpées ou regroupées les classes influent assez fortement sur la valeur du mode.
3.3
Les moyennes
Calculer une moyenne revient à chercher le point d’équilibre d’un système , ce point d’équilibre
dépend la fois de la masse des objets du système et de leurs positions relatives dans le système.
Un bon exemple de la relation entre masse et distance est la balance romaine, on équilibre une
masse importante situe sur un plateau près du point de suspension en déplaçant plus ou moins
loin de ce point de suspension une masselotte beaucoup plus légère afin d’obtenir l’équilibre.
L’importance de la distance de la masselotte au point de suspension compense l’importance
de la masse posée sur le plateau. L’équilibre ainsi obtenu peut être détruit soit en modifiant la
quantité contenue sur le plateau de la balance, soit en modifiant la distance de la masselotte
au point d’équilibre. Dans le calcul de la moyenne la distance correspond xi la masse ni
57
3.3. Les moyennes
Figure 3.2 – Principe la base de la moyenne
Figure 3.3 – La balance romaine comme illustration du principe la base de la moyenne
3.3.1
Les moyennes arithmétiques et algébriques
Elles sont les plus connues et les plus utilisées au point que lorsque rien n’est précisé, c’est de
l’une d’elles dont il s’agit. La première s’effectue sur des nombres positif �+ , la seconde sur
l’ensemble des nombres positifs ou négatifs �. Elles peuvent se calculer soit en utilisant les
fréquences (fi ) soit en utilisant les effectifs (ni ). Ces deux façons de faire se retrouvent dans
les deux formules suivantes qui sont équivalentes.
x=
�r
i=1 fi xi
x=
1
N
Si on utilise des pourcentages la formule devient x =
x=
�r
i=1 ni xi
1
100
r
1 �
ni x i ⇒
N
�r
i=1 pourc.i xi
i=1
n1 x 1
+ ... +
N
n1
x1 + ... +
N
ni x i
+ ... +
N
ni
xi + ... +
N
nr x r
⇒
N
nr
xr ⇒
N
f1 x1 + ... + fi xi + ... + fr xr =
r
�
fi xi
i=1
Les principes l’œuvre dans la détermination de la moyenne font qu’elle est indépendante de
l’origine et de l’unité de mesure qui sert se repérer dans le système qu’elle décrit.
Il est ainsi possible de calculer une moyenne algébrique en changeant d’origine et/ou d’échelle.
Pour se faire, on choisit un centre de classe x0 si possible situé au centre de la distribution et
58
3.3. Les moyennes
correspondant un effectif ni important. On cherche une valeur h qui correspond au plus grand
diviseur des intervalles entre les centres de classe. Ce nombre n’est pas forcément un entier.
ui =
xi − x0
⇒ xi = hui + x0
h
Figure 3.4 – Calcul de la moyenne d’âge des moins de 90 ans dans l’enquête santé
Classe
0 à 14 ans
15 à 29 ans
30 à 59 ans
60 à 74 ans
75 à 89 ans
Total
Moyennes
ni
262220
265596
512079
218788
86112
1344795
ui
-5
-3
0
3
5
xi
7,5
22,5
45
67,5
82,5
Borne inf
0
15
30
60
75
Borne sup
15
30
60
75
90
ni x i
1966650
5975910
23043555
14768190
7104240
52858545
x = 39, 3
ni u i
-1311100
-796788
0
656364
430560
-1020964
u = −0, 7592
Dans le tableau 2.3 on choisit une valeur xi au centre de la distribution avec un effectif
important. Ici on prend donc x3 = 45 centre de la classe 30-60 ans comme valeur de x0 . Pour
trouver h on calcule les intervalles entre les centres de classe xi (7,5 - 22,5 - 45 - 67,5 - 82,5) ce
qui donne successivement (15 - 22,5 - 22,5 - 15). Le plus grand diviseur commun de ces quatre
0
nombres est 7,5. Donc h = 7,5. Si on applique la formule ui = xi −x
avec les paramètres x0
h
= 45 et h = 7,5 on obtient les valeurs de la colonne ui .
Calcul de la moyenne sans variable provisoire :
x =
x =
1 �
ni .xi
N
1
× 52 858 545 = 39.31
1 344 795
Calcul de la moyenne avec variable provisoire :
u =
u =
1 �
ni .ui
N
1
× −1 020 964 = −0, 7 592
1 344 795
A partir de la valeur u on obtient nouveau la valeur x de la manière suivante :
x = hu + x0 ⇒ ((7, 5 × −0, 7592) + 45) ⇒ x = 39, 3
3.3.2
Moyenne harmonique
Prenons un exemple pour illustrer l’intérêt de la moyenne harmonique. Supposons que vous
faites une balade vélo : vous commencez par escalader une côte de 1km 20km/h, puis vous
redescendez cette même côte 30km/h. Quelle est votre vitesse moyenne ?
La première réponse qui vient la tête est 25 km heure, c’est oublier que la moyenne ne dépend
pas que des deux vitesses mais aussi du temps pendant lequel ont été réalises ces deux vitesses.
59
3.3. Les moyennes
Pour réaliser la monté il faut : 60 minutes×1
= 3 minutes
20
60 minutes×1
Pour réaliser la descente il faut :
= 2 minutes
30
Le temps total mis est donc de 5 minutes. 2km ont été fait en 5 minutes la moyenne horaire
2km
se trouve donc être de 5mn
× 60mn = 24km/h
On peut raisonner autrement : Soit v la vitesse moyenne, t le temps total mis, on a v = 2t .
Ce qui peut s’écrire t = 2km
v . Par ailleurs t = t1 + t2 , où t1 est le temps mis pour monter, et
1
t2 le temps mis pour descendre. On peut aussi écrire t1 = 1km
v1 , et t2 = v2 , où v1 est la vitesse
pour monter et v2 celle pour descendre.
On peut aussi écrire :
2km
1km 1km
1
1
1
0, 0500 + 0, 0333
1
=
+
=
+
⇒ =
⇒v=
⇒ v = 24km/h
v
v1
v2
20 30
v
2
0, 0417
La vitesse moyenne est la moyenne harmonique des deux vitesses !
H=
r
1 � 1
ni
N
xi
i=1
3.3.3
Moyenne géométrique
Voici un exemple d’application de cette moyenne issue des derniers mouvements de lutte contre
les réformes universitaires en cours : la télévision régionale annonce après une des manifestations 15 000 manifestants selon la police, et 45 000 selon les organisateurs. Pour connaître le
nombre de manifestants, la première idée est de prendre la moyenne arithmétique des deux
estimations : on trouverait alors 30 000 personnes. En faisant ce type de calcul, on surestime
l’importance du chiffre donné par les organisateurs par rapport au chiffre communiqué par
la police. Si pour cette même manifestation, la police avait annoncé 5 000 manifestants, on
trouverait 25 000, ce qui diminue peu le chiffre moyen.
Un autre raisonnement consiste se dire que les organisateurs et la police biaisent le résultat
dans la même proportion : le nombre par lequel les organisateurs multiplient le nombre réel de
manifestants est le même que celui par lequel la police divise le nombre réel de manifestants.
Dans ce cas il est plus juste d’utiliser la moyenne géométrique du chiffre annoncé par la police
et les organisateurs pour estimer le nombre réel de manifestants. Avec les valeurs annonces
par nos deux estimateurs, on trouve 22 913 personnes. Les organisateurs vont être déçus !
D’une manière générale, la moyenne géométrique atténue le poids relatif des valeurs les plus
hautes.
�
�

� r
�
� r
� r
r
��
��
1 �
1 �
n
n
�
G=
log(xi ) ⇒
xi ⇒ 
xi  ⇒ L = �
xi
N
N
i=1
3.3.4
i=1
i=1
i=1
Moyenne quadratique
Cette moyenne qui amplifie les valeurs importantes de xi est utilise dans le calcul de l’écarttype.
�
�
r
�1 �
�
Q=
ni x2i
N
i=1
60
3.4. Comparaison des caractéristiques des valeurs centrales
3.3.5
Exercice sur les moyennes
D’une manière générale, ces diverses formes de moyennes donnent des résultats qui s’étagent
comme suit :
x1 ≤ H ≤ G ≤ X ≤ Q2 ≤ Qn ≤ xr
Imaginons une entreprise ayant 10 salariés dont Roland qui est la fois le directeur et le propriétaire de la petite entreprise et dont le salaire s’élève 110 000e annuels. Les neuf autres
salariés ont des salaires qui varient de 6 800e pour Jean 14 300e pour Pierre. La moyenne
algébrique salaire de la majorité des x des salaires dans l’entreprise s’élève 20 350e, ce qui est
nettement supérieur aux salaires des neufs Employéés dont le salaire moyen s’élève 10 388,89e.
Si on considère la moyenne algébrique x=20 350e on a l’impression que cette entreprise paye
correctement ses salariés, en revanche cette impression reflète assez mal ce qu’il en est des
revenus des neufs Employés. Le calcul de la moyenne algébrique pour les 10 salariés est fortement impacté par le salaire de Roland. Les moyennes harmoniques H et géométriques H qui
s’élèvent respectivement 12 843,80e et 10 834,18e reflètent mieux la rallié des salaires de
cette entreprise pour les Employés. Le salaire le plus important a été fortement pondéré par
ces deux types de calcul.
Figure 3.5 – Calcul des différentes moyennes sur le salaire annuel dans une petite entreprise
Prénom
Jean
Pierre
Simone
Annick
Paul
Jacques
Raymonde
Christiane
Roland
Léa
Somme
Moyenne
Moyenne
3.4
salaire
6 800,00e
14 300,00e
12 500,00e
13 000,00e
10 200,00e
8 000,00e
9 000,00e
11 000,00e
110 000,00e
8 700,00e
203 500,00e
algébrique
20 350,00e
log10(salaire)
3,832508913
4,155336037
4,096910013
4,113943352
4,008600172
3,903089987
3,954242509
4,041392685
5,041392685
3,939519253
41,08693561
géométrique
12 843,80e
ln(salaire)
8,824677891
9,568014816
9,433483923
9,472704636
9,230142999
8,987196821
9,104979856
9,305650552
11,60823564
9,071078305
94,60616544
géométrique
12 843,80e
1
salaire
0,000147059
0,000069930
0,000080000
0,000076923
0,000098039
0,000125000
0,000111111
0,000090909
0,000009091
0,000114943
0,000923005
harmonique
10 834,18e
Salaire2
46240000
204490000
156250000
169000000
104040000
64000000
81000000
121000000
12100000000
75690000
13121710000
quadratique
36 223,90e
Comparaison des caractéristiques des valeurs centrales
La moyenne c’est une des meilleures valeurs centrales : le calcul est simple, elle dépend de
toutes les valeurs, elle est toujours déterminée, elle se prête bien aux calculs ultérieurs, elle est
peu affectée par les fluctuations d’échantillonnage. En revanche surtout dans les cas de petits
échantillons, elle est assez sensible aux valeurs extrêmes.
La médiane, sa détermination est relativement simple. Elle repose sur le classement, elle
peut être utilisée dans certains cas où le calcul de la moyenne est impossible du fait de classes
extrêmes sans limites précises. Elle est peu sensible aux valeurs extrêmes, dans le cas où de
61
3.4. Comparaison des caractéristiques des valeurs centrales
telles valeurs extrêmes sont à craindre elle est particulièrement recommandée. En revanche
elle est peu recommandée dans le cas de variations très discontinues ou dans le cas où elle
devrait être utilisée dans des calculs ultérieurs.
Le mode, c’est une valeur importante. Il est quelque fois difficile à déterminer (dans le cas
de classes inégales). Son utilisation est importante en complément de la moyenne dans le cas
de distributions asymétriques.
62
Chapitre 4
Les indices de dispersion
4.1
Les fréquences cumulées et les indices de dispersion.
Les indicateurs centraux (moyenne, médiane, mode) sont un bon résumé d’une distribution
mais comme l’indique ce que nous venons d’écrire sur l’intérêt du mode, ils ne permettent pas
de caractériser la forme des distributions. Les modalités sont-elles très groupées autour de la
valeur centrale ou au contraire très dispersées voire toutes inférieures ou supérieures. C’est pour
répondre cette interrogation qu’on utilise des indicateurs de dispersion. L’utilisation conjointe
des trois indicateurs centraux usuels permet d’avoir une idée de la forme d’une distribution.
4.1.1
L’intervalle inter-quartile
Il est utilisé comme un indicateur de dispersion des distributions, il repose sur la mesure de
l’amplitude qui sépare Q1 de Q3 . Il permet de spécifier la forme d’une distribution ou de
comparer la forme de deux distributions.
Figure 4.1 –
Pourcentage
100 %
75 %
50 %
25 %
0%
Indicateur
Max
Q3
Q2
Q1
Min
Âge de l’homme
93
59
45
35
19
Âge de la femme
90
57
42
33
17
L’amplitude des deux distributions est relativement semblable (74 ans pour les hommes, 73
ans pour les femmes). L’âge médian des hommes est supérieur de 3 ans celui des femmes. En
revanche les deux populations ont une répartition analogue autour de la médiane, l’écart entre
Q1 et Q3 s’élève 24 ans aussi bien pour les hommes que pour les femmes.
4.1.2
La variance
On en donne deux définitions qui correspondent à deux manières d’effectuer les calculs permettant de l’obtenir.
63
4.1. Les fréquences cumulées et les indices de dispersion.
– La variance c’est la moyenne des carrés des écarts la moyenne :
V (x) =
x=r
1 �
ni (xi − x)2
N
i=1
V (x) =
x=r
�
i=1
fi (xi − x)2
– La variance c’est la moyennes du carré des xi , moins le carré de la moyenne :
x=r
1 �
V (x) =
ni .x2i − x2
N
i=1
V (x) =
x=r
�
i=1
fi .x2i − x2
Les formules exprimées en fréquences ou en effectifs sont équivalentes la seule chose qui change
1
c’est la disparition du
car la somme des fréquences est comme nous l’avons vue, égale à 1
N
1
1
ce qui reviendrait écrire � ce qui est gal .
fi
1
En revanche, l’équivalence des deux formules n’est pas évidente, c’est pourquoi nous en présentons la démonstration suivante effectuée sur les formules exprimées en fréquences. Pour
2
2
2
suivre cette
� démonstration il suffit
� de se rappeler des choses suivantes : (a − b) = a + b − 2ab
puis que
fi = 1 et enfin que
f i xi = x
�
V (x) =
fi (xi − x)2
�
V (x) =
fi (x2i − 2xi x + x2 )
��
� �
�
V (x) =
fi x2i − 2
f i xi x +
fi x2
�
V (x) =
fi x2i − x2
Si vous n’avez pas trouvé tout se joue dans la troisième ligne qui se simplifie de la manière
suivante
:
�
�
–
fi�
x2i reste
fi x2i
2
– −2
� ( 2 fi xi x) ⇒2−2(x2× x) ⇒ −2x
–
fi x ⇒ 1 × x ⇒
�x 2
�
La ligne 3 devient :
fi xi − 2x2 + x2 ce qui donne bien :
fi x2i − x2
Le calcul de la variance s’effectue relativement simplement, nous allons illustrer ce calcul
en calculant la variance des âges de la population de l’enquête santé. Tout comme pour la
moyenne il est possible d’utiliser des variables provisoires. Le tableau choisi étant le même que
celui de l’exercice présentant le calcul de la moyenne nous avons repris les valeurs x0 = 45 et
h = 7.5 retenues pour calculez les variables provisoires ui .
Nous présentons les deux manières de calculer la variance, la première directement en n’utilisant pas de variable provisoire, la seconde en passant par les variables provisoires ui
Pour calculer la variance, il est nécessaire de connaître la moyenne, rappelons que la formule
1 �
1
de la moyenne de x est x =
ni .xi celle de la variance V (x) =
ni .x2i − x2 et que la
N
N
1 �
1
moyenne de u est u =
ni .ui celle de la variance V (u) = ni .u2i − u2
N
N
64
Figure 4.2 – Calcul de la variance sur l’âge des moins de 90 ans dans l’enquête santé
Classe
0 à 14 ans
15 à 29 ans
30 à 59 ans
60 à 74 ans
75 à 89 ans
Total
262
265
512
218
86
1 344
ni
220
596
079
788
112
795
xi
7.5
22.5
45
67.5
82.5
1
5
23
14
7
52
ni x i
966 650
975 910
043 555
768 190
104 240
858 545
14
134
1 036
996
586
2 769
ni x2i
749 875
457 975
959 975
852 825
099 800
120 450
ui
-5
-3
0
3
5
ni u i
-1 311 100
-796 788
0
656 364
430 560
-1 020 964
6
2
1
2
13
ni u2i
555 500
390 364
0
969 092
152 800
067 756
Calcul sans variable provisoire :
x =
x =
1 �
ni .xi
N
1
× 52 858 545 = 39.31
1 344 795
1 �
ni .x2i − x2
N
1
2 769 120 450 − 39.312 = 514.18
1 344 795
V (x) =
V (x) =
Calcul avec variables provisoires :
Ce calcul est identique celui effectué sans variable provisoire, il nécessite simplement de repasser de ui xi la fin des calculs.
u =
u =
V (u) =
V (u) =
1 �
ni .ui
N
1
× −1 020 964 = 514.18
1 344 795
1 �
ni .u2i − u2
N
1
13 067 756 − (−0, 7 592)2 = 9.14
1 344 795
Nous avons déjà expliqué le passage de u à x qui repose sur la formule ayant permis de
xi − x0
calculer les ui qui est : ui =
. Cependant comme la variance prend pour origine dans
h
son calcul la moyenne, et que x et u occupe la même place au sein de la distribution le
décalage d’échelle produit par xi − x0 n’intervient pas dans le passage de V (u) V (x) ainsi
V (x) = V (u) × h2 = 9.14 × 7.52 = 514.18.
Quelques éléments sur l’utilité et la nature de la variance
Pour montrer l’intérêt de l’utilisation de la variance, nous allons tout d’abord regarder ce que
donne le calcul de la moyenne dans la comparaison des résultats obtenus par deux groupes
d’étudiants (X et Y ) à un même test. Les notes obtenues à ce test peuvent varier entre 0
65
Figure 4.3 – Tableau de report des résultats à un même test par deux groupes d’étudiants
groupe X
x i ni ni x i
2
2
4
3
3
9
4
4
16
5
3
15
6
2
12
14 56
groupe Y
yj nj ni y j
2
5
10
3
3
9
4
2
8
5
3
15
6
5
30
18
72
et 7. Les notes consignées dans le tableau de report sont, pour des raisons de simplification,
arrondies à l’entier le plus proche. En conséquence une note xi correspond l’intervalle xi −0.5 ≤
xi < xi + 0.5
Les moyennes obtenues par les groupes X et Y sont toutes les deux de 4 ce qui laisserait
penser que ces deux groupes ont réussi de la même manière le test proposé. Or un simple
coup d’œil sur la forme des distributions montre que le groupe X comporte de nombreuses
personnes situées autour de la moyenne alors que le groupe Y comporte peu de personnes
autour de la moyenne mais en revanche de nombreuses personnes qui ont soit raté le test, soit
l’ont réussi parfaitement.
6
6
5
5
4
4
3
3
2
2
1
1
−1
1
2
3
4
5
−1
1
2
3
4
5
6
7
−1
−1
Les deux histogrammes ci dessus montrent à l’évidence la différence de forme des populations
étudiantes qui ont passé le même test. A la place de tracer ces deux histogrammes il est possible de calculer les variances des résultat obtenus pour chacun des deux groupes.
1 �
1
Pour le groupe X V (x) =
ni .x2i − x =
× 246 − 42 = 1.57.
N
14
1 �
1
Pour le groupe Y V (y) =
nj .yj2 − y =
× 334 − 42 = 2.56.
N
18
La comparaison de la variance sur les résultats obtenus par les deux groupes permet de constater que la variance du groupe Y est égale celle du groupe X multiplié par 1.63. Cette différence
entre les deux variances indique une plus grande dispersion des individus dans le groupe Y
66
6
7
comparé à celle du groupe X. La variance du groupe Y est de 63% supérieure à celle du groupe
X.
Approche graphique de la variance
Pour comprendre ce que représente graphiquement une variance nous allons construire un
exemple simple de distribution composée de trois individus sur laquelle nous calculerons
moyenne et variance.
Individu
A
B
C
Total
xi
1
3
8
ni
1
1
1
N =3
ni x i
1
3
8
�
ni xi = 12
ni .x2i
1
9
64
�
ni .x2i = 74
Ce tableau reflète l’attribution d’une note 3 individus A, B et C et les éléments de calcul
nécessaires au calcul de la moyenne et de la variance des notes attribuées. Il peut être représenté
par un diagramme en bâtons qui pour chaque note donne l’effectif des personnes ayant obtenu
cette note. Ici il fait correspondre l’effectif 1 aux notes 1, 3 et 8.
Figure 4.4 – Diagramme en bâtons sur l’exemple de trois individus
2
1
−1
−1
1
2
3
5
x
La moyenne des notes attribuées est égale : x =
Première méthode de calcul
V (x) =
=
=
=
6
7
8
9
1 �
1
ni xi = × 12 = 4.
N
3
1 �
ni (xi − x)2
N
�
1�
(1 − 4)2 + (3 − 4)2 + (8 − 4)2
3
�
1�
(−3)2 + (−1)2 + 42
3
26
= 8.67
3
C’est ce calcul qu’illustre le graphique ci-dessous, l’individu A qui a comme note 1 entretient
avec la moyenne 4 un écart de -3, si on élève cette surface au carré cela représente un carré
de surface 9, l’individu B qui a comme note 3 entretient avec la moyenne 4 un écart de -1,
67
si on élève cette surface au carré cela représente un carré de de surface 1, l’individu C qui a
comme note 8 entretient avec la moyenne 4 un écart de 4 si on élève cette surface au carré
cela représente un carré de surface 16, si on additionne ces 3 carrés on obtient une surface de
64, si on la divise par le nombre de carrés 3 on obtient un carré moyen de 8.67 de surface.
Figure 4.5 – Décomposition des surfaces dans la première méthode
4
3
C
2
A
1
B
1
−1
−1
2
3
5
x
6
7
8
9
Seconde méthode de calcul
V (x) =
=
=
=
1 �
ni .x2i − x2
N
� �
� �
��
1 ��
1 × 12 + 1 × 32 + 1 × 82 − 42
3
1
(1 + 9 + 64) − 16
3
74
− 16 = 24.66 − 16 = 8.67
3
Ce second calcul revient faire les calculs suivants : l’individu A a eu comme note 1 ce qui
permet de construire une surface de 1 de côté soit de 1 de surface, l’individu B a eu comme
note 3 ce qui permet de construire une surface de 3 de côté soit de 9 de surface, l’individu
C a eu comme note 8 ce qui permet de construire une surface de 8 de côté soit de 64 de
surface, on additionne toutes ces surfaces ce qui permet de construire une surface de 74, on
divise cette surface par 3 ce qui donne un carré de 24.66 auquel on retranche le carré de la
moyenne 4 soit un carré de 16, ce qui donne un carré 8.66.
4.1.3
L’écart-type
C’est un indice de dispersion autour de la moyenne très utilisé, car c’est une distance et non
une surface, il s’exprime dans la même unité que la variable sur laquelle il est calculé. Si on
regarde des salaires exprimés en euros, il va représenter un
�écart en euros. On le note avec
la lettre grecque σ. Sa formule est assez explicite σ(x) = V (x). L’écart-type est la racine
carrée de la variance. Comme nous avons montré que la variance est un carré moyen, l’écart
68
Figure 4.6 – Décomposition des surfaces dans la seconde méthode
x23 = 64
x22 = 9
x2 = 16
x21 = 1
type est le côté de ce carré moyen. Il joue un rôle important dans l’étude de la loi normale
dite aussi loi de Gauss. Cette question sera abordée ultérieurement dans ce polycopié.
69
70
Chapitre 5
Les statistiques bivariées
5.1
Les distributions bivariées
Elles permettent de caractériser un individu ou plusieurs par rapport aux modalités de deux
variables, ou encore elles placent un individu ou plusieurs à l’intersection des modalités de
deux variables. On peut en donner deux représentations l’une ensembliste, l’autre cartésienne.
Elles peuvent être construites sur des variables quantitatives ou qualitatives. Quand on a des
variables quantitatives on utilise le calcul du coefficient de corrélation pour vérifier si leurs
variations sont liées, en revanche si les variables sont qualitatives on utilise le calcul du χ2
pour mettre en évidence le lien qu’elles peuvent entretenir.
Figure 5.1 – Deux représentations d’une distribution bivariée
Dans ce type de notation les xi et yj correspondent aux modalités de la variable, les xi correspondent aux modalités de la variable x. Les indices i et j correspondent à l’énumération des
modalités : x1 correspond à la première modalité de la variable, x2 correspond à la deuxième
modalité ainsi de suite jusqu’à la dernière modalité dont l’indice est r. Même raisonnement
pour y mais dernière modalité a pour indice s. D’une manière générale lorsque on souhaite
désigner une modalité de la variable x ou y, mais aussi lorsque l’on désigne les modalités des
v soit de la variable x soit de la variable y on utilise xi ou yj de manière générique. Le point
dans les notations remplace un indice que l’on ne prend pas en compte on le dit muet (car
il ne s’exprime pas). Ainsi (ni .) dans le tableau ci-dessus est l’effectif de tous les individus
ayant comme modalité i pour la variable x quelle que soit la modalité pour la variable y ; il
71
5.2. La corrélation linéaire
Figure 5.2 – Principe de notation dans les tableaux bivariés
x
y
y1
y2
···
yj
···
ys
totaux
x1
x2
···
xi
···
xr
totaux
n11
n12
···
n1j
···
n1s
n1.
n21
n22
···
n2j
···
n2s
n2.
···
···
···
···
···
···
···
ni1
ni2
···
nij
···
nis
ni.
···
···
···
···
···
···
···
nr1
nr2
···
nrj
···
nrs
nr.
n.1
n.2
···
n.j
···
n.s
N
s’agit de la somme de la colonne du tableau correspondant à la modalité (xi ). Ainsi, du fait
des règles de d’additivité et de commutativité dans �, on peut calculer l’effectif �
total d’un
tableau de plusieurs manières soit en calculant la somme des cases du tableau N =
nij�
, soit
en calculant les sommes des colonnes puis en additionnant les sommes obtenuesN =� ni. ,
soit en calculant les sommes des lignes puis en additionnant les sommes obtenues N =
n.j :
N=
5.2
�
nij =
�
ni. =
�
n.j
La corrélation linéaire
Figure 5.3 – Un exemple de distribution bivariée sur des données numériques : la taille et le
poids
classes
[165 ; 170[
[160 ; 165[
[155 ; 160[
[150 ; 155[
ni.
[40 ; 45[
0
0
2
20
22
[45 ; 50[
1
5
18
9
33
[50 ; 55[
7
12
4
1
24
[55 ; 60[
14
6
1
0
21
n.j
22
23
25
30
N=100
Sur le tableau précédent les variables x et y sont respectivement le poids et la taille. Il est
possible de calculer la moyenne et la variance des poids et des tailles des individus. Il s’agit là
de calculs monovariés qui ont déjà été vus dans une des parties précédentes de ce polycopié.
Le coefficient de corrélation linéaire est un moyen de mesurer la covariation des variables qui
participent de ces deux distributions monovariés. Sa formule est donnée par le rapport entre
la mesure de la covariation des xi et de yj que l’on note COV (x, y) et la racine carrée de la
variance sur x et sur y, se note :
COV (x, y)
ρ= �
V (x) × V (y)
72
5.2. La corrélation linéaire
ρ=
COV (x, y)
σ(x) × σ(y)
Le coefficient de corrélation linéaire ρ sert à montrer l’existence d’une liaison de type linéaire
entre une variation observée sur un caractère X des individus d’une population et un caractère
Y de ces mêmes individus. Les variables x et y doivent être numériques.
Figure 5.4 – Tableau des points
classes
[40 ; 45[
[45 ; 50[
[165; 170[
[160; 165[
[155; 160[
∗
∗
[150; 155[
∗∗∗∗∗
∗∗∗∗∗
∗∗∗∗∗
∗∗∗∗∗
∗
∗
∗
∗∗
∗∗
∗ ∗ ∗∗
∗∗∗∗∗
∗∗∗∗∗
∗ ∗ ∗∗
∗∗∗
∗∗∗
∗∗∗
[50 ; 55[
∗
∗∗
∗∗∗
∗∗∗
∗∗∗
∗∗∗
∗
∗
∗
∗
∗
[55 ; 60[
∗∗∗
∗ ∗ ∗∗
∗∗∗
∗ ∗ ∗∗
∗∗
∗∗
∗
∗
∗
Dans ce tableau nous avons remplacé les effectifs par des astérisques ∗, en fonction des effectifs
des cases la densité d’astérisques est plus ou moins importante. Toutes les cases du tableaux
ont la même surface. Le tableau présente des zones où il existe de nombreuses ∗ donc où il
existe des fortes densités d’astérisques (∗) d’autres où il y en a moins, enfin des zones où il n’y
en a pas. Le calcul de corrélation vise donner une indication de la forme constituée des zones
de forte, moyenne et faible densité. Ainsi le résultat attendu ici est un chiffre qui indiquerait
que les ∗ sont situées sur la diagonale montante et que lorsque la taille augmente le poids
augmente lui aussi.
Par exemple une covariation linéaire entre :
x le poids et y la taille
x la note en statistiques et y la note en démographie.
Le coefficient de corrélation linéaire ne met pas en évidence une relation de causalité
entre X et Y. Il ne permet pas de dire que X détermine Y ou que Y dépend de X.
ρ est compris entre -1 et +1, c’est un cosinus.
Quand la valeur absolue est proche de 1 cela indique qu’il existe un lien entre la variation
sur x et celle sur y.
Quand la valeur absolue est proche de 0 cela indique qu’il n’existe pas de lien entre la
variation sur x et sur y.
73
5.3. La covariance
Quand le signe est positif cela indique que si x augmente y augmente.
Quand le signe est négatif cela indique que si x diminue y augmente ou, ce qui est la
même chose, que si y diminue x augmente.
En première approximation et sans pour l’instant entrer dans la diversité des situations possibles les valeurs de ρ traduisent les cinq formes de nuages suivantes :
y
y
y
y
y
�
�
�
�
�
�
�
�
�
�
�
�
�
��
� � ��
� �
��
� �
� � �
� �
��
��
�
�
�
�
�
��
��
� � ��
��
��
� �
� �
��
r = −1
x
r � −1
x
r=0
x
r � +1
x
r = +1
x
Une valeur proche de 0 n’est pas la preuve d’une absence de liens entre les variations de x et
y. Des liens de type fonctionnel peuvent exister entre deux variables sans que le coefficient de
corrélation ne puisse les détecter comme l’illustre les deux graphiques suivants. L’un représente
une parabole dont l’équation est : f (x) = ax2 + bx2 + c, l’autre une courbe gaussienne dont
�
�
1 xi − x 2
−
1
σ
l’équation est : p(x) = √ � e 2
σ 2π
�
�
�
� �
��
�
��
� ��
parabole
��
��
��
normale
ρ proche de 0 marque seulement l’absence d’une corrélation linéaire entre x et y mais peut
occulter un lien de type non linéaire ou encore fonctionnel autre que de la forme : y = ax + b
qui est l’équation de la droite.
5.3
La covariance
Pour calculer ρ il faut connaître la covariance cov(x, y). La covariance présente de nombreuses
analogies avec la variance. Elle est elle aussi une surface moyenne. Comme la variance elle
peut être exprimée par deux formules :
1ere formule :
r �
s
�
cov(x, y) =
fij (xi − x) (yj − y)
i=1 j=1
cov(x, y) =
r
s
1 ��
nij (xi − x) (yj − y)
N
i=1 j=1
2nde formule :
cov(x, y) =
r �
s
�
i=1 j=1
74
fij xi yj − X × Y
5.3. La covariance
cov(x, y) =
r
s
1 ��
nij xi yj − X × Y
N
i=1 j=1
Comme pour la variance, une démonstration assez simple permet de passer d’une formule
l’autre de la covariance. De la même façon que la variance est une surface, la covariance est
elle aussi une surface. Pour montrer cela, prenons un exemple simple de calcul de corrélation
sur quatre individus. Chaque individu a passé deux tests, chacun de ces deux tests ils ont
obtenu une note qui varie entre 2 et 6 pour le test X et entre 1 et 5 pour le test Y. Les
résultats de cette passation des tests sont contenus dans le tableau suivant qui contient pour
chaque individu les deux notes obtenues.
Figure 5.5 – résultats aux tests pour chaque individu
individus
a
b
c
d
score au test X
2
6
5
3
score au test Y
5
2
4
1
Les moyennes obtenues à chacun de ces tests sont :
2+6+5+3
16
x=
⇒
⇒4
4
4
5+2+4+1
12
y=
⇒
⇒3
4
4
Les variances sur x et y sont :
�
�
1
74
2
2
2
2
V (x) =
× (2 + 6 + 5 + 3 ) − x2 ⇒
− 42 ⇒ 18.5 − 16 ⇒ 2.5
4
4
�
�
1
46
2
2
2
2
V (y) =
× (5 + 2 + 4 + 1 ) − y 2 ⇒
− 32 ⇒ 11.5 − 9 ⇒ 2.5
4
4
Il est possible de proposer une autre présentation de ces données sous la forme d’un tableau
de données plus conforme l’exemple présent sur les poids et les tailles.
Figure 5.6 – présentation des résultats sous forme d’un tableau de contingence
y
1
2
3
4
5
x
2
3
4
5
6
1(d)
1(b)
1(c)
1(a)
Dans ce tableau les quatre individus sont positionnés dans les cellules qui correspondent à
l’intersection de leurs résultats obtenus aux deux tests. Par exemple la notation 1(a) correspond
75
5.4. Tableau permettant de calculer r pour l’exemple taille poids
à un individu qui est l’individu a qui a obtenu 2 au test X et 5 au test Y. Il est possible de
donner une représentation graphique du calcul de corrélation à l’œuvre dans cet exemple.
Figure 5.7 – Illustration graphique d’un calcul de corrélation
6
a(2, 5)
5
c(5, 4)
4
y
2
b(6, 2)
1
−1
−1
d(3, 1)
1
2
3
x
5
6
7
Explicitation d’un calcul de corrélation sur les individus a, b, c, d du tableau qui a permis la
construction du graphique précédent.
r =
cov(x, y) =
cov(x, y)
�
V (x)V (y)
r
s
1 ��
nij (xi − x) (yj − y)
N
i=1 j=1
cov(x, y) =
cov(x, y) =
cov(x, y) =
cov(x, y) =
5.4
1
4
1
4
1
4
1
4
× ((2 − 4) × (5 − 3) + (6 − 4) × (2 − 3) + (5 − 4) × (4 − 3) + (3 − 4) × (1 − 3))
× ((−2) × (+2) + (+2) × (−1) + (+1) × (+1) + (−1) × (−2))
× ((−4) + (−2) + (+1) + (+2))
× (−3)
Tableau permettant de calculer r pour l’exemple taille poids
La décomposition des calculs que nous allons suivre est celle qu’il faut appliquer sur tous les
tableaux de ce type.
1. Prévoir que les cellules contenant les nij dans le tableau soient assez grandes pour y
introduire une autre case ;
2. Positionner le tableau sur une feuille en sorte que l’on puisse insérer 2 colonnes à gauche,
2 lignes au dessus, 3 lignes à droite, 5 lignes en dessous ;
76
3. Calculer les sommes des colonnes pour remplir la ligne ni. ;
4. Calculer les sommes des lignes pour remplir la colonne n.j ;
5. Calculez l’effectif total N ;
6. Déterminer les centres des classes contenus dans la ligne xi ;
7. Rechercher si le besoin s’en fait sentir une variable ui permettant de simplifier les calculs
ultérieurs. Pour ce faire on utilise la même technique que celle utilisée pour les distributions univariées. (Choix d’une variable xi au centre de distribution, si possible avec un
effectif élevé, une fois cette variable choisie, elle devient x0 , puis rechercher les intervalles
entre les centres des classes, ensuite rechercher le plus grand diviseur de ces intervalles,
ce plus grand diviseur devient h0 ) ;
8. Déterminer les centres des classes contenus dans la colonne yj ;
9. Rechercher si le besoin s’en fait sentir une variable vj permettant de simplifier les calculs
ultérieurs. Pour ce faire on utilise la même technique que celle utilisée pour les distributions univariées. (Choix d’une variable yj au centre de distribution, si possible avec un
effectif élevé, une fois cette variable choisie, elle devient y0 , puis rechercher les intervalles
entre les centres des classes, ensuite rechercher le plus grand diviseur de ces intervalles,
ce plus grand diviseur devient k0 ) ;
�
10. Calculer la ligne ni. ui en multipliant ni. par�
ui puis faire la somme de cette ligne ni. ui .
Calculer la moyenne u en divisant le total
ni. ui par N ;
11. �
Calculer la colonne n.j vj en multipliant n.j par vj puis
� faire la somme de cette colonne
n.j vj . Calculer la moyenne v en divisant le total
n.j vj par N ;
12. �
Calculer la ligne ni. u2i en multipliant ni. ui par ui puis faire la somme de cette ligne
ni. u2i ;
13. Calculer la colonne n.j vj2 en multipliant n.j vj par vj puis faire la somme de cette colonne
�
n.j vj2 ;
1 �
14. Calculer la variance sur u en effectuant V (u) =
ni. u2i − u2 :
N
1 �
15. Calculer la variance sur u en effectuant V (v) =
n.j vj2 − v 2 ;
N
�
16. Le cas chant calculer l’écart-type sur u en effectuant σ(u) = V (u)
�
17. Le cas chant calculer l’écart-type sur v en effectuant σ(v) = V (v)
18. Effectuer le calcul nij×vj ce qui permet d’obtenir vj nij . À titre d’exemple cela consiste
à multiplier successivement la valeur vj = −1 par la valeur nij = 0 et inscrire le résultat
de ce produit à l’intérieur de la case fabriquée dans la cellule contenant l’effectif nij ,
répéter pour toutes les cellules contenant les effectif nij ;
�
19. Effectuer par colonne la somme des vj nij et placer ces totaux dans la ligne
nij vj ;
�
�
20. Effectuer le produit des ui par les
nij vj ce qui permet d’obtenir des ui nij vj ;
�
� �
21. On effectue ensuite la somme des ui nij vj ce qui permet d’obtenir
ui nij vj ;
� �
22. Pour obtenir la COV (u, v) il ne reste plus qu’à diviser
ui nij vj par N ;
�
�
1
23. On a ainsi COV (uv) =
nij ui vj − (u × v) ;
N
COV (uv)
24. Ayant calcul V (u) et V (v) on peut déterminer r = �
;
V (uV (v)
77
25. C’est fini ! ! !
Retrouvons les phases successives de ce calcul de décomposition de la formule de la covariance :
COV (uv) =
=
=
=
=
=
5.4.1
1 ��
nij ui vj − (u × v)
N
nij vj
�
nij vj
�
ui
nij vj
� �
ui
nijvj
1 � �
ui
nij vj
N
Calcul développé sur l’exemple taille poids
On remplace tout les xi par des ui en utilisant x0 = 47.5 et h = 5
ui =
u1 =
u2 =
u3 =
u4 =
xi − x0
h
42.5 − 47.5
5
47.5 − 47.5
5
52.5 − 47.5
5
57.5 − 47.5
5
78
= −1
=0
=1
=2
On remplace tout les yj par des vj en utilisant y0 = 157.5 et k = 5
vj
=
v1 =
v2 =
v3 =
v4 =
yj − y0
k
167.5 − 157.5
5
162.5 − 157.5
5
157.5 − 157.5
5
152.5 − 157.5
5
=2
=1
=0
= −1
1
44
Σni. ui =
= 0.44
N
100
1
37
On calcule v = Σn.j vj =
= 0.37
N
100
1
130
On calcule V (u) = Σni. .u2i − u2 =
− 0.442 = 1.11
N
100
1
141
On calcule V (v) = Σn.j .vj2 − v 2 =
− 0.372 = 1.27
N
100
1 �r �s
113
0n calcule cov(u, v) =
nij ui vj =
− (0.44 × 0.37) = 0.97
N i=1 j=1
100
cov(u, v)
0.97
0.97
On calcule r = �
=√
�
� 0.82
1.19
1.11 × 1.27
V (u)V (v)
A partir de ces résultats on peut retrouver les valeurs x, y, V (x), V (y) et cov(x, y)
x = x0 + hu = 47.5 + (5 × 0.44) = 49.7
y = y0 + kv = 157.5 + (5 × 0.37) = 159.35
V (x) = V (u) × h2 = 1.11 × 52 = 27.75
V (y) = V (v) × k 2 = 1.27 × 52 = 31.75
cov(x, y) = cov(u, v) × h × k = 0.97 × 5 × 5 = 24.15
cov(x, y
24.15
r=�
=√
� 0.82
27.75 × 31.75
V (x)V (y)
On remarque que le coefficient de corrélation n’est pas modifié qu’il soit calcul sur x, y ou
u, v cela vient du fait qu’il n’est rien d’autre que le cosinus de l’angle fait par les droites de
régression ∆ et ∆� .
On calcule u =
5.4.2
Droites de régression
Ces 2 droites minimisent sur x et y les écarts à l’intérieur de nuages de points. Comme se sont
des droites elles sont de la forme y = ax + b. Équation de ∆ :
y =
y−y =
cov(x, y)
(x − x) + y
V (x)
cov(x, y)
(x − x)
V (x)
(5.1)
dans ce cas a =
cov(x, y)
V (x)
79
equation de ∆� :
x =
x−x =
cov(x, y)
(y − y) + x
V (y)
cov(x, y)
(y − y)
V (y)
(5.2)
dans ce cas a� =
cov(x, y)
V (y)
Calcul pour ∆ :
cov(x, y)
24.15
�
� 0.87
V (x)
27.75
y − y = a(x − x)
a =
y − 159.35 = 0.87(x − 49, 7)
y = 0.87x − 43.24 + 159.35
y = 0.87x + 116.11
(5.3)
Calcul pour ∆� :
cov(x, y)
24.15
=
� 0.76
V (y)
31.75
x − x = a� (y − y)
a� =
x − 49.6 = 0.76(y − 159.35)
x − 49.6
= y − 159.35
0.76
1.32x − 65.39 = y − 159.35
−y = −1.32x − 159.35 + 65.39
−y = −1.32x − 93.96
y = 1.32x + 93.96
(5.4)
Recherche des points :
∆
∆
∆�
∆�
valeure de x
40
60
40
60
équation pour calculer y
y = 0.87x + 116.11
y = 0.87x + 116.11
y = 1.32x + 93.96
y = 1.32x + 93.96
80
valeur de y
150.91
168.31
146.76
173.16
T aille
en cm
(∆� )
170
(∆)
167.5
165
162.5
160 y
157.5
155
152.5
150
35
40
x
50
45
42.5
47.5
55
60
52.5
P oids
en kg
57.5
145
Aspect des droites de corrélation en fonction de la valeur de r
y
y
y
y
y
x
r = 1, σx = σy
x
y
x
r = 1, σx > σy
x
81
x
r = 1, σx < σy
x
y
y
y
y
y
x
x
r = −1, σx = σy
y
x
x
r = −1, σx > σy
y
x
x
r = −1, σx < σy
y
y
y
y
y
x
r � 1, σx � σy
x
x
r � 1, σx > σy
y
x
y
y
y
y
x
x
r � −1, σx � σy
y
x
x
r � −1, σx > σy
y
x
x
r � −1, σx < σy
y
y
y
y
x
r = 0, σx = σy
x
x
r � 1, σx < σy
x
y
x
r = 0, σx � σy
x
82
x
r = 0, σx � σy
x
5.5. Différentes formes de nuages en fonction des valeurs de r, σ(x), σ(y)
5.5
Différentes formes de nuages en fonction des valeurs de
r, σ(x), σ(y)
σx = σy
σ x > σy
�
y
r=1
�
1
×
y
r1
�
4
��
��
�
�
��
�
�
�
x
��
��
��
��
�
��
��
7
r=0
x
x
x
��
� � ��
� ��
�
�
��
� ��
��
� ��
� � ��
��
��
13
x
r � −1
16
��
��
� ��
� ��
��
��
�
�
x
�
x
×
8
x
x
��
� ��
� � � ��
��
� ��
� �
14
x
12
×
y
15
� ��
��
��
��
��
��
x
17
x
83
�
x
�
��
�
�
��
��
�−
�
�
��
��
x
��
×
y
� ��
� � ��
� � � ��
��
��
��
� ��
� ��
� ��
��
9
×
y
y
�
6
×
y
� � ��
� � ��
� ��
�
��
��
��
11
×
y
3
�
�
�
�
��
��
�
��
��
�
�
�
�
×
y
5
×
y
� ��
� ��
� � � ��
� ��
��
��
��
�
��
� �
� ��
�
�
�
�
� � ��
� ��
� ��
��
×
y
×
y
��
�
��
�
�
�
��
y
10
−1 < r < 0
�
2
y
��
��
�
��
� ��
� ��
�
� � ��
� � ��
��
��
��
� ��
�
��
� ��
� � ��
��
×
y
y
y
�
×
y
0<r<1
σ x < σy
18c
x
� ��
� ��
��
��
� ��
��
� ��
�
x
�
��
� ��
��
��
��
��
��
� ��
��
��
x
�
�
��
� ��
� ��
��
��
�
�
x
5.6. Test du χ2
y
�
r = −1
�
y
�
�
19
5.6
��
��
��
��
y
��
�
x
��
� ��
��
��
�
20
��
x
21
�
�
��
��
��
��
�
�
�
�
�
�
x
Test du χ2
Le test du χ2 peut être utilisé soit comme test d’homogénéité pour étudier si la population
observée est un échantillon non biaisé d’une population générale connue selon les mêmes
critères de classement, soit comme test d’indépendance permettant d’examiner les covariations
entre deux variables correspondant aux lignes et colonnes d’un tableau de contingence. C’est
cette seconde forme d’utilisation qui est détaillée ici. La formule usuelle qui correspond cet
usage est :
(O − E)2
E
Dans laquelle O signifie Observé et E Espéré .
Bien que cette formule soit explicite sur la démarche générale utilisée, elle ne rend pas exactement compte de l’ensemble des opérations à effectuer pour calculer le χ2 , c’est pourquoi nous
proposons la formule suivante plus descriptive des calculs à effectuer :
χ2 =
χ2 = ΣΣ
(nij − eij )2
eij
Dans laquelle eij est égal :
eij =
(ni. .n.j )
Σnij
Le χ2 s’interprète en fonction de sa valeur, d’une loi de probabilité (la loi du χ2 ) qui fait
l’objet d’une table, de son nombre de degrés de liberté. L’entrée dans cette table est guidée
par le nombre de degrés de libertés. Ce nombre de degrés de liberté (DDL, DF ou encore ν)
est égal, lorsque les marges sont connues, au nombre de cellules du tableau (nij ) que l’on peut
remplir sans tenir compte des autres (nij ) et sous la seule contrainte des marges (ni. et n.j ).
On peut démontrer que cette valeur est égale au nombre de lignes moins une, multiplié par le
nombre de colonnes moins une :
ν = (lignes - 1) × (colonnes-1)
La probabilité que l’on obtient en cherchant une valeur dans une table du χ2 est la probabilité
que ce que l’on observe soit lié au hasard. Plus cette probabilité est faible plus on peut inférer
un effet entre les deux variables.
En sociologie on a coutume de n’interpréter que les tableaux pour lesquels la probabilité est
inférieure 0.05 (1 chance sur 20). Dans d’autres disciplines on utilise des seuils plus drastiques
0.01, 0.001 voire 0.0001.
La référence à une loi de probabilité pour ajuster plutôt qu’à la probabilité exacte donnée
par le binôme de Pascal tient au fait que le calcul de la probabilité exacte fait appel à des
84
5.6. Test du χ2
chiffres qui deviennent vite très grand et nécessite beaucoup de temps pour être calculés dès
que les effectifs et la taille du tableau augmentent. Un exemple de calcul de probabilité exacte
est donné plus loin dans ce polycopié, il montre que l’on atteint très vite les limites de calcul
des calculettes scientifiques existant sur le marché. D’une manière générale les tables de χ2
donnent la probabilité pour p comprise entre .99 et .90 pour une part, pour .05 .et .01 d’autre
part. Pour p compris entre .90 et .10 les tables ne détaillent pas la probabilité correspondant
au χ2 obtenu car il est d’usage et raisonnable de ne pas se prononcer sur l’indépendance de
deux variables si la valeur de la probabilité est comprise entre ces deux bornes. En effet dans
ce cas de figure cela revient à se prononcer en ayant entre 1 chance sur 10 et 9 chances sur 10
d’affirmer qu’il existe un lien alors qu’il existerait entre 9 chance sur 10 et une chance sur 10
pour que ce lien n’existe pas.
Une table de χ2 et un mode d’emploi de la table du χ2 sont donnés dans les annexe de ce
polycopié.
De nombreuses contraintes existe pour calculer un χ2 , la plus importante est l’obligation
d’avoir des valeurs espérés eij supérieures à 5.
Le χ2 comme la variance est une surface. Il peut être interprété comme la quantité d’information contenue dans le tableau Plus le χ2 est important plus la quantité d’information contenue
dans le tableau est importante. Cette quantité d’information doit être rapportée à la fois au
nombre de degrés de liberté et à l’effectif de la population. Pour prendre en compte le rôle
joué par l’effectif dans le calcul du χ2 il est nécessaire d’utiliser un autre indice le φ qui est
une mesure de la distance entre le tableau observé et celui des valeurs espérées. Le φ est une
nombre qui varie entre -1 et +1 en cela il s’apparente au coefficient de corrélation dont nous
avons vu qu’il est un cosinus.
Une information dans le calcul du χ2 est ce qui est différent de ce que l’on attend. Ce que
l’on attend c’est donc la norme introduite par les marges. Attention ! ! ! c’est ce que font de
manière automatique les logiciels de traitement d’enquêtes.
Imaginons deux cas d’école :
Dans le premier on examine dans un lycée ordinaire la réussite au BAC en fonction des CSP
simplifies des parents. On obtient un χ2 significatif avec une probabilité p de 0.01. Ce tableau
contient donc une quantité d’information non négligeable qui peut être résumée de façon lapidaire de la manière suivante : la réussite au BAC n’est pas sans lien avec la CSP des parents.
Les enfants dont la PCS des parents reflète que ces derniers sont relativement bien dotés tant
du point de vue des diplômes que des moyens financiers et de culture réussissent mieux au
BAC. Si du point de vue la de théorie de l’information ce tableau contient de l’information,
il n’en est pas de même du point de vue de la sociologie, ce tableau ne faisant que confirmer
des connaissances depuis longtemps établies.
Dans le second, purement imaginaire, on examine aussi la réussite au BAC en fonction de la
CSP des parents. Le lycée n’est pas un lycée ordinaire mais un établissement qui s’est lancé
dans la mise en place d’innovations pédagogiques visant permettre aux enfants dont les parents sont les moins bien dotés de réussir aussi bien que ceux dont les parents sont mieux
dotés. Le χ2 est faible la probabilité p qui lui est associe est égale 0.97. Du point de vue de
la théorie de l’information, compte tenu de la norme importée à partir des marges, ce tableau
ne contient pas d’information, du point de vue de la sociologie ou des sciences de l’éducation
il n’en serait pas de même, on serait en présence d’une pédagogie qui abolie la reproduction
sociale. Pour mettre en évidence l’effet de cette pédagogie il faudrait utiliser le χ2 comme test
d’homogénéité et fabriquer une norme qui reflète ce qui se passe dans l’ensemble de tous les
autres lycées puis regarder si la population observée dans notre établissement expérimental
85
5.7. Calcul d’un premier χ2
est un échantillon possible ou non, de la population générale.
Dans le sciences humaines, avant de rejeter l’interprétation d’un tableau, quand le χ2 utilisé
comme test de contingence, est non significatif il est nécessaire de bien examiner la norme
introduite lors de son calcul avec les hypothèses de la recherche. Le cas chant on peut refaire
ce calcul en utilisant le χ2 comme test d’homognité avec une norme appropriée à l’hypothèse
qui est sous-adjacente.
5.7
Calcul d’un premier χ2
Exemple de calcul comment :
Figure 5.8 – Âge et Statut matrimonial légal ; Tableau Observé
20-29 ans
30-34 ans
35 ans & +
Total
marié
1
8
12
21
concubin
9
6
6
21
célibataire
50
21
32
103
Total
60
35
50
145
Figure 5.9 – Tableau espéré ou d’indépendance ou encore attendu
20-29 ans
30-34 ans
35 ans & +
Total
marié
8.69
5.07
7.24
21.00
concubin
8.69
5.07
7.24
21.00
86
célibataire
42.62
24.67
35.52
103.00
Total
60.00
35.00
50.00
145.00
Ce tableau contient une hypothèse forte qu’il s’agit de bien garder en tête lors du passage à
l’interprétation. La référence à laquelle est comparée le tableau observé est construite à partir
des marges, la norme dans ce cas est un tableau dans lequel il n’y pas d’effet de x sur y ou
de y sur x. Il représente le tableau le plus probable celui où le hasard seul intervient dans sa
fabrication. Le tableau espéré est le reflet de la structure des marges. Il est donc ce que l’on
attend comme situation de référence, celle où il n’y a pas d’effe d’une variable sur l’autre. Si
on calcule un χ2 sur un tableau de contingence le χ2 vaut zéro, la probabilité associée est 1.
Figure 5.10 – Structure des Lignes du Tableau espéré
20-29 ans
30-34 ans
35 ans & +
Total
marié
14.48
14.48
14.48
14.48
concubin
14.48
14.48
14.48
14.48
célibataire
71.04
71.04
71.04
71.04
Total
100.00
100.00
100.00
100.00
Figure 5.11 – Structure des Colonnes du Tableau espéré
20-29 ans
30-34 ans
35 ans & +
Total
marié
41.38
24.14
34.48
100.00
concubin
41.38
24.14
34.48
100.00
célibataire
41.38
24.14
34.48
100.00
Total
41.38
24.14
34.48
100.00
Figure 5.12 – Tableau des Ecarts
20-29 ans
30-34 ans
35 ans & +
Total
marié
-7.69
+2.93
+4.76
0.00
concubin
+0.31
+0.93
-1.24
0.00
célibataire
+7.38
-3.86
-3.52
0.00
Total
0.00
0.00
0.00
0.00
Il est difficile de se servir des valeurs de ce tableau pour évaluer l’importance des écarts. Les
écarts ou les erreurs d’estimation et de mesure sont proportionnels à ce que l’on attend. Par
exemple lors d’une invitation dîner que l’on a lancée, se tromper de 5 personnes sur un nombre
d’invités que l’on croit être de 5 fait que, soit on sera seul et cela risque d’être un peu triste,
soit on se retrouve à 11, et il risque à la fois de manquer de chaises et les invités risquent de
rester sur leur faim. En revanche se tromper de 5 personnes, alors que l’on en a invité 50, fait
que l’on sera 45 ou 55 à table et il est fort possible que l’erreur ne se voit pas, que tout le
monde mange à sa faim, que l’on ne s’ennuie pas).
87
Figure 5.13 – Tableau des Signes
20-29 ans
30-34 ans
35 ans & +
marié
+
+
concubin
+
+
-
célibataire
+
-
Figure 5.14 – Tableau des Contributions
20-29 ans
30-34 ans
35 ans & +
Total
marié
6.80
1.69
3.13
11.61
concubin
0.01
0.17
0.21
0.39
célibataire
1.28
0.60
0.35
2.23
Total
8.09
2.46
3.69
14.24
χ2 = 14.24; DF = 4 ; p � 0.0066
Quelques commentaires sur les conclusions à visée interprétative de ce calcul :
Tout d’abord il n’y a qu’environ 6 chances sur 1000 pour qu’un tel tableau observé soit le fait du
hasard. Il existe donc un lien entre les variables âges et situations matrimoniales qui explique
un tel tableau. La situation matrimoniale est liée l’âge. L’information la plus importante
(contribution au χ2 = 6.80) consiste dans le fait que les 20-29 ans sont moins souvent mariés
qu’ils devraient l’être s’ils se comportaient comme l’ensemble de la population, la deuxième
information (contribution au χ2 = 3.13) consiste dans le fait que que les 35 ans et plus sont
plus souvent mariés que l’ensemble de la population. C’est la situation matrimoniale marié
qui contribue le plus à l’information contenue dans le tableau (contribution au χ2 = 11.61).
Cette situation est donc très liée à l’âge. La troisième information contenue dans ce tableau
(contribution au χ2 = 1.69) est le fait que les 30-34 ans sont plus souvent mariés que le reste de
la population. La quatrième information consiste dans le fait que les moins de 30 ans sont ceux
qui sont le plus souvent célibataires en comparaison avec le reste de l’échantillon (contribution
au χ2 = 1.28). En revanche, le fait d’être concubin est la situation matrimoniale qui contribue
le moins à l’information contenue dans le tableau (contribution au χ2 = 0.39) ; cette faible
contribution au χ2 mérite comme c’est souvent le cas que l’on cherche comprendre ce qu’elle
signifie. Comme cela à déjà été précisé au début de cette présentation du χ2 , l’information
dans la théorie de l’information mesure ce qui est différent de ce que l’on attend, est différente
de l’information du sociologue. En effet les cellules du tableau contenant une forte contribution
au χ2 donc une grande quantité d’informations du point de vue de la théorie de l’information
mettent dans ce tableau en évidence des truismes : on est moins souvent marié quand on a
moins de 30 ans plus souvent quand on a un âge supérieur, et on est plus souvent célibataire
quand on a moins de 30 ans. Mais à l’inverse les faibles contribution χ2 que l’on observe
dans la colonne concubin nous indique qu’à tous les âges on a une proportion équivalente, à
celle qui est attendue ; de personnes qui se déclarent vivre en concubinage. Autrement dit le
concubinage comme situation matrimoniale est dans cette population indépendante de l’âge
88
ce qui pour le sociologue est le cas échéant, en fonction de la problématique et des hypothèses,
une information, alors que du point de vue de la théorie de l’information ce n’est pas le cas.
89
5.8. Définition et utilisation du ϕ
5.8
Définition et utilisation du ϕ
Le ϕ est une distance. On l’obtient en pondant le χ2 par l’effectif de la population par N et en
extrayant la racine carre de cette surface moyenne. Il présente du point de vue du calcul une
grande analogie avec l’écart-type et du point de sa nature une forte analogie avec le cosinus
et le coefficient de corrélation ρ. La valeur du ϕ est comprise entre +1 et −1. Plus la distance
entre le tableau d’indépendance et le tableau observé est grande plus | ϕ | est grande. Dans
le cas d’un tableau 2 × 2 le ϕ et r le coefficient de corrélation ont la même valeur si l’on
représente les modalités des deux variables qualitatives qui ont servi à calculer le χ2 sous la
forme de nombres entiers successifs.
Figure 5.15 – Équivalence du ϕ et du coefficient de corrélation r dans un tableau 2 × 2
ϕ=
Rose
Bleu
Total
Homme
10
30
40
Femme
20
40
60
Total
30
70
100
r=
1
2
Total
1
10
30
40
2
20
40
60
Total
30
70
100
r=
3
4
Total
6
10
30
40
7
20
40
60
Total
30
70
100
La formule qui permet d’obtenir la valeur de ϕ quand on connaît le χ2
ϕ=
�
χ2
N
�
L’opération χ2 donnant ±ϕ on obtient le signe de ϕ en l’affectant du signe de la valeur de
cellule n11 du tableau des écarts dans le calcul du χ2 ou si l’on a pas ce tableau en appliquant
n11 − (n1. .n.1 )
la formule
.
N
Dans le cas d’un tableau 2×2 on peut démontrer que la formule précédente du ϕ est équivalente
celle ci-dessous.
ϕ=
(n11 .n22 ) − (n21 .n12 )
√
n1. .n2. .n.1 .n.2
((n11 .n22 ) − (n21 .n12 ))2
n1. .n2. .n.1 .n.2
(n
−
e11 ) (n12 − e12 ) (n21 − e21 ) (n22 − e22 )
11
χ2 =
+
+
+
e11
e12
e21
e22
ϕ2 =
Dans cette formule le signe est celui de la différence :
(n11 .n22 ) − (n21 .n12 )
L’expression du χ2 en fonction de n11 , n12 , n21 , n22 s’obtient partir de :
90
(5.5)
(n11 + n12 )(n21 + n22 )
n11 + n12 + n21 + n22
n11 (n11 + n12 + n21 + n22 ) (n11 + n12 )(n21 + n22 )
=
−
n11 + n12 + n21 + n22
n11 + n12 + n21 + n22
2
n + (n11 .n12 ) + (n11 .n21 ) + (n11 .n22 ) − n211 − (n11 .n21 ) − (n11 .n12 ) − (n12 .n21 )
= 11
n11 + n12 + n21 + n22
(n11 .n22 ) − (n12 .n21 )
=
n11 + n12 + n21 + n22
(5.6)
n11 − e11 = n11 −
Figure 5.16 – Repère pour le calcul du ϕ
y1
y2
ni.
x1
n11
n12
n1.
x2
n21
n22
n2.
91
n.j
n.1
n.2
Σnij
Exemple d’utilisation du φ sur le temps plein ou le temps partiel des hommes et
des femmes appartenant au champ des professions du secteur social et d’âge
20-29 ans
Figure 5.17 – Tous les temps pleins disponibles sont occupés par des hommes
les femmes occupent quand il en reste ceux qu’ils ont laissés vacants
Hypothèse
Homme
Femme
Total
Temps plein
1324
2455
3779
Temps partiel
0
3234
3234
Total
1324
5689
7013
χ2 = 1396.751 ; ϕ = 0.446 ; ϕ ; p � 0
Figure 5.18 – Tableau Observé
Observé
Homme
Femme
Total
Temps plein
954
2825
3779
Temps partiel
370
2864
3234
Total
1324
5689
7013
χ2 = 216.618 ; ϕ = 0.176 ; ν = 1 ; p � 0
Figure 5.19 – Tableau Espéré
Espéré
Homme
Femme
Total
Temps plein
713.45
3065.55
3779
χ2 = 0 ; ϕ = 0 ; ϕ ; p = 1
92
Temps partiel
610.55
2623.45
3234
Total
1324
5689
7013
Figure 5.20 – Tous les temps pleins disponibles sont occupés par des femmes
les hommes occupent quand il en reste ceux qu’elles ont laissés vacants
Hypothèse
Homme
Femme
Total
Temps plein
0
3779
3779
Temps partiel
1324
1910
3234
Total
1324
5689
7013
χ2 = 1907.185 ; ϕ = −0.521 ; ϕ ; p � 0
Pour le commentaire qui suit nous considèrerons que pour un travailleur le fait d’être employé
à plein temps est plus favorable que d’être employé temps partiel.
Si l’on essaie de placer ces 4 tableaux les uns par rapport aux autres de façon à mieux visualiser
leurs distances entre eux : on observe que la distance entre l’indépendance du tableau décrivant
la situation la plus favorable aux femmes est plus grande que celle qui sépare la situation la plus
favorable aux hommes de l’indépendance. La situation observée est située entre la situation
d’indépendance et celle qui est la plus favorable aux hommes. En revanche la situation observée
est plus proche de l’indépendance que de la situation la plus favorable aux hommes. On peut
donc conclure dans ce cas de figure que le tableau observé montre une situation favorable aux
hommes même si cette situation est plus proche de l’indépendance que d’une situation qui
leur serait complètement favorable.
Figure 5.21 – Position des différents tableaux les uns par rapport aux autres (travailleurs
sociaux)
Situation
favorable
aux femmes
−0.52
−→
Indépendance
+0.18
−→
Observé
+0.26
−→
Situation
favorable
aux hommes
Le même type de calcul sur des garçons et des filles qui trois ans auparavant ont passé un
BAC professionnel montre que la situation d’emploi au regard du temps plein et du temps
partiel est sensiblement différente entre le deux sexes. La situation observée est là aussi entre
celle de l’indépendance et celle qui serait la plus favorable aux hommes, mais celle plus proche
de la situation la plus favorable aux hommes que de la situation d’indépendance qui traduit
la non ségrégation des femmes au regard d’une attribution d’un temps plein.
Figure 5.22 – Position des différents tableaux les uns par rapport aux autres (BAC professionnel)
Situation
favorable
aux femmes
−0.52
−→
Indépendance
+0.36
−→
93
Observé
+0.20
−→
Situation
favorable
aux hommes
5.9. Probabilités exactes sur un tableau 2 × 2
5.9
Probabilités exactes sur un tableau 2 × 2
Figure 5.23 – Structure du tableau 2 × 2
X
X
ni.
Y
n11
n12
n1.
Y
n21
n22
n2.
n.j
n.1
n.2
Σnij
Le modèle sous-jacent pour le calcul de la probabilité conditionnelle d’observer n11 individus
dans la première case en connaissant les distributions marginales est celui d’un tirage exhaustif : une urne qui contient N boules dont n1. sont X et n2. sont X. On en prélève n11 . La
probabilité d’obtenir le tableau observé est la probabilité que parmi ces n1. boules n11 soient
X et n21 soient X.
Il s’obtient avec la formule :
Cnn1.11 × Cnn2.21
n1.
CN
n1. ! n.2 ! n2. ! (N − n.2 )!
=
n11 ! (n1. − n11 )! n12 ! (n2. − n12 )! N !
n1. ! n2. ! n.1 ! n.2 !
=
N ! n11 ! n12 ! n21 ! n22 !
n1. ! n2. ! n.1 ! n.2 !
=
N ! n11 ! n12 ! n21 ! n22 !
p(n11 ) =
(5.7)
Figure 5.24 – Marges du tableau 2 × 2 servant d’exemple
y1
y2
ni.
0
5
5
7
0
7
x1
n11
n12
5
x2
n21
n22
7
n.j
7
5
12
Figure 5.25 – Ensemble des tableaux pour toutes les
possibles quand les marges sont fixées
7
1 6 7
2 5 7
3 4 7
4
5
4 1 5
3 2 5
2 3 5
1
12
5 7 12
5 7 12
5 7 12
5
94
valeurs n11
3
4
7
7
5
12
5
0
5
2
5
7
7
5
12
Valeur du calcul quand n11 = 0
p(n11 ) =
5! 7! 7! 5!
120 × 5 040 × 5 040 × 120
365 783 040 000
=
=
= 0, 001 3
12! 0! 5! 7! 0!
479 001 600 × 1 × 120 × 5 040 × 1
289 700 167 680 000
Figure 5.26 – Probabilité d’apparition des tableaux en fonction des valeurs n11
possibles quand les marges sont fixées conformément aux tableaux précédents
valeur de n11 probabilité
0
0,001 3
1
0,042 0
2
0,265 2
3
0,441 9
4
0,211 0
5
0,026 5
Σ pi
1,000 0
95
96
Chapitre 6
Introduction à l’analyse des données
Sous les dénominations génériques analyse des données et analyse factorielle, il existe une
diversité de techniques de traitement de données qui correspondent à des types de données
différents (qualitatives vs. quantitatives) ou à des structurations de tableaux différentes.
6.1
Les types de tableaux de données en analyse des données.
Prenons l’exemple d’une population de 4 individus, caractérisés par leur sexe et leur situation
matrimoniale ainsi que leur localisation géographique, leur âge, et leur revenu.
– La variable sexe comporte 3 modalités : homme, femme, sans réponse.
– La variable situation matrimoniale comporte 5 modalités : célibataire, marié, veuf, divorcé,
sans réponse.
– La variable localisation comporte 2 modalités : rural, urbain.
– La variable âge est numérique.
– La variable revenu est numérique.
Le fichier de données se présente de la manière suivante :
Figure 6.1 – Exemple de tableau de données
Nom
Jean
Colette
Pierre
Yvette
Sexe
Homme
Femme
Homme
Femme
Situation matrimoniale
Célibataire
Veuve
Divorcé
Sans réponse
97
Localisation
Rural
Urbain
Urbain
Rural
Âge
45
56
23
29
Revenu annuel
25400
27500
26200
15900
6.1. Les types de tableaux de données en analyse des données.
6.1.1
Les tableaux de contingence
Figure 6.2 – Exemple de tableau de contingence simple
Homme
Femme
Rural
1
1
Urbain
1
1
Figure 6.3 – Exemple de tableau de contingence juxtaposé
Rural
1
1
Homme
Femme
6.1.2
Urbain
1
1
Célibataire
1
0
Mari
0
0
Veuf
0
1
Divorcé
1
0
SR
0
1
Les tableaux de Burt
Figure 6.4 – Exemple de tableau Burt
Homme
Femme
SR
Célibat
Marié
Veuf
Divorcé
SR
Rural
Urbain
6.1.3
Homme
2
0
0
1
0
0
1
0
1
1
Femme
0
2
0
0
0
1
0
1
1
1
SR
0
0
0
0
0
0
0
0
0
0
Célib.
1
0
0
1
0
0
0
0
1
0
Marié
0
0
0
0
0
0
0
0
0
0
Veuf
0
1
0
0
0
1
0
0
0
1
Div.
1
0
0
0
0
0
1
0
0
1
SR
0
1
0
0
0
0
0
1
1
0
Rural
1
1
0
1
0
0
0
1
2
0
Urb.
1
1
0
0
0
1
1
0
0
2
Les tableaux disjonctifs complets
Figure 6.5 – Exemple de tableau disjonctif complet
Nom
Jean
Colette
Pierre
Yvette
Homme
1
0
1
0
Femme
0
1
0
1
SR
0
0
0
0
Célibataire
1
0
0
0
Marié
0
0
0
0
98
Veuf
0
1
0
0
Divorcé
0
0
1
0
SR
0
0
0
1
Rural
1
0
0
1
Urbain
0
1
1
0
≤ 40
0
0
1
1
>40
1
1
0
0
6.1.4
Diverses formes d’analyse des données
L’analyse en composantes principales (ACP)
Elle est utilisée pour traiter des données de type numérique qui reflètent des quantités qui ont
un sens autre que de donner un effectif dans un tableau croisé. Par exemple cela peut être une
taille, un taux de fécondité, un taux de morbidité, de mortalité, etc.
L’analyse factorielle des correspondances (AFC)
Elle est utilisée pour traiter des tableaux de contingence.
L’analyse factorielle des correspondances multiples(AFM)
Elle est utilisée pour traiter des fichiers de données contenant des variables numériques ou
nominales. Si les données sont numériques elles doivent être préalablement transformées en
classes.
D’autres techniques de classifications comme les analyses hiérarchiques les analyses discriminantes ou les analyses de clusters sont des techniques dont les soubassements théoriques
reposent sur les mêmes prémices.
Définition
L’analyse factorielle traite des tableaux de nombres, elle remplace des tableaux difficiles à lire
par des tableaux plus simples qui sont une bonne approximation de ceux-ci.
Le mot factoriel renvoie au terme de facteur : mise en facteur, factorisation.
En mathématiques la factorisation c’est une technique qui permet d’écrire sous une forme plus
simple une formule compliquée en faisant ressortir les éléments qui sont communs à l’ensemble
des parties qui la composent.
Il est question dans le cas de l’analyse factorielle de représenter une même réalité sous une
forme plus agréable à lire. L’analyse factorielle d’un tableau c’est sa décomposition en une
série de facteurs.
6.1.5
Les tapes d’une AFC
L’exemple développé est un exemple bricolé à des fins d’exercices pour permettre de comprendre le raisonnement suivi. L’exemple est tiré de l’enquête sur le choix du conjoint de
Girard.
Le travail pour des fins pédagogiques sépare l’explication des étapes successives qui permettent
la construction des plans factoriels, de celle des méthodes numériques permettant l’extraction
des facteurs.
Le questionnaire utilisé par Girard contenait entre autres questions, une question visant
connaitre la qualité que les hommes avaient repéré dès le premier coup d’œil chez leur conjointe,
lors de leur première rencontre.
99
Un détour par le χ2
C. S. p.
Prof, Cadr sup.
Insti, Inter publ
Agriculteur
Ouvrier nq
TOTAL
Intelligente
13
20
7
10
50
Courageuse
5
8
22
5
40
Affectueuse
2
2
1
5
10
TOTAL
20
30
30
20
100
Figure 6.7 – Tableau Espéré
C. S. p.
Prof, Cadr sup.
Insti, Inter publ
Agriculteur
Ouvrier nq
TOTAL
Intelligente
10
15
15
10
50
Courageuse
8
12
12
8
40
Affectueuse
2
3
3
2
10
TOTAL
20
30
30
20
100
Figure 6.8 – Tableau des écarts
C. S. p.
Prof, Cadr sup.
Insti, Inter publ
Agriculteur
Ouvrier nq
TOTAL
Intelligente
+3
+5
-8
0
0
Courageuse
-3
-4
+10
-3
0
Affectueuse
0
-1
-2
+3
0
TOTAL
0
0
0
0
0
Figure 6.9 – Tableau des contributions
CSP.
Prof, Cadr sup.
Insti, Inter publ
Agriculteur
Ouvrier nq
TOTAL
Intelligente
0.90
1.67
4.27
0.00
6.83
Courageuse
1.13
1.33
8.33
1.13
11.92
Valeur du χ2 : 24.92
100
Affectueuse
0.00
0.33
1.33
4.50
6.17
TOTAL
2.03
3.33
13.93
5.63
24.92
Nombre de degrés de liberté (ν) : 6 (4 lignes − 1) × (3 colonnes − 1)
Probabilité associée au χ2 : 0,000389 (soit environ 4 chances sur dix mille pour que ce qui
est observé sur ce tableau soit dû au hasard).
Un certain nombre de commentaires peut être effectué sur ce résultat : tout d’abord, il est
quasi impossible que de tels résultats soient le fait du hasard ; la probabilité que le hasard
puise générer un tel tableau est d’environ 4 sur 10 000. Le lien entre les PCS et les qualités
reconnues est avéré. L’examen des contributions des lignes et des colonnes montre que c’est
la qualité courage qui est la plus porteuse d’information. Cette qualité est choisie de manière
très différente que les autres qualités. Il est possible de faire la même constatation pour les
agriculteurs qui se sont positionnés très différemment des autres PCS. L’examen conjoint des
contributions des cellules, et des signes des tableaux des écarts, montre que l’information la
plus importante de ce tableau — environ 30% de l’information totale (8, 33 ÷ 24, 92 × 100)—
consiste dans le fait que les agriculteurs reconnaissent plus souvent le courage comme étant la
première qualité qu’ils ont reconnue chez leur conjointe. La seconde information consiste dans
le fait que les ouvriers sont plus nombreux que les autres à repérer comme qualité l’affection
chez leur conjointe entre 15% et 20% de l’information totale (4, 50 ÷ 24, 92 × 100). La troisième
information consiste dans le fait que les agriculteurs ont perçu moins souvent que les autres
PCS l’intelligence comme caractéristique de leur conjointe lors de leur premier rencontre. On
peut mener ce raisonnement sur toutes les cases contribuant au χ2 . Les contributions zéro au
χ2 signifient par exemple dans ce tableau que les professeurs et cadres supérieurs ont reconnu
ni plus ni moins que les autres l’affection comme tant la qualité qui les a frappés lors de leur
première rencontre avec leur conjointe. On pourrait faire la même remarque pour ouvrier et
intelligence.
Première analyse factorielle
L’analyse factorielle repose pour partie sur des prémices analogues : en revanche, elle propose
un type d’analyse différent des tableaux de données. Elle se propose de décomposer un tableau
complexe en une suite de tableaux simples. Un tableau simple est un tableau que l’on peut
résumer par ses marges, c.a.d. qui peut être reconstruit quand l’on connaît les marges. Parmi
les tableaux de décomposition du χ2 le tableau observé est un tableau simple. On le fabrique
en multipliant les totaux des lignes par les totaux des colonnes et les divisant par l’effectif
total.
Le tableau qu’analyse l’AFC est celui des restes, c’est un tableau complexe c’est aussi celui
qui ne contient que de l’information au sens de la théorie de l’information. Dans cette dernière
rappelons qu’une information est ce qui est différent de ce que l’on attend. Ce que l’on attend
c’est le hasard : le tableau espéré.
Tableau des restes (écarts)(R0 ) (étape 1)
Intelligente Courageuse Affectueuse
Prof, Cadr-sup
+3
-3
0
Insti, Inter-publ
+5
-4
-1
Agriculteur
-8
+10
-2
Ouvrier nq
0
-3
+3
101
Extraction du premier facteur (F1 ) (étape 2)
Prof, Cadr-sup
Insti, Inter-publ
Agriculteur
Ouvrier nq
+1
-2
+1
+1
+1
-4
+2
Tableau constitué grâce au premier facteur (T1 ) (étape 3)
Prof, Cadr-sup
+1
-2
1
Insti, Inter-publ
+1
-2
+1
Agriculteur
-4
+8
-4
Ouvrier nq
+2
-4
+2
Tableau (R1 = R0 − T1 ) (étape 4)
Prof, Cadr-sup
+2
-1
-1
Insti, Inter-publ
+4
-2
-2
Agriculteur
-4
+2
+2
Ouvrier nq
-2
+1
+1
Extraction du second facteur (F2 ) (étape 5)
Prof, Cadr-sup
Insti, Inter-publ
Agriculteur
Ouvrier nq
+2
-1
-1
Tableau constitué grâce au second facteur (T2 ) (étape 6)
Prof, Cadr-sup
+2
-1
-1
Insti, Inter-publ
+4
-2
-2
Agriculteur
-4
+2
+2
Ouvrier nq
-2
-1
-1
Tableau (R2 = R1 − T2 ) (étape 7)
Prof, Cadr-sup
0
0
0
Insti, Inter-publ
0
0
0
Agriculteur
0
0
0
Ouvrier nq
0
0
0
102
+1
+2
-2
-1
Nous rappelons que la suite de ces tableaux n’explique pas comment sont extraits les facteurs
mais comment les calculs s’enchaînent. Le premier tableau est celui des restes R0 , du point de
vue factoriel, c’est un tableau compliqué, la manière dont il est rempli ne dépend pas de ces
marges qui sont d’ailleurs toutes égales à zéro. Par une technique numérique, qui sera expliquée dans un temps ultérieur, on fabrique des marges au tableau des restes R0 en sorte qu’elles
soient une bonne approximation de ce dernier. On obtient 1 premier facteur F1 composé de ces
deux marges que nous venons d’extraire. Avec ces deux marges on fabrique le tableau simple
T1 qui résulte du simple produit des marges. Ce tableau T1 est une approximation de R0 mais
il n’épuise pas toute l’information contenue dans ce dernier. Pour extraire l’information qui
reste à factoriser on effectue la soustraction case à case des tableaux R0 et T1 ce qui nous
permet de construire le tableau R1 = R0 − T1 . Ce tableau n’est pas un tableau simple. On
le soumet au même type de transformation que le tableau R0 , ce qui permet d’obtenir un
second facteur F2 . Le produit des deux marges qui constituent le facteur F2 permet d’obtenir
un tableau T2 qui constitue une bonne approximation du reste de l’information contenue dans
R1 . Pour voir s’il reste de l’information on soustrait T2 à R1 , R2 = R1 − T2 , l’ensemble des
cases du tableau R2 est égal à zéro. Il n’y a donc plus d’information à factoriser. Ce résultat
est obtenu après deux extractions de facteurs.
Figure 6.10 – Représentation séparée des axes 1 et 2
Agrig
−5
−5
−4
−4
Insti
P rof e
Af f ec
Intel Ouvri
Coura
−3
−3
−2
−1
0
Ouvri
Af f ec
AgrigCoura
−2
−1
+1
+2
Axe 1
+3
Intel
P rof eInsti
0
+1
+2
Axe 2
+3
Ce résultat n’est pas le résultat du hasard. Il a été démontré que ce type de résultat est obtenu
après un nombre d’extraction de facteurs égal à la plus petite dimension du tableau moins 1.
Le tableau examiné fait 4 lignes et 3 colonnes le nombre de facteurs que l’on peut extraire est
donc de 3 − 1 = 2.
On peut une fois extraits les facteurs les reporter sur deux axes (axe 1 facteur 1, axe 2 facteur
2). Les valeurs obtenues lors de l’extraction des facteurs sont les coordonnées sur les axes. Ainsi
par exemple dans le tableau dans le tableau F1 à l’étape 2 du calcul en face de la modalité
Agriculteurs sur la même ligne on a obtenu la valeur -4. c’est donc cette valeur -4 qui sert
de coordonnée à la modalité agriculteur sur l’axe 1. On effectue pour toutes les modalités en
ligne et en colonne la même opération pour les axes 1 et 2.
103
Premières interprétations des axes factoriels
La lecture successive des axes 1 et 2 permet déjà d’effectuer une première analyse des résultats
produits par l’AFC.
Le Premier axe est celui de l’opposition entre d’une part, la PCS Agriculteur qui a reconnu dans
le premier coup d’œil et de manière massive le courage comme qualité chez leur compagne, et
d’autre part, les PCS Instituteur et Cadre-Moyen, Professeur et Cadre supérieur, et Ouvrier
Non Qualifié qui eux dans les mêmes circonstances ont repéré l’intelligence ou l’affection
comme qualité caractérisant leur compagne.
Le second axe, quant à lui, apporte comme c’est souvent le cas une précision sur le premier
axe en mettant en évidence une autre division dans notre population. Il oppose d’un côté les
PCS Instituteur et Cadre-Moyen, Professeur et Cadre supérieur qui ont reconnu de manière
élective l’intelligence, et de l’autre la PCS Agriculteur ou les qualités reconnues au premier
regard lors de la première rencontre.
On reporte ensuite les valeurs des facteurs sur les axes 1 et 2 puis on croise les deux axes. Cela
permet d’obtenir un plan factoriel relativement simple à lire. Simple à lire puisque compte
tenu de la taille du tableau seuls 2 facteurs pouvaient être extraits. Cette opération est possible
pour les lignes et les colonnes de ce tableau car nous sommes dans le cas d’une AFC et dans
ce cas les distances calculées sur les lignes et les colonnes sont de même nature. dans le cas
des ACP cette représentation des lignes et des colonnes sur le même plan est d’une manière
générale à proscrire car les distances ne sont pas de même nature. Avec 2 facteurs, c’est un
plan qui peut être défini, en revanche, si la plus petite dimension du tableau était 4 on pourrait
extraire 3 facteurs et du même coup ce serait un volume que nous aurions examiner. Sur le
plan déterminé par les axes 1 et 2 se sont les projections des points qui sont représentées.
En fait les points sont situés au sein du nuage soit au dessus soit-au-dessous du plan, très
rarement, exceptionnellement ils sont sur le plan.
Premier plan factoriel et premières interprétations
La lecture du plan issu de cette analyse se fait donc sur des principes simples : proximité
entre les points, opposition entre les secteurs. Le secteur supérieur gauche montre la forte
liaison qui existe entre le fait d’appartenir à la PCS Instituteurs Cadres-moyens avec le fait
d’avoir reconnu au premier coup d’œil l’intelligence comme qualité de leur compagne. Dans ce
quadrant on remarque aussi la liaison qui existe entre le fait d’appartenir aux PCS Professeurs
et Cadres-supérieurs et le fait d’avoir entrevue au premier regard l’intelligence comme la qualité
caractérisant leur compagne. Pour autant ce lien, bien que net, n’est pas aussi important que
celui qui la PCS Instituteurs Cadres-moyens à cette même qualité. L’attraction légère des
PCS plus vers les ouvriers provient du fait qu’une part de celles-ci ont reconnu au premier
regard l’affection comme qualité caractérisant leur compagne. A ces deux PCS s’opposent le
comportement des Agriculteurs qui affirment massivement que le courage est la qualité qu’ils
ont reconnu au premier coup d’œil chez leur compagne lors de leur première rencontre. La
position de la PCS Ouvriers Non Qualifiés entre Agriculteurs et Professeurs s’explique par le
fait qu’ils ont de manière élective reconnu l’affection comme qualité chez leur compagne au
premier regard lors de leur première rencontre mais que dans le même temps une part d’entre
eux a aussi reconnu l’affection comme qualité de leur compagne, tout comme l’a fait une partie
104
des agriculteurs.
Figure 6.11 – Représentation du plan formé par les axes 1 et 2
+5
+4
+3
D× IN ST IT U T EU RS
+2
Intelligente
c
×
+1
C
P ROF ESSEU RS
O
×
0
Courageuse
×
−1
−2
K×
Af f ectueuse
I
×
×
+1
+2
F
G
OU V RIERS
AGRICU LT EU RS
−3
−4
−4
−3
−2
−1
0
105
+3
+4
Méthode numérique d’extraction des facteurs
Imaginons le tableau suivant :
1
2
4
1
3
5


1 1
L’étape 0 du calcul consiste à dire que ce tableau ou cette matrice  2 3  peut être
4 5
�
�
approximé par un vecteur 1 1 . C’est l’étape 0 du tableau ci-dessous. Ensuite comme
l’illustrent ce même tableau et le calcul matriciel qui suit on effectue le produit de notre
matrice initiale par ce vecteur ce qui permet d’obtenir un nouveau vecteur qui correspond à
l’étape 1 du tableau ci-dessous. Les tapes 0, 2, 4,. . . sont numérotés dans la première colonne
du tableau ci-après, les étapes 1, 3, 5, . . . sont numérotées dans la première ligne de ce même
tableau.


 
� �
1 1
2
1



2 3
5 
V1 =
×
=
1
4 5
9
Pour obtenir ce résultat on effectue les calculs suivants dont on trouve le résultat à l’étape 1
dans le tableau suivant : 1 × 1 + 1 × 1 = 2
1×2+1×3=5
1×4+1×5=9
On continue en effectuant le calcul suivant :
V2 =
�
1 2 4
1 3 5
�


�
�
2
48
× 5 =
62
9
Pour obtenir ce résultat on effectue les calculs suivants dont on trouve le résultat à l’étape 1
dans le tableau suivant :
2 × 1 + 5 × 2 + 9 × 4 = 48
2 × 1 + 5 × 3 + 9 × 5 = 62
De manière itérative on répète ce calcul en surveillant ce que donne l’évolution de ces chiffres
exprimés en pourcentage. En examinant cette évolution dans le tableau ci-dessous on remarque
que ces pourcentages se stabilisent au bout d’un certain nombre d’itérations. Lorsque cela se
produit c’est que la méthode utilisée ne peut aller plus loin. A ce moment on possède des marges
stables d’un tableau. Il est donc possible de reconstituer l’intérieur de ce tableau à partir de
l’effectif total, on produit d’abord les marges puis l’intérieur du tableau comme dans le cas
du tableau espéré. Pour savoir si l’opération doit être recommencée on soustrait le tableau
obtenu du tableau de départ. Si la différence des deux tableaux case à case n’est pas nulle on
recommence la même opération de décomposition sur le tableau obtenu par soustraction.
106
Figure 6.12 – Processus numérique d’extraction de facteur
Il est possible d’exprimer cette suite de calcul par une formalisation matricielle. Bien que
nous ne nous lancerons pas dans cette voie, comme nous avons de temps à autre utilisé cette
formalisation nous nous permettons de donner quelques éléments de calcul matriciel.
6.1.6
Quelques rappels sur les matrices
Quelques règles sur les produits des matrices. On peut multiplier 2 matrices si le nombre de
colonnes de la matrice de gauche est égal au nombre de lignes de la matrice de droite. Les 2
autres dimensions (lignes de la matrice de gauche et colonne de la matrice de droite) peuvent
être quelconques. Elles donnent la taille de la matrice résultat. L’opération est complexe à
décrire mais simple à faire selon un principe : ligne de la matrice droite par colonne de la
matrice gauche.
Imaginons 2 matrices l’une M(4, 3) de 4 lignes et de 3 colonnes que l’on veut multiplier par une
matrice de N(3, 2) 3 lignes et de 2 colonnes. Cette multiplication donne une matrice résultat
de 4 lignes et 2 colonnes. Cette opération suit la logique de l’expression suivante, et peut être
représenté par le graphique suivant :

a
 d
M ×N ⇒
 g
j




b c
au + bw + cy av + bx + cz
u v


e f  
du + ew + f y dv + ex + f z
w x =
×
 gu + hw + iy gv + hx + iz
h i 
y z
k l
ju + kw + ly jv + kx + lz
��
��
��
��
��
��
��
107




Le nombre de combinaisons que l’on peut obtenir n’est pas si important que l’on ne puisse
les représenter, il se résume à six cas. Les matrices d’origines sont constituées de � et les
matrices résultats de �. Il faut noter que le produit d’une matrice par un vecteur-colonne est
un autre vecteur colonne, que le produit d’une matrice par un vecteur ligne donne un autre
vecteur-ligne. Le produit de deux matrices n’est pas commutatif M1 × M2 �= M2 × M1 . Dans le
cas du produit d’un vecteur ligne par un vecteur colonne on obtient une matrice symétrique.
(Une matrice symétrique est une matrice qui est telle que deux éléments symétriques par
rapport sa diagonale sont identiques.) Dans le cas d’un produit d’un vecteur-colonne par un
vecteur-ligne on obtient un nombre qui est une matrice(1,1) que l’on appelle aussi un scalaire.
(Il correspond au produit scalaire de deux vecteurs)
��
��
��
��
��
��
��
��
��
��
��
��
��
��
�
�
�
�
�
��
��
��
��
��
��
��
��
��
��
��
��
��
��
��
��
��
��
��
��
��
��
�
�
�
�
�
�
��
Vérification du plan factoriel par le calcul vectoriel
Les calculs que nous allons présenter visent à montrer qu’il existe bien un lien entre le plan
factoriel présent et le tableau des restes qu’il est censé représenter. Pour ce faire nous allons
remonter au tableau des restes par une autre méthode que celle qui nous a permis de construire
le plan factoriel.
Pour réaliser ce retour vers le plan factoriel nous proposons de revenir au tableau des restes
en partant des coordonnes des points sur le plan factoriel en utilisant une méthode reposant
sur les produits scalaires.
Produit scalaire :
D’un point de vue géométrique un produit scalaire est un nombre qui s’obtient en projetant
perpendiculairement un vecteur sur un autre et en faisant le produit de la longueur du vecteur
sur lequel on projette par la longueur de la projection de l’autre.
−→ −−→
OA × OB = OA� × OB
OA = 8, 00cm
OB = 11, 0cm
OA� = 6, 14cm
−→ −−→
OA × OB = 11, 0cm × 6, 10cm = 67, 54
108
Figure 6.13 – Produit scalaire
−→
Si on note : OA → V1
−−→
OB → V2
α l’angle des deux vecteurs
L1 et L2 la longueur des deux vecteurs
Le produit scalaire V1 × V2 = L1 × L2 × cos(α) = 67, 41
Le produit scalaire est commutatif :
V 1 × V 2 = V2 × V1
Si V1 et V2 sont perpendiculaires cos(α) = 0
Si V1 et V2 sont sur la même droite cos(α) = ±1 le produit scalaire se réduit au produit des
deux longueurs, le produit scalaire d’un vecteur par lui même est gal au carré de sa longueur.
Théorème de Pythagore : dans un triangle rectangle le carré de l’hypoténuse est gal à la somme
des carrés des deux côtés de l’angle droit.
Après ces quelques rappels passons à la vérification du fait que le graphique formé par les
deux axes reflète bien le tableau des restes.
Le plus simple d’abord : L’intersection Agriculteur avec Courageux.
−−→
−→
Les deux segments sont superposés, le produit vectoriel de OK par OI se résume au produit
de la longueur des deux vecteurs. Il nous faut donc calculez ces deux longueurs. Le théorème
de Pythagore peut ici être utilisé avec profit. Le point K est de coordonnes xi = −4, yj = −2
le point I est de cordonnes xi = −2, yj = −1 √
OK 2 = Ox2y + Oyi2 = 42 + 22 = 20 ⇒ OK = 20 = 4, 47
√
OI 2 = Ox2y + Oyj2 = 22 + 12 = 5 ⇒ OI = 5 = 2, 24
−−→ −→
OK × OI = 4, 47 × 2, 24 = 10
L’intersection du tableau des restes pour Agriculteur avec Courageux contient
bien la valeur 10.
109
Un peu plus compliqué : L’intersection Profession supérieur et intellectuelle avec Intelligente
−−→
−−→
Les deux vecteurs ne sont pas superposés le produit vectoriel de OD par OC ne se résume
−−→
−−→
pas au produit de la longueur des deux vecteurs mais à celui de OD par la projection OC sur
−−→
−−→
OD que nous appellerons par convention OC � . Il nous faut donc calculez ces deux longueurs.
Si le théorème de Pythagore peut ici être utilisé avec profit pour calculer la longueur de OD
car nous en connaissons les coordonnes en revanche les coordonnes de C � nous sont inconnues.
pour les connaître un peu de trigonométrie est nécessaire.
Le point D est de coordonnes xi = 1, yj = 2√
OD2 = Ox2y + Oyi2 = 12 + 22 = 5 ⇒ OD = 5 = 2, 24
Pour la longueur de OC � c’est un peu plus complexe :
Calculons d’abord la longueur de OC :
√
OC 2 = Ox2y + Oyi2 = 12 + 12 = 2 ⇒ OC = 2 = 1, 4142
� pour cela nous allons utiliser la fonction arctangente qui permet
Calculons ensuite l’angle x0c
de retourner une valeur angulaire quand on connaît les coordonnes xi , yj d’un point sur un
repère orthonormé. La valeur angulaire est retournée en radian.
Les angles s’expriment de trois manières différentes : Degré, Radian, Grade. Dans un tour
complet de cercle, il y a : 360 degrés, 2π radian, 400 grades. Il existe des formules simple de
passage d’un système d’unité à l’autre :
Angle en radian = π×(angle180en degré)
Angle en radian = π×(angle200en grade)
en degré)
Angle en grade = 200×(angle
180
Angle en grade = 200×(angleπ en grade)
Angle en degré = 180×(angleπ en radian)
en grade)
Angle en degré = 180×(angle
200
Bien que l’expression en radian soit moins explicite nous resterons dans cet exercice en radian
car le but est d’obtenir les longueurs des segments qui nous intéressent.
� : x0c
� = arctangente (1 ; 1) = 0,7853 rad
Calcul de l’angle x0c
� : x0d
� = arctangente (1 ; 2) =1,1071 rad
Calcul de l’angle x0d
�
Calcul de l’angle c0d par soustraction des deux angles : 1,1071 rad - 0,7853 rad = 0,3218 rad
Calculons maintenant la longueur de OC �
La longueur de la projection d’un vecteur sur un axe quand on connait l’angle qu’il forme avec
la droite est égal à la longueur du vecteur multiplié par le cosinus de de l’angle :
� × 0C ⇒ cos(0, 3218) × 1, 4142 ⇒ 0, 9487 × 1, 4142 ⇒ 1, 34
OC � = cos(c0d)
−−→ −−→
OD × OC = OD × OC � = 2, 24 × 1, 34 = 3
L’intersection du tableau des restes pour Profession supérieur et intellectuelle
avec Intelligente contient bien la valeur 3.
110
Chapitre 7
Analyse des données
7.1
Exemple d’AFC et interprétation
Les documents qui suivent résultent d’une analyse factorielle effectue avec Trideux version 4.2
sur un tableau construit partir d’un sondage préélectoral de 2002 qui a cherché à associer le
vote pour les candidats déclarés et la lecture de journaux et de magazines. Les résultats ont
été consignés dans le premier tableau (certains des candidats déclarés ne sont pas présentés
dans ce tableau pour des raisons d’effectif).
Liste exhaustive des candidats déclarés avec leur appartenance politique :
– Christine BOUTIN (FRS Divers Droite)
– Corinne LEPAGE (CAP21 Ecologiste)
– Jean-Marie LE PEN (FN)
– François BAYROU (Nouvelle UDF)
– Olivier BESANCENOT (LCR)
– Jean-Pierre CHEVNEMENT (MDC)
– Jacques CHIRAC (RPR)
– Daniel GLUCKSTEIN (Parti des travailleurs)
– Robert HUE (PCF)
– Lionel JOSPIN (PS)
– Arlette LAGUILLER (LO)
– Alain MADELIN (DL)
– Noël MAMERE (Les Verts)
– Bruno MEGRET (MNR)
– Jean SAINT-JOSSE (CPNT)
– Christiane Marie TAUBIRA-DELANNON (PRG)
Liste des journaux et magazines : La Croix (LACRO), Le Figaro (LEFIG), Libération (LIBER), Le Monde (LEMON), Le Parisien (LEPAR), Le Canard (LECAN), L’Express
(LEXPR), Marianne (MARIA), Nouvel Obs (NOUVE), Paris Match (MATCH), Télérama
(TELER), Le Point (LEPOI).
111
Laguiller
Besancenot
Hue
Jospin
Taubira
Chevenement
Mamère
Lepage
Sain-Joss
Bayrou
Madelin
Chirac
Boutin
Megret
Le-Pen
Blanc
Laguiller
Besancenot
Hue
Jospin
Taubira
Chevenement
Mamère
Lepage
Sain-Joss
Bayrou
Madelin
Chirac
Boutin
Megret
Le-Pen
Blanc
Sum
LACRO
0.000000
0.036364
0.071429
0.012658
0.066667
0.033333
0.057143
0.208333
0.136364
0.212766
0.037037
0.117886
0.347826
0.090909
0.083333
0.111111
LACRO
0
2
2
3
2
2
4
5
3
20
2
29
8
2
14
2
100
LEFIG
0.040816
0.036364
0.000000
0.029536
0.033333
0.033333
0.014286
0.125000
0.045455
0.085106
0.166667
0.142276
0.130435
0.136364
0.130952
0.055556
LEFIG
2
2
0
7
1
2
1
3
1
8
9
35
3
3
22
1
100
LEXPR
4
2
1
15
2
4
5
2
3
8
9
22
1
5
16
1
100
MARIA
6
6
2
19
3
15
4
2
3
10
5
9
1
3
10
2
100
NOUVE
4
7
2
35
3
5
8
1
1
6
3
14
1
0
9
1
100
LECAN
0.163265
0.127273
0.178571
0.122363
0.066667
0.116667
0.128571
0.083333
0.181818
0.042553
0.037037
0.03252
0.000000
0.090909
0.059524
0.055556
LEXPR
0.081633
0.036364
0.035714
0.063291
0.066667
0.066667
0.071429
0.083333
0.136364
0.085106
0.166667
0.089431
0.043478
0.227273
0.095238
0.055556
MARIA
0.122449
0.109091
0.071429
0.080169
0.100000
0.250000
0.057143
0.083333
0.136364
0.106383
0.092593
0.036585
0.043478
0.136364
0.059524
0.111111
NOUVE
0.081633
0.127273
0.071429
0.147679
0.100000
0.083333
0.114286
0.041667
0.045455
0.06383
0.055556
0.056911
0.043478
0.000000
0.053571
0.055556
TELER
4
8
5
28
4
7
13
2
0
10
3
9
2
0
3
2
100
MATCH
0.081633
0.036364
0.035714
0.063291
0.000000
0.033333
0.028571
0.083333
0.136364
0.074468
0.074074
0.117886
0.086957
0.090909
0.130952
0.166667
MATCH
4
2
1
15
0
2
2
2
3
7
4
29
2
2
22
3
100
Figure 7.2 – Fréquences en ligne
LECAN
8
7
5
29
2
7
9
2
4
4
2
8
0
2
10
1
100
LEPAR
0.081633
0.054545
0.142857
0.050633
0.066667
0.066667
0.085714
0.041667
0.045455
0.06383
0.037037
0.093496
0.086957
0.090909
0.160714
0.055556
LEPAR
4
3
4
12
2
4
6
1
1
6
2
23
2
2
27
1
100
LEMON
0.102041
0.109091
0.071429
0.109705
0.100000
0.083333
0.100000
0.083333
0.045455
0.053191
0.074074
0.073171
0.043478
0.090909
0.071429
0.055556
LEMON
5
6
2
26
3
5
7
2
1
5
4
18
1
2
12
1
100
LIBER
0.122449
0.145455
0.107143
0.172996
0.166667
0.083333
0.142857
0.000000
0.045455
0.021277
0.037037
0.036585
0.000000
0.000000
0.041667
0.055556
LIBER
6
8
3
41
5
5
10
0
1
2
2
9
0
0
7
1
100
TELER
0.081633
0.145455
0.178571
0.118143
0.133333
0.116667
0.185714
0.083333
0.000000
0.106383
0.055556
0.036585
0.086957
0.000000
0.017857
0.111111
LEPOI
2
2
1
7
3
2
1
2
1
8
9
41
2
1
16
2
100
LEPOI
0.040816
0.036364
0.035714
0.029536
0.100000
0.033333
0.014286
0.083333
0.045455
0.085106
0.166667
0.166667
0.086957
0.045455
0.095238
0.111111
�
49
55
28
237
30
60
70
24
22
94
54
246
23
22
168
18
1200
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
�
7.1. Exemple d’AFC et interprétation
112
Laguiller
Besancenot
Hue
Jospin
Taubira
Chevenement
Mamère
Lepage
Sain-Joss
Bayrou
Madelin
Chirac
Boutin
Megret
Le-Pen
Blanc
Laguiller
Besancenot
Hue
Jospin
Taubira
Chevenement
Mamère
Lepage
Sain-Joss
Bayrou
Madelin
Chirac
Boutin
Megret
Le-Pen
Blanc
Sum
LACRO
4.0833
4.5833
2.3333
19.7500
2.5000
5.0000
5.8333
2.0000
1.8333
7.8333
4.5000
20.5000
1.9167
1.8333
14.0000
1.5000
LACRO
0.0000
0.0200
0.0200
0.0300
0.0200
0.0200
0.0400
0.0500
0.0300
0.2000
0.0200
0.2900
0.0800
0.0200
0.1400
0.0200
1.0000
LEFIG
4.0833
4.5833
2.3333
19.7500
2.5000
5.0000
5.8333
2.0000
1.8333
7.8333
4.5000
20.5000
1.9167
1.8333
14.0000
1.5000
LEFIG
0.0200
0.0200
0.0000
0.0700
0.0100
0.0200
0.0100
0.0300
0.0100
0.0800
0.0900
0.3500
0.0300
0.0300
0.2200
0.0100
1.0000
LIBER
4.0833
4.5833
2.3333
19.7500
2.5000
5.0000
5.8333
2.0000
1.8333
7.8333
4.5000
20.5000
1.9167
1.8333
14.0000
1.5000
LIBER
0.0600
0.0800
0.0300
0.4100
0.0500
0.0500
0.1000
0.0000
0.0100
0.0200
0.0200
0.0900
0.0000
0.0000
0.0700
0.0100
1.0000
LEMON
4.0833
4.5833
2.3333
19.7500
2.5000
5.0000
5.8333
2.0000
1.8333
7.8333
4.5000
20.5000
1.9167
1.8333
14.0000
1.5000
LEMON
0.0500
0.0600
0.0200
0.2600
0.0300
0.0500
0.0700
0.0200
0.0100
0.0500
0.0400
0.1800
0.0100
0.0200
0.1200
0.0100
1.0000
LEPAR
4.0833
4.5833
2.3333
19.7500
2.5000
5.0000
5.8333
2.0000
1.8333
7.8333
4.5000
20.5000
1.9167
1.8333
14.0000
1.5000
LEPAR
0.0400
0.0300
0.0400
0.1200
0.0200
0.0400
0.0600
0.0100
0.0100
0.0600
0.0200
0.2300
0.0200
0.0200
0.2700
0.0100
1.0000
LEXPR
0.0400
0.0200
0.0100
0.1500
0.0200
0.0400
0.0500
0.0200
0.0300
0.0800
0.0900
0.2200
0.0100
0.0500
0.1600
0.0100
1.0000
MARIA
0.0600
0.0600
0.0200
0.1900
0.0300
0.1500
0.0400
0.0200
0.0300
0.1000
0.0500
0.0900
0.0100
0.0300
0.1000
0.0200
1.0000
NOUVE
0.0400
0.0700
0.0200
0.3500
0.0300
0.0500
0.0800
0.0100
0.0100
0.0600
0.0300
0.1400
0.0100
0.0000
0.0900
0.0100
1.0000
113
LECAN
4.0833
4.5833
2.3333
19.7500
2.5000
5.0000
5.8333
2.0000
1.8333
7.8333
4.5000
20.5000
1.9167
1.8333
14.0000
1.5000
LEXPR
4.0833
4.5833
2.3333
19.7500
2.5000
5.0000
5.8333
2.0000
1.8333
7.8333
4.5000
20.5000
1.9167
1.8333
14.0000
1.5000
MARIA
4.0833
4.5833
2.3333
19.7500
2.5000
5.0000
5.8333
2.0000
1.8333
7.8333
4.5000
20.5000
1.9167
1.8333
14.0000
1.5000
NOUVE
4.0833
4.5833
2.3333
19.7500
2.5000
5.0000
5.8333
2.0000
1.8333
7.8333
4.5000
20.5000
1.9167
1.8333
14.0000
1.5000
Figure 7.4 – Effectifs espérés
LECAN
0.0800
0.0700
0.0500
0.2900
0.0200
0.0700
0.0900
0.0200
0.0400
0.0400
0.0200
0.0800
0.0000
0.0200
0.1000
0.0100
1.0000
MATCH
4.0833
4.5833
2.3333
19.7500
2.5000
5.0000
5.8333
2.0000
1.8333
7.8333
4.5000
20.5000
1.9167
1.8333
14.0000
1.5000
MATCH
0.0400
0.0200
0.0100
0.1500
0.0000
0.0200
0.0200
0.0200
0.0300
0.0700
0.0400
0.2900
0.0200
0.0200
0.2200
0.0300
1.0000
Figure 7.3 – Fréquences en colonne
TELER
4.0833
4.5833
2.3333
19.7500
2.5000
5.0000
5.8333
2.0000
1.8333
7.8333
4.5000
20.5000
1.9167
1.8333
14.0000
1.5000
TELER
0.0400
0.0800
0.0500
0.2800
0.0400
0.0700
0.1300
0.0200
0.0000
0.1000
0.0300
0.0900
0.0200
0.0000
0.0300
0.0200
1.0000
LEPOI
4.0833
4.5833
2.3333
19.7500
2.5000
5.0000
5.8333
2.0000
1.8333
7.8333
4.5000
20.5000
1.9167
1.8333
14.0000
1.5000
LEPOI
0.0200
0.0200
0.0100
0.0700
0.0300
0.0200
0.0100
0.0200
0.0100
0.0800
0.0900
0.4100
0.0200
0.0100
0.1600
0.0200
1.0000
Laguiller
Besancenot
Hue
Jospin
Taubira
Chevenement
Mamère
Lepage
Sain-Joss
Bayrou
Madelin
Chirac
Boutin
Megret
Le-Pen
Blanc
Sum
Laguiller
Besancenot
Hue
Jospin
Taubira
Chevenement
Mamère
Lepage
Sain-Joss
Bayrou
Madelin
Chirac
Boutin
Megret
Le-Pen
Blanc
LACRO
4.0830
1.4560
0.0480
14.2060
0.1000
1.8000
0.5760
4.5000
0.7420
18.8970
1.3890
3.5240
19.3080
0.0150
0.0000
0.1670
70.8120
LACRO
-4.0833
-2.5833
-0.3333
-16.7500
-0.5000
-3.0000
-1.8333
3.0000
1.1667
12.1667
-2.5000
8.5000
6.0833
0.1667
0.0000
0.5000
LEFIG
1.0630
1.4560
2.3330
8.2310
0.9000
1.8000
4.0050
0.5000
0.3790
0.0040
4.5000
10.2560
0.6120
0.7420
4.5710
0.1670
41.5190
LEFIG
-2.0833
-2.5833
-2.3333
-12.7500
-1.5000
-3.0000
-4.8333
1.0000
-0.8333
0.1667
4.5000
14.5000
1.0833
1.1667
8.0000
-0.5000
LIBER
0.9000
2.5470
0.1900
22.8640
2.5000
0.0000
2.9760
2.0000
0.3790
4.3440
1.3890
6.4510
1.9170
1.8330
3.5000
0.1670
53.9570
LIBER
1.9167
3.4167
0.6667
21.2500
2.5000
0.0000
4.1667
-2.0000
-0.8333
-5.8333
-2.5000
-11.5000
-1.9167
-1.8333
-7.0000
-0.5000
LEMON
0.2060
0.4380
0.0480
1.9780
0.1000
0.0000
0.2330
0.0000
0.3790
1.0250
0.0560
0.3050
0.4380
0.0150
0.2860
0.1670
5.6720
LEMON
0.9167
1.4167
-0.3333
6.2500
0.5000
0.0000
1.1667
0.0000
-0.8333
-2.8333
-0.5000
-2.5000
-0.9167
0.1667
-2.0000
-0.5000
LEPAR
0.0020
0.5470
1.1900
3.0410
0.1000
0.2000
0.0050
0.5000
0.3790
0.4290
1.3890
0.3050
0.0040
0.0150
12.0710
0.1670
20.3440
LECAN
3.9167
2.4167
2.6667
9.2500
-0.5000
2.0000
3.1667
0.0000
2.1667
-3.8333
-2.5000
-12.5000
-1.9167
0.1667
-4.0000
-0.5000
LEXPR
-0.0833
-2.5833
-1.3333
-4.7500
-0.5000
-1.0000
-0.8333
0.0000
1.1667
0.1667
4.5000
1.5000
-0.9167
3.1667
2.0000
-0.5000
MARIA
1.9167
1.4167
-0.3333
-0.7500
0.5000
10.0000
-1.8333
0.0000
1.1667
2.1667
0.5000
-11.5000
-0.9167
1.1667
-4.0000
0.5000
NOUVE
-0.0833
2.4167
-0.3333
15.2500
0.5000
0.0000
2.1667
-1.0000
-0.8333
-1.8333
-1.5000
-6.5000
-0.9167
-1.8333
-5.0000
-0.5000
114
LECAN
3.7570
1.2740
3.0480
4.3320
0.1000
0.8000
1.7190
0.0000
2.5610
1.8760
1.3890
7.6220
1.9170
0.0150
1.1430
0.1670
31.7190
LEXPR
0.0020
1.4560
0.7620
1.1420
0.1000
0.2000
0.1190
0.0000
0.7420
0.0040
4.5000
0.1100
0.4380
5.4700
0.2860
0.1670
15.4970
MARIA
0.9000
0.4380
0.0480
0.0280
0.1000
20.0000
0.5760
0.0000
0.7420
0.5990
0.0560
6.4510
0.4380
0.7420
1.1430
0.1670
32.4290
NOUVE
0.0020
1.2740
0.0480
11.7750
0.1000
0.0000
0.8050
0.5000
0.3790
0.4290
0.5000
2.0610
0.4380
1.8330
1.7860
0.1670
22.0970
MATCH
-0.0833
-2.5833
-1.3333
-4.7500
-2.5000
-3.0000
-3.8333
0.0000
1.1667
-0.8333
-0.5000
8.5000
0.0833
0.1667
8.0000
1.5000
MATCH
0.0020
1.4560
0.7620
1.1420
2.5000
1.8000
2.5190
0.0000
0.7420
0.0890
0.0560
3.5240
0.0040
0.0150
4.5710
1.5000
20.6820
Figure 7.6 – Contributions au χ2
LEPAR
-0.0833
-1.5833
1.6667
-7.7500
-0.5000
-1.0000
0.1667
-1.0000
-0.8333
-1.8333
-2.5000
2.5000
0.0833
0.1667
13.0000
-0.5000
Figure 7.5 – Ecarts l’indépendance
TELER
0.0020
2.5470
3.0480
3.4460
0.9000
0.8000
8.8050
0.0000
1.8330
0.5990
0.5000
6.4510
0.0040
1.8330
8.6430
0.1670
39.5780
TELER
-0.0833
3.4167
2.6667
8.2500
1.5000
2.0000
7.1667
0.0000
-1.8333
2.1667
-1.5000
-11.5000
0.0833
-1.8333
-11.0000
0.5000
LEPOI
1.0630
1.4560
0.7620
8.2310
0.1000
1.8000
4.0050
0.0000
0.3790
0.0040
4.5000
20.5000
0.0040
0.3790
0.2860
0.1670
43.6340
�
11.9800
16.3450
12.2860
80.4180
7.6000
29.2000
26.3430
8.0000
9.6360
28.2980
20.2220
67.5610
25.5220
12.9090
38.2860
3.3330
397.9390
LEPOI
-2.0833
-2.5833
-1.3333
-12.7500
0.5000
-3.0000
-4.8333
0.0000
-0.8333
0.1667
4.5000
20.5000
0.0833
-0.8333
2.0000
0.5000
1. Faites une analyse des résultats obtenus en effectuant tout d’abord une analyse des
tableaux de contingence exprimés sous la forme effectifs nij , fréquences en ligne fi. et
fréquences en colonne f.j puis les divers tableaux de décomposition du χ2
2. Ensuite effectuez l’interprétation de l’AFC .
3. Commentez ce qu’apporte de plus cette méthode.
La qualité des commentaires et leur rédaction seront des éléments déterminants dans la notation.
Proposition de commentaires
Commentaire tableau 1
La structure de ce tableau permet de comprendre un peu mieux comment cette enquête a
été réalisée. On a consulté 100 lecteurs de chaque journal ou hebdomadaire auxquels on a demandé pour qui ils voteraient aux élections présidentielles de 2002. Chaque colonne du tableau
comporte 100 individus ce qui fait que les effectifs partiels nij sont aussi les pourcentages en
colonne f.j . Nous n’utiliserons donc pas le tableau des fréquences en colonne puisque cette
conformation de tableau permet de lire directement la structure en colonne et donc de faire
des comparaisons directes de celle-ci. La colonne total permet de constater que trois intentions de vote indépendamment des journaux lus représentent un lectorat très abondant 651
individus sur les 1200 possibles. Elles concernent les lecteurs de journaux décidés voter Chirac
(446), Jospin (237), Le Pen (168). Par ordre d’importance décroissant on trouve les électeurs
de Chirac parmi les lecteurs de : La Croix, Le Figaro, Le Parisien, l’Express, Paris-Match et
le Point. Suivant le même ordre ceux de Jospin se trouvent parmi les lecteurs de Libération,
Le Monde, Le Canard enchaîné, Marianne, Le Nouvel-Observateur, Télérama.
On peut fabriquer un indicateur simple de distance, entre les lectorats des divers journaux et
le fait de vouloir voter Chirac ou Jospin. Cet indicateur est fabriqué avec le nombre de lecteurs
d’un journal votant Chirac moins le nombre de lecteurs du même journal votant Jospin. On
obtient le tableau comportant trois lignes suivant :
Jospin
Chirac
Différence
LACRO
3
29
26
LEFIG
7
35
28
LIBER
41
9
-32
LEMON
26
18
-8
LEPAR
12
23
11
LECAN
29
8
-21
LEXPR
15
22
7
MARIA
19
9
-10
NOUVE
35
14
-21
MATCH
15
29
14
TELER
28
9
-19
Ce procédé est ici possible car le nombre de lecteurs de journaux votant Chirac est très proche
de celui de ceux qui votent Jospin (246 vs. 237). Le Point est le journal qui se caractérise la fois
par le plus grand écart en valeur absolue et le plus grand écart négatif entre les partisans de
Chirac et ceux de Jospin, il est donc de ce point de vue le journal qui exprime le mieux ce dans
quoi se reconnaissent les électeurs de Chirac et le journal qui marque le mieux la différence
entre les partisans de ces deux hommes politiques, entre une certaine conception de la droite
et de la gauche. Libération est le journal qui se caractérise la fois par le deuxième plus grand
écart en valeur absolue et le plus grand écart positif entre les partisans de Chirac et ceux de
Jospin, il est donc de ce point de vue le journal qui exprime ce dans quoi se reconnaissent les
électeurs de Jospin et aussi le journal qui marque la différence entre les partisans de ces deux
hommes politiques, entre une certaine conception de la droite et de la gauche. Le Figaro et
La Croix peuvent, bien que dans une proportion moindre, être analysés comme Le Point, à
l’inverse Le Canard et le Nouvel-Observateur peuvent, bien que dans une proportion moindre,
être analysés comme Libration. L’express bien qu’il soit plus caractéristique des partisans de
115
LEPOI
7
41
34
Chirac et Le Monde bien qu’il soit plus caractéristique des partisans de Jospin sont les deux
journaux qui marquent le moins la différence entre les deux tendances politiques incarnées par
ces deux hommes politiques.
L’électorat de Le Pen bien que représentant des effectifs de lecteurs moins élevés lit les mêmes
journaux que celui de Chirac. Le journal le plus caractéristique de l’lectorat de Le Pen est
Le Parisien (avec le nombre de lecteurs le plus important), et ensuite, on trouve par ordre
décroissant : Le Figaro, l’Express et Paris Match.
Commentaire du tableau 2 Avant de commencer, bien que le nombre de personnes interrogées lors de ce sondage soit important (N = 1200), certaines lignes ont des effectifs ni. très
petits < 30. Les fréquences de ces lignes sont donc regarder avec la plus grande circonspection.
Sont dans ce cas les lignes représentant les partisans de Blanc, Megret, Boutin, Saint-Joss, Le
Page, et Hue.
Pour les autres nous ne retiendrons que les fréquences en lignes supérieures ou égales 0.1000
fij ≥ 0.1 ce qui permet de caractériser rapidement les journaux et magazines que lisent les
partisans des autres hommes politiques inclus dans cette enquête. Par ordre croissant d’intérêt
les lecteurs de :
– Laguiller lisent Le Canard enchaîné, Libération, Marianne, Le Monde ;
– Besancenot lisent Libération, Le Canard enchainé, Le Monde, Marianne ;
– Jospin lisent Libération, Le Nouvel Observateur, Le Canard enchainé, Télérama, Le Monde ;
– Chevênement lisent Télérama, Libération, Le Canard enchaîné, Le Monde ;
– Mamère lisent Télérama, Libération, Le Canard enchaîné, Le Nouvel Observateur, Le
Monde ;
– Chirac lisent Le Point, Le Figaro, La Croix, Paris-Match ;
– Le Pen lisent Le Parisien, Paris-Match, Le Figaro.
Commentaire du tableau 6 Le χ2 est de 397.939 pour un nombre de degrés de liberté
ν = (12−1)×(16−1) = 165 ce qui donne une probabilité p = 2.79679E −21 (cette probabilité
peut être obtenue avec certaines calculettes scientifiques ou plus simplement avec un tableur
inclus dans la suite Open Office ou dans celle de Microsoft Office en utilisant la fonction Loi
de KHI 2 qui a besoin comme paramètre de la valeur du χ2 et du nombre de degrés de liberté
et donne en sortie la probabilité que le contenu du tableau soit lié au hasard) ce qui signifie ici
que la probabilité est exprimée par un chiffre qui commence par un zéro, virgule, puis vingt
zéro, et enfin les chiffres deux, sept, neuf, six, neuf et sept. Une probabilité infime pour ne
pas dire nulle que ce tableau soit dû au hasard. On peut donc avancer sans trop de risque de
se tromper qu’il y a donc un lien entre le fait d’être partisan de tel ou tel homme politique
et le fait de lire tel ou tel journal ou magazine. Si l’on veut connaitre la distance qui sépare
le tableau espéré �
(celui où il n’y a pas de lien entre le fait d’être partisan) et celui observé
χ2
χ2
397.939
on obtient : ϕ =
⇒ ϕ2 =
⇒
⇒ 0.57 La distance maximale est 1, nous en
N
N
1 200
sommes ici pas si loin, car il faut se rappeler que ϕ =| 1 | ne s’obtient que lorsque toutes les
valeurs sont sur la diagonale.
Si nous ne retenons dans le tableau de contribution que les contributions au χ2 supérieures
10 ce qui représente environ 2.5% de l’information contenue dans le tableau. A titre de rappel
l’information contenue dans un tableau se mesure par le χ2 , et chaque case contribue pour
une partie de cette information. La part d’information contenue dans une case est donc égale
116
au contenu de la case divisé par le χ2 .
La recherche des contribution des lignes les plus importantes fait apparaître trois hommes
politique : Jospin, Chirac, Le Pen. ces trois lignes présentent les plus fortes contributions au
χ2 . La contribution au χ2 étant pondérée ce n’est pas un effet des effectifs qui est en cause
pour ces lignes. Cette forte contribution au χ2 révèle le fait que pour les partisans de ces
trois hommes politiques, le choix de lire un journal plutôt qu’un autre relève en aucun cas du
hasard, il existe un lien certain entre le fait de vouloir voter pour ces trois hommes politiques
et le journal lu. A l’inverse, le fait d’être lecteur de Saint Josse ou Lepage est faiblement lié
au fait de lire tel ou tel journal.
La recherche des contribution des lignes les plus importantes fait apparaître quatre journaux :
La Croix, Libération, Le Point, Le Figaro. La lecture de ces quatre journaux est très liée au
fait d’être un électeur potentiel de tel ou tel homme politique. A l’inverse le fait de lire Le
Monde semble peut lié au fait d’être électeur d’un homme politique plutôt que d’un autre.
Avec l’hypothèse sous-jacente est les 1200 lecteurs de la presse interrogés se comportent indépendamment du fait qu’ils sont aussi des électeurs potentiels d’un homme politique ; l’examen
des cases du tableau qui ont des contributions supérieures ou égales à 10 montre que :
1. La Croix est moins lue par les électeurs de Jospin.
2. La Croix est plus souvent lue par les électeurs de Boutin ou Bayrou.
3. Le Figaro est plus lu par les électeurs de Chirac.
4. Le Parisien est plus lu par les électeurs de Le Pen.
5. Marianne est plus lue par les lecteurs de Chevênement.
6. Le Nouvel-Observateur est plus lu par les électeurs de Jospin.
7. Le Point est plus lu par les électeurs de Chirac.
117
TRIDEUX Version 4.2 - Juin 2008
Renseignements Ph.Cibois Laboratoire PRINTEMPS
Université de Versailles - St-Quentin
[email protected]
Calcul des facteurs
Le nom du fichier des noms de modalités est afcvote2002.MOD 1
Ce fichier d’impression a pour nom afcvote2002.AFC 2
Le nombre total de lignes du tableau est de 16
Le nombre total de colonnes du tableau est de 12
Le nombre de lignes supplémentaires est de 0
Le nombre de colonnes supplémentaires est de 0
Le nombre de lignes actives est de 16
Le nombre de colonnes actives est de 12
Le seuil d’édition des lignes est de 0
AFC : Analyse des correspondances
*********************************
Le phi-deux est de : 0.331616
Le nombre de facteurs a extraire est de 11
Facteur 1
Valeur propre = 0.206144 Pourcentage du total
Facteur 2
Facteur 3
Facteur 4
Facteur 5
Facteur 6
Facteur 7
Facteur 8
Facteur 9
Facteur 10
Facteur 11
= 62.2
= 14.2
= 9.5
= 6.1
= 2.9
= 2.3
= 1.5
= 0.6
= 0.5
= 0.2
= 0.1
La description des axes ci-dessus fait appel plusieurs éléments :
1. Voire l’annexe sur le logiciel Tri-deux.
2. Ibidem.
118
– les valeurs propres que l’on écrit λα , elles sont comprises entre 0 et 1 en analyse factorielle
des correspondances, ici ces valeurs propres valent λ1 = 0.206144 pour le premier axe,
λ2 = 0.047207 pour le second, · · · , λ1 1 = 0.000175 pour le 11eme et dernier axe. Le nombre
maximum d’axes que l’on peut extraire est égal la plus petite dimension moins 1. Ici comme
l’indique les premières lignes sous l’entête des résultats le tableau fait 16 lignes et 12 colonnes.
Le nombre maximum d’axes que l’on peut extraire est donc de 11 (12-1),
– les pourcentages, qui sont suivant les ouvrages et les logiciels appelés : pourcentages de
variance ou pourcentages d’inertie, ils correspondent une valeur propre divisée par la somme
λi
des valeurs propres et multipliées par 100 : pourcentagei = �r
× 100 ; (parfois les
i=1 λi
logiciels expriment cette valeur sous la forme d’une fréquence).
– le phi-deux que l’on note ϕ2 , est égal la somme des λi , on nomme quelques fois cette valeur
la trace t, il s’agit de l’inertie totale du nuage de points, ou encore de sa variance totale.
Les λi , les valeurs propres, représentent les inerties ou variances de chaque axe. Par ailleurs
cette �
valeur est le carré du ϕ du tableau analyser. Rappel : le ϕ est gal racine de χ2 sur N :
χ2
ϕ=
. Cette formule permet quand on connaît le ϕ de retrouver le χ2 du tableau et
N
d’obtenir sa significativité. De plus le ϕ même si nous ne possédons que de sa valeur absolue
|ϕ| est une mesure de la valeur absolue de la distance qui sépare le tableau analyser de la
situation d’indépendance. Le calcul du χ2 s’obtient en appliquant la formule : χ2 = ϕ2 × N ,
χ2 = 0.331616 × 1200
119
120
QLT
946
976
883
995
817
997
993
906
886
988
990
991
978
961
978
468
972
F=1
-392
-527
-440
-555
-342
-406
-533
367
88
292
339
491
688
364
360
137
COS2
628
935
441
909
461
338
755
403
18
283
307
878
427
225
568
102
622
ACT.
LaCr
LeFi
Libe
LeMo
LePa
LeCa
Lexp
Mari
Nouv
Pari
Tele
LePo
Moy.
QLT
997
971
985
862
985
924
965
995
956
945
975
960
972
F=1
598
607
-689
-196
200
-487
203
-231
-413
348
-503
563
COS2
506
887
881
674
196
749
266
165
770
585
640
727
622
Modalités en colonne
ACT.
Lag
Bes
Hue
Jos
Tau
Che
Mam
Lep
Sai
Bay
Mad
Chi
Bou
Meg
LeP
Bla
Moy.
CPF
145
149
192
15
16
96
17
22
69
49
102
128
83
CPF
571
47
31
13
28
1
29
43
3
46
146
43
83
COS2
111
15
87
28
27
53
54
429
27
695
164
38
481
16
171
100
142
COS2
457
64
32
133
77
1
106
76
7
127
208
56
142
F=2
-165
66
195
-97
83
160
143
378
109
457
-248
-102
731
-97
-197
136
F=2
569
-163
-131
-87
-125
-21
-128
157
-40
-162
287
-156
CPF
30
62
22
295
14
40
80
13
1
32
25
240
44
12
88
1
62
F=3
108
5
189
40
7
-141
-189
-459
166
2
142
130
CPF
24
4
19
40
4
27
25
61
5
347
58
45
217
4
115
6
62
COS2
16
0
66
29
0
63
230
649
125
0
51
39
95
F=3
-202
46
51
103
135
-481
154
-52
-419
-23
-142
124
243
-548
-46
-24
CPF
30
0
94
4
0
52
94
554
73
0
53
44
83
COS2
167
7
6
31
72
475
63
8
402
2
54
56
53
512
9
3
95
F=4
70
-82
-27
-30
327
157
-86
-113
-56
140
-77
-222
CPF
53
3
2
66
14
365
44
2
102
1
29
100
36
174
10
0
62
COS2
7
16
1
16
526
78
48
39
14
94
15
113
61
F=4
93
-47
301
-24
-200
-109
81
-26
182
-45
-388
-65
110
29
222
-25
Somme des Cos2 pour le facteurs affichés (QLT)
Coordonnées factorielles (F= )
Contributions pour la variable(COS2) et contributions pour le facteur(CPF)
Lignes du tableau
CPF
20
28
3
4
441
102
30
53
13
80
25
202
83
COS2
35
8
206
2
158
24
18
2
76
7
402
15
11
1
216
3
61
F=5
87
-9
34
17
-190
94
123
-92
51
101
-117
-99
F=5
30
-49
-192
82
-153
-195
-38
138
391
19
0
-16
71
202
-57
-11
COS2
11
0
2
5
177
28
98
26
12
49
35
22
29
CPF
17
5
104
6
50
29
19
1
30
8
334
43
12
1
341
0
62
CPF
66
1
10
2
317
78
133
74
23
89
120
86
83
F=6
18
-39
40
-18
-43
-42
-183
115
78
137
-102
39
COS2
4
8
84
20
93
78
4
57
349
1
0
1
4
69
14
1
29
COS2
0
4
3
5
9
5
217
40
28
90
26
3
23
CPF
4
12
90
141
62
201
9
40
296
3
0
5
10
79
48
0
62
CPF
4
16
18
3
20
19
370
145
67
205
115
17
83
F=6
12
32
-161
42
-40
119
-193
-47
78
2
-154
29
41
-285
9
219
CPF
1
6
80
46
5
93
286
6
15
0
141
23
4
196
2
95
62
La Croix
Le Figaro
Libération
Le Monde
Le Parisien
Le Canard
L Express
Marianne
Nouvel Obs
Paris Match
Télérama
Le Point
COS2
1
3
59
5
6
29
99
7
14
0
63
3
2
138
0
259
23
Interprétation des résultats
Représentation simplifiée de l’axe 1
Jospin
Mamère
Besancenot
Libération
Le Pen
Chirac
Télérama
Le Canard
Nouvel-Observateur
−700 −600 −500 −400 −300 −200 −100
Le Point
La Croix
Le Figaro
0
100
200
300
400
500
600
700
Axe 1
Le Pen
Lepage
Bayrou
Télérama
−700 −600 −500 −400 −300 −200 −100
0
100
200
300
400
Boutin
La Croix
500
600
700
500
600
700
Axe 2
Megret
Jospin
Chirac
Chevênement
Saint-Josse
Marianne
Express
−700 −600 −500 −400 −300 −200 −100
Nouvel-Observateur
Libération
0
100
200
300
400
Axe 3
En utilisant les colonnes F=1, F=2, F=3 qui représentent les coordonnées des points et les
CPF contributions propres du facteur (en ne retenant que les points dont la contribution est
supérieure la moyenne la plus basse des contributions des lignes et des colonnes) on a pu
fabriquer les trois graphiques précédents.
L’axe 1 oppose le fait de lire Libération, Télérama, Le Canard enchaîné et le NouvelObservateur et d’être électeur potentiel de Jospin, Mamère et Besancenot au fait de lire Le
Figaro, La Croix, Le Point et le fait d’être électeur potentiel de Chirac et Le Pen. Cet axe
121
oppose la droite et la gauche, il raconte une évidence comme c’est souvent le cas du premier
axe en AFC, mais dans le même temps il montre la robustesse de cette évidence.
L’axe 2 oppose le fait d’être électeur potentiel de Le Pen et celui de lire Télérama, La Croix
et le fait de voter Lepage Bayrou et Boutin. Cet axe distingue deux droites l’une extrême pas
forcément reliée une publication bien identifiée et l’autre plutôt modéré et très liée la presse
chrétienne votant Lepage ou Bayrou ou encore Boutin.
L’axe 3 oppose le fait de lire Marianne, l’Express et d’être électeur de Mégret, Chevênement,
Saint-Josse au fait de lire le Nouvel Observateur, Libération et d’être électeur potentiel de
Jospin et Chirac. Cet axe distingue d’un coté des hommes politique représentant des petits
partis le cas échant minoritaires ou contestataires dans leur courant et lisant Marianne ou
l’Express qui sont des journaux eux mêmes contestataires dans leur courant de l’autre coté
des hommes politiques présidentiables dont les lecteurs lisent des journaux institués.
On retrouve ces oppositions 2 à 2 sur les graphiques ci dessous.
122
Chapitre 8
Exercices de révision
8.1
8.1.1
Statistiques monovariés et bivariées
Exercice 1
Question 1
La population de l’enquête emploi de 1996 dont on a extrait les 5 PCS qui constituent les
métiers de l’intervention sociale a permis de construire le tableau suivant :
Population des intervenants sociaux par âges 1996
AGE
15 19 ans
20 24 ans
25 29 ans
30 39 ans
40 49 ans
50 59 ans
60 69 ans
70 79 ans
Effectif
2640
28905
51863
127587
150589
75740
8069
366
fréquence
0.6
6.5
11.6
28.6
33.8
17.0
1.8
0.1
Effectif
cumulée
2640
31545
83408
210995
361584
437324
445393
445759
fréquence
cumulée
0.6
7.1
18.7
47.3
81.1
98.1
99.9
100.0
Pour cette population
Tracez :
– L’histogramme.
– La courbe des fréquences cumulées croissantes.
– Calculez la médiane.
– Calculez la moyenne et l’écart type en utilisant une variable provisoire.
Les calculs effectués pour chacune des 5 PCS a permis de calculer les valeurs suivantes qu’en
concluez-vous ?
Profession=Assistantes sociales
Effectif
37774
Moyenne
39.84
Ecart-type
9.34
123
Minimum
23.00
Maximum
61.00
8.1. Statistiques monovariés et bivariées
Profession=Éducateurs spécialisés
Effectif
99171
Moyenne
38.64
Ecart-type
9.28
Minimum
21.00
Maximum
65.00
Profession=Animateurs socio-culturels et de loisirs
Effectif
49648
Moyenne
33.63
Ecart-type
9.93
Minimum
19.00
Maximum
58.00
Profession=Conseillers familiaux
Effectif
7328
Moyenne
39.44
Ecart-type
10.62
Minimum
24.00
Maximum
57.00
Profession=Assistantes maternelles, gardiennes d’enfants, travailleuses familiales
Effectif
251838
Moyenne
42.00
Ecart-type
10.11
Minimum
16.00
Maximum
70.00
Question 2
Le tableau suivant a été établi entre l’âge et l’ancienneté des 5 PCS à partir des calculs déjà
effectués et présentés plus loin calculez la covariance et tracez les droites de régression.
Ancienneté des intervenants sociaux par âge (année 1996)
Effectif
Col Pct
moins de 1
1 4 ans
5 9 ans
10 14 ans
15 19 ans
20 24 ans
25 29 ans
30 39 ans
Total
15 19
ans
604
22.88
2036
77.12
0
0.00
0
0.00
0
0.00
0
0.00
0
0.00
0
0.00
2640
20 24
ans
4678
16.18
23204
80.28
1023
3.54
0
0.00
0
0.00
0
0.00
0
0.00
0
0.00
28905
25 29
ans
4041
7.79
36966
71.28
10856
20.93
0
0.00
0
0.00
0
0.00
0
0.00
0
0.00
51863
30 39
ans
7381
5.80
59931
47.12
35594
27.98
15557
12.23
7758
6.10
971
0.76
0
0.00
0
0.00
127192
40 49
ans
4517
3.02
45112
30.13
31570
21.09
25572
17.08
21959
14.67
14512
9.69
5368
3.59
1113
0.74
149723
Pour effectuer les calculs les éléments suivants sont donnés
124
50 59
ans
409
0.54
13529
17.95
12214
16.21
15287
20.28
15910
21.11
10141
13.46
5461
7.25
2413
3.20
75364
60 69
ans
0
0.00
997
12.36
653
8.09
946
11.72
2309
28.62
1339
16.59
911
11.29
914
11.33
8069
70 79
ans
0
0.00
366
100.00
0
0.00
0
0.00
0
0.00
0
0.00
0
0.00
0
0.00
366
Total
21630
182141
91910
57362
47936
26963
11740
4440
444122
Age
Ancienneté
minimum
16.00
0
maximum
70.00
38.00
Moyenne
Ecart-type
ge
40.10
10.21
ancienneté
7.97
7.55
corrélation r
0.55
Question 3
Complétez les cellules incomplètes.
Calculez le χ2 puis commentez ?
A partir de cette même enquête emploi a été construit un tableau mettant en relation pour
chaque personne sa PCS et le diplôme le plus élevé qu’elle a obtenu.
Effectif
espéré
Ecart
Contribution
Assistantes
sociales
Éducateurs
spécialisés
Animateurs
socio-culturels
et de loisirs
Conseillers
familiaux
Assistantes maternelles, gardiennes d’enfants,
travailleuses
familiales
Total
2me et
3me
cycle
41.911
20.464
21.447
22.476
119.77
53.726
66.048
81.195
55.456
26.897
28.559
30.324
9.026
3.97
5.056
6.4391
15.325
136.43
-121.1
107.51
1er cycle Universit.
24.654
20.552
4.1022
0.8188
83.241
53.957
29.284
15.894
71.854
27.012
44.842
74.44
33.869
3.987
29.882
223.97
28.908
137.02
-108.1
85.302
paramèd,
soc.avec
Bac.
306.6
52.082
254.52
1243.9
253.31
136.73
116.57
99.386
31.231
68.453
-37.22
20.24
21.561
10.104
11.458
12.993
1.8936
347.23
-345.3
343.45
paramèd,
soc.sans
Bac
53.449
21.364
32.085
48.186
173.68
56.088
117.59
246.53
10.591
28.079
-17.49
10.892
3.5094
4.1445
-0.635
0.0973
10.882
142.43
-131.6
121.5
Bac.
gn.
+ tech.
37.101
44.843
-7.742
1.3365
233.92
117.73
116.19
114.67
119.57
241.492
242.527
614.598
252.108
529.174
125
6.2235
8.6993
-2.476
0.7046
132.36
Dipl.
Niv. BP
CAP BEPC
8.8997
156.58
-147.7
139.28
317.08
411.07
-93.99
21.49
241.09
205.8
35.293
6.0525
14.694
30.375
-15.68
8.0954
1265.9
1043.9
222.05
47.235
CEP
aucun
diplme
Total
0
71.766
-71.77
71.766
26.636
188.41
-161.8
138.91
19.781
94.325
-74.54
58.911
3.623
13.922
-10.3
7.6191
796.85
478.46
318.39
211.87
4.2289
89.202
-84.97
80.944
44.271
234.19
-189.9
154.01
77.169
117.24
-40.07
13.697
0
17.305
-17.3
17.305
926.97
476.85
1847.71
846.888
1052.64
5627.14
1251.9
626.74
92.507
3179.1
8.1.2
Exercice 2
Question 1
En 1998 est réalisée une enquête sur les bacheliers professionnels. Cette enquête a permis de
construire le tableau suivant.
Anne de naissance
1980-1978
1977
1976
1975
1974
1973
1972-1965
TOTAL
Effectif
5
127
373
331
154
39
49
1078
Pourcentage
0,5
11,8
34,6
30,7
14,3
3,6
4,5
100
% cumulé
0,5
12,2
46,8
77,6
91,8
95,5
100
Tracez l’histogramme des âges au moment de l’enquête.
Tracez la courbe des fréquences cumulées décroissantes des âges.
Calculez la médiane des âges au moment de l’enquête.
Calculez la moyenne et l’écart-type des âges au moment de l’enquête.
Question 2
Lors de cette même enquête a été réalisée une série de tableaux mettant en relation les PCS
des pères et des mères de ces bacheliers. Certains de ces tableaux sont incomplets veuillez les
compléter afin de calculer le χ2 et de commenter la relation qui existent entre la PCS des
pères et celle des mères.
Agriculteur
Enseignant/Libéral
Artisan
Intermédiaire
Employé
Ouvrier
TOTAL
Agriculteur
Enseignant/Libéral
Artisan
Intermédiaire
Employé
Ouvrier
Agriculteur
Enseignant/Libéral
Artisan
Intermédiaire
Employé
Ouvrier
TOTAL
Agriculteur
Enseignant/Libéral
Artisan
Intermédiaire
Employé
Ouvrier
Agriculteur
77
0
2
0
0
10
89
Enseignant/Libéral
4
13
9
4
4
12
46
Artisan
2
4
46
5
5
4
66
Intermédiaire
2
9
8
15
2
7
43
Employé
3
18
35
31
72
82
241
Ouvrier
2
8
15
12
21
166
224
Agriculteur
Enseignant/Libéral
5,84
3,37
7,46
4,35
6,75
18,23
Artisan
8,38
4,84
Intermédiaire
5,46
3,15
6,97
4,06
6,31
17,04
Employé
30,59
Ouvrier
28,43
16,43
36,33
21,17
Enseignant/Libéral
0,58
27,47
0,32
0,03
1,12
2,13
31,64
Artisan
4,86
0,15
Intermédiaire
2,19
10,84
0,15
29,43
2,94
5,92
51,47
Employé
24,89
Enseignant/Libéral
+
+
-
Artisan
-
Intermédiaire
+
+
+
-
Employé
-
6,53
14,44
8,41
13,06
35,27
Agriculteur
6,53
10,71
8,41
13,06
18,11
Agriculteur
-
6,24
9,68
26,16
0,25
2,26
18,77
-
126
22,77
TOTAL
90
52
115
67
104
281
709
95,52
2,97
37,99
1,91
68,20
+
+
-
Ouvrier
24,58
4,32
12,53
3,97
TOTAL
45,06
849,71
Ouvrier
-
Question 3
La même enquête a permis de produire le tableau suivant mettant en relation entre leur
premier salaire en 1998 et leur salaire au moment de l’enquête.
–
–
–
–
A partir des deux tableaux suivant
Calculez la moyenne sur X et Y
Calculez le coefficient de corrélation et tracez les 2 droites de régression.
Commentez.
vj
-12
-5
0
5
14
yj
2000
3750
5000
6250
8500
B sup
3000
4500
5500
7000
10000
Binf
1000
3000
4500
5500
7000
ui
xi
B sup
Binf
Classes
[2000; 3000[
[3000; 4500[
[4500; 5500[
[5500; 7000[
[7000; 10000[
ni.
ni. ui
2
n
�i. (ui )
vj nij
�
ui
vj nij
-12
2000
3000
1000
[2000; 3000[
3
13
2
1
-5
3750
4500
3000
[3000; 4500[
19
-228
2736
-96
1152
19
-95
475
-60
300
0
5000
5500
4500
[4500; 5500[
5
6250
7000
5500
[5500; 7000[
14
8500
10000
7000
[7000; 10000[
15
24
2
41
0
0
148
0
31
12
43
215
1075
323
1615
1
9
10
140
1960
131
1834
13
5
1
Pour ce faire sont données les indications suivantes :
h
x0
k
y0
N
u
V (u)
σ(u)
COV (u, v)
500
5000
500
5000
132
0,24
47,3
6,87
36,31
v
V (v)
σ(v)
n.j
3
26
22
58
23
132
32
6246
n.j vj
-36
-130
0
290
322
446
4901
3,38
41,9
6,47
Question 4
Dans la même enquête la distribution des salaires à l’embauche se caractérise par les paramètres suivants :
Moyenne
5362,12
Ecart-type
1323,33
Variance
1751198,83
médiane
5400
Moy. géométrique 5176,25
Moy. harmonique 4955,02
Éffectif
353
Qu’est-ce qui selon vous explique le faible écart entre médiane, moyenne algébrique, moyenne
géométrique et moyenne harmonique.
127
n.j (vj )2
432
650
0
1450
4508
7040
128
Chapitre 9
Annexe
129
9.1. Table χ2
9.1
Table χ2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
55
60
65
70
75
80
85
90
95
100
0,995
0,0000
0,0100
0,0717
0,2070
0,4117
0,6757
0,9893
1,3444
1,7349
2,1559
2,6032
3,0738
3,5650
4,0747
4,6009
5,1422
5,6972
6,2648
6,8440
7,4338
8,0337
8,6427
9,2604
9,8862
10,5197
11,1602
11,8076
12,4613
13,1211
13,7867
17,1918
20,7065
24,3110
27,9907
31,7348
35,5345
39,3831
43,2752
47,2060
51,1719
55,1696
59,1963
63,2496
67,3276
0,990
0,0002
0,0201
0,1148
0,2971
0,5543
0,8721
1,2390
1,6465
2,0879
2,5582
3,0535
3,5706
4,1069
4,6604
5,2293
5,8122
6,4078
7,0149
7,6327
8,2604
8,8972
9,5425
10,1957
10,8564
11,5240
12,1981
12,8785
13,5647
14,2565
14,9535
18,5089
22,1643
25,9013
29,7067
33,5705
37,4849
41,4436
45,4417
49,4750
53,5401
57,6339
61,7541
65,8984
70,0649
0,975
0,0010
0,0506
0,2158
0,4844
0,8312
1,2373
1,6899
2,1797
2,7004
3,2470
3,8157
4,4038
5,0088
5,6287
6,2621
6,9077
7,5642
8,2307
8,9065
9,5908
10,2829
10,9823
11,6886
12,4012
13,1197
13,8439
14,5734
15,3079
16,0471
16,7908
20,5694
24,4330
28,3662
32,3574
36,3981
40,4817
44,6030
48,7576
52,9419
57,1532
61,3888
65,6466
69,9249
74,2219
0,950
0,0039
0,1026
0,3518
0,7107
1,1455
1,6354
2,1673
2,7326
3,3251
3,9403
4,5748
5,2260
5,8919
6,5706
7,2609
7,9616
8,6718
9,3905
10,1170
10,8508
11,5913
12,3380
13,0905
13,8484
14,6114
15,3792
16,1514
16,9279
17,7084
18,4927
22,4650
26,5093
30,6123
34,7643
38,9580
43,1880
47,4496
51,7393
56,0541
60,3915
64,7494
69,1260
73,5198
77,9295
0,900
0,0158
0,2107
0,5844
1,0636
1,6103
2,2041
2,8331
3,4895
4,1682
4,8652
5,5778
6,3038
7,0415
7,7895
8,5468
9,3122
10,0852
10,8649
11,6509
12,4426
13,2396
14,0415
14,8480
15,6587
16,4734
17,2919
18,1139
18,9392
19,7677
20,5992
24,7967
29,0505
33,3504
37,6886
42,0596
46,4589
50,8829
55,3289
59,7946
64,2778
68,7772
73,2911
77,8184
82,3581
0,100
2,7055
4,6052
6,2514
7,7794
9,2364
10,6446
12,0170
13,3616
14,6837
15,9872
17,2750
18,5493
19,8119
21,0641
22,3071
23,5418
24,7690
25,9894
27,2036
28,4120
29,6151
30,8133
32,0069
33,1962
34,3816
35,5632
36,7412
37,9159
39,0875
40,2560
46,0588
51,8051
57,5053
63,1671
68,7962
74,3970
79,9730
85,5270
91,0615
96,5782
102,0789
107,5650
113,0377
118,4980
0,050
3,8415
5,9915
7,8147
9,4877
11,0705
12,5916
14,0671
15,5073
16,9190
18,3070
19,6751
21,0261
22,3620
23,6848
24,9958
26,2962
27,5871
28,8693
30,1435
31,4104
32,6706
33,9244
35,1725
36,4150
37,6525
38,8851
40,1133
41,3371
42,5570
43,7730
49,8018
55,7585
61,6562
67,5048
73,3115
79,0819
84,8206
90,5312
96,2167
101,8795
107,5217
113,1453
118,7516
124,3421
0,025
5,0239
7,3778
9,3484
11,1433
12,8325
14,4494
16,0128
17,5345
19,0228
20,4832
21,9200
23,3367
24,7356
26,1189
27,4884
28,8454
30,1910
31,5264
32,8523
34,1696
35,4789
36,7807
38,0756
39,3641
40,6465
41,9232
43,1945
44,4608
45,7223
46,9792
53,2033
59,3417
65,4102
71,4202
77,3805
83,2977
89,1771
95,0232
100,8393
106,6286
112,3934
118,1359
123,8580
129,5612
0,010
6,6349
9,2103
11,3449
13,2767
15,0863
16,8119
18,4753
20,0902
21,6660
23,2093
24,7250
26,2170
27,6882
29,1412
30,5779
31,9999
33,4087
34,8053
36,1909
37,5662
38,9322
40,2894
41,6384
42,9798
44,3141
45,6417
46,9629
48,2782
49,5879
50,8922
57,3421
63,6907
69,9568
76,1539
82,2921
88,3794
94,4221
100,4252
106,3929
112,3288
118,2357
124,1163
129,9727
135,8067
0,005
7,8794
10,5966
12,8382
14,8603
16,7496
18,5476
20,2777
21,9550
23,5894
25,1882
26,7568
28,2995
29,8195
31,3193
32,8013
34,2672
35,7185
37,1565
38,5823
39,9968
41,4011
42,7957
44,1813
45,5585
46,9279
48,2899
49,6449
50,9934
52,3356
53,6720
60,2748
66,7660
73,1661
79,4900
85,7490
91,9517
98,1051
104,2149
110,2856
116,3211
122,3246
128,2989
134,2465
140,1695
Notice d’utilisation : La table de χ2 comporte 3 zones :
– La colonne de gauche qui contient : des valeurs correspondant à un nombre de degrés de
liberté.
– La ligne du haut qui correspond à des probabilités qui indique que ce qui est observé dans
le tableau fabriqué est lié au hasard.
– Les autres cases contiennent chacune une valeur de χ2 caractéristique d’un nombre de degrés
de liberté et d’une probabilité.
Une fois calcul le χ2 effectué et le nombre de degrés de liberté déterminé, on cherche dans la
table la ligne qui correspond au nombre de degrés de liberté. Après on cherche dans les cases
qui constituent cette ligne le χ2 obtenu. Généralement la valeur obtenue pour le χ2 lors du
calcul n’est pas présente dans cette ligne. Si c’est le cas on remonte la colonne où l’on a trouvé
une valeur correspondant au χ2 calculé et on note la probabilité obtenue. En revanche on est
dans un des quatre cas suivants :
1. La valeur observée est, dans la ligne correspondant au nombre de degrés de liberté du
tableau observé, inférieure à la première valeur de la ligne considérée.
tableau observé, supérieure à la dernier valeur de la ligne considérée.
130
9.1. Table χ2
tableau observé, comprise entre deux valeurs consécutives la ligne mais les deux valeurs
sont respectivement celles qui correspondent aux probabilités 0,90 et 0,10.
tableau observé, comprise entre deux valeurs consécutives la ligne dans ce cas on note
les deux probabilités d’encadrement.
Les manières de conclure sont respectivement les suivantes :
1. On conclue dans ce cas que la probabilité de ce que l’on observe a plus de 999 chances
sur 1000 d’être lie au hasard, et donc qu’il n’y a pas lien entre la variable x et la variable
y.
2. On conclue dans ce cas que la probabilité de ce que l’on observe a moins de 1 chance
sur 1000 d’être lie au hasard, et donc qu’il existe certainement un lien entre la variable
x et la variable y.
3. On conclue dans ce cas que la probabilité de ce que l’on observe ne permet pas de savoir
si ce que l’on observe est li au hasard ou non. Dans ce cas il faut certainement augmenter
la taille de l’échantillon ou essayer de regrouper des cellules si elles ne l’ont pas été ou
de les regrouper autrement.
4. Deux hypothèses :
– Les bornes d’encadrements sont comprises entre 0.999 et 0.900 et l’on conclue que ce
que l’on observe est li au hasard.
– Les bornes d’encadrements sont comprises entre 0.100 et 0.001 et l’on conclue que ce
que l’on observe est li au hasard entre pi fois sur 1 000 et pi fois sur 1 000 et qu’il
existe certainement un lien entre la variable x et la variable y.
131
9.2. Logiciel
9.2
Logiciel
Le logiciel utilisé pour les exercices d’analyse des données est gratuit il s’appelle TRI-DEUX,
il a été développé par le Professeur des Université Émérite Philippe CIBOIS de l’Université de
Marne la Vallée. Vous pouvez télécharger la version 4.2 de ce logiciel sur son site à l’adresse
suivante :
http : //pagesperso − orange.f r/cibois/SiteP hCibois.htm
(Une version 5.0 a été mise en ligne fin 2009) Vous trouverez sur le site une notice d’installation.
Le logiciel comporte à la fois un didacticiel et des éléments de cours. Vous trouverez aussi sur le
site de Philippe CIBOIS des documents précieux pour vous aider à progresser en statistiques.
9.2.1
Petite notice additionnelle version 4.2
Le logiciel possède un module de saisie des données mais je vous conseille d’utiliser un tableur
pour réaliser cette opération. Si vous suivez la suite des opérations décrites ci-dessous vous
n’aurez pas de difficulté à réaliser cette phase préalable du travail.
Pour l’exemple on saisit un tableau de 14 colonnes, et 12 lignes, la première colonne comporte
le nom des lignes ou individus et la première ligne le nom des colonnes ou des variables.
1. Saisir le fichier dans Excel
2. Sauver une première fois comme fichier XLS en lui donnant un nom
3. Formater largeur colonne A à 4 de largeur
4. Formater toutes les autres colonnes (B...N) à 1,2,3 de largeur en fonction du nombre de
modalités de la variable : moins de 9 modalités, moins de 99 modalités, moins de 999
modalités.
5. Se mettre dans la zone des donnes A1
6. Sauver dans un répertoire de travail sous forme d’un fichier DBF3 ou DBF4 (dbase)
– par exemple : C :\\Mes Documents\\DSTS2\\monfichier
7. Répondre OK à garder seulement la feuille active
8. Répondre OUI à garder seulement les fonctionnalités
9. Fermer le fichier
10. Répondre non à enregistrer les modifications
11. Fermer Excel
12. Ouvrir TRIDEUX
13. Allez dans Fichier de démarrage et régler le niveau d’utilisateur à 2
14. Dans Fichier de démarrage allez à première utilisation puis répondez aux questions ou
renseignez les champs :
– Mes données existent déjà sur un support informatique ? répondre OUI
– Nom du fichier (sans l’extension) Donnez le nom du fichier sauvé
– Valider
– Choisir le répertoire A l’aide du menu déroulant choisir le répertoire
– Valider Quand vous validez le nom et le répertoire doivent s’afficher
15. Allez dans Nouvelle données
– Cela fabrique plusieurs fichiers :
132
9.2. Logiciel
– *.DAT
– *.POS
– *.IMP
16. Allez dans Editeur Choisir Autre
– Fichier ouvrir (vérifier type fichier tous *.*)
– Charger le fichier *.dat
– Sauver le fichier avec le même nom en changeant l’extension en BRT *.BRT
– Fermer le fichier
17. Aller dans Editeur Choisir Autre
– Dans l’éditeur écrire :
– Titre
– LA=2 LI=11 CO=13 LS=0
– NVA1 suivi de 3 espaces + CR
– NVA2 suivi de 3 espaces + CR
– .... suivi de 3 espaces + CR
– .... suivi de 3 espaces + CR
– NV13 suivi de 3 espaces
– Enregistrer sous *.MOD
– Fermer le fichier
18. Allez à Analyse Factorielle commencer avec item2
– Introduire les noms longs
19. Allez à Analyse Factorielle item 3 (tris croisés et pourcentages et chi2)
20. Allez à Analyse Factorielle item 4 (tableau)
– Choisir le nombre d’axes
– Demander les cos2
– Demander l’impression des lignes.
21. Allez à Analyse Factorielle item 5 (plan)
Détails d’une partie de la notice additionnelle à Tri2 version 4.2
133
Logiciel EXCEL feuille de calcul
Saisir les données identifiant colonne sur la première ligne identifiant ligne sur la première colonne. Les
identifiants lignes et colonnes sont uniques (pas 2 fois le même nom). Enregistrer en fichier EXCEL (extension
.XLS) une première fois. Lui donner un nom. D’une manière générale un o c’est des lettres, des chiffres et le
caractère underscore (_) le souligné de la touche du chiffre 8. Si possible ne pas dépasser 32 caractères éviter
les accents les espaces et autres fantaisies.
Toujours dans EXCEL sauver en DBF après avoir régler les largeurs de colonnes à 4 pour la première à 1, 2 ou 3
pour les suivantes,
1 aucun effectif de la colonne ne doit dépasser 9
Se positionner dans la case A1
La case A1 doit avoir un nom pour les individus (IND par exemple)
Le nom des colonnes ne doit pas dépasser 3 caractères (SEX pour sexe)
Le nom des lignes (colonne A1 doit comporter 4 caractères).
A l’apparition de cet écran répondre OK
A l’apparition de cet écran cliquer sur OUI
Fermer le fichier
L’écran suivant apparaît :
Répondre NON
Passer dans TRI²
Faire les étapes 13 14 15
16 Editeur Autre
Fichier ouvrir (vérifier type fichier tous *.*)
Charger le fichier *.dat
Vous voyez apparaître l’écran suivant
Enregistrez le fichier avec le même non en changeant l’extension en BRT *.BRT
L’écran suivant apparaî :
Fermez le fichier
16 Editeur Autre
Dans l’éditeur écrire :
Titre sur la première ligne
LA=2 LI=11 CO=13 LS=0
NVA1
suivi de 3 espaces + CR
NVA2
………..
………..
NV13
suivi de 3 espaces
Enregistrer sous *.MOD
Ne pas sauter de lignes blanches
4 lettres ou chiffres par nom de colonnes
Les noms de variables sont uniques
Ne pas dépasser 15 caractères par nom
Ne pas laisser des lignes vierges en fin de fichier (la surbrillance doit s’arrêter au niveau de la dernière variable)
On obtient l’écran suivant :
Reprendre à 18
9.2. Logiciel
Bibliographie
– AFFICHARD Joëlle, (1982), "Contribution de la statistique à la mise en forme de la demande sociale d’information. Essai d’introduction à l’histoire des statistiques écrite par les
statisticiens". in Actes de la journée d’étude ’Sociologie et statistique’, Paris, Document polycopié de l’Institut National de la Statistique et des Etudes Economiques et de la Société
Française de Sociologie, 1982, tome 1, pp. 1-15.
– AMIOT Michel, (1980), Contre l’Etat, les sociologues : Eléments pour une histoire de la
sociologie urbaine en France 1900 1980, Paris, édition E.H.E.S.S., 1986, 304 p.
– BACHELARD Gaston, (1938), La formation de l’esprit scientifique, 5ème édition, Vrin Paris
1965.
– BAUDELOT Christian, ESTABLET Roger, (1984), Durkheim et le suicide, édition PUF
4ème édition 1993 124 p.
– BAUDELOT Christian, (1982), "La source et l’objet" in Actes de la journée d’étude ’Sociologie et statistique’, Paris, Document polycopié de l’Institut National de la Statistique et
des Etudes Economiques et de la Société Française de Sociologie, 1982, tome 1, pp. 17-32
– BENOIT-GUILBOT Odile, (1982), "L’odyssée du sociologue à la recherche de données
Insee", in Actes de la journée d’étude ’Sociologie et statistique’, Paris, Document polycopié
de l’Institut National de la Statistique et des Etudes Economiques et de la Société Française
de Sociologie, 1982, tome 1, pp. 33-38
– BERGER Peter, LUCKMAN Thomas, (1966), La construction sociale de la réalité, traduction TRAMINIAUX Pierre, édition Méridiens-Klincksieck, 3ème édition, Paris, 1986, 288 p.
– BERTAUX Daniel, (1977), Destins personnels et structure de classe. Pour une critique de
l’anthropologie politique. Paris, édition PUF, 1977, col. Politiques, 322 p.
– BERTAUX-WIAM et al. Entre travail et famille la construction sociale des trajectoires
sociales., document multigraphié, Centre de Sociologie Urbaine I.R.E.S.C.O. 176 p. plus
annexes.
– BERTHELOT Jean-Michel, (1990), L’intelligence du social. Le pluralisme explicatif en sociologie. Paris, édition PUF, 1990, 249p.
– BERTIN Jacques, (1980),Traitements graphiques et mathématiques. Différence fondamentale et complémentarité. in Mathématique et sciences humaines. Ehess. 1980 n° 72 pp. 60-71.
– BERTIN Jacques, (1976) , Sémiologie graphique, Les diagrammes – Les réseaux – Les
cartes,Paris, Editions Gauthier-Villar, p. XXX 1967
– BOLTANSKI Luc, THEVENOT Laurent, (1990), De la justification, les économies de la
grandeur. , Paris, édition NRF Gallimard, 1991, 493 p.
– BORGES Jorges Luis, (1957), "La Langue analytique de John Wilkins", in Oeuvres complètes. (édition établie par BERNES Jean-Pierre), Bibliothèque de la Pléiade, Paris, Gallimard, 1993, pp. 747-751.
– BOUDON,Raymond, (1967), L’analyse mathématique des faits sociaux., Paris, édition Plon,
1967,464 p.
– BOUDON Raymond, (1971), Les mathématiques en sociologie., Paris, édition PUF, 1971,
collection SUP, 268 p.
– BOURDIEU Pierre, PASSERON Jean-Claude, CHAMBOREDON, Jean-Claude, (1968),
Le métier de sociologue. Préalables épistémologiques., La Haye, édition Mouton, 1983, 4ème
édition, 357 p.
– BOURDIEU Pierre, (1979), La distinction. Critique sociale du jugement., Paris, édition de
Minuit, 1979, 670 p.
139
9.2. Logiciel
– BOZON Michel, HERAN François, (1987), "La découverte du conjoint. (1) Évolution et
morphologie des scènes de rencontre.", in Population, Paris, édition INED,. 1987, volume
42, n° 6, pp. 943-985.
– BOZON Michel, HERAN François, (1988), "La découverte du conjoint.(2) Les scènes de
rencontre dans l’espace social.", in Population, Paris, édition INED,. 1988, volume 43, n° 1,
pp. 121-149.
– CAILLE Alain, (1989), Critique de la raison utilitaire, édition de La Découverte, Paris,
1989, p. XXX
– CAILLE Alain, (1993), La démission des clercs. La crise des sciences sociales et l’oubli du
politique. Paris, édition de La Découverte, coll. Armillaire, Paris, 1993, 297 p.
– CANGUILHEM Georges, (1958), "Pathologie et physiologie de la thyroïde au XIXème
siècle", in Etudes d’histoire et de philosophie des sciences, Paris, édition Vrin, 1970, deuxième
édition, pp. 274-294.
– CHASSAGNE Serge, (1980), "Les bureaux centraux : le personnel et les mécanismes administratifs" in La statistique en France à l’époque napoléonienne. Journée d’étude, Paris 14
février 1980, Paris, Ehess et Bruxelles, Centre Guillaume Jacquemyns, pp. 150-161.
– COMBESSIE Jean-Claude, (1982), "Effet de méthode. A propos du marché du travail", in
Actes de la journée d’étude ’Sociologie et statistique’,Paris, Document polycopié de l’Institut National de la Statistique et des Etudes Economiques et de la Société Française de
Sociologie, 1982, tome 1, pp. 109-128.
– DEGENNE Alain, FORSE Michel, (1994), Les réseaux sociaux. Une analyse structurale en
sociologie, Paris, édition Armand Colin, 1994, 288 p.
– DEGENNE Alain, (1972) Techniques ordinales en analyse de données statistiques, Paris,
édition Hachette, collection Hachette Université, 1972, 160 p..
– DEGENNE Alain, (1988), "Un domaine d’interaction entre les mathématiques et les sciences
sociales : les réseaux sociaux", in Mathématiques et Sciences humaines 26ème année, 1988,
n°104, p. 5-18.
– DESROSIÈRE Alain, GOLLAC Michel, (1982), "Trajectoires ouvrières, systèmes d’emplois
et comportements sociaux", in Economie et Statistique, Paris, édition de l’Insee, 1982, n°
147, p. 43-66.
– DESROSIÈRES Alain, THEVENOT Laurent, (1979), "Les mots et les chiffres : les nomenclatures socioprofessionnelles", in Economie et Statistique, (1979), Paris, édition de l’Insee,
1979, n°110, pp. 49-65.
– DESROSIÈRES Alain, (1987), "Les nomenclatures de professions et d’emplois", in Pour
une histoire de la statistique, tome 2 matériaux, Paris, édition Insee, Economica, 1987, pp.
35-56.
– DURKHEIM Emile, (1897), Le suicide. Etude de sociologie., Paris , édition PUF, 1991,
collection Quadrige, 4ème édition, 463 p.
– DURKHEIM Emile, (1894), Les règles de la méthode sociologique, Paris, édition PUF, 1991,
collection Quadrige, 6ème édition, 149 p.
– FERRAND et al. Entre travail et famille la construction sociale des trajectoires sociales.
Centre de Sociologie Urbaine I.R.E.S.C.O. 176 pages plus annexes.
– FERRIER Jean-Louis, Holbein, les ambassadeurs. Anatomie d’un chef d’oeuvre. Paris, édition Denoël Gonthier, 1977, 109 p.
– FONTAINE et al. Entre travail et famille la construction sociale des trajectoires sociales.
– FOUCAULT Michel, (1976), Histoire de la sexualité, la volonté de savoir, Paris, édition
140
9.2. Logiciel
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
–
NRF Gallimard, 1976, 211 p.
FOUCAULT Michel, (1969) L’archéologie du savoir, Paris, édition, NRF Gallimard, 1969,
275 p.
FOUCAULT Michel, (1970), L’ordre du discours. Leçon inaugurale prononcée au Collège de
France le 2 novembre 1970. Paris, édition NRF Gallimard, 1971, 81 p.
FOUCAULT Michel, (1966), Les mots et les choses. Une archéologie des sciences humaines,
édition NRF Gallimard, Paris 1966, 400 p.
FOUCAULT Michel, (1963), Naissance de la clinique. Une archéologie du regard médical,
Paris, édition PUF, 1983, collection Galien, 5ème édition, 214 p.
GIRARD Alain, (1964), Le choix du conjoint. une enquête psychosociologique en France,
Paris, édition PUF INED, 1964, coll. Travaux et documents, cahier n° 44, 201 p.
GRANGER Gilles-Gaston, (1988), Pour la connaissance philosophique, édition Odile Jacob,
Paris 1988, 286 p.
GROSSETTI Michel, (1987), "Le retour du test du Khi2. Un usage exploratoire d’un test
classique", in Parcours méthodologiques, Cahiers du centre de recherches sociologique, n° 5,
février 1987 ; pp. 131-141.
HETCH Jacqueline, (1987), "L’idée de dénombrement jusqu’à la révolution", in Pour une
histoire de la statistique, tome 1 contributions, Paris, édition Insee, Economica, 1987, pp.
21-81.
HIRISCHI Travis, SELVIN Hanon, (1975), Recherches en délinquance principes de l’analyse
qualitative, Paris, édition Mouton, La Haye, 1975.
IFRAH Georges, (1994), Histoire universelle des chiffres, l’intelligence des hommes racontée
par les nombres et le calcul, Paris, édition Robert Laffont, 1994, collection Bouquins, 2 tomes.
IMBERT et col. Entre travail et famille la construction sociale des trajectoires sociales.
KLATZMANN Joseph, (1985), Attention statistiques ! Comment en déjouer les pièges, Paris,
édition La Découverte, 1985, cahiers libres 405, 126 p.
LATOUR Bruno, WOOLGAR Steve, (1979), La vie des laboratoires. La production des faits
scientifiques, traduction BIEZUNSKI Michel, Paris, édition La Découverte, 1988. 300 p.
LECUYER Bernard, (1968), "Histoire et sociologie", in Les faits et les principes, Cahiers
semestriels d’Epistémologie sociologique Paris, édition Anthropos,1968, n° 6, pp. 119-131.
MARKOVICH Tihomir, (1987), "Statistiques industrielles et systèmes politiques", in Pour
une histoire de la statistique, tome 1 Contributions, Paris, édition Insee, Economica, 1987,
pp. 317-326.
MAUSS Marcel, (1927), "Divisions et proportions des divisions de la sociologie", in l’Année
Sociologique, nouvelle série, 2, (1924-1925), pp. 3-21, Melin.
MERLLlÉ Dominique, (1982), "Une nomenclature et sa mise en oeuvre. Les statistiques sur
l’origine sociale des étudiants", in Actes de la recherche en sciences sociales, édition MSH
et Ehess, 1982 n° 50 pp. 3-47.
MERTON Robert, (1949), Eléments de théorie et de méthode sociologique, 1957,Paris édition
Plon, 384 p.
MOREAU Christine, PESKINE Brigitte, (1987) "Les statistiques de 1946 à 1985 : principaux faits", in Pour une histoire de la statistique, tome 2 matériaux, Paris, édition Insee,
Economica, 1987, p 915-934.
MOREAU DE BELLAING Louis, (1986), "L’éthique de la connaissance sociologique", in
Sociologues en quête de sociologie, Cahiers du Laboratoire de Sociologie Anthropologique
(LASA) de l’université de Caen n° 5 1986
141
9.2. Logiciel
– PASSERON Jean-Claude, (1991), Le raisonnement sociologique. L’espace nonpoppérien du
raisonnement naturel, collection Essais et Recherches, édition Nathan, Paris 1991, 408 p.
– PENEFF Jean, (1984), "La fabrication statistique ou le métier du père", in Sociologie du
travail, édition Dunod, Paris 1984, n° 2, pp. 195-211.
– PERROT Jean-Claude, (1987), "La statistique régionale à l’époque de Napoléon", in Pour
une histoire de la statistique, tome 1 Contributions, Paris, édition Insee, Economica, 1987,
pp. 233-253.
– SAUSSURE Ferdinand (de), Cours de linguistique générale, (1857-1913), (publié par Charles
BALLY, Albert SECHEHAYE Albert, RIEDUNGER Albert) 5ème , édition Payot, Paris
1960, 337 p.
– SCHUTZ Alfred, (1987), Le chercheur et le quotidien. Phénoménologie des sciences sociales,
traduction THÉVENOT Laurent, (1987), "Les enquêtes formation qualification professionnelle et leurs ancêtres français", in Pour une histoire de la statistique, tome 2 Matériaux,
Paris, édition Insee, Economica, 1987, pp. 117-166.
– THOM René, (1987), "Interview de René Thom", in Mathématiques et Sciences humaines,
15ème année, 1987, n° 59, pp. 27-38.
– THOM René, Prédire n’est pas expliquer, entretiens réalisés par Emile Noël et rédigé par
Yves Bonin, col La Question édition ESHEL, Paris 1991, 175 p.
– VERDÈS-LEROUX Jeannine, Le travail social, édition de Minuit, Paris 1978, 273 p.
– VIRÉ Liliane La statistique dans les neuf département belges. Eléments pour une critique
in La statistique en France à l’époque napoléonienne. Journée d’étude, Paris 14 février 1980,
E.H.E.S.S., Centre Guillaume Jacquemyns Bruxelles pp. 13-43.
– WITTGENSTEIN Ludwig, (1921), Tractatus logico-philosophicus, suivi de Investigations
philosophiques, (traduction de KLOSSOWSKI Pierre) introduction de Bertrand RUSSELL,
édition Tel Gallimard, Paris 1993, 364p.
– WOOLF Stuart, (1980), "Contribution à l’histoire des origines de la statistique : France,
1789- 1815", in La statistique en France à l’époque napoléonienne. Journée d’étude, Paris
14 février 1980, Ehess., Centre Guillaume Jacquemyns Bruxelles, pp. 45-126.
142
Chapitre 10
Table des matières
143
144
Table des matières
1 Préambule épistémologique
1.1 Les formes de collaboration à l’aube du XIXème siècle . . .
1.2 Politique et statistiques publiques . . . . . . . . . . . . . . .
1.3 Quelques développements récents . . . . . . . . . . . . . . .
1.4 Commande sociale et scientificité . . . . . . . . . . . . . . .
1.5 Quantification et mathématisation de la réalité sociale . . .
1.5.1 Un modèle : le suicide . . . . . . . . . . . . . . . . .
1.5.2 Lecture de l’objet ou effet de lecture . . . . . . . . .
1.5.3 De quelques truismes . . . . . . . . . . . . . . . . . .
1.5.4 Une opération intellectuelle : les distributions . . . .
1.5.5 Statistique ou sociologie . . . . . . . . . . . . . . . .
1.5.6 De l’usage de quelques méthodes . . . . . . . . . . .
Les dénombrements . . . . . . . . . . . . . . . . . .
L’usage des nomenclatures . . . . . . . . . . . . . . .
Les taxinomies sensibles et taxinomies savantes . . .
La lecture et l’interprétation des tableaux de chiffres
1.5.7 Essai de conclusion . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
5
6
8
9
14
14
16
18
22
22
24
24
26
30
36
41
2 Rappels de statistiques élémentaires
2.1 Deux types de variables . . . . . . . . . . . . . . . .
2.1.1 Les variables quantitatives . . . . . . . . . . .
2.1.2 Les variables qualitatives . . . . . . . . . . .
2.2 Dénombrement, classification, statistique . . . . . . .
2.3 Quelques principes de notation . . . . . . . . . . . .
2.4 Quelques rappels sur les opérations . . . . . . . . . .
2.5 Diverses représentations d’une distribution . . . . . .
2.5.1 Le Diagramme en bâtons . . . . . . . . . . .
2.6 Les fréquences : . . . . . . . . . . . . . . . . . . . . .
2.6.1 L’histogramme et sa construction : . . . . . .
2.7 Les fréquences cumulées croissantes et décroissantes .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
43
43
43
44
44
48
48
49
49
50
51
53
.
.
.
.
55
55
56
57
57
3 Les valeurs centrales des distributions
3.1 La médiane . . . . . . . . . . . . . . . . .
3.1.1 D’autres valeurs centrales de même
3.2 Le mode . . . . . . . . . . . . . . . . . . .
3.3 Les moyennes . . . . . . . . . . . . . . . .
145
. . . .
nature
. . . .
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . . . .
que la médiane
. . . . . . . . .
. . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Table des matières
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
58
59
60
60
61
61
4 Les indices de dispersion
4.1 Les fréquences cumulées et les indices de dispersion. . . . . . . .
4.1.1 L’intervalle inter-quartile . . . . . . . . . . . . . . . . . .
4.1.2 La variance . . . . . . . . . . . . . . . . . . . . . . . . . .
Quelques éléments sur l’utilité et la nature de la variance
Approche graphique de la variance . . . . . . . . . . . . .
Première méthode de calcul . . . . . . . . . . . . .
Seconde méthode de calcul . . . . . . . . . . . . . .
4.1.3 L’écart-type . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
63
63
65
67
67
68
68
statistiques bivariées
Les distributions bivariées . . . . . . . . . . . . . . . . . . . . . . . .
La corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . .
La covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tableau permettant de calculer r pour l’exemple taille poids . . . . .
5.4.1 Calcul développé sur l’exemple taille poids . . . . . . . . . . .
5.4.2 Droites de régression . . . . . . . . . . . . . . . . . . . . . . .
Aspect des droites de corrélation en fonction de la valeur de r
Différentes formes de nuages en fonction des valeurs de r, σ(x), σ(y)
Test du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Calcul d’un premier χ2 . . . . . . . . . . . . . . . . . . . . . . . . . .
Définition et utilisation du ϕ . . . . . . . . . . . . . . . . . . . . . .
Probabilités exactes sur un tableau 2 × 2 . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
71
71
72
74
76
78
79
81
83
84
86
90
94
.
.
.
.
.
.
.
.
.
.
.
.
.
97
97
98
98
98
99
99
100
101
104
104
106
107
108
3.4
5 Les
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
3.3.1 Les moyennes arithmétiques et algébriques . . .
3.3.2 Moyenne harmonique . . . . . . . . . . . . . . .
3.3.3 Moyenne géométrique . . . . . . . . . . . . . .
3.3.4 Moyenne quadratique . . . . . . . . . . . . . .
3.3.5 Exercice sur les moyennes . . . . . . . . . . . .
Comparaison des caractéristiques des valeurs centrales
.
.
.
.
.
.
.
.
.
.
.
.
6 Introduction à l’analyse des données
6.1 Les types de tableaux de données en analyse des données.
6.1.1 Les tableaux de contingence . . . . . . . . . . . . .
6.1.2 Les tableaux de Burt . . . . . . . . . . . . . . . . .
6.1.3 Les tableaux disjonctifs complets . . . . . . . . . .
6.1.4 Diverses formes d’analyse des données . . . . . . .
6.1.5 Les tapes d’une AFC . . . . . . . . . . . . . . . . .
Un détour par le χ2 . . . . . . . . . . . . . . . . .
Première analyse factorielle . . . . . . . . . . . . .
Premières interprétations des axes factoriels . . . .
Premier plan factoriel et premières interprétations
Méthode numérique d’extraction des facteurs . . .
6.1.6 Quelques rappels sur les matrices . . . . . . . . . .
Vérification du plan factoriel par le calcul vectoriel
146
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Table des matières
7 Analyse des données
111
7.1 Exemple d’AFC et interprétation . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Commentaire du tableau 2 . . . . . . . . . . . . . . . . . . . . . . 116
Commentaire du tableau 6 . . . . . . . . . . . . . . . . . . . . . . 116
8 Exercices de révision
8.1 Statistiques monovariés et bivariées . . . . . . . . . . . . . . . . . . . . . . . .
8.1.1 Exercice 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.1.2 Exercice 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
123
. 123
. 123
. 126
9 Annexe
9.1 Table χ2 . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Logiciel . . . . . . . . . . . . . . . . . . . . . . . . . .
9.2.1 Petite notice additionnelle version 4.2 . . . . .
Détails d’une partie de la notice additionnelle à
Bibliographie . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
10 Table des matières
. . . . . . .
. . . . . . .
. . . . . . .
Tri2 version
. . . . . . .
. .
. .
. .
4.2
. .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
129
130
132
132
133
139
143
147
Index
Affichard J., 23, 139
Amiot M., 9, 11, 12, 14, 139
Bachelard G., 10, 11, 139
Bally C., 12, 142
Baudelot C., 15, 16, 22, 139
Biezunski M., 41, 141
Boudon R., 15, 139
Bourdieu P., 35, 37–39, 139
Moreau de Bellaing L., 13, 141
Neker J., 4
Passeron J-C., 23, 40, 139, 142
Peneff J., 30, 142
Perrot J-C., 5, 8, 142
Peskine B., 8, 141
Riedunger A., 12, 142
Canguilhem G., 10, 11, 15, 140
Colbert J-B., 4
Saussure F., 12, 142
Schütz A., 41, 142
Sechehaye A., 12, 142
Degenne A., 17, 21, 23, 35, 140
Durkheim E., 4, 6, 14–16, 24–27, 30, 139, 140 Sully M., 4
Thévenot L., 29, 31, 38, 142
Thom R., 17, 18, 142
Foucault M., 4, 11, 12, 26, 27, 30–32, 41, 140, Tugot J., 4
141
Verdès-Leroux J., 34, 142
Viré L., 4–7, 142
Girard A., 26, 99, 141
Granger G-G., 20, 21, 141
Wittgenstein L., 17, 19, 35, 142
Grossetti M., 23, 141
Woolf S., 5, 142
Woolgar S., 41, 141
Hetch J., 3, 141
Hirischi T., 141
Establet R., 15, 16, 139
Ifrah G., 141
Imbert XX., 141
Klatzmann J., 36, 40, 141
Latour B., 41, 141
Lecuyer B., 13, 141
Linné C., 15, 26, 30–32, 34
Markovich T., 8, 141
Mauss M., 4, 16, 25, 26, 141
Merllié D., 29, 30, 141
Merton R., 13, 141
Moreau C., 8, 141
148

Cours Complet avec exercices corrigé.

Transcription

Documents pareils

CR28 - Sociologie de la jeunesse

Muriel Darmon - CESSP - Centre européen de sociologie et de

Le poids des fichiers numériques - Bandits

Règlement de gestion

CV Philippe PIERRE Conseil

socialiste - Toulouse.fr

Prolongation du permis de chasser annuel

Masses et inerties d `un disque

CHAPITRE I JEUNESSE, UN OBJET D`ETUDE SOCIOLOGIQUE La

see transcript for details Date : lundi 29 juin 2009 11 - Le Non