Sur l`analyse de régression en sociologie

Transcription

Communication aux 39e Journées de Statistique – Société Française de Statistique – Angers, 11-15 juin 2007
LOUIS-ANDRÉ VALLET (CNRS)
LABORATOIRE DE SOCIOLOGIE QUANTITATIVE
UMR 2773 CNRS & INSEE-CREST
[email protected]
SUR L’ANALYSE DE RÉGRESSION EN SOCIOLOGIE
Résumé : Si l'analyse statistique dite « de régression » se diffuse depuis une dizaine d'années dans la
sociologie française – sous la forme notamment de la régression logistique – son usage ne va pas
encore « de soi » dans cette communauté. Comme le rappelle souvent l'invocation du problème du
renne au Sahara et du chameau au Pôle Nord, cette technique est en effet considérée, plus que
d'autres, comme susceptible de produire des artefacts, c'est-à-dire des résultats dénués de toute
signification sociologique. En utilisant pour exemple l'analyse des parcours scolaires des enfants
d'immigrés, l'article se propose de revenir sur plusieurs aspects souvent mal compris de l'analyse de
régression, notamment les suivants. D'une part, l'analyse de régression dote le sociologue de
diagnostics permettant de détecter des situations limites où l'analyse statistique ne peut délivrer de
résultat robuste. D'autre part, à partir de données simulées, on montre par l'exemple qu'une
interprétation réaliste des coefficients de régression peut être soutenue : les coefficients de régression
partiels estimés sont nettement influencés par les situations caractéristiques des sous-populations qui
sont les plus fréquemment rencontrées dans les données. L'article s'achève par une réflexion sur la
modélisation statistique en sociologie et par la présentation d'un ouvrage, méconnu en France, de
Stanley Lieberson (1985) dans lequel le sociologue plaidait pour un usage lucide et raisonné de la
technologie statistique.
Dans un article actuellement non publié1, Jean-Paul Caille et moi-même avons étudié, à
partir du panel national 1989 d’élèves du second degré, les parcours scolaires des enfants
étrangers ou issus de l’immigration dans l’ensemble du second degré. On pouvait en effet se
demander si des résultats antérieurs établis au collège2 valaient pour toute la scolarité
secondaire et si, en particulier, les aspirations scolaires des familles continuaient à affecter le
déroulement des parcours. L’article apporte à ces questions une réponse positive car les
résultats empiriques qu’il établit peuvent être résumés comme suit. L’obtention d’un
baccalauréat général ou technologique sans redoublement dans le second degré a concerné
21 % des entrants en sixième qui comptaient quatre attributs étrangers, mais 32 % de ceux qui
n’en avaient aucun. De même, il s’agissait de 19 % des jeunes étrangers contre 32 % des
Français, ou encore de 25 % des élèves dont la famille résidait en France depuis 5 à 20 ans
contre 32 % de ceux dont un parent au moins y avait toujours vécu. Toutes ces différences
s’annulent et ne sont plus significatives lorsque l’analyse incorpore la catégorie
socioprofessionnelle du chef de famille (dans une nomenclature détaillée en dix-neuf postes).
Elles se transforment à l’avantage des enfants d’immigrés à la suite d’une description plus
complète du milieu familial (au moyen de dix variables supplémentaires). Cet avantage
s’accroît si l’on tient compte en outre des performances de l’enfant en français et
1 - Mais disponible sur Internet aux adresses suivantes :
http://www.crest.fr/pageperso/vallet/Obernai1.pdf (pour le texte lui-même)
et http://www.crest.fr/pageperso/vallet/Obernai2.pdf (pour les tableaux associés).
2 - Vallet L.-A., Caille J.-P., 1996. – Les élèves étrangers ou issus de l'immigration dans
l'école et le collège français. Une étude d'ensemble, Les dossiers d'Éducation et Formations,
67, Ministère de l'Éducation nationale, DEP.
-1-
mathématiques à l’entrée en sixième. Il se réduit enfin quand l’analyse incorpore les
indicateurs, observés en 1991, des aspirations scolaires des familles : cela constitue une
preuve empirique du rôle médiateur de ces aspirations dans l’explication de la réussite
scolaire des enfants d’immigrés. L’obtention du baccalauréat sept ans après l’entrée en
sixième nécessitait l’accès en six années à la classe de terminale et le succès à l’examen dès la
première tentative. Les résultats précédents sont reproduits avec le premier critère ; ils ne le
sont pas avec le second. À situation familiale et sociale identique, ce n’est donc pas dans une
plus forte réussite à l’examen que se forge la supériorité des parcours des enfants d’immigrés,
mais celle-ci prend naissance dans le cours de la carrière scolaire – au collège plus qu’au
lycée – à travers le jeu des aspirations et demandes familiales et de la façon dont l’institution
scolaire en tient compte. Il était enfin possible de retenir un critère de réussite moins strict
dans le second degré : l’obtention d’un baccalauréat général ou technologique, sept, huit ou
neuf années après l’entrée en sixième. L’avantage des enfants d’immigrés sur les autres élèves
de mêmes caractéristiques socio-démographiques se révèle alors plus marqué qu’il ne l’était
pour le succès au baccalauréat sans redoublement. Cela s’interprète comme le fait que, parmi
les élèves confrontés à des difficultés scolaires ou à des parcours atypiques, les enfants
d’immigrés persévèrent davantage que les autres dans la direction de la réussite d’études
longues.
L’analyse longitudinale des parcours des enfants d’immigrés ne conduit donc pas à
conclure à leur échec scolaire massif, mais elle souligne en premier lieu que les ressources
socio-économiques et culturelles du milieu familial forment les déterminants premiers de la
réussite à l’école. Cet aspect essentiel étant rappelé, les résultats que le panel 1989 met au jour
sont compatibles avec des travaux qualitatifs qui ont insisté sur la place de la mobilisation
scolaire dans la reformulation familiale des projets migratoires ou sur la fonction
instrumentale de moyen de promotion sociale que les élèves d’origine étrangère attribuent à
l’école. Les mêmes résultats rejoignent encore des travaux étrangers, fondés sur des données
longitudinales en Australie et aux États-Unis, qui ont souligné la force des aspirations et
motivations éducatives dans les minorités issues de l’immigration ainsi que le rôle de ces
facteurs socio-psychologiques dans la formation et l’explication des trajectoires scolaires.
Les analyses de régression sur lesquelles s’appuient les conclusions de ce dernier article
sont conduites de façon moins abrupte et plus progressive que ce n’était le cas dans la
publication principale de 1996 et l’intelligibilité des résultats qu’elles produisent en sort ainsi
renforcée. Dans un premier modèle, la variable d’intérêt – nombre d’attributs étrangers,
nationalité ou ancienneté en France des parents – est l’unique variable explicative introduite et
la modélisation équivaut donc strictement à l’examen du tri croisé entre cette variable et le
résultat du parcours scolaire. Le second modèle contrôle de surcroît la catégorie
socioprofessionnelle du chef de famille et cela réalise, en quelque sorte, l’analogue de la
comparaison qu’effectuait Paul Clerc en 1964 entre les enfants d’ouvrier étrangers et français.
En incluant encore dix variables socio-démographiques supplémentaires, le troisième modèle
incorpore une description plus complète de l’environnement des élèves et l’on conduit ainsi
une forme de comparaison « à situation familiale et sociale identique ». Enfin, dans les
quatrième et cinquième modèles, sont en outre introduits respectivement une mesure des
performances atteintes à l’entrée en sixième et deux indicateurs des aspirations des familles en
matière d’éducation. On raisonne alors en conduisant une comparaison entre les modalités de
la variable d’intérêt – étrangers contre Français, etc. – après avoir égalisé, « dans l’esprit »,
non seulement la situation familiale et sociale des élèves, mais encore leur niveau initial, puis
les aspirations scolaires de leur famille.
-2-
Il reste qu’aujourd’hui encore l’analyse de régression « ne va pas de soi » dans la
communauté sociologique française. Comme le rappelle souvent l’invocation du problème
« du renne au Sahara et du chameau au Pôle Nord »3, il s’agit en effet d’une technique qui est
considérée, plus que d’autres – par exemple, l’analyse factorielle des correspondances –
comme susceptible de produire des artefacts, c’est-à-dire des résultats dénués de toute
signification sociologique. La situation française diffère ainsi nettement de celle qui prévaut
dans le monde anglo-saxon où, à l’autre extrême, l’analyse de régression constitue une
technique d’application quasi routinière en sociologie. Le doute, voire la suspicion, présents
en France, sont en outre exacerbés lorsque le modèle de régression met en jeu des variables
explicatives considérées comme trop fortement corrélées, par exemple, s’agissant d’élèves,
l’origine sociale et l’origine nationale. Comme le souligne ainsi la citation suivante,
empruntée à un ouvrage récent de Marie Duru-Bellat4, un fort scepticisme peut alors être
exprimé à propos du raisonnement fondé sur le « contrôle » des variables et à l’égard des
résultats qu’il produit : « Si la modélisation ouvre au chercheur en sciences sociales des
horizons heuristiques, il reste que la clause « toutes choses égales par ailleurs » sur laquelle
elle se fonde présente un risque de « sociologie fiction » redoutable (discuté notamment par
Passeron, 1991). L’estimation de modèles multivariés est une fiction de raisonnement
expérimental, souvent « limite », précisément parce que le raisonnement expérimental sur
lequel ils reposent est évidemment très éloigné de la réalité. Si on admet sans peine qu’on
peut introduire, pour expliquer les choix d’orientation, à la fois les notes scolaires et le sexe
(variables corrélées), pour évaluer un effet du sexe « toutes choses égales par ailleurs » (effet
net restant lui-même à expliquer), le sociologue sera plus gêné devant l’introduction
simultanée de l’origine sociale et de l’origine ethnique, si on entend en déduire un effet de
l’origine ethnique « toutes choses égales par ailleurs ». La quête de l’effet pur tourne ici à la
sociologie fiction : dans la réalité, la distribution des niveaux d’instruction des parents (de
même que la plupart de leurs caractéristiques sociales) est tout sauf égale, entre enfants
français et étrangers. Le sens même de cette variable est défini dans son articulation avec
d’autres. La conséquence, c’est que les résultats sont nécessairement contextualisés : ils sont
produits dans un contexte caractérisé par telles ou telles « conditions initiales », ou telle ou
telle association entre des variables, qu’il faut décrire, ce qui n’est pas toujours fait, ou qu’on
ne fait jamais assez, en associant des tableaux aux analyses modélisées les plus complexes.
Cette question est d’autant plus cruciale que souvent les résultats ne sont pas dénués
d’incidences politiques. Évaluer si la nationalité de l’élève entraîne en elle-même un handicap
(avec à l’origine des facteurs de nature culturelle), ou bien si c’est avant tout le milieu social
associé dans notre pays au fait d’être étranger qui compte, a des incidences concrètes sur les
mesures à prendre pour contrer les difficultés des élèves étrangers » (2002, pp. 48-49).
Faut-il donc souscrire à l’argument selon lequel il est des situations – notamment la
comparaison des parcours scolaires des élèves étrangers et français – où tout recours à
l’analyse de régression devrait être exclu car il risquerait de produire une « sociologie
fiction » ? La réponse à cette question me paraît devoir être négative, à partir de
l’argumentation suivante qui peut être développée en six points.
3 - Il s’agit de l’argument que Maurice Halbwachs reprend de François Simiand à propos de
l’application de la notion de population-type :
Halbwachs M., 1935. – « La statistique en sociologie » in La statistique, ses applications, les
problèmes qu’elle soulève, 1944, Paris, Presses Universitaires de France, 7e semaine
internationale de synthèse, pp. 113-134.
4 - Duru-Bellat M., 2002. – Les inégalités sociales à l’école. Genèse et mythes, Paris, Presses
Universitaires de France.
-3-
Premièrement, les doutes exprimés à l’égard de l’analyse de régression doivent être
rapprochés du fait que son entrée dans la sociologie française est récente, puisqu’elle ne s’est
véritablement faite qu’avec la régression logistique, c’est-à-dire il y a une dizaine d’années
environ. Alors que la path analysis, introduite par Otis Dudley Duncan au milieu des années
soixante, s’est rapidement répandue dans la sociologie américaine, il n’en est pas allé de
même en France de l’analyse de dépendance, méthode pourtant très proche, développée par
Raymond Boudon à la même période5. L’explication pourrait tenir au fait que les sociologues
français ont toujours préféré les variables qualitatives ou catégorielles aux variables
quantitatives ou numériques et que le modèle de régression linéaire multiple, qui suppose que
la variable dépendante est quantitative continue et forme aussi le socle de l’analyse de
dépendance, leur était de ce fait peu adapté.
Deuxièmement, dans le monde social, les variables sont corrélées et c’est précisément
pour cette raison que l’analyse de régression est utile. À l’inverse, elle ne serait d’aucune
utilité si toutes les variables explicatives étaient orthogonales ou indépendantes car, dans ce
cas, un simple tri croisé entre la variable dépendante – par exemple le résultat du parcours
scolaire – et la variable d’intérêt – par exemple l’origine nationale – ferait immédiatement
apparaître le lien spécifique de la seconde à la première.
Troisièmement, si une combinaison linéaire de variables explicatives permettait de
reconstruire exactement le sous-échantillon correspondant à une modalité de la variable
d’intérêt – par exemple, si une combinaison particulière de modalités des variables catégorie
socioprofessionnelle du père, diplôme de la mère, taille de la famille, etc. permettait d’isoler
strictement la sous-population des enfants issus de l’immigration ou celle des enfants
d’origine maghrébine – alors le coefficient de régression partiel associé à cette modalité de la
variable d’intérêt ne serait pas estimable et l’on serait dans une situation de colinéarité stricte.
Quatrièmement, la même proposition peut être énoncée sous une forme affaiblie. Si une
combinaison linéaire de variables explicatives permettait de reconstruire presque exactement
le sous-échantillon correspondant à une modalité de la variable d’intérêt – par exemple, si une
combinaison particulière de modalités des variables catégorie socioprofessionnelle du père,
diplôme de la mère, taille de la famille, etc. permettait presque d’isoler la sous-population des
enfants issus de l’immigration ou celle des enfants d’origine maghrébine – alors il deviendrait
très difficile de « séparer les effets des variables » et cela se traduirait par des estimations très
incertaines puisque les erreurs-types associées aux coefficients de régression partiels seraient
très grandes. Une conclusion importante de ces deux arguments est que, sur le plan technique,
l’analyse de régression dote le sociologue de diagnostics qui lui permettent de détecter des
situations limites – colinéarité stricte ou quasi-colinéarité – où l’analyse statistique ne peut
délivrer de résultat robuste.
Cinquièmement, il est possible de défendre une interprétation réaliste des coefficients
de régression partiels, c’est-à-dire argumenter l’idée suivante : lorsque la variable d’intérêt est
assez fortement corrélée avec une autre variable explicative, alors le coefficient de régression
partiel associé à une modalité particulière de la variable d’intérêt traduira surtout la situation
5 - Quelques articles à tonalité méthodologique, rédigés notamment par Boudon, Chapoulie,
Degenne et Isambert, ont été publiés dans la Revue française de sociologie jusqu’au début de
la décennie soixante-dix, mais l’analyse de dépendance n’est jamais devenue une méthode
d’usage courant, contrairement par exemple à l’analyse factorielle des correspondances.
-4-
de la population correspondante relativement à la population de référence dotée des mêmes
caractéristiques sur la seconde variable explicative. Ou encore, pour l’exprimer plus
simplement à partir du même exemple, le coefficient de régression partiel estimé pour les
élèves issus de l’immigration traduira surtout la situation de ceux-ci relativement aux élèves
non issus de l’immigration et appartenant aux milieux sociaux défavorisés.
Sixièmement, raisonner à partir de données simulées, mais plausibles du point de vue de
la corrélation entre les variables explicatives, permet d’illustrer la pertinence de cette
interprétation réaliste des coefficients de régression partiels. Soit en effet un échantillon de
1 000 élèves soumis à une épreuve de performance standardisée. On suppose que 900 sont
français, parmi lesquels 600 sont d’origine sociale supérieure et obtiennent un score de 80, les
300 autres étant d’origine populaire et obtenant un score de 60. Par ailleurs, 100 élèves sont
étrangers, dont 10 d’origine sociale supérieure avec un score de 82 et 90 d’origine populaire
avec un score de 50. Sur ces données, « l’effet », sur le score de performance, associé au fait
d’être étranger plutôt que français vaut +2 en origine sociale supérieure, mais -10 en origine
sociale populaire. Intuitivement, on pressent que l’analyse de régression « ne se trompera
pas » si elle accorde, dans ses résultats, davantage d’importance à la seconde comparaison.
Celle-ci nous apparaît en effet primordiale puisque beaucoup d’élèves étrangers sont d’origine
populaire et que c’est donc pour cette origine sociale que la comparaison semble la plus
solide. De même, « l’effet », sur le score de performance, associé au fait d’être d’origine
sociale supérieure plutôt que populaire vaut +20 parmi les Français, mais +32 parmi les
étrangers. Là encore, on pressent bien que l’analyse de régression « ne se trompera pas » si
elle accorde, dans ses résultats, davantage d’importance à la première comparaison qui, pour
des raisons d’effectifs analogues à celles vues plus haut, nous apparaît comme la plus solide.
Les résultats de la régression linéaire multiple du score de performance sur l’origine
sociale et la nationalité (sans interaction entre ces deux variables) se conforment-ils à ces
intuitions ? Tel est bien le cas. D’une part, le coefficient de régression partiel estimé pour
« étranger » (par rapport à « Français ») vaut -8,51 ; il est donc intermédiaire entre les
résultats des deux comparaisons, mais fortement attiré par celle en origine populaire. D’autre
part, le coefficient de régression partiel estimé pour « origine sociale supérieure » (par rapport
à « populaire ») vaut +20,52 ; il est donc intermédiaire entre les résultats des deux
comparaisons, mais fortement attiré par celle réalisée parmi les Français.
Si, sans modifier les scores ni la répartition des élèves français selon l’origine sociale,
on transforme la distribution correspondante des élèves étrangers pour la rendre encore plus
extrême, on vérifie bien, par l’exemple, que les coefficients de régression partiels tendent à se
rapprocher des valeurs -10 et +20 caractéristiques des comparaisons qui nous apparaissent
comme les plus appropriées. Par exemple, si les 100 élèves étrangers se répartissent en 1
d’origine sociale supérieure et 99 d’origine populaire, les coefficients de régression partiels
estimés sont -9,84 et +20,06. Ou encore, si l’on suppose que les 100 élèves étrangers sont
d’origine sociale populaire, les coefficients de régression partiels estimés valent bien -10 et
+20. Tout cet exemple, fondé sur des données simulées mais plausibles, suffit donc à étayer
une interprétation réaliste des coefficients de régression : dans un modèle de régression
multiple où l’origine sociale et l’origine nationale comptent parmi les variables explicatives
introduites, le coefficient de régression partiel associé à l’origine étrangère reflète bien,
d’abord et avant tout, la situation relative de ces élèves par rapport aux autres, à l’intérieur
des milieux populaires ou défavorisés.
-5-
Au total, que reste-t-il des fortes réserves qui étaient exprimées plus haut à l’encontre de
l’usage de la modélisation statistique en sociologie et faut-il encore s’inquiéter de la « fiction
de raisonnement expérimental » contre laquelle la sociologie française met parfois en garde à
propos de l’analyse de régression ? Comme on l’a vu, la technologie qui lui est associée dote
le sociologue de garde-fous qui lui permettent de détecter les situations où, du fait de
particularités des données soumises à l’examen, l’analyse de régression s’avère incapable de
délivrer une conclusion robuste. Et l’on a montré par ailleurs qu’il était possible de défendre
une interprétation réaliste des coefficients de régression partiels. Le risque du « renne au
Sahara et du chameau au Pôle Nord » ne surgirait, me semble-t-il, que si l’on décidait
d’utiliser la batterie de coefficients de régression estimés pour produire une estimation de ce
que serait la valeur de la variable dépendante pour une sous-population hautement improbable
– par exemple, les élèves issus de l’immigration d’origine sociale favorisée ou très favorisée.
Mais, en eux-mêmes, les coefficients de régression partiels estimés ne correspondent pas à
une population fictive et sont nettement influencés par les situations caractéristiques des souspopulations qui sont les plus fréquemment rencontrées dans les données réellement observées.
Pour cette raison, je ne puis souscrire à la thèse de Jean-Claude Passeron6 lorsqu’il avance
qu’« il est alors facile de montrer que pour atteindre à la perfection logique, le raisonnement
expérimental devrait atteindre à l’absurdité sociologique en se donnant, pour pouvoir réaliser
envers et contre tout la condition « toutes choses étant égales par ailleurs », des
représentations suffisantes de co-occurrences hautement improbables, ou même inexistantes »
(1991, p. 128). Dans la réflexion qu’il livre à propos de l’analyse multivariée, cet auteur prend
en effet l’exemple d’une enquête qui viserait à étudier l’effet de la classe d’appartenance et de
l’activité professionnelle des femmes sur une attitude ou une pratique. Raisonnant à partir de
tableaux de contingence qui, pour chaque catégorie sociale, croisent la variable dépendante en
question avec la présence ou l’absence d’une activité, il semble supposer que l’idéal de
l’analyse multivariée ne serait atteint que dans le cas du plan d’expérience équilibré, c’est-àdire celui où, dans les données analysées, les différentes catégories sociales se trouveraient
également représentées, et où, de surcroît, chacune comprendrait rigoureusement le même
nombre de femmes actives et inactives. Or, comme on l’a déjà souligné, le fait que « dans le
monde social, les variables soient corrélées » – c’est-à-dire, par exemple, que le taux
d’activité féminine varie selon la catégorie sociale – n’est aucunement un obstacle à
l’application de l’analyse de régression comme forme d’analyse multivariée, pour peu que ces
corrélations ne soient pas parfaites ou quasi parfaites. Et l’on soulignera encore une fois que
les coefficients de régression partiels ont la vertu de ne pas accorder le même poids à toutes
les comparaisons imaginables, mais qu’en quelque sorte ils privilégient celles qui sont les plus
représentées dans les données analysées, ce qui leur confère un caractère réaliste.
Les développements qui précèdent conduisent donc à affirmer qu’il est possible
d’utiliser l’analyse de régression dans une optique de description sophistiquée où le modèle
sert à résumer les caractéristiques fondamentales des données sans les déformer notablement7.
6 - Passeron J.-C., 1991. – « Ce que dit un tableau et ce qu’on en dit. Le langage des variables
et l’interprétation dans les sciences sociales » in Le raisonnement sociologique. L’espace nonpoppérien du raisonnement naturel, Paris, Nathan, pp. 111-133.
7 - En montrant comment il est possible d’intégrer les méthodes de régression dans celles
d’analyse géométrique des données, un article français récent souligne aussi qu’il n’y a pas
lieu d’opposer des méthodes statistiques qui seraient par essence « explicatives » à d’autres
qui seraient « descriptives » :
-6-
Lorsqu’elle est utilisée en ce sens, c’est-à-dire comme un outil d’analyse de moyennes ou de
fréquences conditionnelles, l’analyse de régression a en outre la vertu d’obliger à adopter un
mode de pensée dialectique. Soit en effet la proposition suivante qui correspond à
l’appréhension immédiate de la réalité sociale : les enfants d’immigrés comptent parmi les
élèves qui encourent les plus grands risques de difficultés ou d’échec scolaires, d’orientation
vers les filières peu prestigieuses du système éducatif comme de sortie précoce de celui-ci.
Elle peut être tirée de l’estimation de modèles statistiques qui visent à rendre compte du
niveau de performance atteint ou de l’issue du parcours scolaire au moyen de l’origine
nationale conçue comme variable explicative unique. Soit maintenant la seconde proposition :
au sein des populations défavorisées, les enfants d’immigrés sont en moyenne inscrits dans
une trajectoire scolaire plus positive que les autres élèves. Elle peut de même être tirée de
l’estimation de modèles statistiques qui, plutôt que de considérer l’origine nationale comme
variable explicative unique, visent à démêler l’écheveau des influences pour séparer ce qui lui
tient en propre de ce qui relève d’autres caractéristiques objectives du milieu familial et
social. Aucune de ces deux propositions n’est plus vraie que l’autre et le fait qu’elles puissent
simultanément être avancées enrichit notablement notre compréhension de la réalité sociale.
Je rejoins ici pleinement Christian Baudelot lorsque, évoquant le débat entre sociologues et
économistes à propos de l’ampleur de la discrimination salariale à l’égard des femmes, il
souligne que les uns et les autres étaient de bonne foi et que les deux corporations avaient
raison8. Il n’y a donc pas d’opposition de principe entre raisonner « sans modèle » et
raisonner « avec un modèle », mais une complémentarité entre deux modes d’appréhension de
la réalité sociale, tous deux fondés sur l’usage d’un modèle : le premier inclut une variable
explicative unique, alors que le second « plonge » celle-ci au milieu d’un ensemble d’autres
déterminants potentiels.
Ce plaidoyer en faveur d’un usage raisonné de l’analyse de régression – ou, plus
généralement, de l’analyse multivariée permise par la modélisation statistique – en sociologie
ne conduit pas pour autant à suggérer qu’elle peut ou doit devenir une technique d’application
routinière. À cet égard, il faut rappeler que, dans le pays – les États-Unis – où cela a pu être le
cas, des voix se sont vigoureusement élevées parmi les spécialistes de sociologie quantitative
pour en souligner les écueils. Et, parce que ces développements n’ont guère retenu l’attention
en France, je conclurai ce texte par une évocation de l’un des ouvrages marquants rédigés en
ce sens, celui paru en 1985 et dû à Stanley Lieberson, professeur à Berkeley, puis à Harvard et
président de l’Association Américaine de Sociologie pour l’année 19919.
Écrit par un sociologue engagé dans la recherche empirique depuis de nombreuses
années, Making It Count: The Improvement of Social Research and Theory se présente
comme une critique raisonnée de la logique et des usages qui sous-tendent la recherche
quantitative contemporaine en sciences sociales. L’ouvrage est d’ailleurs divisé en deux
parties, « Pratiques actuelles » et « Vers une solution », et emprunte ses exemples à la
sociologie comme à la science sociale appliquée. Dès le chapitre introductif et en
reconnaissant que les chercheurs ont parfois la prétention de s’attaquer à des tâches
Rouanet H., Lebaron F., Le Hay V., Ackermann W., Le Roux B., 2002. – « Régression et
analyse géométrique des données : réflexions et suggestions », Mathématiques & Sciences
humaines, 160, pp. 13-45.
8 - Baudelot C., 1995. – « Le sexe est-il un résidu ? », Les Cahiers du Mage, 2, pp. 35-37.
9 - Lieberson S., 1985. – Making It Count: The Improvement of Social Research and Theory,
Berkeley, University of California Press.
-7-
« infaisables » (undoable), l’auteur affirme explicitement une conception modeste de la
recherche empirique : certaines questions de recherche sont intrinsèquement impossibles à
traiter avec les techniques des sciences sociales, d’autres sont prématurées compte tenu de
l’état actuel de la connaissance, d’autres encore sont trop compliquées et il y a enfin des
questions à propos desquelles la connaissance empirique et théorique a pu mettre en évidence
qu’elles étaient vaines.
La thèse centrale de l’ouvrage peut être résumée ainsi : alors que la majeure partie de la
recherche en sociologie est fondée sur des données non expérimentales – situation
compréhensible compte tenu des limites imposées par la société – le modèle expérimental
n’occupe pas une place mineure dans le développement des procédures de recherche ; au
contraire, les données non expérimentales – la source normale d’information empirique – sont
traitées autant que possible comme si elles étaient issues d’expérimentations contrôlées. À
l’appui de cette thèse, Lieberson invoque notamment une citation particulièrement claire de
Burgess en 1929. L’ouvrage va donc viser à mettre en évidence qu’en adoptant une telle
posture, les chercheurs s’exposent à fonder leurs raisonnements sur des hypothèses irréalistes
et, par là, à conduire des analyses comme à tirer des conclusions sujettes à caution ou
erronées. Il va aussi s’efforcer de dégager une alternative sur laquelle fonder les efforts en vue
d’une science sociale rigoureuse, capable d’utiliser l’évidence empirique pour évaluer les
théories et les propositions développées à propos de la société.
Le chapitre II (« Selectivity ») doit probablement être considéré comme le cœur de
l’ouvrage. Les sciences sociales traitent continuellement de situations dans lesquelles les
sujets n’ont pas été affectés aléatoirement aux différentes conditions d’observation. En
d’autres termes, un processus sélectif intervient qui, en lui-même, est susceptible d’influencer
la variable dépendante ou le résultat observé dans les diverses conditions d’étude. Le
problème typique du chercheur est donc de ne pas savoir si le résultat observé (par exemple,
les différences de performance scolaire entre élèves fréquentant des écoles publiques et élèves
fréquentant des écoles privées) reflète purement et simplement les forces prises en
considération (ici, le fait qu’il existerait une différence d’efficacité entre les deux types
d’école), ou s’il renvoie aussi, à un certain degré, à des différences non mesurées entre les
populations qui caractérisent les diverses conditions (par exemple, le fait que la répartition
selon l’origine socio-économique ou le niveau d’ambition n’est éventuellement pas la même
dans les deux types d’école). Ce problème très général de sélectivité a conduit à la démarche
méthodologique du « contrôle des variables » (via une analyse de régression, un tri croisé
approprié, ou toute autre technique équivalente). En prenant en compte dans l’analyse les
différences entre populations caractéristiques des diverses conditions (par exemple, en
« contrôlant » l’origine socio-économique, le niveau d’ambition, etc.), le chercheur interprète
le résultat relatif aux écoles (l’écart de performance entre élèves des écoles publiques et des
écoles privées, net de l’influence des autres variables) comme s’il reflétait le résultat qui
aurait été observé si une véritable expérimentation avait été mise en place.
Qu’est-ce qui pose problème dans une telle procédure ? La raison conduisant à tenir
compte des différences qui peuvent exister entre les populations – le fait que les processus
sociaux sont des processus sélectifs – est simultanément celle qui doit conduire à douter qu’un
tel effort de « contrôle » puisse être bien souvent couronné de succès. Car il est probable que
des processus non aléatoires d’affectation des sujets opèrent encore à l’intérieur des variables
de contrôle elles-mêmes. Bref, ce qui est en jeu, c’est la possible incomplétude de la
procédure de contrôle. Les chercheurs en sciences sociales reconnaissent volontiers cette
éventualité, mais la plupart d’entre eux se comportent comme si l’application, même partielle,
-8-
de contrôles constituait une procédure bénéfique ou, à la limite, inoffensive. En d’autres
termes, les sociologues sont très majoritairement enclins à penser que le résultat net obtenu
après prise en compte de (certaines) variables de contrôle est plus proche – ou, au pire, n’est
pas moins proche – de la relation « vraie » entre variable d’intérêt et variable dépendante –
celle que fournirait une approche rigoureusement expérimentale – que ce n’était le cas du
résultat brut initialement observé.
Or, comme l’affirme Lieberson avec force, il n’en va pas nécessairement ainsi. Sous
certaines conditions, la « sélectivité non mesurée », encore appelée hétérogénéité non
observée, peut au contraire conduire à ce que la procédure de contrôle engendre un résultat
plus éloigné de la relation vraie et parfois opposé à celle-ci. L’auteur l’illustre clairement à
partir de l’exemple de la performance scolaire selon le type d’école fréquenté : examinant
tous les cas qui résultent d’une part de l’existence éventuelle et de la direction du lien entre
variable de contrôle (l’origine socio-économique) et variable dépendante, d’autre part de
l’existence éventuelle d’une sélectivité à l’intérieur de la variable de contrôle et de la direction
dans laquelle elle opère, il met en évidence que le raisonnement quasi expérimental conduit
parfois à une conclusion qui éloigne de la réalité. De même, dans une situation où la variable
d’intérêt (le type d’école) n’aurait rigoureusement aucune influence sur la variable dépendante
(la performance des élèves), l’impact d’une sélectivité non mesurée est susceptible de prendre
la forme d’un effet apparent du type d’école ! Ou encore, il est fréquent qu’une variable,
disposant des mêmes propriétés formelles dans deux situations, varie en réalité dans ses
conséquences en raison des différences qu’elle masque sur d’autres attributs – par exemple,
entre deux régions où la distribution du niveau d’éducation est très différente, le fait de
contrôler cette variable, c’est-à-dire de raisonner à niveau d’éducation égal, peut conduire à
comparer des individus très différents du point de vue de leurs capacités ou de leur niveau
d’ambition.
En soulignant qu’il constitue l’un des éléments les plus routiniers, mais aussi les plus
acceptés de la logique des sciences sociales, l’auteur revient encore sur le contrôle des
variables dans le chapitre VI. La conclusion qu’il en tire est radicale et diamétralement
opposée à la pratique habituelle. Dans la recherche quasi expérimentale, il est vraisemblable
que l’usage d’une procédure de contrôle n’est approprié que lorsqu’elle s’avère en définitive
inutile, c’est-à-dire lorsque la prise en compte de la variable de contrôle X2 n’altère pas le
résultat initialement observé quant à l’influence de X1 sur Y. Cela constitue en effet un bon
signe du fait qu’une approximation du modèle expérimental et de l’affectation aléatoire des
individus aux conditions peut raisonnablement être maintenue. En revanche, si la relation
initiale est significativement altérée après que l’influence d’une variable de contrôle X2 a été
prise en compte, on ne peut habituellement immédiatement conclure que la technique du
contrôle nous a rapproché de l’influence « vraie » de X1 sur Y. Au contraire, la conclusion
doit être méthodologique plutôt que substantielle : il existe une relation statistique entre X1 et
X2, et il convient d’examiner plus avant cette relation – il faut en particulier savoir pourquoi
elle existe – pour déterminer si elle est ou non sous-tendue par un processus sélectif
susceptible d’invalider l’analogie avec le modèle expérimental. En d’autres termes, alors que
les chercheurs se centrent habituellement sur les relations qui existent entre les variables X1,
X2, X3… et Y, Lieberson nous invite instamment à accorder davantage d’importance aux liens
qui unissent les premières. Par exemple, s’il existe une relation entre l’origine socioéconomique (X2) et le fait de fréquenter une école privée (X1), se pourrait-il que d’autres
aspects inobservés différencient, parmi les élèves d’un milieu socio-économique donné, ceux
qui fréquentent des écoles privées de ceux qui sont scolarisés dans des écoles publiques ? Si
oui, ces facteurs affectent-ils également la variable dépendante Y (la performance scolaire) ?
-9-
Si tel est le cas et en l’absence de leur prise en compte explicite, il s’avère impossible
d’évaluer correctement l’influence du type d’école et de l’origine socio-économique sur la
performance des élèves.
La question de la sélectivité n’est pas le seul problème que doit affronter la recherche
empirique quasi-expérimentale en sociologie. Celle-ci est, sous une forme ou sous une autre,
une recherche comparative et, selon Stanley Lieberson, les comparaisons mises en jeu sont
souvent irrémédiablement rendues caduques par quatre pratiques courantes : le problème de
contamination et l’erreur qu’il est susceptible d’engendrer (chapitre III) ; l’hypothèse d’une
causalité réversible (chapitre IV) ; la confusion des niveaux d’analyse (chapitre V) et l’usage
abusif du critère de la variance expliquée pour décider ce qu’il convient d’étudier et
l’interprétation que l’on peut en donner (chapitre V).
Un problème de contamination survient lorsque l’impact d’une variable indépendante
n’est pas limité aux seules situations dans lesquelles elle est présente. Il s’ensuit que, dans un
tel cas, l’influence de cette variable ne peut être correctement déterminée à travers la méthode
comparative et le chercheur qui procéderait ainsi s’exposerait à commettre l’erreur de
contamination. Supposons par exemple que l’on souhaite déterminer l’effet de l’entrée de la
Norvège dans la Seconde Guerre mondiale sur la fécondité dans ce pays. Pour ce faire, il
pourrait sembler très raisonnable de procéder à une comparaison avec la Suède, pays voisin,
mais resté neutre au cours du conflit. Comme l’indique Lieberson, on commettrait alors
l’erreur de contamination car une étude a pu montrer de manière très convaincante qu’en dépit
de la neutralité du pays la fécondité suédoise avait varié, durant cette période, en raison
directe des épisodes marquants du conflit. Il est probable que le problème de contamination
soit très répandu aujourd’hui du fait de l’intense communication qui existe entre les sociétés
et, à l’intérieur d’une société, entre ses différents segments sociaux et spatiaux. De même,
chaque fois qu’un processus social met en jeu, sous une forme ou sous une autre, une
anticipation de certains événements ou bien une réaction à de tels événements survenus
ailleurs, alors l’erreur de contamination est susceptible d’exister.
Si un changement dans le niveau d’une certaine variable X1 est responsable d’une
variation d’une autre variable Y, que va-t-il advenir d’Y si X1 retourne à son niveau initial ?
En supposant toute chose égale par ailleurs, le processus sera qualifié de réversible si Y
revient elle-même à sa valeur de départ et d’irréversible si tel n’est pas le cas – on peut encore
distinguer entre un processus totalement irréversible et un processus partiellement
irréversible. Or, la recherche en sciences sociales tend généralement à supposer que les
processus sociaux sont parfaitement réversibles et à négliger les formes asymétriques de
causalité : si une variation de X1 a pour conséquence un changement de Y dans une certaine
direction, alors certainement la variation opposée de X1 engendrera un changement de Y de
même nature. Pourtant, cette distinction entre processus réversibles et irréversibles est aussi
cruciale pour la recherche appliquée que pour la recherche fondamentale. Supposons en effet
que le processus causal responsable d’un problème social soit totalement ou largement
irréversible. Le fait de ne pas le reconnaître conduira à l’échec toute politique qui viserait à
résoudre le problème en supprimant la cause initiale – une solution qui ne peut être efficace
que si le processus est parfaitement réversible. Bien plus, cela peut avoir pour conséquence de
remettre en cause un diagnostic initialement valide sur les causes véritables du problème :
puisque celui-ci ne disparaît pas lorsque les variables influentes sont ramenées à leur niveau
initial, le chercheur peut être incité à conclure, de manière erronée, qu’elles n’en constituaient
pas les déterminants essentiels !
- 10 -
La quasi-totalité des chercheurs en sciences sociales souhaitent disposer de données qui
manifestent une certaine variabilité dans les caractéristiques auxquelles ils s’intéressent. À
partir de là, la croyance commune est que les théories existantes seront validées et que de
nouvelles théories pourront être développées en déterminant quels critères permettent de
rendre compte de cette variation observée. Or, selon l’auteur, il existe une tendance fâcheuse à
ériger la « variance expliquée » comme un but en soi et cela conduit à privilégier certaines
questions de recherche comme à en ignorer d’autres. Comme l’affirme Lieberson avec force,
il n’est pas nécessairement raisonnable, ni même désirable, qu’une théorie vise à rendre
compte de la plus grande quantité possible de variance d’une variable dépendante. De même,
il est faux de croire que l’importance, absolue ou relative, de diverses forces causales pourrait
être rigoureusement déterminée à partir de la quantité de variance qu’elles « expliquent » dans
le cadre d’une étude empirique. Par ailleurs, ce n’est pas la même chose d’expliquer un
phénomène – par exemple, le statut socio-économique – que d’expliquer les variations qui
caractérisent ce phénomène – ici, les différences inter-individuelles de statut socioéconomique – et la seconde tâche ne peut être tenue pour équivalente à la première. Au
contraire, nous devrions nous satisfaire de commencer par comprendre pourquoi une entité ou
un processus social existe avant de songer à aborder les questions plus mineures relatives à
ses variations. La centration sur le critère de la variance expliquée a enfin pour conséquence
négative que l’on pose de façon privilégiée les problèmes de recherche à un certain niveau
d’analyse – usuellement, le niveau individuel qui est celui où la variabilité s’exprime le plus.
Il s’ensuit fréquemment une confusion des niveaux d’analyse qui mine la capacité du
chercheur à évaluer correctement les théories existantes ou à produire des conclusions valides
relatives aux causes de certains phénomènes : si une proposition théorique est formulée à un
certain niveau d’analyse, alors l’évidence empirique obtenue à un niveau inférieur ne pourra
être pertinente pour déterminer le degré de validité de cette proposition.
La première partie de l’ouvrage, centrée sur les « pratiques actuelles », s’achève par un
chapitre complémentaire où l’auteur insiste notamment sur le lien, insuffisamment perçu à ses
yeux, entre les objectifs de recherche et l’analyse empirique mise en œuvre. Plusieurs
objectifs différents peuvent être poursuivis – de la découverte de faits aux recommandations
en matière de politique à mettre en oeuvre, en passant par l’explication d’un ensemble de
faits, puis l’évaluation d’une théorie – auxquels correspondent ordinairement des formes
d’analyse empirique distinctes, conduites sur des ensembles de données qui ne sont pas
nécessairement les mêmes. Ainsi par exemple, les données nécessaires pour une recherche
appliquée orientée vers le traitement d’une situation sont généralement différentes de celles à
partir desquelles peuvent être déterminées les causes de la situation en question et il n’est
guère possible de tirer des conclusions de la seconde entreprise des recommandations pour la
première.
Après avoir argumenté que plusieurs des procédures les plus largement acceptées dans
la recherche empirique contemporaine en sociologie reposaient sur des modèles et des
hypothèses largement inappropriées et que leur application était souvent contre-productive,
Stanley Lieberson avance, dans les derniers chapitres, quelques pistes de solution qui
n’abandonneraient pas l’objectif de fonder une « science rigoureuse de la société » (p. 171).
Dans le chapitre IX intitulé « Repenser la causalité », l’auteur affirme tout d’abord que les
sociologues théoriciens comme les spécialistes de recherche empirique ne peuvent plus
continuer à négliger la distinction entre les formes symétriques et asymétriques de la
causalité, puis il se livre à un vigoureux plaidoyer en faveur de l’utilisation de données
longitudinales. Son argument essentiel réside ici dans le fait que les données transversales
(cross-sectional) recueillies à une date unique ne peuvent très généralement fournir une base
- 11 -
solide pour l’analyse causale – on rappellera que l’ouvrage a été publié en 1985 et que, depuis
environ une décennie, le vœu de l’auteur d’une utilisation accrue de données longitudinales
est en voie d’être exaucé. Enfin, face à la multiplication et à l’émiettement des causes que
suggère souvent l’application de l’analyse multivariée aux phénomènes sociaux, Lieberson
élabore une distinction entre causes superficielles et causes fondamentales qui est en même
temps une critique des interprétations trop immédiates de l’analyse de régression. Par
exemple, le différentiel d’éducation entre Noirs et Blancs aux États-Unis pourra être considéré
comme une cause fondamentale du différentiel de revenu entre les deux races si,
indépendamment de tout autre facteur, une variation du premier a pour résultante une
transformation du second. En revanche, le différentiel d’éducation ne sera qu’une cause
superficielle si sa variation – par exemple, sa réduction – n’affecte pas en réalité le niveau du
différentiel de revenu, mais n’a pour conséquence que d’altérer le poids de l’éducation dans la
détermination du revenu et/ou, éventuellement, d’accroître l’importance apparente d’une autre
cause superficielle. Ainsi, même si une analyse de régression établie à un instant donné fait
apparaître que le différentiel d’éducation « explique », en un sens statistique, x % du
différentiel de revenu, il ne faut pas s’attendre, si la première variable n’est qu’une cause
superficielle de la seconde, à ce que la mise en œuvre d’une réduction réelle de l’écart
d’instruction entre les races affecte en quoi que ce soit l’écart de revenu qui les sépare. En
effet, il est fort probable que la réduction du différentiel d’éducation s’accompagnera d’un
réaménagement de l’économie d’ensemble des causes superficielles dont le résultat essentiel
consistera en la stabilité de l’écart initialement observé pour la variable dépendante. Il est
alors possible que la cause fondamentale du différentiel de revenu reste une cause non
observée – ici, la discrimination raciale. Pour pouvoir être précisément établie, la distinction
entre causes fondamentales et causes superficielles nécessite en réalité d’observer et de mettre
en relation, au cours du temps, les changements intervenus dans la composition des
populations, les transformations de la variable dépendante et de ses liens avec les causes
potentielles.
Enfin, dans le chapitre X (« From controls to outcomes »), l’auteur revient une nouvelle
fois sur la procédure du contrôle des variables, si habituelle et routinière dans la sociologie
nord-américaine. Après avoir précisé dans quelles situations un tel usage était ou n’était pas
approprié, Lieberson reconnaît que certains développements intervenus en statistique et
économétrie au tournant des années quatre-vingt ont eu précisément pour objet de traiter la
question difficile des biais de sélection, mais il exprime aussi ses doutes quant au degré de
succès de ces tentatives. Il souligne également que l’échec de la procédure du contrôle des
variables tient fréquemment au fait que ce dernier porte, de façon privilégiée, sur les causes
superficielles qui n’entretiennent donc pas un rapport fondamental avec la variable
dépendante. Insistant sur le fait qu’il n’est pas nécessaire que les sciences sociales « simulent
des expériences » pour qu’elles puissent être considérées comme des sciences, Stanley
Lieberson suggère enfin aux chercheurs d’accorder moins d’importance aux causes
superficielles et au contrôle des variables pour centrer davantage leur attention sur les faits
qu’il s’agit d’expliquer et sur la recherche de leurs causes fondamentales.
Au moment de sa publication, Making It Count: The Improvement of Social Research
and Theory a retenu l’attention dans la sociologie américaine. Le livre a fait l’objet de
comptes rendus dans les revues de premier plan – par exemple American Journal of
Sociology, Contemporary Sociology ou Social Forces10 – et Sociological Methodology lui a
10 - Berk R. A., 1986. – Review of Making It Count: The Improvement of Social Research
and Theory, American Journal of Sociology, 92(2), pp. 462-465.
- 12 -
aussi consacré deux contributions11. L’ouvrage a, semble-t-il, été reçu diversement. Certains
ont souligné qu’il avait pour résultat positif de forcer la sociologie quantitative à revenir à ses
« fondamentaux ». Mais il a par exemple été reproché à l’auteur que les solutions proposées
dans la seconde partie n’apparaissaient pas à la hauteur des critiques émises ou encore qu’il
n’avait jamais explicitement défini les notions « d’expérience » et de « quasi-expérience »
qu’il emploie si souvent. On a également souligné qu’il n’était pas au fait des derniers
développements techniques relatifs aux biais de sélection et aux erreurs de spécification des
modèles. Il reste qu’aujourd’hui encore et pour le lecteur français, Making It Count: The
Improvement of Social Research and Theory peut être lu comme une critique lucide et
stimulante des limites que rencontrait – et rencontre toujours en partie aujourd’hui – la
sociologie américaine, empirique et quantitative, une critique menée « de l’intérieur » par l’un
de ses promoteurs.
Campbell R. T., 1987. – Review of Making It Count: The Improvement of Social Research
and Theory, Social Forces, 65(3), pp. 905-906.
Costner H. L., 1986. – Review of Making It Count: The Improvement of Social Research and
Theory, Contemporary Sociology, 15(4), pp. 537-540.
11 - Arminger G., Bohrnstedt G. W., 1987. – « Making it count even more: a review and
critique of Stanley Lieberson’s Making It Count: The Improvement of Social Theory and
Research », Sociological Methodology, 17, pp. 363-372.
Singer B., Marini M. M., 1987. – « Advancing social research: an essay based on Stanley
Lieberson’s Making It Count », Sociological Methodology, 17, pp. 373-391.
- 13 -

Sur l`analyse de régression en sociologie

Transcription

Documents pareils

Sté MIRKENTA sarl BP.29 ZI 1 chemin de la Sablière 91430 Igny Tél.

Intitulé du cours ECONOMETRIE Code du cours QANT1324 Type

Développement psychomoteur

« Madame, couvrez ce sein que je ne saurais voir !» La négociation

bac lecorbusier - SNES Versailles

R RÉGRE ESSION AVEC R R

VANDA LOURENÇO, Faculdade de Ciências e Tecnologia da

DESCRIPTIFS DES COURS 2014-2015 Sociologie de la

Calcul des paramètres statistiques, régression

La régression logistique