L`interprétation des résultats de recherche dans le cadre de l

Transcription

L`interprétation des résultats de recherche dans le cadre de l
L’interprétation
des résultats de recherche
dans le cadre
de l’approche quantitative
Donald Long
Centre de Recherche et de Développement en Éducation
(CRDE)
Université de Moncton
Moncton, Nouveau-Brunswick, Canada
E1A 3E9
[email protected]
Je tiens à remercier Michel Rousseau, professeur à la Faculté des sciences de
l’éducation de l’Université de Moncton, pour la révision du texte
et pour ses judicieux conseils
Table des matières
1. Introduction .............................................................................................. 1
2. J’en perds mon latin ! ............................................................................... 7
3. Une approche confirmatoire, et non exploratoire .................................... 8
4. Un score individuel est à la fois unique et composé ................................ 9
5. Valeur mathématique versus valeur statistique...................................... 11
6. La statistique : la science des grands nombres....................................... 12
7. Le niveau de signification : une vedette en perte de popularité............. 14
8. La variance expliquée : une formule magique ....................................... 17
9. La fonction principale de la majorité des analyses statistiques ............. 22
10. Le caractère additif (ou non additif) des variables............................... 25
11. Les instruments de mesure dits valides et fidèles ................................ 27
12. Ces chers sujets volontaires.................................................................. 28
13. À la recherche d’un profil stable .......................................................... 30
14. La variable dépendante : le pivot de la recherche ................................ 35
15. Causalité versus corrélation ................................................................. 39
16. Les valeurs manquantes : ne les manquez pas !................................... 40
17. Conclusion............................................................................................ 41
18. Sources ................................................................................................. 44
L’interprétation
des résultats de recherche
dans le cadre de l’approche quantitative
« Beyond the elementary process of understanding what a specific statistical result means,
however, those of us who do quantitative social science seldom address the issue of how we
do interpretation. » (Herbert M. Kritzer, 1996)
1. Introduction
S’il y a un terme qui est utilisé souvent par
les chercheuses et les chercheurs, c’est bien
le mot analyse. Cependant, dans bien des situations, il devrait être remplacé par
le mot synthèse qui conviendrait mieux.
Analyse
Synthèse
Ainsi, on parle de faire l’analyse des données, alors qu’il
faudrait distinguer ce procédé de la synthèse des résultats
issus des analyses statistiques. Derrière cette distinction se
cache une confusion qui en dit long sur la conception
générale d’une recherche quantitative.
L’utilisation du mot analyse à toutes les sauces est symptomatique. Elle reflète
une conception de l’interprétation des résultats de recherche axée sur un
processus de découpage plutôt que d’assemblage. L’analyse des résultats de
recherche ne se ramène pas seulement au dépeçage d’un ensemble. L’objectif
ultime consiste plutôt à rattacher ces pièces ensemble de façon significative,
surtout en relation avec un cadre conceptuel bien établi et abondamment
documenté. Tout comme un casse-tête, chaque pièce n’est importante qu’en
autant qu’elle contribue à un ensemble.
La façon de réaliser une synthèse des résultats fait parfois défaut et entraîne
malheureusement des conclusions douteuses, voire tirées par les cheveux. À tort,
on croit qu’en multipliant les analyses statistiques, on améliore la
compréhension de la problématique à l’étude. Certes, on doit identifier et décrire
chacune des variables. Cependant, il est tout aussi important d’établir des
relations prévues entre certaines variables.
L’approche quantitative représente un positionnement
particulier envers la compréhension de l’univers : le
positivisme. S’il est vrai qu’elle sert bien les intérêts des sciences physiques, on
ne peut en dire autant des sciences humaines et sociales. Par ailleurs, dans son
ensemble, les humains semblent se comporter selon des règles universelles.
Mais, s’ils partagent des traits communs que l’approche quantitative finit par
Positionnement
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 1
Donald Long CRDE Université de Moncton
identifier, les caractéristiques spécifiques de chaque individu amènent des
théoriciens à proposer d’autres approches pour expliquer le fonctionnement
général de l’être humain. L’approche quantitative n’est qu’une façon empruntée
aux sciences naturelles pour mieux saisir la réalité humaine.
Quoi qu’il en soit, afin de
parvenir à une véritable
synthèse des résultats, il est préférable de regrouper le plus grand nombre de
variables de l’étude sous le parapluie d’une seule analyse statistique, une
analyse englobante. Une multitude d’analyses statistiques univariées exécutées
sur des petits groupes de variables indépendants les uns des autres ne peut
déboucher sur une vue d’ensemble du phénomène à l’étude. Les analyses
multivariées, même si elles regorgent de complexité, s’avèrent extrêmement
puissantes lorsqu’il s’agit de vérifier un modèle conceptuel dans sa totalité. Le
tableau 1 illustre la différence fondamentale entre une analyse statistique
univariée et une analyse multivariée.
Analyse univariée versus analyse multivariée
Onwuegbuzie & Daniel (2003) expriment la même idée en affirmant qu’une
erreur sérieuse d’interprétation survient lorsqu’on omet de considérer les
interactions potentielles entre des variables.
Tableau 1. Comparaison entre analyse univariée et analyse multivariée
Analyse univariée
VI1
VI2
Analyse multivariée
VD
VD
VI3
VD
VI4
VD
VI1
VI1
VI3
VI4
VD
VI = Variable indépendante VD = Variable dépendante
La plupart des recherches veulent répondre à un nombre réduit de questions,
parfois une seule. Il n’y a pas de raison, alors, de multiplier indéfiniment les
analyses statistiques qui ne font que soulever de nouvelles questions inutilement
et éloignent la raison d’être de la recherche.
Imaginez la situation où on
vous remet un nombre
considérable de photographies, chacune portant sur une partie d’un
objet complexe qui vous est totalement inconnu. En multipliant le
nombre de ces photographies, vous risquez d’ajouter à la confusion. Pourtant,
Description versus explication
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 2
Donald Long CRDE Université de Moncton
une seule photo de l’ensemble de l’objet en question aurait suffi à vous donner
une idée de la réalité de cet objet. Pourquoi devrait-il en être autrement quand il
s’agit d’analyser des données et d’interpréter des résultats de recherche ?
Certes, il importe de décrire et d’isoler chacune des variables
étudiées. Par contre, rarement cet exercice sera suffisant. La
description des variables entraîne l’isolement des variables et
non leur regroupement. La description détaillée des variables à
l’étude finit par inciter le lecteur à se former une idée personnelle de la
signification des résultats, idée ne correspondra que rarement à une véritable
synthèse appuyée par des analyses statistiques appropriées. À moins d’intégrer
les variables dans une seule analyse statistique, la description de variables
indépendantes les unes des autres n’équivaut pas à l’addition de ces variables :
le caractère additif des variables n’est possible que lorsqu’elles sont intégrées
dans une seule analyse. Nous élaborerons sur le caractère additif des analyses un
peu plus loin à cause de l’importance de cette notion.
Si on remplace des analyses univariées par une simple description, ou bien
qu’on se contente d’analyses univariées alors que des analyses multivariées sont
nécessaires, l’interprétation des résultats risque fort d’être incomplète, sinon
erronée.
De façon générale, les variables soumises à l’étude font partie intégrante d’un
ensemble que nous connaissons comme la problématique de recherche qui
renferme un cadre conceptuel. En réalité, le cadre conceptuel oriente les
analyses statistiques en précisant les relations entre les variables. Dès qu’un
modèle conceptuel est proposé et que des variables sont énumérées et mesurées,
on déduit que ces variables font partie, pour la plupart, du modèle à vérifier. Un
modèle se vérifie d’un seul coup et non par des analyses indépendantes qui ne
font pas de rapprochement entre les variables.
Les
variables
d’une étude existent par elles-mêmes. Soit. Mais, à vrai dire,
elles n’existent pas pour elles-mêmes. Chaque variable a été
introduite non pas tant pour sa valeur absolue, mais plutôt pour sa valeur
relative. Cette affirmation est lourde de conséquences, à un point tel que je
consacre ce document à bien vous montrer cette distinction et à faire valoir ma
conception du sujet.
La valeur relative d’une variable ou d’un score
Dans une recherche explicative, par opposition à recherche descriptive, c’est
la valeur relative d’une variable qui compte avant tout, et non sa valeur absolue.
Dans une recherche explicative, on fait bien plus que décrire les variables, ce qui
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 3
Donald Long CRDE Université de Moncton
n’enlève rien à l’utilité d’une recherche descriptive. L’intention derrière
chacune de ces deux grandes catégories de recherche diffère, c’est tout.
En bout de ligne, les résultats d’une recherche descriptive finissent par être mis
en relation avec des normes, des critères, des résultats quelconques tirés d’une
autre source. À bien y penser, à quoi sert de savoir que votre échantillon se
compose de 56,9 % de filles, si la variable genre n’est pas mis en relation ou en
interaction avec d’autres variables de votre étude. Par contre, ce pourcentage
pourrait être important à connaître lorsqu’il s’agit d’établir un parallèle avec une
autre recherche. Ce faisant, une relation est créée.
On voit que la recherche ne consiste pas
seulement à recueillir des données et à les
analyser ; l’interprétation des résultats fait partie intégrante du processus. Que
signifient les résultats obtenus ? Je prétends même que le chercheur fait de
l’interprétation tout au long du processus de la recherche, et ce, même avant
de débuter sa recherche comme telle. Cette affirmation peut sembler paradoxale
puisqu’on croit que l’approche quantitative est libre de toute subjectivité. Il
n’existe pas moins de quatre niveaux d’interprétation auxquels s’adonne le
chercheur. Je me contente de les décrire dans le tableau 2.
Objectivité versus subjectivité
Tableau 2. Les niveaux d’interprétation dans une recherche
Niveau
Description
Compréhension que se fait le chercheur du sujet ou de la problématique
Conceptuel
de sa recherche
Méthodologique Définition des concepts
Choix des analyses statistiques et interprétation des résultats
Analytique
Liens entre les résultats obtenus et ceux des autres recherches
Relationnel
L’approche quantitative est autant une activité mathématique qu’intuitive. Elle
est autant subjective qu’objective. Elle décrit des faits avec précision, mais elle
les interprète parfois dans la confusion.
L’information véhiculée par une variable peut être statique
(recherche descriptive), mais elle peut apporter, par surcroît, une
valeur dynamique (recherche corrélationnelle et prédictive) à
une recherche. Dès que vous mesurez une association entre deux
variables, vous indiquez, ipso facto, que vous soupçonnez une
relation fonctionnelle quelconque entre ces variables : elle a, de ce fait, une
valeur dynamique.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 4
Donald Long CRDE Université de Moncton
Par exemple, vous souhaitez savoir qui, des filles ou des garçons
(variable genre), reçoivent de l’aide financière de leurs parents à leur
première année universitaire (tableau 3). À remarquer que ce sont
deux variables discrètes. Même dans un tel cas, on cherche à établir
une relation, ou une absence de relation. Il n’est pas nécessaire que
les variables soient continues pour vérifier si une relation existe entre elles.
Tableau 3. Relation entre le genre et l’aide financière fournie par les parents
à leurs enfants inscrits en 1re année universitaire
Genre
Aide financière des parents
Oui
Non
%
%
Filles
%
%
Garçons
Dans la partie descriptive de cette étude, on décrira la variable genre. On
apprendra, dans un premier temps, que 56,9 % des participantes sont des filles,
donc, 43,1 % sont des garçons. On apprendra, dans un deuxième temps, que 34
% des parents contribuent au financement des études de leur enfant au cours de
la première année universitaire. Nous venons de décrire chacune des variables
indépendamment l’une de l’autre. Cependant, nous ne savons rien de la
relation entre le genre et le financement des parents ; autrement dit, les
parents aident-ils davantage leur enfant lorsqu’il s’agit d’une fille plutôt que
d’un garçon ? La façon de poser une question en recherche, ou de formuler une
hypothèse, détermine la nature des analyses statistiques à faire.
N’allez surtout pas croire qu’en décrivant un échantillon avec un
nombre considérable de variables isolées il est possible de se faire
une idée encore plus précise de la véritable nature de cet
échantillon. Décrire plusieurs aspects de ce groupe n’apporte pas
nécessairement de la lumière sur la dynamique et l’interaction
entre ces divers aspects. En ajoutant à la description des variables, on augmente
l’incertitude autant que l’éclaircissement. En fait, il ne faut pas confondre
deux notions fondamentales : décrire et expliquer. Décrire plus abondamment ne
permet pas nécessairement d’expliquer mieux.
Si votre étude se veut un simple sondage, chaque variable, en soi,
possède une grande valeur informative. Décrire chacune de ces
variables peut suffire. Tant mieux. Néanmoins, une simple
description peut vous amener vers une fausse conception de la
nature véritable de votre échantillon. Aussi bien dire qu’une étude
descriptive comporte des risques et des déficiences dont il importe d’être
conscient, surtout lors de l’interprétation des résultats.
L’encadrement
Par recherche prédictive nous entendons une recherche
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 5
Donald Long CRDE Université de Moncton
destinée à comprendre un phénomène quelconque de manière à être capable de
le prédire : elle peut être corrélationnelle ou prédictive. Si la nature d’une
tornade était bien connue ainsi que les conditions qui la font exister, nous
pourrions prévoir son apparition dès que certaines conditions climatiques font
leur apparition.
Une recherche explicative comprend les quatre cadres de référence suivants :
1
2
3
4
Un cadre conceptuel qui identifie les concepts et leurs relations
Un cadre méthodologique qui précise comment les concepts sont mesurés
Un cadre analytique qui indique comment les données sont analysées
Un cadre interprétatif qui relie les résultats au cadre conceptuel établi
Ce cadre conceptuel peut posséder divers degrés de complexité. Avec
l’avènement de nouveaux tests statistiques, les chercheuses et chercheurs
tendent de plus en plus à proposer des conceptions complexes pour circonscrire
un phénomène. Comme de nouvelles connaissances sur les phénomènes
s’ajoutent de jour en jour, les chercheur.e.s ont une raison supplémentaire de
vérifier des modèles conceptuels qui tiennent compte simultanément d’un plus
grand nombre de variables.
Malgré tout, la plupart des modèles complexes se fondent sur les mêmes
principes que les autres plus simples. L’ajout de variables à un modèle
conceptuel est motivé par la conviction qu’un phénomène arrive selon des
conditions particulières et que le nombre et le dosage de ces conditions ont des
propriétés précises et déterminées. Lorsqu’on ne peut prédire avec précision un
phénomène, c’est que nous ne connaissons pas toutes les variables qui entrent en
jeu ou bien que nous n’avons pas mesuré la contribution exacte de chacune
d’elles.
Même si votre recherche comprend de nombreuses variables, vous n’êtes pas
assuré de mieux cerner votre sujet de recherche. Ce n’est pas tellement le
nombre de variables qui importe, mais le cadre conceptuel qui attribue à chaque
variable un rôle particulier. Les concepts de base doivent s’y trouver, mais aussi
votre façon de les organiser en fonction d’un modèle explicatif quelconque.
L’approche quantitative se caractérise surtout par une conception a priori d’un
phénomène qui est soumise à un processus de vérification et de validation à
travers une expérience dite scientifique.
Quoiqu’il soit, nous croyons que plus un modèle est exhaustif plus il se
rapproche de l’explication complète du phénomène.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 6
Donald Long CRDE Université de Moncton
?
Question : Sans être ironique, comment peut-on mesurer le caractère
constant d’un phénomène par le biais de variables ?
Réponse : Lorsque les variables sont constantes dans leurs variations.
Ouchhhhhhhhhhhhhhhhhhhhhhhh !
2. J’en perds mon latin !
Nos premiers cours de recherche nous convainquent fermement d’une chose :
diantre, que c’est compliqué ! On rencontre des notions comme
l’échantillonnage probabiliste impossible à réaliser, des règles d’éthique
difficiles à respecter, des distributions de scores plus ou moins normales, des
tests statistiques dont les noms font penser à des maladies incurables, des
conditions d’expérimentation qui sont trop coûteuses à mettre en place, des
instruments valides de mesure, mais dont on doit confirmer à partir des données
de sa propre recherche, des logiciels qui gèrent nos données sans nous montrer
comment sont faits tous ces savants calculs, des sorties d’ordinateur pouvant être
lues aussi bien à l’envers qu’à l’endroit, et je vous fais grâce du reste. Pas
étonnant qu’autant d’étudiantes et d’étudiants craignent les cours de recherche
avant de s’y inscrire, et les craignent davantage après l’examen final. Pourtant,
la recherche ne vise qu’à mieux comprendre ce que nous connaissons déjà.
Ce module, tout comme les autres d’ailleurs, vise à simplifier des notions qui
donnent du fil à retordre aux étudiantes et aux étudiants qui en sont à leurs
premiers ébats en recherche. Je vous invite à être patiente et patient dans votre
processus d’apprentissage. Bien des notions ne sont vraiment comprises
qu’après de longues années d’expérience dans le domaine. Il serait plus juste de
soutenir qu’avec le temps on gagne en confiance : la compréhension véritable
n’est peut-être qu’une illusion.
En fait, les notions ne seront pas vraiment simplifiées, mais plutôt ramenées à
des éléments fondamentaux, à des principes de base. Vous ne trouverez pas dans
ce module une recette magique pour interpréter une analyse discriminante, un
chi carré ou tout autre test statistique. Par contre, le discours sera orienté de
manière à vous faire comprendre, par exemple, comment toutes les analyses
statistiques s’apparentent de telle sorte qu’on peut les ramener à une cellule
souche.
Si cette affirmation vous tombe sur la tête comme une tonne de briques,
continuez votre lecture. Sinon, vous comprenez déjà la fonction essentielle et
primordiale des tests statistiques et vous avez mieux à faire que lire le texte qui
suit.
Tout au long du texte vous serez en mesure de déduire ou de constater que ma
compréhension de la recherche tient à certaines notions qui servent de
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 7
Donald Long CRDE Université de Moncton
piliers. Je vous en donne un avant-goût. Nous allons même numéroter ces
notions. J’y crois tellement à ces notions qu’en faire fi nous conduit tout droit
dans un piège ; on doit donc les guetter. Pour plusieurs de ces notions
importantes, je vous mettrai en garde contre un piège. Par ailleurs, les trois
dessins suivants serviront de repère :
Notion que je juge
fondamentale
Piège à éviter
?
Une question que je pose
3. Une approche confirmatoire, et non exploratoire
1
On fait peu de découvertes imprévues
en recherche quantitative ;
la recherche vient plutôt confirmer ou infirmer
ce qu’on a déjà découvert…dans notre caboche !
L’approche quantitative n’est pas une approche
exploratoire comme telle ; elle est plutôt confirmatoire.
Si la recherche est structurée de façon à vérifier une idée déjà conçue, il va sans
dire que cette idée s’inscrit dans un cadre conceptuel basé sur des recherches
antérieures et sur un raisonnement implacable. Par exemple, vous voulez
démontrer que les filles s’inscrivent en plus grand nombre dans les facultés
universitaires de sciences selon qu’elles ont été exposées à des modèles
familiaux apparentés. Les filles, dont une ou plusieurs femmes de leur famille
immédiate font carrière dans un domaine scientifique, tendent-elles davantage
que les autres à choisir elles aussi une carrière en science ? Voilà votre question
de recherche.
Votre cadre conceptuel devra justifier le fait que le choix d’une
carrière est généralement influencé par l’exposition à un modèle
signifiant, un parent. À la suite d’une recension des écrits, vous
serez en mesure de bâtir un cadre conceptuel justificatif parfois fort
élaboré. Votre recherche documentaire débouche sur un cadre conceptuel qui, à
son tour, vous permettra de formuler une hypothèse de recherche. L’hypothèse
constitue donc une prédiction ; vous prévoyez un résultat plutôt qu’un autre.
Vous prétendez que le modelage familial influe sur le choix de carrière des
filles. Vous ne cherchez pas à identifier les variables qui influencent le choix de
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 8
Donald Long CRDE Université de Moncton
carrière des filles inscrites dans les facultés de sciences. Vous désirez plutôt
obtenir une confirmation d’une certitude relative que vous avez quant au choix
de carrière pour un groupe spécifique de filles.
Il est important d’analyser les données sous toutes leurs
coutures. Des relations ont été prévues entre certaines
variables et des tests doivent être exécutés à cet effet.
Personne ne vous empêche, par ailleurs, de scruter votre fichier en quête de
relations qui peuvent améliorer la compréhension de votre problématique. Cette
activité est connue comme le furetage des données (data snooping).
Supposons que vous mettez à jour des relations entre certaines variables que
vous jugez pertinentes et importantes. Si vous décidez d’incorporer ces résultats
à votre document, vous devrez revenir sur votre recension des écrits, la
conceptualisation de votre problématique et la formulation de nouvelles
hypothèses. Pourquoi ? Il vous faudra non seulement expliquer ces nouveaux
résultats statistiques, mais aussi les justifier au niveau conceptuel. La section
des résultats dans une recherche n’a pas de mérite à être une boîte à surprises !
4. Un score individuel est à la fois unique et composé
2
Dans certains cas, nous pouvons prétendre
qu’un score individuel à une variable
dépasse cette variable et constitue, en fait,
l’effet cumulatif d’autres variables.
Certes, lorsqu’un individu, participant à votre recherche, indique qu’il a 32 ans,
qu’il est du genre masculin, qu’il est enseignant de profession, qu’il est
célibataire, ces informations ne dépendent pas d’autres variables. Par contre, son
score sur une échelle d’attitude ou de satisfaction au travail, par exemple, n’est
guère absolu. Ce score dépend de nombreux facteurs personnels,
environnementaux, sociologiques, historiques, et j’en passe. Des variations dans
ces sources de facteurs peuvent modifier son score sur l’échelle d’attitude ou de
satisfaction (tableau 4).
Ainsi, nous pouvons soutenir qu’un score précis dans le cadre d’une recherche
n’arrive pas de lui-même ; il dépend plutôt de l’action et de la contribution
d’autres variables qui interagissent entre elles. À bien y penser, les modèles
conceptuels, qu’ils soient simples ou complexes, s’inspirent de ce principe qui
représente, pour moi, une croyance fondamentale en recherche quantitative.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 9
Donald Long CRDE Université de Moncton
Tableau 4. Les multiples influences qui agissent sur une variable
telle que la satisfaction au travail
Influence
Échelle de satisfaction
au travail
Satisfaction
1
Santé
Salaire
Famille
Âge
Statut civil
Environnement
Etc.
2
3
4
5
Insatisfaction
?
C’est à se demander si, dans l’univers, il y a des choses qui existent par ellesmêmes, complètement isolées des autres et libres de toute influence mutuelle.
Par exemple, tout objet de l’univers subit la gravité d’un autre corps, et ce,
à divers degrés selon leur masse et leur distance respectives.
En est-il de même pour les phénomènes dits humains ? Les variables d’une
recherche sont-elles, pour la plupart, reliées entre elles ? Des groupes de
variables ont-ils une source commune d’influence ?
Si la valeur d’un score dépend de multiples variables,
nous pouvons donc calculer la contribution de chacune de
ces variables. De fait, des analyses statistiques permettent
de déterminer, pour une variable dépendante particulière, la variance expliquée
par plusieurs variables indépendantes. Nous pouvons même organiser ces
variables de façon hiérarchique selon la contribution de chacune.
Toutes ces analyses fondées sur la corrélation s’avèrent excellentes pour
dénicher des liens entre des variables. S’il est démontré que la satisfaction au
travail dépend de l’atmosphère générale du milieu de travail, des bénéfices
sociaux, de l’attitude envers le travail et le niveau d’éducation, par exemple, il
reste à démontrer comment ces facteurs agissent sur la satisfaction au travail.
Qu’en est-il de la relation entre ces facteurs ? À leur tour, ces facteurs dépendent
de multiples autres facteurs.
Sans un cadre conceptuel bien structuré, les résultats de tests statistiques
ont peu de valeur en soi. Des relations de toutes sortes entre des variables
peuvent être autant encombrantes qu’accommodantes. Lorsqu’on prétend qu’une
variable est influencée par d’autres variables et qu’elle-même fait porter son
influence sur diverses autres, il y a un effort considérable à faire pour organiser
ces relations de façon fonctionnelle à l’intérieur d’un cadre conceptuel.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 10
Donald Long CRDE Université de Moncton
On ne doit pas s’attendre à identifier tous les facteurs qui expliquent la variance
totale d’une variable dépendante. On constate souvent que l’emphase est mise
sur la partie de la variable qui est, pour ainsi dire, expliquée par des variables
indépendantes. On trouve, par exemple, que ces variables expliquent 13 % de la
variance attribuée à la variable dépendante. Mais, où sont donc passés les
autres 87 % de cette variance ?
5. Signification statistique versus signification pratique
Lorsque vos résultats proviennent d’un échantillon, les valeurs que vous obtenez
ne sont pas nécessairement les vraies valeurs correspondant à la population
totale. Aussi bien dire que, la plupart du temps, les valeurs d’une recherche ne
sont pas exactes ! Pour vous en convaincre, répétez la même expérience avec
plusieurs échantillons et vous constaterez que, si les résultats de chacun d’eux
varient peu, il reste qu’ils ne sont pas tout à fait les mêmes. La moyenne de ces
variations entre les échantillons vous fournira une idée de l’erreur
d’échantillonnage ou de la différence entre les échantillons.
?
Peut-on corriger cette variation ou cette erreur d’estimation ?
Puisque nous ne savons rien de la valeur réelle, il est utopique
d’appliquer une correction à ces valeurs. On peut, par contre,
indiquer que la vraie valeur se situe
entre des limites inférieures et supérieures de confiance.
C’est ainsi qu’on dira, par exemple, que, dans 95 échantillons sur 100, la valeur
va se situer entre 29 et 35. Il y a donc 5 % de chance (p = 0,05) que le vrai score
se trouve en dehors de cette zone ou étendue de valeurs. La vraie valeur est donc
comprise entre des limites de confiance. Ce qui nous amène à conclure que :
3
Un score produit par un échantillon d’individus représente
une valeur statistique et non une valeur mathématique. Un
score de 5 ne représente pas nécessairement une quantité
absolue de 5 ; il représente plutôt une zone de valeurs
dont 5 est le représentant le plus légitime.
La statistique est une science de probabilité davantage qu’une science
d’exactitude. Les résultats statistiques d’une recherche sont, par conséquent,
des valeurs estimées et non des valeurs exactes.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 11
Donald Long CRDE Université de Moncton
4
?
Les résultats de recherche sont,
plus souvent qu’autrement,
des certitudes relatives plutôt que des certitudes absolues.
Comment une science approximative
peut-elle déboucher sur des certitudes ?
Elle débouche, en fait, sur des certitudes relatives.
Donc, il est certain que les résultats sont incertains !!!
Nous verrons bien, plus loin, que la statistique est un outil dont les chercheurs
disposent afin de porter des jugements qualitatifs à partir de données
quantitatives. La tradition dans toutes les sphères de la recherche montre que,
même si les résultats de recherches comportent un degré d’incertitude et
d’imprécision, il est possible de tirer des conclusions fermes, moyennant
certaines conditions.
Les scores obtenus dans une recherche sont aussi exacts
que l’échantillon est représentatif, lorsqu’il s’agit de
généraliser des résultats à la population.
La taille et la représentativité de l’échantillon méritent une considération
particulière lors de l’interprétation. Les variations peuvent être importantes à
l’intérieur d’un échantillon de petite taille.
Comme il est difficile de former un échantillon satisfaisant en taille et en
représentativité, les résultats ne sont pas toujours ceux escomptés. Bien des
chercheurs soulignent des biais qui ont pu agir sur les résultats. Pourtant, leur
interprétation des résultats n’en tient pas compte. Dans tous ces cas, on doit
se méfier de relations ou de différences mitigées, des résultats statistiquement
significatifs mais arrachés par la peau des dents.
6. La statistique : la science des grands nombres
Une recherche faisant appel à un nombre restreint de sujets court le risque que
les résultats qui s’en dégageront soient biaisés à cause d’un échantillon non
représentatif, à moins, bien sûr, que des dispositions aient été prises pour assurer
sa représentativité. Que signifie représentativité d’un échantillon ? Les
caractéristiques principales et pertinentes à votre recherche doivent se
retrouver dans votre échantillon en proportion équivalente avec la population à
laquelle vous désirez généraliser vos résultats.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 12
Donald Long CRDE Université de Moncton
Les statisticiens ne se gênent pas pour affirmer qu’un échantillon
tiré selon les règles de l’art est préférable à toute tentative de
rejoindre la population générale visée. La raison est simple : il est
pratiquement impossible de rejoindre une population au complet :
plusieurs échapperont à l’enquête. L’échantillon, par contre, est
moins sujet à des contraintes semblables.
L’inconvénient majeur d’un échantillon restreint réside dans la
présence de sujets dont les caractéristiques pourraient s’écarter
considérablement de la majorité. Certes, dans la population
générale, ces sujets existent bel et bien. Lorsque l’échantillon est
grand, l’influence de ces sujets est moindre. Lorsque l’échantillon est
petit, ils sont aisément repérables, car leurs scores sont perçus comme des scores
extrêmes (outliers). Parce qu’ils font partie d’un échantillon restreint, on juge
maintenant leurs scores comme non valides. En fait, ils déforment la
représentativité de l’échantillon. Ces sujets seraient probablement acceptés si
l’échantillon augmentait en taille. Leur importance est disproportionnée par
rapport aux autres. La solution ? Transformer leurs scores ou éliminer carrément
les individus de l’échantillon. Les scores extrêmes sont considérés comme
outliers lorsque l’échantillon n’est pas aléatoire. En fait, un échantillon tiré sur
le volet entraîne des biais de toutes sortes difficiles à contourner ou à corriger.
Pour le nettoyage des données,
je vous réfère
à un autre module
de ce présent site Internet.
Plusieurs auteurs (par ex. Keselman et al., 1998 ;
Onwuegbuzie, 2002b) notent que la majorité des
chercheurs ne vérifient pas adéquatement à quel point les
exigences de base d’un test statistique sont rencontrées. Certaines analyses
statistiques exigent pour leur fonctionnement optimum de 5 à 10 sujets par
variable introduite : un critère plancher, et non un critère plafond. Par exemple,
vous prévoyez utiliser l’analyse factorielle afin de cerner et distinguer certains
concepts d’importance capitale pour votre cadre conceptuel à partir d’un bassin
de 28 variables. Il est bien évident que, dans un tel cas, la taille de votre
échantillon constitue une préoccupation majeure ; la généralisation de votre
recherche tient à l’échantillonnage. Assurez-vous d’être capable d’augmenter
la taille de votre échantillon avec assez d’aisance. Une analyse factorielle ne
s’exécute pas avec 2 sujets par variable, tout simplement pas. Les autres
analyses multivariées s’avèrent tout aussi exigeantes à cet égard.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 13
Donald Long CRDE Université de Moncton
En éliminant des sujets (outliers),
si votre échantillon est restreint,
vous faites de la place pour laisser entrer
d’autres problèmes insipides dont il faut se méfier.
Entre autres, la variabilité diminue et
vos analyses auront moins de dents…
Vous fermez la porte à un problème sévère pour en ouvrir
une qui donne sur un problème sérieux !
Votre échantillon peut-il être de grande taille inutilement ? Non, s’il
est représentatif. Un grand échantillon biaisé n’est guère plus
valide qu’un petit échantillon biaisé. Cependant, plus votre
échantillon se rapproche de la population totale, moins l’erreur
d’échantillonnage est importante. Une comparaison entre les
caractéristiques de l’échantillon et ceux de la population devrait vous
permettre d’évaluer la représentativité de votre échantillon.
?
Laquelle des deux situations suivantes est davantage tolérable :
un échantillon trop petit, ou un échantillon trop grand ?
Un échantillon trop grand !
7. Le niveau de signification : une vedette en perte de popularité
Les tables de probabilité sont des outils pratiques, mais elles
possèdent des faiblesses dont nous devons être conscients. Ces
tables nous permettent d’estimer à quel point la réalité de
l’échantillon est généralisable à la population. Par exemple, nous
sommes en droit de nous demander quelle est la vraie relation entre le niveau
d’éducation formelle et le niveau socio-économique dans la population totale.
L’analyse statistique de corrélation serait toute désignée pour répondre à cette
question. Il faudrait, par ailleurs, mesurer cette relation dans la population
entière. Même à cela, à travers les époques, elle varie.
Pire encore, nous n’avons pas un document qui fournit les valeurs réelles de
toutes les variables étudiées en recherche. Y rêver tient de l’utopie ! Voilà
pourquoi la science des mathématiques est venue à la rescousse de la statistique
en dressant des tables de probabilité.
Ces tables ne nous indiquent pas à quel point ce que nous observons est
fréquent, mais plutôt dans quelle mesure nous pouvons généraliser de
l’échantillon à la population totale. C’est un cadre de référence qui fournit des
probabilités. Ces tables ne font rien pour indiquer, par exemple, si la nature
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 14
Donald Long CRDE Université de Moncton
d’une différence entre deux moyennes est valable ou non, ou si une association
entre deux variables est signifiante.
Un résultat statistiquement significatif
peut être, en fait,
insignifiant en pratique
Les tests statistiques visent à accepter ou à rejeter une hypothèse nulle de
recherche. Ils sont accompagnés d’une table particulière de probabilité. Malgré
leur spécificité, ces tables partagent des traits communs.
Chacune de ces tables est constituée de valeurs critiques différentes pour
chaque taille d’échantillon ou pour chaque quantité d’observations. La valeur
critique requise pour un groupe de 10 individus diffère énormément de celle
associée à un groupe de 180 individus. Le tableau 5 montre les valeurs critiques
pour 3 grandeurs d’échantillons différents :
Tableau 5. Les valeurs critiques associées à des échantillons
de trois différentes tailles (Test t)
Taille de l’échantillon
Valeurs critiques
6
2,45
25
2,06
Plus de 120
1,96
Si le nombre total d’observations ou de scores s’élèvent à 6 (deux groupes peu
nombreux, en fait), il faudra obtenir, pour le Test t, une valeur critique d’au
moins 2,45 pour que ces moyennes soient statistiquement différentes. S’il s’agit
de 25 observations (groupes légèrement plus nombreux), votre résultat sera
significatif s’il atteint la barre de 2,06. Enfin, si le nombre d’observations est
fort élevé, disons 213 observations, il existera une différence statistiquement
significative entre les deux moyennes à condition que la valeur critique atteigne
1,96. Vous imaginez bien, pour un petit échantillon, que la différence entre les
moyennes de ces deux groupes devra être considérable.
Cette valeur critique est-elle valable pour tous les niveaux de confiance ? Non.
Les valeurs critiques inscrites dans le tableau précédent sont celles associées à
un niveau de probabilité de 0,05 (p = 0,05). On peut s’attendre que ces valeurs
soient vraies pour 95 échantillons sur 100 (19 chances sur 20) et fausses dans 5
% des échantillons.
Lorsque nous ne sommes pas confortables avec ce niveau de probabilité et qu’on
croit qu’il laisse trop de place à l’erreur d’échantillonnage, on fixe un autre
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 15
Donald Long CRDE Université de Moncton
niveau de probabilité. Le tableau 6 inclut les trois niveaux de probabilité les plus
populaires ; une question de tradition, cela va de soi. De nos jours, avec
l’avènement de l’ordinateur, nous obtenons plutôt le niveau de probabilité
exacte pour chacun des tests statistiques effectués.
Tableau 6. Les valeurs critiques pour trois niveaux de signification et
pour des échantillons de trois différentes tailles (Test t)
Taille de l’échantillon
Valeurs critiques
p = 0,05
p = 0,01
p = 0,001
6
2,45
3,71
5,96
25
2,06
2,79
3,73
Plus de 120
1,96
2,58
3,29
Vous remarquez sans doute que si on raffermit la valeur critique en passant de
0,05 à 0,001, il y a moins de chances qu’une différence soit jugée comme
statistiquement significative. Par ailleurs, si la taille de l’échantillon (ou des
groupes) augmente, il y a plus de chances qu’une différence significative soit
jugée comme étant statistiquement significative. Que pouvons-nous conclure ?
5
Le sort d’une hypothèse de recherche tient énormément
à la taille de l’échantillon et
au choix du niveau de signification.
Vous souhaitez à tout prix obtenir des résultats statistiquement significatifs ?
Voilà deux trucs efficaces, n’est-ce pas ? Pas si vite ! Si ces trucs peuvent être
efficaces pour déclarer des résultats comme étant significatifs, est-ce souhaitable
d’adopter une telle approche en recherche ?
?
Au lieu de chercher par tous les moyens à obtenir des résultats
significatifs ou des résultats en accord avec notre hypothèse de
recherche, ne vaudrait-il pas mieux tout faire pour démontrer
que notre hypothèse est fausse ?
Dans ce cas, si elle s’avérait vraie,
nos conclusions gagneraient en fermeté
En scrutant les tables de probabilité, on s’aperçoit vite
que les valeurs critiques ne s’accroissent pas de façon
linéaire avec le nombre d’observations. Le tableau 7
montre les valeurs critiques associées à 6 grandeurs d’échantillon.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 16
Donald Long CRDE Université de Moncton
Tableau 7. Les valeurs critiques pour des échantillons
de six différentes tailles au niveau de signification 0,05 (Test t)
Nombre total d’observations
Valeurs
(taille de l’échantillon)
critiques
5
2,57
10
2,23
15
2,13
20
2,09
25
2,06
30
2,04
Si on augmente la taille de l’échantillon de 5 à 10, la valeur critique diminue de
0,34. Par contre, si on augmente la taille de l’échantillon de 25 à 30, la valeur
critique ne diminue que de 0,02. Par conséquent, il n’y a pas de relation linéaire
entre le nombre total d’observations et la valeur critique que nous pourrions
aussi nommer valeur plancher ou valeur minimum.
Comment ce manque de linéarité peut-il affecter les résultats d’une recherche ?
Une importante différence a été constatée entre deux moyennes. Mais, si
l’échantillon est restreint, cette différence réelle pourra ne pas être
statistiquement significative.
Ou encore. Si votre échantillon est considérable, une différence plutôt modérée
pourrait être déclarée statistiquement significative.
À cause de cette déficience inhérente aux tables de probabilité, les
chercheurs ajoutent un indicateur descriptif pour mieux décrire leurs
résultats : la variance expliquée. Cet indicateur ne remplace pas un test
d’hypothèse, cependant.
8. La variance expliquée : une formule magique !
À cause de l’importance de la notion de variance,
je me permets quelques lignes sur le sujet.
Dans le présent site Internet, j’ai déjà élaboré un module
sur le sujet. Je vous prie de le consulter.
La variance partagée ou expliquée n’est pas une nouvelle notion en statistique.
On lui reconnaît davantage ses vertus. Elle gagne en popularité, si bien que
plusieurs chercheuses et chercheurs accordent moins d’importance au niveau de
probabilité qui servait jadis à trancher bien des décisions en science et dans la
recherche en général à cause des particularités inhérentes aux tables de
probabilité.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 17
Donald Long CRDE Université de Moncton
Il semble que la plupart des phénomènes que nous mesurons sont caractérisés
par des variations, de là l’appellation variable. De plus, une variable influence
et est influencée par d’autres variables, en règle générale. Une variable peut
aussi bien être qualifiée de variable dépendante que de variable indépendante
dépendamment de l’objectif poursuivi.
Les variations que nous observons sont, pour la plupart, régulières ou
systématiques. En fait, sans cette régularité dans les variations et dans les
interactions de variables, ce serait le chaos. Or, si une variable est chaotique, on
ne peut la prédire. Il n’y a pas d’intérêt véritable à étudier un phénomène qui
dépend du hasard.
Allons jouer dans l’traffic ! La circulation des véhicules dans
une ville augmente à certaines heures de la journée, si bien
qu’on parle des heures de pointe. Cette augmentation de
circulation est régulière durant les journées de la semaine.
Voici d’autres exemples. Les passants n’entrent pas tous dans un
magasin ; il va sans dire que certains facteurs agissent
différemment sur les consommateurs. Les élèves de 7e année
n’ont pas tous la même note à l’examen ; on peut alléguer que ce
résultat est conditionné par divers facteurs qui, eux également,
varient entre les élèves. Le nombre d’années d’expérience dans une institution
fait varier l’attitude des employés envers les conditions de travail. Certaines
variations sont donc prévisibles à un certain degré justement à cause d’une
certaine régularité.
Un exemple de variations irrégulières ou imprévisibles serait la
loterie. La sortie d’une boule particulière est déterminée par le
hasard. Pour s’en convaincre, il s’agit de vérifier si (après un
nombre infini de tirages…) la probabilité associée à chaque
numéro est la même. Comme la sortie d’une boule ne dépend pas des autres
boules, la probabilité que chacune d’elles passe par la sortie est égale pour
chacune des boules. Ces variations sont donc imprévisibles.
Les variations à l’intérieur d’une variable se mesurent en calculant la différence
entre chaque score de la distribution et la moyenne de cette distribution. Une
fois que nous obtenons ce score déviation qui représente, en fait, une moyenne
de tous les écarts à la moyenne, nous l’élevons au carré pour obtenir la
variance totale de la variable.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 18
Donald Long CRDE Université de Moncton
?
Pourquoi doit-on élever au carré l’écart type ?
Réponse : Sans cela, la somme des scores négatifs équivaudrait à la
somme des scores positifs : la somme serait toujours égale à zéro.
Vous pourriez calculer, pour tous les étudiants de votre classe, la
distance entre le campus universitaire et leur lieu respectif d’habitation.
La moyenne de ces distances serait, en fait, l’écart type.
Par conséquent, il existe une variance pour chaque variable et il peut exister,
aussi, une variance partagée entre des variables.
Les variations entre plusieurs variables peuvent être régulières au point où une
variation dans une variable est associée à une variation similaire dans une autre.
Que veut-on dire par variations régulières ? Simplement, la position d’un
individu sur une variable est conditionnée par sa position sur une autre
variable.
Dans le cas où la plupart des individus obtiennent un score de même taille sur
les deux variables (variables A et B), on obtiendra une corrélation positive.
Aussi, il est possible d’obtenir une corrélation négative ou inverse entre deux
variables (variables A et C, B et C) lorsque la plupart des individus obtiennent
un score inverse sur une variable par rapport à leur score sur une autre variable.
Enfin, l’absence de relation entre deux variables est visible dans les trois cas
suivants (A et B, B et D, C et D) : le score obtenu sur une variable n’est pas
conditionné par le score sur une autre variable. Le tableau 8 montre les 4
distributions auxquelles nous venons de faire allusion, tandis que le tableau 9
montre les coefficients de corrélation obtenus entre les 4 variables fictives.
Tableau 8. Valeurs descriptives associées à
quatre variables fictives
Cas
A
B
C
D
1
41
4
45
24
2
38
7
49
23
3
8
55
37
44
4
39
9
50
21
5
68
29
48
12
6
21
71
46
23
7
19
74
36
26
8
23
77
15
19
Moyenne
12,88
61,13
28,75
34,88
Écart type
7,16
12,71
9,21
11,39
Somme
103
489
230
279
Variance
51,27
161,55
84,79
129,84
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 19
Donald Long CRDE Université de Moncton
Dans le tableau 8, les scores en dessous de la moyenne ont été placés en
caractères gras. Nous tenons à faire une distinction des scores à partir de la
moyenne. Pourquoi ? Le calcul de l’écart type s’obtient en élevant au carré les
scores déviation. Mais qu’est-ce donc que l’écart type ? Il est calculé en
soustrayant chaque score de la moyenne, pour ensuite élever cette différence au
carré.
Faisons un petit calcul à travers le cas où l’individu 4 et son score à la variable
C. En soustrayant son score de 21 à la moyenne de la distribution, on obtient une
différence de -7,75. Ce score s’écarte donc de 7,75 de la moyenne de sa
distribution (28,75). Il contribue moins à la variance de cette distribution que le
score de 41, mais contribue davantage que le score 15. Aussi, l’écart type
s’agrandit, il va de soi, sous l’impulsion de scores éloignés de la moyenne.
On constate, d’emblée, que la variance d’une simple variable est simplement le
résultat de l’écart type élevé au carré (variable A : 7,16 x 7,16 = 51,27).
A
B
C
D
?
Tableau 9. Les coefficients de corrélation calculés
entre les variables du tableau 4
A
B
C
D
1
,94 **
-,82 *
,05
1
-,71 *
,18
1
-,062
1
** La corrélation est significative au niveau 0,01
* La corrélation est significative au niveau 0,05
Que représente la variance partagée
lorsqu’il s’agit de deux variables ?
Le coefficient de corrélation représente le degré d’association entre deux
variables à cause de sa méthode de calcul. Si on élève au carré ce coefficient, on
obtient le coefficient de détermination ou le pourcentage de variance partagée,
c’est-à-dire la variance partagée par les deux variables en question. On peut
aussi parler de la variance d’une variable expliquée par la variance d’une autre
variable.
La corrélation entre la variable A et C est de -,82. La variance partagée par ces
deux variables est donc de : (-,82)2 = ,67 x 100 = 67 %. Il y a donc 33 % de
variance que ces deux variables ne partagent pas. Comment cela s’explique-t-il ?
D’abord, retenons que les deux variables sont en relation inverse, ce qui
n’influence pas le pourcentage de variance.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 20
Donald Long CRDE Université de Moncton
Pour une relation inverse parfaite, ou un coefficient
de corrélation égal à -1 ou presque, pour chaque cas,
tous les scores sur une variable en bas de la moyenne
doivent correspondre aux scores en haut de la
moyenne sur l’autre variable.
On voit que, pour la variable A, 5 scores se situent en bas de la moyenne, alors
que pour la variable C, 4 scores se retrouvent au-dessus de la moyenne. La
relation inverse n’est pas aussi parfaite que si les deux variables avaient eu le
même nombre de cas où les scores sur les deux distributions auraient été situés
en bas et en haut de leur moyenne respective. Le même raisonnement s’applique
dans le cas d’une corrélation positive.
On peut conclure en affirmant que, dans une relation positive entre deux
variables, la variance expliquée ou partagée par les deux variables augmente
lorsque, pour chaque cas, les scores sur les deux variables se retrouvent du
même côté de la moyenne. On peut tout aussi bien conclure que, dans une
relation négative entre deux variables, la variance expliquée par les deux
variables augmente lorsque, pour chaque cas, les scores sur une variable sont en
haut de la moyenne sur une variable et en bas de la moyenne sur l’autre variable.
☻La variance partagée augmente davantage
lorsque chaque score de la paire occupe le même
rang sur chacune des deux variables :
voilà le s e c r e t de la corrélation !
Réfléchissons
1
2
3
4
5
Le nombre de cas dans une analyse n’influence pas le calcul de la variance expliquée.
La variance expliquée découle d’une relation entre deux variables.
Les distributions doivent être le plus normales possible entre elles : si l’une des deux
distributions est sévèrement irrégulière, le coefficient de corrélation sera lourdement
affecté.
À cet effet, on doit éviter d’écourter une distribution en formant des catégories. Une
variable dont les valeurs sont regroupées en quelques catégories et mise en corrélation
avec une autre variable verra son coefficient diminué par rapport à sa distribution
originale.
Un effort particulier doit être fait pour dénicher les scores extrêmes et réduire leur
influence. Un score extrême influence le calcul de la moyenne. Or, la variance découle
de la comparaison des scores avec la moyenne. Une moyenne affectée par un score au
détriment des autres affecte le coefficient de corrélation.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 21
Donald Long CRDE Université de Moncton
Les variables à l’étude n’ont pas besoin d’être sur la même échelle de mesure. Par
exemple, le niveau d’éducation croisé avec le salaire. De par sa nature, le coefficient de
corrélation comporte une standardisation des variables.
7 Une échelle de mesure plus longue ne se traduit pas, ipso facto, par une augmentation
automatique du degré de relation entre des variables.
8 Le pourcentage de variance expliquée est un indice qui peut servir à comparer des
résultats provenant d’études différentes.
9 Tout coefficient de corrélation se traduit en variance expliquée.
10 Le pourcentage de variance expliquée est une mesure relative, cependant. Rien
n’indique qu’un pourcentage de valeur x soit considérable ou insignifiant.
De
nombreuses analyses statistiques utilisent le coefficient de corrélation comme
11
énergie vitale (par ex. la régression multiple, l’analyse factorielle, la corrélation
canonique, l’analyse des pistes causales et l’analyse discriminante). Ces analyses, et
d’autres, génèrent aussi de l’information quant à la variance expliquée.
6
6
La plupart des analyses statistiques visent à mesurer les
variations entre des variables. La variance constitue un
indicateur crucial et efficace de la relation fonctionnelle
qui peut exister entre des variables.
?
La plupart des analyses statistiques mesurent-elles une association ou une
différence entre deux ou plusieurs variables ?
9. La fonction principale de la majorité des analyses statistiques
En 2003, Onwuegbuzie et Daniel ont écrit: With respect to quantitative research
methodologies, perhaps the most common analytical/interpretational error
stems from a failure to realize that all parametric analyses (i.e., univariate and
multivariate techniques), with the exception of predictive discriminant analyses,
are subsumed by a general linear model (GLM), and that, consequently, all
analyses are correlationnal (Cohen, 1968; Henson, 2000; Knapp, 1978; Roberts
& Henson, 2002; Thompson, 1998a).
7
Il s’agit de réviser un manuel de tests statistiques
pour réaliser que la plupart des tests cherchent à mesurer
à quel point deux ou plusieurs variables
sont reliées entre elles.
On serait porter à croire, par exemple, qu’un test portant sur les fréquences, tel
le chi carré, existe simplement pour déterminer une différence entre deux
fréquences, chacune associée à une variable ou à une section d’une distribution.
Nous nous en servons plus souvent, cependant, pour déterminer si deux
variables dichotomiques, ou même ordinales, interagissent.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 22
Donald Long CRDE Université de Moncton
Un exemple fictif est présenté dans le tableau 10 qui suit. Nous voulons savoir si
le même nombre d’élèves de 10e, 11e et 12e année utilisent un ordinateur à la
maison pour réaliser leurs travaux scolaires.
Nous voyons que l’utilisation de l’ordinateur varie d’une année à l’autre. En fait,
le fait d’appartenir à une année scolaire plutôt qu’à une autre influe sur le
nombre d’utilisateurs de l’ordinateur. On ne cherche pas, ici, à savoir si les
élèves utilisent tous au même degré l’ordinateur. On souhaite plutôt compter les
têtes de pipe : combien d’élèves utilisent ou n’utilisent pas l’ordinateur ?
Tableau 10. Pourcentage des élèves de 10e, 11e et 12e année
qui utilisent ou n’utilisent pas l’ordinateur pour leurs devoirs
Année scolaire
Utilisation de l’ordinateur
Oui
Non
10e année
18 %
82 %
11e année
29 %
71 %
12e année
43 %
57 %
Ce faisant, s’il y a une interaction significative (chi carré significatif), il y a
donc une association entre l’année scolaire et l’utilisation de l’ordinateur. Dans
ce cas-ci, à mesure qu’on avance en année scolaire, de plus en plus d’élèves
utilisent l’ordinateur. Ce test, par conséquent, fait davantage que comparer deux
états d’une chose (utilisent ou n’utilisent pas) ; il indique si les deux variables
sont associées ou non.
On aurait pu simplement exécuter trois tests du chi carré non paramétriques
indépendants l’un de l’autre afin de comparer les deux états d’utilisation, un test
pour chacune des trois années scolaires. En procédant ainsi, nous ne pourrions
déterminer s’il existe ou non un lien entre les deux variables.
En y réfléchissant davantage, même dans le cas du chi carré ou on désire
mesurer une différence entre deux quantités (fréquences), nous devons admettre
que si nous faisons cette comparaison entre deux choses, nous prétendons que
ces deux choses peuvent être associées d’une quelconque façon. Je m’explique,
sans trop tirer la chose par les cheveux...
Comme la majorité des tests statistiques portent sur des variables ordinales, à
intervalles et de proportion, plutôt que nominale comme nous venons de le voir,
nous sommes en droit de nous interroger sur ce que tous ces tests cherchent à
établir en bout de ligne : une relation ou une différence entre des variables ?
Le Test t compare deux moyennes. On compare deux moyennes obtenues par
un même groupe d’individus quant à deux variables. Ou bien. On compare la
moyenne obtenue par deux groupes sur une seule variable. Ces variables doivent
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 23
Donald Long CRDE Université de Moncton
être de nature continue : à intervalles ou de proportion. Le Test t ne fait rien
pour établir une relation entre deux variables : il permet de rejeter ou d’accepter
qu’une différence entre deux moyennes soit attribuée au hasard de
l’échantillonnage. Vous avez compris qu’il existe deux différents Test t…
Pourtant, en y réfléchissant davantage, lorsqu’on compare deux groupes entre
eux quant à une moyenne, il sous-entend une relation quelconque. Par exemple,
si je compare les avocates et les avocats quant à leur salaire, je sous-entends
qu’il y a une relation entre le genre et le salaire, n’est-ce pas ?
Pour ce qui est du Test F de la famille de l’analyse de la variance, il est clair
qu’il s’agit non seulement de comparer des quantités, mais aussi de mesurer une
relation. D’ailleurs, les logiciels d’analyses statistiques modernes calculent le
montant de variance expliquée par la variable ou les variables indépendantes
introduites dans une analyse de variance univariée ou multivariée.
Plusieurs analyses statistiques nécessitent une matrice de corrélations ou un
coefficient de corrélation pour démarrer. L’analyse factorielle, par exemple,
débute ses opérations à partir d’une matrice de coefficients de corrélation. La
régression multiple et la corrélation canonique ont besoin elles aussi de
coefficients pour mettre en branle une série de calculs. L’analyse discriminante
est connue comme l’analyse réciproque de l’analyse de variance. Cependant, la
variable dépendante de cette analyse représente des catégories indépendantes les
unes des autres. Par contre, les coefficients inhérents à cette analyse sont
calculés à partir de corrélations entre les variables indépendantes.
De toute évidence, l’analyse des pistes causales, si populaires dans la
vérification de modèles conceptuels, est fondée sur des coefficients de
corrélation.
Vous pouvez continuer cette recherche de tests statistiques qui ne sont pas reliés
à une mesure quelconque de relation entre deux ou plusieurs variables. Vous ne
trouverez que quelques cas isolés tels que le Test t visant une paire de variables
(paired t Test) portant sur deux variables et l’analyse discriminante.
L’important, c’est de constater que, la plupart du temps, la recherche consiste à
mesurer des liens existants entre des variables. Le plus souvent ces variables
font partie d’un ensemble conceptuel que nous appelons cadre conceptuel.
Si la majorité des tests statistiques ont été conçus pour répondre aux besoins des
chercheuses et des chercheurs, c’est à croire que la majorité de leurs besoins
porte sur des questions relatives à des relations entre variables. Vous pouvez
aussi éplucher des revues scientifiques afin de trouver des expériences qui ne
portent pas sur des relations entre variables ou sur la formule fondamentale
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 24
Donald Long CRDE Université de Moncton
suivante qu’on retrouve dans l’introduction de manuels de recherche et de
statistiques :
y = f(x)
10. Le caractère additif (ou non additif) des variables
et les pièges de la recherche
Nous avons effleuré le sujet dans l’introduction de ce présent document. Nous
allons maintenant l’approfondir quelque peu. Une recherche comporte
généralement plusieurs variables qui peuvent être regroupées selon divers
critères. Par exemple, on retrouve souvent des variables qui mesurent des
caractéristiques importantes de l’échantillon : genre, âge, statut civil, nombre
d’années d’expérience dans un domaine, niveau d’éducation formelle,
profession exercée, et d’autres. Par surcroît, d’autres parties porteront sur des
variables dites dépendantes. Souvent, on vise à établir des liens fonctionnels
entre les variables indépendantes et les variables dépendantes.
La description de chacune des variables peut laisser croire
que les résultats que nous constatons sont additifs,
cumulatifs. Le rapport de recherche fait état de moyennes
et de pourcentages calculés pour les variables étudiées. Il ne faut pas croire,
cependant, que toutes ces variables sont liées entre elles et qu’il y a des liens
particuliers entre certaines.
Chacune des variables
est indépendante des autres
avant de démontrer le contraire,
même si toutes ces variables ont été mesurées
auprès du même échantillon.
Par exemple, 63 % de l’échantillon se compose de filles ; le salaire moyen
s’élève à 18 000 $ ; le niveau d’éducation équivaut à la 10e année académique ;
76 % sont mariés ou vivent ensemble ; leur satisfaction au travail atteint le
niveau 3 sur une échelle de 5 ; la moyenne d’âge de leurs enfants est 3,5 ans, et
ainsi de suite. La tentation est forte de prêter des relations gratuites à ces
variables. Puisque les filles sont plus nombreuses dans l’échantillon, on ne peut
prétendre d’emblée que les résultats aux autres variables dépendent de leur forte
présence dans l’échantillon. Rien ne nous dit que le niveau de satisfaction au
travail serait plus élevé si les garçons étaient autant nombreux que les filles.
Rien ne nous indique non plus que les filles de cet échantillon reçoivent un
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 25
Donald Long CRDE Université de Moncton
salaire moindre que les garçons et qu’elles sont moins instruites. Ce serait une
affirmation sans fondement.
Certes, si l’échantillon se compose de 95 % de filles, il est permis de prédire
avec assez de précision les valeurs qu’elles obtiennent sur les autres variables.
Bien souvent, les variables interagissent entre elles. Cette interaction est difficile
à découvrir en se basant uniquement sur la valeur de tendance centrale d’une
variable, la moyenne par exemple. L’exemple fictif suivant vous en fait la
démonstration. N’allez pas croire qu’une telle situation est plutôt rare en
recherche ; elle est plutôt fréquente.
Reprenons notre exemple précédent. La moyenne de satisfaction de l’échantillon
se situe à 3 sur une échelle de 5. En décortiquant les deux variables genre et
satisfaction au travail voici ce qu’on trouve :
Tableau 12. Pourcentage de filles et de garçons à chacun des niveaux
de satisfaction envers leur travail
Genre
Satisfaction au travail
1
2
3
4
6%
11 %
23 %
28 %
Filles
19 %
31 %
28 %
12 %
Garçons
5
32 %
10 %
En fait, la satisfaction moyenne au travail résulte surtout d’une satisfaction plus
grande chez les filles et d’une insatisfaction plus grande chez les garçons. C’est
justement dans un tel cas qu’on parle d’interaction entre des variables : la
valeur à une variable dépend de la valeur à une autre variable. On voit bien
dans le tableau 12 que la moyenne de satisfaction chez les filles autant que chez
les garçons ne représente pas très bien l’ensemble de la distribution ; à peine le
quart de chacun de ces groupes se dit effectivement satisfait au travail.
Une série d’analyses univariées ont été exécutées sur les
données. Par exemple, les filles et les garçons ont été
comparés entre eux quant à plusieurs variables de votre
recherche. On trouve, entre autres, que les filles sont plus satisfaites de leur
travail, que leur salaire est moins élevé, qu’elles sont plus instruites, qu’elles
ressentent moins de stress, qu’elles lisent plus de romans, et d’autres.
Comme dans l’exemple précédent, on ne sait rien sur la relation entre les
variables dépendantes. Il ne faudrait donc pas laisser croire dans l’interprétation
des résultats que les filles qui sont plus satisfaites de leur travail sont les mêmes
que celles dont le salaire est moins élevé, sont plus instruites, lisent plus de
romans et sont moins stressées. Rien n’indique que toutes ces variables soient
fortement reliées entre elles.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 26
Donald Long CRDE Université de Moncton
Plusieurs analyses univariées ne remplacent
pas une analyse multivariée !
L’inverse est davantage vrai.
Dans l’exemple qui nous intéresse, nous pourrions le prétendre si la corrélation
entre toutes ces variables dépendantes était parfaite. Si A = C, et B = C, par
conséquent, A = C.
En exécutant une seule analyse de variance multivariée qui intègre toutes les
variables qui ont fait l’objet d’une analyse univariée, plus souvent qu’autrement,
les résultats dressent un portrait différent. Il est d’autant plus différent, si les
variables dépendantes entretiennent entre elles des corrélations positives, des
corrélations négatives.
Le pourcentage de variance expliquée par les variables indépendantes
introduites dans une analyse multivariée sera moindre que la somme des
pourcentages de variance expliquée considérant toutes les analyses
univariées.
11. Les instruments de mesure dits valides et fidèles
La plupart du temps, les outils de mesure sont validés auprès d’échantillons
représentatifs. Par exemple, un instrument d’attitude envers la pédagogie a été
validé auprès des enseignantes et des enseignants d’une province entière. Tout a
été mis en œuvre pour évaluer la qualité psychométrique de l’instrument.
Par après, un chercheur décide de l’utiliser auprès des étudiantes et
des étudiants d’une faculté d’éducation. L’instrument est valide
dans la population générale des enseignantes et des enseignants. Le
sera-t-il autant pour un sous-groupe spécifique et qui, par surcroît, ne faisait pas
partie du contingent de validation ? Même s’il était utilisé auprès des
enseignantes et des enseignants du primaire seulement, il est possible que la
validité ne tienne pas le coup. Pourquoi ?
En général, diverses techniques statistiques servent à valider un instrument.
Entre autres, l’analyse factorielle joue un grand rôle pour mener à bien cette
tâche. Elle opère en fonction des corrélations existantes entre les variables. Ces
corrélations varient selon la nature de l’échantillon ; parfois peu, parfois
beaucoup. Du moins, plus on restreint l’échantillon à un sous-groupe de la
population, plus on risque de réduire la variabilité, donc la corrélation entre
les variables.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 27
Donald Long CRDE Université de Moncton
Par exemple, une validation auprès des enseignants du primaire pourrait révéler
une structure factorielle quelque peu différente de celle faite auprès des
enseignants du secondaire. Lorsque les deux groupes sont réunis, on obtient une
structure factorielle moyenne, dans le sens qu’elle est le résultat de la fusion des
deux groupes. Cette troisième analyse factorielle pourrait comporter des
différences par rapport aux deux autres. Laquelle des trois doit-on considérer
comme la bonne ? Tout dépend ! L’utilisation aveugle d’un test déjà validé est
une pratique courante qui doit être révisée selon le APA Task Force (1999).
Si votre intention est de généraliser à tout le personnel enseignant,
le choix est clair. Par contre, lorsqu’il s’agit d’un sous-groupe, il y
a des avantages à cerner des facteurs stables et clairement définis
dans cette population. Surtout si vous êtes intéressés, avant tout, à
connaître davantage un sous-groupe plutôt que de généraliser vos résultats à la
population. Il n’y a pas grand intérêt à obtenir des résultats provenant d’un outil
où les concepts ne sont pas clairement perçus chez les participants.
Un test dit valide peut ne pas être fiable à travers divers
échantillons. Cet état de choses peut survenir lorsque la
validation a eu lieu sur la population et que l’instrument
sert ensuite auprès d’un échantillon.
C’est toujours risqué de faire des analyses statistiques avec un nombre réduit de
sujets, si représentatifs soient-ils. Il vaut mieux profiter d’un grand nombre de
sujets que de souffrir d’un petit nombre. Ce qui me fait croire que :
8
More is better !
(le plus possible, c’est mieux)
12. Ces chers sujets volontaires
À cause de diverses restrictions, on doit souvent faire appel à des volontaires
pour mener une expérience. Cette façon de choisir des sujets pour une
expérience comporte des risques évidents. Les volontaires sont souvent attirés
par le sujet de la recherche : le stress, la dépression, la sexualité, et d’autres. Si
leur intérêt pour le sujet s’accompagne d’une formation particulière dans le
domaine ou s’ils sont affectés par le sujet de telle sorte qu’ils ébranlent la
représentativité de votre échantillon, il vaut mieux prendre des dispositions pour
les identifier, les écarter de l’expérience ou simplement en tenir compte lors des
analyses statistiques.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 28
Donald Long CRDE Université de Moncton
L’élimination de sujets n’est pas toujours souhaitable, surtout
s’ils ajoutent une variabilité précieuse. Par exemple, si votre
sujet de recherche porte sur l’utilisation de l’ordinateur à la
maison par les jeunes de 12 à 18 ans, il est évident que certains
d’entre eux auront des compétences raffinées dans le domaine
et que d’autres (ou les mêmes…) en feront un usage abondant, excessif par
rapport à la majorité.
À bien des variables, leurs scores apparaîtront comme extrêmes et à eux seuls
déplaceront les valeurs de tendance centrale, en particulier. Une transformation
de scores pourrait suffire, les ramenant plus près du centre de la distribution
(tout en faisant reculer le centre…..). Ce pourrait même être indispensable
d’appliquer une transformation pour éviter à tout prix d’éliminer des individus !
Ces individus méritent d’être retenus dans les analyses statistiques, d’abord,
parce qu’ils font partie de cette population. Ensuite, parce qu’ils vivent à leur
façon cette réalité moderne. La situation serait différente si les scores extrêmes
étaient ceux appartenant à des individus qui ignorent le sujet de recherche. Par
conséquent, lors des analyses d’un tel fichier, on doit autant se préoccuper des
individus ne présentant que des scores faibles que ceux ne présentant que des
scores élevés. Éliminer les scores extrêmes de chaque côté de la distribution
serait dommageable. Il ne faut surtout pas oublier, dans ce cas, que les individus
compétents dans le sujet de recherche sont préférables à conserver que les autres
incompétents. Si vous souhaitez mesurer la relation entre la fréquence
d’utilisation de l’ordinateur et les motifs de l’utilisation, la recommandation cidessus prend tout son sens.
Si votre objectif consiste à décortiquer un phénomène
quelconque (par ex. l’utilisation de l’ordinateur par les
adolescents) dans le simple but de connaître sa dynamique
interne, et que vous n’espérez pas généraliser vos résultats à
cette population, il s’agira pour vous de rejoindre le plus
grand nombre possible d’individus, nonobstant la méthode d’échantillonnage.
Vous êtes davantage intéressé au phénomène qu’à la généralisation statistique.
Pour mener sa recherche, le chercheur fait appel à des
volontaires à la faculté des sciences infirmières sur un
campus universitaire. Il n’est guère surpris que plus de 90
% des répondantes soient des filles. Ce qui serait surprenant, c’est que le
chercheur vise à établir une différence entre les filles et les garçons quant à
certaines variables, peu importe les variables. L’exemple est percutant. Pourtant,
bien des recherches sont conduites à partir d’un échantillonnage déficient.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 29
Donald Long CRDE Université de Moncton
Dans l’exemple précédent, les étudiants choisis ne représentent pas la population
totale d’étudiants universitaires; ils en font partie seulement. Les filles sont trop
nombreuses par rapport aux garçons. Enfin, le choix n’a pas été fait au hasard.
Les résultats représentent davantage, vous en conviendrez, les étudiantes
infirmières que l’ensemble des étudiants universitaires.
Voici pourquoi. Le chercheur a réduit la variabilité de l’échantillon en
choisissant des individus dans un contexte homogène : âge, niveau d’éducation
et genre. Il aurait mieux valu étudier la population de filles seulement dans cette
faculté. Ainsi, il aurait pu plus aisément généraliser ses résultats à ce segment de
la population.
Hopkins (2000) a soulevé cette difficulté courante et offre une solution. In all
studies, subject characteristics can affect the relationship you are investigating.
Limit their effect either by using a less heterogeneous sample of subjects or
preferably by measuring the characteristics and including them in the analysis.
Bien des recherches mettent en garde le lecteur
contre des biais sérieux de leur échantillonnage.
Pourtant, tout se déroule (analyse et interprétation), par la
suite, comme si l’échantillon était représentatif.
Que doit-on penser des résultats !
13. À la recherche d’un profil stable
On pourrait croire qu’un échantillon aléatoire tiré selon les règles de l’art
améliore les relations entre les variables et permet de dégager des profils stables
de réponse. Un échantillon aléatoire assure une généralisation des résultats,
une similitude entre un échantillon et la population comme telle.
9
Un échantillon aléatoire conçu en bonne et due
forme n’améliore pas nécessairement le taux de
variance expliquée entre des variables
Vous cherchez des relations stables entre des variables ?
Vous l’obtiendrez plus aisément auprès d’un groupe
homogène qu’auprès de la population en général. La
population générale est fort hétérogène. Pour s’en
convaincre, il s’agit d’exécuter la même analyse sur divers sous-groupes d’un
échantillon de taille assez considérable pour permettre une telle technique
d’analyse.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 30
Donald Long CRDE Université de Moncton
L’analyse factorielle est sensible aux relations entre variables. Les autres
analyses multivariées aussi, d’ailleurs. Il est informatif de comparer les
résultats d’une analyse factorielle sur l’échantillon au complet à ceux obtenus
sur divers sous-groupes de ce même échantillon, pourvu que votre échantillon
soit de grande taille. Onwuegbuzie & Daniel (2003) recommandent que
l’échantillon permette au moins 5 individus par variable entrée dans l’analyse
factorielle. Que peut-on retirer d’une telle comparaison ?
Dans la plupart des recherches, nous souhaitons cerner des concepts qui ne sont
pas des girouettes et qui ont plutôt une signification uniforme à travers divers
sous-groupes. Par surcroît, nous désirons que ces concepts entretiennent
entre eux des relations stables. Nielsen (2004) nous met en garde lorsqu’il
s’agit d’un nombre considérable de variables à étudier : If you measure enough
variables, you will inevitably discover that some seem to correlate.
Quelques résultats statistiquement significatifs peuvent
être dus au hasard. Lorsque d’innombrables tests
statistiques sont exécutés sur des données, il est possible
que certains résultats significatifs, surtout s’ils sont mitigés, soient attribuables
au hasard.
Vous savez que tout résultat statistique est ramené à une table de probabilité.
Ces tables, bien que constituées de chiffres précis, sont purement arbitraires.
Nous les acceptons par convention. Elles ne représentent pas une réalité étanche
et immuable. Elles sont un critère de référence représentant des probabilités.
Si 100 analyses statistiques sont exécutées sur un ensemble de données, on peut
soutenir que 5 % d’entre elles déboucheront sur des résultats significatifs parce
que ces résultats sont évalués en fonction de tables de probabilité.
Il est plus réaliste de scruter les données à la recherche de tendances fermes, de
grandes différences, de fortes relations qui s’inscrivent dans le cadre
conceptuel prévu à cet effet.
10
Des résultats significatifs çà et là dans une recherche
peuvent être attribuables au hasard.
Des résultats vraiment significatifs doivent être
répandus, considérables et orientés systématiquement.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 31
Donald Long CRDE Université de Moncton
Par exemple, votre recherche porte sur les facteurs suivants
associés au stress, facteurs que vous avez clairement identifiés
auprès de la population générale : préoccupations, tension, joie,
attentes des autres, relations sociales et expression des
émotions. L’analyse factorielle globale montre que les
répondantes et les répondants distinguent ces concepts que nous appelons aussi
facteurs. Chacun de ces concepts est défini par plusieurs variables qui se
retrouvent sous le parapluie d’un concept (et non sous un autre) parce qu’elles
entretiennent des corrélations élevées entre elles en même temps que des
corrélations faibles ou nulles avec les autres variables regroupées sous les autres
concepts.
Bref, un facteur représente une famille de variables qui se
ressemblent tout en étant différentes des variables des autres
familles de variables ou facteurs.
Qu’arriverait-il à cette structure factorielle si l’analyse ne portait que sur un
sous-groupe tel que les travailleurs (en éliminant les sans-emploi), les femmes
(en éliminant les hommes), ou les employés (en éliminant les employeurs) ? Les
facteurs qui restent intacts après une opération de ce genre peuvent être
considérés comme des concepts stables (technique dite de cross-validation).
Cette stabilité peut aussi se vérifier en retirant de votre
échantillon plusieurs sous-groupes de façon aléatoire (technique
dite bootstrap). Vous pouvez aussi trancher l’échantillon en
sous-groupes égaux et exécuter la même analyse sur chacun
d’eux (technique dite jacknife).
Les logiciels modernes d’analyses statistiques facilitent cette tâche. Exécutez 10
analyses factorielles sur 10 groupes constitués de 25 % de l’échantillon (avec
remplacement). Bien sûr, vous devez vous assurer d’un nombre suffisant de
sujets afin de rencontrer les exigences minimales de l’analyse factorielle. En
répétant la même analyse, vous aurez une meilleure idée du sort de certaines
variables, celles qui s’accrochent uniquement à un concept et celles qui
s’accrochent à plusieurs concepts. C’est suffisant pour vous inciter à procéder à
un examen plus approfondi de la nature de vos variables.
L’analyse factorielle, ou toute autre analyse multivariée, ne sont réalisables que
s’il existe des corrélations entre des variables. Une corrélation importante
signifie qu’il existe une régularité, une association entre des variables. La façon
de réagir à une conditionne la réaction à l’autre, et ce, pour l’ensemble des
sujets de l’étude. Il est donc tentant et intéressant d’identifier des profils chez
les sujets à l’étude. En fait, nous recherchons généralement ce qui est constant.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 32
Donald Long CRDE Université de Moncton
Le terme constant est mal choisi : il serait préférable de parler de régularité.
Pour démystifier un peu ce que représente un profil régulier, reprenons
l’exemple précédent où l’un des facteurs de stress est la tension. Ce facteur
(concept) fut identifié parce que quelques variables le définissaient. L’analyse
factorielle révèle que ces variables entretiennent une forte relation entre elles.
Voici une représentation graphique qui pourrait vous aider à démystifier tout ce
langage un peu compliqué.
Cinq variables constituent le concept de tension. Puisqu’elles se retrouvent sous
ce facteur, chacune d’elles entretient une corrélation avec le facteur latent.
Supposons que ces corrélations (factor loadings) varient de 0,57 à 0,79. Dans le
tableau 13, la ligne noire dans chaque colonne représente la moyenne à cette
variable. Supposons que cette moyenne va de 0 (pas important) à 5 (très
important).
Vous êtes sans doute surpris que ces variables soient si étroitement associées
même si leurs moyennes diffèrent énormément. Comment peuvent-elles être
associées ? Pour éviter une confusion inutile, je reproduis le tableau 13 pour en
faire le tableau 14 en y ajoutant des informations supplémentaires.
Tableau 13.
V.1
Très important
V.2
Très important
V.3
Très important
V.4
Très important
V.5
Très important
Pas important
Pas important
Pas important
Pas important
Pas important
Pour qu’il y ait une corrélation positive forte entre ces variables, assez pour
constituer un facteur ou un concept stable, la plupart des sujets devront
présenter un profil régulier sur l’ensemble des variables, c'est-à-dire que la
position d’un individu sur une variable est conditionnée par sa position sur
une autre variable.
Par exemple, le sujet représenté par le (■) pourra obtenir des scores au-dessus de
la moyenne à chacune des variables ; le sujet représenté par le (□) obtiendra des
scores en dessous de la moyenne sur chacune des variables. Tous les sujets
n’auront pas un profil aussi parfait. Un troisième sujet représenté par (♠) a
obtenu des scores au-dessus et au-dessous de la moyenne, ce qui diminue la
force de la corrélation bien entendu. Cependant, vous devez vous imaginer que
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 33
Donald Long CRDE Université de Moncton
la plupart des sujets présente un profil qui s’apparente avec ceux du sujet (■) et
du sujet (□).
Tableau 14.
V.1
Très important
V.2
Très important
■
■
♠
V.3
Très important
V.4
Très important
V.5
Très important
■
■
□
♠
♠
□
♠
□
□
Pas important
Pas important
Pas important
Pas important
(Amusez-vous à relier chacun des 3 symboles)
♠
■
□
Pas important
Si vous êtes toujours confus, c’est que vous croyez peutêtre qu’une corrélation positive signifie que les variables
associées ensemble ont une moyenne élevée, et qu’on
obtient une corrélation négative lorsque la moyenne est faible à toutes les
variables. Pas du tout !!!!
Il est même possible d’obtenir un facteur stable entre 5 variables dont 3
entretiennent une corrélation positive avec le facteur, tandis que les 2 autres sont
en relation inverse, négative. Dans un tel cas, des scores au-dessus de la
moyenne sur 3 variables s’accompagnent (dans la plupart des cas…) de scores
au-dessous de la moyenne sur les 2 autres.
J’ai introduit la moyenne dans chacune des colonnes pour justement montrer que
ce n’est pas la taille de la moyenne qui compte, mais la position que chaque
sujet occupe par rapport à cette moyenne, et ce, pour chacune des variables.
On parle de profil régulier si la plupart des sujets se comportent de façon
régulière par rapport à la moyenne de la variable, et non à cause de la taille
de chacun de leurs scores. La corrélation, je crois, se comprend mieux en
l’illustrant comme la position qu’occupe un sujet sur diverses variables plutôt
que comme une grandeur de score. Tout est décidé en fonction de la position du
sujet par rapport à la moyenne à deux ou plusieurs variables.
Vous désirez saisir davantage la vraie nature de la corrélation et de la variance,
je vous réfère au module sur la variance que vous trouverez sur le présent site
Internet. Construisez un fichier de données d’une dizaine de sujets. Calculez le
coefficient de corrélation en vous servant d’un logiciel courant tel qu’Excel.
Ensuite, déplacez peu à peu les valeurs d’une variable. Après chaque
déplacement, calculez à nouveau le coefficient de corrélation.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 34
Donald Long CRDE Université de Moncton
Mieux encore, prenez le temps de calculer avec votre calculatrice
(enfouie au fond de votre tiroir…) un coefficient de corrélation. Cet
exercice finit par s’imposer de lui-même, lorsqu’on tient mordicus à
comprendre ce test statistique.
Mais, c’est bien plus qu’un test statistique. Les résultats issus de la
corrélation servent à alimenter un très grand nombre d’autres analyses
statistiques, surtout les multivariées.
?
Est-il possible que 4 variables soient positivement reliées entre elles,
mais que l’une de ces variables ait une moyenne très faible par
rapport aux 3 autres ?
11
Les individus sont uniques. La science du
comportement nous montre que les individus
partagent, néanmoins, des traits communs que nous
pouvons identifiés assez bien.
En fait, ce que nous mesurons de commun aux individus peut être le résultat de
facteurs extérieurs. Des individus vivant dans un environnement particulier
finissent par posséder en commun des caractéristiques : l’environnement
façonne l’individu. Si les individus possédaient énormément plus de différences
que de similitudes, la science du comportement tiendrait par un fil et n’aurait pas
sa raison d’être actuelle.
14. La variable dépendante : le pivot de la recherche
Une recherche porte généralement sur une question. On formule donc une
hypothèse. À la rigueur, une seule analyse devrait suffire : après tout, on
cherche une réponse à une question, et non plusieurs réponses ! Une caricature
simpliste, me direz-vous.
Une recherche valable et valide peut fort bien être bâtie sur un seul pilier. Si,
une hypothèse suffit à lancer une recherche, une seule analyse englobante et
pertinente devrait suffire. Il est vrai que, pour démontrer la véracité d’une
hypothèse, diverses analyses peuvent souvent être nécessaires. Mais,
Lorsqu’on emploie plusieurs analyses univariées dans
l’espoir de remplacer une seule analyse multivariée que
nous ne savons pas comment appliquer, il n’est pas
surprenant de voir autant d’analyses statistiques dans un projet de recherche.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 35
Donald Long CRDE Université de Moncton
Lorsqu’on tente de répondre à des questions qui
surgissent au cours de l’étape d’analyse, il n’est guère
surprenant non plus de voir apparaître des tests
statistiques un peu à l’impromptu. Dans ce cas, d’autres hypothèses auraient dû
être ajoutées.
Lorsqu’on décide d’explorer spontanément un aspect
quelconque des données, doit-on se surprendre si les tests
statistiques s’entassent les uns sur les autres de façon
désordonnée. Rien n’empêche le chercheur d’explorer diverses facettes de ses
données même si cette exploration n’a pas été annoncée dans sa problématique.
Au contraire. Les résultats de cette exploration n’ont peut-être pas besoin d’être
étalés dans son rapport de recherche.
?
Quoi faire et quoi ne pas faire ?
Voilà la question…
À lire les hypothèses de recherche, on comprend vite qu’elles portent sur une
différence ou une association quelconque. L’hypothèse établit des liens
fonctionnels en même temps qu’elle oriente les analyses statistiques. Lorsque
plusieurs hypothèses sont formulées, on s’attend à ce que des analyses séparées
soient exécutées. La multiplication des analyses n’est pas une surprise à ce
moment-là, car elles découlent d’une prédiction.
L’hypothèse la plus simple comprend une relation quelconque entre une variable
indépendante et une variable dépendante. Par exemple, les hommes ont un
niveau de stress plus élevé que celui des femmes tel que mesuré par un test
comprenant 5 concepts associés au stress. Dans ce cas-ci, on cherche à établir
une différence. Au fond, on cherche aussi à établir une relation entre le genre et
le stress.
Le nombre de variables indépendantes est généralement plus nombreux,
cependant. Le nombre de variables dépendantes, lui, est maintenu au minimum.
Cet état des choses s’explique par le fait qu’une problématique pivote autour
d’un questionnement centré sur un phénomène et non deux, à moins
justement qu’on souhaite savoir comment plusieurs variables indépendantes
peuvent affecter plusieurs variables dépendantes.
Le tableau 15 illustre trois situations classiques en recherche impliquant la
variable indépendante (VI) et la variable dépendante (VD).
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 36
Donald Long CRDE Université de Moncton
Tableau 15
VI 1
VD
VI 1
VI 2
VI 3
VD
VI 1
VI 2
VI 3
VI 5
VI 6
VD1
VD2
Le tableau 16, lui, illustre une problématique de recherche où des variables
indépendantes (VI) sont regroupées pour définir des concepts et où certains de
ces concepts constituent à la fois des variables indépendantes et dépendantes.
Dans un tel cas, on utilise l’analyse des pistes causales qui s’appuie, en fait, sur
le principe de la corrélation partielle.
Tableau 16
VI 1
VI 2
VI 3
VI 7
VI 8
VI 4
VD
VI 9
VI 10
VI 5
VI 6
VI 11
De nouveaux tests statistiques permettent maintenant d’étudier des
problématiques non seulement plus complexes, mais plus conformes aux
conceptions des chercheurs. En éliminant les contraintes imposées par les tests
statistiques, il est possible d’étudier la relation entre plusieurs variables
indépendantes avant de mesurer leur effet sur la variable dépendante. En fait, on
parle de l’effet indirect des variables indépendantes en plus de leur effet direct.
Le tableau 16 illustre l’idée derrière l’analyse des pistes causales et les modèles
d’équation structurale.
Dans les sciences humaines, nous fragmentons, pour ainsi dire, l’individu pour
mieux l’étudier ; cette fragmentation n’est pas typique aux sciences humaines,
cependant. De nouvelles analyses statistiques nous permettent d’intégrer un
nombre considérable de variables et d’étudier une problématique en fonction
d’un ensemble plus complexe. Personne ne croit que l’être humain est aussi
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 37
Donald Long CRDE Université de Moncton
fragmenté dans son comportement : il agit comme un tout et non une collection
de pièces détachées.
12
La nécessité d’isoler quelques variables pour mieux les
étudier est surtout imposée par diverses contraintes
difficiles à contourner, entre autres l’échantillonnage.
Même si de plus en plus d’analyses statistiques
permettent d’étudier des problématiques complexes,
il reste que rarement il est possible de rassembler un
échantillon assez grand pour en tirer profit.
En incluant un plus grand nombre de variables dans une analyse, on se
rapproche de la réalité de l’être humain. Il faut donc admettre qu’en réduisant le
nombre de variables dans une étude, on s’éloigne de cette réalité. Bien des
facteurs agissent sur le niveau de stress de l’individu, mais le stress agit lui aussi
sur d’autres aspects de sa personne. Le choix d’une seule variable dépendante
est purement arbitraire et suffit amplement à mener un projet de recherche.
Dans l’exemple que nous venons de décrire, le stress constitue la variable
dépendante. Dans une autre recherche, le stress pourrait fort bien être considéré
comme une variable indépendante, une variable qui prédit une autre variable. Le
statut d’une variable découle de la problématique à l’étude.
La variable dépendante est l’indicateur
qui représente le phénomène étudié.
La plupart du temps, le projet de recherche vise
à identifier les conditions qui font varier ce phénomène.
Votre recherche consiste, dans un premier temps, à mesurer le stress auprès
des fonctionnaires gouvernementaux. Votre définition opérationnelle du stress
se dégagera de la nature de votre questionnement. Les résultats de votre
recherche seront influencés par cette définition. Dans un deuxième temps,
vous identifierez les facteurs qui agissent sur le stress. La définition
opérationnelle de ces facteurs sera typique à votre recherche.
Bien sûr, vous ne pouvez pas influencer la définition de l’âge ou du genre des
sujets. Par contre, certaines variables seront construites en accord avec une
approche théorique. Parmi les facteurs que vous soupçonnez d’agir sur le stress,
il y a les préoccupations de l’individu. Elles seront mesurées à l’aide d’une
échelle construite à cette intention. La nature de cette définition représente elle
aussi un facteur qui agit sur la relation entre le concept des préoccupations et le
stress ; ce sont d’ailleurs deux concepts construits de toutes pièces.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 38
Donald Long CRDE Université de Moncton
Bref, une problématique de recherche est une construction, arbitraire,
particulière et personnelle qui tente d’expliquer une réalité ; ce n’est pas la
réalité. L’interprétation des résultats se fait en fonction de cette problématique.
Si vous trouvez que les femmes sont plus stressées que les hommes à la fin de
votre recherche, ce résultat a été obtenu en fonction d’un contexte précis. Ce
n’est qu’après de multiples recherches menées dans des contextes différents,
en introduisant diverses variantes dans ces recherches, en observant
l’interaction entre d’innombrables variables, en distinguant ce qui reste stable
malgré des conditions changeantes, qu’il est possible de rapprocher une
théorie à une réalité.
13
L’interprétation des résultats d’une recherche se fait en
fonction de la problématique de cette recherche.
Elle décrit une réalité telle que définie par une
conception particulière ; il reste à déterminer à quel
point elle correspond à la vraie réalité.
15. Causalité versus corrélation
Lors qu’il existe une corrélation entre deux variables, rien n’indique que l’une
cause l’autre. Les deux variables peuvent être influencées par une troisième
variable. La corrélation ne fait que rendre compte de la force d’une association.
La nature d’une corrélation dépend de l’interprétation qu’on en fait. Voici
ce que Jacob Cohen (1990) a écrit sur le sujet : There is no royal road to
statistical induction, that the informed judgment of the investigator is the crucial
element in the interpretation of data.
Par exemple, une corrélation positive est trouvée entre le niveau socio
économique et le nombre de visites à une clinique médicale. Les individus plus
fortunés sont-ils en moins bonne santé que les moins bien nantis ? Se blessentils plus souvent que d’autres parce qu’ils travaillent davantage ? Portent-ils
davantage attention à leur santé ? Craignent-ils moins les coûts associés à ces
visites ? Ont-ils davantage accès aux cliniques médicales ? Autant de questions
qui ne peuvent être répondues adéquatement qu’en intégrant dans une même
analyse statistique les variables pertinentes. La gestion de ces variables ne se fait
pas au hasard non plus ; de là l’importance de se référer à un cadre conceptuel.
14
Autant l’approche quantitative vise à fournir une
réponse à une question, une solution à un problème,
elle ne prétend pas identifier la cause d’un phénomène.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 39
Donald Long CRDE Université de Moncton
16. Les valeurs manquantes : ne les manquez pas !
Avant de fermer le rideau sur ce module, un aspect des
données est souvent escamoté. Si la plupart des données
brillent par leur présence, d’autres brillent par leur
absence. Des valeurs manquantes çà et là ne causent pas
de tort irréparable. Même à cela, il importe de s’interroger à leur sujet.
Tabachnik & Fidell (1989) prétendent, à la page 61, que, The pattern of missing
data is more important than the amount missing. Dans un premier temps, il
s’agit d’identifier les valeurs manquantes. Dans un deuxième temps, une
décision doit être prise à leur sujet.
Il ne suffit pas de faire le compte pour chacune des variables ;
il faut tenter d’identifier à quel point les valeurs manquantes
de certaines variables sont reliées à d’autres variables. Par
exemple, si un bon nombre de sujets n’ont pas indiqué leur
niveau de scolarisation, formez deux groupes dont l’un est
constitué de ceux qui n’ont pas indiqué ce niveau tandis que l’autre est formé de
ceux qui l’ont indiqué. Comparez ces deux groupes entre eux quant à diverses
variables cruciales à votre recherche. Lorsque les valeurs manquantes semblent
distribuées au hasard, sans un profil particulier, il y a moins de raisons de s’en
inquiéter. Cet exercice ne corrigera pas la situation, mais pourra vous aider lors
de l’interprétation des résultats.
Il ne s’agit pas d’estimer le genre des sujets. L’estimation dont nous parlons
porte plutôt sur des variables construites : attitude, perception, motivation, et
d’autres.
Certaines procédures statistiques (même certains logiciels…) ont été conçues
pour remplacer ces valeurs manquantes par un score estimé. Lorsque le nombre
de valeurs manquantes est faible, il y a des gains à faire. Mais, si vous décidez
de remplacer les scores manquants par la moyenne obtenue par l’échantillon au
complet ou par un sous-groupe à une variable, vous resserrez l’écart entre les
scores : la variance est ainsi réduite à cause de cette régression vers la moyenne.
Il est préférable de remplacer des scores manquants à l’intérieur d’un sousgroupe plutôt que dans un échantillon au complet. En combinant diverses
variables, vous remplacerez les scores pour le sous-groupe des filles âgées de 20
à 30 ans et qui habitent la région du Nord, par exemple. Cette procédure peut
devenir exténuante à appliquer mais plus sûre qu’une application à l’aveuglette.
Il y a là un effort de respecter la spécificité des individus et de conserver la
variabilité inhérente produite par la combinaison de diverses variables. En fait,
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 40
Donald Long CRDE Université de Moncton
une technique à de régression permet d’accomplir ce travail plus aisément.
Encore là, ce sont des scores fictifs générés à partir des scores existants ; l’effet
de régression à la moyenne persiste.
En cherchant une explication plausible aux valeurs manquantes, une solution
plausible surgit la plupart du temps. Lorsque 40 % des individus ont omis de
répondre à une question, il est nécessaire de savoir pourquoi. Avant de
remplacer ces scores manquants, même par une procédure statistique
sophistiquée et ingénieuse, il n’est pas certain que ce remplacement de valeurs
ne produise pas un biais décevant dans les résultats.
17. Conclusion
Helberg (1995) résume ainsi trois catégories de pièges dont il faut se méfier en
recherche: We can consider three broad classes of statistical pitfalls. The first
involves sources of bias. These are conditions or circumstances which affect the
external validity of statistical results. The second category is errors in
methodology, which can lead to inaccurate or invalid results. The third class of
problems concerns interpretation of results, or how statistical results are
applied (or misapplied) to real world issues.
Le présent document n’a pas porté uniquement sur les pièges à éviter lors de
l’interprétation de résultats obtenus à la suite d’une recherche quantitative. J’ai
choisi d’attirer votre attention sur certains pièges qui peuvent affecter
l’interprétation des résultats d’une recherche, qu’ils soient d’ordre conceptuel,
méthodologique, statistique ou interprétatif. Il en existe bien d’autres. Plusieurs
auteurs ont choisi de les approfondir et je vous recommande de lire leurs écrits à
ce sujet.
Lorsque des analyses statistiques sont exécutées sur un nombre réduit de
sujets, que l’échantillon ait été formé selon les règles ou non, les résultats
peuvent varier selon quelques caractéristiques du groupe.
Des résultats statistiquement significatifs peuvent être pratiquement non
significatifs, même lorsque l’échantillon est important. À cause de la nature des
tables de probabilité, une légère différence ou une faible relation entre deux
variables peuvent être déclarées statistiquement significatives. Cependant, un
simple calcul de la variance partagée entre les deux démontre que ce lien a peu
de signification concrète.
Jusqu’à présent, la tradition a voulu que l’interprétation des résultats soit
conditionnée par les tables de probabilité. Elles conservent leur utilité, mais le
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 41
Donald Long CRDE Université de Moncton
concept de variance expliquée ajoute une information indispensable lors de
l’interprétation des résultats.
Un résultat statistique n’a pas de valeur en soi, à moins qu’il s’inscrive dans un
cadre conceptuel défini. La valeur réelle d’un résultat statistique dépend
beaucoup de son contexte. On réalise qu’il existe une différence entre un résultat
précis et un résultat valide : un résultat n’est pas valide parce qu’il est précis ou
parce qu’il est représenté par des chiffres. L’interprétation de résultats
quantitatifs dépend de la subjectivité du chercheur. L’approche quantitative, par
contre, offre diverses méthodes et stratégies pour que les résultats comme tels
soient davantage valides, nonobstant l’interprétation du chercheur. Encore faut-il
faire une application judicieuse de la méthodologie et des tests statistiques.
Trop souvent, les chercheurs ne retiennent que les résultats favorisant leurs
hypothèses, même si ces résultats sont parfois mitigés. Confirmer ou infirmer
une hypothèse requiert que les effets prévus soient fermes et répandus à
l’ensemble des résultats. Les limites de confiance pourraient parfois inclure des
résultats statistiquement significatifs, surtout lorsque l’erreur d’échantillonnage
est importante, une situation qui risque de se produire lorsque l’échantillon est
restreint.
Plusieurs auteurs et statisticiens nous invitent à bien examiner la distribution de
chacune des variables. En général, lorsque qu’une forte proportion de scores est
concentrée sur une section particulière de l’échelle de mesure, on doit prendre
des dispositions pour corriger cette distribution, sinon ses effets vont affecter les
tests statistiques et, par ricochet, les résultats. Il ne suffit pas d’avertir les
lecteurs de ces déformations et de procéder à des analyses statistiques sans
apporter les corrections nécessaires.
Parfois, certains choix doivent être faits afin de contourner des difficultés. Par
exemple, on utilise un instrument validé pour mesurer un concept. Pour diverses
raisons, les résultats obtenus avec notre échantillon ne concordent pas avec ceux
obtenus lors de la validation de l’instrument. Quelle que soit l’alternative
envisagée, les résultats vont en subir le contrecoup. Cependant, lorsqu’on
comprend la signification d’une validation, en quoi elle consiste, le chercheur
peut continuer ses travaux de recherche et interpréter ses résultats en fonction de
la décision qu’il aura prise à ce sujet. Un instrument validé ne l’est pas partout et
pour toujours : il reflète le profil d’un échantillon particulier. Lorsqu’on
l’applique à un autre groupe, on décèle parfois d’importances différences.
Malgré tout, il existe bien des instruments qu’on a rodés au point de conserver
une surprenante stabilité à travers les échantillons.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 42
Donald Long CRDE Université de Moncton
Le sens que le chercheur donne à ses résultats doit s’appuyer sur l’ensemble des
résultats obtenus. Pour en arriver à une vision globale des résultats, il me semble
évident que cet objectif est plus aisément réalisé si des tests statistiques
englobants sont utilisés et non une collection de tests sur des parties séparées des
données. En fait, les analyses univariées nous apprennent certaines choses
concernant les données, tandis que les analyses multivariées nous apprennent
d’autres choses.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 43
Donald Long CRDE Université de Moncton
18. Sources
American Educational Research Association, American Psychological Association, &
National Council on Measurement in Education (1999). Standards for educational and
psychological testing (revised edition). Washington: American Educational Research
Association.
Cohen, J. (1968). Multiple regression as a general data-analytic system. Psychological
Bulletin, 70, 426-443.
Cohen, J. (1983). The cost of dichotomization. Applied Psychological Measurement, 7, 249253.
Cohen, Jacob (1990). Things I have learned (so far). American Psychologist, 45, 1304-12.
Daniel, L. G. (1998a) Statistical significance testing: A historical overview of misuse and
misinterpretation with implications for editorial policies of educational journals. Research in
the Schools, 5, 23-32.
Helberg, Clay (1995). Pitfalls of data analysis (or how to avoid lies and damned lies). Paper
presented at The Third International Applied Statistics in Industry Conference in Dallas, TX.
[En ligne]. Disponible.
http://my.execpc.com/~helberg/pitfalls/
Henson, R. K. (2000). Demystifying parametric analyses: Illustrating canonical correlation as
the multivariate general linear model. Multiple Linear Regression Viewpoints, 26, 11-19.
Hopkins, Will, G. (2000). Quantitative research design. [En ligne]. Disponible.
http://www.sportsci.org/jour/0001/wghdesign.html
Keselman, H. J. et al. (1998). Statistical practices of educational researchers: An analysis of
their ANOVA, MANOVA, and ANCOVA analyses. Review of Educational Research, 68,
350-386.
Knapp, T. R. (1978). Canonical correlation analysis: A general parametric significance testing
system. Psychological Bulletin, 85, 410-416.
Kritzer, Herbert M. (1996). The data puzzle: The nature of interpretation in quantitative
research. American Journal of Political Science, 40, February, 1-32.
Neilsen, Jacob (2004). Risks of quantitative studies. [En ligne]. Disponible.
http://www.useit.com/alertbox/20040301.html
Onwuegbuzie, A. J. & Daniel, L. G. (2003). Typology of analytical and interpretational errors
in quantitative and qualitative educational research. Current Issues in Education. [En ligne].
Disponible.
http://cie.ed.asu.edu/volume6/number2/
Roberts, J. K. & Henson, R. K. (2002). Correction for bias in estimating effect sizes.
Educational and Psychological Measurement, 62, 241-253.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 44
Donald Long CRDE Université de Moncton
Tabachnick, B. G. & Fidell, L. S. (1989). Using multivariate Statistics. 2nd Edition. Harper &
Row, Publishers, New York.
Thompson, B. (1998a, April). Five methodological errors in educational research: The
pantheon of statistical significance and other faux pas. Paper presented at the annual meeting
of the American Educational Research Association, San Diego, CA.
Thompson, B. & Vacha-Haase, T. (2000). Psychometrics is datametrics: The test is not
reliable. Educational and Psychological Measurement, 60, 174-195.
L’interprétation des résultats de recherche dans le cadre de l’approche quantitative page 45
Donald Long CRDE Université de Moncton