Menage - Université de Moncton

Transcription

Menage - Université de Moncton
Approche
quantitative
Faire le ménage
dans les données
Les objectifs pédagogiques
Connaître les indicateurs statistiques d’une distribution normale et anormale
de scores
Pouvoir distinguer les erreurs systématiques des erreurs aléatoires
dans une distribution de scores
Évaluer l’influence des données manquantes
sur les analyses statistiques
Savoir identifier une variable mal définie
Connaître les procédures du progiciel SPSS permettant d’examiner les
données et de corriger les déficiences dans une distribution de scores
Connaître les principales transformations qui peuvent être appliquées
à une distribution anormale de scores
Être capable de détecter la multicollinéarité
Savoir comment reconnaître un profil dans les valeurs manquantes
Savoir comment traiter les valeurs manquantes
dans le cadre des analyses statistiques
Le sommaire
1. Corrige ou ne corrige pas ?
2. Cherchez l’erreur
3. Trouvez l’erreur
4. Catégories de variables
5. Les indicateurs statistiques de normalité ou d’anormalité
6. Les valeurs extrêmes
7. Les transformations courantes de données
8. La multicollinéarité
9. Les valeurs manquantes
10. Le sort réservé aux valeurs manquantes
11. Les valeurs manquantes relèvent en majorité
d’une minorité de cas
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 1
1. Corrige ou ne corrige pas ?
De façon générale, les données de recherche doivent être analysées telles
qu’elles sont recueillies : tout réaménagement ou toute transformation des
scores risque de modifier la signification réelle des données. La plupart
du temps, afin de bien refléter la réalité, les données doivent être
analysées telles quelles.
Cependant, nous tenterons de soulever dans le présent document les
situations dans lesquelles il convient de modifier une distribution de
scores afin de corriger un aspect déficient. Avant tout, nous mettrons
l’accent sur la nécessité d’examiner les données avant de se lancer
aveuglément dans les analyses statistiques.
Nous verrons que la zone de démarcation entre une distribution
acceptable et une distribution inacceptable de données est aussi floue que
large. Ce n’est pas par caprice qu’on apporte des changements à une
distribution de scores : cette décision doit être prise à la lumière
d’indicateurs statistiques reconnus, évitant ainsi des erreurs de jugement.
Heureusement, les logiciels d’analyses statistiques contiennent diverses
procédures permettant d’épurer les données d’une recherche.
2. Cherchez l’erreur
Il est d’autant plus facile de trouver une erreur dans les données
qu’on a un portrait-robot des données attendues. Les véritables
trouvailles n’arrivent pas toujours par hasard.
Il existe, bien sûr, des erreurs fortuites qui peuvent se glisser dans un
fichier de données. Ces erreurs isolées sont généralement banales. Par
exemple, dans l’entrée des données, le score 9 à été entré au lieu du score
3. Surtout dans un fichier constitué d’un nombre considérable de cas, une
erreur fortuite comporte peu de conséquences sur les résultats des
analyses.
Les erreurs dont nous devons nous guetter sont les erreurs
systématiques, celles qui imposent un biais constant et
pervers. Pour les retrouver dans un fichier, nous devons
apprendre à les reconnaître. Comme des fugitifs, elles savent se déguiser
et passent souvent inaperçues. Voici des exemples d’erreurs graves.
Erreur no 1
Un grand nombre de valeurs
manquant à une variable
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 2
Pour diverses raisons il arrive qu’on s’abstient de répondre à une
question. Par exemple, bien des gens n’aiment pas dévoiler leur salaire
dans une enquête ou un sondage. Si ce sont surtout les hauts salariés qui
ne veulent pas préciser leur salaire, la relation entre le salaire et d’autres
variables sera diminuée. Si ces valeurs manquantes sont distribuées
également dans toutes les catégories de salaire, leur influence sur les
résultats sera moindre de ce fait.
Le danger survient lorsque les données manquantes peuvent être
reliées à certaines valeurs d’une variable. Par exemple, vous pourriez
découvrir que les personnes qui se sont abstenues de répondre à une
question particulière sont surtout des hommes ou surtout ceux vivant en
milieu rural ou encore les hauts salariés.
Dans tous ces cas, l’erreur est grave puisqu’elle diminue la variabilité
d’une distribution de scores. La force de la relation entre les variables
peut être diminuée par cette réduction de variabilité.
Comment la variabilité peut-elle diminuer lorsque plusieurs répondantes
et répondants ont été éliminés des analyses statistiques ? Si ces personnes
représentent un groupe homogène dont les scores se situent surtout à un
endroit particulier de l’échelle de mesure, il s’ensuit que la moyenne
change tout comme l’écart type. Par exemple, si des bas salariés en milieu
rural ne répondent pas à certaines questions, il est possible que la plupart
auraient fait un choix de réponse à peu près similaire.
Le tableau qui suit indique le nombre de filles et de garçons qui ont
participé à un sondage. Tous ont indiqué leur sexe.
Le nombre de filles et de garçons
Fréquence
Valide
Filles
Garçons
Total
Pourcentage
Pourcentage
valide
Pourcentage
cumulatif
11
55,0
55,0
55,0
9
45,0
45,0
100,0
20
100,0
100,0
Cet autre tableau montre le nombre de ces répondantes et répondants âgés
de 10 à 13 ans.
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 3
Nombre de filles et de garçons âgés de 10 à 13 ans
Fréquence
Pourcentage
Pourcentage
valide
Pourcentage
cumulatif
10
2
10,0
11,8
11,8
11
3
15,0
17,6
29,4
12
9
45,0
52,9
82,4
13
3
15,0
17,6
100,0
Total
17
85,0
100,0
Système
3
15,0
20
100,0
ÂGE
Valide
Manquant
Total
On constate que 3 d’entre eux (15 %) n’ont pas indiqué leur âge. Sont-ce
des garçons seulement, des filles seulement ou des garçons et des filles ?
On ne sait toujours pas si les personnes qui n’ont pas indiqué leur âge
sont des garçons ou des filles. Pour le savoir, il s’agit de croiser les
variables Âge et Sexe et d’examiner les cellules du tableau croisé. Dans
ce cas-ci, nous avons attribué la valeur 99 aux personnes qui n’ont pas
indiqué leur âge. Un troisième tableau permet de constater que ce sont
uniquement des garçons qui n’ont pas indiqué leur âge.
Le nombre de filles et de garçons âgés de 10 à 13 ans
Âge
Féminin
10
11
12
13
2
2
4
2
1
5
1
3
10
3
9
3
3
20
Masculin
Total
2
99
Total
10
Vous avez sûrement compris que, si on cherche à établir une
relation entre l’âge et une autre variable,
• la corrélation variera à cause des valeurs manquantes et
• cette relation s’appliquera plus aux filles qu’aux garçons.
Erreur no 2
Une variable
mal définie
¨ Une variable peut être mal définie si la question ne présente pas
toutes les valeurs de la variable. La question suivante porte sur l’état
civil.
Quel est votre état civil ?
A. Célibataire
B. Marié ou mariée
C. Veuf ou veuve
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 4
Les personnes qui cohabitent sans être mariées se retrouvent, pour ainsi
dire, assises entre deux chaises.
¨Une variable peut être mal définie si les catégories de réponse sont
de grandeur inégale surtout lorsque les analyses statistiques seront de
type corrélationnel. Par exemple, vous mesurez les années d’expérience
au moyen de la question suivante :
Combien comptez-vous d’années d’expérience en enseignement ?
A. 1 à 3 années
B. 4 à 8 années
C. 9 à 15 années
D. 16 années ou plus
Dans ce dernier cas aussi la variabilité est diminuée à cause de la façon de
catégoriser les années d’expérience. Le nombre de catégories est restreint,
alors qu’il eut été facile d’en faire une variable de proportion (variable
continue). Sous la forme actuelle, ce n’est qu’une variable ordinale de
piètre qualité.
Elle est de piètre qualité parce qu’elle comporte une déficience majeure :
le nombre de répondantes et de répondants risque d’être démesurément
élevé dans la dernière catégorie (16 années d’expérience ou plus). Cette
catégorie comprend toutes les personnes dont le nombre d’années
d’expérience varie de 16 à 35, soit une étendue de 20 années. Les trois
autres catégories de réponse regroupées totalisent 15 années
d’expérience. Autrement dit, il pourrait y avoir plus d’individus dans une
seule catégorie de réponses que dans toutes les autres catégories, un peu
comme le montre la figure suivante.
1à3
4à8
9 à 15
16 ou +
Pourcentage
100
80
60
40
20
0
Erreur no 3
Catégories d'années d'expérience
Le manque de représentativité
de l’échantillon
L’échantillon qui, en théorie, doit représenter la population peut déroger
de façon significative. L’écart entre les deux est parfois facile à détecter.
Surtout si l’échantillon n’a pas été constitué selon un tirage au hasard,
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 5
il s’avère prudent de comparer les statistiques de l’échantillon avec les
paramètres de la population. Même avec un échantillon au hasard, s’il est
de petite taille, cet échantillon risque de déroger à la population.
Pour réaliser cette comparaison il faut connaître les paramètres de la
population tels que, notamment, la répartition des sexes, le niveau
d’éducation et l’âge. Certains paramètres sont plus importants que
d’autres. Si l’échantillon se compose de 65 % de femmes, nous savons
que les femmes sont sur-représentées dans un pourcentage de 14 %,
puisque que la représentation des femmes dans la population est
d’environ 51 % : idéalement, l’échantillon devrait comprendre 51 % de
femmes. Cet écart entre les hommes et les femmes est d’autant plus
important que bien des aspects de la recherche peuvent être reliés au sexe
des répondantes et des répondants.
Par exemple, votre recherche porte sur l’attitude envers les professions
traditionnelles et non traditionnelles. Comme nous savons déjà que
l’attitude des hommes et des femmes varie à ce sujet, si l’échantillon
comprend 14 % plus de femmes que dans la population totale, il s’ensuit
que le score de l’ensemble des répondantes et des répondants représente
plus la réalité féminine que masculine. Les résultats pourraient montrer
une plus grande différence que dans la population générale. En ce sens,
les résultats seraient biaisés.
Certaines variables de l’étude seront plus affectées que d’autres
par le manque de représentativité de l’échantillon. Il faudra y
faire attention à cet aspect surtout pour les variables
déterminantes pour l’étude.
Où peut-on trouver des informations concernant les paramètres de la
population ? Dans bien des cas il suffit de consulter les recensements
périodiques réalisés par Statistique Canada conservés dans les
bibliothèques universitaires et les grandes bibliothèques publiques.
Ces documents vous permettront de juger si votre échantillon est
représentatif ou non. S’il ne l’est pas, vous saurez au moins que vos
résultats pourront être biaisés et qu’il vaut mieux ne pas tenter de
généraliser vos résultats à la population totale visée.
Il est utile de connaître à l’avance les paramètres de la population. Dans
une enquête téléphonique, il est possible d’interroger un homme plutôt
qu’une femme si, jusque-là, les hommes sont sous-représentés. Ce n’est
guère compliqué d’équilibrer le nombre d’hommes et de femmes dans un
échantillon, même lorsque l’enquête est en cours.
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 6
3. Trouvez l’erreur
En comparant les statistiques de l’échantillon avec les paramètres de la
population, les erreurs d’échantillonnage deviennent souvent évidentes.
Très vite on est en mesure de savoir à quel point les résultats tirés de
l’échantillon sont applicables ou généralisables à la population.
Cependant, même si l’échantillon est représentatif, il n’en demeure pas
moins que la distribution d’une variable quelconque peut être déficiente.
Avant de procéder à des analyses statistiques, il existe des moyens
simples et efficaces de reconnaître ces biais et, dans la plupart des cas, de
les corriger.
Le progiciel SPSS renferme diverses procédures conçues pour examiner
des distributions de scores et déterminer les aspects déficients d’une
distribution. Avant de faire appel à ces procédures, il convient d’établir
une distinction entre une variable nominale et une variable continue. La
raison est simple : plus la variabilité est grande dans une distribution,
plus la probabilité augmente que cette distribution soit déformée.
4. Catégories de variables
On parle souvent de deux grandes catégories de variables : la variable
nominale et la variable continue. Une variable nominale est formée de
catégories indépendantes l’une de l’autre. Il n’y a pas non plus de
progression entre les catégories. Une variable nominale ne possède pas, à
proprement parler, de variance : par exemple, le sexe, l’état civil.
Une variable est continue lorsque la distribution des scores s’étend de 0 à
l’infini. La majorité des tests statistiques portent sur les variables
continues. Voici quelques exemples de variables continues : le nombre
d’heures passées à lire, le salaire, la vitesse d’exécution d’une tâche, la
température.
La distribution d’une variable continue peut être représentée par des
valeurs de tendance centrale et de dispersion. Par ailleurs, ces valeurs,
aussi indispensables qu’elles puissent être, ne suffisent pas à déterminer
si une distribution est normale ou déficiente d’une quelconque façon.
Pour ce faire, et surtout en cas de doute, il vaut mieux se fier à des
indicateurs statistiques conçus à cet effet.
5. Les indicateurs statistiques de normalité…ou d’anormalité
Comment obtient-on ces indicateurs ? Deux procédures dans le Progiciel
SPSS permettent de vérifier le degré de normalité d’une variable.
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 7
Sous la rubrique Analyze on trouve Frequencies et
Descriptives. Tous les atouts de Descriptives sont inclus
dans Fréquencies, et plus.
Sentez-vous à l’aise d’utiliser Fréquencies exclusivement.
Vous pouvez obtenir les valeurs descriptives d’une variable seulement ou
de plusieurs variables à la fois. Dans le présent exemple, les valeurs
descriptives ont été sollicitées pour les variables Âge et Coûts à la fois.
D’abord, on obtient un tableau de distribution pour chacune d’elles
montrant les valeurs descriptives (tableaux 1 et 2). Ensuite, un autre
tableau (tableau 3) donne des informations sur les indicateurs statistiques
décrivant chacune des deux distributions.
Voici une question souvent posée concernant un tableau de fréquences.
?
R
Quelle distinction y a-t-il entre la colonne intitulée Pourcentage
et la colonne intitulée Pourcentage valide ?
Le pourcentage est soit calculé en fonction de tous les cas du fichier
(Pourcentage) ou uniquement des cas
qui ont une valeur réelle pour cette variable (Pourcentage valide).
Exemple
(Pourcentage) 9 / 20 * 100 = 45,0 %
(Pourcentage valide) 9 / 19 * 100 = 47,4 %
Quant au tableau 1, on constate d’emblée que 47,5 % des personnes qui
ont indiqué leur âge sont âgées de 12 ans, ce qui rend la distribution
quelque peu asymétrique. Nous verrons plus loin si l’asymétrie est grave
ou non.
Tableau 1
Les valeurs descriptives de la variable Âge
Valide
Manquant
Total
Pourcentage
valide
Pourcentage
cumulatif
Fréquence
Pourcentage
10
2
10,0
10,5
10,5
11
5
25,0
26,3
36,8
12
9
45,0
47,4
84,2
13
3
15,0
15,8
100,0
Total
19
95,0
100,0
Système
1
5,0
20
100,0
ÂGE
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 8
Tableau 2
Les valeurs descriptives de la variable Coûts
COÛTS ($)
Valide
Manquant
Total
Fréquence
Pourcentage
Pourcentage
valide
Pourcentage
cumulatif
13,25
1
5,0
5,3
5,3
26,48
1
5,0
5,3
10,5
26,60
1
5,0
5,3
15,8
37,57
1
5,0
5,3
21,1
41,29
1
5,0
5,3
26,3
63,39
1
5,0
5,3
31,6
67,45
1
5,0
5,3
36,8
75,43
1
5,0
5,3
42,1
82,32
1
5,0
5,3
47,4
84,77
1
5,0
5,3
52,6
87,32
1
5,0
5,3
57,9
108,27
1
5,0
5,3
63,2
134,12
1
5,0
5,3
68,4
163,89
1
5,0
5,3
73,7
169,04
1
5,0
5,3
78,9
179,56
1
5,0
5,3
84,2
228,71
1
5,0
5,3
89,5
231,54
1
5,0
5,3
94,7
435,22
1
5,0
5,3
100,0
Total
19
95,0
100,0
Système
1
5,0
20
100,0
Pour ce qui est du tableau 2, on observe que chaque valeur est unique : il
n’y a qu’un seul représentant pour chaque valeur. Les valeurs varient
entre 13,25 $ et 435,22 $.
Le tableau 3 fournit les valeurs statistiques associées aux variables Âge et
Coûts. Certaines méritent qu’on s’y attarde.
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 9
Tableau 3
Les valeurs statistiques associées aux variables Âge et Coûts
ÂGE
COÛTS
Valide
17
19
Valeurs manquantes
3
1
11,76
118,75
Erreur type de la moyenne
,22
23,28
Médiane
12
84,77
Mode
12
13,25a
Écart type
,90
101,47
Variance
,82
10296,96
Asymétrie
-,63
1,82
Erreur type de l'asymétrie
,55
,52
Kurtose
,09
4,28
Erreur type de la kurtose
N
Moyenne
1,06
1,01
Étendue
3
421,97
Minimum
10
13,25
Maximum
13
435,22
Somme
200
2256,22
a. Plusieurs modes existent : la plus petite valeur seulement est montrée.
Si nous tirons un grand nombre d’échantillons et que nous calculons la
moyenne d’âge et l’écart type pour chacun de ces échantillons, la
moyenne des écarts type constituerait l’erreur type de la moyenne. Plus
les variations sont importantes entre les échantillons, plus l’erreur type est
grande. De même, plus la taille de l’échantillon se rapproche de la
population quant au nombre, plus l’erreur type se rapproche de zéro.
Comme il est possible de calculer la moyenne et l’écart type d’un seul
échantillon, il est aussi possible de calculer l’erreur type.
L’erreur type d’une statistique (standard error) se définit, selon
Legendre, comme l’écart type de la distribution des écarts de mesure.
L’erreur type aide à préciser, pour chaque sujet observé (cas), les limites
d’un intervalle de confiance à l’intérieur duquel son score réel a le plus de
chance de s’y trouver. L’erreur type n’est pas une « erreur » à proprement
parler. Elle représente plutôt une mesure de l’étendue d’une statistique.
L’erreur type de la moyenne représente en quelque sorte la moyenne
des écarts type à la moyenne.
L’écart type est une mesure de dispersion des scores d’une distribution.
Il traduit la distance moyenne des scores à la moyenne de la distribution.
Un écart type peu élevé indique que les scores sont, pour la plupart, situés
près de la moyenne. Un écart type élevé indique qu’il y a des scores
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 10
éloignés de la moyenne : un seul score fortement éloigné de la moyenne
peut faire gonfler la valeur de l’écart type.
Si la moyenne est de 12,5 et l’écart type de 3,4, on conclut que 68,26 %
des scores sont situés à un écart type de la moyenne. Quel pourcentage de
cas est situé à deux écarts type de la moyenne ? Réponse : 95,44 %.
Un écart type de la moyenne
3,4 - 12,5 + 3,4 = 9,1 --- 15,9
Deux écarts type de la moyenne
6,8 - 12,5 + 6,8 = 5,7 --- 19,3
Trois écarts type de la moyenne
10,2 - 12,5 + 10,2 = 2,3 --- 22,7
À un écart type de la moyenne, 68,26 % des cas se trouvent entre les
valeurs 9,1 et 15,9. À deux écarts type de la moyenne, 95,44 % des cas se
trouvent entre les valeurs 5,7 et 19,3. Enfin, à trois écarts type de la
moyenne, 99,72 % des cas se retrouvent entre les valeurs 2,3 et 22,7.
?
R
Lorsque l’écart type est plus élevé que la moyenne, quelles en sont les
conséquences ? Par exemple, la moyenne = 8,9 et l’écart type = 21,3
Une telle situation se produit lorsque l’étendue des scores est grande.
Il se peut fort bien que quelques scores seulement, ou même un seul,
soient à l’origine de cette situation.
Un écart type plus élevé que la moyenne doit servir de signal d’alarme.
La médiane représente la valeur de la distribution où 50 % des cas ont
une valeur inférieure et, par conséquent, 50 % des cas ont une valeur
supérieure.
Le mode constitue la valeur la plus fréquente de la distribution. Il est
donc possible d’observer plusieurs modes dans une distribution. Pour la
variable Âge, il n’y a qu’un seul mode : la valeur 12. Pour la variable
Coûts, cependant, les modes sont aussi nombreux qu’il y a de valeurs
dans la distribution.
Dans une distribution dite normale, la moyenne, la médiane et le mode se
trouvent au même endroit sur un graphique. Plus la distribution devient
anormale ou asymétrique, plus la distance s’accroît entre ces indicateurs
statistiques. Il s’agit alors de déterminer si cette distribution particulière
est déficiente et inacceptable. Un peu plus loin vous apprendrez comment
prendre une telle décision.
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 11
?
Une distribution bi-modale peut-elle être cause
d’inquiétudes aux chercheuses et aux chercheurs?
R
La figure 1 qui suit atteste la présence de deux modes.
Figure 1
Distribution des opinions attestant la présence de deux modes
Complètement d'accord
38,5
Modérément d'accord
12,1
Un peu d'accord
2,6
Un peu en désaccord
3,4
Modérément en désaccord
9,8
Complètement en désaccord
33,6
0
20
40
60
80
100
Pourcentage de cas
Une telle distribution peut devenir un cauchemar. À vrai dire, elle est tout
à fait contre-indiquée pour certaines analyses statistiques. Il vaut mieux
dans un tel cas rendre la variable dichotomique en formant un groupe se
disant en désaccord et un autre groupe se disant d’accord. Ainsi, les
analyses statistiques qui conviennent pour ce type de variable
rendront justice à la distribution. C’est une médecine forte qui permet
d’éviter d’obtenir de faux résultats statistiques au moyen d’analyses qui
utiliseraient la variable originale.
Toutes les analyses statistiques fondées sur la variance et
sur la corrélation sont affectées par une distribution
ayant deux ou plusieurs modes.
L’étendue des scores mesure l’écart entre la plus petite et la plus grande
valeur. Pour la variable Coûts, l’étendue est 435,22 $ - 13,25 $ =
421,97 $.
La variance est un concept primordial en statistique. Comment calcule-ton la variance ? La variance se calcule en portant l’écart type au carré.
Pour la variable Coûts, la variance est de 101,472 = 10 296,96. En fait, la
variance est la somme élevée au carré de tous les écarts à la moyenne.
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 12
La somme représente tout simplement l’addition de tous les scores d’une
distribution.
L’asymétrie (skewness) porte sur la forme générale de la distribution.
Une distribution est symétrique si sa moyenne, sa médiane et son mode se
trouvent au même endroit sur un graphique. Justement, la figure 2
correspond à une distribution symétrique parce que la moitié gauche peut
être repliée pour ainsi dire sur la partie droite. La figure 3 est une
distribution positivement asymétrique. La figure 4 est négativement
asymétrique.
Figure 2
Figure 3
Figure 4
Une variable asymétrique est caractérisée par une moyenne éloignée du
centre de la distribution. On découvre l’asymétrie à l’aide d’une figure ou
même d’un tableau de fréquences. Pour mieux évaluer l’importance de
l’asymétrie il existe un indice statistique. Les valeurs d’asymétrie des
variables Âge et Coûts sont respectivement -0,36 et 1,82 (Tableau 3).
Plus cette valeur s’approche de zéro plus la distribution est normale.
Comment fait-on pour déterminer si la valeur de l’asymétrie est
importante ou non ? À partir de quelle valeur doit-on songer à
transformer la distribution de scores ? Un test statistique permet de
déterminer si l’asymétrie dépasse les lois de la probabilité : le test z.
En voici le calcul. L’erreur type de l’asymétrie est :
ss = √6/N
Ss = √6/19 = √0,316 = 0,562
La valeur N représente le nombre de cas. La valeur obtenue est rapportée
à une table de distribution z (hypothèse nulle) qu’on trouve aisément en
annexe de la plupart des livres portant sur la statistique.
z=S-0
ss
z = 1,82- 0 = 3,24
0,562
Pour la variable Coûts, la valeur z est de 3,24. Nous savons, par ailleurs,
qu’une valeur z inférieure à 1,96 signifie que cette variation est
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 13
acceptable et qu’elle se situe à l’intérieur des limites accordées par le
hasard de l’échantillonnage. Comme la valeur z est de 3,24, l’hypothèse
nulle est donc rejetée (1,96). Autrement dit, l’asymétrie est grave.
Pour la variable Âge, par contre, l’asymétrie n’atteint que la valeur z de
1,57, ce qui ne dépasse pas le seuil de probabilité 0,05 (z = 1,96). Le
calcul n’est pas montré. Dans ce cas, l’hypothèse nulle est acceptée :
l’asymétrie n’est pas assez grave pour que l’on songe à transformer la
variable.
La kurtose fournit de l’information sur la concentration des scores. Une
distribution de scores peut être trop évasée (Figure 5) ou trop pointue
(Figure 6). Plus les scores sont concentrés autour de la moyenne ou sont
éloignés de la moyenne, plus élevée est la kurtose. Le calcul de la kurtose
suit une démarche similaire à celle de l’asymétrie.
Figure 5
Figure 6
Voici le calcul de la kurtose pour la variable Coûts.
sk = √24/N = √1,263 = 1,124
z=k-0
sk
z = 4,28 = 3,81
1,124
Pour la variable Coûts, il semble bien que la kurtose soit importante. La
valeur z associée à cette variable est 3,81. Ici encore, l’hypothèse nulle
est rejetée. Pour la variable Âge, la kurtose n’est pas significative
(z = 0,22) : l’hypothèse nulle est acceptée. En voici le calcul.
sk = √24/N = √1,263 = 1,124
z=k-0
sk
= -0,25 = 0,22
1,124
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 14
Pour mieux saisir à quel point la variable Coûts déroge à la normalité,
nous avons classé les coûts en cinq catégories. La figure 7 ci-dessous
montre clairement pourquoi l’asymétrie et la kurtose sont statistiquement
significatives.
Figure 7
Les catégories de Coûts
Fréquence
12
11
8
5
4
2
1
0
0
1-100 $
101-200 $
201-300 $
301-400 $
401-500 $
En fait, une valeur particulière (435,22 $) accentue l’anormalité de la
distribution. Que peut-on faire pour remédier à la situation ?
¨Premièrement, on peut éliminer cette valeur.
¨Deuxièmement, on peut appliquer une transformation
quelconque (par exemple, logarithmique) à toutes les valeurs de la
distribution, ce qui aura pour effet d’écourter la queue trop longue de la
distribution.
¨Troisièmement, on peut conserver la distribution comme telle si
on juge qu’elle est le fruit du hasard de l’échantillonnage et qu’elle
représente bien la réalité.
Voyons plus en détail comment traiter une valeur extrême dans une
distribution.
6. Les valeurs extrêmes
Une valeur extrême est une valeur qui se détache de l’ensemble des autres
valeurs d’une variable. La Figure 7 illustre le cas d’une valeur extrême.
On découvre les valeurs extrêmes dans une variable
à l’aide des procédures Frequencies
et, surtout, d’Explore.
La procédure Explore permet d’obtenir les valeurs z. Une valeur z
supérieure à 3,29 (p = 0,001) est généralement considérée comme
extrême. La procédure Explore ajoute au fichier de données une valeur z
pour chaque cas. Il est donc possible, par la suite, d’obtenir les
descriptives de cette nouvelle variable grâce à la procédure Frequencies,
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 15
laquelle permet aussi d’obtenir un histogramme montrant encore plus
clairement les valeurs extrêmes.
Les valeurs extrêmes peuvent affecter autant une variable dichotomique
qu’une variable continue. Pour une variable dichotomique, si les
proportions sont de 10-90 (par exemple, 10 % ont répondu « oui » et 90
% ont répondu « non »), on doit songer à éliminer cette variable. En fait,
cette variable ressemble plutôt à une constante.
Pour Tabachnik et Fidell (2001) quatre situations conduisent à la
création de valeurs extrêmes.
(1) Une erreur s’est produite lors de l’entrée des données.
(2) On a oublié de préciser les valeurs manquantes de sorte que
certaines valeurs sont « lues » et considérées comme des valeurs réelles.
(3) Un cas s’est glissé dans un groupe auquel il n’appartient pas.
(4) Les valeurs extrêmes sont des valeurs réelles. Dans ce cas, on
doit décider si elles sont légitimes ou non. Les valeurs extrêmes pourront
être conservées intactes, être éliminées carrément ou être transformées.
La détermination ou la découverte des valeurs extrêmes peut se faire sur
le plan de l’échantillon total ou pour chacun des sous-groupes. Lorsque
nous prévoyons faire des analyses en fonction de sous-groupes, il est
logique de rechercher les valeurs extrêmes à l’intérieur de chacun de ces
sous-groupes.
Plus petite est la taille de l’échantillon, plus les valeurs
extrêmes affectent les analyses statistiques.
Par ailleurs, nous savons que plus une valeur est éloignée de l’ensemble
des autres données, plus elle influence la moyenne et toutes les analyses
basées sur la moyenne. Une valeur extrême augmente démesurément
la variance.
La décision de transformer une variable ou d’éliminer une valeur extrême
n’est pas toujours facile à prendre. L’objectif consiste toujours à
ramener les valeurs extrêmes vers le centre de la distribution.
Tabachnik et Fidell (2001) prétendent qu’il est acceptable de changer la
valeur extrême en lui donnant la même valeur que l’avant-dernière
donnée (plus grande ou plus petite) tout en lui ajoutant une unité de
grandeur supplémentaire. Par exemple, si l’avant-dernière valeur est de
35, que les valeurs sont des catégories de 5 et que la valeur extrême est de
65, on donnera la valeur de 40 à la valeur extrême.
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 16
Une transformation logarithmique de la variable Coûts conduit à trois
valeurs différentes au lieu de 19. La valeur de 435,22 $ devient 3 : les
autres données ont la valeur de un ou deux. Par conséquent, l’ordre des
valeurs est le même que pour la variable originaire, mais la variance est
fortement diminuée en ramenant vers le centre de la distribution les
scores éloignés.
Le principal inconvénient d’une variable transformée parmi
d’autres variables conservées intactes est qu’on ne peut la regrouper
avec d’autres pour exécuter des opérations arithmétiques ou des
analyses de variance. Par contre, cette transformation permet
d’appliquer sans difficulté des analyses corrélationnelles.
?
R
Les diverses solutions permettant de traiter une valeur extrême
sont-elles d’égale valeur et interchangeables ?
¨Premièrement, il est préférable de changer seulement le score extrême.
¨Deuxièmement, on peut transformer la variable.
¨Troisièmement, le cas peut être éliminé.
¨Quatrièmement, s’il le faut, on élimine la variable.
Les valeurs extrêmes apparaissent surtout lorsqu’il s’agit de variables
continues où il n’y a pas de plafond à la valeur que peut prendre une
variable. Nous utilisons souvent des variables dont chacune des valeurs
correspond à un descripteur. Par exemple, 0=pas important, 1=peu
important, et ainsi de suite. Avec de telles variables, il est difficile de
considérer comme extrêmes des valeurs isolées. La plupart du temps, il
vaut mieux conserver intacte la variable et passer aux analyses en
utilisant la variable originaire.
Les distributions anormales affectent les résultats des analyses
statistiques. Voilà pourquoi, au moindre doute, il est crucial de
mesurer l’asymétrie et la kurtose, surtout dans les cas où
l’échantillon est de taille moyenne ou petite. La décision de
transformer une variable ne doit pas être arbitraire.
Ce doit plutôt être une décision statistique,
une décision prise à la suite de calculs appropriés.
7. Les transformations courantes de données
Nous savons déjà que les scores extrêmes affectent moins les résultats des
analyses statistiques si l’échantillon est grand (n < 100).
Il est recommandé de transformer une variable si elle est la seule de
l’ensemble des variables à montrer de l’anormalité. Si toutes les variables
sont asymétriques de la même façon, il n’y a pas lieu de les transformer.
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 17
Nous savons aussi qu’une variable transformée est difficile à
interpréter. Par exemple, on ne parlera plus de la variable Salaire, mais
du « log » du Salaire. La moyenne de cette variable transformée n’a
aucun sens véritable. En revanche, il ne faut pas s’abstenir de transformer
une variable sous prétexte que l’interprétation des résultats sera plus
ardue par la suite.
Une variable transformée
améliore
généralement les résultats.
En pratique, les distributions parfaitement normales n’existent pas :
elles dérogent toutes à divers degrés à la normalité. Pour une dérogation
modérée, Tabachnik et Fidell (2001) recommandent une transformation
par la racine carrée (square root). Pour une dérogation plus grave, elles
proposent une transformation logarithmique (log) ou inverse (inverse).
Sinon, on doit se résoudre à en faire une variable dichotomique.
Une transformation est nécessaire lorsque l’écart entre la moyenne et
la médiane est élevé. Une fois la variable transformée, la moyenne sera
égale à la médiane. La médiane n’est pas affectée par la grandeur des
scores, mais plutôt par le nombre de scores. La plupart du temps, nous
ajoutons une constante à chaque score afin d’éviter de transformer le
score zéro.
Une fois la transformation exécutée, il convient de vérifier si la
distribution est devenue normale. Sinon, une transformation différente
s’avérera peut-être plus efficace.
Quelle est la procédure SPSS
qui permet d’exécuter ces transformations ?
C’est la procédure Compute sous la rubrique Transform.
8. La multicollinéarité
La multicollinéarité se produit lorsque la corrélation entre deux variables
est trop élevée, 0,90 ou plus. Pourquoi doit-on se méfier des corrélations
trop élevées ? Parfois, nous créons de toutes pièces une variable :
nommons-la variable constituée. Cette variable constituée est créée en
fusionnant plusieurs autres variables : nommons-les variables
constituantes. Par erreur, deux variables constituées ont pu être créées à
l’aide d’une variable constituante commune, ce qui a pour effet de les
rapprocher l’une de l’autre. Ce rapprochement est à éviter.
Dans le tableau suivant, Var1 et Var2 sont des variables constituées qui
partagent, cependant, une variable constituante commune, R5. Les
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 18
variables X, H et T sont des variables constituantes uniques. S’il y avait
lieu de calculer le coefficient de corrélation entre Var1 et Var2, ce
coefficient serait indûment élevé à cause de la variable R5 qu’elles
partagent.
Variables constituées
Var1
Var2
Variables constituantes
X1 + X2 + X3 + R5 + T9
H1 + H2 + H3 + R5
Deux variables peuvent être fortement corrélées si elles mesurent toutes
les deux le même concept, par exemple le montant que vous dépensez
pour l’achat de livres de lecture et l’importance que vous accordez à la
lecture.
Comment se fait-il que, dans la plupart des analyses corrélationnelles,
nous recherchons des coefficients de corrélation élevés ? Dans l’analyse
factorielle, la détermination des facteurs prend appui sur les corrélations
entre les variables. Dans ces cas, les variables qui mesurent un même
concept se retrouveront sous un même facteur. Les facteurs regroupent
des variables en étroite corrélation entre elles.
Dans d’autres analyses aussi, on est en droit de rechercher des
corrélations élevées entre les variables. Par exemple, dans une analyse
de variance avec mesures répétées où on administre la même mesure à
plusieurs reprises, on souhaite obtenir une forte corrélation entre les
variables dépendantes répétées.
Heureusement, dans les situations où la multicollinéarité représente un
risque à éviter (par ex. la régression multiple), des procédés statistiques
ont été conçus pour la découvrir et pour éliminer autant de variables qu’il
est nécessaire pour éviter que les résultats soient affectés par cette
situation.
Lorsque vous ferez des analyses de régression,
méfiez-vous des coefficients de corrélation
de 0,90 ou plus entre vos variables.
9. Les valeurs manquantes
Comment l’absence d’une donnée peut-elle influencer les résultats d’une
analyse statistique ? Nous savons qu’une seule donnée affecte les
résultats par sa seule présence. Mais, son absence aussi affecte les
résultats des analyses statistiques Une donnée manquante affecte encore
plus les résultats si l’échantillon est petit.
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 19
Plus la proportion de données manquantes
est grande par rapport au nombre de cas,
plus ces absences risquent de fausser les résultats.
Le nombre de valeurs manquantes est important à connaître. Mais il est
aussi déterminant de savoir si ces absences sont reliées ou non à
d’autres variables. Se peut-il, par exemple, que les personnes qui n’ont
pas indiqué leur salaire sont en majorité des hommes dont le niveau
d’éducation est élevé ? Ou bien sont-ils autant des hommes que des
femmes possédant divers niveaux d’éducation ? Les valeurs manquantes
affectent moins les résultats si elles sont distribuées de façon aléatoire par
rapport aux autres variables. Dès que ces absences portent sur certaines
valeurs plutôt que d’autres, la variance en est affectée tout autant que les
résultats.
Le profil des valeurs manquantes
est plus important que leur nombre.
Pour savoir à quel point les valeurs manquantes à la variable Salaire, par
exemple, influencent les résultats, on crée une variable dichotomique
(dummy variable) qui sépare les cas en deux groupes. Le premier groupe
comprend les cas indiquant un salaire, tandis que le deuxième groupe est
constitué des cas dont le salaire n’a pas été mentionné. Ces deux groupes
sont ensuite comparés entre eux quant aux autres variables afin de savoir
s’ils sont équivalents ou non par rapport à ces variables ciblées.
S’il existe une différence entre les deux groupes quant à une variable
mesurant, par exemple, le niveau d’éducation, on est fondé à conclure que
les cas dont les valeurs manquent à la variable Salaire ne sont pas répartis
également entre les divers niveaux d’éducation. En exécutant un test t, si
la moyenne du niveau d’éducation est significativement plus élevée pour
le groupe dont le salaire n’a pas été indiqué, il s’ensuit que le niveau
d’éducation de ce groupe est plus élevé que pour le groupe dont le salaire
a été indiqué.
Si la différence entre les deux groupes n’est pas significative, on peut
affirmer sans crainte que les cas dont le salaire n’a pas été indiqué ont
atteint divers niveaux d’éducation. On ne peut donc pas prétendre que la
plupart des personnes n’ayant pas indiqué leur salaire sont plutôt peu
instruites ou très instruites. Si la différence entre les deux groupes n’est
pas significative, leur absence des analyses statistiques ne produit aucun
effet sur les résultats.
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 20
?
R
Combien de valeurs manquantes faut-il à une variable pour qu’on
prenne des dispositions permettant de vérifier leur effet sur les
résultats avant de procéder aux analyses statistiques prévues ?
5 % ou plus
(d’après Tabachnik et Fidell (2001))
En admettant que les personnes dont le salaire n’a pas été indiqué sont
très instruites et que l’objectif principal de la recherche consiste à
mesurer l’attitude des citoyennes et des citoyens à l’égard d’une nouvelle
politique de développement économique, il est possible qu’en l’absence
de ces personnes instruites la variabilité dans l’attitude soit
considérablement réduite. À défaut de ces cas, il est même possible
qu’aucune relation soit décelée entre le niveau d’éducation et l’attitude à
l’égard de la politique de développement économique régional.
10. Le sort réservé aux valeurs manquantes
Quel sort doit-on réserver aux valeurs manquantes ? Voici diverses
possibilités.
(1) Éliminer les cas au sujet desquels la valeur est manquante
(listwise deletion). Par défaut, SPSS élimine les cas dont la valeur est
manquante à la variable analysée. Cependant, si le test t indique qu’en
éliminant les cas présentant des valeurs manquantes la variabilité de
d’autres variables est diminuée de façon significative, cette possibilité
n’est pas recommandée.
(2) Éliminer la variable affectée par les valeurs manquantes.
C’est une solution viable si on peut remplacer cette variable par une autre
se trouvant en étroite corrélation avec elle. Dans le cas du Niveau
d’éducation, les substituts sont rares. On devra peut-être procéder
autrement afin d’introduire cette variable dans les analyses plutôt que de
l’éliminer carrément.
(3) Remplacer les valeurs manquantes par des valeurs estimées.
Plutôt que d’éliminer certains cas des analyses, on peut leur attribuer des
valeurs estimées à partir des autres variables de la recherche en cours ou
même en s’inspirant d’autres recherches.
On peut aussi remplacer une valeur manquante par la moyenne de groupe.
L’effet de ce remplacement augmentera la concentration des scores
autour de la moyenne. Si une variable comporte 30 % de valeurs
manquantes, il est bien évident que cette méthode d’estimation réduit
grandement la variabilité. Avec un nombre aussi considérable de valeurs
manquantes, il faut même songer à éliminer cette variable des analyses.
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 21
Avant de prendre cette décision draconienne, il est prudent de comparer
les cas affichant des valeurs manquantes aux autres cas de la façon décrite
précédemment.
Cette méthode de remplacement ou de substitution peut être grandement
améliorée si elle se fait à l’égard du sous-groupe plutôt que du groupe
entier. Comme le salaire des hommes instruits diffère probablement de
celui des femmes instruites, il vaut mieux remplacer les valeurs
manquantes de chacun de ces deux groupes par la moyenne calculée
au sein de chacun de ces groupes.
Si vous croyez que l’âge fait varier le salaire, il est possible d’améliorer
d’un cran la substitution en calculant une moyenne selon le groupe d’âge,
le sexe et le niveau de scolarité. En fait, il s’agit d’attribuer une valeur (un
salaire) la plus spécifique possible à chaque cas, augmentant ainsi la
variabilité de la variable Salaire. Pour chaque groupe d’âge et chaque
niveau de scolarité, on calcule la moyenne de salaire des hommes et des
femmes, par exemple. S’il y a huit groupes d’âge et sept niveaux de
scolarité, en plus des deux sexes, on doit calculer 112 moyennes
différentes (8 x 7 x 2). Ouf ! Ensuite, pour chaque cas dont le salaire est
absent, on attribue l’une des 112 moyennes selon que ce cas correspond à
l’une des 112 combinaisons de critères. Évidemment, il est impératif de
démontrer que ces critères influencent la variabilité de la variable
Salaire. Le nombre de combinaisons paraît énorme. Cependant, la
procédure Means du progiciel SPSS permet d’obtenir rapidement
l’information nécessaire.
Le procédé de remplacement des données manquantes par la moyenne de
groupe est alléchant parce qu’il est facile à appliquer. Par contre, il
augmente la concentration des scores autour de la moyenne et réduit ainsi
la variabilité. Si vous remplacez les valeurs manquantes par la moyenne
de groupe et que, par la suite, la variable concernée est corrélée avec une
autre, le coefficient sera réduit par comparaison au coefficient obtenu
lorsque les valeurs manquantes ne sont pas remplacées.
Certaines procédures du Progiciel SPSS permettent de remplacer les
valeurs manquantes par la moyenne de groupe : ce sont la régression
multiple, l’analyse factorielle et l’analyse discriminante.
Toutefois, de meilleures méthodes existent. Le module Missing Values
Analysis (MVA) est conçu pour traiter les valeurs manquantes. Le module
MVA offre, en particulier, deux procédures raffinées visant à remplacer
les valeurs manquantes.
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 22
La première consiste à calculer une équation de régression à partir des
données réelles des cas où les scores sont présents. La variable
dépendante est prédite à partir des variables indépendantes jugées
pertinentes. La régression présente l’avantage de prédire un score à partir
d’un ensemble de variables signifiantes, ce qui est plus précis que le
remplacement par la moyenne de groupe.
Par contre, la régression, si elle est plus objective et plus précise, diminue
encore plus la variance que le remplacement par la moyenne du groupe
entier ou du sous-groupe. De plus, les variables indépendantes doivent
être reliées à la variable comportant des valeurs manquantes, sinon le
produit final ne sera pas différent du remplacement par la moyenne de
groupe.
La deuxième technique qu’expose le module MVA est celle dite de
l’expectation maximization. Tabachnik et Fiddell (2001) la décrivent
sommairement comme tant d’autres. Elle consiste à estimer des scores
manquants à partir des scores obtenus.
Il n’y a rien de simpliste à cette affirmation, puisqu’on peut parfois en cas
opportun remplacer les valeurs manquantes par des valeurs tirées d’une
autre source. Par exemple, si plusieurs personnes n’ont pas indiqué leur
salaire et que nous savons, par ailleurs, que ce sont des enseignantes et
des enseignants, on leur attribuera le salaire moyen connu en fonction du
nombre d’années d’expérience. Cette information peut être obtenue de
leur association professionnelle.
11. Les valeurs manquantes relèvent
en majorité d’une minorité de cas
La consultation d’un fichier SPSS s’avère souvent fructueuse. Il est
fréquent, par exemple, que la plupart des valeurs manquantes sont
associées à un sous-groupe d’individus ou à quelques variables. La
fonction Trie aide à déterminer rapidement un profil dans les données
manquantes.
Dans le cas où la plupart des valeurs manquantes seraient associées à
quelques variables, il importe, avant de les remplacer, de tenter de
découvrir pourquoi il en est ainsi. Il faudra même songer à les éliminer
carrément de crainte que le remplacement de ces valeurs manquantes
fausse les résultats. Quoi qu’il en soit, dès que les valeurs manquantes
représentent un profil quelconque, la substitution n’est pas toujours la
meilleure solution lorsqu’on souhaite retenir le plus de cas possibles.
Les données passées au crible Donald Long © Centre de recherche et de développement en
éducation (CRDE) Université de Moncton [email protected] (506) 858-4886
page 23