Menage - Université de Moncton
Transcription
Menage - Université de Moncton
Approche quantitative Faire le ménage dans les données Les objectifs pédagogiques Connaître les indicateurs statistiques d’une distribution normale et anormale de scores Pouvoir distinguer les erreurs systématiques des erreurs aléatoires dans une distribution de scores Évaluer l’influence des données manquantes sur les analyses statistiques Savoir identifier une variable mal définie Connaître les procédures du progiciel SPSS permettant d’examiner les données et de corriger les déficiences dans une distribution de scores Connaître les principales transformations qui peuvent être appliquées à une distribution anormale de scores Être capable de détecter la multicollinéarité Savoir comment reconnaître un profil dans les valeurs manquantes Savoir comment traiter les valeurs manquantes dans le cadre des analyses statistiques Le sommaire 1. Corrige ou ne corrige pas ? 2. Cherchez l’erreur 3. Trouvez l’erreur 4. Catégories de variables 5. Les indicateurs statistiques de normalité ou d’anormalité 6. Les valeurs extrêmes 7. Les transformations courantes de données 8. La multicollinéarité 9. Les valeurs manquantes 10. Le sort réservé aux valeurs manquantes 11. Les valeurs manquantes relèvent en majorité d’une minorité de cas Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 1 1. Corrige ou ne corrige pas ? De façon générale, les données de recherche doivent être analysées telles qu’elles sont recueillies : tout réaménagement ou toute transformation des scores risque de modifier la signification réelle des données. La plupart du temps, afin de bien refléter la réalité, les données doivent être analysées telles quelles. Cependant, nous tenterons de soulever dans le présent document les situations dans lesquelles il convient de modifier une distribution de scores afin de corriger un aspect déficient. Avant tout, nous mettrons l’accent sur la nécessité d’examiner les données avant de se lancer aveuglément dans les analyses statistiques. Nous verrons que la zone de démarcation entre une distribution acceptable et une distribution inacceptable de données est aussi floue que large. Ce n’est pas par caprice qu’on apporte des changements à une distribution de scores : cette décision doit être prise à la lumière d’indicateurs statistiques reconnus, évitant ainsi des erreurs de jugement. Heureusement, les logiciels d’analyses statistiques contiennent diverses procédures permettant d’épurer les données d’une recherche. 2. Cherchez l’erreur Il est d’autant plus facile de trouver une erreur dans les données qu’on a un portrait-robot des données attendues. Les véritables trouvailles n’arrivent pas toujours par hasard. Il existe, bien sûr, des erreurs fortuites qui peuvent se glisser dans un fichier de données. Ces erreurs isolées sont généralement banales. Par exemple, dans l’entrée des données, le score 9 à été entré au lieu du score 3. Surtout dans un fichier constitué d’un nombre considérable de cas, une erreur fortuite comporte peu de conséquences sur les résultats des analyses. Les erreurs dont nous devons nous guetter sont les erreurs systématiques, celles qui imposent un biais constant et pervers. Pour les retrouver dans un fichier, nous devons apprendre à les reconnaître. Comme des fugitifs, elles savent se déguiser et passent souvent inaperçues. Voici des exemples d’erreurs graves. Erreur no 1 Un grand nombre de valeurs manquant à une variable Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 2 Pour diverses raisons il arrive qu’on s’abstient de répondre à une question. Par exemple, bien des gens n’aiment pas dévoiler leur salaire dans une enquête ou un sondage. Si ce sont surtout les hauts salariés qui ne veulent pas préciser leur salaire, la relation entre le salaire et d’autres variables sera diminuée. Si ces valeurs manquantes sont distribuées également dans toutes les catégories de salaire, leur influence sur les résultats sera moindre de ce fait. Le danger survient lorsque les données manquantes peuvent être reliées à certaines valeurs d’une variable. Par exemple, vous pourriez découvrir que les personnes qui se sont abstenues de répondre à une question particulière sont surtout des hommes ou surtout ceux vivant en milieu rural ou encore les hauts salariés. Dans tous ces cas, l’erreur est grave puisqu’elle diminue la variabilité d’une distribution de scores. La force de la relation entre les variables peut être diminuée par cette réduction de variabilité. Comment la variabilité peut-elle diminuer lorsque plusieurs répondantes et répondants ont été éliminés des analyses statistiques ? Si ces personnes représentent un groupe homogène dont les scores se situent surtout à un endroit particulier de l’échelle de mesure, il s’ensuit que la moyenne change tout comme l’écart type. Par exemple, si des bas salariés en milieu rural ne répondent pas à certaines questions, il est possible que la plupart auraient fait un choix de réponse à peu près similaire. Le tableau qui suit indique le nombre de filles et de garçons qui ont participé à un sondage. Tous ont indiqué leur sexe. Le nombre de filles et de garçons Fréquence Valide Filles Garçons Total Pourcentage Pourcentage valide Pourcentage cumulatif 11 55,0 55,0 55,0 9 45,0 45,0 100,0 20 100,0 100,0 Cet autre tableau montre le nombre de ces répondantes et répondants âgés de 10 à 13 ans. Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 3 Nombre de filles et de garçons âgés de 10 à 13 ans Fréquence Pourcentage Pourcentage valide Pourcentage cumulatif 10 2 10,0 11,8 11,8 11 3 15,0 17,6 29,4 12 9 45,0 52,9 82,4 13 3 15,0 17,6 100,0 Total 17 85,0 100,0 Système 3 15,0 20 100,0 ÂGE Valide Manquant Total On constate que 3 d’entre eux (15 %) n’ont pas indiqué leur âge. Sont-ce des garçons seulement, des filles seulement ou des garçons et des filles ? On ne sait toujours pas si les personnes qui n’ont pas indiqué leur âge sont des garçons ou des filles. Pour le savoir, il s’agit de croiser les variables Âge et Sexe et d’examiner les cellules du tableau croisé. Dans ce cas-ci, nous avons attribué la valeur 99 aux personnes qui n’ont pas indiqué leur âge. Un troisième tableau permet de constater que ce sont uniquement des garçons qui n’ont pas indiqué leur âge. Le nombre de filles et de garçons âgés de 10 à 13 ans Âge Féminin 10 11 12 13 2 2 4 2 1 5 1 3 10 3 9 3 3 20 Masculin Total 2 99 Total 10 Vous avez sûrement compris que, si on cherche à établir une relation entre l’âge et une autre variable, • la corrélation variera à cause des valeurs manquantes et • cette relation s’appliquera plus aux filles qu’aux garçons. Erreur no 2 Une variable mal définie ¨ Une variable peut être mal définie si la question ne présente pas toutes les valeurs de la variable. La question suivante porte sur l’état civil. Quel est votre état civil ? A. Célibataire B. Marié ou mariée C. Veuf ou veuve Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 4 Les personnes qui cohabitent sans être mariées se retrouvent, pour ainsi dire, assises entre deux chaises. ¨Une variable peut être mal définie si les catégories de réponse sont de grandeur inégale surtout lorsque les analyses statistiques seront de type corrélationnel. Par exemple, vous mesurez les années d’expérience au moyen de la question suivante : Combien comptez-vous d’années d’expérience en enseignement ? A. 1 à 3 années B. 4 à 8 années C. 9 à 15 années D. 16 années ou plus Dans ce dernier cas aussi la variabilité est diminuée à cause de la façon de catégoriser les années d’expérience. Le nombre de catégories est restreint, alors qu’il eut été facile d’en faire une variable de proportion (variable continue). Sous la forme actuelle, ce n’est qu’une variable ordinale de piètre qualité. Elle est de piètre qualité parce qu’elle comporte une déficience majeure : le nombre de répondantes et de répondants risque d’être démesurément élevé dans la dernière catégorie (16 années d’expérience ou plus). Cette catégorie comprend toutes les personnes dont le nombre d’années d’expérience varie de 16 à 35, soit une étendue de 20 années. Les trois autres catégories de réponse regroupées totalisent 15 années d’expérience. Autrement dit, il pourrait y avoir plus d’individus dans une seule catégorie de réponses que dans toutes les autres catégories, un peu comme le montre la figure suivante. 1à3 4à8 9 à 15 16 ou + Pourcentage 100 80 60 40 20 0 Erreur no 3 Catégories d'années d'expérience Le manque de représentativité de l’échantillon L’échantillon qui, en théorie, doit représenter la population peut déroger de façon significative. L’écart entre les deux est parfois facile à détecter. Surtout si l’échantillon n’a pas été constitué selon un tirage au hasard, Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 5 il s’avère prudent de comparer les statistiques de l’échantillon avec les paramètres de la population. Même avec un échantillon au hasard, s’il est de petite taille, cet échantillon risque de déroger à la population. Pour réaliser cette comparaison il faut connaître les paramètres de la population tels que, notamment, la répartition des sexes, le niveau d’éducation et l’âge. Certains paramètres sont plus importants que d’autres. Si l’échantillon se compose de 65 % de femmes, nous savons que les femmes sont sur-représentées dans un pourcentage de 14 %, puisque que la représentation des femmes dans la population est d’environ 51 % : idéalement, l’échantillon devrait comprendre 51 % de femmes. Cet écart entre les hommes et les femmes est d’autant plus important que bien des aspects de la recherche peuvent être reliés au sexe des répondantes et des répondants. Par exemple, votre recherche porte sur l’attitude envers les professions traditionnelles et non traditionnelles. Comme nous savons déjà que l’attitude des hommes et des femmes varie à ce sujet, si l’échantillon comprend 14 % plus de femmes que dans la population totale, il s’ensuit que le score de l’ensemble des répondantes et des répondants représente plus la réalité féminine que masculine. Les résultats pourraient montrer une plus grande différence que dans la population générale. En ce sens, les résultats seraient biaisés. Certaines variables de l’étude seront plus affectées que d’autres par le manque de représentativité de l’échantillon. Il faudra y faire attention à cet aspect surtout pour les variables déterminantes pour l’étude. Où peut-on trouver des informations concernant les paramètres de la population ? Dans bien des cas il suffit de consulter les recensements périodiques réalisés par Statistique Canada conservés dans les bibliothèques universitaires et les grandes bibliothèques publiques. Ces documents vous permettront de juger si votre échantillon est représentatif ou non. S’il ne l’est pas, vous saurez au moins que vos résultats pourront être biaisés et qu’il vaut mieux ne pas tenter de généraliser vos résultats à la population totale visée. Il est utile de connaître à l’avance les paramètres de la population. Dans une enquête téléphonique, il est possible d’interroger un homme plutôt qu’une femme si, jusque-là, les hommes sont sous-représentés. Ce n’est guère compliqué d’équilibrer le nombre d’hommes et de femmes dans un échantillon, même lorsque l’enquête est en cours. Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 6 3. Trouvez l’erreur En comparant les statistiques de l’échantillon avec les paramètres de la population, les erreurs d’échantillonnage deviennent souvent évidentes. Très vite on est en mesure de savoir à quel point les résultats tirés de l’échantillon sont applicables ou généralisables à la population. Cependant, même si l’échantillon est représentatif, il n’en demeure pas moins que la distribution d’une variable quelconque peut être déficiente. Avant de procéder à des analyses statistiques, il existe des moyens simples et efficaces de reconnaître ces biais et, dans la plupart des cas, de les corriger. Le progiciel SPSS renferme diverses procédures conçues pour examiner des distributions de scores et déterminer les aspects déficients d’une distribution. Avant de faire appel à ces procédures, il convient d’établir une distinction entre une variable nominale et une variable continue. La raison est simple : plus la variabilité est grande dans une distribution, plus la probabilité augmente que cette distribution soit déformée. 4. Catégories de variables On parle souvent de deux grandes catégories de variables : la variable nominale et la variable continue. Une variable nominale est formée de catégories indépendantes l’une de l’autre. Il n’y a pas non plus de progression entre les catégories. Une variable nominale ne possède pas, à proprement parler, de variance : par exemple, le sexe, l’état civil. Une variable est continue lorsque la distribution des scores s’étend de 0 à l’infini. La majorité des tests statistiques portent sur les variables continues. Voici quelques exemples de variables continues : le nombre d’heures passées à lire, le salaire, la vitesse d’exécution d’une tâche, la température. La distribution d’une variable continue peut être représentée par des valeurs de tendance centrale et de dispersion. Par ailleurs, ces valeurs, aussi indispensables qu’elles puissent être, ne suffisent pas à déterminer si une distribution est normale ou déficiente d’une quelconque façon. Pour ce faire, et surtout en cas de doute, il vaut mieux se fier à des indicateurs statistiques conçus à cet effet. 5. Les indicateurs statistiques de normalité…ou d’anormalité Comment obtient-on ces indicateurs ? Deux procédures dans le Progiciel SPSS permettent de vérifier le degré de normalité d’une variable. Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 7 Sous la rubrique Analyze on trouve Frequencies et Descriptives. Tous les atouts de Descriptives sont inclus dans Fréquencies, et plus. Sentez-vous à l’aise d’utiliser Fréquencies exclusivement. Vous pouvez obtenir les valeurs descriptives d’une variable seulement ou de plusieurs variables à la fois. Dans le présent exemple, les valeurs descriptives ont été sollicitées pour les variables Âge et Coûts à la fois. D’abord, on obtient un tableau de distribution pour chacune d’elles montrant les valeurs descriptives (tableaux 1 et 2). Ensuite, un autre tableau (tableau 3) donne des informations sur les indicateurs statistiques décrivant chacune des deux distributions. Voici une question souvent posée concernant un tableau de fréquences. ? R Quelle distinction y a-t-il entre la colonne intitulée Pourcentage et la colonne intitulée Pourcentage valide ? Le pourcentage est soit calculé en fonction de tous les cas du fichier (Pourcentage) ou uniquement des cas qui ont une valeur réelle pour cette variable (Pourcentage valide). Exemple (Pourcentage) 9 / 20 * 100 = 45,0 % (Pourcentage valide) 9 / 19 * 100 = 47,4 % Quant au tableau 1, on constate d’emblée que 47,5 % des personnes qui ont indiqué leur âge sont âgées de 12 ans, ce qui rend la distribution quelque peu asymétrique. Nous verrons plus loin si l’asymétrie est grave ou non. Tableau 1 Les valeurs descriptives de la variable Âge Valide Manquant Total Pourcentage valide Pourcentage cumulatif Fréquence Pourcentage 10 2 10,0 10,5 10,5 11 5 25,0 26,3 36,8 12 9 45,0 47,4 84,2 13 3 15,0 15,8 100,0 Total 19 95,0 100,0 Système 1 5,0 20 100,0 ÂGE Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 8 Tableau 2 Les valeurs descriptives de la variable Coûts COÛTS ($) Valide Manquant Total Fréquence Pourcentage Pourcentage valide Pourcentage cumulatif 13,25 1 5,0 5,3 5,3 26,48 1 5,0 5,3 10,5 26,60 1 5,0 5,3 15,8 37,57 1 5,0 5,3 21,1 41,29 1 5,0 5,3 26,3 63,39 1 5,0 5,3 31,6 67,45 1 5,0 5,3 36,8 75,43 1 5,0 5,3 42,1 82,32 1 5,0 5,3 47,4 84,77 1 5,0 5,3 52,6 87,32 1 5,0 5,3 57,9 108,27 1 5,0 5,3 63,2 134,12 1 5,0 5,3 68,4 163,89 1 5,0 5,3 73,7 169,04 1 5,0 5,3 78,9 179,56 1 5,0 5,3 84,2 228,71 1 5,0 5,3 89,5 231,54 1 5,0 5,3 94,7 435,22 1 5,0 5,3 100,0 Total 19 95,0 100,0 Système 1 5,0 20 100,0 Pour ce qui est du tableau 2, on observe que chaque valeur est unique : il n’y a qu’un seul représentant pour chaque valeur. Les valeurs varient entre 13,25 $ et 435,22 $. Le tableau 3 fournit les valeurs statistiques associées aux variables Âge et Coûts. Certaines méritent qu’on s’y attarde. Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 9 Tableau 3 Les valeurs statistiques associées aux variables Âge et Coûts ÂGE COÛTS Valide 17 19 Valeurs manquantes 3 1 11,76 118,75 Erreur type de la moyenne ,22 23,28 Médiane 12 84,77 Mode 12 13,25a Écart type ,90 101,47 Variance ,82 10296,96 Asymétrie -,63 1,82 Erreur type de l'asymétrie ,55 ,52 Kurtose ,09 4,28 Erreur type de la kurtose N Moyenne 1,06 1,01 Étendue 3 421,97 Minimum 10 13,25 Maximum 13 435,22 Somme 200 2256,22 a. Plusieurs modes existent : la plus petite valeur seulement est montrée. Si nous tirons un grand nombre d’échantillons et que nous calculons la moyenne d’âge et l’écart type pour chacun de ces échantillons, la moyenne des écarts type constituerait l’erreur type de la moyenne. Plus les variations sont importantes entre les échantillons, plus l’erreur type est grande. De même, plus la taille de l’échantillon se rapproche de la population quant au nombre, plus l’erreur type se rapproche de zéro. Comme il est possible de calculer la moyenne et l’écart type d’un seul échantillon, il est aussi possible de calculer l’erreur type. L’erreur type d’une statistique (standard error) se définit, selon Legendre, comme l’écart type de la distribution des écarts de mesure. L’erreur type aide à préciser, pour chaque sujet observé (cas), les limites d’un intervalle de confiance à l’intérieur duquel son score réel a le plus de chance de s’y trouver. L’erreur type n’est pas une « erreur » à proprement parler. Elle représente plutôt une mesure de l’étendue d’une statistique. L’erreur type de la moyenne représente en quelque sorte la moyenne des écarts type à la moyenne. L’écart type est une mesure de dispersion des scores d’une distribution. Il traduit la distance moyenne des scores à la moyenne de la distribution. Un écart type peu élevé indique que les scores sont, pour la plupart, situés près de la moyenne. Un écart type élevé indique qu’il y a des scores Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 10 éloignés de la moyenne : un seul score fortement éloigné de la moyenne peut faire gonfler la valeur de l’écart type. Si la moyenne est de 12,5 et l’écart type de 3,4, on conclut que 68,26 % des scores sont situés à un écart type de la moyenne. Quel pourcentage de cas est situé à deux écarts type de la moyenne ? Réponse : 95,44 %. Un écart type de la moyenne 3,4 - 12,5 + 3,4 = 9,1 --- 15,9 Deux écarts type de la moyenne 6,8 - 12,5 + 6,8 = 5,7 --- 19,3 Trois écarts type de la moyenne 10,2 - 12,5 + 10,2 = 2,3 --- 22,7 À un écart type de la moyenne, 68,26 % des cas se trouvent entre les valeurs 9,1 et 15,9. À deux écarts type de la moyenne, 95,44 % des cas se trouvent entre les valeurs 5,7 et 19,3. Enfin, à trois écarts type de la moyenne, 99,72 % des cas se retrouvent entre les valeurs 2,3 et 22,7. ? R Lorsque l’écart type est plus élevé que la moyenne, quelles en sont les conséquences ? Par exemple, la moyenne = 8,9 et l’écart type = 21,3 Une telle situation se produit lorsque l’étendue des scores est grande. Il se peut fort bien que quelques scores seulement, ou même un seul, soient à l’origine de cette situation. Un écart type plus élevé que la moyenne doit servir de signal d’alarme. La médiane représente la valeur de la distribution où 50 % des cas ont une valeur inférieure et, par conséquent, 50 % des cas ont une valeur supérieure. Le mode constitue la valeur la plus fréquente de la distribution. Il est donc possible d’observer plusieurs modes dans une distribution. Pour la variable Âge, il n’y a qu’un seul mode : la valeur 12. Pour la variable Coûts, cependant, les modes sont aussi nombreux qu’il y a de valeurs dans la distribution. Dans une distribution dite normale, la moyenne, la médiane et le mode se trouvent au même endroit sur un graphique. Plus la distribution devient anormale ou asymétrique, plus la distance s’accroît entre ces indicateurs statistiques. Il s’agit alors de déterminer si cette distribution particulière est déficiente et inacceptable. Un peu plus loin vous apprendrez comment prendre une telle décision. Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 11 ? Une distribution bi-modale peut-elle être cause d’inquiétudes aux chercheuses et aux chercheurs? R La figure 1 qui suit atteste la présence de deux modes. Figure 1 Distribution des opinions attestant la présence de deux modes Complètement d'accord 38,5 Modérément d'accord 12,1 Un peu d'accord 2,6 Un peu en désaccord 3,4 Modérément en désaccord 9,8 Complètement en désaccord 33,6 0 20 40 60 80 100 Pourcentage de cas Une telle distribution peut devenir un cauchemar. À vrai dire, elle est tout à fait contre-indiquée pour certaines analyses statistiques. Il vaut mieux dans un tel cas rendre la variable dichotomique en formant un groupe se disant en désaccord et un autre groupe se disant d’accord. Ainsi, les analyses statistiques qui conviennent pour ce type de variable rendront justice à la distribution. C’est une médecine forte qui permet d’éviter d’obtenir de faux résultats statistiques au moyen d’analyses qui utiliseraient la variable originale. Toutes les analyses statistiques fondées sur la variance et sur la corrélation sont affectées par une distribution ayant deux ou plusieurs modes. L’étendue des scores mesure l’écart entre la plus petite et la plus grande valeur. Pour la variable Coûts, l’étendue est 435,22 $ - 13,25 $ = 421,97 $. La variance est un concept primordial en statistique. Comment calcule-ton la variance ? La variance se calcule en portant l’écart type au carré. Pour la variable Coûts, la variance est de 101,472 = 10 296,96. En fait, la variance est la somme élevée au carré de tous les écarts à la moyenne. Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 12 La somme représente tout simplement l’addition de tous les scores d’une distribution. L’asymétrie (skewness) porte sur la forme générale de la distribution. Une distribution est symétrique si sa moyenne, sa médiane et son mode se trouvent au même endroit sur un graphique. Justement, la figure 2 correspond à une distribution symétrique parce que la moitié gauche peut être repliée pour ainsi dire sur la partie droite. La figure 3 est une distribution positivement asymétrique. La figure 4 est négativement asymétrique. Figure 2 Figure 3 Figure 4 Une variable asymétrique est caractérisée par une moyenne éloignée du centre de la distribution. On découvre l’asymétrie à l’aide d’une figure ou même d’un tableau de fréquences. Pour mieux évaluer l’importance de l’asymétrie il existe un indice statistique. Les valeurs d’asymétrie des variables Âge et Coûts sont respectivement -0,36 et 1,82 (Tableau 3). Plus cette valeur s’approche de zéro plus la distribution est normale. Comment fait-on pour déterminer si la valeur de l’asymétrie est importante ou non ? À partir de quelle valeur doit-on songer à transformer la distribution de scores ? Un test statistique permet de déterminer si l’asymétrie dépasse les lois de la probabilité : le test z. En voici le calcul. L’erreur type de l’asymétrie est : ss = √6/N Ss = √6/19 = √0,316 = 0,562 La valeur N représente le nombre de cas. La valeur obtenue est rapportée à une table de distribution z (hypothèse nulle) qu’on trouve aisément en annexe de la plupart des livres portant sur la statistique. z=S-0 ss z = 1,82- 0 = 3,24 0,562 Pour la variable Coûts, la valeur z est de 3,24. Nous savons, par ailleurs, qu’une valeur z inférieure à 1,96 signifie que cette variation est Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 13 acceptable et qu’elle se situe à l’intérieur des limites accordées par le hasard de l’échantillonnage. Comme la valeur z est de 3,24, l’hypothèse nulle est donc rejetée (1,96). Autrement dit, l’asymétrie est grave. Pour la variable Âge, par contre, l’asymétrie n’atteint que la valeur z de 1,57, ce qui ne dépasse pas le seuil de probabilité 0,05 (z = 1,96). Le calcul n’est pas montré. Dans ce cas, l’hypothèse nulle est acceptée : l’asymétrie n’est pas assez grave pour que l’on songe à transformer la variable. La kurtose fournit de l’information sur la concentration des scores. Une distribution de scores peut être trop évasée (Figure 5) ou trop pointue (Figure 6). Plus les scores sont concentrés autour de la moyenne ou sont éloignés de la moyenne, plus élevée est la kurtose. Le calcul de la kurtose suit une démarche similaire à celle de l’asymétrie. Figure 5 Figure 6 Voici le calcul de la kurtose pour la variable Coûts. sk = √24/N = √1,263 = 1,124 z=k-0 sk z = 4,28 = 3,81 1,124 Pour la variable Coûts, il semble bien que la kurtose soit importante. La valeur z associée à cette variable est 3,81. Ici encore, l’hypothèse nulle est rejetée. Pour la variable Âge, la kurtose n’est pas significative (z = 0,22) : l’hypothèse nulle est acceptée. En voici le calcul. sk = √24/N = √1,263 = 1,124 z=k-0 sk = -0,25 = 0,22 1,124 Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 14 Pour mieux saisir à quel point la variable Coûts déroge à la normalité, nous avons classé les coûts en cinq catégories. La figure 7 ci-dessous montre clairement pourquoi l’asymétrie et la kurtose sont statistiquement significatives. Figure 7 Les catégories de Coûts Fréquence 12 11 8 5 4 2 1 0 0 1-100 $ 101-200 $ 201-300 $ 301-400 $ 401-500 $ En fait, une valeur particulière (435,22 $) accentue l’anormalité de la distribution. Que peut-on faire pour remédier à la situation ? ¨Premièrement, on peut éliminer cette valeur. ¨Deuxièmement, on peut appliquer une transformation quelconque (par exemple, logarithmique) à toutes les valeurs de la distribution, ce qui aura pour effet d’écourter la queue trop longue de la distribution. ¨Troisièmement, on peut conserver la distribution comme telle si on juge qu’elle est le fruit du hasard de l’échantillonnage et qu’elle représente bien la réalité. Voyons plus en détail comment traiter une valeur extrême dans une distribution. 6. Les valeurs extrêmes Une valeur extrême est une valeur qui se détache de l’ensemble des autres valeurs d’une variable. La Figure 7 illustre le cas d’une valeur extrême. On découvre les valeurs extrêmes dans une variable à l’aide des procédures Frequencies et, surtout, d’Explore. La procédure Explore permet d’obtenir les valeurs z. Une valeur z supérieure à 3,29 (p = 0,001) est généralement considérée comme extrême. La procédure Explore ajoute au fichier de données une valeur z pour chaque cas. Il est donc possible, par la suite, d’obtenir les descriptives de cette nouvelle variable grâce à la procédure Frequencies, Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 15 laquelle permet aussi d’obtenir un histogramme montrant encore plus clairement les valeurs extrêmes. Les valeurs extrêmes peuvent affecter autant une variable dichotomique qu’une variable continue. Pour une variable dichotomique, si les proportions sont de 10-90 (par exemple, 10 % ont répondu « oui » et 90 % ont répondu « non »), on doit songer à éliminer cette variable. En fait, cette variable ressemble plutôt à une constante. Pour Tabachnik et Fidell (2001) quatre situations conduisent à la création de valeurs extrêmes. (1) Une erreur s’est produite lors de l’entrée des données. (2) On a oublié de préciser les valeurs manquantes de sorte que certaines valeurs sont « lues » et considérées comme des valeurs réelles. (3) Un cas s’est glissé dans un groupe auquel il n’appartient pas. (4) Les valeurs extrêmes sont des valeurs réelles. Dans ce cas, on doit décider si elles sont légitimes ou non. Les valeurs extrêmes pourront être conservées intactes, être éliminées carrément ou être transformées. La détermination ou la découverte des valeurs extrêmes peut se faire sur le plan de l’échantillon total ou pour chacun des sous-groupes. Lorsque nous prévoyons faire des analyses en fonction de sous-groupes, il est logique de rechercher les valeurs extrêmes à l’intérieur de chacun de ces sous-groupes. Plus petite est la taille de l’échantillon, plus les valeurs extrêmes affectent les analyses statistiques. Par ailleurs, nous savons que plus une valeur est éloignée de l’ensemble des autres données, plus elle influence la moyenne et toutes les analyses basées sur la moyenne. Une valeur extrême augmente démesurément la variance. La décision de transformer une variable ou d’éliminer une valeur extrême n’est pas toujours facile à prendre. L’objectif consiste toujours à ramener les valeurs extrêmes vers le centre de la distribution. Tabachnik et Fidell (2001) prétendent qu’il est acceptable de changer la valeur extrême en lui donnant la même valeur que l’avant-dernière donnée (plus grande ou plus petite) tout en lui ajoutant une unité de grandeur supplémentaire. Par exemple, si l’avant-dernière valeur est de 35, que les valeurs sont des catégories de 5 et que la valeur extrême est de 65, on donnera la valeur de 40 à la valeur extrême. Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 16 Une transformation logarithmique de la variable Coûts conduit à trois valeurs différentes au lieu de 19. La valeur de 435,22 $ devient 3 : les autres données ont la valeur de un ou deux. Par conséquent, l’ordre des valeurs est le même que pour la variable originaire, mais la variance est fortement diminuée en ramenant vers le centre de la distribution les scores éloignés. Le principal inconvénient d’une variable transformée parmi d’autres variables conservées intactes est qu’on ne peut la regrouper avec d’autres pour exécuter des opérations arithmétiques ou des analyses de variance. Par contre, cette transformation permet d’appliquer sans difficulté des analyses corrélationnelles. ? R Les diverses solutions permettant de traiter une valeur extrême sont-elles d’égale valeur et interchangeables ? ¨Premièrement, il est préférable de changer seulement le score extrême. ¨Deuxièmement, on peut transformer la variable. ¨Troisièmement, le cas peut être éliminé. ¨Quatrièmement, s’il le faut, on élimine la variable. Les valeurs extrêmes apparaissent surtout lorsqu’il s’agit de variables continues où il n’y a pas de plafond à la valeur que peut prendre une variable. Nous utilisons souvent des variables dont chacune des valeurs correspond à un descripteur. Par exemple, 0=pas important, 1=peu important, et ainsi de suite. Avec de telles variables, il est difficile de considérer comme extrêmes des valeurs isolées. La plupart du temps, il vaut mieux conserver intacte la variable et passer aux analyses en utilisant la variable originaire. Les distributions anormales affectent les résultats des analyses statistiques. Voilà pourquoi, au moindre doute, il est crucial de mesurer l’asymétrie et la kurtose, surtout dans les cas où l’échantillon est de taille moyenne ou petite. La décision de transformer une variable ne doit pas être arbitraire. Ce doit plutôt être une décision statistique, une décision prise à la suite de calculs appropriés. 7. Les transformations courantes de données Nous savons déjà que les scores extrêmes affectent moins les résultats des analyses statistiques si l’échantillon est grand (n < 100). Il est recommandé de transformer une variable si elle est la seule de l’ensemble des variables à montrer de l’anormalité. Si toutes les variables sont asymétriques de la même façon, il n’y a pas lieu de les transformer. Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 17 Nous savons aussi qu’une variable transformée est difficile à interpréter. Par exemple, on ne parlera plus de la variable Salaire, mais du « log » du Salaire. La moyenne de cette variable transformée n’a aucun sens véritable. En revanche, il ne faut pas s’abstenir de transformer une variable sous prétexte que l’interprétation des résultats sera plus ardue par la suite. Une variable transformée améliore généralement les résultats. En pratique, les distributions parfaitement normales n’existent pas : elles dérogent toutes à divers degrés à la normalité. Pour une dérogation modérée, Tabachnik et Fidell (2001) recommandent une transformation par la racine carrée (square root). Pour une dérogation plus grave, elles proposent une transformation logarithmique (log) ou inverse (inverse). Sinon, on doit se résoudre à en faire une variable dichotomique. Une transformation est nécessaire lorsque l’écart entre la moyenne et la médiane est élevé. Une fois la variable transformée, la moyenne sera égale à la médiane. La médiane n’est pas affectée par la grandeur des scores, mais plutôt par le nombre de scores. La plupart du temps, nous ajoutons une constante à chaque score afin d’éviter de transformer le score zéro. Une fois la transformation exécutée, il convient de vérifier si la distribution est devenue normale. Sinon, une transformation différente s’avérera peut-être plus efficace. Quelle est la procédure SPSS qui permet d’exécuter ces transformations ? C’est la procédure Compute sous la rubrique Transform. 8. La multicollinéarité La multicollinéarité se produit lorsque la corrélation entre deux variables est trop élevée, 0,90 ou plus. Pourquoi doit-on se méfier des corrélations trop élevées ? Parfois, nous créons de toutes pièces une variable : nommons-la variable constituée. Cette variable constituée est créée en fusionnant plusieurs autres variables : nommons-les variables constituantes. Par erreur, deux variables constituées ont pu être créées à l’aide d’une variable constituante commune, ce qui a pour effet de les rapprocher l’une de l’autre. Ce rapprochement est à éviter. Dans le tableau suivant, Var1 et Var2 sont des variables constituées qui partagent, cependant, une variable constituante commune, R5. Les Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 18 variables X, H et T sont des variables constituantes uniques. S’il y avait lieu de calculer le coefficient de corrélation entre Var1 et Var2, ce coefficient serait indûment élevé à cause de la variable R5 qu’elles partagent. Variables constituées Var1 Var2 Variables constituantes X1 + X2 + X3 + R5 + T9 H1 + H2 + H3 + R5 Deux variables peuvent être fortement corrélées si elles mesurent toutes les deux le même concept, par exemple le montant que vous dépensez pour l’achat de livres de lecture et l’importance que vous accordez à la lecture. Comment se fait-il que, dans la plupart des analyses corrélationnelles, nous recherchons des coefficients de corrélation élevés ? Dans l’analyse factorielle, la détermination des facteurs prend appui sur les corrélations entre les variables. Dans ces cas, les variables qui mesurent un même concept se retrouveront sous un même facteur. Les facteurs regroupent des variables en étroite corrélation entre elles. Dans d’autres analyses aussi, on est en droit de rechercher des corrélations élevées entre les variables. Par exemple, dans une analyse de variance avec mesures répétées où on administre la même mesure à plusieurs reprises, on souhaite obtenir une forte corrélation entre les variables dépendantes répétées. Heureusement, dans les situations où la multicollinéarité représente un risque à éviter (par ex. la régression multiple), des procédés statistiques ont été conçus pour la découvrir et pour éliminer autant de variables qu’il est nécessaire pour éviter que les résultats soient affectés par cette situation. Lorsque vous ferez des analyses de régression, méfiez-vous des coefficients de corrélation de 0,90 ou plus entre vos variables. 9. Les valeurs manquantes Comment l’absence d’une donnée peut-elle influencer les résultats d’une analyse statistique ? Nous savons qu’une seule donnée affecte les résultats par sa seule présence. Mais, son absence aussi affecte les résultats des analyses statistiques Une donnée manquante affecte encore plus les résultats si l’échantillon est petit. Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 19 Plus la proportion de données manquantes est grande par rapport au nombre de cas, plus ces absences risquent de fausser les résultats. Le nombre de valeurs manquantes est important à connaître. Mais il est aussi déterminant de savoir si ces absences sont reliées ou non à d’autres variables. Se peut-il, par exemple, que les personnes qui n’ont pas indiqué leur salaire sont en majorité des hommes dont le niveau d’éducation est élevé ? Ou bien sont-ils autant des hommes que des femmes possédant divers niveaux d’éducation ? Les valeurs manquantes affectent moins les résultats si elles sont distribuées de façon aléatoire par rapport aux autres variables. Dès que ces absences portent sur certaines valeurs plutôt que d’autres, la variance en est affectée tout autant que les résultats. Le profil des valeurs manquantes est plus important que leur nombre. Pour savoir à quel point les valeurs manquantes à la variable Salaire, par exemple, influencent les résultats, on crée une variable dichotomique (dummy variable) qui sépare les cas en deux groupes. Le premier groupe comprend les cas indiquant un salaire, tandis que le deuxième groupe est constitué des cas dont le salaire n’a pas été mentionné. Ces deux groupes sont ensuite comparés entre eux quant aux autres variables afin de savoir s’ils sont équivalents ou non par rapport à ces variables ciblées. S’il existe une différence entre les deux groupes quant à une variable mesurant, par exemple, le niveau d’éducation, on est fondé à conclure que les cas dont les valeurs manquent à la variable Salaire ne sont pas répartis également entre les divers niveaux d’éducation. En exécutant un test t, si la moyenne du niveau d’éducation est significativement plus élevée pour le groupe dont le salaire n’a pas été indiqué, il s’ensuit que le niveau d’éducation de ce groupe est plus élevé que pour le groupe dont le salaire a été indiqué. Si la différence entre les deux groupes n’est pas significative, on peut affirmer sans crainte que les cas dont le salaire n’a pas été indiqué ont atteint divers niveaux d’éducation. On ne peut donc pas prétendre que la plupart des personnes n’ayant pas indiqué leur salaire sont plutôt peu instruites ou très instruites. Si la différence entre les deux groupes n’est pas significative, leur absence des analyses statistiques ne produit aucun effet sur les résultats. Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 20 ? R Combien de valeurs manquantes faut-il à une variable pour qu’on prenne des dispositions permettant de vérifier leur effet sur les résultats avant de procéder aux analyses statistiques prévues ? 5 % ou plus (d’après Tabachnik et Fidell (2001)) En admettant que les personnes dont le salaire n’a pas été indiqué sont très instruites et que l’objectif principal de la recherche consiste à mesurer l’attitude des citoyennes et des citoyens à l’égard d’une nouvelle politique de développement économique, il est possible qu’en l’absence de ces personnes instruites la variabilité dans l’attitude soit considérablement réduite. À défaut de ces cas, il est même possible qu’aucune relation soit décelée entre le niveau d’éducation et l’attitude à l’égard de la politique de développement économique régional. 10. Le sort réservé aux valeurs manquantes Quel sort doit-on réserver aux valeurs manquantes ? Voici diverses possibilités. (1) Éliminer les cas au sujet desquels la valeur est manquante (listwise deletion). Par défaut, SPSS élimine les cas dont la valeur est manquante à la variable analysée. Cependant, si le test t indique qu’en éliminant les cas présentant des valeurs manquantes la variabilité de d’autres variables est diminuée de façon significative, cette possibilité n’est pas recommandée. (2) Éliminer la variable affectée par les valeurs manquantes. C’est une solution viable si on peut remplacer cette variable par une autre se trouvant en étroite corrélation avec elle. Dans le cas du Niveau d’éducation, les substituts sont rares. On devra peut-être procéder autrement afin d’introduire cette variable dans les analyses plutôt que de l’éliminer carrément. (3) Remplacer les valeurs manquantes par des valeurs estimées. Plutôt que d’éliminer certains cas des analyses, on peut leur attribuer des valeurs estimées à partir des autres variables de la recherche en cours ou même en s’inspirant d’autres recherches. On peut aussi remplacer une valeur manquante par la moyenne de groupe. L’effet de ce remplacement augmentera la concentration des scores autour de la moyenne. Si une variable comporte 30 % de valeurs manquantes, il est bien évident que cette méthode d’estimation réduit grandement la variabilité. Avec un nombre aussi considérable de valeurs manquantes, il faut même songer à éliminer cette variable des analyses. Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 21 Avant de prendre cette décision draconienne, il est prudent de comparer les cas affichant des valeurs manquantes aux autres cas de la façon décrite précédemment. Cette méthode de remplacement ou de substitution peut être grandement améliorée si elle se fait à l’égard du sous-groupe plutôt que du groupe entier. Comme le salaire des hommes instruits diffère probablement de celui des femmes instruites, il vaut mieux remplacer les valeurs manquantes de chacun de ces deux groupes par la moyenne calculée au sein de chacun de ces groupes. Si vous croyez que l’âge fait varier le salaire, il est possible d’améliorer d’un cran la substitution en calculant une moyenne selon le groupe d’âge, le sexe et le niveau de scolarité. En fait, il s’agit d’attribuer une valeur (un salaire) la plus spécifique possible à chaque cas, augmentant ainsi la variabilité de la variable Salaire. Pour chaque groupe d’âge et chaque niveau de scolarité, on calcule la moyenne de salaire des hommes et des femmes, par exemple. S’il y a huit groupes d’âge et sept niveaux de scolarité, en plus des deux sexes, on doit calculer 112 moyennes différentes (8 x 7 x 2). Ouf ! Ensuite, pour chaque cas dont le salaire est absent, on attribue l’une des 112 moyennes selon que ce cas correspond à l’une des 112 combinaisons de critères. Évidemment, il est impératif de démontrer que ces critères influencent la variabilité de la variable Salaire. Le nombre de combinaisons paraît énorme. Cependant, la procédure Means du progiciel SPSS permet d’obtenir rapidement l’information nécessaire. Le procédé de remplacement des données manquantes par la moyenne de groupe est alléchant parce qu’il est facile à appliquer. Par contre, il augmente la concentration des scores autour de la moyenne et réduit ainsi la variabilité. Si vous remplacez les valeurs manquantes par la moyenne de groupe et que, par la suite, la variable concernée est corrélée avec une autre, le coefficient sera réduit par comparaison au coefficient obtenu lorsque les valeurs manquantes ne sont pas remplacées. Certaines procédures du Progiciel SPSS permettent de remplacer les valeurs manquantes par la moyenne de groupe : ce sont la régression multiple, l’analyse factorielle et l’analyse discriminante. Toutefois, de meilleures méthodes existent. Le module Missing Values Analysis (MVA) est conçu pour traiter les valeurs manquantes. Le module MVA offre, en particulier, deux procédures raffinées visant à remplacer les valeurs manquantes. Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 22 La première consiste à calculer une équation de régression à partir des données réelles des cas où les scores sont présents. La variable dépendante est prédite à partir des variables indépendantes jugées pertinentes. La régression présente l’avantage de prédire un score à partir d’un ensemble de variables signifiantes, ce qui est plus précis que le remplacement par la moyenne de groupe. Par contre, la régression, si elle est plus objective et plus précise, diminue encore plus la variance que le remplacement par la moyenne du groupe entier ou du sous-groupe. De plus, les variables indépendantes doivent être reliées à la variable comportant des valeurs manquantes, sinon le produit final ne sera pas différent du remplacement par la moyenne de groupe. La deuxième technique qu’expose le module MVA est celle dite de l’expectation maximization. Tabachnik et Fiddell (2001) la décrivent sommairement comme tant d’autres. Elle consiste à estimer des scores manquants à partir des scores obtenus. Il n’y a rien de simpliste à cette affirmation, puisqu’on peut parfois en cas opportun remplacer les valeurs manquantes par des valeurs tirées d’une autre source. Par exemple, si plusieurs personnes n’ont pas indiqué leur salaire et que nous savons, par ailleurs, que ce sont des enseignantes et des enseignants, on leur attribuera le salaire moyen connu en fonction du nombre d’années d’expérience. Cette information peut être obtenue de leur association professionnelle. 11. Les valeurs manquantes relèvent en majorité d’une minorité de cas La consultation d’un fichier SPSS s’avère souvent fructueuse. Il est fréquent, par exemple, que la plupart des valeurs manquantes sont associées à un sous-groupe d’individus ou à quelques variables. La fonction Trie aide à déterminer rapidement un profil dans les données manquantes. Dans le cas où la plupart des valeurs manquantes seraient associées à quelques variables, il importe, avant de les remplacer, de tenter de découvrir pourquoi il en est ainsi. Il faudra même songer à les éliminer carrément de crainte que le remplacement de ces valeurs manquantes fausse les résultats. Quoi qu’il en soit, dès que les valeurs manquantes représentent un profil quelconque, la substitution n’est pas toujours la meilleure solution lorsqu’on souhaite retenir le plus de cas possibles. Les données passées au crible Donald Long © Centre de recherche et de développement en éducation (CRDE) Université de Moncton [email protected] (506) 858-4886 page 23