Laboratoire d`Analyse – Recherche en Economie Quantitative
Transcription
Laboratoire d`Analyse – Recherche en Economie Quantitative
Normalité et Test de Shapiro – Wilk, par Jean – Paul Tsasa Laboratoire d’Analyse – Recherche en Economie Quantitative One pager Mars 2012 Vol. 1 – Num. 004 Copyright © tsasajp –laréq 2012 ETUDE DE LA NORMALITE Application du Test de Shapiro – Wilk et Transformation de Box – Cox Jean – Paul Tsasa V. Kimbambu† « C’est auprès d’un Savant qu’il faut apprendre la Science » Adapté de Euripide Introduction Les nombreuses possibilités offertes par les logiciels statistiques et économétriques ne résolvent pas complètement les problèmes liés aux manipulations préalables des données avant la mise en œuvre des estimations. Et puisque, ces préalables constituent une vérification ex ante de la validité du modèle à estimer, il est dès lors nécessaire de s’y atteler avec attention. Par exemple, il est non négligeable de préciser les caractéristiques de variables avant d’estimer le coefficient de corrélation : sont – elles linéaires ? Gaussiennes ? Monotones dans leur évolution ? La réponse à ces interrogations permet de détecter le type du coefficient qu’il convient d’estimer (coefficient de corrélation paramétrique ou non paramétrique ?). Dans le cas d’espèce, notre attention se focalise sur le caractère « normal ou non » de la distribution d’une variable. Pour répondre à cette préoccupation, plusieurs tests de normalité ont été proposés. Et ce papier présente la démarche de calcul de la statistique du test de Shapiro – Wilk (1965), considéré par la littérature comme le test de normalité le plus fiable. Et aussi, en cas de distribution non gaussienne, comment procéder si l’on tient à normaliser la variable ? La méthode de transformations proposée par Box et Cox en 1964 est une réponse rigoureuse à cette question. Test de Shapiro – Wilk (1965) Le test de Shapiro – Wilk, calculé pour des échantillons dont n ≤ 50, est considéré comme l’un des tests de normalité le plus fiable et le plus performant [Royston (1982), Palm (2002)]. Il est préalable aux tests sur de petits échantillons, au calcul de corrélation, à une régression linéaire ou à une analyse discriminante bayésienne. Ce test a été conçu par Samuel Shapiro et Martin Wilk en 1965, en vue d’évaluer le caractère gaussien ou non de l’échantillon. Sa statistique, notée SW, s’écrit : † Master en cours Economie – NPTCI 2011 ; Assistant CCAM – UPC et Chercheur au Laboratoire d’Analyse – Recherche en Economie Quantitative [LAREQ] ; [email protected] – BP 16.626 Kinshasa I. 17 Laréq Par J. Paul Tsasa/ Chercheur co – accompli Et le coefficient pouvant également être lu dans la table des coefficients du test de Shapiro – Wilk, est donnée par : où sont des valeurs attendues de l’ordre statistique d’un échantillon indépendant et identiquement distribué suivant une loi normale, et est la matrice de variance – covariance de cet ordre statistique. Le calcul de la statistique SW se résume comme suit‡. Hypothèses du test : H0 : la variable X est gaussienne Seuil de signification : P(RH0 /H0 est vraie) : H1 : la variable X est non gaussienne Où, dans le cas d’espèce, la variable aléatoire X désigne l’indice des prix à la consommation. Dérivation de la statistique SW : (1) Classer les différentes valeurs de la chronique par ordre croissant (tri des observations par ordre croissant) : Période 1 2 3 4 5 6 7 8 9 10 11 12 111,4 113,5 116,3 118,8 121,2 123,7 124,9 125,7 126,2 126,4 126,5 126,8 X Où X est l’indice des prix à la consommation en fréquence mensuelle. (2) Calcul de la valeur z (calcul de la somme des carrés des écarts à la moyenne) : Connaissant la moyenne arithmétique des valeurs de l’IPC en 2011, on obtient : z = 332,7 (3) Calculer les différences respectives coefficients à chaque élément de ces différences, affecter les , lus dans la table, avec n nombre d’observations, n/2 différences et enfin, calculer b: n i 12 1 13,5 0,5475 7,3913 b 12 2 12,2 0,3325 4,0565 12 3 9,9 0,2347 2,3235 12 4 7,6 0,1586 1,2054 12 5 5,3 0,0922 0,4887 12 6 3,1 0,0303 0,0939 où b² correspond à la fonction des étendues partielles. (4) Calcul de la statistique SW : ‡ Nous considérons, lors des applications, l’indice des prix à la consommation, en fréquence mensuelle (exercice 2011), publié par la Banque Centrale du Congo (BCC). 18 Laréq Par J. Paul Tsasa/ Chercheur co – accompli Test statistique : Connaissant la taille de l’échantillon [n = 12] et le seuil de signification retenu [ ], on obtient, à partir de la table des valeurs limites du test de Shapiro, la statistique suivante : Et puisque l’hypothèse nulle est donc rejetée. La variable X n’est pas normalement distribuée§. Les mêmes résultats peuvent être obtenus sur le logiciel SPSS : Descriptive Statistics Explore Plots Normality Plots with Tests. Transformations de Box – Cox (1964) Les transformations proposées par George E.P. Box et David R. Cox sont généralement utilisées en régression linéaire pour tenter de corriger la non – normalité et la non – linéarité des régresseur ou l'hétéroscédasticité des résidus. L’indice des prix à la consommation X (voir section précédente) n’est pas gaussienne, il est donc possible de la rendre normale, en appliquant la transformation de Box – Cox. Ainsi, la variable transformée s’écrit La variable Y est obtenue en résolvant l’équation suivante pour chaque valeur de la variable observée : Pour on obtient en vertu de la règle de l’Hospital : d’où : La transformation de Box – Cox est donc conditionnée par la valeur prise par le paramètre L’on procède comme suit pour son calcul : (1) Dériver les quantiles observés (tri d’observation par ordre croissant) ; (2) Calculer, pour tout (3) Calculer les quantiles , la fonction de répartition empirique : de la loi normale centre – réduite : (inverse de la variable normale centrée – réduite) ; § Une variable est normalement distribuée lorsque 95 % de ses valeurs sont comprises dans l’intervalle – dire lorsque ses différentes valeurs ne s’éloignent pas trop de la valeur moyenne. , c’est – à 19 Laréq Par J. Paul Tsasa/ Chercheur co – accompli (4) Réaliser les simulations, pour différentes valeurs attribuées au paramètre fonction générer, dans un repère coefficient de Bravais – Galton – Pearson entre maximise le coefficient (5) Une fois la valeur et à l’aide de la la Box – Cox Normality Plot [où et est le ] afin de détecter la valeur de qui ; identifiée, dériver la variable Y : (6) Afin de s’assurer que la variable Y est gaussienne, effectuer le test de normalité. Les étapes (1) et (3) sont identiques à la démarche suivie pour construire la droite de Henri. Rappelons que le diagramme de Henry** permet de visualiser les écarts par rapport à la gaussienne. Il convient de noter également que lorsqu’une chronique X prend des valeurs négatives ou nulles, il est nécessaire, avant d’effectuer une transformation de Box – Cox, de lui rajouter arbitrairement une constante afin d'obtenir une série à termes positifs. In fine, lorsqu’une chronique est caractérisée par des variations d’amplitude négligeable par rapport à son niveau moyen, l'effet d'une transformation de Box – Cox peut se réduire à une transformation affine (sans résultat concluant) comme indiquée ci – après : Lorsque aucune transformation à la Box – Cox s’impose ! Références bibliographiques BOX George E.P. and David R. COX, 1964, “An analysis of transformations”, Journal of the Royal Statistical Society, Series B, 26, 211-252. BOX George E.P. and David R. COX, 1982, “An analysis of transformation revisited", rebutted, Journal of the American Statistical Association, 77, 209-210. PALM Rudy, Macros Minitab pour la Régression Linéaire, SIMa, Faculté Universitaire des Sciences Agronomiques de Gembloux. ROYSTON J.P., 1982, “An extension of Shapiro and Wilk W test for normality to large samples”, Appl. Stat., 31, 115 – 124. SAKIA R.M., 1992, “The Box – Cox transformation technique : a review”, The Statistician, 41, 169 – 178. SHAPIRO Samuel S. and Martin B. WILK, 1965, “An analysis of variance test for normality (complete sample)”, Biometrika, Vol. 52, 591 – 611. SHAPIRO Samuel S. and Martin B. WILK, 1968, “The Joint Assessment of Normality of Several Independent Samples”, Technometrics, No. 10, 825 – 839. SHAPIRO Samuel S. and R.S. FRANCIA, 1972, “Approximate Analysis of Variance Test for Normality”, Journal of the American Statistical Association, No. 67, 215 – 216. ** Du nom du polytechnicien J.P.P. Henry [(ou J.P.P. Henri) ; (1848 – 1907)]. 20 Laréq Par J. Paul Tsasa/ Chercheur co – accompli Indice des prix à la consommation [janvier – décembre 2011] Janvier 113,5 Juillet 124,9 période Observation période Observation Février 111,4 Août 125,7 Mars 116,3 Septembre 126,2 Avril 118,8 Octobre 126,4 Mai 121,2 Novembre 126,5 Juin 123,7 Décembre 126,9 Test de Shapiro et Wilk [table des coefficients] n J 1 2 3 4 5 n J 1 2 3 4 5 6 7 8 9 10 n J 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 2 3 4 5 6 7 8 9 10 0.7071 0.7071 0.0000 0.6872 0.1677 0.6646 0.2413 0.0000 0.6431 0.2806 0.0875 0.6233 0.3031 0.1401 0.0000 0.6052 0.3164 0.1743 0.0561 0.5888 0.3244 0.1976 0.0947 0.0000 0.5739 0.3291 0.2141 0.1224 0.0399 11 12 13 14 15 16 17 18 19 20 0.5601 0.3315 0.2260 0.1429 0.0695 0.0000 0.5475 0.3325 0.2347 0.1586 0.0922 0.0303 0.5359 0.3325 0.2412 0.1707 0.1099 0.0539 0.0000 0.5251 0.3318 0.2460 0.1802 0.1240 0.0727 0.0240 0.5150 0.3306 0.2495 0.1878 0.1353 0.0880 0.0433 0.0000 0.5056 0.3290 0.2521 0.1939 0.1447 0.1005 0.0593 0.0196 0.4963 0.3273 0.2540 0.1988 0.1524 0.1109 0.0725 0.0359 0.0000 0.4886 0.3253 0.2553 0.2027 0.1587 0.1197 0.0837 0.0496 0.0163 0.4808 0.3232 0.2561 0.2059 0.1641 0.1271 0.0932 0.0612 0.0303 0.0000 0.4734 0.3211 0.2565 0.2085 0.1686 0.1334 0.1013 0.0711 0.0422 0.0140 21 22 23 24 25 26 27 28 29 30 0.4643 0.3185 0.2578 0.2119 0.1736 0.1399 0.1092 0.0804 0.0530 0.0263 0.0000 0.4590 0.3156 0.2571 0.2131 0.1764 0.1443 0.1150 0.0878 0.0618 0.0368 0.0122 0.4542 0.3126 0.2563 0.2139 0.1787 0.1480 0.1201 0.0941 0.0696 0.0459 0.0228 0.0000 0.4493 0.3098 0.2554 0.2145 0.1807 0.1512 0.1245 0.0997 0.0764 0.0539 0.0321 0.0107 0.4450 0.3069 0.2543 0.2148 0.1822 0.1539 0.1283 0.1046 0.0823 0.0610 0.0403 0.0200 0.0000 0.4407 0.3043 0.2533 0.2151 0.1836 0.1563 0.1316 0.1089 0.0876 0.0672 0.0476 0.0284 0.0094 0.4366 0.3018 0.2522 0.2152 0.1848 0.1584 0.1346 0.1128 0.0923 0.0728 0.0540 0.0358 0.0178 0.0000 0.4328 0.2992 0.2510 0.2151 0.1857 0.1601 0.1372 0.1162 0.0965 0.0778 0.0598 0.0424 0.0253 0.0084 0.4291 0.2968 0.2499 0.2150 0.1064 0.1616 0.1395 0.1192 0.1002 0.0822 0.0650 0.0483 0.0320 0.0159 0.0000 0.4254 0.2944 0.2487 0.2148 0.1870 0.1630 0.1415 0.1219 0.1036 0.0862 0.0697 0.0537 0.0381 0.0227 0.0076 21 Laréq Par J. Paul Tsasa/ Chercheur co – accompli Test de Shapiro et Wilk [Table des valeurs limites de W] N 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 W ‘95%’ 0.842 0.850 0.859 0.856 0.874 0.881 0.837 0.892 0.897 0.901 0.905 0.908 0.911 0.914 0.916 0.918 0.920 0.923 0.924 0.926 0.927 0.929 0.930 0.931 0.933 0.934 0.935 0.936 0.938 0.939 0.940 0.941 0.942 0.943 0.944 0.945 0.945 0.946 0.947 0.947 0.947 W ‘99%’ 0.781 0.792 0.805 0.814 0.825 0.835 0.844 0.851 0.858 0.863 0.868 0.873 0.878 0.881 0.884 0.888 0.891 0.894 0.896 0.898 0.900 0.902 0.904 0.906 0.908 0.910 0.912 0.914 0.916 0.917 0.919 0.920 0.922 0.923 0.924 0.926 0.927 0.928 0.929 0.929 0.930 22 Laréq Par J. Paul Tsasa/ Chercheur co – accompli