Laboratoire d`Analyse – Recherche en Economie Quantitative

Transcription

Laboratoire d`Analyse – Recherche en Economie Quantitative
Normalité et Test de Shapiro – Wilk, par Jean – Paul Tsasa
Laboratoire d’Analyse – Recherche en Economie Quantitative
One pager
Mars 2012
Vol. 1 – Num. 004
Copyright © tsasajp –laréq 2012
ETUDE DE LA NORMALITE
Application du Test de Shapiro – Wilk et Transformation de Box – Cox
Jean – Paul Tsasa V. Kimbambu†
« C’est auprès d’un Savant qu’il faut apprendre la Science »
Adapté de Euripide
Introduction
Les nombreuses possibilités offertes par les logiciels statistiques et économétriques ne résolvent pas
complètement les problèmes liés aux manipulations préalables des données avant la mise en œuvre des
estimations. Et puisque, ces préalables constituent une vérification ex ante de la validité du modèle à
estimer, il est dès lors nécessaire de s’y atteler avec attention. Par exemple, il est non négligeable de
préciser les caractéristiques de variables avant d’estimer le coefficient de corrélation : sont – elles
linéaires ? Gaussiennes ? Monotones dans leur évolution ?
La réponse à ces interrogations permet de détecter le type du coefficient qu’il convient d’estimer
(coefficient de corrélation paramétrique ou non paramétrique ?). Dans le cas d’espèce, notre attention se
focalise sur le caractère « normal ou non » de la distribution d’une variable. Pour répondre à cette
préoccupation, plusieurs tests de normalité ont été proposés. Et ce papier présente la démarche de calcul
de la statistique du test de Shapiro – Wilk (1965), considéré par la littérature comme le test de normalité
le plus fiable. Et aussi, en cas de distribution non gaussienne, comment procéder si l’on tient à
normaliser la variable ? La méthode de transformations proposée par Box et Cox en 1964 est une
réponse rigoureuse à cette question.
Test de Shapiro – Wilk (1965)
Le test de Shapiro – Wilk, calculé pour des échantillons dont n ≤ 50, est considéré comme l’un des tests
de normalité le plus fiable et le plus performant [Royston (1982), Palm (2002)]. Il est préalable aux tests
sur de petits échantillons, au calcul de corrélation, à une régression linéaire ou à une analyse
discriminante bayésienne. Ce test a été conçu par Samuel Shapiro et Martin Wilk en 1965, en vue
d’évaluer le caractère gaussien ou non de l’échantillon. Sa statistique, notée SW, s’écrit :
†
Master en cours Economie – NPTCI 2011 ; Assistant CCAM – UPC et Chercheur au Laboratoire d’Analyse – Recherche
en Economie Quantitative [LAREQ] ; [email protected] – BP 16.626 Kinshasa I.
17
Laréq
Par J. Paul Tsasa/ Chercheur co – accompli
Et le coefficient
pouvant également être lu dans la table des coefficients du test de Shapiro – Wilk, est
donnée par :
où
sont des valeurs attendues de l’ordre statistique d’un échantillon indépendant et identiquement
distribué suivant une loi normale, et est la matrice de variance – covariance de cet ordre statistique.
Le calcul de la statistique SW se résume comme suit‡.

Hypothèses du test :

H0 : la variable X est gaussienne
Seuil de signification :
P(RH0 /H0 est vraie) :
H1 : la variable X est non gaussienne
Où, dans le cas d’espèce, la variable aléatoire X désigne l’indice des prix à la consommation.

Dérivation de la statistique SW :
(1) Classer les différentes valeurs de la chronique par ordre croissant (tri des observations par ordre
croissant) :
Période
1
2
3
4
5
6
7
8
9
10
11
12
111,4 113,5 116,3 118,8 121,2 123,7 124,9 125,7 126,2 126,4 126,5 126,8
X
Où X est l’indice des prix à la consommation en fréquence mensuelle.
(2) Calcul de la valeur z (calcul de la somme des carrés des écarts à la moyenne) :
Connaissant la moyenne arithmétique des valeurs de l’IPC en 2011,
on obtient :
z = 332,7
(3) Calculer les différences respectives
coefficients
à chaque élément de ces différences, affecter les
, lus dans la table, avec n nombre d’observations, n/2 différences et enfin, calculer
b:
n
i
12
1
13,5
0,5475
7,3913
b
12
2
12,2
0,3325
4,0565
12
3
9,9
0,2347
2,3235
12
4
7,6
0,1586
1,2054
12
5
5,3
0,0922
0,4887
12
6
3,1
0,0303
0,0939
où b² correspond à la fonction des étendues partielles.
(4) Calcul de la statistique SW :
‡
Nous considérons, lors des applications, l’indice des prix à la consommation, en fréquence mensuelle (exercice 2011),
publié par la Banque Centrale du Congo (BCC).
18
Laréq
Par J. Paul Tsasa/ Chercheur co – accompli

Test statistique :
Connaissant la taille de l’échantillon [n = 12] et le seuil de signification retenu [
], on obtient, à
partir de la table des valeurs limites du test de Shapiro, la statistique suivante :
Et puisque
l’hypothèse nulle est donc rejetée. La variable X n’est pas normalement distribuée§.
Les mêmes résultats peuvent être obtenus sur le logiciel SPSS :
Descriptive Statistics
 Explore  Plots  Normality Plots with Tests.
Transformations de Box – Cox (1964)
Les transformations proposées par George E.P. Box et David R. Cox sont généralement utilisées en
régression linéaire pour tenter de corriger la non – normalité et la non – linéarité des régresseur ou
l'hétéroscédasticité des résidus.
L’indice des prix à la consommation X (voir section précédente) n’est pas gaussienne, il est donc possible
de la rendre normale, en appliquant la transformation de Box – Cox. Ainsi, la variable transformée s’écrit
La variable Y est obtenue en résolvant l’équation suivante pour chaque valeur de la variable
observée :
Pour
on obtient en vertu de la règle de l’Hospital :
d’où :
La transformation de Box – Cox est donc conditionnée par la valeur prise par le paramètre
L’on
procède comme suit pour son calcul :
(1) Dériver les quantiles observés (tri d’observation par ordre croissant) ;
(2) Calculer, pour tout
(3) Calculer les quantiles
, la fonction de répartition empirique :
de la loi normale centre – réduite :
(inverse de la variable
normale centrée – réduite) ;
§
Une variable est normalement distribuée lorsque 95 % de ses valeurs sont comprises dans l’intervalle
– dire lorsque ses différentes valeurs ne s’éloignent pas trop de la valeur moyenne.
, c’est – à
19
Laréq
Par J. Paul Tsasa/ Chercheur co – accompli
(4) Réaliser les simulations, pour différentes valeurs attribuées au paramètre
fonction
générer, dans un repère
coefficient de Bravais – Galton – Pearson entre
maximise le coefficient
(5) Une fois la valeur
et à l’aide de la
la Box – Cox Normality Plot [où
et
est le
] afin de détecter la valeur de
qui
;
identifiée, dériver la variable Y :
(6) Afin de s’assurer que la variable Y est gaussienne, effectuer le test de normalité.
Les étapes (1) et (3) sont identiques à la démarche suivie pour construire la droite de Henri. Rappelons
que le diagramme de Henry** permet de visualiser les écarts par rapport à la gaussienne. Il convient de
noter également que lorsqu’une chronique X prend des valeurs négatives ou nulles, il est nécessaire,
avant d’effectuer une transformation de Box – Cox, de lui rajouter arbitrairement une constante afin
d'obtenir une série à termes positifs. In fine, lorsqu’une chronique est caractérisée par des variations
d’amplitude négligeable par rapport à son niveau moyen, l'effet d'une transformation de Box – Cox peut
se réduire à une transformation affine (sans résultat concluant) comme indiquée ci – après :
Lorsque
aucune transformation à la Box – Cox s’impose !
Références bibliographiques
BOX George E.P. and David R. COX, 1964, “An analysis of transformations”, Journal of the Royal Statistical
Society, Series B, 26, 211-252.
BOX George E.P. and David R. COX, 1982, “An analysis of transformation revisited", rebutted, Journal of the
American Statistical Association, 77, 209-210.
PALM Rudy, Macros Minitab pour la Régression Linéaire, SIMa, Faculté Universitaire des Sciences Agronomiques
de Gembloux.
ROYSTON J.P., 1982, “An extension of Shapiro and Wilk W test for normality to large samples”, Appl. Stat., 31,
115 – 124.
SAKIA R.M., 1992, “The Box – Cox transformation technique : a review”, The Statistician, 41, 169 – 178.
SHAPIRO Samuel S. and Martin B. WILK, 1965, “An analysis of variance test for normality (complete sample)”,
Biometrika, Vol. 52, 591 – 611.
SHAPIRO Samuel S. and Martin B. WILK, 1968, “The Joint Assessment of Normality of Several Independent
Samples”, Technometrics, No. 10, 825 – 839.
SHAPIRO Samuel S. and R.S. FRANCIA, 1972, “Approximate Analysis of Variance Test for Normality”, Journal of
the American Statistical Association, No. 67, 215 – 216.
**
Du nom du polytechnicien J.P.P. Henry [(ou J.P.P. Henri) ; (1848 – 1907)].
20
Laréq
Par J. Paul Tsasa/ Chercheur co – accompli
Indice des prix à la consommation [janvier – décembre 2011]
Janvier
113,5
Juillet
124,9
période
Observation
période
Observation
Février
111,4
Août
125,7
Mars
116,3
Septembre
126,2
Avril
118,8
Octobre
126,4
Mai
121,2
Novembre
126,5
Juin
123,7
Décembre
126,9
Test de Shapiro et Wilk [table des coefficients]
n
J
1
2
3
4
5
n
J
1
2
3
4
5
6
7
8
9
10
n
J
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
2
3
4
5
6
7
8
9
10
0.7071
0.7071
0.0000
0.6872
0.1677
0.6646
0.2413
0.0000
0.6431
0.2806
0.0875
0.6233
0.3031
0.1401
0.0000
0.6052
0.3164
0.1743
0.0561
0.5888
0.3244
0.1976
0.0947
0.0000
0.5739
0.3291
0.2141
0.1224
0.0399
11
12
13
14
15
16
17
18
19
20
0.5601
0.3315
0.2260
0.1429
0.0695
0.0000
0.5475
0.3325
0.2347
0.1586
0.0922
0.0303
0.5359
0.3325
0.2412
0.1707
0.1099
0.0539
0.0000
0.5251
0.3318
0.2460
0.1802
0.1240
0.0727
0.0240
0.5150
0.3306
0.2495
0.1878
0.1353
0.0880
0.0433
0.0000
0.5056
0.3290
0.2521
0.1939
0.1447
0.1005
0.0593
0.0196
0.4963
0.3273
0.2540
0.1988
0.1524
0.1109
0.0725
0.0359
0.0000
0.4886
0.3253
0.2553
0.2027
0.1587
0.1197
0.0837
0.0496
0.0163
0.4808
0.3232
0.2561
0.2059
0.1641
0.1271
0.0932
0.0612
0.0303
0.0000
0.4734
0.3211
0.2565
0.2085
0.1686
0.1334
0.1013
0.0711
0.0422
0.0140
21
22
23
24
25
26
27
28
29
30
0.4643
0.3185
0.2578
0.2119
0.1736
0.1399
0.1092
0.0804
0.0530
0.0263
0.0000
0.4590
0.3156
0.2571
0.2131
0.1764
0.1443
0.1150
0.0878
0.0618
0.0368
0.0122
0.4542
0.3126
0.2563
0.2139
0.1787
0.1480
0.1201
0.0941
0.0696
0.0459
0.0228
0.0000
0.4493
0.3098
0.2554
0.2145
0.1807
0.1512
0.1245
0.0997
0.0764
0.0539
0.0321
0.0107
0.4450
0.3069
0.2543
0.2148
0.1822
0.1539
0.1283
0.1046
0.0823
0.0610
0.0403
0.0200
0.0000
0.4407
0.3043
0.2533
0.2151
0.1836
0.1563
0.1316
0.1089
0.0876
0.0672
0.0476
0.0284
0.0094
0.4366
0.3018
0.2522
0.2152
0.1848
0.1584
0.1346
0.1128
0.0923
0.0728
0.0540
0.0358
0.0178
0.0000
0.4328
0.2992
0.2510
0.2151
0.1857
0.1601
0.1372
0.1162
0.0965
0.0778
0.0598
0.0424
0.0253
0.0084
0.4291
0.2968
0.2499
0.2150
0.1064
0.1616
0.1395
0.1192
0.1002
0.0822
0.0650
0.0483
0.0320
0.0159
0.0000
0.4254
0.2944
0.2487
0.2148
0.1870
0.1630
0.1415
0.1219
0.1036
0.0862
0.0697
0.0537
0.0381
0.0227
0.0076
21
Laréq
Par J. Paul Tsasa/ Chercheur co – accompli
Test de Shapiro et Wilk [Table des valeurs limites de W]
N
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
W ‘95%’
0.842
0.850
0.859
0.856
0.874
0.881
0.837
0.892
0.897
0.901
0.905
0.908
0.911
0.914
0.916
0.918
0.920
0.923
0.924
0.926
0.927
0.929
0.930
0.931
0.933
0.934
0.935
0.936
0.938
0.939
0.940
0.941
0.942
0.943
0.944
0.945
0.945
0.946
0.947
0.947
0.947
W ‘99%’
0.781
0.792
0.805
0.814
0.825
0.835
0.844
0.851
0.858
0.863
0.868
0.873
0.878
0.881
0.884
0.888
0.891
0.894
0.896
0.898
0.900
0.902
0.904
0.906
0.908
0.910
0.912
0.914
0.916
0.917
0.919
0.920
0.922
0.923
0.924
0.926
0.927
0.928
0.929
0.929
0.930
22
Laréq
Par J. Paul Tsasa/ Chercheur co – accompli