econometrie 1

Transcription

econometrie 1
E CONOMETRIE 1
Ass. Cédrick Tombola M.
Rappels et recueil d’exercices [résolus]
Sous la supervision du Professeur BOSONGA BOFEKI
Licence 1 Economie
Cédrick Tombola M. /Assistant
UPC
Copyright © cdktombola-Laréq - mars 2012
0
Ass. Cédrick Tombola M.
1
A travers cette contrée chaotique, des hommes audacieux et tenaces ont lancé le premier chemin de fer de
l’Afrique centrale.
Henry Merton Stanley
N'essayez pas de devenir un homme qui a du succès. Essayez de devenir un homme qui a de la valeur.
Albert Einstein
Ass. Cédrick Tombola M.
PLAN SOMMAIRE
AVANT – PROPOS
INTRODUCTION
THEORIE DE LA CORRELATION
MODELE DE REGRESSION LINEAIRE SIMPLE
MODELE DE REGRESSION LINEAIRE MULTIPLE
MODELES DE REGRESSION NON LINEAIRES
VIOLATION DES HYPOTHESES DE BASE
ANNEXES
2
Ass. Cédrick Tombola M.
3
AVANT-PROPOS
Je ne peux nier, quand j’ai commencé la rédaction de ce recueil, l’ambition de confectionner un vade-mecum
d’introduction à l’Econométrie à l’intention des étudiants de première licence FASÉ. Mais le nombre de projets
sur la file d’attente et les nombreux défis entre lesquels il me faut partager mon temps d’une part, et le besoin
réel et urgent chez les étudiants de disposer d’un recueil qui accompagne le cours magistral assuré par le
professeur d’autre part, m’ont obligé à ne produire qu’une ébauche.
Le projet de proposer ce recueil est né de la déception et de l’insatisfaction que j’éprouvais, encore étudiant,
lors des séances TP d’Econométrie 1. Alors qu’ailleurs ils prennent de la vitesse, nous, me semblait-il, on
tombait, paradoxalement, dans la suffisance.
Ce recueil a donc été rédigé de façon à permettre aux étudiants de porter un autre regard sur les notions qu’ils
apprennent pendant le cours théorique et de voir plus loin que moi. Le choix des applications a également été
fait dans cette optique. On remarquera que, par souci pédagogique et d’excellence, je me suis plus attardé sur
les aspects et les démonstrations les moins populaires, bref, sur les non-dits.
Les étudiants passionnés et qui veulent aller loin en Econométrie, trouveront aussi, en annexe, une initiation au
logiciel économétrique EVIEWS.
Enfin, en le mettant à la disposition du public, je formule le vœu que ce recueil suscite, parmi mes étudiants et
mes collègues de la FASÉ, de nombreux esprits critiques qui pourront nous proposer mieux et ainsi éviter que
nos efforts pour l’avancement de cette faculté ne s’essoufflent et n’atteignent, prématurément, un état
stationnaire , ce qui serait dommage .
Remerciement
Je remercie le professeur Jean-Pierre Bosonga pour la confiance qu’il a eue en moi – à vrai dire, sans vraiment
me connaître – et pour m’avoir orienté dans la rédaction de ce recueil.
Mes sincères remerciements vont à mon aîné et mon ami l’assistant Jean-Paul Tsasa V. Kimbambu, pour nos
nombreuses discussions, parfois laissées en queue de poisson, et pour l’idéal qu’il m’a transmis.
Je remercie aussi mes étudiants de première licence FASÉ, de la promotion 2011-2012, pour avoir beaucoup
exigé et attendu de moi ; ils m’ont contraint à plus de sérieux dans le travail, et je leur en suis reconnaissant.
Bien entendu, ce support n’engage que son auteur. Toute remarque pertinente pouvant en améliorer le
contenu sera la bienvenue.
Dédicace
Je dédie ce recueil à l’avenir du LAREQ et à l’émergence d’une nouvelle classe d’enseignants à l’UPC.
Cédrick Tombola M.
[email protected]
Ass. Cédrick Tombola M.
4
.I.
INTRODUCTION
I.1. Quelques points de l’histoire
α. Avant 1930 : Le Moyen-âge économétrique
Les premiers développements de l’Econométrie1 peuvent remonter, selon Gérard Grellet, au 17ème siècle,
l’époque de l’Arithmétique politique [Political Arithmeticians, en anglais] en Angleterre, avec des auteurs
comme William Petty, Gregory King et Charles Devenant, pour leurs tentatives de modélisation à partir des
données empiriques.
Selon d’autres auteurs, on doit la genèse de l’Econométrie aux travaux de tentative d’unification de
l’Economie et la Statistique d’Auguste Cournot et de Jules Dupuit en France, de William Stanley Jevons en
Angleterre et de Henry Ludwell Moore aux Etats-Unis. Ces auteurs tentèrent d’élaborer des lois
économiques { l’instar des lois de la physique newtonienne.
Mais il convient simplement de retenir que nombre de méthodes et techniques auxquelles recourt
l’Econométrie, ont été développées bien avant son institutionnalisation comme discipline des sciences
économiques. A titre d’exemple :
- En 1805, dans son ouvrage intitulé « Nouvelles méthodes pour la détermination des orbites des comètes »,
puis en 1806 dans la deuxième édition du même ouvrage, le mathématicien français Adrien-Marie Legendre
propose, par une méthode algébrique, le premier développement rigoureux de la méthode des moindres
carrés ordinaires.
- En 1809, Carl Friedrich Gauss, dans son traité « Theoria motus corporum coelestium », propose, par une
approche probabiliste, un autre développement rigoureux de la méthode des moindres carrés ordinaires
dont il se réclame la paternité. Dans une lettre adressée à Pierre-Simon de Laplace2, il explique qu’il avait
fait usage de cette méthode déjà en 1795, et de manière un peu plus fréquente, dans ces calculs
astronomiques sur les nouvelles planètes, depuis 1802.
Plus tard, en 1829, Carl F. Gauss et Andrei A. Markov démontrent que l’estimateur des moindres carrés
ordinaires est BLUE [en anglais : Best Linear Unbiaised Estimator]. C’est-à-dire qu’il est le meilleur
estimateur linéaire non biaisé, à variance minimale.
- En 1886, dans son étude sur la transmission des caractères héréditaires, Francis Galton, de qui le terme
régression tire son origine, fournit une première régression linéaire. Plus tard, son disciple Karl Pearson, en
1896, dans son ouvrage « La Grammaire de la Science », développe la notion de corrélation linéaire et
propose un estimateur pour cette grandeur.
La corrélation a été introduite en Economie en 1902, avec l’ouvrage de Arthur Lyon Bowley « Elements of
Statistic ».
- En 1909, Georges Udny Yule invente les premières applications économiques de la méthode de la
corrélation et introduit à la même occasion la notion de corrélation partielle. Et en 1926, il dénonce les
1
On attribue souvent à tort au norvégien R. Frisch, la création du mot économétrie qui revient plutôt à Pavel Compria.
Il inclut lui-même un exposé de la méthode des moindres carrés ordinaires dans son traité de 1820 : « Théorie
analytique des probabilités ». En 1808, le mathématicien américain Robert Adrain a aussi publié une formulation de la
méthode des moindres carrés.
2
Ass. Cédrick Tombola M.
5
« spurrious correlations », ce qu’il convient de traduire par corrélations fallacieuses. Puis montre que la
corrélation de deux séries chronologiques peut être totalement artificielle.
β. Depuis 1930 : La naissance de l’Econométrie moderne
L’institutionnalisation de l’Econométrie en tant que discipline des sciences économiques s’est réalisée en
1930 – exactement le 29 décembre 1930 – { l’occasion de la création { Cleveland, aux Etats-Unis, par 16
économistes3 dont Ragnar Frisch4 et Irving Fisher sont les plus cités, de l’Econometric Society [la Société
d’Econométrie] avec comme devise : ’’ pour l’avancement de la théorie économique dans ses relations avec la
statistique et les mathématiques’’.
Depuis la création de cette société, et de la Cowles commission – spécialisée dans les méthodes
d’estimation des modèles { équations simultanées –, fondée le 9 septembre 1932, deux ans après
l’Econometric Society, par Alfred Cowles, l’Econométrie a connu un grand essor.
C’est ainsi qu’en 1933, R. Frisch crée la revue Econometrica pour la promotion des études qui ont pour but
une unification des approches quantitatives théoriques et empiriques des problèmes économiques.
On note aussi que dès le départ, pour les promoteurs de l’Econometric Society, il était clair que deux
déviations devraient être évitées :


La construction d'édifices mathématiques purement logiques et déconnectés du réel économique.
La mise en œuvre de pures investigations statistiques qui, en dépit de leur caractère poussé et de
leur apparence réaliste, risque de manquer de consistance ou de pertinence, sans le soutien d'une
pensée économique profonde et rigoureuse.
A ce sujet, R. Frisch écrivit ainsi dans le premier numéro de la revue Econometrica :
"L'expérience a montré que chacun des trois points de vue suivants, celui de la statistique, celui de la théorie
économique et celui des mathématiques est une condition nécessaire, mais par elle même non suffisante, d'une
compréhension effective des relations quantitatives de la vie économique moderne : c'est leur unification qui
est efficace. C'est cette unification qui constitue l'économétrie ’’.
Il faut noter également que le krach financier des années 30, la domination du keynésianisme jusqu’{ la fin
des années 60, le développement de l’inférence statistique à la fin du 19ème siècle et le consensus entre les
économistes autour du cadre IS – LM avant 1970, sont aussi parmi les facteurs explicatifs de l’essor de
l’Econométrie depuis 1930, surtout au sein de la Cowles commission. La révolution Keynésienne [1936], avec
la logique de circuit, a développé un autre type de raisonnement macroéconomique en termes d’agrégats
objectivement mesurables par la comptabilité nationale et de comportements mesurés par les propensions.
Ainsi, entre 1944 et 1960, la plus grande partie de la recherche en Econométrie porta sur les conditions
d’estimation des modèles macroéconométriques { équations simultanées.
- En 1935, Jan Tinbergen estime un premier modèle économétrique à équations simultanées, du type
keynésien, comportant 31 équations de comportement et 17 identités. Il devient ainsi, d’un point de vue
empirique, le père des modèles économétriques.
- En 1944, Trygve Haavelmo pose les conditions générales de solvabilité d’un système d’équations linéaires.
3
R. Frisch, I. Fisher, Hotelling, K. Menger , F. Mills, Ogburn, Ore, Roos, Rorty, J. A. Schumpeter, H. Schultz, Shewart,
Snyder , Wedervang, Wiener, Wilson.
4
Premier lauréat du prix de la Banque de Suède – communément appelé prix Nobel en mémoire de son fondateur
Alfred Nobel – d’économie en 1969 avec Jan Tinbergen.
Ass. Cédrick Tombola M.
6
- En 1950, Lawrence Klein ouvre la vogue de la modélisation macroéconométrique. Il estime pour
l’économie américaine (1921-1941), un modèle macroéconométrique de type keynésien à 16 équations. Ce
modèle est amélioré plus tard, en 1955, par L. Klein et Arthur Goldberger, et sera le premier modèle utilisé à
des fins prévisionnelles. Klein introduit également la notion de multicolinéarité. Il est parfois considéré
comme le père des modèles macroéconométriques.
Plusieurs autres travaux seront produits au sein de la Cowles commission. En 1950, Durbin et Watson
élaborent leur célèbre test d’autocorrélation des erreurs. En 1954, Henri Theil et Robert Léon Basmann
introduisent la méthode des doubles moindres carrés. Toujours dans les années 50, il y eut un
développement des modèles à retards distribués par Koyck, Almon, Cagan et Friedman.
L’on peut également citer les travaux suivants développés entre 1950 et 1970 : la méthode des moindres
carrés généralisés et l’introduction du calcul matriciel en Econométrie par Aitken; les tests et corrections de
l’hétéroscedasticité [Glejser, White, …].
L’irruption de l’informatique au début des années 60 va donner un nouveau coup de pousse { l’expansion
de l’Econométrie.
En 1961, James Tobin développe les modèles microéconométriques. Il est, à ce titre, considéré comme le
père des modèles microéconomiques. La même année, Yair Mundlak conçoit les méthodes basées sur les
données de panel.
γ. Les années 1970 : La révolution des anticipations rationnelles
Les années 1970 ont été marquées par cinq faits majeurs qui ont conduit { l’éclatement du paradigme de la
Cowles commission. C’est-à-dire à une remise en cause radicale des modèles macroéconomiques structurels
développés au sein de cette institution. Ces faits sont :





Le premier choc pétrolier [en 1973] ou le quadruplement du prix des produits pétroliers, ce qui
marque, historiquement, la fin des Trente Glorieuses5 ;
La stagflation et la remise en cause de la courbe de Phillips;
La chute du keynésianisme et le rejet des modèles économétriques traditionnels – devenus caducs
– basés sur le paradigme IS – LM ;
Le deuxième choc pétrolier [en 1979] ou le doublement du prix des produits pétroliers ;
La naissance de la MFM [MicroFoundations of Macroeconomics] ou la Macroéconomie
Microfondée, le retour aux modèles walrassiens et le développement des modèles d’équilibre
général calculable [MEGC].
Les critiques les plus acerbes et sévères sont venues essentiellement, dès 1972, de Robert Emerson Lucas 6.
C’est ce que la littérature qualifie de la fameuse critique de Lucas. Il discrédite les modèles
macroéconométriques traditionnels, en fustigeant leur incapacité à expliquer et à prévoir les
bouleversements provoqués par le 1èr et le 2ème chocs pétroliers. Il leur reproche de manquer de fondations
microéconomiques suffisamment solides. De plus, Lucas interdit les prévisions myopes et adaptatives, il
pose la problématique des anticipations rationnelles, ce qui veut dire que les agents économiques sont
intelligents et capables de former leurs anticipations sur une base endogène et ainsi anticiper toute mesure
de politique économique. De fait, toute mesure de politique économique, ajoute-t-il, devient inefficace du
fait de la prise en compte des anticipations rationnelles, les agents pouvant l’anticiper et la contrer.
5
Trente Glorieuses : Titre d’un livre de Jean Fourastié, publié en 1977, qui désigne la période de forte croissance
économique, de plein-emploi et d’augmentation des salaires réels et des revenus, qu’ont connu les pays développés, de
l’après-guerre au premier choc pétrolier.
6
Lauréat du prix Nobel d’Economie 1995.
Ass. Cédrick Tombola M.
7
Cette critique a poussé les économètres à penser plus profondément sur les fondements de leur discipline
et a donné lieu à des critiques plus sévères. L’Econométrie va connaitre un changement radical, surtout en
termes de relations qu’elle entretient avec la théorie économique.
- En 1970, George Box et Gwilym Jenkins développent le modèle ARMA [AutoRegressive with Moving
Average] – qui est un mélange des modèles AR et MA développés en 1927 respectivement par Georges Yule
et Eugen Slustsky –, comme une réponse aux défaillances constatées dans la capacité de prévision des
modèles élaborés à la suite des travaux de Tinbergen.
- Déjà en 1974, Clive William John Granger et Paul Newbold mettent en garde contre les « spurrious
regressions » ou régression fallacieuse, pour le cas d’ajustement par les MCO d’un modèle avec séries non
stationnaires.
- En 1980, dans un article qui a connu un succès d’estime lors de sa parution, intitulé Macroeconomics and
Reality, Christopher Sims7, en généralisant le modèle ARMA en modèle VAR [Vector Auto Regressive] afin
de tenir compte, au même moment, de plusieurs variables, reproche aux économètres d’avoir mis la
charrue devant les bœufs en remettant en cause la distinction à priori entre variables endogènes et
variables exogènes, et considère toute variable comme potentiellement endogène 8. C’est ce que la
littérature appellera l’Econométrie sans théorie. La critique de Sims va permettre { l’Econométrie de devenir
beaucoup plus autonome et de s’émanciper de la tutelle de la théorie économique.
- En 1987, Clive Granger et Robert Engle développent la méthode de cointégration dans le traitement des
séries non stationnaires. Une année après, en 1988, Johansen propose une version améliorée du test de
cointégration Engle – Granger.
- En 1982, Robert Engle développe le modèle ARCH afin de prendre en compte la non linéarité et la forte
volatilité des variables financières, ce qui n’était pas possible avec les modèles ARMA et VAR.
Plusieurs méthodes encore ont été développées depuis la fameuse critique de Lucas, et plus loin encore
dans l’histoire, depuis la création de la société d’Econométrie. L’Econométrie a donc connu, ces deux
dernières décennies, un essor vertigineux.
δ. Applications et place de l’économétrie
La démarche en sciences économiques est hypothético-déductive. C’est-à-dire que les théories économiques
ne sont valables que dans le domaine défini par leurs hypothèses. S’il est vrai que l’usage des
mathématiques est la garantie de la rigueur et de la cohérence interne des théories économiques
modernes, la question reste cependant posée quant à la pertinence de leurs hypothèses. Ceci motive le
recours { des outils plus puissants notamment l’Econométrie, qui est un outil de validation des théories.
De fait donc, l’économiste ne doit-il pas être aussi économètre ? John Maynard Keynes, dans les années
1930, écrivait : « L’économiste doit être mathématicien, historien, philosophe, homme d’Etat, … ». S’il faut
transférer la pensée de Keynes aujourd’hui, n’aurait-il pas lui-même ajouté l’économiste doit être
économètre ?
Il est clair qu’il n’est plus possible { ce jour, de faire un bras de fer avec l’irruption et la domination de
l’Econométrie dans le champ de la science économique, au risque, purement et simplement, de se
soustraire de la catégorie d’économistes modernes.
7
Lauréat, avec Thomas Sargent, du prix Nobel d’Economie 2011.
Cette démarche de Sims s’inspire de l’un des grands principes de la théorie de l’équilibre général, selon lequel toutes
les variables économiques sont déterminées simultanément.
8
Ass. Cédrick Tombola M.
8
Pour renchérir, dans une étude publiée en 2006, les économistes Kim, Morse et Zingales ont montré que le
nombre d’articles empiriques cités en économie est passé de 11 % à 60 % entre 1970 et 2000. Ce qui confirme
l’importance de plus en plus croissante de l’Econométrie dans l’univers des économistes.
Par ailleurs, l’Econométrie s'applique à tous les domaines auxquels s'applique la science économique.
L'ouvrage de Levitt et Dubner, Freakonomics, témoigne de la diversité des applications possibles de
l'économétrie. Voici quelques exemples significatifs:




En économie de guerre, Collier – Hoeffler [1999] ont mis en évidence, par le recours à un modèle
économétrique, les déterminants politiques permettant de mettre fin aux guerres civiles et de
relancer l’économie en période post-conflit.
En économie de la croissance, Mankiw, Romer et Weil, en 1992, ont utilisé un modèle de régression
linéaire pour tester empiriquement la pertinence du modèle de Solow. Ils montrent que le modèle
de Solow augmenté du capital humain est cohérent avec les données observées. Barro et Sala-iMartin [1995], Easterly et Rebelo [1993], ont aussi eu recours aux méthodes économétriques afin
de rendre compte de l’effet des dépenses publiques sur la croissance.
En économie de la criminalité, Levitt, en 1997, a utilisé un modèle linéaire à variables instrumentales
pour estimer l'effet du nombre de policiers sur la criminalité.
En 2002, Acemoglu, Johnson et Robinson ont utilisé une régression linéaire pour estimer l'effet des
institutions sur le développement actuel des pays.
I.2. Quelques rappels statistiques
La force de la statistique est qu’on n’est pas obligé d’étudier toute la population. Il est possible de tirer des
conclusions sur une population, { partir d’un échantillon suffisamment représentatif.
Et comme les données en elles-mêmes ne sont pas intelligibles, le statisticien recherche la synthèse. Sa
première démarche pour synthétiser les données consiste { calculer les paramètres de description, c’est la
statistique descriptive. Plus tard, la démarche du statisticien consistera à contraster des données
empiriques aux lois théoriques, dont on connait parfaitement les comportements, en vue de faire de la
prédiction, c’est la statistique inférentielle [ou mathématique].
Encadré 1. Conditions de Yule
Le statisticien britannique Georges U. Yule a énoncé un certain nombre de propriétés souhaitées pour les
indicateurs des séries statistiques ; ceux-ci doivent être d’une part, des résumés ‘‘maniables’’ et d’autre
part, les plus exhaustifs possibles relativement { l’information contenue dans les données.
Dans son schéma, une caractéristique statistique doit être une valeur-type :
1.
2.
3.
4.
5.
6.
définie de façon objective et donc indépendante de l’observateur,
dépendante de toutes les observations,
de signification concrète pour être comprise par les non-spécialistes,
simple à calculer,
peu sensible aux fluctuations d’échantillonnages,
se prêtant aisément aux opérateurs mathématiques classiques.
En réalité, on ne dispose pas de caractéristiques répondant simultanément à ces six conditions. Le choix
d’un indicateur sera l’objet d’un compromis guidé par la spécificité de l’étude en cours.
Source : Adapté de B. Goldfard et C. Pardoux, 1995.
Ass. Cédrick Tombola M.
9
Indicateurs de position [ou de tendance centrale]
Soit une variable X observée sur un échantillon de n individus. xt est la valeur prise par X pour l’observation t.
1.
La moyenne arithmétique :
La moyenne arithmétique9 est la mesure de répartition équitable. Elle conserve la somme totale et satisfait à toutes les
conditions de Yule, sauf la 5ème, car elle est une mesure sensible aux valeurs extrêmes.
Lorsque les valeurs sont aléatoires, la moyenne arithmétique est appelée « Espérance mathématique ».
2. La médiane [Me] : est la mesure qui divise la série en deux groupes de tailles égales. Après avoir classé les
données en ordre croissant, elle correspond pour n impair [pair], au point milieu [à la moyenne arithmétique de deux
points milieux].
Elle satisfait aux conditions 1, 3, 4 et 5 de Yule. Contrairement à la moyenne arithmétique, la médiane résiste aux
valeurs extrêmes.
3. Le mode [Mo] : est la valeur dominante de la série, celle qui a la fréquence la plus élevée.
Pour une distribution discrète, le mode satisfait aux conditions 1, 3 et 4 de Yule.
Le premier Quartile Q1
[ou quantile d’ordre 1,
x25%]
4.
Les quartiles
Le deuxième Quartile
[ou quantile d’ordre
x50%]
Le troisième Quartile
[ou quantile d’ordre
x75%]
Q2
2,
Q3
3,
Valeur telle qu’au moins 25% des valeurs prises par X lui sont
inférieures. Après avoir classé les données et séparé la
population en deux, le Q1 est la médiane de la première souspopulation.
Le Q2 est la médiane.
Valeur telle qu’au moins 75% des valeurs prises par x lui sont
inférieures. Le Q3 est la médiane de la deuxième souspopulation.
Note : Les quartiles non plus ne subissent pas l’influence des valeurs extrêmes. Comme la médiane, les quartiles
satisfont aux conditions 1, 3, 4 et 5 de Yule.
Indicateurs de dispersion
5.
La variance :
La variance empirique :
La variance est la moyenne arithmétique des carrés des écarts d’une variable { sa moyenne arithmétique. Elle donne
une idée de la dispersion [ou déviation] de chaque observation xt autour de sa moyenne. Mais comme on le voit, avec
la variance on change d’échelle, elle s’exprime dans le carré de l’unité en laquelle s’expriment les observations. Pour
revenir { l’échelle du départ, on prend sa racine carrée qui est l’écart-type. Elle satisfait aux conditions 1, 2 et 6 de Yule.
Note : La variance empirique est l’estimateur non biaisé de la variance. La variance est un estimateur biaisé car utilisant
un autre estimateur dans son calcul.
6. L’écart-type :
L’écart-type empirique :
L’écart-type est la racine carrée de la variance. Il est la mesure de dispersion la plus utilisée. Elle satisfait aux conditions
1, 2 et 6 de Yule, et est plus sensible aux fluctuations d’échantillonnage et aux valeurs extrêmes que la moyenne
arithmétique, en raison des élévations au carré.
7. L’étendue : max xt – min xt
L’étendue est la différence entre la plus grande et la plus petite des valeurs observées. Elle est très influencée par les
valeurs extrêmes et ne satisfait pas aux conditions 2 et 5 de Yule.
8. L’Etendue [écart] interquartile : EIQ = Q3 – Q1
L’écart interquartile n’est pas sensible aux valeurs extrêmes.
9
Dans le langage courant, on dit simplement moyenne. Or, selon la manière dont le total des individus est calculé, il
existe différentes moyennes [moyenne géométrique, moyenne harmonique, moyenne quadratique].
Ass. Cédrick Tombola M.
10
Indicateurs de forme [de la distribution]
Parlons tout d’abord de la notion des moments.
Le moment centré sur a d’ordre r
aμ r
Les moments ont la vertu de permettre de mettre ensemble les principales mesures de description. A titre d’exemple,
si a=0 et r=1, on retrouve la moyenne arithmétique, qui n’est rien d’autre que le moment non centré d’ordre 1. La
variance serait donc le moment centré sur la moyenne arithmétique d’ordre 2, etc.
Note : dans la suite, on dira moment centré pour parler de moment centré sur la moyenne arithmétique. On peut
aisément vérifier que le moment centré sur la moyenne arithmétique d’ordre 1 (μ1) est nul.
9. L’asymétrie [Skewness en anglais]: est basée sur le moment centré d’ordre 3.
Pour une distribution symétrique, telle que la loi normale, la moyenne arithmétique est égale à la médiane égale au
mode. De plus, les moments centrés d’ordre impair sont nuls pour une distribution symétrique.
Le coefficient d’asymétrie de Fisher : γ1 =
γ1 est nul pour une distribution symétrique, telle que la loi normale.
Asymétrie à gauche [distribution
étalée à droite]
Distribution symétrique
Asymétrie à droite [distribution
étalée à gauche]
γ1<0
=Me=Mo
γ1=0
γ1>0
10. L’aplatissement [Kurtosis en grec, qui signifie bosse] : est basé sur le moment centré d’ordre 4 et permet de
mesurer l’importance des queues d’une distribution ou son aplatissement.
Le coefficient d’aplatissement de Fisher : γ2 =
–3
γ2 est nul pour une distribution mesokurtique. C’est le cas d’une distribution gaussienne [normale].
Distribution mesokurtique
Distribution platokurtique
γ2<0
Cas de la distribution de Student
γ2=0
Cas de la distribution normale
Distribution leptokurtique
γ2>0
La loi normale
La loi normale est une des principales distributions de probabilité. On dit qu’elle est parfaite, car sa densité de
probabilité dessine une courbe en cloche ou courbe de Gauss, qui est à la fois symétrique et mesokurtique.
Elle a été introduite, en 1733, par le mathématicien Abraham de Moivre, et mise en évidente plus tard, au 19 ème siècle,
par Carl F. Gauss. Elle est également connue sous le nom de la loi de Gauss. Une variable distribuée selon cette loi est
dite normale ou gaussienne.
Test d’hypothèse [un petit commentaire]
Ass. Cédrick Tombola M.
11
Un test d'hypothèse est une démarche consistant à évaluer une hypothèse statistique en fonction d'un échantillon. Il
s’agit donc de confronter une hypothèse dite nulle [HO] contre une hypothèse de recherche ou alternative [H1].
Une notion essentielle qui concerne les tests est la probabilité que l'on a de se tromper. Il existe deux façons de se
tromper lors d’un test statistique :

La première façon de se tromper est de commettre l’erreur [ou risque] de première espèce, noté α, qui est
la probabilité de rejeter à tort HO alors qu’elle est vraie. On dit, dans ce cas, que α est la probabilité d’avoir un
faux positif.

La deuxième façon de se tromper est de commettre l’erreur [ou risque] de deuxième espèce, noté β, qui est
la probabilité de ne pas rejeter HO alors qu’elle est fausse. On dit, dans ce cas, que β est la probabilité d’avoir
un faux négatif.
HO est vraie
Ne pas rejeter HO
Rejeter HO
HO est fausse
Erreur de 2ème espèce β
Erreur de 1ère espèce α
L’idéal serait que ces deux erreurs soient nulles, mais puisque l’on ne dispose que d’un nombre fini d’observations, il
faut faire un choix.
Le risque β étant difficile { évaluer, voire impossible, seul le risque α est utilisé comme critère de décision.
Note : On accepte une hypothèse en refusant sa fausseté et non en acceptant sa vérité.
I.3. Quelques tests statistiques de normalité
Dans son article de 194410, qui a marqué une étape décisive dans le développement de l’Econométrie, écrit
dans l’objectif de briser la réticence de ses contemporains vis-à-vis de l’application des méthodes
statistiques aux données économiques, Haavelmo a avancé deux thèses. D’abord, il a défendu l'idée que
l'emploi des mesures statistiques telles que les moyennes, les écarts-type, les coefficients de corrélation, à
des fins d'inférence n'a réellement de sens que dans un contexte probabiliste. De plus, estimait-il, peu
importe la vraie nature des faits économiques, il suffisait, pour les analyser, de faire comme si les données
économiques étaient générées par une loi de probabilité qu'il fallait identifier de façon adéquate.
Avant donc toute étude formelle, le travail de l’économètre est de tester l’adéquation ou la conformité
d’une distribution observée avec une distribution théorique associée à une loi de probabilité. Parmi ces
tests d’adéquation, la conformité { la loi normale est le test le plus utilisé, car elle sous-tend la plupart de
tests paramétriques utilisés en Econométrie. A titre de rappel, pour une distribution gaussienne, ± 2σ
contiennent 95% des observations.
Les nombreux tests11 de normalité d’une distribution que fournit la littérature peuvent se regrouper en
deux familles : Les tests informels et les tests formels.
Si n est le nombre d’observations
Tests informels



Histogramme des fréquences
tuyau d’orgue]
Box – plot [ou Boîte-à-pattes]
QQ – plot [ou droite de Henry]
Tests formels
[ou

Test de Jarque – Bera


Test de Shapiro – Wilk
Test K2 d’Agostino – Pearson
En termes d’efficacité
Si n > 88
Si n ≤ 50
Si n ≥ 20
Les tests informels donnent une présomption tandis que les tests formels apportent une approche plus rigoureuse et
objective.
Ci-après sont exposés uniquement les tests les plus fréquemment utilisés et les plus opérationnels.
10
11
Haavelmo, T. (1944), The Probability Approach in Econometrics, Supplement to Econometrica, 12, 1-118.
Il existe une batterie de test de normalité, ici nous ne reprenons que quelques uns.
12
Ass. Cédrick Tombola M.
α. Le Box – plot
Synonyme : Boîte – à – pattes, Boîte à moustache, Diagramme en boites, Box and Whiskers Plot
Le Box – plot, inventé par Tukey en 1977, est un outil graphique très pratique qui permet de caractériser
une distribution en fournissant un résumé riche d’informations sur sa dispersion et son asymétrie.
Du fait qu’il renseigne sur l’asymétrie d’une distribution, le Box – plot est également utilisée comme test de
normalité.
Les étapes à suivre dans sa construction peuvent être résumées comme suit :
a. Porter sur une échelle les valeurs calculées suivantes : Q1, Q2, Q3, Min xi et Max xi
b. Construire la boîte : - La longueur de la boîte est donnée par l’EIQ
- La largeur de la boîte est fixée à priori.
c. Calculer la longueur des moustaches ou des pattes [inférieure et supérieure] :
Pour savoir jusqu’où vont les moustaches, on calcule deux valeurs adjacentes :
Frontière Basse [FB]= Q1 – 1.5EIQ
Frontière Haute [FH]= Q3 + 1.5EIQ
Selon Tukey, la valeur 1.5 serait plus pragmatique.
Pour la longueur de la moustache inférieure : prendre, parmi les valeurs xi prises par X, la valeur minimale
xb directement supérieure à FB, soit xb = min {xi| xi ≥ FB}.
Pour la longueur de la moustache supérieure : prendre, parmi les valeurs xi prises par X, la valeur maximale
xh directement inférieure à FH, soit xh = max {xi| xi ≤ FH}.
A retenir :
- Pour une distribution symétrique, Q2 divise la boîte exactement en deux parties égales.
- Pour une distribution symétrique, Q2= .
Illustration
Considérons l’exemple suivant :
X
6
7
8
Q1 = 8.5
Q2 = 12
FB = 8.5 – (1.5)7 = – 2
9
10
11
12
Q3 = 15.5
EIQ = 7
FH = 15.5 + (1.5)7 = 26
13
14
15
16
17
18
Min xi = 6
et
Max xi= 18
= 12
Etendue = 10 Xb = 6 Xh =18
Etendue
*
FB
Min xi
Xb
Q1
Q2
EIQ
La croix à l’intérieur de la boîte représente la moyenne.
Q3
Max xi
Xh
FH
Ass. Cédrick Tombola M.
13
Il ressort, puisque Q2 sépare la boîte en deux parties égales et que les queues ont une longueur identique,
que la distribution est symétrique, ce qui est une présomption de normalité. De plus la médiane (Q2) est
égale à la moyenne.
Note : la Boîte–à–pattes permet également de détecter les valeurs aberrantes ou singulières [déviants ou
atypiques ou encore outliers]. Après avoir construit le Box – plot, est valeur aberrante celle située au-delà des
pattes.
β. Le test de Jarque-Bera [JB]
Le test de Jarque-Bera, proposé en 1980 par Carlos Jarque et Anil Bera, est parmi les tests de normalité les
plus populaires dans les milieux académiques. Mais la remarque { faire, d’ores et déj{, est qu’il est
particulièrement approprié pour grand échantillon, soit n > 88.
Le test JB est fondé sur les coefficients d’asymétrie et d’aplatissement. Sa richesse consiste { ce qu’il
permet de conclure { la fois sur l’asymétrie et l’importance des queues [aplatissement] d’une distribution.
Les hypothèses du test sont :
H0 : Normalité
H1 : Non normalité
Sous l’hypothèse de normalité de la série, la statistique du test JB suit asymptotiquement une distribution
du Khi deux χ2 { degrés de liberté avec le risque d’avoir un faux positif [ou seuil de signification] α = 5%.
La statistique du test est calculée comme suit :
JB = n
=
où n est la taille de l’échantillon, S le Skewness et K la Kurtosis.
Valeur lue dans la table de la loi du Khi carré à deux degrés de liberté
Seuil
1%
5%
9.210
5.991
Valeur
Critère de décision : Si JB ≥ à la valeur du χ2(2) de la table au seuil α, alors RH0 de normalité.
γ. Le test de Shapiro-Wilk
Le test de Shapiro – Wilk, proposé en 1965 par Samuel Shapiro et Martin Wilk, est considéré dans la
littérature comme l’un des tests de conformité { la loi normale les plus fiables et les plus efficaces,
particulièrement pour petits échantillons [n ≤ 50] 12. Ce test est basé sur la statistique W, calculée comme
suit :
W=
12
Lire par exemple Royston (1982), Palm (2002).
Ass. Cédrick Tombola M.
14
où
n : est la taille de l’échantillon
ai : sont des valeurs lues dans la table des coefficients
de Shapiro et Wilk, connaissant n et l’indice i.
: est la partie entière du rapport
x(i) : correspond à la série des données triées en ordre
croissant
Les hypothèses du test sont :
H0 : la variable X est gaussienne
H1 : la variable X est non gaussienne
La statistique W est confrontée à une valeur lue dans la table des valeurs limites de W proposée par
Shapiro et Wilk, avec n le nombre d’observations et au seuil α [5% en général].
Critère de décision : Si W < WTable(n) au seuil α, alors RH0 [la variable est non gaussienne]13.
Note : Les deux tables utilisées pour mener ce test sont reprises en annexe.
I.3. Trois piliers de l’économétrie
L’économétrie se fonde sur trois piliers { savoir :
α. La théorie économique ;
β. Les données ;
γ. Les méthodes.
Les trois piliers de l’économétrie
Les données
La théorie économique
De par sa nature l’Econométrie est
intimement liée à la théorie
économique qui lui fourni les
modèles et théories qu’elle teste.
Pour
tester
les
théories,
l’Econométrie utilise les données
observées, les informations fournies
par un échantillon.
Aujourd’hui
encore,
malgré
l’émancipation de l’Econométrie
depuis le fameux article de 1980 de
Sims, l’on ne peut trancher en
défaveur
du
mariage
théorie
économique – Econométrie.
L’économétrie a principalement
recours à trois types et deux formats
de données.
13
Ce sont les méthodes statistiques qui
permettent de mettre en œuvre et
d’exploiter un modèle à partir
d’informations
provenant
de
l’échantillon.
La méthode la plus populaire en
Econométrie est celle des moindres
carrés ordinaires.
Trois types de données :

Selon Ado et Davidson [1998],
L'économétrie est précisément le
moyen qui permet au discours
économique d'échapper à la vacuité
de son formalisme, en permettant
une mise en correspondance des
théories et des faits économiques.
C'est elle qui permet de confirmer ou
Les méthodes
Chroniques [times series en
anglais], on parle également des
séries chronologiques ou séries
temporelles, notées Xt : sont de
données indicées par le temps.
Ex. Le PIB de la RDC de 2000 à
2010.
Lire TSASA Jean –Paul (2012) pour les illustrations.
En
recourant
aux
méthodes
statistiques,
et
à
partir
d’informations livrées par le monde
réel, l’économètre poursuit un triple
objectif :



Quantifier et tester les théories
Faire des prévisions
Evaluer l’efficacité des mesures
de politique économique
Ass. Cédrick Tombola M.
d'infirmer les modèles théoriques, du
moins ceux qui admettent une
représentation économétrique.


Données en Coupe longitudinale
[cross section en anglais], on
parle aussi de coupe instantanée,
notées Xi : font référence aux
données observées au même
moment, pour des individus
différents. Ex. Le PIB en 2009 de
tous les pays de l’Afrique
Centrale.
Données en Panel [pooling en
anglais], on parle aussi des
données croisées, notées Xit :
font référence à la combinaison
de deux premiers types. Ex. Le
PIB de 2000 à 2010 de tous pays
de l’Afrique Centrale. On parle
aussi de cohorte, lorsque
l’échantillon sondé reste le
même d’une période { l’autre.
Deux formats des données :


Quantitatives [ex : PIB, Taux
d’inflation, etc.]
Qualitatives [ex : paix, sexe,
religion, niveau d’étude, etc.]
15
L’Econométrie n’a donc pas pour
objet d’énoncer la théorie mais de la
vérifier.
Ass. Cédrick Tombola M.
16
I.4. Modèle économique versus modèle économétrique
α. Modèle économique
Selon Barbancho14, un modèle est l’expression mathématique d’une certaine théorie économique.
L’exemple de la loi psychologique fondamentale de Keynes est assez pertinent { cet effet. D’après cette loi,
en moyenne et la plupart du temps lorsque le revenu d’un individu augmente, il augmente aussi sa
consommation, mais dans une proportion moindre { l’augmentation de son revenu. Mathématiquement, si
on note la consommation par Ct et le revenu par Yt, cette loi peut être spécifiée comme suit :
Ct= α0 + α1Yt
[avec α1 : propension marginale { consommer, 0 < α1 < 1]
En général, le modèle spécifié par l’économiste est défini comme étant une maquette de la réalité ou d’un
phénomène sous forme d’équations dont les variables sont des grandeurs économiques.
A ce sujet, Lester C. Thurow note ceci : « Les équations décrivent à quoi ressemblerait le monde réel s’il
ressemblait à la théorie ».
β. Modèle économétrique
Toujours selon Barbancho, un modèle économétrique n’est autre chose qu’un modèle économique qui
contient les spécifications nécessaires pour son application empirique. C’est donc le modèle économique
auquel on ajoute un terme d’erreur ut.
Ct=α0 + α1Yt + ut
[modèle spécifié par l’économètre]
La première partie de ce modèle [α0 + α1Yt] constitue sa partie systématique et la deuxième [ut] sa partie
stochastique ou aléatoire.
Il convient de noter également que le terme d’erreur ut [bruit, perturbation ou aléa] dénote de la différence
entre l’économiste et l’économètre. Il synthétise l’influence sur Ct [variable expliquée] de toutes les autres
variables oubliées et des erreurs éventuelles de spécification de la forme fonctionnelle dans le modèle
spécifié par l’économiste. De plus, sa présence dans le modèle rend les paramètres α0 et α1 inconnus, on ne
sait plus les calculer, il faut donc les estimer.
14
Cité par Kintambu Mafuku (2004).
17
Ass. Cédrick Tombola M.
.II.
THEORIE DE LA CORRELATION
L’analyse de la corrélation a pour objet de présenter les mesures statistiques destinées { rendre compte du
sens et de la force de la liaison mathématique qui peut exister entre deux variables quantitatives X et Y. Il
faut, d’ores et déj{, noter que dans ce cadre, la position des variables est symétrique. L’analyse ne permet
pas de distinguer variable endogène de la variable exogène.
L’outil graphique « diagramme de dispersion ou graphique nuage de points » est le plus adapté et indiqué
pour débuter l’étude de la corrélation. Après l’avoir réalisé, la forme du nuage des points renseigne – à
partir d’un simple coup d’œil – sur le type d’une éventuelle liaison entre X et Y. Plusieurs situations sont
possibles :
Figures A. Relations linéaires, de gauche à droite, positive et négative.
600
600
500
500
400
400
300
300
200
200
100
100
0
0
0
500
1000
1500
Figures B.1. Relation non linéaire monotone
0
2000
500
1000
Figures B.2. Relation non linéaire
non monotone
10
8
10
4
5
-100
2
0
0
0
5
10
15 -4
-2
0
2
2000
Figures B. 3. Absence de liaison
15
6
1500
4
120
100
80
60
40
20
0
-50 -20 0
-40
-60
-80
50
100
150
L’analyse du plot donne certes une idée sur le sens et le type d’association entre X et Y, mais elle ne permet
pas de quantifier son intensité.
Depuis toujours, afin de mesurer la force du lien qui peut exister entre X et Y, les statisticiens ont eu recours
au calcul de la covariance. Si on note par n la taille de l’échantillon et i le numéro de l’observation, la
covariance empirique15 entre X et Y est calculée par la formule :
Cov (X, Y) =
15
La covariance empirique étant un estimateur non biaisé de la covariance.
18
Ass. Cédrick Tombola M.
L’idée est que si X et Y covarient, leur covariance devrait être grande. Elle serait modérément faible si les
deux variables ne covarient pas.
Malheureusement, comme mesure du degré de dépendance entre X et Y, la covariance présente la
faiblesse d’être fortement influencée par les unités de mesure des variables en présence. C’est cette limite
qui a conduit au développement des coefficients de corrélation.
II.1. Coefficient de corrélation de Bravais – Pearson
Le coefficient de corrélation linéaire de Bravais – Pearson, noté rXY, est un coefficient paramétrique qui
donne la mesure du degré de liaison linéaire entre deux variables quantitatives X et Y normalement
distribuées. Il est donné par le rapport entre leur covariance et le produit non nul de leurs écarts – types.
Ainsi, il standardise la covariance et la corrige de l’influence des unités de mesure des variables.
Formellement, le rXY est donné par la formule :
rXY =
=
[2.1]
Si l’on considère les écarts { la moyenne arithmétique 16, la relation [2.1] peut également s’écrire comme
suit :
rXY =
[2.2]
Propriétés de la covariance et propriétés du coefficient de corrélation linéaire
Propriétés de la covariance
Propriétés du rXY
Commentaires
Cov (X, Y) = Cov (Y, X)
rXY = rYX
Cov (X, X) = Var (X)
rXX = 1
Cov (k, X) = 0
rkX = 0
Comme la covariance, le rXY est symétrique.
La corrélation entre une variable et ellemême est égale { l’unité.
La corrélation entre une constante et une
variable est nulle.
Le coefficient de corrélation linéaire est un
nombre sans dimension dont l’intervalle de
variation est : [–1, +1]17.
– 1 ≤ rXY ≤ 1
α. Hypothèses fortes au calcul du rXY
Le calcul du coefficient de corrélation linéaire de Bravais – Pearson entre les variables X et Y n’est adapté
qu’au strict respect des hypothèses suivantes :



Les variables X et Y doivent être quantitatives ;
Les variables X et Y doivent être sont gaussiennes ;
La relation entre X et Y doit être linéaire 18 ;
Note : Lorsque la liaison entre X et Y est non linéaire mais monotone, le r XY ne devient pas hors de propos.
Seulement, dans ce cas d’espèce, il donne des informations sur l’existence de la liaison, mais estime mal son
intensité. N’oublions pas que le coefficient de corrélation linéaire sert avant tout { caractériser une liaison
linéaire. Lorsqu’elle ne l’est pas, ce coefficient peut induire en erreur sur l’existence et l’intensité de la
relation entre variables considérées.
16
La somme des écarts à la moyenne arithmétique est toujours égale à 0, soit
On peut aisément démontrer que par construction, le rXY reste compris entre -1 et 1.
18
Cette information est livrée par le graphique nuage des points.
17
= 0.
Ass. Cédrick Tombola M.
19
β. Test sur le coefficient de corrélation de Bravais - Pearson
Puisque le travail se fait sur un échantillon, après calcul et avant toute interprétation, le rXY doit être soumis
à un test de significativité qui permet de vérifier si la corrélation calculée existe bel et bien au sein de la
population.
Les hypothèses du test sont :
H0 : ρXY = 0
[hypothèse d’absence de corrélation]
H1 : ρXY ≠ 0n
[hypothèse d’absence de décorrélation]
ρXY est la corrélation théorique, inconnue au niveau de la population, r XY est la corrélation empirique
estimée { partir d’informations fournies par l’échantillon.
Sous H0, on démontre que la statistique du test suit une distribution de Student au seuil α [5% sauf
indication contraire] et à (n – 2) degrés de liberté.
Le test est de la forme :
Rejet H0 si
> tα/2 ; (n – 2) [valeur lue dans la table de Student]
γ. Signification clinique du coefficient de corrélation de Bravais - Pearson
La signification clinique ou l’interprétation du rXY n’est valable que si, après test, on rejette l’hypothèse de
décorrélation.
Le travail d’interprétation d’un coefficient de corrélation linéaire se fait toujours en deux temps : une
interprétation par rapport au signe/sens de la liaison et une interprétation par rapport au degré de
dépendance.


A. Interprétation par rapport au signe


B. Interprétation par rapport à l’intensité






Si rXY > 0, X et Y sont positivement corrélées [la
relation linéaire entre X et Y est positive].
Si rXY < 0, X et Y sont négativement corrélées [la
relation linéaire entre X et Y est négative].
Si rXY = 0, X et Y sont non corrélées [pas de liaison
linéaire, mais possibilité d’une liaison d’un autre
type].
Si rXY = ± 1, le lien linéaire entre X et Y est parfait.
Dans ce cas, l’une des variables est fonction
affine de l’autre, les n points (xi, yi) sont alignés.
Si 0.80 < rXY < 1, le lien linéaire est très fort.
Si 0.65 < rXY < 0.80, le lien linéaire est fort [élevé].
Si 0.50 < rXY < 0.65, le lien linéaire est modéré.
Si 0.25 < rXY < 0.50, le lien linéaire est faible.
Si 0.025 < rXY < 0.25, le lien linéaire est très faible.
Si rXY proche de 0, alors il y a absence de lien
entre X et Y.
Note : Le coefficient de corrélation linéaire entre deux variables quantitatives gaussiennes indépendantes
20
Ass. Cédrick Tombola M.
est nul, mais la réciproque n’est pas toujours vraie. Donc r XY = 0 ne signifie pas toujours qu’il y a
indépendance entre X et Y. Cela peut tout simplement vouloir dire qu’il y a absence d’une liaison
linéaire entre les variables étudiées.
Ceci dit, le calcul d’un coefficient de corrélation doit toujours commencer par un examen graphique.
L’autre faiblesse majeure du coefficient de Bravais – Pearson est d’être très sensible aux points aberrants.
II.2. Coefficient de corrélation de rang de Spearman
Le coefficient de corrélation de Spearman, noté ρ XY, est un coefficient non paramétrique qui quantifie,
comme le rXY de Bravais – Pearson, le degré d’association linéaire entre deux variables quantitatives. Il est
particulièrement approprié lorsqu’au moins une de deux variables X et Y n’est pas normalement distribuée.
Son calcul nécessite que les données soient transformées en rang. Le rang de X est noté par Ri et celui de Y
par Si. Le ρXY de Spearman n’est rien d’autre que le rapport entre la covariance (Ri, Si) et le produit non nul
de leurs écarts-types. Il est donc un cas particulier du coefficient de corrélation de Bravais – Pearson.
En tenant compte de certaines propriétés de rang, le ρ XY de Spearman peut être calculé de manière plus
simple par la formule :
ρXY = 1 –
[2.3]
où Di = Ri - Si et n = nombre d’observations
Avantages du ρXY de Spearman sur le rXY de Bravais – Pearson
Le rXY de Bravais - Pearson
Le ρXY de Spearman
A propos de la normalité
Pour calculer rXY, les variables doivent être Le ρXY lève l’hypothèse de normalité. De plus, dans
gaussiennes.
le cas des variables distribuées normalement, le ρ XY
reste adapté car il fournit les mêmes résultats que
le rXY de Bravais – Pearson.
Concernant une liaison non linéaire monotone
Le rXY donne une idée sur le sens de la liaison mais Dans ce cas, le ρXY est approprié, il estime mieux
estime mal sa force.
que le rXY ce type de liaison.
La présence des points atypiques
Le rXY est fortement influencé par la présence des Le ρXY résiste aux points aberrants. Dans ce cas, il
déviants [points aberrants].
est donc préféré au rXY.
Note : Lorsque la liaison entre les deux variables étudiées est non linéaire et non monotone, les deux
coefficients rXY et ρXY ne sont plus adaptés. On peut soit transformer les données avant de les
calculer ou carrément, lorsqu’on dispose de plusieurs valeurs de Y pour chaque valeur de X ou
l’inverse, calculer le rapport de corrélation.
La démarche du test statistique sur le ρXY de Spearman est la même que celle sur le coefficient de
corrélation de Bravais – Pearson.
Remarques importantes sur le calcul du ρXY de Spearman
Le calcul du coefficient de corrélation de Spearman exige que les données soient remplacées par leurs
rangs. Et en présence d’ex aequo dans les données, on leur affecte un rang moyen, donné par la moyenne
arithmétique de leurs rangs respectifs.
Ass. Cédrick Tombola M.
21
Mais lorsqu’on compte plusieurs ex aequo, après avoir remplacé les données par leurs rangs, il est conseillé
de faire subir au coefficient de Spearman quelques corrections ou simplement de lui préférer le coefficient
de Bravais-Pearson, mais calculé sur les rangs. Dans ce recueil, nous optons pour cette dernière option.
En résumé, l’estimation d’un coefficient de corrélation suivra toujours [sauf indication contraire], dans
l’ordre, les cinq étapes suivantes :
(i)
(ii)
(iii)
(iv)
(v)
Test de linéarité [utiliser un diagramme de dispersion]
Test de normalité [choisir le plus approprié connaissant n]
Choix et estimation d’un coefficient de corrélation
Test de significativité statistique sur le coefficient calculé
Interprétation ou signification clinique du coefficient estimé [valable seulement si H0 est rejetée]
Critère synthétique de choix d’un coefficient de corrélation
Informations fournies par les données
Type de liaison
Normalité
linéaire
Variables normales
L’une au moins de deux
variables est non normale
Non linéaire monotone Variables normales ou non
Présence des points atypiques
Coefficient de corrélation approprié [en termes
de robustesse]
- Coefficient rXY de Bravais – Pearson
- Coefficient ρXY de Spearman
linéaire
- Coefficient ρXY de Spearman
II.3. Limites de la corrélation
Les coefficients de corrélation présentés dans ce chapitre présentent essentiellement quatre faiblesses, à
savoir :




La mesure ne concerne qu’une relation linéaire. Le coefficient de corrélation linéaire sert avant
tout { caractériser une liaison linéaire. Lorsqu’elle ne l’est pas, ce coefficient peut induire en erreur,
surtout sur l’intensité de la liaison entre variables considérées.
La mesure ne concerne que les variables quantitatives. En présence des variables qualitatives
comme la paix, la religion, …, les deux coefficients présentés ci-haut ne sont plus adaptés.
La corrélation n’est ni impact ni causalité. L’objet de la corrélation n’est pas d’établir une causalité
mais simplement de rendre compte du sens et du degré d’association éventuelle entre variables.
La corrélation peut être fortuite [artificielle ou fallacieuse ou encore artefactuelle]. Une
corrélation élevée ne peut tenir qu’{ un facteur confondant ou artefact. En réalité, les deux
variables peuvent simplement être liés à un même phénomène - source : une troisième variable
dont il faut neutraliser l’effet.
Les alternatives face à ces faiblesses sont notamment la corrélation pour variables qualitatives, le
coefficient de corrélation partiel, le rapport de corrélation, la régression linéaire et non linéaire, la causalité,
la cointégration, etc.
22
Ass. Cédrick Tombola M.
Exercices résolus sur la théorie de la corrélation
Exercice 1
Un chercheur désire examiner la relation qu’il peut exister entre l’habilité en lecture (X) et le nombre
d’heures de lecture par semaine (Y). X est mesuré en laboratoire { l’aide d’un test d’habilité en lecture alors
que Y est estimé par les sujets eux-mêmes. 10 sujets ont été échantillons. Les résultats sont :
X
20
5
5
40
30
35
5
5
15
40
Y
5
1
2
7
8
9
3
2
5
8
Estimer la corrélation entre X et Y [passer par les cinq étapes]
Solution de l’exercice 1
Etape 1. Test de linéarité
10
8
Ce graphique fait état d’une association
linéaire positive entre X et Y.
6
4
2
0
0
10
20
30
40
50
Etape 2. Test de normalité
Puisqu’étant approprié pour petit échantillon, nous appliquons le test de Shapiro – Wilk.
La statistique à calculer est : W =
Test sur la variable X
i
X
X(i)
ai
1
20
5
-15
225
0,5739
35
20,0865
2
5
5
-15
225
0,3291
35
11,5185
3
5
5
-15
225
0,2141
30
6,423
4
40
5
-15
225
0,1224
25
3,06
5
30
15
-5
25
0,0399
5
0,1995
∑
6
35
20
0
0
7
5
30
10
100
8
5
35
15
225
9
15
40
20
400
10 40
∑
40
20
400
=20 ; n=10 ; =5
0
2050
41,2875
W=
= 0.83154032
Wtable =0.842 [à 5%, pour n=10]
Puisque W<Wtable, RH0. La variable X est non
gaussienne.
Ass. Cédrick Tombola M.
23
Test sur la variable Y
i
Y
y(i)
ai
1
5
1
-4
16
0,574
8
4,5912
2
1
2
-3
9
0,329
6
1,9746
3
2
2
-3
9
0,214
6
1,2846
4
7
3
-2
4
0,122
4
0,4896
5
8
5
0
0
0,04
0
0
6
9
5
0
0
7
3
7
2
4
8
2
8
3
9
9
5
8
3
9
10
∑
8
9
4
16
0
5 ; n=10 ; =5
∑
8,34
W=
= 0.915205263
Wtable =0.842 [à 5%, pour n=10]
Puisque W>Wtable, Non RH0. La variable Y est
gaussienne.
76
Etape 3. Choix et estimation d’un coefficient de corrélation
Eu égard aux résultats des tests de linéarité et de normalité [X est non gaussienne], le coefficient de
corrélation approprié dans ce cas est le ρXY de Spearman. Les calculs sont confinés dans le tableau ci-après :
X
Y
Rang de X [Ri]
Rang de Y [Si]
Di = R i - Si
Di2
20
5
6
5,5
0,5
0,25
5
1
2,5
1
1,5
2,25
5
2
2,5
2,5
0
0
40
7
9,5
7
2,5
6,25
30
8
7
8,5
-1,5
2,25
35
9
8
10
-2
4
5
3
2,5
4
-1,5
2,25
5
2
2,5
2,5
0
0
15
5
5
5,5
-0,5
0,25
40
8
9,5
8,5
1
1
∑
18,5
ρXY = 1 –
= 0. 887878788
Note : Deux nombres – au moins – identiques ont même rang qui est donné par la moyenne arithmétique de leurs rangs
respectifs.
Etape 4. Test de significativité statistique
La statistique du test est : tcal=
= 5. 45842979 et t0.025 ; 8 = 2.306 [Puisque tcal >ttable, alors RH0
d’absence de corrélation entre X et Y, le coefficient de corrélation calculé est statistiquement significatif].
Etape 5. Signification clinique [interprétation]
Il existe bel et bien une corrélation linéaire positive très forte entre l’habilité en lecture (X) et le nombre
d’heures de lecture par semaine (Y) au sein de la population étudiée.
24
Ass. Cédrick Tombola M.
Exercice 2
Montrer rigoureusement que par construction le coefficient de corrélation linéaire est toujours comprise
entre - 1 et 1 [Utiliser la formule de Bravais – Pearson].
Solution de l’exercice 2
Si le lien linéaire entre X et Y est parfait, Y (X) s’écrirait comme une fonction affine de X (Y) :
Y = α + βX
D’une part, on aura :
Y = α – βX
D’une part, on aura :
Cov (X, Y) = E(XY) = E{[X – E(X)] [Y – E(Y)]}
Cov (X, Y) = E(XY) = E{[X – E(X)] [Y – E(Y)]}
= E{[X – E(X)][ α + βX – E(α + βX)]}
= E{[X – E(X)][ α – βX – E(α – βX)]}
= E{[X – E(X)][ α + βX – α – βE(X)]}
= E{[X – E(X)][ α – βX – α + βE(X)]}
= E{[X – E(X)] β[X – E(X)]}
= – E{[X – E(X)] β[X – E(X)]}
2
2
= β[X – E(X)]
= – β[X – E(X)]
= βVar(X)
D’autre part, on a ceci :
= – βVar(X)
D’autre part, on a ceci :
2
2
2
2
Var(Y) = E[Y – E(Y)] = E[α + βX – α – βE(X)]
= β2var(X)
Et par conséquent,
Var(Y) = E[Y – E(Y)] = E[α – βX – α + βE(X)]
= β2var(X)
Et par conséquent,
rXY =
rXY =
=
=
=1
=
=
Le domaine de définition de rXY est donc [– 1, + 1]
Exercice 3
Le tableau ci-après renseigne sur l’évolution de l’offre de jus de banane (X) et son prix en USD (Y).
N°
1
2
3
4
5
6
7
8
9
10
11
X
10
8
9
11
14
6
4
12
7
5
8
Y
7
6
7
8
9
6
5
8
6
6
7
Travail à faire :
- Calculer le coefficient de corrélation approprié.
- Tester sa significativité statistique
- Evaluer sa signification clinique
Solution de l’exercice 3
1. Test de linéarité
10
8
6
4
2
0
0
5
10
15
Le diagramme de dispersion témoigne de l’existence d’une association linéaire positive entre X et Y.
=–1
Ass. Cédrick Tombola M.
25
2. Test de normalité
Test sur la variable X
i
X
ai
1
10
4
-4,5454545
20,661157
0,5601
10
5,601
2
8
5
-3,5454545
12,5702479
0,3315
7
2,3205
3
9
6
-2,5454545
6,47933884
0,226
5
1,13
4
11
7
-1,5454545
2,38842975
0,1429
3
0,4287
5
14
8
-0,5454545
0,29752066
0,0695
1
0,0695
6
6
8
-0,5454545
0,29752066
7
4
9
0,4545455
0,20661157
W=
8
12
10
1,4545455
2,11570248
Wtable=0,850
9
7
11
2,4545455
6,02479339
10
5
12
3,4545455
11,9338843
11
8
14
5,4545455
29,7520661
0
92,7272727
= 5,5
∑
∑
9,5497
= 0,983494579
Puisque W >Wtable, alors Non RH0. La variable X
est normalement distribuée.
= 8,545454545 ; n =11 ;
Note : n étant impair, on n’a retenu que la partie entière du ratio , soit 5.
Test sur la variable Y
i
Y
1
7
5
-1,818181818
3,30578512
0,5601
4
2,2404
2
6
6
-0,818181818
0,66942149
0,3315
2
0,663
3
7
6
-0,818181818
0,66942149
0,226
2
0,452
4
8
6
-0,818181818
0,66942149
0,1429
1
0,1429
5
9
6
-0,818181818
0,66942149
0,0695
1
0,0695
6
6
7
0,181818182
0,03305785
7
5
7
0,181818182
0,03305785
8
8
7
0,181818182
0,03305785
W=
9
6
8
1,181818182
1,39669421
Wtable=0,850
10
6
8
1,181818182
1,39669421
11
7
9
2,181818182
4,76033058
∑
ai
∑
0
13,6363636
= 6,818181818 ; n=11 ; = 5,5
3,5678
= 0,933474435
Puisque W >Wtable, alors Non RH0. La variable Y
est normalement distribuée.
3. Choix et estimation d’un coefficient de corrélation
Les deux variables étant gaussiennes et linéairement associées, on peut indifféremment estimer le rXY de
Bravais-Pearson ou le ρXY de Spearman. Dans ce cas, les deux coefficients devraient donner pratiquement la
même chose. Après calcul, on a les résultats suivants :
Ass. Cédrick Tombola M.
Le rXY de Bravais-Pearson
0,95870624
Corrélation entre X et Y
26
Le ρXY de Spearman
0,95227273
4. Signification statistique du coefficient calculé
La statistique calculée est :
= 10.1129979 pour le rXY de Bravais-Pearson, et
= 9.3589914, pour le
ρXY de Spearman.
Et la valeur de la table, au seuil de 5%, est de : t0.025 ; 9 =2.262
Conclusion : le coefficient de corrélation calculé est statistiquement non nul.
5. Signification clinique
il existe bel et bien une corrélation linéaire positive très forte entre quantité offerte de jus de banane et son
prix, ce qui est conforme à la moi de l’offre.
Exercice 4
A partir d’un échantillon de 27 objets, on a trouvé que la valeur d’un coefficient de corrélation linéaire était
0.4. Peut-on en conclure, à un seuil de signification de 0.05 que le coefficient de corrélation diffère
significativement de la valeur zéro ? Qu’adviendrait la réponse obtenue précédemment si l’on considère un
seuil de signification de 0.01.
Solution de l’exercice 4
L’exercice livre les informations suivantes : rXY =0.4 ; n=27 ; α = 0.05.
 Après calcul, on a tcal=2.1821789. En considérant le seuil donné, α = 0.05, et 25 degrés de liberté, la
table de la loi de Student donne la valeur : t0.025 ; 25 = 2.060. On peut donc conclure, à un seuil de signification
de 0.05 que le coefficient de corrélation diffère significativement de la valeur zéro.

Au seuil de signification de 0.01, t0.005 ; 25 = 2.787, ce coefficient de corrélation devient non significatif.
Exercice 5
Soit le jeu de données normalement distribuées ci-dessous.
Bloc I
Bloc II
Bloc III
Bloc IV
X
Y
X
Y
X
Y
X
Y
10
8,04
10
9,14
10
7,46
8
6,58
8
6,95
8
8,14
8
6,77
8
5,76
13
7,58
13
8,74
13
12,74
8
7,71
9
8,81
9
8,77
9
7,11
8
8,84
11
8,33
11
9,26
11
7,81
8
8,47
14
9,96
14
8,10
14
8,84
8
7,04
6
7,24
6
6,13
6
6,08
8
5,25
4
4,26
4
3,1
4
5,39
19
12,5
12
10,84
12
9,13
12
8,15
8
5,56
7
4,82
7
7,26
7
6,42
8
7,91
5
5,68
5
4,74
5
5,73
8
6,89
27
Ass. Cédrick Tombola M.
Travail demandé :
(i)
(ii)
(iii)
(iv)
Estimer pour chaque cas le coefficient de corrélation de Bravais – Pearson
Quel constat se dégage t-il de ces calculs ?
A présent, réaliser un graphique nuage des points pour chaque cas. Quelle leçon peut-on tirer ?
Calculer le coefficient de Spearman pour le bloc IV. Quel avantage présente-t-il ?
Solution de l’exercice 5
(i)
Après calcul, on a le coefficient de Bravais-Pearson ci-après, pour chaque cas :
Bloc I
0,81642052
rXY
(ii)
(iii)
Bloc II
0,81623651
Bloc III
0,81628674
Bloc IV
0,81652144
Pour les 4 blocs, on obtient pratiquement la même valeur du coefficient de corrélation de BravaisPearson, soit rXY = 0.82. Ce qui semble traduire dans ces différents cas, l’existence d’un lien linéaire
positif très fort.
Graphique nuage ds points pour chaque bloc
Bloc I
Bloc II
15
10
10
Bloc III
Bloc IV
15
15
10
10
5
5
5
5
0
0
0
10
20
0
0
10
20
0
5
10
15
0
0
10
La leçon à tirer est que l’estimation du coefficient de corrélation de Pearson doit toujours s’accompagner d’un
examen graphique. Car, comme on le voit, le coefficient estimé rXY = 0.82, ne correspond, en toute rigueur,
qu’au premier graphique. Le deuxième, par exemple, fait état d’une liaison fonctionnelle presque parfaite
entre X et Y dont le rXY semble sous-estimer l’intensité. Quant au troisième et au quatrième graphiques, il y a un
point atypique qui fausse complètement le rXY de Bravais-Pearson. Pour preuve, il suffit de retirer le point
aberrant, soit le couple (13, 12.74) et (19, 12.5), respectivement dans le troisième et quatrième graphiques, le
coefficient de corrélation de Pearson qui était de r XY=0.82, devient respectivement de 0.99999655 et de 0
[puisque rkX=0].
(iv)
On remarquera qu’au bloc IV, la variable X présente plusieurs ex aequo, nous avons donc calculé le
coefficient de Bravais-Pearson sur les rangs.
Coefficient de Bravais-Pearson calculé sur les rangs
Bloc IV
Lien entre X et Y
0.5
A comparer au coefficient de Pearson, le coefficient de rang présente l’avantage de résister aux points
atypiques.
20
28
Ass. Cédrick Tombola M.
Exercice 6
Voici un échantillon de deux variables gaussiennes :
X
Y
-2
4
-1
1
0
0
1
1
2
4
Travail à faire :
- Estimez le coefficient de corrélation de Bravais - Pearson
- A quoi renvoie ce résultat ?
- Faites maintenant un diagramme de dispersion. Que voyez-vous ? Quelle
nuance pouvez-vous donc formuler dans ce cas ?
Solution de l’exercice 6
- Les deux variables étant supposées gaussiennes par l’exercice, et puisque le test de linéarité ici ne fait pas un
préalable, on passe directement à l’estimation du rXY comme présentée dans le tableau ci-dessous :
Moyenne
Xi –
Yi –
-2
4
-2
2
-4
4
4
-1
1
-1
-1
1
1
1
0
0
0
-2
0
0
4
1
1
1
-1
-1
1
1
2
4
2
2
4
4
4
0
0
0
10
14
0
(Xi –
(Yi – )2
Y
Somme
(Xi – )(Yi –
2
X
2
rXY = 0
- rXY = 0 signifie que les variables X et Y seraient non corrélées [indépendance]
- Le diagramme de dispersion des couples (xi, yi) est :
5
4
3
2
1
0
-3
-2
-1
0
1
2
3
Il ressort de ce diagramme de dispersion qu’il existe bel et bien une liaison [de type non linéaire] entre les
variables X et Y.
La nuance à faire, au vu de ces résultats, est qu’un coefficient de corrélation de Bravais – Pearson nul ne
devrait pas toujours s’interpréter comme une absence de relation entre variables en cause. La meilleure
interprétation serait que les deux variables étudiées sont non linéairement corrélées, car un r XY =0 laisse
toujours la possibilité d’existence, entre les variables considérées, d’une liaison d’un autre type.
29
Ass. Cédrick Tombola M.
Exercice 7
A Washington, un journaliste a découvert qu’il existe une très forte corrélation entre le fait d’avoir un nid de
cigognes sur sa demeure et le fait d’avoir des enfants. D’où il conclut que les cigognes apportent les bébés.
Quelle remarque pouvez-vous faire à une telle conclusion ?
Solution de l’exercice 7
La remarque principale à formuler à ce type de corrélation que rien ne peut expliquer – ou qui en réalité tient à
un autre phénomène-source – est que la corrélation peut être fortuite ou artificielle. Par ailleurs, à bien
analyser les choses, tenant compte des réalités de Washington, la présence d’un nid de cigognes sur le toit
signifierait plutôt que la famille qui y habite est aisée et donc disposée, financièrement, à avoir plus d’enfants.
Exercice 8
En résolvant un TP de statistique 1 sur le calcul du coefficient de corrélation linéaire, un étudiant de G1 FASE
fournit le tableau suivant :
Xi
Yi
Xi –
80
32
-20
100
50
115
110
Yi –
(Xi – )*(Yi – )
(Xi – )²
(Yi – )²
-18
360
400
324
0
0
0
0
0
62
15
12
180
225
144
56
10
6
60
100
36
70
8
-30
-42
1260
900
1764
125
80
25
30
750
625
900
105
62
6
12
72
36
144
90
50
-10
0
0
100
0
110
62
10
12
120
100
144
95
38
-5
1
-12
0
60
2862
25
2511
144
3600
∑
=100
=50
rXY =
= 0.9519
Sans avoir { refaire tous les calculs, { regarder ce tableau, vous concluez qu’il y a erreur de calcul. Par quoi la
voyez-vous ?
Solution de l’exercice 8
Par la somme des écarts de la variable X à sa moyenne arithmétique. Cette somme est forcément égale à zéro,
une valeur différente indique tout simplement une erreur de calcul.
Exercice 9
Soient les données sur les variables X et Y reprises dans le tableau ci-après et le nuage de points
correspondant :
12
10
8
X
1
1,1
1,25
1,5
2
2,25
Y
3
6,8
8,3
9,3
9,81
9,85
6
4
2
0
0,9
1,4
1,9
2,4
Ass. Cédrick Tombola M.
30
Estimer les coefficients de corrélation de Bravais-Pearson et de Spearman, puis commenter.
Solution de l’exercice 9
Les calculs sont synthétisés dans le tableau ci-après :
X
Y
x
y
xy
x²
y²
Ri
Si
Di
Di²
1
3
-0,52
-4,84
2,50
0,2669
23,46
1
1
0
0
1,1
6,8
-0,42
-1,04
0,43
0,1736
1,09
2
2
0
0
1,25
8,3
-0,27
0,46
-0,12
0,0711
0,21
3
3
0
0
1,5
9,3
-0,02
1,46
-0,02
0,0003
2,12
4
4
0
0
2
9,81
0,483
1,97
0,95
0,2336
3,87
5
5
0
0
2,25
9,85
0,733
2,01
1,47
0,5378
4,03
6
6
0
0
5,21
1,28
34,77
∑
Moyenne
1,52
0
7,84
rXY = 0,78
ρXY = 1
Les calculs montrent simplement que le ρXY de Spearman est préféré au rXY de Bravais-Pearson lorsque la
liaison entre X et Y est non linéaire mais monotone, car comme on le voit, le r XY a sous-estimé l’intensité
d’une relation non linéaire certes, mais visiblement parfaite entre X et Y.
Exercice 10
[Il y a au moins une réponse exacte, à cocher, à la question suivante].
Le coefficient de corrélation linéaire entre deux variables statistiques :
(a) ne peut être calculé que si les deux variables sont quantitatives
(b) est un nombre positif ou nul
(c) n’est égal à zéro que lorsque les variables sont indépendantes
(d) est un nombre sans dimension.
Solution de l’exercice 10 : (a), (b) et (d)
31
Ass. Cédrick Tombola M.
.III.
MODELE DE REGRESSION LINEAIRE SIMPLE
III.1. Modélisation et hypothèses
La corrélation, comme développée au chapitre précédent, sert avant tout { quantifier le degré d’association
linéaire entre deux variables quantitatives dont la position, dans l’étude, est symétrique. Elle ne permet
donc ni d’établir une causalité, ni de mesurer l’impact d’une variable sur l’autre.
Dans le modèle de régression linéaire simple par contre, la position des variables dans l’analyse n’est pas
symétrique. On connait, { priori, la variable aléatoire qui cause l’autre [Y=f(X)] 19, ce qui rend possible la
mesure de l’impact ou de la contribution de X dans l’explication de Y. La plupart du temps, et comme le mot
l’indique, le modèle de régression linéaire simple considère que la variable à expliquer Y est une fonction
affine de la variable explicative X. Mathématiquement, cette dépendance linéaire s’écrit de la sorte :
[3.1]
Yt = β0 + β1Xt
où β0 et β1 sont les paramètres du modèle qui permettent de caractériser la relation de dépendance linéaire
qui existe à chaque date t entre Xt et Yt.
Encadré 2. Fonction affine
Une fonction affine est toute fonction de la forme : Y = a + bX [avec a et b
*]
a : est l’ordonnée { l’origine ou l’origine
b : est la pente de la droite ou le coefficient angulaire [directeur]
La fonction affine est appelée aussi fonction linéaire si a =0
Graphe d’une fonction affine
[considérons le cas où a > 0 et b > 0]
La pente d’une droite mesure la variation de Y quand
on se déplace le long de la droite en accroissant X
d’une unité.
Y

Y = a + bX
E
Géométriquement, la pente b est donnée par :
b = tg (α) =
∆Y = Y1 – Y0
D
a
α
é
é
é
=
Et l’équation d’une droite passant par deux points, de
coordonnées (X0, Y0) et (X1, Y1), est :
F
∆X = X1 – X0
Y – Y0 = b (X – X0)
0
X

b=
19
Algébriquement, la pente
dérivant Y par rapport à X :
ou
b=
=
s’obtient
en
[Si données discrètes]
Cette information est généralement fournie par la théorie économique, ou peut simplement découler de l’objectif de
l’étude du modélisateur.
32
Ass. Cédrick Tombola M.
Sous sa spécification économétrique, le modèle [3.1] s’écrit comme suit :
[3.2]
Yt = β0 + β1Xt + ut
Dans ce cas de la régression linéaire simple β0 est le terme constant ou l’origine et β1 la pente.
Comme pour la corrélation, avant toute analyse, il intéressant de toujours commencer par un examen
graphique – à travers un diagramme de dispersion – du type de relation qui lie les deux variables
considérées. Il faut noter, par ailleurs, que le raisonnement qui sera développé dans la suite de ce chapitre,
ne peut s’appliquer que si Y peut s’écrire comme une fonction affine de X.
Considérons le jeu de données ci-après où un chercheur veut expliquer l’habilité en lecture (Y) de dix sujets
échantillonnés par le nombre d’heures de lecture par semaine (X). Y est mesurée en laboratoire { l’aide
d’un test d’habilité en lecture alors que X est estimé par les sujets eux-mêmes.
Y
20
5
5
40
30
35
5
5
15
40
X
5
1
2
7
8
9
3
2
5
8
D’un point de vue pratique, régresser Y sur X présente un objectif double :


Ajuster un modèle linéaire pour expliquer les valeurs prises par Y par celles de X. Autrement, il
s’agit de faire un ajustement linéaire, c’est-à-dire de remplacer le nuage de points des couples (x i,
yi) par une droite qui s’y adapte le mieux que possible.
Prédire les valeurs de Y pour les nouvelles valeurs de X.
Pour le jeu de données ci-dessus, on a les graphiques suivants :
Graphique nuage de points
Sens de l’ajustement linéaire
50
50
40
40
30
30
20
20
10
10
0
et
0
0
2
4
6
8
10
0
2
4
6
8
10
L’ajustement linéaire [ou régression linéaire] consiste donc { tracer une droite d’ajustement – appelée
également droite de régression – qui, sans passer par tous les points du nuage, s’y approche le mieux. Pour
ça, il faut donc un critère quantifiant la qualité de l’ajustement.
Le critère auquel on se réfère dans ce chapitre, et très souvent en économétrie, est le critère ou la méthode
des Moindres Carrés Ordinaires [MCO] 20. On utilise souvent le terme anglais OLS [Ordinary Least Squares]
pour désigner la même méthode.
20
Certains auteurs ironisent en disant que la méthode nous sert { mettre un chapeau sur nos β.
33
Ass. Cédrick Tombola M.
Hypothèses
L’application du critère des moindres carrés ordinaires repose sur les hypothèses suivantes :
Hypothèses sur la partie systématique
Hypothèses sur la partie stochastique
H1. Les variables X et Y sont observées sans erreur. Y est
H5. Hypothèse de centralité : E(ut)=0
aléatoire par l’intermédiaire de ut, c’est-à-dire que la seule
erreur possible sur Y provient des insuffisances de X à
expliquer ses valeurs dans le modèle.
H2. Les variables X et Y doivent être gaussiennes et
stationnaires en niveau.
H3. Le modèle est linéaire en ses paramètres tels que
l’exprime l’équation [3.2].
H4. Le nombre d’observations n doit être supérieur au
nombre des paramètres à estimer.
C’est-à-dire qu’en moyenne, l’influence de ut sur le
modèle est nulle, ce qui revient à admettre que le modèle
est correctement spécifié.
H6. Hypothèse non autocorrélation des erreurs :
E(uiuj) = 0
i ≠j
Les erreurs ut de différentes périodes sont indépendantes
les unes des autres.
H7. Hypothèse d’homoscédasticité des erreurs :
E(uiuj) =
i =j
Les erreurs ut ont une variance constante et finie. Plus
explicitement, il s’agit d’assumer que les variables
explicatives omises dans le modèle influent toutes
pratiquement de façon constante sur la variable
expliquée.
H8. Hypothèse de normalité des erreurs: ut (0, )
Cette hypothèse est la clé de l’inférence statistique. Elle
est donc nécessaire pour mener les tests.
H8. Hypothèse d’indépendance entre la partie systématique et la partie aléatoire : Cov (Xt, ut)=0.
Cette hypothèse signifie que l’erreur et les variables explicatives ont une influence séparée sur la variable endogène.
Note : (i) Lorsque les hypothèses H4, H5 et H6 sont réalisées, on dit que les erreurs sont des bruits blancs.
Et lorsqu’on y ajoute l’hypothèse H7, on parle des bruits blancs gaussiens.
(ii) Lorsque toutes les hypothèses sous-tendant la méthode des MCO sont remplies, le théorème de
Gauss – Markov avance que ses estimateurs sont BLUE [Best Linear Unbiased Estimator], c’est-à-dire qu’ils
sont les meilleurs estimateurs linéaires, non biaisés et à variance minimale.
III.2. Estimateurs des moindres carrés ordinaires
Le critère des MCO permet d’obtenir l’équation de la meilleure droite d’ajustement :
également droite des moindres carrés.
=
+
Xt, appelée
Le travail, qui permet d’obtenir la droite, consiste à choisir les paramètres
et , en utilisant les
informations apportées par l’échantillon, de manière à rendre minimale la somme des carrés des écarts
[résidus] entre les valeurs observées de Y et ses valeurs prédites par le modèle.
Note : Les résidus, notés et, sont l’estimation de l’erreur ut sur base de données de l’échantillon [et =
est donnée par : et = Yt – .
Mathématiquement, le critère des MCO se présente comme suit :
Min S =
=
=
La détermination de
et
se fait en appliquant les conditions du premier ordre :
=0
[3.3]
=0
[3.4]
], elle
Ass. Cédrick Tombola M.
34
En appliquant ces dérivées partielles, on obtient les équations normales, à partir desquelles sont tirés les
estimateurs des MCO :
∑Y = n
+
∑X
∑XY =
∑X +
[3.5]
∑X2
[3.6]
A partir de [3.5], en divisant toute la relation par n, on détermine l’estimateur de β 0 :
= –
[3.7]
Après substitution de
dans la deuxième équation normale [3.6], on tire l’estimateur de β1 :
=
[3.8]
Un développement mathématique simple permet d’exprimer
entre X et Y et de la variance empirique de X.
=
=
par le produit de la covariance empirique
[3.9]
En utilisant les variables centrées,
est donnée par le rapport :
=
[3.10]
et sont donc les estimateurs des moindres carrés ordinaires.
entièrement la dépendance linéaire de Y envers X.
est le paramètre d’intérêt qui capture
1ère conséquence : La droite des moindres carrés =
+ Xt passe forcément par l’origine
et le point
de coordonnées ( , ), appelé le centre de gravité ou le point moyen du nuage de points. Pour le vérifier, il
suffit de réaliser une projection pour le point
:
( )=
+
=( –
)+
=
Ce résultat montre que lorsqu’on travaille sur les écarts { la moyenne arithmétique [variables centrées], on
reste sur la même droite d’ajustement – ce qui implique que la pente
les axes jusqu’au centre de gravité.
Y45
reste inchangée –, mais l’on soulève
y
40
35
30
25
( , )
=20
x
15
10
5
X
0
0
1
2
3
4
=5
6
7
8
9
10
35
Ass. Cédrick Tombola M.
Ainsi, en travaillant avec les écarts { la moyenne arithmétique, l’origine
peut disparaitre
momentanément, car une petite manipulation suffit à le retrouver. La fonction affine
linéaire :
=
=
+
Xt devient
[3.11]
2ème conséquence : la droite des moindres carrés a pour équation :
–
=
(Xt – )
On démontre aussi que la moyenne arithmétique de
[3.12]
est égale à
:
=
=
–
=
+
=
3ème conséquence : la somme – et donc la moyenne arithmétique – des résidus est nulle dans une régression
avec constante. En effet :
=
=n -n
-n
= n – n( –
)-n
=0
4ème conséquence : il existe un lien entre la pente d’une régression linéaire simple
corrélation de Bravais – Pearson rXY:
et le coefficient de
=
=
= rXY
L’écart – type étant non négatif, la pente
même signe.
et le coefficient de corrélation de Pearson r XY auront toujours le
Synthèse des formules des formules pour l’estimation des β0 et β1
Données brutes
Modèle estimé
=
+
Variables centrées


Xt
=
=
rXY connu
+
Xt
Connaissant l’origine
et le centre de gravité
Equations normales
Formules
∑Y = n
+
∑XY =
∑X +
Estimateurs
- Tracer la droite des
moindres carrés ;
∑X
∑X2
=
21
=
= rXY
est la pente de la
droite, soit :
=
=
= –
21
L’estimateur est une formule, et l’estimation est la valeur qu’on trouve en appliquant l’estimateur.
Ass. Cédrick Tombola M.
36
2
III.3. Décomposition de la variance totale et coefficient de détermination R
L’analyse de la variance a pour objet de dériver un indicateur synthétique, appelé coefficient de
détermination R2, qui évalue la qualité de l’ajustement réalisé en appliquant le critère des moindres carrés. Il
indique donc dans quelle mesure, la variable explicative X nous permet d’améliorer nos connaissances sur la
variable endogène Y.
Soit
yt =
+ et
[3.13]
La somme des carrés, dans [3.13], donne :
∑
=∑
[3.14]
Après développement de la relation [3.14], on obtient l’équation d’analyse de la variance :
SCT = SCE + SCR
∑ =∑ +∑
[3.15]
[3.16]
Interprétation de l’équation d’analyse de la variance :



SCT est la somme des carrés totaux. Elle indique la variabilité totale de Y.
SCE est la somme des carrés expliqués. Elle indique la variation de Y due à sa régression linéaire sur X.
SCR est la somme des carrés résiduels. Elle indique la variabilité de Y non expliquée par le modèle.
Dérivation du coefficient de détermination R
2
2
A partir de l’équation [3.15], le R correspond au rapport :
2
R
=
[3.17]
2
Ainsi, le R peut être interprété comme la proportion de variance de Y expliquée par le modèle.
Toujours à partir de la relation [3.15], on peut déduire les informations suivantes :
Au meilleur des cas
SCR = 0
SCT = SCE
2
R =1
Le modèle est parfait, la droite de régression passe
par tous les points du nuage.
Intervalle de variation du R
Au pire des cas
SCE = 0
SCT = SCR
2
R =0
Le modèle est mauvais, la meilleure prédiction de Y
est sa propre moyenne.
2
2
0≤R
2
R
2
Autres formules du R
=
= 1-
=
=
=
=

≤1
=
Avec
la pente de la droite de régression de X sur
Y, soit = + Yt.
2
Plus le R est proche de 1, meilleur est l’ajustement, la connaissance des valeurs de X permet de
Ass. Cédrick Tombola M.


37
deviner avec précision celles de Y.
2
Plus le R est proche de 0, mauvais est l’ajustement, X n’apporte pas d’informations utiles sur Y.
2
Il faut tout de même faire attention quant au crédit à accorder au R , il doit toujours être accompagné
d’autres tests [Student et Fisher essentiellement] avant de trancher sur la bonté d’un modèle, mais il
reste un critère non négligeable pour la prévision.
Relation entre le coefficient de corrélation de Pearson et le R
2
2
Pour une régression linéaire simple, et seulement dans ce cas, le R n’est rien d’autre que le carré du
coefficient de corrélation de Pearson. La démonstration est relativement simple.
Partant de la relation
= rXY
, on peut tirer rXY et en l’élevant au carré, on a :
=
=
=
=
=
=
2
=R
Par conséquent rXY = signe (β )
2
Note : Comme le coefficient de corrélation linéaire de Pearson, le R , pour une régression linéaire simple,
est symétrique.
III.4. Test de significativité des paramètres
Etant donné que les valeurs
et
ne sont que des estimations des paramètres β0 et β1 inconnus de la
population, il faut donc s’assurer de leur fiabilité statistique. Pour appliquer les tests sur les paramètres, il
est important de connaître leurs variances et la variance résiduelle.
La démonstration22 du théorème de Gauss – Markov conduit à la construction de la matrice – symétrique –
des covariances – variances suivante23 :
=
=
Et la variance résiduelle est donnée par :
22
23
=
Pour les détails, lire par exemple Bourbonnais (2005), Bofoya (2007), Bosonga (2010).
Appelée souvent matrice COVA, notée par la lettre Omega (Ω).
Ass. Cédrick Tombola M.
38
Test de significativité individuelle
Le test de significativité individuelle porte sur chaque paramètre. Les hypothèses du test sont :
H0 : βi = 0
[le paramètre est statistiquement nul, non significatif]
H1 : βi ≠ 0n
[le paramètre est statistiquement non nul, significatif]
Il s’agit d’un test bilatéral [two-tail ou two-sided]24. Il est basé sur la statistique t de Student calculée
comme suit :
=
[3.18]
Sous H0, la formule [3.18] devient :
=
[3.19]
On démontre, sous H0, que cette statistique suit une distribution de Student au seuil α [5% sauf indication
contraire] et à (n – 2) degrés de liberté.
Critère de décision : Si
> tα/2 ; (n – 2) [valeur lue dans la table de Student], alors RH0, le paramètre
est
statistiquement non nul, la variable lui associée est par conséquent non pertinente dans la prédiction de Y.
Intervalle de confiance des paramètres βi
Le RH0 revient simplement { refuser que le paramètre β i de la population est nul, cela ne signifie nullement
que serait la vraie valeur du paramètre βi. Ainsi, on peut, en se basant sur les paramètres estimés
assumant un risque donné, construire des intervalles de confiance pour les paramètres βi.
et en
Ces intervalles de confiance sont trouvés en appliquant la formule :
I=
± tα/2 ; (n – 2)
[3.20]
Test de significativité conjointe ou globale
Un autre test consiste à tester la significativité conjointe de tous les paramètres estimés du modèle. C’est le
tes basé sur la statistique de Fisher, appelé aussi test d’analyse de la variance ANOVA. La statistique du test
est donnée par le rapport suivant :
F=
[3.21]
2
Une manipulation simple permet d’exprimer F en fonction du R comme ci-après :
F=
[3.22]
Le test F teste statistiquement la raison d’être du modèle. Par ailleurs, partant de la relation [3.22], d’aucuns
considèrent qu’il teste la significativité du coefficient de détermination.
24
C’est-à-dire que H0 est rejetée que le coefficient soit positif ou négatif.
Ass. Cédrick Tombola M.
39
Dans le cas d’une régression linéaire simple, le test F est confondu au test de significativité individuelle de la
pente. Les deux tests sont basés sur les mêmes hypothèses, et on démontre dans ce cas que :
F=
[3.23]
Preuve :
F=
=
=
=
=
=
Les hypothèses du test sont donc25 :
H0 : β1 = 0
[le modèle n’est pas bon]
H1 : β1 ≠ 0n
[le modèle est bon]
Comme on le voit, valider la significativité de la pente revient, en même temps, à admettre la bonté du
modèle.
Sous H0, on démontre que la statistique F suit une loi de Fisher à respectivement 1 et (n-2) degrés de liberté.
Critère de décision : Si F > F [1 ; (n – 2)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire], on
rejette H0, le modèle est bon.
Significativité de la pente versus significativité du r XY de Bravais – Pearson
Partant de la relation [3.22] et [3.23] ci-haut, on montre facilement que tester = 0, revient à tester rXY = 0.
Cela implique qu’accepter la significativité de la pente, c’est accepter également la significativité du
coefficient de corrélation linéaire.
En effet, en considérant les relations [3.22] et [3.23], et en sachant que le R 2 correspond au carré du rXY, on
établit :
=
=
=
25
Le test de significativité globale ne porte que sur les paramètres associés aux variables exogènes.
Ass. Cédrick Tombola M.
40
III.5. Prévision dans le modèle de régression linéaire simple
L’un des objets de l’ajustement linéaire qu’on effectue est de nous aider { prédire les valeurs de Y pour les
nouvelles de X, bref à prévoir.
Connaissant la nouvelle valeur de X pour un horizon h, notée Xn+h, on distingue deux types de prévision de la
valeur de Y { l’horizon considéré : la prévision ponctuelle et la prévision par intervalle.

La prévision ponctuelle est très simple. Connaissant Xn+h, il suffit de substituer cette valeur dans
l’équation estimée pour obtenir la valeur correspondante de Y, soit :
=

+
Xn+h
[3.24]
Partant de la prévision ponctuelle, la prévision par intervalle est faite en appliquant la formule ciaprès :
I=
Yn+h
± tα/2 ; (n – 2)
[3.25]
est l’écart-type de l’erreur de prévision26. Il est donné par la formule :
où
=
[3.26]
Encadré 3. Régression sans terme constant
Soit le modèle : Yt = βXt + ut
Le travail d’estimation de ce modèle doit inclure les nuances suivantes :






La droite des MCO passe forcément par l'origine des axes ;
La droite des MCO ne passe plus forcément par le barycentre ou le centre de gravité du nuage des
points ;
La décomposition de la variance telle que décrite dans ce chapitre n'est plus valable ;
Le test d'analyse de la variance (Fisher) n'a plus de sens ;
Le coefficient de détermination R2 ne peut plus être lu en termes de proportion de variance
expliquée par la régression. Il peut même prendre des valeurs négatives ;
La pente de la régression peut être interprétée d'une autre manière. Elle représente directement
le rapport entre les variables c’est-à-dire
=
.
L'estimateur des MCO de la pente de la régression sans constante s'écrit :
L'estimateur de la variance de l'erreur et le Student théorique doivent tenir compte des degrés de liberté,
c’est-à-dire :
=
et
=
tα/2 ; (n – 1)
Source : Adapté de R. Rakotomalala, 2011.
26
L’erreur de prévision capte l’écart entre ce qui sera réalisé et ce qu’on prévoit.
Ass. Cédrick Tombola M.
41
Exercices sur le modèle de régression linéaire simple
Exercice 1
Le tableau ci-dessous représente l’évolution du revenu disponible brut et de la consommation des ménages
en euros pour un pays donné sur la période 1992-2001. [Pour les calculs, prendre 4 chiffres après la virgule].
Année
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
Revenu
8000
9000
9500
9500
9800
11000
12000
13000
15000
16000
Consommation
7389.99
8169.65
8831.71
8652.84
8788.08
9616.21
10593.45
11186.11
12758.09
13869.62
On cherche à expliquer la consommation des ménages (C) par le revenu (R), soit :
Ct = α + βRt + ut
Travail à faire :
(i)
Tracer le nuage de points et commenter.
(ii)
(iii)
(iv)
(v)
(vi)
(vii)
(viii)
(ix)
(x)
(xi)
Estimer la consommation autonome et la propension marginale à consommer et .
En déduire les valeurs estimées de Ct.
Calculer les résidus et vérifier la propriété selon laquelle la moyenne des résidus est nulle.
Calculer l’estimateur de la variance de l’erreur.
Tester la significativité de la pente.
Construire l’intervalle de confiance au niveau de confiance de 95% pour le paramètre β.
Calculer le coefficient de détermination et effectuer le test de Fisher permettant de déterminer
si la régression est significative dans son ensemble.
Ecrire et vérifier l’équation d’analyse de la variance. Interpréter.
Après un travail minutieux, un étudiant de L1 FASE trouve le coefficient de corrélation linéaire
entre Ct et Rt suivant rXY = 0.99789619. Sans le moindre calcul, tester la significativité de ce
coefficient. Argumenter.
En 2002 et 2003, on prévoit respectivement 16800 et 17000 euros pour la valeur du revenu.
Déterminer les valeurs prévues de la consommation pour ces deux années, ainsi que
l’intervalle de prévision au niveau de confiance de 95%.
Solution de l’exercice 1
(i)
Le graphique nuage de points est donné ci-dessous :
15000
10000
5000
0
0
5000
10000
15000
20000
Ass. Cédrick Tombola M.
42
Ce graphique témoigne de l’existence d’une association linéaire positive, presque parfaite, entre la
consommation des ménages (Ct) par le revenu (Rt), ce qui autorise l’estimation de la relation les liant par la
méthode des moindres ordinaires.
(ii)
Pour simplifier l’estimation de la consommation autonome ( ) et de la propension marginale à
consommer , posons ce qui suit :
Yt =Ct ; Xt = Rt ; α=β0 et β= β1. Ce qui nous permet d’écrire le modèle donné dans l’exercice comme suit :
Yt = β0 + β1Xt + ut
A partir des calculs effectués dans le tableau ci-dessous, on a :
Estimation de la propension marginale à consommer
=
=
= 0,78098
Estimation de la consommation autonome
= –
= 9985,575 – 0,78098(11280) = 1176,0896
Le modèle estimé est par conséquent :
= 1176,0896 + 0,78098Xt.
(iii)
Voir tableau ci-dessous. Ces valeurs sont trouvées en remplaçant dans l’équation de la droite des
moindres : = 1176,0896 + 0,78098Xt, pour chaque date, Xt par sa valeur.
(iv)
Voir tableau ci-dessous. Les résidus sont calculés d’après la formule et =
(v) L’estimateur de la variance de l’erreur est donnée par
=
, connaissant n =10 et
(voir
tableau), on obtient :
=
=
20646,1728
(vi) La pente ici est la propension marginale à consommer, soit . Le test de significativité de ce
coefficient requiert son écart-type
. Connaissant la variance de l’erreur, la variance de est calculée comme
suit :
Var ( ) =
=
= 0,0003
=
0,0179
Par conséquent son ratio de Student est :
=
Puisque
(vii)
= 43,5352
=
> ttable
la pente
t0.025 ; 8 = 2.306.
est statistiquement significative.
L’intervalle de confiance au niveau de confiance de 95% (au seuil de 5%) pour le paramètre β1 est
construire comme suit :
I = [ – (t0.025 ; 8)
;
+ (t0.025 ; 8) ]
En faisant les remplacements nécessaires, on trouve : I = [0,7396 ;
0,8224]
Ass. Cédrick Tombola M.
Le coefficient de détermination R2 peut être calculé par la formule (les valeurs viennent du tableau
ci-dessous) :
(viii)
R
2
=
43
=
=
0,9958
Connaissant le t de Student de la pente, la statistique de Fisher peut se calculer comme suit :
= (43,5352)2 = 1895,3136
F=
F [1 ; 8] = 5, 32. Puisque F >Ftable
RH0, la régression est significative dans son
ensemble.
(ix)
L’équation d’analyse de la variance est :
SCT = SCE + SCR
=
+
39296098,1837 =39130928, 8011 +165169, 3826
(x) Nous savons que dans un modèle linéaire simple, accepter la significativité de la pente revient à
accepter celle du coefficient de corrélation linéaire. La pente
naturellement.
étant significative, le rXY l’est aussi
(xi) La prévision ponctuelle ne pose aucun problème. La prévision par intervalle requiert l’estimation de
l’écart-type de l’erreur de prévision. Elle est donnée par :
Yn+h
I=
± (t0.025 ; 8)
où
=
En effectuant les remplacements nécessaires, au niveau de confiance de 95% (au seuil de 5%), on a les résultats
suivants :
Prévision ponctuelle
2002
= 1176,0896 + 0,78098(16800) = 14296,5998
2003
= 1176,0896 + 0,78098(17000) = 14452,7963
Prévision par intervalle
Yn+h [13949,0697 ; 14644,1299]
Yn+h
Le tableau récapitulant tous les calculs est repris ci-dessous.
[14105,2657 ; 14800,3269]
44
Ass. Cédrick Tombola M.
Année
Yt
Xt
yt
xt
xtyt
1992
7389,99
8000
-2595,585
-3280
8513518,8
10758400
7423,9516
-33,9615958
1153,389989
6737061,4922
-2561,6234
6561914,4650
1993
8169,65
9000
-1815,925
-2280
4140309
5198400
8204,93434
-35,28434098
1244,984718
3297583,6056
-1780,6407
3170681,1566
1994
8831,71
9500
-1153,865
-1780
2053879,7
3168400
8595,42571
236,2842864
55830,26401
1331404,4382
-1390,1493
1932515,0386
1995
8652,84
9500
-1332,735
-1780
2372268,3
3168400
8595,42571
57,41428643
3296,400286
1776182,5802
-1390,1493
1932515,0386
1996
8788,08
9800
-1197,495
-1480
1772292,6
2190400
8829,72054
-41,64053713
1733,934332
1433994,2750
-1155,8545
1335999,5393
1997
9616,21
11000
-369,365
-280
103422,2
78400
9766,89983
-150,6898313
22707,42527
136430,5032
-218,6752
47818,8294
1998
10593,5
12000
607,875
720
437670
518400
10547,8826
45,56742347
2076,390081
369512,0156
562,3076
316189,8106
1999
11186,1
13000
1200,535
1720
2064920,2
2958400
11328,8653
-142,7553217
20379,08188
1441284,2862
1343,2903
1804428,8884
2000
12758,1
15000
2772,515
3720
10313755,8
13838400
12890,8308
-132,7408121
17620,12319
7686839,4252
2905,2558
8440511,3336
2001
13869,6
16000
3884,045
4720
18332692,4
22278400
13671,8136
197,8064427
39127,38879
15085805,5620
3686,2386
13588354,7011
0
0
50104729
64156000
0
165169,3825
39296098,1837
0
39130928,8011
∑
n=10 ;
et
=9985,575
=11280
Exercice 2
Soit le modèle linéaire Yt = β0 + β1Xt + ut. Où Yt représente la quantité offerte de pommes et Xt le prix.
On donne les informations suivantes : = 5 et =3.
Après estimation, on a la droite de régression suivante :
=
+
Xt. Connaissant le couple (Y=2.5 ; X=2) par lequel passe cette droite de régression, trouver
et
.
Solution de l’exercice 2
Connaissant le couple (Y=2.5 ; X=2) et le centre de gravité du nuage de points ( = 5 ;
après :
Y
X
5
3
2.5
2
=3), on peut reproduire la droite des moindres carrés de cette estimation comme ci-
Ass. Cédrick Tombola M.
45
5,5
5
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0
0
1
2
3
En mesurant la pente de cette droite, on trouve la pente
Connaissant la pente
=
et les deux moyennes
et
,
=
4
= 2,5.
est calculé comme suit :
= 5 – (2,5)3 = – 2,5
Et le modèle estimé (équation de la droite des MCO) est :
= – 2,5+ 2,5Xt
Exercice 3
Soit un modèle linéaire simple : Yt = β0 + β0Xt + ut
On donne les informations suivantes :
∑YX=184500 ∑Y2=26350 ∑X2=1400000
=60
=400
n=7
Travail demandé :
-
Estimer les coefficients du modèle
Evaluer la qualité de cet ajustement
Tester la significativité globale du modèle
Solution de l’exercice 3
En fonction des données en présence, les formules suivantes seront utilisées pour répondre aux trois questions
posées :

=

R2 =

F=
et
= –
Après calcul, sachant que ∑YX =∑XY, on a les résultats suivants :
=0,0589 ;
= 36,44 ; R2=0,8455 ; F = 27, 3618
Le R2 étant relativement élevé, environ 85%, l’ajustement effectué est de bonne qualité. Et puisque F > F
6,61, on en conclut que le modèle est globalement bon.
[1 ; 5]
=
Ass. Cédrick Tombola M.
46
Exercice 4
Soit le modèle : Yt= β0 + β1Xt + ut
Yt : salaire moyen horaire par jour [en USD]
Xt : nombre d’années d’études
On donne par ailleurs les informations suivantes : rXY= 0.951916 ; σx=3.894440 et σy=2.945636
Après estimation, sur base d’un échantillon de 13 observations, un étudiant de L1 FBA présente les résultats
incomplets ci-après :
= 0.030769 + …………….. Xt
Travail demandé :
(i)
(ii)
(iii)
(iv)
(v)
Compléter les pointillés.
Tester la significativité du rXY.
Interpréter ces résultats. Semblent-ils logiques ?
Calculer le R2.
Tester la significativité de la pente et la significativité d’ensemble du modèle.
Solution de l’exercice 4
(i)
Connaissant rXY, σx et σy, la pente
est estimée par la formule
= rXY
, ce qui donne, en
remplaçant :
=0, 7200. On a ainsi :
= 0,030769 + 0, 7200 Xt
(ii)
Le t calculé pour rXY= 0,951916 donne tcal = 10,3054 et le t0.025 ; 11 = 2,201. Puisque tcal > ttable, on
conclut que le rXY est statistiquement non nul.
(iii)
Il y a lien fort et positif entre le salaire moyen horaire par jour et le nombre d’années d’études. En
effet, ces résultats semblent logiques car il est tout à fait normal que ceux qui beaucoup étudié gagnent un peu
plus que ceux qui ont étudié un peu moins.
(iv)
On sait que, pour un modèle de régression linéaire simple avec terme constant, le R 2 n’est rien
d’autre que le carré du coefficient de corrélation de Bravais – Pearson. Ainsi :
R2 = (0, 951916)2 = 0,9061
(v)
Connaissant le R2, on a : F = 106, 2009 F [1 ; 11] = 4, 84. On sait de plus que dans un modèle linéaire
simple, le F n’est rien d’autre que le carré du t de Student associé à la pente. Le t de Student de la pente est
donc obtenu en prenant la racine carré de F, soit :
10,3054 > t0.025 ; 11 = 2,201
En conclusion, la pente est statistiquement significative et le modèle est valable dans l’ensemble.
47
Ass. Cédrick Tombola M.
Exercice 5
Le tableau suivant donne l’âge et la tension artérielle Y de 12 femmes :
Individu
Age (X)
Tension artérielle (Y)
1
56
136
2
42
132
3
72
136
4
36
130
5
63
138
6
47
132
7
55
136
8
49
130
9
38
142
10
42
134
11
68
136
12
60
140
Travail demandé :
(i)
(ii)
(iii)
Déterminer l’équation de la droite de régression de Y sur X.
Tester la significativité de la pente. Quelle conclusion peut-on tirer ?
Estimer la tension artérielle d’une femme âgée de 50 ans.
Solution de l’exercice 5
L’équation de la droite de régression de Y sur X est :
= 129,5193 + 0,1079Xt
(5,0449) (0,0942)
(.) : écart-type
La statistique t de Student de la pente est tcal = 0,1079/0,0942 = 1,1455. Le Student théorique, au seuil de 5% et à
10 degrés de liberté est ttable = 2,228. D’où la pente est statistiquement nulle, ce qui signifie que l’âge n’explique
en rien la tension artérielle.
La tension artérielle d’une femme âgée de 50 ans est :
= 129,5193 + 0,1079(50) =134,9149
Exercice 6
Les données statistiques ci-dessous portent sur les poids respectifs des pères et de leur fils aîné.
Père
Fils
65
68
63
66
67
68
64
65
68
69
62
66
70
68
66
65
68
71
67
67
69
68
71
70
Travail demandé :
(i)
(ii)
(iii)
(iv)
Calculer la droite des moindres carrés du poids des fils en fonction du poids des pères.
Calculer la droite des moindres carrés du poids des pères en fonction du poids des fils.
Que vaut le produit des pentes des deux régressions ?
Juger de la qualité des ajustements faits en (i) et (ii).
Solution de l’exercice 6
Soient Y=Fils et X=Père.
La droite des moindres carrés du poids des fils en fonction en fonction des pères, après estimation est :
= 35,8248031 + 0,47637795Xt
Et la droite des moindres carrés du poids des pères en fonction en fonction des fils, après estimation est :
= -3,37687366 + 1,03640257Xt
Ass. Cédrick Tombola M.
48
Le produit de deux pentes donne le R2 qui, comme le coefficient de corrélation linéaire, est un indicateur
symétrique. On a ainsi :
R2 =0,47637795 * 1,03640257 = 0,49371933
Au regard de la valeur du R2 faible, environ 49%, les ajustements effectués en (i) et (ii) ne sont de bonne qualité.
Exercice 7
Cocher la bonne la réponse.
1. La droite des MCO d’une régression linéaire simple avec constante passe-t-elle par le point ( , ) ?
A. Toujours
B. Jamais
C. Parfois
2. Pour une régression linéaire simple, le R2 est symétrique :
A. Oui
B. Non
C. Parfois
3. Pour une régression linéaire simple, le R2 correspond au carré du F de Fisher :
A. Oui
B. Non
Solution de l’exercice 7
1 A ; 2A ; 3B.
Exercice 8
Soient les données suivantes :
= 114
= 36
= 226
= 702
Estimer la relation Yt = β0 + β1Xt + ut
Indication : n = 6.
Exercice 9
Soit le modèle suivant sans terme constant : Yt = βXt + ut.
Trouver l’estimateur
des MCO.
Solution de l’exercice 9
En appliquant le critère des MCO, minimisation de la somme des erreurs quadratiques, à cette relation, on
obtient :
49
Ass. Cédrick Tombola M.
Exercice 10
Soit les résultats d’une estimation économétrique :
= - 32.95 + 1.251Xt
n = 20
R2 = 0.23
= 10.66
1)
A partir des informations connues, on demande de retrouver les statistiques suivantes : la somme
des carrés des résidus (SCR), la somme des carrés totaux (SCT), la somme des carrés expliqués
(SCE), la statistique F de Fisher et l’écart-type de la pente.
2) La pente est-elle significativement supérieur à 1 ?
Exercice 11
Montrer algébriquement que :
1. La somme des résidus est toujours égale à 0.
2. Tester l’hypothèse H0 : β1 = 0 [avec β1 la pente], revient { tester l’hypothèse rXY = 0.
Solution de l’exercice 11 : voir texte.
Exercice 12
Le tableau ci-après renseigne sur la quantité offerte d’un bien (Y) et son prix (X)
N°
Y
X
1
23
5
2
25
7
3
30
9
4
28
6
5
33
8
6
36
10
7
31
9
8
35
7
9
37
8
10
42
11
Travail à faire :
(i)
(ii)
(iii)
(iv)
Tracer le diagramme de dispersion et commenter.
Régresser Y sur X.
Calculer les résidus de cette régression.
Juger de la qualité de cet ajustement.
(v)
Tester la significativité individuelle et conjointe des paramètres.
Exercice 13
Le coefficient de corrélation linéaire entre deux variables X et Y est r = 0.60. Si les écarts-type de X et Y sont
respectivement 1.50 et 2 ; et leurs moyennes, respectivement, 10 et 20. Trouvez les équations de régression
de Y en X et de X en Y.
Ass. Cédrick Tombola M.
50
.IV.
MODELE DE REGRESSION LINEAIRE MULTIPLE
IV.1. Formulation et hypothèses de base
Le modèle de régression linéaire multiple n’est qu’une extension du modèle de régression linéaire simple au
cas multivarié dans lequel interviennent plusieurs variables exogènes dans l’explication du phénomène
étudié. On parle aussi de modèle de régression linéaire général ou standard pour souligner que ce modèle
reste valable quel que soit le nombre d’exogènes qui s’y figurent. Dans sa forme générale, il s’écrit de la
sorte :
où chaque
est un coefficient marginal qui – après estimation – saisit, ceteris paribus, l’effet d’une
variation d’un point de la variable exogène Xj sur la variable endogène ; t=1, …, n correspond { la date des
observations.
Si l’on considère plusieurs dates, la relation [4.1], sous forme matricielle, s’écrit :
où k est le nombre de variables explicatives, k+1 le nombre de paramètres que l’on prendra l’habitude de
noter par K dans la suite de ce chapitre.
Sous forme compacte, on a :
[4.2]
Y = Xβ + U
En principe, le critère des moindres carrés ordinaires, comme pour le modèle simple, ne soulève aucune
difficulté, à la différence que pour le modèle multiple au lieu de calculer une droite, on calcule un plan ou un
hyperplan‡‡‡‡‡‡‡.
‡‡‡‡‡‡‡
En algèbre linéaire, les hyperplans sont des sous-espaces vectoriels particuliers. Dans un espace à 3 dimensions, la
notion d’hyperplan est confondue avec celle de plan, mais cela n’est plus vrai quand on dépasse 3 dimensions.
Ass. Cédrick Tombola M.
51
Hypothèses de base
La méthode des moindres carrés ordinaires repose sur les hypothèses suivantes :
Hypothèses stochastiques
H1. Les erreurs sont IID
Hypothèses structurelles
(0,
). Cette hypothèse implique que
les erreurs sont normalement distribuées, non-autocorrélées et
homoscédastiques.
H3. Le modèle est linéaire ou linéarisable en X
Formellement, on a :
H4. Les exogènes Xj et la variable endogène Y
[ou sur ses paramètres] tels que l’exprime la
relation [4.2].
sont observées sans erreur. Y est aléatoire par
l’intermédiaire de ut.
H5. Les exogènes Xj et la variable endogène Y
sont gaussiennes et stationnaires en niveau.
H6. Le nombre d’observations n doit être
supérieur au nombre des paramètres à estimer.
H7. La matrice X’X est non singulière de rang K,
c’est-à-dire
et
existe. Cette
hypothèse implique l’absence de colinéarité
entre les exogènes, autrement dit les différents
vecteurs Xj sont linéairement indépendants. En
cas de multicolinéarité, la méthode des MCO
devient défaillante.
où
H2. Il y a indépendance entre la partie systématique et la partie
stochastique, soit E(XU) = 0.
IV.2. Estimateurs des MCO et propriétés
Comme vu au chapitre précédent, les différents sont obtenus en minimisant la somme quadratique des
résidus. Mathématiquement, le problème se présente comme suit :
[4.3]
En notation matricielle§§§§§§§, la relation [4.3] s’écrit :
[4.4]
Par conséquent, on a :
[4.5]
§§§§§§§
Un bref rappel matriciel est proposé en annexe 1 de ce chapitre.
Ass. Cédrick Tombola M.
52
En effectuant dans la parenthèse, il vient :
[4.6]
Les termes
et
étant des scalaires provenant des variables identiques, ils sont égaux et on peut
donc les regrouper. Ce qui permet d’écrire :
[4.7]
En appliquant les conditions du premier ordre, on obtient les équations normales telles que :
En considérant un modèle simple, la relation [4.8] devient :
En effectuant dans chaque bloc, on obtient :
On retrouve ainsi les équations normales, vues au chapitre précédent, pour un modèle simple. Mais
pourquoi normales ? La réponse à cette question est proposée ci-après.
Dans le système ci-haut, renvoyons tous les termes dans un membre, il vient :
Exprimée sous forme vectorielle, la dernière équation s’écrit : X’e = 0. Un vecteur tel que e, orthogonal à
tout vecteur de l’hyperplan engendré par X, est dit normal { l’hyperplan. D’où le qualificatif "d’équations
normales".
En pratique, l’estimation ponctuelle par les MCO se fait en pré-multipliant chaque côté de la relation [4.8]
par
, ce qui permet d’écrire******** :
[4.9]
********
où
est une matrice forcément symétrique, de même que son inverse (
)–1.
Ass. Cédrick Tombola M.
53
Propriétés des estimateurs
Le théorème de Gauss – Markov avance, au respect des hypothèses de base susmentionnées, que dans la
famille des estimateurs linéaires non biaisés, ceux des MCO sont les meilleurs car ayant la variance la plus
faible.
α. Estimateurs linéaires
Pour démontrer cette propriété, il suffit, dans l’équation [4.9], de poser ψ=
, il vient :
β. Estimateurs sans biais
Réécrivons la relation [4.9] comme suit :
Ainsi,
[4.10]
En passant à l’espérance mathématique de , il ressort clairement que
[4.11]
E(
est sans biais :
=
γ. Estimateurs convergents
Les variances des estimateurs OLS sont calculées comme suit.
Var( ) = E
Connaissant les relations [4.10] et [4.11], il vient †††††††† :
Après une petite manipulation simple, on obtient :
[4.12]
Ou encore :
††††††††
Il faut noter en passant que la matrice
est symétrique, elle est donc égale à sa transposée.
54
Ass. Cédrick Tombola M.
Et l’estimateur de la variance résiduelle est donné par la formule suivante :
Ainsi obtient-on :
[4.13]
Lorsque le nombre d’observations tend vers l’infini, l’expression [4.13] ci-dessus tend vers zéro. Par
conséquent, l’estimateur
est convergent. Toutefois, la condition suffisante serait que les variables
exogènes ne tendent pas à devenir colinéaires lorsque n tend vers l'infini. De plus, selon le théorème de
Gauss-Markov, Var( ) ≤ Var(
que les MCO]
) [avec
un estimateur linéaire et non biaisé obtenu par une autre méthode
La relation [4.13] est la matrice COVA. Sur sa diagonale principale, on lit les variances estimées de
[
],
nécessaires pour mener les tests statistiques.
Conséquence du théorème de Gauss-Markov
Soit le modèle de régression linéaire multiple suivant :
où ut N(0,
). L’application de la méthode OLS { cette équation implique que
.
1ère conséquence : Sous l’hypothèse de normalité des erreurs, non seulement que l’estimateur des MCO est
BLUE par le théorème de Gauss-Markov, mais il devient le meilleur estimateur sans biais de . La variance
des estimateurs des MCO atteint la borne de l’inégalité de Cramer-Rao, borne inférieure pour tous les
estimateurs.
2ère conséquence : Sous l’hypothèse de normalité, on obtient des tests exacts. Sachant que
, cela revient à dire que l’on connaît les distributions exactes des tests. On peut donc
construire les tests de Student et de Fisher dans les petits échantillons.
Ass. Cédrick Tombola M.
55
IV.3. R2 et R2 ajusté
Connaissant l’équation d’analyse de la variance : SCT = SCE + SCR, le R2 correspond au rapport :
[4.14]
2
R
=
Lorsque la régression est faite sur données centrées, le coefficient de détermination se calcule avec la
formule :
[4.15]
R
2
=
Il faut noter que, comme pour le modèle simple, le coefficient de détermination reste un indicateur du
caractère explicatif de l’équation de régression { bien modéliser Y t. Il mesure ainsi la part de variance de la
variable endogène attribuable à sa régression sur les X. Ceci est confirmé par le fait que le coefficient de
détermination n’est rien d’autre que le carré du coefficient de corrélation de Bravais-Pearson entre les
valeurs observées et les valeurs prédites de Y.
[4.16]
R2 =
=
Note importante: Le coefficient de corrélation linéaire entre
et Y ( ) est appelé coefficient de
corrélation multiple. Cela suggère d'ailleurs de construire le graphique nuage de points confrontant et Y
pour évaluer la qualité de la régression. Si le modèle est parfait, les points seraient parfaitement alignés.
Bien évidement [0 ≤ R2 ≤ 1], plus R2 est proche de 1, plus le caractère explicatif du modèle est important.
Le R2 est certes un indicateur de qualité, mais il présente l’inconvénient d’être mécanique. C’est-à-dire que
sa valeur augmente avec l’augmentation des variables explicatives, mêmes non pertinentes { l’explication
du phénomène étudié.
A l’extrême, si on augmente le nombre de variables explicatives, mêmes impertinentes, tels que le nombre
de paramètres devienne égal au nombre d’observations, on aurait un R2=1. Ainsi, en tant que tel, le R2 n’est
pas l’outil approprié pour juger de l’apport des variables supplémentaires lors de la comparaison de
plusieurs modèles. Lorsqu’il augmente de manière mécanique, de l’autre c té l’on perd en degrés de
liberté.
La mesure alternative, plus robuste { l’ajout des variables, qui corrige ce problème associé aux degrés de
liberté est le R2 ajusté de Henry Theil, appelé aussi R2 corrigé. Elle se définit comme suit :
[4.17]
Comme on le voit, il s’agit l{ d’un R2 corrigé par les degrés de liberté. Il peut d’ailleurs s’exprimer en
fonction du R2 ; en manipulant la relation [4.17], on obtient :
[4.18]
Ass. Cédrick Tombola M.
56
Cependant, il faut faire attention de ne pas interpréter le
en termes de part de variance expliquée. Son
seul avantage est qu’il permet de comparer plusieurs modèles‡‡‡‡‡‡‡‡. De plus, le
peut prendre des valeurs
négatives. Dans ce dernier cas, il faut l’assimiler { zéro.
Note importante :
 Dans un modèle linéaire simple,
R2
 Dans un modèle linéaire multiple,
< R2
 Si n est grand, alors
R2
2
 Le R et le
n’ont de sens que dans un modèle qui comporte un terme constant.
Coefficient de corrélation partielle
Dans le chapitre sur la corrélation, nous avions mis en évidence qu’il était possible que la corrélation entre
deux variables Xi et Xj ne tienne qu’{ un artefact statistique ou à un facteur confondant – une troisième
variable Xk à laquelle Xi et Xj seraient liées en réalité –, appelé aussi phénomène-source. L’on peut se
souvenir de l’exemple du journaliste qui a découvert qu’il existait une très forte corrélation entre le fait
d’avoir un nid de cigognes sur sa demeure et le fait d’avoir des enfants { Washington, oubliant que cela ne
tenait qu’au rang social des familles étudiés, car la présence d’un nid de cigognes sur le toit signifierait
plut t que la famille qui y habite est aisée et donc disposée, financièrement, { avoir plus d’enfants.
Ainsi, dans la sélection des variables pertinentes { l’explication d’un phénomène, pour éviter une telle
éventualité où la corrélation entre la variable endogène et l’exogène ne tiendrait qu’{ un artefact, on a
recours au coefficient de corrélation partielle.
Le coefficient de corrélation partielle mesure la liaison entre deux variables lorsque l’influence d’une
troisième variable [des autres variables présentes dans le modèle] est retirée.
Coefficient de corrélation partielle du premier ordre
Coefficient de corrélation partielle du deuxième ordre
Soit Y une variable endogène, et Xi, Xj et Xk des
exogènes, le coefficient de corrélation partielle
mesure le lien entre Y et chaque X, l’influence juste
d’une troisième variable exogène étant exclue.
Partant de l’exemple choisi, on peut calculer ainsi six
coefficients de corrélation partielle du premier ordre :
En considérant l’exemple ci-contre, le coefficient de
corrélation partielle du deuxième ordre sert à quantifier
le lien entre Y et chaque X, l’influence de deux autres
étant exclue. Ainsi, partant du même exemple, il est
possible de calculer trois coefficients de corrélation
partiels du deuxième ordre, soit :
;
;
Etapes de calcul
;
;
;
;
;
Dans ce cas, le coefficient de corrélation partielle du
premier ordre peut être calculé à partir des
coefficients§§§§§§§§ de corrélation de Bravais-Pearson
comme suit :
Supposons que l’on veule mesurer le lien entre Y et Xi,
l’influence de Xj et de Xk étant neutralisée, soit
, on aura les étapes ci-après :
(i)
(ii)
(iii)
En suivant les indices, l’étudiant peut aisément
généraliser.
‡‡‡‡‡‡‡‡
Calcul des résidus e1 issus de la régression de
Y sur Xj et Xk ;
Calcul des résidus e2 issus de la régression de
Xi sur Xj et Xk ;
correspondra au carré du
coefficient de corrélation linéaire calculé
entre e1 et e2 :
Pour la comparaison des modèles, on utilise aussi les critères d’information [Aikaïké (AIC) ; Schwarz (SC) ;
Hannan-Quinn (HQC), etc.]. A la différence que ces critères sont à minimiser dans le choix du meilleur modèle.
§§§§§§§§
Appelés dans ce cas coefficients d’ordre zéro.
Ass. Cédrick Tombola M.
57
La notion de corrélation partielle est importante dans la mesure où elle permet de juger de la pertinence
d’introduire une variable exogène dans le modèle. Plus élevé sera le coefficient de corrélation partielle
d’une variable, plus importante sera sa contribution { l’explication globale du modèle.
IV.4. Test de significativité des paramètres
Test de significativité individuelle
Comme pour le cas simple, le test de significativité individuelle, qui porte sur chaque paramètre, est mené
en calculant les ratios de Student. Pour un test bilatéral, les hypothèses du test sont :
Le ratio de Student est calculé comme suit :
[4.19]
=
Sous H0, la formule [4.19] devient :
[4.20]
=
On démontre, sous H0, que cette statistique suit une distribution de Student au seuil α [5% sauf indication
contraire] et à (n – K) degrés de liberté.
Critère de décision : Si
> tα/2 ; (n – K), alors RH0, le paramètre
est statistiquement non nul, la variable lui
associée est par conséquent non pertinente dans la prédiction de Y.
Comme cela a été vu au chapitre précédent, l’estimation par intervalle se fait en appliquant la formule ciaprès :
[4.21]
I=
± tα/2 ; (n – 2)
Test de significativité conjointe ou globale
Le test de significativité globale sert à tester la pertinence du modèle. Il répond à la question de savoir si
l’ensemble des exogènes apporte de l’information utile { la connaissance de la variable endogène. Ceci dit,
seuls les paramètres associés aux variables explicatives interviennent dans le test, la constante n’est donc
prise en compte ici, car c’est bien l’influence des exogènes sur la variable expliquée que l’on cherche {
établir.
Dans la littérature anglophone, ce test est parfois considéré comme un test de significativité du R 2, dans le
sens où il évaluerait le pouvoir explicatif des exogènes, pris dans leur globalité, sur l’endogène.
Les hypothèses du test sont :
Ass. Cédrick Tombola M.
58
Et la statistique à calculer est :
[4.22]
F=
Sous H0, on démontre que la statistique F suit une distribution de Fisher à respectivement (K – 1) et (n – K)
degrés de liberté.
Critère de décision : Si F > F [(K – 1) ; (n – K)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire],
on rejette H0, le modèle est bon.
Application de tests de significativité : Test des rendements d’échelle
Soit le modèle suivant :
[4.23]
Ln Qt = Ln A + β1Ln Lt + β2 Ln Kt + ut
où Qt est la production, Lt le travail, Kt le capital et β1 et β2 les élasticités de la production au travail et au
capital, respectivement.
La théorie macroéconomique avance qu’il y a rendements { l’échelle constants s’il se vérifie que :
[4.24]
β1 + β2 = 1.
Comment alors tester une telle hypothèse ?
Pour tester cette restriction sur les paramètres, on suivra les étapes suivantes :

Estimer le modèle [4.23] sans restriction sur les paramètres, dit modèle non contraint ;


Calculer les variances de et , ainsi que leur covariance Cov( ,
Calculer ensuite le ratio de Student avec la formule :
[4.25]
Connaissant [4.24] et en sachant que Var
devient :
[4.26]

)
tcal =
= Var( ) + Var( ) + 2Cov( ,
), la formule [4.25]
tcal =
Tester enfin l’hypothèse des rendements d’échelle constants contre celle des rendements
d’échelle non constants, soit :
Critère de décision : Si
> tα/2 ; (n – K)
RH0 selon laquelle il y a rendements { l’échelle constants.
Ass. Cédrick Tombola M.
59
IV.5. Prévision dans le modèle de régression linéaire multiple
Soit la régression suivante de Yt sur le terme constant et sur les exogènes Xj :
Si le vecteur des valeurs des exogènes pour un horizon h est connu, soit R=
la prévision ponctuelle est faite en substituant R dans [4.27]. Ainsi obtient-on :
Ce qui, en écriture matricielle, s’écrit :
Sous forme compacte, on a :
[4.29]
Partant de la prévision ponctuelle, la prévision par intervalle est faite en appliquant la formule ci-après :
[4.30]
où
I=
± tα/2 ; (n – K)
est l’écart-type de l’erreur de prévision *********. Il est donné par la formule :
[4.31]
*********
Yn+h
=
L’erreur de prévision capte l’écart entre ce qui sera réalisé et ce qu’on prévoit.
,
60
Ass. Cédrick Tombola M.
Synthèse des formules sur la régression linéaire multiple
Formules
Indications
Modèle d’analyse :
donne une matrice K 1 des paramètres
estimés du modèle.
fixe un intervalle de confiance, avec un
risque α, dans lequel le βi inconnu de la
population serait compris.
Ponctuelle
Estimation
Iβi =
Par intervalle
± tα/2 ; (n – 2)
Modèle estimé :
sur sa diagonale principale, on lit les
variances estimées de ( ), nécessaires
pour mener les tests statistiques.
le coefficient de détermination reste un
indicateur du caractère explicatif de
l’équation de régression { bien modéliser
Yt.
, appelé coefficient de corrélation
multiple, est le coefficient de corrélation
de Bravais-Pearson entre les valeurs
observées et les valeurs prédites de Y.
Matrice COVA
2
Données brutes
R2
R =
2
Données centrées
étant connu
R
=
R2 =
=

il s’agit l{ d’un R2 corrigé par les degrés de
liberté.
2
R ajusté de Theil
Test
de
significativité

=
individuelle
conjointe
tα/2 ; (n – K)
F=
[sous H0]
Si
F [(K – 1) ; (n – K)]
> tα/2 ; (n – K)
RH0
Si F > F [(K – 1) ; (n – K)]
RH0
Ponctuelle
Yn+h
Prévision
I=
± tα/2 ; (n – K)
Par intervalle
où
=
Permet de deviner la valeur de Y à
la période h, les exogènes de la
même période étant fixées.
Ass. Cédrick Tombola M.
61
IV.6. Utilisation des variables indicatrices†††††††††
Synonyme : variables qualitatives, binaires, dummy, muettes, dichotomiques, auxiliaires, artificielles.
Une variable indicatrice est une variable spéciale qui ne prend que deux valeurs, à savoir :


1 pour indiquer que le phénomène (ou l’événement) a lieu ;
0 pour indiquer que le phénomène (ou l’événement) n’a pas lieu.
Elle est utilisée en économétrie pour saisir les facteurs qualitatifs – comme la race, le sexe, la religion ou
même un événement tel qu’une guerre, une grève, un tsunami, etc. – que l’on désire intégrer dans les
modèles. Comme variable explicative, on la note généralement par la lettre D, pour dire dummy.
Il est également important de noter que les variables binaires peuvent intervenir dans le modèle de deux
manières, soit comme endogène [modèle de probabilité linéaire, modèles Logit, Probit, Tobit, Gombit] soit
comme exogène [modèles ANOVA et ANCOVA]. Dans ce recueil, nous ne nous intéressons qu’au cas où la
variable muette entre comme explicative dans le modèle.
Aussi, l’utilisation de ces variables dépend fortement du problème posé. Comme exogènes, les variables
dummy sont utilisées pour répondre à un triple objectif :



Corriger les écarts aberrants (ou déviants) ;
Capter la présence de la discrimination ;
Capter les variations saisonnières.
α. Corriger les valeurs singulières (ou anormales)
Lorsque la variable endogène comporte, à certaines dates, des valeurs atypiques – c’est-à-dire des valeurs
anormalement élevées ou anormalement basses – associées en général à la survenance de chocs ou
d’événement rares, il y a lieu d’incorporer une dummy dans le modèle afin d’en tenir compte. La démarche
consisterait simplement à détecter les valeurs anormales et à les corriger, en mettant 1 à ces dates là et 0
ailleurs, afin que les déviants ne perturbent pas l’estimation statistique des autres variables.
Considérons le jeu de données ci-après, où Yt est l’endogène et Xt l’exogène. On veut estimer le modèle :
Yt = β0 + β1Xt + ut
[A]
Date
Yt
Xt
11 février
10
5
12 février
12
7
13 février
2
8
14 février
15
9
15 février
17
10
On observant l’évolution de Yt, il y a un écart criant au 13 février qui frappe notre attention. La conséquence
directe serait que, s’il faut régresser Yt sur Xt, cette valeur aura tendance à fausser la vraie relation existant
entre les deux variables en cause, en rabattant la droite des moindres carrés de façon à avoir une moyenne.
On s’en rend bien compte { travers le graphique nuage de points avec droite de régression, y
correspondant, suivant.
†††††††††
Le terme anglo-saxon dummy est le plus utilisé.
Ass. Cédrick Tombola M.
62
20
15
10
5
0
0
2
4
6
8
10
12
Et l’estimation par OLS, donne la droite suivante :
= 1.6081 + 1.2297Xt
[0.1265]
[0.7728]
R2 =0.1660
Avec [.] le ratio de Student. Comme on le voit, la valeur anormale a complètement perturbé l’estimation de
la relation, presque parfaite, entre Yt et Xt. On doit donc introduire une variable indicatrice Dt dans le
modèle. On mettra 1 à la date du 13 février et 0 partout ailleurs. Le modèle à estimer devient :
Yt = β0 + β1Xt + β2Dt + ut
Date
Yt
Xt
Dt
11 février
10
5
0
12 février
12
7
0
[B]
13 février
2
8
1
14 février
15
9
0
15 février
17
10
0
L’estimation par OLS du modèle [B] donne à présent :
= 2.7288 + 1.3898Xt – 11.8475Dt
[2.6032] [10.5862] [–20.9805]
R2 =0.9962
L’incorporation dans le modèle d’une dummy a donc permis de corriger la valeur atypique.
Note importante :
 La correction effectuée n’est valable que si le coefficient associé à la variable dummy est
statistiquement significatif.

Après estimation, le signe affecté { la variable binaire est proportionnelle { l’anomalie constatée
dans les données. S’il s’agit d’une observation anormalement basse, comme c’est le cas dans
l’exemple ci-haut, le signe affecté à la dummy sera –, ce qui indique que l’écart criant avait
tendance à ramener la droite de régression vers le bas. En revanche, s’il est plut t question d’une
observation anormalement élevée, le signe affecté à la dummy sera +, ce qui indique que le déviant
avait tendance à tirer la droite de régression vers le haut.

Attention à ne pas saisir les écarts anormalement élevés et anormalement bas par une même une
variable muette. Lorsque la série présente à la fois les deux types d’écarts, il convient de les capter
par deux variables auxiliaires différentes, l’une pour les observations exceptionnellement élevées
et l’autre pour celles exceptionnellement basses.
Ass. Cédrick Tombola M.
63
β. Capter la présence de la discrimination
L’explication d’un phénomène peut parfois nécessiter la présence des variables qualitatives. Supposons
que l’on souhaite expliquer, pour dix étudiants de première licence en Economie échantillonnés, le
phénomène " cote obtenue en macroéconomie CMi" ; tout naturellement les variables comme présence au
cours PCi, nombre d’heures d’étude consacrées à la macroéconomie HE i…s’avèrent pertinentes. Mais il est
tout à fait aussi possible que des variables comme la religion de l’étudiant REi, ou sa tribu TEi, soient
déterminantes dans l’explication du phénomène étudié. Dans ce cas, l’utilisation d’une variable binaire
permet de segmenter les individus en deux groupes et de déterminer si le critère de segmentation est
réellement discriminant.
Dans l’exemple de tout { l’heure sur la cote obtenue en macroéconomie, si l’on assume que l’appartenance
ou non à la religion catholique est déterminante dans la réussite, ce qui revient à dire que la religion est un
facteur de discrimination, le modèle à estimer sera :
CMi = β0 + β1 PCi + β2HEi + β3REi
où REi =
Puis estimer, comme vu précédemment, en appliquant les MCO. Après estimation, si β3 est statistiquement
significatif, on en conclurait que la religion (catholique) a joué sur la cotation en macroéconomie, elle est
donc bien un facteur discriminant de la note obtenue en macroéconomie. A l’opposé, si β3 est
statistiquement non significatif, on en conclurait que la religion (catholique) n’a pas joué sur la réussite en
macroéconomie.
Note importante :
 Dans le cas de variables dummy à plusieurs modalités, par exemple l’état civil (célibataire, marié,
divorcé, autres), il est convenable de coder alors autant de variables indicatrices qu’il y a de
modalités moins une‡‡‡‡‡‡‡‡‡. Ainsi, pour l’état civil, on définira trois variables binaires : célibataire (=1
si l’individu est célibataire, 0 sinon), marié (= 1 si l’individu est marié, 0 sinon), divorcé (= 1 si
l’individu est divorcé, 0 sinon), la modalité autres étant implicitement contenue dans le terme
constant [et ne serait donc spécifiée à part que dans un modèle sans terme constant].

La codification dépend du modélisateur et doit être prise en compte dans l’interprétation des
résultats. A titre exemplatif, si l’on considère la variable qualitative sexe, le modélisateur est libre
de coder 1 = femme et 0 = homme et inversement. Il doit seulement en tenir compte lors de
l’interprétation.
γ. Capter les variations saisonnières
Les variables indicatrices sont aussi utilisées pour prendre en compte les mouvements saisonniers qui
caractérisent certaines variables comme les dépenses de publicité, qui sont généralement plus importantes
en certaines périodes de l’année qu’en d’autres.
Supposons que l’on s’intéresse { la relation entre le chiffre d’affaires (Ch t) et les dépenses de publicité
(Dpubt). On peut écrire :
‡‡‡‡‡‡‡‡‡
L’une d’elles étant implicitement contenue dans le terme constant.
Ass. Cédrick Tombola M.
Cht = β0 + β1Dpubt + ut
64
[i]
En utilisant les données trimestrielles, il ne serait pas correct d’estimer directement le modèle [i], parce
qu’on n’aurait pas tenu compte de l’effet saisonnier, les dépenses de publicité ne sont pas les mêmes tous
les trois mois [trimestre].
On peut capter l’effet saisonnier en introduisant dans [i] une variable dummy. Pour notre cas, on aura
autant de variables dummy qu’il y a de trimestres, soit quatre dummy. Sachant qu’on compte quatre
trimestres par année, l’introduction des variables dummy se fera comme suit :
2
0
0
5
2
0
0
6
Trimestre
1èr trimestre
2ème trimestre
3ème trimestre
4ème trimestre
1èr trimestre
2ème trimestre
3ème trimestre
4ème trimestre
D1t
1
0
0
0
1
0
0
0
D2t
0
1
0
0
0
1
0
0
D3t
0
0
1
0
0
0
1
0
D4t
0
0
0
1
0
0
0
1
∑
1
1
1
1
1
1
1
1
Et le modèle [i] devient :
Cht = β0 + β1Dpubt + β2D1t + β3D2t + β4D3t + ut
[ii]
ou encore :
Cht = β1Dpubt + β2D1t + β3D2t + β4D3t + β5D4t + ut
[iii]
Si le modèle contient un terme constant, celui-ci joue d’office le r le de l’une de quatre variables dummy.
Dans [ii] par exemple, β0 joue le rôle de D4t [on a le choix pour la variable binaire à écarter]. En revanche, en
absence du terme constant, il convient de prendre en compte, comme dans la relation [iii], toutes les
variables dummy.
Une fois cette gymnastique terminée, on peut alors, sans difficulté normalement, appliquer les MCO soit
sur le modèle [ii], soit sur le modèle [iii].
Ass. Cédrick Tombola M.
65
ANNEXES DU CHAPITRE IV
ANNEXE 1 : Quelques rappels de calcul matriciel
Le calcul matriciel a été introduit en Econométrie par Alexander Craig Aitken.
1.
Opérations matricielles
Addition et soustraction
Soient deux matrices carrées§§§§§§§§§ A et B de format 2. La somme ou la soustraction de ces deux matrices
s’effectue comme suit :
A
B=
=
L'addition et la soustraction des matrices ne sont donc définies que pour des matrices de même format ou de
même ordre.
Propriétés importantes de l’addition et la soustraction des matrices
(i)
(ii)
A
A
B=B A
(B C) = (A
B)
C
Multiplication par un scalaire
Soient un scalaire k (un nombre réel) et la matrice carrée A ci-dessus. La multiplication de A par le scalaire k
s’effectue de la sorte :
kA =k
=
La multiplication par un scalaire est donc possible quel que soit l’ordre de la matrice A.
Propriétés importantes de la multiplication par un scalaire
(i)
(ii)
kA = Ak
k(A B) = kA
kB
Produit matriciel
Soient les deux matrices carrées A et B ci-dessus. Ces deux matrices sont conformables pour le produit ou la
multiplication matricielle puisque le nombre de colonnes de la première matrice est égal au nombre de lignes
de la deuxième matrice [principe du produit matriciel]. Le produit matriciel s’effectue en faisant la somme
algébrique des produits des éléments de chaque ligne de la première matrice par les éléments
correspondants de chaque colonne de la deuxième matrice.
§§§§§§§§§
Une matrice carrée est une matrice dont le nombre de lignes est égal au nombre de colonnes. On dit matrice
carrée de format n ou d’ordre n m.
Ass. Cédrick Tombola M.
66
Pour les matrices carrées A et B ci-haut, on obtient :
AB =
2
2
2
2
Propriétés importantes du produit matriciel
Soient trois matrices conformables A, B et C, on a les propriétés essentielles suivantes :
(i)
(ii)
(iii)
A(B + C) = AB + AC
A(BC) = (AB)C
AB ≠ BA en général
Transposée d’une matrice
La transposée d’une matrice A de format m
en permutant les lignes et les colonnes de A.
n, notée AT ou A’, est une matrice de format n
m obtenue
AT =
Soit A =
Propriétés importantes de la transposition des matrices
Soient trois matrices conformables A, B et C, on a :
(i)
(ii)
(iii)
(iv)
(A + B + C)T = AT + BT + CT
(ABC)T = CTBTAT
(AT)T = A
(kA)T = kAT
Rang d’une matrice
Soit une matrice A d’ordre m n. Le rang de la matrice A, noté r (A), est le nombre de ses vecteurs lignes [ou
ses vecteurs colonnes] linéairement indépendants, dit autrement, c’est le nombre de ses lignes (ou ses
colonnes) non entièrement nulles, après échelonnement de la matrice.
Si le rang d’une matrice A donnée correspond au minimum entre le nombre de ses lignes et de ses
colonnes, on dira que A est de rang maximum.
Une matrice carrée A d’ordre n est dite non – singulière si son rang est maximum, soit [r (A) = n].
Ass. Cédrick Tombola M.
67
2. Matrices carrées
Matrice diagonale
Matrice scalaire
Matrice unité ou identité
est une matrice carrée dont un au
moins des éléments situés sur sa
diagonale principale est non nul, tous
les autres éléments étant nuls.
est une matrice diagonale dont
tous les éléments, non nuls, sur sa
diagonale principale sont égaux.
notée I, est une matrice scalaire dont
les éléments sur la diagonale
principale sont égaux à 1.
Exemple :
Exemple :
Exemple :
B=
I=
A=
Matrice symétrique
Matrice idempotente
Trace d’une matrice carrée
Soit une matrice carrée A. On dit que A
est une matrice symétrique si AT = A.
Soit une matrice carrée A. on dit
que A est une matrice idempotente
si AA = A.
La trace d’une matrice carrée A,
notée tr (A), se définit comme étant
la somme algébrique des éléments
de sa diagonale principale.
Exemples :

La matrice unité I est forcément
symétrique. On vérifie donc que
IT = I;
 La
matrice
(X'X),
dans
l’estimation
des
β,
est
symétrique, soit (X'X)' =(XTX).
Exemple :
M = [I – X(X'X)–1X']
Soient deux matrices A et B, dont les
dimensions respectives sont de
(m n) et de (n m). Par conséquent,
AB et BA sont deux matrices carrées
et :
tr (AB) = tr (BA)
Pour trois matrices A, B et C, si le
produit donne des matrices carrées,
on a :
tr (ABC) = tr (CAB) = tr (BCA)
Propriétés importantes de la matrice unité
(i)
(ii)
(iii)
II = I
InAn = An
tr (In) = n
Déterminant d’une matrice carrée
D’ordre 2
Soit la matrice carrée A, d’ordre 2, son déterminant noté
est calculé comme suit :
Ass. Cédrick Tombola M.
68
D’ordre 3
Le déterminant d’une matrice carrée A d’ordre 3 est calculé en appliquant la règle de Sarrus********** comme
suit :
=
D’ordre n quelconque
Le déterminant d’une matrice A d’ordre n est donné par la somme algébrique des produits obtenus en
multipliant les éléments d’une ligne (ou d’une colonne) de la matrice A par leurs cofacteurs correspondants,
notés Cij.
La matrice des cofacteurs, quant à elle, est trouvée en pré – multipliant la matrice des mineurs, notée Mij,
par (–1)i+j, soit :
Cij = (–1)i+jMij
La méthode des cofacteurs, dite aussi méthode d’expansion de LAPLACE ††††††††††, permet de calculer un
déterminant d’ordre n { l’aide des mineurs [déterminants d’ordre (n – 1)]. On a toujours intérêt à
développer un déterminant des lignes ou des colonnes où apparaissent beaucoup de zéros.
Note : Le mineur mij de la matrice A est le déterminant calculé en supprimant la ligne i et la colonne j de A.
Propriétés importantes des déterminants
(i)
(ii)
(iii)
(iv)
Si une ou plusieurs lignes ou colonnes d’une matrice sont linéairement dépendantes, alors le
déterminant de cette matrice est nul. On dit qu’une telle matrice est singulière.
Si une matrice carrée A est de rang maximum, alors son déterminant est différent de zéro.
Inverse d’une matrice carrée
Soit A une matrice carrée et B une autre matrice carrée du même ordre que A. On dit que B est l'inverse de A si
AB = BA = I.
–1
L'inverse de A, noté A , n'existe que si A est une matrice carrée de rang maximum. Cet inverse est unique.
**********
††††††††††
Du nom du mathématicien français Pierre – Frédéric Sarrus (1798 – 1861).
Du nom du mathématicien, astronome et physicien français Pierre – Simon de LAPLACE (1749 – 1827).
Ass. Cédrick Tombola M.
69
Il existe, dans la littérature, plusieurs méthodes de calcul de l’inverse d’une matrice carrée. Dans ce papier, nous
n’en présentons que deux.
Méthode classique (ou méthode de l’adjointe)
Méthode itérative (ou gaussienne)
Par la méthode de l’adjointe, l’inverse de la matrice B, Soit la matrice A, d’ordre n, dont on veut trouver
notée B–1, se calcule de la sorte :
l’inverse. La méthode itérative consiste { mettre c te
à côte la matrice A et la matrice unité I de même
–1
ordre, puis { échelonner A jusqu’{ la rendre unité. A–1
B =
sera ce que serait devenue la matrice unité { l’issue de
où est la matrice adjointe, et n’est rien d’autre que la
l’échelonnement, soit :
transposée de la matrice des cofacteurs Cij, soit :
B–1 =
Propriétés importantes de l’inverse d’une matrice carrée
(i)
(ii)
(iii)
B B–1 = I
(B–1)–1 = B
(BT)–1 = (B–1)T
(B–1)TBT = I
ANNEXE 2 : La fonction DROITEREG d’Excel
La fonction DROITEREG d’Excel permet d’obtenir presque tous les résultats, en un clic, mis en évidence
dans ce chapitre, et au chapitre précédent. Il suffit, pour ce faire, de sélectionner une plage en
conséquence ayant 5 lignes et dont le nombre de colonnes doit correspondre au nombre de paramètres à
estimer dans le modèle, puis de saisir la commande DROITEREG (plage contenant Y ; plage contenant les
exogènes ; VRAI ; VRAI) suivi de CTRL + SHIFT + ENTER.
Soit le modèle Yt = β0 + β1X1t + β2X2t + β3X3t + ut, la figure ci-dessous montre comment procéder sur Excel.
En appuyant simultanément sur les touches CTRL + SHIFT + ENTER, on obtient :
Ass. Cédrick Tombola M.
70
ANNEXE 3 : La régression linéaire avec le logiciel Eviews
Sur le logiciel économétrique Eviews, après création de la feuille de travail et saisie des données, aller dans
Quick Estimate Equation, puis entrer les variables, séparées par des espaces, dans l’ordre apparaissant
dans le modèle à estimer, en notant le terme constant par la lettre C, choisir ensuite la méthode
d’estimation – pour notre cas LS ou Least squares – et valider.
En considérant le modèle de tout { l’heure, on a les étapes suivantes :
En validant, on a les résultats suivants :
Dependent Variable: Y
Method: Least Squares
Sample: 1 8
Included observations: 8
Variable
C
X1
X2
X3
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
F-statistic
Prob(F-statistic)
Coefficient
Std. Error
t-Statistic
Prob.
-247.3274
1.133525
2.944909
7.146491
122.8357
0.520299
3.361460
2.286172
-2.013481
2.178604
0.876080
3.125963
0.1143
0.0949
0.4304
0.0353
0.974926
0.956120
8.789365
309.0117
-25.96726
51.84210
0.001169
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
Durbin-Watson stat
264.3750
41.95895
7.491815
7.531536
7.223914
1.160052
Ass. Cédrick Tombola M.
71
Le même résultat peut être obtenu en saisissant, sur la barre de commande Eviews, la commande LS suivi
de Y C X1 X2 X3.
Du tableau des résultats ci-dessus, appelés parfois output de l’estimation, il ressort les informations
importantes suivantes :


Les colonnes coefficient, Std. Error, t-Statistic renseignent respectivement sur la valeur de chaque
paramètre estimé, son écart – type (Standard Error) et de son ratio de Student.
La colonne Prob. renvoie, pour chaque coefficient estimé, la probabilité de commettre l’erreur de
première espèce. Si cette probabilité est faible (< 0.05, de manière générale) RH0, le paramètre
concerné est donc statistiquement significatif (non nul).

Les lignes R-squared, Adjusted R-squared, S.E. of regression, Sum squared resid, F-statistic et Prob(Fstatistic) correspondent respectivement au R2, au R2 ajusté, au , à la SCR, à la statistique de
Fisher et la probabilité critique associée à la statistique de Fisher.

Mean dependent var et S.D. dependent var représentent respectivement la moyenne et l’écart –
type de la variable dépendante.

Akaike info criterion, Schwarz criterion et Hannan-Quinn criter. sont des critères d’information
intervenant dans le choix du modèle optimal. Le meilleur modèle étant celui qui minimise ces
critères.
A. Après estimation, la série prédite est obtenue automatiquement en tapant, sur la barre de commande, la
commande FIT (nom de la série) puis valider.
B. Après estimation, la série des résidus est générée en saisissant la commande GENR (nom)=resid
Ass. Cédrick Tombola M.
72
Exercices sur le modèle de régression linéaire multiple
Exercice 1
On examine l’évolution d’une variable Yt en fonction de deux exogènes X1t et X2t. On dispose de n
observations de ces variables. On note X =
où 1 est le vecteur constant et X1 et X2 sont les
vecteurs des variables explicatives.
1. On a obtenu les résultats suivants :
=
(a) Donner les valeurs manquantes.
(b) Que vaut n ?
2. La régression de Y sur la constante et les deux exogènes donne :
Yt = - 1.61 + 0.61X1t + 0.46X2t ; SCR = 0.3 ;
=73.48 et = – 1.6
(a) Calculer la somme des carrés expliqués (SCE), la somme des carrés totale (SCT), le R2 et le R2 ajusté
de Theil.
(b) Déduire la matrice COVA, et tester la significativité individuelle de chaque paramètre ainsi que leur
significativité conjointe.
Exercice 2
Afin de déterminer les facteurs explicatifs de la réussite de la licence en sciences économiques, on spécifie
le modèle suivant :
NLi = β0 + β1NDi + β2DSi + ut
où :
NL = note moyenne obtenue en licence
ND = note moyenne obtenue en troisième graduat
DS = variable indicatrice de sexe (1 pour les hommes et 0 pour les femmes)
L’estimation { partir d’un échantillon de 60 étudiants conduit aux résultats suivants :
= 8.5 + 0.3NDi – 1.2DSi
[4.5] [7.1]
[2.3]
n=60
R2=0.72
[.] = t de Student
Travail demandé : le sexe a-t-il une influence sur la note obtenue en licence de sciences économiques ?
Solution de l’exercice 2
La variable binaire DS a un ratio de Student de 2.3 >t (0,025 ; 57)=1.96, elle est donc statistiquement significative. Le
fait d’être homme ou femme est bel et bien un facteur discriminant de la réussite de la licence en sciences
économiques.
73
Ass. Cédrick Tombola M.
Il est à noter que le signe négatif affecté à DS indique qu’il est « pénalisant » d’être un homme (DS = 1) et qu’en
moyenne, sur l’échantillon retenu, les femmes (0) ont une note de 8.5, tandis que les hommes ont une note
inférieure de 1.2 point à celle des femmes, soit 7.3.
Exercice 3
Soit le modèle :
Yi = β0 + β1Xi + β2Di1 + β2Di2 + ui
où Yi est le salaire perçu par l’individu i ; Xi le nombre d’années d’expérience ; Di1 et Di2 deux variables
dummy.
On dispose du tableau ci-dessous :
Ind.
Yi
Xi
1
350
2
2
150
1
3
305
2
4
290
2
5
310
2
6
270
2
7
340
5
8
400
3
9
430
5
10
410
4
11
400
3
12
290
2
Les individus 3, 5, 8, 10, 15, 12 sont des étrangers (étrangères) et les individus 3, 5, 7, 8 et 9 sont des ouvriers
(nationaux et étrangers).
Di1 =
et
Di2 =
Construisez les chroniques Di1 et Di2.
Exercice 4
Soit le modèle :
Yt = β0 + β1X1t + β2X2t + ut
On dispose des données du tableau ci-dessous :
Yt
10
12
16
18
20
X1t
4
6
5
8
7
X2t
7
4
8
6
9
Travail à faire :
(a) Trouver les valeurs du vecteur .
(b) Calculer le coefficient de détermination R2.
(c) Mener les tests de significativité individuelle sur chaque
paramètre.
Exercice 5
Soit le tableau suivant :
Année
Yt
X1t
X2t
X3t
1989
220
57
51
34
1990
215
43
53
36
1991
250
63
54
39
1992
245
65
52
38
1993
249
68
53
37
1994
301
69
56
42
Ass. Cédrick Tombola M.
74
TD :
-
-
Si on considère le modèle suivant : Yt = β0 + β1X1t + β2X2t + β3X3t + ut, estimer les paramètres β0, β1, β2,
β3, et tester leur significativité individuelle et la significativité globale du modèle.
Calculer le R2. Quelle critique peut-on formuler l’égard de cet indicateur ?
Calculer le 2
Trouver l’intervalle de prévision pour 1997 sachant que pour cette dernière année X1t sera égal à
78, X2t sera égal à 54 et X3t atteindra 48.
Exercice 6
Soit le modèle Yt = β0 + β1X1t + β2X2t + εt
où Yt est la quantité offerte des pommes, X1t le prix des pommes, X2t une subvention forfaitaire accordée de
manière journalière et εt le terme d’erreur.
Connaissant les données du tableau ci-dessous, il est demandé :
- d’estimer les paramètres β0, β1 et β2.
- de calculer le R2 et le R2 ajusté de Theil.
- de montrer que le R2 n’est autre que le r de Bravais-Pearson entre Yt et
- de vérifier l’équation d’analyse de la variance.
- de dériver la matrice COVA.
Date
2 janvier 2012
3 janvier 2012
4 janvier 2012
5 janvier 2012
6 janvier 2012
Yt
10
12
16
18
20
X1t
4
6
5
8
7
X2t
7
4
8
6
9
.
75
Ass. Cédrick Tombola M.
.V.
MODELES DE REGRESSION NON LINEAIRES
Comme vu jusqu’ici, l’application de la méthode des moindres carrés ordinaires exige que le modèle soit
linéaire ou linéarisable en X. Cependant, il est fréquent de rencontrer en économie des modèles non
linéaires dans leur spécification, comme c’est le cas des fonctions de production de type Cobb – Douglas et
CES [Constant Elasticity of Substitution]‡‡‡‡‡‡‡‡‡‡.
Les modèles non linéaires sont généralement regroupés en deux familles, à savoir :


Modèles non linéaires mais linéarisables ;
Modèles non linéaires et non linéarisables.
Pour la première famille de ces modèles, le plus souvent, une transformation logarithmique suffit à les
rendre linéaires, ce qui, du reste, valide leur estimation par les MCO. Et c’est précisément sur ce type de
modèles que porte ce chapitre. Quant { la deuxième famille de ces modèles, il convient d’appliquer les
méthodes d’estimation non linéaire, que nous n’abordons pas directement ici.
A titre d’avertissement, le présent chapitre n’a pour objet la présentation de nouvelles méthodes
d’estimation. Il présente plut t les artifices de calcul – entendus comme préalables – nécessaires à
l’estimation, par les MCO, de la première famille de modèles non linéaires.
V.1. Linéarisation des modèles non linéaires
A. Le modèle double log ou log – log
Forme : Yt =A
[a]
En appliquant la transformation logarithmique, il
vient :
LnYt = LnA + βLnXt + ut
[b]
A présent, en posant :
= LnYt ; β0 = LnA; β1 = β et
=LnXt,
on retrouve ainsi le modèle linéaire bien connu,
qu’on peut écrire de la sorte :
= β0 + β1
+ ut
Exemple : la forme Cobb – Douglas
[c]
Q =AKαLβ.
Avantage : une lecture directe des élasticités.
‡‡‡‡‡‡‡‡‡‡
Forme : Yt =
[m]
La transformation logarithmique de [m] donne :
LnYt = β0 + β1Xt + ut
[n]
Exemple :
La formule de l’intérêt composé Yt = Y0(1 + r)t [o]
où Y0 est une constante, (1 + r) un paramètre et t le temps
(la variable exogène).
=
où β =
B. Le modèle log – lin (ou semi-log)
La transformation logarithmique de [o] donne :
où
=
+
= LnYt,
+ ut
=LnY0,
=Ln(1 + r),
[p]
= t.
Avantage : Le modèle [o] permet le calcul du taux de
croissance d’une part, et de la tendance (croissante ou
décroissante) caractérisant l’évolution de Yt selon le signe
de (positif ou négatif) d’autre part.
La fonction Cobb-Douglas, du nom de ses auteurs Charles William Cobb et Paul Douglas, a été proposée en
1928 ; alors que la CES, appelée aussi SMAC (des noms de Solow, Minhas, Arrow et Chenery), a été introduite en 1961.
76
Ass. Cédrick Tombola M.
C. Les modèles du trend linéaire
où
D. Le modèle lin – log (ou semi-log)
Forme : = β0 + β1t+ ut
= LnYt et t =tendance ou trend
Forme :
[i]
En appliquant la transformation logarithmique, il vient :
Avantage : Le modèle de trend linéaire, appelé
également modèle de tendance, peut être utilisé en
lieu et place du modèle log – lin afin d’analyser le
comportement (croissant ou décroissant) du trend
linéaire affectant Yt. En effet, la tendance sera
croissante si le coefficient associé à la variable t est
positif et décroissante dans le cas contraire.
Yt = β0 + β1LnXt+ ut
[ii]
où β1 est une semi-élasticité, soit :
=
β1 =
[iii]
L’élasticité peut être retrouvée, en divisant la relation [iii]
par Yt. Et cela est beaucoup plus commode en prenant les
moyennes comme suit :
=
[iv]
Si l’on pose
=LnXt, la relation [ii] est ramenée à la
formulation standard antérieure comme suit :
Yt = β 0 + β
+ ut
[v]
Avantage :
 Ce modèle permet l’estimation des modèles
d’Engle : « La dépense totale consacrée à la
nourriture tend à croître selon une progression
arithmétique lorsque la dépense totale augmente
en progression géométrique.
 Cette forme peut servir également au traitement
de l’hétéroscédasticité dont il sera question plus
loin.
E. Les modèles réciproques
Forme 1 : Yt = β0 + β1
+ ut
F. Le modèle log – hyperbole (ou log – inverse)
[j]
La forme linéaire standard est retrouvée en posant
simplement =
, ainsi obtient-on :
Yt = β 0 + β 1
+ ut
[k]
Cette spécification est notamment utilisée pour
estimer la courbe de Phillips, qui est la relation
entre l’inflation et le taux de chômage.
Forme 2 :
= β0 + β1Xt + ut
Forme : Yt =
En appliquant la transformation logarithmique sur cette
forme, on obtient :
LnYt = β0 + β1
Cette forme s’apparente beaucoup { la forme réciproque
sauf que la variable dépendante est exprimée sous forme
logarithmique. Quand Xt augmente, LnYt diminue.
[l]
En posant
En posant
= , il vient :
= β0 + β1Xt+ ut
+ ut
=
et
=LnYt, on obtient :
= β0 + β1
[m]
+ ut
Le modèle log-hyperbole est apte à représenter une
fonction de production de court terme.
G. Le modèle polynomial
Forme : Yt =
Une manipulation simple permet d’écrire ce modèle sous la forme :
Ass. Cédrick Tombola M.
77
Yt =
où
=Xt ;
=
;…;
=
Le modèle polynomial trouve des applications dans les cas suivants :
 L’estimation d’une tendance pour une chronique accusant, par exemple, deux points de retournement :
Yt = β0 + β1t2 + β2t3 + ut
où t représente le temps.

L’estimation d’une fonction de coût total :
CTt = β0 + β1Qt + β2 + ut
où CT est le coût total et Q la quantité produite.
V.2. Modèles de cycle de vie du produit
Les modèles de cycle de vie d’un produit, appelés parfois modèles de diffusion, ont pour objet de
déterminer l’évolution probable des ventes d’un produit connaissant le seuil de saturation, puisqu’il est
vérifié que les ventes évoluent en fonction du temps, { un rythme alternativement lent, puis rapide jusqu’{
maturité (seuil de saturation) qui correspond { un point d’inflexion { partir duquel le rythme de croissance
des ventes diminue.
A. Le modèle logistique
B. Le modèle de Gompertz
Le modèle logistique est aussi connu sous le nom de
modèle (ou courbe) de Verhulst, du nom de son
auteur Pierre-François Verhulst, qui le proposa en
1838.
Le modèle de Gompertz, du nom du mathématicien
anglais Benjamin Gompertz, a été introduit en 1825.
Forme :
[e]
où Ymax représente le seuil de saturation et r la
vitesse de diffusion.
Une manipulation triviale permet d’écrire :
Forme : Yt =
où
[x]
est le seuil de saturation et r la vitesse de
diffusion.
Deux
transformations
logarithmiques
sont
nécessaires pour linéariser ce type de modèles.
Dans un premier temps, la transformation
logarithmique du modèle [x] donne :
Après
application
de
logarithmique, il vient :
la
transformation
LnYt = brt + a
Après manipulation et en log-linéarisant, il vient :
= β0 + β1t+ ut
[f]
= β0 + β1t+ ut
[y]
où
; β0 =Lnb et β1=Lnr
Note : L’estimation par OLS de ces deux modèles n’est possible que si l’on ne connaît, ou plut t que l’on
postule la valeur du seuil de saturation.
où
; β0 =Lnb et β1=Lnr
78
Ass. Cédrick Tombola M.
ANNEXE DU CHAPITRE V
La commande NLS d’Eviews
En effet, plusieurs modèles non linéaires se prêtent facilement, comme vu précédemment, à la linéarisation,
ce qui rend beaucoup plus aisée leur estimation par la méthode des MCO. Mais lorsque cette gymnastique
de linéarisation devient redoutable, ce qui est le cas des fonctions de production du type CES, on peut,
grâce { la commande NLS d’Eviews – qui donne l’estimation fournie par la méthode des moindres non
linéaires – , directement estimer de tels modèles sans avoir besoin de les rendre linéaires.
Exemple
En considérant les données du tableau ci-dessous qui renseigne sur les quantités produites, pendant dix
jours, moyennant les facteurs travail (L) et capital (K), on demande d’estimer le modèle ci-après :
Q=
Jour
Q
K
L
1
25
12
3
2
28
13
5
3
32
10
9
4
35
15
8
5
39
22
12
6
37
17
13
7
44
21
10
8
40
23
11
9
38
25
14
10
45
20
19
Solution
La commande Eviews est NLS Q=c(1)*K^c(2)*L^c(3). On obtient les résultats suivants :
Dependent Variable: Q
Method: Least Squares
Sample (adjusted): 1 10
Included observations: 10 after adjustments
Convergence achieved after 8 iterations
Q=C(1)*K^C(2)*L^C(3)
C(1)
C(2)
C(3)
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
Coefficient
Std. Error
t-Statistic
Prob.
12.45037
0.190189
0.232165
3.586039
0.125849
0.078957
3.471900
1.511251
2.940398
0.0104
0.1745
0.0217
0.823231
0.772726
3.081806
66.48269
-23.66117
Mean dependent var
S.D. dependent var
Akaike info criterion
Schwarz criterion
Durbin-Watson stat
36.30000
6.464433
5.332234
5.423009
2.381746
où les coefficient c(2) et c(3) donnent directement les élasticités du produit au capital et au travail,
respectivement.
Ass. Cédrick Tombola M.
79
Exercices sur les modèles de régression non linéaires
Exercice 1
Soit le modèle log-linéaire suivant : Yt = Y0(1 + r)t. Connaissant les valeurs du tableau ci-après qui montre
l’évolution des ventes d’une entreprise au cours de 15 mois, on demande d’ajuster cette fonction et de
trouver Y0 et r.
N°
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Yt
10
15
20
18
20
22
24
21
27
26
33
29
34
38
37
t
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Interpréter les résultats.
Exercice 2
On dispose des informations suivantes sur les ventes des syllabus d’économétrie :
Année
Ventes
2000
24
2001
36
2002
45
2003
49
2004
54
2005
63
2006
78
2007
79
2008
83
2009
99
On Se propose d’ajuster, par OLS, sur ces données une fonction du type :
Yt =
a) Effectuer cet ajustement en supposant que la valeur du coefficient β0 = 3 ;
b) Donner la valeur de r ;
c) Calculer le coefficient de détermination R2 ;
Exercice 3
Mêmes données et mêmes questions qu’{ l’exercice 2, en ajustant le modèle suivant :
On prendra Ymax = 10.
Exercice 4
En considérant les données du tableau ci-dessous qui renseigne sur les quantités produites, pendant dix
jours, moyennant les facteurs travail (L) et capital (K), on demande d’estimer le modèle ci-après :
Q=
Jour
Q
K
L
-
1
25
12
3
2
28
13
5
3
32
10
9
4
35
15
8
5
39
22
12
6
37
17
13
Calculer le R2 et le 2.
Mener le test des rendements d’échelle. Les rendements { l’échelle sont-ils constants ?
80
Ass. Cédrick Tombola M.
.VI.
VIOLATION DES HYPOTHESES DE BASE
En présentant la méthode des moindres carrés ordinaires, nous avions émis un faisceau d’hypothèses de
base§§§§§§§§§§, sous respect desquelles cette méthode fournissait les meilleurs estimateurs linéaires,
convergents et sans biais, et que le théorème de Gauss-Markov était vérifié. Cependant, dans la pratique, il
est possible que l’une ou l’autre de ces hypothèses fondamentales soit relâchée.
Ce chapitre présente donc à la fois les tests de vérification et les stratégies à adopter en cas de violation
éventuelle de l’une ou l’autre hypothèse.
VI.1. Autocorrélation des erreurs
A. Problème
Il y a autocorrélation des erreurs lorsque l’hypothèse
est violée. La conséquence directe
est que les estimateurs des MCO, bien qu’ils gardent encore leur caractère non biaisé, ne sont plus
efficients, puisque n’ayant plus une variance minimale. Formellement, on a :
En absence d’autocorrélation
Y = Xβ + U
E(U) = 0
E(UU’) =
En présence d’autocorrélation
Y = Xβ + U
E(U) = 0
E(UU’) =
Par conséquent
les t de Student et F de Fisher ne sont plus
utilisables.
Il faut noter aussi que l’autocorrélation des erreurs est un phénomène que l’on ne retrouve qu’en travaillant
sur séries temporelles. En principe, le problème ne se pose pas sur cross sections, sauf le cas rare de
corrélation spatiale des résidus, qui ne nous intéresse pas directement ici.
B. Tests de détection
On recourt généralement { deux tests pour détecter l’éventuelle autocorrélation des erreurs : le test de
Durbin et Watson et le LM – Test de Breush – Godfrey.
Le test de Durbin et Watson
Soit le modèle linéaire simple ci-après :
[6.1]
Yt = β0 + β1Xt + ut
Le test très populaire de Durbin et Watson (DW), du nom de ses auteurs James Durbin et Geoffrey Watson
qui l’on proposé en 1951, permet de détecter une autocorrélation d’ordre 1, AR(1), selon la forme :
[6.2]
ut = ρut–1 + vt
où vt est un bruit blanc*********** et
(condition de convergence)
§§§§§§§§§§
Erreurs homoscédastiques, non autocorrélées et normalement distribuées. De plus la matrice (X’X) doit être
non singulière, ce qui correspond { assumer l’absence de multicolinéarité.
***********
Voir annexe 3.
Ass. Cédrick Tombola M.
81
On fait donc l’hypothèse, pour des raisons de simplification, que l’erreur n’est liée qu’{ son passé immédiat.
Et l’estimateur de ρ, basé sur les résidus et issus de la relation [6.2], est donné par :
[6.3]
Or, si n
+∞,
=
, ce qui permet d’écrire la relation [6.3] de la sorte :
[6.4]
où est le coefficient de corrélation linéaire de Bravais – Pearson.
Par conséquent, varie dans l’intervalle [– 1, + 1].
Les hypothèses pour mener le test DW sont :
La statistique associée à ce test est :
[6.5]
DW = d =
Pour comprendre pourquoi d est une statistique pertinente pour tester l’autocorrélation, on réécrit d
comme suit :
d=
En éclatant cette somme en ses composantes, on a :
[6.6]
d=
Connaissant la relation [6.3], et en sachant que pour grands échantillons,
[6.7]
DW=d
=
, [6.5] devient :
)
Il ressort donc de [6.6] que DW varie de 0 à 4 :
Valeur de
=1
=0
=– 1
Valeur conséquente de DW
DW =0
DW=2
DW = 4
Implications
Autocorrélation positive
Absence d’autocorrélation
Autocorrélation négative
Connaissant la taille de l’échantillon n, le nombre des variables explicatives k et le risque α (5% sauf
indication contraire), la table de Durbin-Watson donne deux valeurs dLower et dUpper, qui permettent de
mener le test en situant la statistique calculée DW dans l’une des zones du schéma ci-après :
Ass. Cédrick Tombola M.
2
4 – dU
4 – dL
Doute
Zone I
Autocorrélation
positive
dU
Doute
dL
0
Zone II
Absence d’autocorrélation
82
Zone III
Autocorrélation
positive
On dira donc qu’il y a autocorrélation des erreurs (ou présomption d’autocorrélation zone de doute ou
zone d’indétermination) si la statistique DW calculée tombe soit dans la zone I, dans l’une de deux zones de
doute ou dans la zone III. La zone II étant la seule zone où l’on conclurait { l’indépendance des erreurs.
Note importante :



La statistique DW ne s’interprète pas lorsque le modèle est spécifié en coupe instantanée ;
Pour mener le test DW, il est nécessaire que le modèle comporte un terme constant. Pour les
modèles sans terme constant, il existe des tables statistiques appropriées ;
Dans le cas où la régression comporte, parmi les variables explicatives, la variable dépendante
retardée Yt–1 et que les résidus sont autocorrélés d’ordre 1, la statistique DW est alors biaisée vers 2.
Elle ne peut donc être utilisée directement pour tester l’autocorrélation. La statistique h
développée par Durbin (1970) doit alors être utilisée.
Le LM – Test de Breusch – Godfrey [BG]
Comme cela vient d’être expliqué, le test DW ne permet de tester qu’une autocorrélation d’ordre 1, soit
AR(1). Or, il est tout à fait possible que les erreurs nous poursuivent. Ainsi, les erreurs peuvent être :
AR(2) :
ut = ρ1ut–1 + ρ2ut–2 + vt
AR(3) :
ut = ρ1ut–1 + ρ2ut–2 + ρ3ut–3 + vt
AR(P) :
ut = ρ1ut–1 + ρ2ut–2 + … + ρput–p + vt
A cet effet, Trevor Breusch et Leslie Godfrey ont, séparément, proposé, respectivement en 1979 et 1978, un
test – qui porte leurs noms, appelé aussi test du multiplicateur de Lagrange LM – beaucoup plus complet
que le test DW en ce qu’il permet de tester une autocorrélation des erreurs d’ordre supérieur { 1, et qui
reste valide en présence de la variable dépendante décalée en tant que variable explicative.
Soit le modèle linéaire simple de l’équation [6.1] :
Yt = β0 + β1Xt + ut
où ut est à présent AR(p), p étant à déterminer.
Comme le test DW, le test BG teste l’H0 d’absence d’autocorrélation contre H1 de présence
d’autocorrélation, et se déroule en trois étapes suivantes :
(1). Estimer par les MCO le modèle [6.8] et tirer les résidus e t de cette estimation ;
(2). Estimer par les MCO l’équation intermédiaire suivante :
[6.8]
et = β0 + β1Xt + ρ1et–1 + ρ2et–2 + … + ρpet–p + ut
Puis y tirer la valeur du R2.
4
Ass. Cédrick Tombola M.
83
(3). Calculer la statistique du test, sachant que ce test peut être mené à deux niveaux :

Soit effectuer un test de Fisher classique de nullité des ρ i, comme suit :
Et la statistique du test est dans ce cas :
F
où K est le nombre des paramètres du modèle [6.8]
Critère de décision : Si F > F [(K – 1) ; (n – K)]

RH0, il y a autocorrélation.
Soit recourir à la statistique LM qui suit une distribution du
introduits dans le modèle [6.8]. On a :
LM = n R
Critère de décision : Si LM >
(p)
(p). P étant le nombre de retards
2
RH0, il y a autocorrélation.
C. Correction d’une autocorrélation
Lorsque le test conclut { l’évidence d’une autocorrélation, la correction se fait en appliquant la méthode
des Moindres Carrés Généralisés [MCG ou GLS pour le sigle anglais] de Gauss-Aitken, qui consiste
simplement { l’application des MCO sur les données transformées.
Revenons au modèle simple { une variable où le terme d’erreur suit un processus AR(1) :
[6.9]
Yt = β0 + β1Xt + ut
où ut = ρut –1 + vt
En substituant ut, par son expression, dans [6.9], on obtient :
[6.10]
Yt = β0 + β1Xt + ρut –1 + vt
où ut –1= Yt –1 – β0 – β1Xt –1
Et en tenant compte de ut –1, [6.10] devient :
[6.11]
Yt = β0 + β1Xt + ρ(Yt –1 – β0 – β1Xt –1) + vt
En effectuant dans la parenthèse et après manipulation, il vient :
[6.12]
où
= α0 + α1 + v t
=Yt – ρYt –1 ; α0 = β0(1 – ρ) ; α1 = β1 et
Une telle transformation est appelée : transformation en quasi-différences.
= (Xt – ρ Xt –1)
Ass. Cédrick Tombola M.
84
Lorsque ρ connu, l’application des MCO sur ce dernier modèle donne un estimateur BLUE. Le seul
inconvénient de la transformation en quasi-différences qui persisterait serait une perte d’information, en
l’occurrence
et . Afin de contourner cette difficulté, Prais et Winsten (1954) ont proposé de prendre
en compte la première observation en utilisant la procédure suivante :
et
=
Procédures d’estimation de ρ
Il existe plusieurs méthodes pour estimer ρ, dont les plus populaires sont :



La procédure d’estimation directe ;
La méthode basée sur la statistique DW ;
La méthode itérative de Cochrane-Orcutt.
(a) Procédure
d’estimation directe
(b) Méthode basée sur
(c) Méthode itérative de Cochrane-Orcutt
la statitistique DW
Modèle : Y = Xβ + U
[A]
On suppose que les erreurs suivent un processus AR(1) : ut = ρut –1 + vt
A partir des résidus et du A partir de la statistique DW Soit le modèle linéaire simple :
modèle [A], estimer ρ par la issue de l’estimation du
Yt = β0 + β1Xt + ut
formule :
modèle [A], et connaissant la
où ut = ρut –1 + vt
relation [6.7], estimer ρ par
la formule :
En quasi-différences, on a :
Yt – ρYt –1 = β0(1 – ρ) + β1(Xt – ρ Xt –1) + vt
ou encore,
échantillons :
pour
grands
où est le coefficient de
corrélation linéaire.
En faisant fi de la première observation que l’on
perd, la procédure itérative de Cochrane-Orcutt
se présente comme suit :
(i)
(ii)
(iii)
(iv)
(v)
Fixer une première valeur de ρ : on
peut soit donner une valeur à priori,
soit =0, soit encore partir de la
valeur de ρ telle que calculée en
(a) ;
Utiliser cette valeur de ρ pour
estimer le modèle en quasidifférences ci-dessus ;
A partir des résidus
issus de
l’estimation effectuée en (ii),
réestimer ρ par la formule donnée
en (a), ce qui permet d’obtenir un
ρ1 ;
Utiliser le nouveau ρ calculé en (iii)
pour estimer à nouveau le modèle
en quasi-différences. Les résidus
issus
de
cette
régression
permettent d’obtenir un ρ2 :
Et ainsi de suite.
Le processus itératif se termine quand on note
la convergence, c’est-à-dire quand les
coefficients
estimés
ne
varient
plus
sensiblement d’une régression { l’autre
Ass. Cédrick Tombola M.
85
Note : Le logiciel Eviews permet automatiquement d’effectuer la correction de l’autocorrélation des erreurs
sans passer par tous ces calculs. Pour ce faire, il suffit tout simplement d’insérer, à la commande
d’estimation, la variable AR(1) ou AR(2), ou encore MA(1) ou MA(2). Mais il faut noter également que la
correction de l’autocorrélation n’est acceptée que si le coefficient associé au processus introduit dans le
modèle [AR(1), MA(1), etc.] est significatif.
VI.2. Hétéroscédasticité
A. Problème
D’un point de vue étymologique, le terme hétéroscédasticité comprend deux mots. D’abord « hétéro » qui
fait référence à « plusieurs », ensuite le terme « scédasticité », associé à la « fonction scédastique », qui
signifie « variance conditionnelle ». Hétéroscédasticité signifie donc différentes variances. On dit qu’il y a
hétéroscédasticité lorsque l’hypothèse de la constance de l’erreur
, émise lors de la
présentation de la méthode des moindres carrés ordinaires, est violée.
Comme pour l’autocorrélation, la conséquence directe de cette violation est que les estimateurs des MCO,
bien que encore non biaisés, ne sont plus efficients, puisque n’ayant plus une variance minimale. Et par
conséquent les t de Student et F de Fisher ne sont plus utilisables { des fins d’inférence.
Il faut noter également que l’hétéroscédasticité est un problème qui se pose plus dans les modèles spécifiés
en coupe transversale que ceux des chroniques.
B. Tests de détection
Il existe toute une batterie de tests permettant de détecter l’ hétéroscédasticité, dont notamment††††††††††† :










Le test de Park
Le test de Goldfeld – Quandt
Le test de Glejser
Le test de Breusch – Pagan – Godfrey
Le test d’égalité des variances
Le test de Koenker – Basset
Le test de Harvey
Le test de rang de Spearman
Le test de White
Le test ARCH
Dans ce papier, nous ne revenons que sur les deux derniers tests, qui sont les plus utilisés dans la pratique.
Le test de White (1980)
Soit le modèle linéaire multiple suivant :
[6.13]
Yt = β0 + β1X1t + β2X2t + β3X3t + ut
Le test de White, proposé par Halbert White en 1980, teste les hypothèses suivantes :
†††††††††††
J’invite le lecteur qui désire prendre connaissance de tous ces tests à consulter les manuels de Kintambo
(2004) et Bosonga (2010).
Ass. Cédrick Tombola M.
86
Le test de White présente l’avantage qu’il ne nécessite pas que l’on spécifie les variables qui sont { la cause
de l’hétéroscédasticité.
Pour tester H0, ce test peut se faire de deux façons ci-après :
(i)
Test de White avec termes croisés, qui est basé sur l’estimation du modèle :
[6.14]
où et sont les résidus issus de l’estimation par OLS du modèle [6.13] et vt le terme d’erreur.
(ii)
Test de White sans termes croisés, basé sur l’estimation du modèle suivant :
[6.14]
où et sont les résidus issus de l’estimation par OLS du modèle [6.13] et vt le terme d’erreur.
Ce est basé sur la statistique LM, donnée par :
LM = n R2
(m)
où m est le nombre de régresseurs (exogènes) dans l’expression estimée.
Critère de décision : Si LM >
(m)
RH0, il y a hétéroscédasticité.
Le test de AutoRegressive Conditionnal Heteroscedasticity (Test ARCH)
Les hypothèses à formuler pour ce test sont :
Partant des résidus et issus de l’estimation du modèle [6.13], la détection de l’hétéroscédasticité par le test
ARCH se fait en régressant le carré des résidus et sur leurs décalages‡‡‡‡‡‡‡‡‡‡‡ puissance deux, soit :
[6.15]
Le test est fondé soit sur un test de Fisher classique, soit sur le test du multiplicateur de Lagrange (LM) :
LM = n R2
(m)
où m est le nombre de régresseurs (exogènes) présents dans le modèle [6.15].
Critère de décision : Si LM >
‡‡‡‡‡‡‡‡‡‡‡
(m)
RH0, il y a hétéroscédasticité.
Le nombre de retards étant à déterminer.
Ass. Cédrick Tombola M.
87
C. Correction de l’hétéroscédasticité
Soit le modèle :
Yi = β0 + β1Xi + ui
La correction de l’hétéroscédasticité se fait en appliquant les moindres carrés pondérés, c’est-à-dire les
moindres carrés ordinaires sur l’un des modèles transformés ci-dessous :
(1)
si E(
(2)
si E(
(3)
si E(
VI.3. Multicolinéarit駧§§§§§§§§§
A. Problème
Il y a multicolinéarité lorsque l’hypothèse de l’orthogonalité des exogènes ou encore de leur indépendance
linéaire
est relâchée. Dans ce cas, la méthode des moindres carrés ordinaires est défaillante et il
devient difficile d’isoler l’impact individuel de chaque exogène sur l’endogène.
On distingue généralement deux types de multicolinéarité : la multicolinéarité parfaite ou exacte et la quasi
multicolinéarité ou multicolinéarité imparfaite.
En cas de multicolinéarité parfaite, la matrice
est singulière, et par conséquent son inverse (
)–1
n’existe pas, ce qui rend la méthode OLS complètement défaillante ; il est n’est donc pas possible devant
une telle situation d’estimer les paramètres du modèle.
Dans la pratique, c’est plut t le cas de quasi multicolinéarité qui est fréquent. En effet, la multicolinéarité
imparfaite correspond au cas où la matrice
est non singulière, mais son déterminant est proche de 0. La
conséquence directe est qu’on aura des valeurs très grandes dans la matrice inverse (
)–1 qui, par la
méthode classique, est calculée comme suit :
[6.16]
Dans [6.16], si
(
0, la matrice (
(
)–1 =
)–1 aura des valeurs de plus en plus grandes, la matrice COVA
) également. La conséquence, et donc le problème posé par la multicolinéarité est que, du
fait de la valeur élevée des variances des coefficients estimés, les résultats de l’estimation perdent en précision,
c’est-à-dire que les t de Student seront faibles, et les coefficients statistiquement nuls, pendant que le R2 et le F
sont élevés.
L’autre problème posé par la multicolinéarité est l’instabilité de paramètre et l’effet de masque qui rend difficile
la mise en évidence de la contribution individuelle de différentes variables explicatives sur l’endogène.
Note : Si les problèmes d’autocorrélation des erreurs et d’hétéroscédasticité peuvent se poser quel que soit
le nombre d’exogènes intervenant dans le modèle, le problème de multicolinéarité, en revanche, n’a de
sens que dans un modèle de régression linéaire multiple.
§§§§§§§§§§§
La notion de multicolinéarité a été introduite, dans les années 50, par Lawrence Klein.
Ass. Cédrick Tombola M.
88
B. Tests de détection
Les tests de détection de la multicolinéarité les plus populaires sont le test de Klein et le test de Farrar et
Glauber.
Le test de Klein
Soit le modèle :
Le test de Klein se fait en trois étapes que voici :
(a) Estimer le modèle [6.17] et calculer le R2 ;
(b) Calculer la matrice des coefficients de corrélation linéaire entre variables exogènes, prises deux à
deux, soit :
(c) Comparer, enfin, le R2 de la régression aux différents coefficients de corrélation. Il y a présomption
de multicolinéarité si au moins un des
élevé au carré est supérieur au R2.
Note : Le test de Klein n’est pas un test statistique au sens test d’hypothèses mais simplement un critère de
présomption de multicolinéarité. C’est pourquoi il doit être complété par le test de Farrar et Glauber qui est
bien un test statistique.
Le test de Farrar et Glauber
Le test de Farrar et Glauber teste les hypothèses suivantes :
Ce test est basé sur la statistique du
, calculée { partir de l’échantillon comme suit :
où n est la taille de l’échantillon ; K le nombre de paramètres ; Ln le logarithme népérien et D le déterminant de
la matrice des coefficients de corrélation linéaire entre exogènes, soit :
Ass. Cédrick Tombola M.
89
D=
est le nombre de degrés de liberté.
Critère de décision : si
>
RH0.
C. Remèdes à la multicolinéarité
Parmi les techniques permettant d’éliminer la multicolinéarité, on peut citer :


Augmenter la taille de l’échantillon
Appliquer la « Ridge Regression » qui est une réponse purement numérique, il s’agit de transformer
la matrice
en une matrice (
) où k est une constante choisie arbitrairement qui et I la
matrice unité.
Face à ces artifices de calcul, la seule parade vraiment efficace consiste, lors de la spécification du modèle, à
éliminer les séries explicatives susceptibles de représenter les mêmes phénomènes et donc d’être corrélées
entre elles, ceci afin d’éviter l’effet masque ************.
VI.4. Normalité des erreurs
A. Problème
Le problème d’absence de normalité se pose lorsque l’hypothèse ut
(0,
) est violée. A titre de rappel,
l’hypothèse de normalité, émise lors de la présentation de la méthode OLS, est la clé de l’inférence
statistique. Elle est donc nécessaire pour mener les tests statistiques et construire les intervalles de
confiance. Sa violation ne touche pas le caractère non biaisé des paramètres mais rend l’inférence, dans le
modèle linéaire, impossible car les distributions des estimateurs ne sont plus connues.
B. Tests de détection
Les tests de normalité ont été rigoureusement présentés dans la partie introductive de ce recueil portant
sur les rappels statistiques, le lecteur est donc convié { s’y rapporter.
C. Remèdes à la non-normalité des résidus
Le meilleur remède à la non-normalité des résidus est d’agrandir la taille de l’échantillon. La transformation
de Box – Cox, sur les variables non normales intervenant dans le modèle, est souvent aussi indiquée.
************
Bourbonnais (2005).
Ass. Cédrick Tombola M.
90
Exercices sur le chapitre 6
Exercice 1
Soit le modèle ci-après :
Yt = β0 + β1X1t + β2X2t + εt
(t= 1, …, n) et n=30
où
En l’estimant par OLS, on a obtenu
=0,52 et
=0,28. On aussi calculé la statistique de Durbin-Watson :
d=DW=0,78.
a) Effectuer, au seuil de 5%, le test d’hypothèse β2=0.
b) Que faut-il penser de l’hypothèse de non autocorrélation des résidus ?
Exercice 2
En cherchant { expliquer le phénomène réussite en économétrie, en 2012, l’assistant Dandy Matata a
spécifié le modèle suivant :
Yi = β0 + β1X1i + β2X2i + εi
où Yi est la cote obtenue en économétrie par l’étudiant i ; X1i est la présence au cours d’économétrie et X2i le
nombre d’heures d’études consacrées { ce cours.
15 étudiants ont été échantillonnés. L’estimation a permis de calculer la statistique DW = 0.4.
Tester l’autocorrélation du premier ordre dans le modèle spécifié par l’assistant Matata.
Exercice 3
Soit l’échantillon de taille n=5 :
Yt
8
2
6
0
4
∑Yt=20
X1t
3
1
3
1
2
∑ X1t=10
X2t
6
2
6
2
4
∑ X2t=20
(a) Quel est le problème posé par l’estimation du modèle :
Yt = a + bX1t + dX2t + ut
(b) Comment peut-on le résoudre ?
Exercice 4
Au regard des résultats ci-après, sur l’estimation de l’hypothèse de Kuznet en RDC pour la période allant de
1975 à 2011, quel problème, selon vous, s’est posé dans l’estimation de cette relation ? Par quoi le voyezvous ?
Ass. Cédrick Tombola M.
Variable endogène : IGI
Méthode d’estimation : Moindres carrés ordinaires
Variables explicatives
Coefficients
Constante
0.453311
PIBH
0.000813
2
PIBH
- 0.00000426
R2 = 0.891141
R2 ajusté = 0.873561
t- statistic
0.784894
0.268563
- 0.772470
91
Probabilité critique
0.4417
0.7910
0.4489
F – stat. = 114.9272
où IGI est le coefficient d’inégalité de GINI et PIBH le PIB réel par habitant.
Exercice 5
Le tableau ci-dessous reporte les résultats du test de White, après estimation de la relation entre coefficient
d’inégalité de GINI (IGI) et le PIB réel par habitant (PIBH) en RDC.
White Heteroskedasticity Test:
F-statistic
Obs*R-squared
6.482164
Probability
0.004122
10.21371
Probability
0.006055
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 06/25/12 Time: 15:46
Sample: 1975 2011
Included observations: 37
Variable
Coefficient
Std. Error
t-Statistic
Prob.
C
-18.82177
41.99457
-0.448195
0.6569
LPIB
1.623484
3.731230
0.435107
0.6662
LPIB^2
-0.034949
0.082874
-0.421711
0.6759
R-squared
0.276046
Mean dependent var
0.014520
Adjusted R-squared
0.233461
S.D. dependent var
0.019998
S.E. of regression
0.017509
Akaike info criterion
-5.174612
Sum squared resid
0.010423
Schwarz criterion
Log likelihood
98.73032
F-statistic
6.482164
Durbin-Watson stat
0.214247
Prob(F-statistic)
0.004122
-5.043997
Travail demandé :
Après avoir rappelé les principales caractéristiques de ce test (hypothèses nulle et alternative, principe
général du test, règle de décision), commenter les résultats. Conclure quant à la nature des résidus.
Rappel : la valeur critique de la loi du Khi-deux à 2 degrés de liberté et au seuil de 5% est égale à 5,991.
92
Ass. Cédrick Tombola M.
ANNEXES
ANNEXE 1 : TABLES STATISTIQUES
Test de Shapiro et Wilk [table des coefficients]
n
J
1
2
3
4
5
n
J
1
2
3
4
5
6
7
8
9
10
n
J
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
2
3
4
5
6
7
8
9
10
0.7071
0.7071
0.0000
0.6872
0.1677
0.6646
0.2413
0.0000
0.6431
0.2806
0.0875
0.6233
0.3031
0.1401
0.0000
0.6052
0.3164
0.1743
0.0561
0.5888
0.3244
0.1976
0.0947
0.0000
0.5739
0.3291
0.2141
0.1224
0.0399
11
12
13
14
15
16
17
18
19
20
0.5601
0.3315
0.2260
0.1429
0.0695
0.0000
0.5475
0.3325
0.2347
0.1586
0.0922
0.0303
0.5359
0.3325
0.2412
0.1707
0.1099
0.0539
0.0000
0.5251
0.3318
0.2460
0.1802
0.1240
0.0727
0.0240
0.5150
0.3306
0.2495
0.1878
0.1353
0.0880
0.0433
0.0000
0.5056
0.3290
0.2521
0.1939
0.1447
0.1005
0.0593
0.0196
0.4963
0.3273
0.2540
0.1988
0.1524
0.1109
0.0725
0.0359
0.0000
0.4886
0.3253
0.2553
0.2027
0.1587
0.1197
0.0837
0.0496
0.0163
0.4808
0.3232
0.2561
0.2059
0.1641
0.1271
0.0932
0.0612
0.0303
0.0000
0.4734
0.3211
0.2565
0.2085
0.1686
0.1334
0.1013
0.0711
0.0422
0.0140
21
22
23
24
25
26
27
28
29
30
0.4643
0.3185
0.2578
0.2119
0.1736
0.1399
0.1092
0.0804
0.0530
0.0263
0.0000
0.4590
0.3156
0.2571
0.2131
0.1764
0.1443
0.1150
0.0878
0.0618
0.0368
0.0122
0.4542
0.3126
0.2563
0.2139
0.1787
0.1480
0.1201
0.0941
0.0696
0.0459
0.0228
0.0000
0.4493
0.3098
0.2554
0.2145
0.1807
0.1512
0.1245
0.0997
0.0764
0.0539
0.0321
0.0107
0.4450
0.3069
0.2543
0.2148
0.1822
0.1539
0.1283
0.1046
0.0823
0.0610
0.0403
0.0200
0.0000
0.4407
0.3043
0.2533
0.2151
0.1836
0.1563
0.1316
0.1089
0.0876
0.0672
0.0476
0.0284
0.0094
0.4366
0.3018
0.2522
0.2152
0.1848
0.1584
0.1346
0.1128
0.0923
0.0728
0.0540
0.0358
0.0178
0.0000
0.4328
0.2992
0.2510
0.2151
0.1857
0.1601
0.1372
0.1162
0.0965
0.0778
0.0598
0.0424
0.0253
0.0084
0.4291
0.2968
0.2499
0.2150
0.1064
0.1616
0.1395
0.1192
0.1002
0.0822
0.0650
0.0483
0.0320
0.0159
0.0000
0.4254
0.2944
0.2487
0.2148
0.1870
0.1630
0.1415
0.1219
0.1036
0.0862
0.0697
0.0537
0.0381
0.0227
0.0076
Ass. Cédrick Tombola M.
Test de Shapiro et Wilk [Table des valeurs limites de W]
N
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
W ‘95%’
0.842
0.850
0.859
0.856
0.874
0.881
0.837
0.892
0.897
0.901
0.905
0.908
0.911
0.914
0.916
0.918
0.920
0.923
0.924
0.926
0.927
0.929
0.930
0.931
0.933
0.934
0.935
0.936
0.938
0.939
0.940
0.941
0.942
0.943
0.944
0.945
0.945
0.946
0.947
0.947
0.947
W ‘99%’
0.781
0.792
0.805
0.814
0.825
0.835
0.844
0.851
0.858
0.863
0.868
0.873
0.878
0.881
0.884
0.888
0.891
0.894
0.896
0.898
0.900
0.902
0.904
0.906
0.908
0.910
0.912
0.914
0.916
0.917
0.919
0.920
0.922
0.923
0.924
0.926
0.927
0.928
0.929
0.929
0.930
93
94
Ass. Cédrick Tombola M.
Table de distribution de la loi T de Student [Test bilatéral]
(Valeurs de T ayant la probabilité P d'être dépassée en valeur absolue)
Pr
ddl
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
80
120
∞
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0.05
0.02
0.01
0.001
0.158
0.142
0.137
0.134
0.132
0.131
0.130
0.130
0.129
0.129
0.129
0.128
0.128
0.128
0.128
0.128
0.128
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.137
0.127
0.127
0.127
0.126
0.126
0.126
0.126
0.325
0.289
0.277
0.271
0.267
0.265
0.263
0.262
0.261
0.260
0.260
0.259
0.259
0.258
0.258
0.258
0.257
0.257
0.257
0.257
0.257
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.255
0.254
0.254
0.253
0.510
0.445
0.424
0.414
0.408
0.404
0.402
0.399
0.398
0.397
0.396
0.395
0.394
0.393
0.393
0.392
0.392
0.392
0.391
0.391
0.391
0.390
0.390
0.390
0.390
0.390
0.389
0.389
0.389
0.389
0.388
0.387
0.386
0.385
0.727
0.617
0.584
0.569
0.559
0.553
0.549
0.546
0.543
0.542
0.540
0.539
0.538
0 537
0.536
0.535
0.534
0.534
0.533
0.533
0.532
0.532
0.532
0.531
0.531
0.531
0.531
0.530
0 530
0.530
0.529
0.527
0.526
0.524
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.697
0.695
0.694
0.692
0.691
0.690
0.689
0.688
0 688
0.687
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
0.681
0.679
0.677
0.674
1.376
1.061
0.978
0.941
0.920
0.906
0.896
0.889
0.883
0.879
0.876
0.873
0.870
0.868
0.866
0.865
0.863
0.862
0.961
0.860
0.859
0.858
0.858
0.857
0.856
0.856
0.855
0.855
0.854
0.854
0.851
0.848
0.845
0.842
1.963
1.386
1.250
1.190
1.156
1.134
1.119
1.108
1.100
1.093
1.088
1.083
1.079
1.076
1.074
1.071
1.069
1.067
1.066
1.064
1.063
1.061
1.060
1.059
1.058
1.058
1.057
1.056
1.055
1.055
1.050
1.046
1.041
1.036
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.303
1.296
1.289
1.282
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.684
1.671
1.658
1.645
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.263
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.021
2.000
1.980
1.960
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.423
2.390
2.358
2.326
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.704
2.660
2.617
2.576
636.619
31.598
12.929
8.610
6.869
5.959
5.408
5.041
4.781
4.587
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
3.850
3.819
3.792
3.767
3.745
3.725
3.707
3.690
3.674
3.649
3.656
3.551
3.460
3.373
3.291
Ass. Cédrick Tombola M.
95
Table de distribution de la loi F de Fisher-Snedecor
(Valeurs de F ayant la probabilité α d'être dépassées : F = S12/S22)
Nu2
1
2
3
4
3
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
∞

Nu1 = 1
α = 0.05 α = 0.01
161.4
4052.00
18.51
98.49
10.13
34.12
7.71
21.20
6.61
16.26
3.99
13.74
3.39
12.23
3.32
11.26
5.12
10.56
4.96
10.04
4.84
9.65
4.75
9.33
4.67
9.07
4.60
8.86
4.34
8.68
4.49
8.53
4.45
8.40
4.41
8.28
4.38
8.18
4.35
8.10
4.32
8.02
4.30
7.94
4.28
7.88
4.26
7.82
4.24
7.77
4.22
7.72
4.21
7.68
4.20
7.64
4.18
7.60
4.17
7.56
4.08
7.31
4.00
7.08
3.92
6.85
3.84
6.64
Nu1 = 2
α = 0.05
α = 0.01
199.5
4999.00
19.00
99.00
9.55
30.81
6.94
18.00
5.79
13.27
3.14
10.91
4.74
9.35
4.46
8.63
4.26
8.02
4.10
7.56
3.98
7.20
3.88
6.93
3.80
6.70
3.74
6.31
3.68
6.36
3.63
6.23
3.59
6.11
3.53
6.01
3.52
5.93
3.49
5.85
3.47
5.78
3.44
5.72
3.42
5.66
3.40
5.61
3.38
5.37
3.37
5.33
3.33
5.49
3.34
5.43
3.33
5.42
3.32
5.39
3.23
5.18
3.15
4.98
3.07
4.79
2.99
4.60
Nu1 = 3
α = 0.05 α = 0.01
213.7
3403.00
19.16
99.17
9.28
29.46
6.59
16.69
5.41
12.06
4.76
9.78
4.33
8.43
4.07
7.39
3.86
6.99
3.71
6.33
3.59
6.22
3.49
5.93
3.41
5.74
3.34
5.56
3.29
5.42
3.24
5.29
3.20
5.18
3.16
5.09
3.13
5.01
3.10
4.94
3.07
4.87
3.05
4.82
3.03
4.76
3.01
4.72
2.99
4.68
2.98
4.64
2.96
4.60
2.95
4.57
2.93
4.34
2.92
4.31
2.84
4.31
2.76
4.13
2.68
3.93
2.60
3.78
Nu1 = 4
α = 0.05
α = 0.01
224.6
5625.00
19.25
99.25
9.12
28.71
6.39
13.98
5.19
11.39
4.53
9.13
4.12
7.85
3.84
7.01
3.63
6.42
3.48
5.99
3.36
5.67
3.26
5.41
3.18
5.20
3.11
5.03
3.06
4.89
3.01
4.77
2.96
4.67
2.93
4.58
2.90
4.50
2.87
4.43
2.84
4.37
2.82
4.31
2.80
4.26
2.78
4.22
2.76
4.18
2.74
4.14
2.73
4.11
2.71
4.07
2.70
4.04
2.69
4.02
2.61
3.83
2.32
3.65
2.43
3.48
2.37
3.32
Nu1 = 5
α = 0.05 α = 0.01
230.2
5764.00
19.30
99.30
9.01
28.24
6.26
13.32
5.03
10.97
4.39
8.75
3.97
7.45
3.69
6.63
3.48
6.06
3.33
5.64
3.20
5.32
3.11
5.06
3.02
4.86
2.96
4.69
2.90
4.56
2.85
4.44
2.81
4.34
2.77
4.25
2.74
4.17
2.71
4.10
2.68
4.04
2.66
3.99
2.64
3.94
2.62
3.90
2.60
3.86
2.39
3.82
2.37
3.78
2.56
3.75
2.34
3.73
2.53
3.70
2.43
3.31
2.37
3.34
2.29
3.17
2.21
3.02
S12 est la plus grande des deux variances estimées. avec n degrés de liberté au numérateur.
96
Ass. Cédrick Tombola M.
Table de Durbin-Watson
La table donne les limites inférieures et supérieures des seuils de signification du test de Durbin et Watson pour α = 5 %.
2
0
Autocorrélation
positive
Absence
d’autocorrélation
DOUTE
dL
4
du
Autocorrélation
négative
DOUTE
4-du
4-dL
k=1
k=2
k=3
k=4
k=5
n
dL
du
dL
du
dL
du
dL
du
dL
du
15
1.08
1.36 0.95 1.54 0.82 1.75 0.69 1.97 0.56 2.21
16
1.10
1.37 0.98 1.54 0.86 1.73 0.74 1.93 0.62 2.15
17
1.13
1.38
1.02
1.54 0.90 1.71
0.78
1.91 0.67 2.10
18
1.16
1.39
1.05
1.53 0.93 1.69 0.82 1.87
0.71 2.06
19
1.18
1.40 1.08
1.53 0.97 1.68 0.86 1.85 0.75 2.02
20
1.20
1.41
1.10
1.54 1.00 1.68 0.90 1.83 0.79 1.99
21
1.22
1.42
1.13
1.54
1.03
1.67 0.93 1.81 0.83 1.96
22
1.24
1.43
1.15
1.54
1.05 1.66 0.96 1.80 0.86 1.94
23
1.26
1.44
1.17
1.54 1.08 1.66 0.99 1.79 0.90 1.92
24
1.27
1.45
1.19
1.55
1.10
1.66
1.01
1.78 0.93 1.90
25
1.29
1.45
1.21
1.55
1.12
1.66 1.04
1.77 0.95 1.89
26
1.30
1.46
1.22
1.55
1.14
1.65 1.06 1.76 0.98 1.88
27
1.32
1.47
1.24
1.56
1.16
1.65 1.08 1.76
1.01
1.86
28
1.33
1.48 1.26
1.56
1.18
1.65
1.10
1.75
1.03
1.85
29
1.34
1.48
1.27
1.56
1.20
1.65
1.12
1.74
1.05
1.84
30
1.35
1.49 1.28
1.57
1.21
1.65
1.14
1.74
1.07
1.83
31
1.36
1.50
1.30
1.57
1.23
1.65
1.16
1.74
1.09 1.83
32
1.37
1.50
1.31
1.57
1.24
1.65
1.18
1.73
1.11
1.82
33
1.38
1.51
1.32
1.58
1.26
1.65
1.19
1.73
1.13
1.81
34
1.39
1.51
1.33
1.58
1.27
1.65
1.21
1.73
1.15
1.81
35
1.40
1.52
1.34
1.58
1.28
1.65
1.22
1.73
1.16
1.80
36
1.41
1.52
1.35
1.59
1.29
1.65
1.24
1.73
1.18
1.80
37
1.42
1.53
1.36
1.59
1.31
1.66
1.25
1.72
1.19
1.80
38
1.43
1.54
1.37
1.59
1.32
1.66 1.26
1.72
1.21
1.79
39
1.43
1.54
1.38 1.60
1.33
1.66
1.27
1.72
1.22
1.79
40
1.44
1.54
1.39 1.60 1.34
1.66 1.29
1.72
1.23
1.79
45
1.48
1.57
1.43
1.62
1.38
1.67
1.34
1.72
1.29
1.78
50
1.50
1.59 1.46 1.63
1.42
1.67
1.38
1.72
1.34
1.77
55
1.53
1.60 1.49 1.64 1.45 1.68
1.41
1.72
1.38
1.77
60
1.55
1.62
1.51
1.65 1.48 1.69 1.44
1.73
1.41
1.77
65
1.57
1.63
1.54 1.66 1.50
1.70
1.47
1.73
1.44
1.77
70
1.58
1.64
1.55
1.67
1.52
1.70
1.49 1.74
1.46
1.77
75
1.60
1.65
1.57
1.68 1.54
1.71
1.51
1.74
1.49
1.77
80
1.61
1.66 1.59 1.69 1.56
1.72
1.53
1.74
1.51
1.77
85
1.62
1.67 1.60 1.70
1.57
1.72
1.55
1.75
1.52
1.77
90
1.63
1.68
1.61
1.70
1.59
1.73
1.57
1.75
1.54
1.78
95
1.64
1.69 1.62
1.71
1.60
1.73
1.58
1.75
1.56
1.78
100 1.65
1.69 1.63
1.72
1.61
1.74
1.59
1.76
1.57
1.78

k : nombre de variables exogènes; n : nombre d’observations et α = 0.05.
Ass. Cédrick Tombola M.
Table de Durbin-Watson
La table donne les limites inférieures et supérieures des seuils de signification du test de Durbin et Watson pour α = 1 %.
2
0
Autocorrélation
positive
n
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
45
50
55
60
65
70
75
80
85
90
95
100
Absence
d’autocorrélation
DOUTE
dL
4
du
Autocorrélation
négative
DOUTE
4-du
4-dL
k=1
k=2
k=3
k=4
k=5
dL
du
dL
du
dL
du
dL
du
dL
du
0.81
1.07 0.70 1.25 0.59 1.46 0.49 1.70 0.39 1.96
0.84
1.09 0.74 1.25 0.63 1.44 0.53 1.66 0.44 1.90
0.87
1.10
0.77 1.25 0.67 1.43 0.57 1.63 0.48 1.85
0.90
1.12 0.80 1.26
0.71
1.42 0.61 1.60 0.52 1.80
0.93
1.13
0.83 1.26 0.74
1.41 0.65 1.58 0.56 1.77
0.95
1.15 0.86 1.27
0.77
1.41 0.68 1.57 0.60 1.74
0.97
1.16 0.89 1.27 0.80 1.41
0.72 1.55 0.63
1.71
1.00
1.17
0.91 1.28 0.83 1.40 0.75 1.54 0.66 1.69
1.02
1.19 0.94 1.29 0.86 1.40 0.77
1.53 0.70 1.67
1.04
1.20 0.96 1.30 0.88 1.41 0.80 1.53
0.72 1.66
1.05
1.21 0.98 1.30 0.90 1.41 0.83 1.52
0.75 1.65
1.07
1.22
1.00
1.31
0.93 1.41 0.85 1.52 0.78 1.64
1.09
1.23
1.02
1.32 0.95 1.41 0.88 1.51
0.81 1.63
1.10
1.24
1.04
1.32 0.97 1.41 0.90 1.51
0.83 1.62
1.12
1.25
1.05
1.33 0.99 1.42 0.92
1.51
0.85 1.61
1.13
1.26
1.07
1.34
1.01
1.42 0.94 1.51 0.88 1.61
1.15
1.27
1.08 1.34
1.02
1.42 0.96 1.51 0.90 1.60
1.16
1.28
1.10
1.35
1.04 1.43 0.98 1.51
0.92 1.60
1.17
1.29
1.11
1.36
1.05
1.43 1.00
1.51 0.94 1.59
1.18
1.30
1.13
1.36
1.07
1.43
1.01
1.51
0.95 1.59
1.19
1.31
1.14
1.37
1.08 1.44 1.03
1.51
0.97 1.59
1.21
1.32
1.15
1.38
1.10
1.44 1.04
1.51 0.99 1.59
1.22
1.32
1.16
1.38
1.11
1.45 1.06
1.51
1.00 1.59
1.23
1.33
1.18
1.39
1.12
1.45
1.07
1.52
1.02
1.58
1.24
1.34
1.19
1.39
1.14
1.45 1.09
1.52
1.03
1.58
1.25
1.34
1.20
1.40
1.15
1.46
1.10
1.52
1.05
1.58
1.29
1.38
1.24
1.42
1.20
1.48
1.16
1.53
1.11
1.58
1.32
1.40 1.28
1.45
1.24
1.49 1.20
1.54
1.16
1.59
1.36
1.43
1.32
1.47
1.28
1.51
1.25
1.55
1.21
1.59
1.38
1.45
1.35
1.48
1.32
1.52
1.28
1.56
1.25
1.60
1.41
1.47
1.38
1.50
1.35
1.53
1.31
1.57
1.28
1.61
1.43
1.49 1.40
1.52
1.37
1.55
1.34
1.58
1.31
1.61
1.45
1.50
1.42
1.53
1.39
1.56
1.37
1.59
1.34
1.62
1.47
1.52
1.44
1.54
1.42
1.57
1.39 1.60 1.36
1.62
1.48
1.53
1.46
1.55
1.43
1.58
1.41
1.60 1.39
1.63
1.50
1.54
1.47
1.56
1.45
1.59
1.43
1.61
1.41
1.64
1.51
1.55
1.49
1.57
1.47
1.60 1.45
1.62
1.42
1.64
1.52
1.56
1.50
1.58
1.48 1.60 1.46 1.63
1.44 1.65

k : nombre de variables exogènes; n : nombre d’observations et α = 0.01.
97
Ass. Cédrick Tombola M.
98
ANNEXE 2 : INITIATION AU LOGICIEL ECONOMETRIQUE EVIEWS
Les machines un jour pourront résoudre tous les problèmes, mais jamais aucune d'entre elles ne pourra en poser un !
Albert Einstein
Lancement de l’écran d’accueil Eviews
Une fois installé, le logiciel Eviews est lancé comme tout autre en double-cliquant sur l’icône Eviews au
bureau.
Barre de menu
Voici comment se présente Eviews au lancement :
Barre de commande
Création d’une feuille de travail [workfile]
Le travail sur Eviews commence par la création d’une feuille de travail où l’on spécifie essentiellement la
fréquence des données [annuelles, trimestrielles, mensuelles, etc.], leur nature [régulières, irrégulière,
panel] et la taille de l’échantillon. Cette opération peut se faire de deux manières :
(a) Dans la barre de menu, aller dans File
New
Une boîte de dialogue s’ouvre où il faut distinguer trois zones.
Workfile
Ici, préciser la fréquence des données et la
taille de l’échantillon. Cette zone change selon
que les données sont régulières [pour séries
temporelles], irrégulières [pour séries en
coupes transversales] ou en panel.
Dans cette zone, donner un nom à la feuille
de travail créée. Comme sur Excel, Eviews
donne également la possibilité de travailler
sur plusieurs pages. Dans page on peut les
particulariser en tapant un nom.
Ici, préciser si les données sont régulières,
irrégulières ou en panel]
Ass. Cédrick Tombola M.
99
Supposons que l’on ait une série temporelle annuelle, qui va de 2000 à 2010. Il suffira de choisir :
-
Dated regular frenquency dans l’onglet Workfile structure type
Annual dans l’ongle Frenquency
-
Puis préciser la taille de l’échantillon dans Start date et End date.
Enfin, on peut nommer cette workfile [ECOMATH par exemple], et cette première page [EXERCICE par
exemple] :
En cliquant sur OK, la feuille de travail est créée.
(b) Dans la barre de commande, saisir la commande create a 2000 2010
Note : Eviews n’est pas sensible à la casse !
Création des variables et saisie des données dans Eviews
Considérons, pour la période 2000-2010, les statistiques sur le taux de croissance du PIB [notée TCPIB]
et le taux de chômage [notée CHOM], produites par la BCC.
Pour créer les deux séries, dans la barre de commande, on saisit la commande data TCPIB CHOM puis
Enter.
Une fois les deux séries créées, on peut soit :
-
saisir les données comme on le ferait sur Excel
si les données sont saisies sur Excel, les copier-coller, série par série [après avoir pris soin de
remplacer toutes les virgules éventuelles par des points]
importer les données à partir d’Excel dans Eviews
A partir d’Excel, importation des données dans Eviews
Suivre les étapes ci-après :
1. Enregistrer les données saisies sur Excel sous Excel 97-2003, en ayant en mémoire juste les noms
donnés aux séries, puis fermer le fichier ;
2. Dans Eviews, créer une feuille de travail avec la même taille d’échantillon que les données
enregistrées sur Excel. Puis créer les variables avec les mêmes noms que sur Excel.
Import
Read Text-Lotus-Excel… Une boîte
de dialogue apparaît où il faut reprendre le nom du fichier Excel. Rechercher le fichier où il a été
enregistré, puis le sélectionner. Dans Types de fichiers, choisir Excel (*.xls), puis valider.
4. Une nouvelle boîte de dialogue apparaît. Là, dans Names of series or number if named in file, taper
les noms des séries dans le même ordre que sur Excel, puis OK.
3. Dans la barre de Menu Eviews, aller dans File
Ass. Cédrick Tombola M.
100
Illustration de l’étape 3
Illustration de l’étape 4
En validant, Eviews importe automatiquement toutes les données à partir d’Excel.
Statistique descriptive des données et graphiques
En un clic, Eviews peut également fournir les paramètres essentiels de position, de dispersion et de
forme d’une série. Ce qui permet par exemple, pour grand échantillon, de trancher sur la conformité
d’une distribution à la loi normale à partir de la statistique de Jarque – Bera.
Pour avoir ces informations, aller dans la barre de commande Eviews et saisir la commande stats TCPIB
CHOM puis Enter [la commande est stats suivi du (des) nom(s) de(s) la variable(s)].
Pour les deux séries de notre exemple, on obtient :
Ass. Cédrick Tombola M.
101
On lit par exemple, pour chaque série, sa Moyenne [Mean], sa Médiane [Median], son Maximum, son
Minimum, son Ecart-Type [Std. Dev.], son coefficient d’asymétrie [Skewness], son coefficient
d’aplatissement [Kurtosis], sa statistique Jarque – Bera, etc
De même, il y a lieu d’avoir les mêmes résultats, dans la barre de commande, saisir la commande show
TCPIB CHOM puis valider, dans la fenêtre qui s’ouvre, aller dans View
Descriptive Stats
Common Sample.
Graphiques
Dans la barre de commande, saisir les commandes :


scat TCPIB CHOM [pour un nuage des points]
line TCPIB CHOM [pour avoir des lignes]
Pour avoir d’autres types de graphiques proposés par Eviews, dans la fenêtre des données, aller dans
View
Graph. Puis valider le graphique de son choix.
Estimation du coefficient des coefficients de corrélation de Bravais – Pearson et de Spearman
Après avoir affiché les deux variables que l’on veut mettre en cause, il suffit d’aller dans View
Covariance Analysis. En validant, Eviews renvoie une boîte, où on a la possibilité de choisir soit un
coefficient paramétrique (Bravais-Pearson) ou non paramétrique (Spearman) :
Ass. Cédrick Tombola M.
102
Si on choisit par exemple ordinary [corrélation paramétrique, Bravais-Pearson], on obtient :
Covariance Analysis: Ordinary
Date: 06/21/12 Time: 04:18
Sample: 1 11
Included observations: 11
TCPIB
CHOM
CHOM
TCPIB
TCPIB
CHOM
Correlation
t-Statistic
Probability
Observ.
1.000000
-0.677304
1.000000
-----2.761860
-----
----0.0220
-----
11
11
11
Eviews renvoie le coefficient, son Student et la probabilité critique, ce qui facilite beaucoup
l’interprétation des résultats, avec comme critère : rejeter H0 si probabilité critique < au seuil de
signification.
Dans cet exemple, on observe une relation inverse significative entre le taux de taux de chômage et la
croissance du PIB en RDC, pour la période 2000-2010, la loi d’Okun se vérifie-t-elle ?
Estimation par OLS du modèle linéaire et tests
Pour estimer par OLS, il suffit d’aller dans Quick
Estimate Equation, puis entrer les variables, séparées
par des espaces, dans l’ordre apparaissant dans le modèle à estimer, en notant le terme constant par la
lettre C, choisir ensuite la méthode d’estimation – pour notre cas LS ou Least squares – et valider.
Le même résultat peut être aussi obtenu en saisissant, sur la barre de commande Eviews, la commande
LS suivi de nom de la variable endogène C noms des variables exogènes séparées deux à deux par un
espace
Pour estimer un modèle sans terme constant, il suffit de retirer C dans la commande à passer.
Tests
Après avoir lancé la commande d’estimation par OLS, tous les tests portant sur les résidus figurent dans
l’onglet Residuals Tests.
103
Ass. Cédrick Tombola M.
ANNEXE 3 : UN MOT SUR LES TESTS DE RACINE UNITAIRE ADF ET PHILLIPS-PERRON
Laboratoire d’Analyse – Recherche en Economie Quantitative
One pager
Avril 2012
Numéro-010
Lien : http://www.lareq.com
Processus stochastique et absence de trend
Une interprétation prudente et plus attentive
Cédrick Tombola Muke
"Dieu ne joue pas aux dés"
Albert Einstein
Avertissement
Ce papier est écrit dans l’objectif de mettre en garde contre le risque des conclusions erronées lors des
tests Augmented Dickey Fuller (ADF) et Phillips-Perron (PP). Il est écrit au moment où, parmi la plupart
de nos étudiants du niveau de la licence, la mauvaise procédure et la mauvaise interprétation de ces
tests ont gagné le terrain.
L’objet de notre papier repose sur le fait que nombre d’économètres en herbe, en menant ces tests,
oublient que ceux-ci considèrent que la composante déterministe suit une tendance linéaire et qu’un
processus DS (stationnaire en dème différence) n’exclut pas la possibilité d’un trend d’un autre type.
De plus, ironie du sort, on ne pense à détecter la nature du trend que si les tests concluent à une non –
stationnarité déterministe et qu’il convient d’appliquer l’écart à la tendance. Ce qui, curieusement,
revient à accepter la possibilité d’avoir un trend de type non linéaire dont on ne s’est pas donné la peine
de détecter au début du test.
Que faire ? Ce papier se propose de répondre, prudemment, à cette question, d’abord en privilégiant les
aspects théoriques, ensuite en considérant une étude des cas qui permet de mettre en exergue la
problématique soulevée ci-dessus.
I.
Processus non stationnaire
A titre de rappel, un processus est stationnaire, au sens faible, si ses moments d’ordre 1 et d’ordre 2
sont indépendants du temps. Dans le cas contraire, il est dit non – stationnaire. Pour ce dernier type de
chroniques, l’une au moins de trois conditions ci-après est violée :
(i)
E(Yt) = μ
(ii)
E(
(iii)
Cov (Yt, Yt+k) = γk ou γ-k
)=
Les travaux pionniers de Nelson et Plosser (1982), qui ont souligné la présence d’une racine unitaire dans
les principales séries macroéconomiques, distinguent en effet deux types de processus dans la famille
des processus non – stationnaires :
Ass. Cédrick Tombola M.

104
Les processus TS [Trend Stationary] qui s’expriment comme une fonction du temps et d’un bruit
blanc :
Yt = f(t) + Zt
où Zt est un bruit blanc [white noise]
Ce type de processus est rendu stationnaire en lui retirant sa tendance déterministe [Zt = Yt - f(t)].

Les processus DS [Differency Stationary] qui sont caractérisés par la présence d’au moins une
racine unitaire. De tels processus sont rendus stationnaires après d différences, (1 – B)dYt.
D’un point de vue économique, un processus TS implique que les chocs aléatoires frappant l’économie
n’auront qu’un effet transitoire sur l’évolution de la chronique qui aura tendance ensuite à revenir sur son
trend de long terme stable. En revanche, les chocs frappant l’économie auront un effet persistant et
durable sur l’évolution de la chronique si le processus est DS.
II.
Tests de non – stationnarité
Le but et l’avantage des tests de non – stationnarité consistent en la confirmation ou non de la non
stationnarité46, en la détermination du type de processus et en la précision de la bonne méthode de
stationnarisation.
On fait généralement deux catégorisations de ces tests, synthétisées dans le tableau ci-après.
Tableau 1. Catégorisation de tests de non stationnarité
Catégorisation quant aux hypothèses testées
Tests d’H0 de présence de racine unitaire
- Test Dickey – Fuller [DF]
Tests d’H0 d’absence de racine unitaire
- Test de Kwiatkowski – Phillips – Schmidt – Shin
- Test Augmented Dickey – Fuller [ADF]
[KPSS]
- Test de Phillips – Perron [PP]
- Test de Ng – Perron
- Etc.
Catégorisation portant sur le type de trend pris en compte
Tests basés sur une tendance linéaire
Tests basés sur une tendance non linéaire
- Test DF
- Tendance polynomiale : Test de Ouliaris, Park et
- Test ADF
Phillips
- Test PP
- Tendance linéaire par morceaux et chocs : test
- Test de Ng – Perron
de Perron
- Test KPSS
- Etc.
La critique que nous formulons dans ce papier concerne essentiellement l’interprétation des résultats de
tests ADF et PP.
46
En effet, un examen graphique est parfois assez éloquent pour se prononcer sur la non – stationnarité d’une
chronique.
105
Ass. Cédrick Tombola M.
Tests ADF et PP : la composante déterministe suit une tendance linéaire
Dickey et Fuller (1976) sont les premiers à avoir fourni un ensemble d’outils statistiques formels pour
détecter la non – stationnarité dans un processus autorégressif du premier ordre. Dans leurs premiers
développements, ils ont assumé que le processus εt était un bruit blanc, or rien, à priori, ne conduit à la
satisfaction d’une telle hypothèse. La prise en compte de cette faiblesse a conduit les deux auteurs à
proposer, en 1981, un test augmenté (ADF).
Le test de Phillips - Perron47, en revanche, propose une correction non paramétrique des tests de Dickey
– Fuller afin de tenir compte des erreurs hétéroscédastiques.
La procédure des tests ADF et PP est basée sur l’estimation, par les MCO, de trois modèles
autorégressifs, en intégrant tous les retards significatifs en différences premières, suivants :
[1]
∆Yt = ρYt-1 +
+ εt
[2]
∆Yt = c + ρYt-1 +
[3]
∆Yt = c + bt + ρYt-1 +
+ εt
+ εt
Le modèle [3] est le modèle général où la composante déterministe suit un trend linéaire (t). Rappelons
que les tests ADF et PP sont des tests d’hypothèse nulle de présence de racine unitaire et portent sur le
paramètre ρ :
H0 : ρ = 0
[non stationnarité ou présence de racine unitaire]
H1 : ρ < 0
[stationnarité ou absence de racine unitaire]
La procédure du test est la suivante.
Tableau 2. Procédure du test de non stationnarité
Modèle à
Conclusion du test
estimer
1. Estimer le
modèle [3]
Tester b
Processus
Il y a un trend linéaire
TS
Méthode de
stationnarisation
Ecart à la tendance
Il n’y a pas un trend linéaire
.
2. Estimer le
Significatif
Tester ρ
modèle [2]
Tester c
Non RH0
DS avec dérive
RH0
stationnaire
Non RH0
DS sans dérive
RH0
stationnaire
Filtre aux différences
Non significatif
.
3. Estimer le modèle [1]
Tester ρ
Filtre aux différences
Comme il ressort du tableau, un processus TS signifie simplement l’absence d’une composante
déterministe suivant un trend linéaire, un autre type de trend reste possible.
47
Proposé par Phillips (1987), Phillips et Perron (1988).
Ass. Cédrick Tombola M.
106
Non – stationnarité de nature mixte
Dans l’estimation du modèle [3], on dit qu’une chronique est caractérisée par une non – stationnarité de
nature mixte, si après tests de significativité des paramètres b et ρ, on conclut qu’il y a existence, à la
fois, d’un trend linéaire et d’une racine unitaire.
Pour ce dernier cas, on peut aisément appliquer le filtre aux différences pour stationnariser la série. En
effet, Dickey, Bell et Miller (1986) ont montré que si l’objectif poursuivi est la prévision, appliquer le filtre
aux différences en présence d’une non – stationnarité de nature mixte, est plus réconfortant qu’alarmant,
car dans ce cas, estiment ces auteurs, la différenciation élimine le trend linéaire.
En conclusion, lorsqu’on mène les tests ADF et PP, conclure sur un processus DS implique simplement
qu’on a récusé la présence d’une tendance linéaire dans la série. Il serait donc erroné de conclure,
brutalement, à l’absence d’un trend, oubliant que les tests menés sont eux-mêmes basés sur l’hypothèse
d’une tendance linéaire.
Figures 1. Quelques types de trend
Trend linéaire (t)
250
Trend quadratique (t2)
45000
40000
200
35000
30000
150
25000
20000
100
15000
10000
50
5000
1
13
25
37
49
61
73
85
97
109
121
133
145
157
169
181
193
0
1
13
25
37
49
61
73
85
97
109
121
133
145
157
169
181
193
0
Trend exponentiel (et)
8E+86
Trend logarithmique [Log(t)]
6
7E+86
5
6E+86
4
5E+86
4E+86
3
3E+86
2
2E+86
1
1E+86
0
1
13
25
37
49
61
73
85
97
109
121
133
145
157
169
181
193
1
12
23
34
45
56
67
78
89
100
111
122
133
144
155
166
177
188
199
0
107
Ass. Cédrick Tombola M.
III.
Etude des cas de l’indice des prix [rubrique alimentation] en RDC48
La série sera abrégée IP dans la suite de ce papier.
Figure 2. Analyse du plot de la série IP
900
800
700
600
500
400
300
200
100
0
00
01
02
03
04
05
06
07
08
09
IP
La série IP présente une tendance haussière. Elle semble non stationnaire affectée d’une tendance. Mais
de quel type ? Visiblement, d’un trend non linéaire.
Figure 3. Analyse du corrélogramme de la série IP
Ce corrélogramme fait état d’une décroissance lente de toutes les autocorrélations de IP. On constate
aussi que la première autocorrélation partielle est significativement différente de zéro. Ceci est indicatif
d’une série non stationnaire.
48
Les données sont reprises en annexe 1 et proviennent de la section économique de l’Ambassade Américaine. Elles
sont mensuelles et couvrent la période allant de 2000 à 2009.
108
Ass. Cédrick Tombola M.
Tests ADF et PP de la série IP en niveau
Les résultats de ces tests sont repris intégralement en annexe 2 de ce papier. Le nombre de retard,
retenu pour les deux tests, a été trouvé en appliquant la stratégie d’estimation séquentielle fondée sur
la significativité des coefficients des retards en différences premières, proposée par Perron (1993).
Alors que l’analyse du plot a indiqué que la série comportait un trend, les tests ADF et PP, synthétisés ciaprès, disent qu’il y a absence de trend. C’est donc ici qu’il faut éviter toute conclusion hâtive. Il n’y a
pas absence d’un trend dans la série IP, il y a plutôt absence d’un trend linéaire.
Tableau 3. Test ADF et PP de la série IP à niveau
Retard
Dérive
Trend
linéaire
0
Non
Non
IP
P-value
Statistique
ADF
En niveau
Statistique
PP
6.706690
8.150683
1.0000
1.0000
Valeur critique
[à 5%]
Conclusion
Non-stationnaire
Type stochastique
-1.943540
La série étant caractérisée par une non – stationnarité de nature stochastique (DS), il convient
d’appliquer le filtre aux différences pour la rendre stationnaire.
Tableau 4. Tests ADF et PP de la série IP en différences premières
IP
P-value
Statistique ADF
– 7.150804
0.0000
En différences premières
Statistique PP
Valeur critique [à 5%]
– 7.167671
-1.943563
0.0000
Conclusion
stationnaire
Figure 4. Plot de la série stationnaire, vraisemblablement en moyenne
80
60
40
20
0
-20
-40
-60
00
01
02
03
04
05
DIP
06
07
08
09

Documents pareils