Polycopié de cours (100p) : disponible à mi
Transcription
Polycopié de cours (100p) : disponible à mi
Econométrie F. Karamé Introduction 1 Qu’est-ce que l’économétrie ? 1.1 Définition Littéralement : c’est la mesure en économie. Mais un peu large car cela inclut alors toutes les définitions d’agrégats macro-économique de la comptabilité nationale. Une autre définition donnée par Maddala (un vénérable économètre) : « Il s’agit de l’ensemble des méthodes statistiques et mathématiques appliquées à l’analyse de données économiques. Son but consiste à fournir un contenu empirique aux théories économiques en les vérifiant ou en les réfutant. » L’analyse économique est basée sur des représentations théoriques qui décrivent le comportement des agents et les mécanismes à l’origine des phénomènes observés. Ce sont des énoncés logiques qui reposent sur des hypothèses plus ou moins réalistes et qui conduisent à des conclusions dont la portée peut être positive ou normative. Ces énoncés théoriques doivent être confrontés à la « réalité », c'est-à-dire les données, pour être validés ou invalidés. C’est à l’économétrie qu’il revient de procéder à cette confrontation, par l’application de méthodes statistiques issues de la théorie des probabilités. 1.2 Historique - C’est une science jeune : apparition de la discipline en 1930 avec la création de la société d’Econométrie (Frish et I. Fisher). Mais les méthodes employées existent depuis les XVIIIème et XIXème siècles : méthode des moindres carrés par Legendre [1805], la droite de régression par Galton [1886], différents travaux sur l’estimation des fonctions d’offre et de demande de blé aux USA - entre 1910 et 1930. Les tous premiers travaux sur la consommation datent de 1699 par Davenant. 1933 : publication de la revue de la société d’Econométrie : Econometrica. 1944 : avènement de l’économétrie moderne avec l’intégration de l’approche probabiliste dans la démarche économétrique : article fondateur de Haavelmo dans Econometrica. Utilisation de la statistique inférencielle pour spécifier la relation entre les lois économiques et les données observées. 1.3 Le rôle de l’économétrie Deux fonctions essentielles : - Tester les théories économiques : bien que découlant de raisonnements rigoureux, les théories reposent également sur des hypothèses plus ou moins vraisemblables et donc discutables. D’où la coexistence de différentes théories parfois contradictoires. L’économétrie doit donc permettre de trancher. - Evaluer les paramètres d’intérêt dans les relations économiques : l’idée est aussi d’avoir une fonction d’évaluation des paramètres. Expl : le cas de la fonction de consommation du type C i = α + βR i . Quand le revenu varie, quel est l’impact sur la consommation ? Expl : obtenir des prévisions pour C. Capturer et expliquer la « réalité » au moyen d’un modèle économétrique est donc le but de l’économétrie. Le plan de cette introduction générale est donc le suivant. Dans un premier temps, nous allons donc nous intéresser à ce qu’est cette réalité au travers des données. Ensuite, nous étudierons la notion de modèle économétrique, qui est l’outil qui nous permettra de capturer cette réalité. Enfin, nous verrons comment spécifier, estimer et évaluer un modèle économétrique. 2 Les données Les données sont au centre de la réflexion économétrique. En effet, ce sont elles qui vont permettre de mesurer le phénomène étudié et ses déterminants. C’est la « réalité » que le modèle économétrique cherche à représenter. Dès lors, un vrai travail de recherche, de construction quand c’est possible, mais surtout de sélection, d’interprétation, de compréhension et d’analyse critique des données doit être mené en préalable à toute étude, afin de connaître les richesses et les limites des données que l’on utilise. Nous verrons également plus tard qu’elles conditionneront les choix méthodologiques effectués. On considérera ici la convention suivante : les données sont des tableaux avec les observations en ligne et les variables en colonnes. Il existe différents types de données permettant différents types d’analyse. 2.1 La nature des observations - - - Les séries temporelles ou chronologiques correspondent à des observations répétées de variables (généralement des agrégats macro-économiques) à intervalles temporels réguliers (le mois, le trimestre, le semestre, l’année). On les note généralement avec un indice t faisant référence à la date (avec t = 1,…, T). Les coupes instantanées ou transversales ou encore en coupe correspondent à l’observation à un moment donné de différents individus (entreprises, ménages, secteurs, pays, …). On les note généralement avec un indice i faisant référence au numéro de l’individu observé dans l’échantillon (avec i = 1,…, N). Enfin, les données de panel ou encore individuelles-temporelles intègrent les deux dimensions individuelles et temporelles et permettent le suivi des variables caractérisant 4 des individus au cours du temps. Les données sont double-indicées en i pour les individus et en t pour les dates (avec t = 1,…, T et i = 1,…, N). La première et dernière catégories de données feront l’objet de techniques spécifiques. Certaines données, comme les données financières, peuvent ne pas être observées à intervalles réguliers. Elles feront également l’objet de méthodes spécifiques. 2.2 La nature des variables Beaucoup de variables sont quantitatives, c’est-à-dire mesurent des phénomènes en prenant des valeurs numériques réelles. Par exemple, le montant de consommation, de l’investissement, … D’autres sont qualitatives et mesurent les phénomènes au moyen de valeurs numériques entières. Par exemple, le sexe : codage à 1 pour les hommes et 2 pour les femmes. Une variable qualitative peut très bien être utilisée pour expliquer un phénomène quantitatif. Par exemple, la disparité de salaires s’explique en fonction du sexe, du diplôme, … Cela ne soulève pas de problème particulier d’un point de vue méthodologique. A l’inverse, on peut aussi chercher à expliquer une variable qualitative. Par exemple, les déterminants de l’obtention d’un CDI. Cela pose alors des problèmes spécifiques qui seront traités avec des méthodes spécifiques. 2.3 Collecte et construction des données Les données individuelles peuvent concerner des individus, ménages ou entreprises. Elles peuvent être exhaustives (obtenues par recensement) ou d’enquêtes. Dans ce dernier cas, il faut s’interroger sur la signification des réponses, à mettre en relation avec - la rédaction du questionnaire et le type de questions posées : questions parfois sensibles du type salaires, impôts, … qui vont conditionner l’honnêteté de la réponse - la méthode d’échantillonnage utilisée et la fréquence des interrogations : par exemple problème de l’impôt statistique pour les petites entreprises. - le mode d’interview utilisé : face à face, téléphone, courrier, … Enfin, on s’expose au problème de traitement, lourd selon la taille de l’échantillon, coûteux en temps d’exploitation et économiquement, aux problèmes de non réponses, d’erreur de mesure, …. Ces différents points feront l’objet d’un cours spécifique de théorie des sondages au second semestre. Les données agrégées peuvent être à la fois temporelles ou en coupe, et concerner des agrégats macro-économiques (production, investissement, exportations ou importations, …) ou des regroupements d’individus (régions, secteurs, …). A ce niveau, on peut s’intéresser à des modèles macro-économiques permettant d’effectuer des simulations de politiques économiques. Cependant plusieurs inconvénients apparaissent. D’une part, les données agrégées sont moins précises (et moins potentiellement moins riches puisque qu’en sommant sur les individus, on perd l’information capturée par l’hétérogénéité individuelle). D’autre part, on s’expose à des biais d’agrégation dans la mesure où les comportements des individus agrégés sont hétérogènes. 3 La notion de modèle économétrique Prenons le cas de deux variables : C la consommation et R le revenu. Et supposons que l’on observe ces 2 informations pour N individus, notés génériquement i. 3.1 Les différents types de relations entre variables On peut dire qu’il existe trois types de relations possibles entre ces deux variables. La première est la relation fonctionnelle déterministe : à une valeur de Ri correspond une valeur de Ci. La représentation graphique associée dans le cas où la relation est linéaire, est alors : 5 5 4 3 Ci 2 1 0 0 2 4 6 Ri 8 10 12 Graphique 1 : relation déterministe fonctionnelle La deuxième est l’absence de toute relation entre les deux variables. On parle alors d’indépendance. La représentation graphique donne alors : 4 3 Ci 2 1 0 0 2 4 6 8 10 12 Ri Graphique 2 : indépendance A toute valeur de Ri peut correspondre une infinité de valeurs de Ci. Le troisième type de relation se situe entre les deux. On fait l’hypothèse d’une relation fonctionnelle, mais celle-ci n’est pas parfaitement vérifiée pour chaque observation parce que la réalité économique est trop complexe à appréhender. La représentation graphique est alors : 6 5 4 Ci 3 2 1 0 0 2 4 6 8 10 12 Ri Graphique 3 : corrélation linéaire positive 6 On dit alors que les deux variables sont corrélées. Le graphique précédent montre que la relation représentée par la droite ne passe pas exactement par tous les points de l’échantillon, mais que les 2 variables semblent montrer « un certain degré de dépendance » et que la droite passe « au milieu du nuage de points ». Il existe deux types de corrélations : la corrélation linéaire et la corrélation non linéaire. Le graphique 3 fournit une représentation de corrélation linéaire positive. Le graphique 4 présente une corrélation non linéaire positive. 12 9 6 3 0 0 2 4 6 8 10 Graphique 4 : corrélation non linéaire positive Il existe bien évidemment les cas de corrélation négative (linéaire et non linéaire). Le graphique 2 représente un cas de corrélation nulle. Le graphique 1 représente le cas d’une corrélation linéaire parfaite. Pour mesurer la corrélation linéaire entre deux variables x et y, on utilise le coefficient de corrélation linéaire simple : n rx , y = Cov (x , y ) = σx σy ∑ (xi − x )(yi − y ) i =1 n n i =1 i =1 ∑ (xi − x )2 ∑ (yi − y )2 Ce coefficient est compris entre –1 et 1. • Ainsi, pour un coefficient de corrélation linéaire simple proche de 1, les deux variables sont très linéairement corrélées positivement (quand une variable évolue dans un sens, l’autre évolue dans le même sens). • Pour un coefficient de corrélation linéaire simple proche de –1, les deux variables sont très linéairement corrélées négativement (quand une variable évolue dans un sens, l’autre évolue dans le sens contraire). • Enfin, pour un coefficient de corrélation linéaire nul, les deux variables sont non corrélées linéairement. Quand une variable évolue dans un sens, on ne peut rien dire sur le sens d’évolution de l’autre variable (dans le cadre d’une relation linéaire). Il convient de noter qu’une corrélation linéaire nulle ne signifie pas l’absence de corrélation non linéaire entre les deux variables. Autrement dit, l’absence de corrélation linéaire n’implique pas l’indépendance. 7 3.2 Implications Plaçons-nous dans le cas de la corrélation, qui permet de retrouver les 2 cas extrêmes de relation mathématique et d’indépendance. On considère que chaque ménage est ici un cas particulier d’une règle générale spécifiée dans l’équation suivante : Ci = f (Ri ) + ui On observe Ri et Ci pour chaque ménage i (ou plus généralement observation i), la fonction f(.) est supposée. On a également supposé que Ci est la variable à expliquer et Ri la variable explicative. Un modèle peut comporter plusieurs variables explicatives. Ici, on a fait un pas supplémentaire vers un schéma explicatif puisque contrairement à la corrélation qui est une relation symétrique, on suppose un sens de causalité de la variable R vers la variable C. Pour gérer les erreurs et l’incertitude inhérentes au modèle que l’on s’est donné, on utilise une approche probabiliste qui considère ui comme une variable aléatoire appelée perturbation aléatoire. ui représente et capture : • l’oubli de variables dans le modèle, • l’absence de variables explicatives remplacées par des approximations, • tous les facteurs du second ordre qui ne sont pas pris en compte dans le schéma explicatif de notre modèle, • les erreurs de mesure sur les variables, • l’incertitude sur la forme du modèle f, en un mot, tout ce qui nous éloigne de la vraie équation du processus qu’on cherche à expliquer. ui est un processus théorique, non observable et il en existe une réalisation particulière pour chaque observation i. On fixera certaines propriétés de ui. Ainsi, lorsqu’on spécifie comme loi des perturbations, une 2 loi normale N (0, σ ) par exemple, on qualifie l’approche de paramétrique. Dans le cas contraire, elle est semi-paramétrique. Remarques : - Comme ui est aléatoire, Ci l’est aussi d’après le modèle. On considère alors que l’observation de la consommation de l’observation i est fournie par la réalisation de la variable aléatoire Ci lors du tirage aléatoire de notre échantillon dans la population. - Si on connaissait toutes les variables explicatives de Ci, on pourrait en théorie construire la relation fonctionnelle déterministe, c’est-à-dire non aléatoire. Même si de toutes façons cela n’est pas possible, on ne le voudrait pas forcément, dans la mesure où on recherche une approximation acceptable de la réalité. D’où un premier essai de définition… 3.3 Définition d’un modèle économétrique Un modèle économétrique est une équation dont le rôle est « d’expliquer » un phénomène grâce à des variables que l’on juge déterminantes au premier plan. L’objectif en est de capturer le ou les faits les plus marquants de la réalité qu’il cherche à représenter. Le modèle économétrique est une « histoire » qui s’applique à chacune des observations de l’échantillon, à une erreur possible près représentée par la perturbation aléatoire. Les paramètres inconnus du modèle mesurent l’impact des variables explicatives sur la variable à expliquer. C’est l’économétrie qui va permettre une évaluation de ces 8 paramètres en utilisant l’information contenue dans toutes les observations de l’échantillon et donc d’analyser et d’utiliser les résultats obtenus. Du fait des différentes sources d’incertitude qui l’entourent, il faut comprendre et accepter que tout modèle économétrique est une représentation simplifiée voire simpliste d’une réalité complexe. On pourrait donc le considérer dès le départ et quels que soient nos efforts, comme erroné. L’idée étant cependant que cette représentation soit acceptable au regard de critères techniques et interprétatifs. Le but étant, au travers du modèle économétrique et de son évaluation, de « raconter une histoire convaincante » pour expliquer le phénomène étudié. 3.4 Discussion sur la notion de modèle économétrique Un modèle économétrique est donc une représentation forcément simplifiée d’un phénomène (expl : la consommation d’orange dépend du prix des oranges). En effet, on pourrait dire aussi que cela dépend de la consommation de café, du prix des pommes, du temps pour la récolte, du prix de l’essence … Cette approche simplifiée dépend aussi de façon cruciale des données dont on dispose ou dont on peut disposer. Il faut y inclure toutes celles dont on pense qu’elles jouent un rôle vraiment important et ne pas s’occuper des autres. Ces dernières sont alors incluses dans la perturbation aléatoire. Une question se pose alors concernant la fiabilité d’un modèle économétrique pour raconter des histoires et s’il peut constituer une représentation acceptable de la « réalité ». Selon Popper [1959] et Friedman [1953], un modèle est forcément quelque chose de simple car c’est plus facile à comprendre, à faire comprendre et à tester. Mais cela conduit cependant à deux critiques importantes. - La sur-simplification : dans l’exemple précédent, la spécification du modèle économétrique est trop simpliste. En règle générale, deux écoles s’affrontent pour spéficier un modèle : - la première dit qu’il faut commencer par un modèle simple et le compliquer progressivement (Koopmans [1957], conception ascendante de la modélisation). - La seconde dit qu’il faut partir d’un modèle très général et le simplifier progressivement sur la base des données utilisables et de tests statistiques (Sargan puis Hendry, conception descendante de la modélisation). - Les deux s’accordent pour retenir le modèle présentant un arbitrage acceptable entre parcimonie et réalisme. - Les hypothèses irréalistes : sur ce point, Friedman réplique en soulignant que la question n’est pas tant de savoir si les hypothèses formulées par les théories sont réalistes sur le plan descriptif (ce qu’elles sont rarement) mais plutôt si elles constituent des approximations suffisamment bonnes pour répondre à la question que l’on se pose. Et l’on ne peut y répondre qu’en regardant si une théorie fonctionne, c’est-à-dire si elle fournit des prédictions suffisamment précises. 4 Le modèle linéaire La première étape de l’analyse économétrique consiste à dégager les mécanismes théoriques à l’œuvre pour expliquer le phénomène qui nous intéresse. La deuxième étape de l’analyse consiste ensuite à en déduire la forme de la relation entre les variables explicatives supposées et la variable à expliquer. C’est généralement une forme linéaire qui est retenue, du fait de sa simplicité. Notre modèle s’écrit donc : Ci = a + bRi + ui 9 Dans la nature, il n’y a absolument aucune raison qu’une relation soit linéaire en fonction des coefficients. En effet, les implications d’une telle hypothèse sont fortes. Ici, si le revenu varie positivement d’une unité, la consommation varie de b unités. Inversement, si le revenu varie négativement d’une unité, alors la consommation varie de –b. Retenir une telle spécification implique donc une réponse symétrique de la consommation à une variation du revenu, ce que l’on pourrait considérer comme une hypothèse forte. Cependant, retenir une forme linéaire pour la spécification du modèle économétrique a aussi le mérite d’éviter d’avoir recours à des méthodes économétriques plus complexes, tout en n’interdisant pas forcément de s’intéresser à des phénomènes fortement non linéaires. L’important pour la suite étant que le modèle soit linéaire en les coefficients ; rien n’interdit de faire apparaître des variables ayant subi des transformations non linéaires… Expl1 : la relation entre la formation du salaire et l’expérience professionnelle. wi = a si + b étudei + c expi + d + ui Un modèle linéaire pour cette représentation n’est pas réaliste dans la mesure où il revient à dire qu’une année d’expérience supplémentaire en début ou en fin de carrière va induire une augmentation identique du salaire. Or on sait que le rendement marginal de l’expérience est décroissant : ainsi, les salaires croissent rapidement avec l’expérience en début de carrière et de façon beaucoup plus lente par la suite. Ainsi, le modèle estimé sera plutôt : 2 wi = a si + b étudei + c expi + c ' (expi ) + d + ui On constate qu’il s’agit encore d’un modèle linéaire sur le logarithme du salaire. On conclura ici que le rendement marginal de l’expérience est décroissant si l’estimation de c’ est négative. Expl2 : L’effet sur le niveau de consommation des ménages du nombre des enfants. C i = α + βR i + γnenf i + u i Il n’y a aucune raison de supposer qu’un enfant supplémentaire va avoir un effet identique s’il y en a déjà 1 ou 8. Mais comment prendre en compte cet effet non linéaire car il existe probablement des effets de discontinuités rendant la prise en compte de ces effets par une forme quadratique difficile (achat d’une voiture plus grande, d’une maison plus grande, …). Une possibilité est ici de poser les variables nenf0i égale à 1 pour des ménages n’ayant pas d’enfant et à 0 sinon, nenf12i égale à 1 pour les ménages ayant 1 ou 2 enfants et à 0 sinon et nenf3i égal à 1 pour les ménages ayant 3 enfants et plus et à 0 sinon. Le modèle devient alors : C i = βR i + γ 1nenf 0 i + γ 2nenf 12i + γ 3nenf 3 i + u i Le modèle est toujours linéaire en ces coefficients, alors qu’on a modélisé plusieurs discontinuités dans les données. Les effets différenciés portent sur le niveau moyen de la consommation et sont pris en charge par les estimations de γ1 , γ 2 et γ 3 (voir exercice du TD1). Expl3 : la fonction de production de Cobb-Douglas : c’est une relation non linéaire entre le niveau du produit Qt et les facteurs de production capital Kt et travail Lt : α β Q t = AL t K t Ce modèle non linéaire est équivalent à un modèle linéaire lorsqu’on en prend le logarithme : ln Q t = ln( A ) + α ln(L t ) + β ln( K t ) + u t 10 Cependant, l’exemple suivant montre que se ramener à une forme linéaire n’est pas toujours possible. Expl4 : l’estimation d’une fonction de production CES : [ Qt = µL−t ρ + (1 − µ )K t− ρ ] − 1 ρ Il n’y a pas de traduction linéaire de ce modèle. Il faudra donc avoir recours à d’autres méthodes que celles présentées ici pour l’estimer. 5 L’estimation des paramètres inconnus La question posée, les données utilisées et la complexité de la spécification du modèle à estimer conditionnent la méthode d’estimation à utiliser. Plaçons-nous dans un cas simple et supposons que l’on cherche à présent à estimer le modèle suivant : yi = a + b xi + ui On dispose des données concernant la consommation et le revenu pour N ménages à une date donnée. Les données dont on dispose sont en réalité un échantillon supposé représentatif tiré dans une population dont on cherche à caractériser les comportements de consommation au moyen des paramètres inconnus a et b. Ainsi cette population peut être l’ensemble des ménages belges de Los Angeles, des célibataires de Clermond-Ferrand, … Pour cette population, on suppose qu’il existe une loi qu’il s’agit de connaître le mieux possible au travers de l’échantillon tiré. Pour cela, on va calculer des estimations des paramètres inconnus a et b à partir des observations de cet échantillon. 5.1 La méthode d’estimation des MCO Les estimations sont obtenues grâce à une méthode d’estimation. Ici, on retiendra la méthode des moindres carrés ordinaires (MCO ou Ordinary Least Squares en anglais) car le modèle est linéaire en les coefficients. Si ça n’avait pas été le cas, on aurait choisi une autre méthode plus adaptée (moindres carrés non linéaires, maximum de vraisemblance, méthode des moments généralisée, ...). Le principe de la méthode est le suivant. Pour une droite permettant d’ajuster le nuage de points, on va minimiser la distance entre chaque point de la variable à expliquer et le modèle. On va donc chercher une valeur pour les paramètres qui confère un rôle (total quadratique) minimum aux perturbations aléatoires à chaque observation. Le critère d’estimation est donc de trouver a et b tels que : {aˆ, bˆ } = arg min ∑ u N a ,b 2 i N = arg min a ,b i =1 ∑ (y i − a − bxi )2 i =1 Les estimations sont obtenues à partir de formules théoriques qui dépendent des variables aléatoires caractérisant le problème étudié (en particulier yi) : ce sont des estimateurs, qui sont donc eux-mêmes des variables aléatoires. En effet, comme ui est aléatoire, yi l’est ˆ et Bˆ . aussi, et comme l’estimateur est fonction de yi… On pourra noter les estimateurs A La valeur des estimations, qu’on note aˆ et bˆ , dépend des observations de l’échantillon. Avec un autre échantillon, l’application des formules des estimateurs donnerait des estimations numériquement différentes mais d’un ordre de grandeur relativement comparable si les deux échantillons sont représentatifs. 11 Remarque : On manipule donc trois types de paramètres : - a et b les « vrais » paramètres inconnus que l’on n’observe jamais, mais qui peuvent être utilisés dans les calculs théoriques. - Aˆ et Bˆ les estimateurs, qui sont des variables aléatoires. aˆ et bˆ les estimations des paramètres inconnus, c’est-à-dire des valeurs numériques particulières associées à l’échantillon, des réalisations particulières des estimateurs associées à l’échantillon. Dans les cours d’économétrie traditionnels et à l’inverse des cours de probabilités, on fait rarement la différence dans les notations entre les estimations et les estimateurs. Ce sera donc à vous de bien faire attention lors des calculs concernant les propriétés théoriques des estimateurs de savoir quel objet vous manipulez. - 5.2 Les propriétés des estimateurs Les estimateurs que l’on utilise pour évaluer les paramètres inconnus sont associés à la méthode d’estimation choisie et sont intéressants pour les propriétés qu’ils possèdent et qui peuvent varier d’une méthode d’estimation à une autre. Ainsi : - lorsqu’ils fournissent en moyenne la valeur des paramètres inconnus, on dit alors qu’ils sont sans biais (unbiased). ˆ) = a . Définition : l’estimateur  est sans biais si E (A - Les estimations sont réalisées avec des marges d’erreur dues aux imprécisions associées aux incertitudes entourant le modèle. Ces marges d’erreur diminuent avec la taille de l’échantillon, et on pourrait même dire que lorsque la taille de l’échantillon tend vers l’infini (c’est-à-dire la taille de la population), on pourrait connaître parfaitement la valeur des paramètres inconnus. On dit alors que les estimateurs sont convergents (consistent). Définition : l’estimateur  est convergent si V ( Aˆ ) → 0 . N →∞ - Lorsque parmi deux estimateurs du même paramètre, un possède une marge d’erreur inférieure à l’autre, on dit qu’il est meilleur (best). ' Définition : l’estimateur  est meilleur que Â' si V (Aˆ ) < V (Aˆ ) . - Enfin, si dans une classe d’estimateurs sans biais, un estimateur possède la plus petite variance possible, on dit qu’il est efficace (efficient). Si la méthode des MCO est plus utilisée que les autres, c’est parce que ses estimateurs possèdent, sous certaines conditions, les meilleures propriétés possibles. 6 La démarche économétrique Dans l’absolu, la démarche économétrique doit être la suivante. 1) Formuler clairement la question que l’on se pose. 2) Construire ou partir d’une théorie expliquant les différents mécanismes que l’on cherche à mettre en évidence. 3) Sélectionner les données dont on a besoin, les construire et les étudier. 4) Formuler le modèle économétrique à partir de la théorie, de la disponibilité des données et de ses propres a priori (interactions avec l’étape 3 pour ce qui est de la collecte et de la construction des données dont on a besoin). 5) Estimer le modèle. 6) Tester la pertinence (statistique et logique) du modèle. S’il est rejeté par les tests statistiques, revenir à l’étape 4 et éventuellement à l’étape 3. 12 7) S’il est accepté, l’utiliser pour faire de la prévision ou des recommandations. Cette étape permet donc de « valider » la théorie utilisée pour formuler le modèle, et éventuellement d’orienter les évolutions théoriques à partir de ce que disent les données. On est alors en présence d’une vraie interaction entre la théorie et l’économétrie appliquée. 13 Chapitre 1 Le modèle de régression linéaire Introduction et notations Soit le modèle de régression linéaire multiple fourni par la théorie économique, et dans le cadre de la démarche économétrique énoncée précédemment : yt = a + b1 x1,t + b2 x 2,t + ... + bk −1 xk −1,t + ut - yt est la réalisation observée en t de la variable à expliquer, appelée encore variable endogène ou variable dépendante. - - x1t, x2t , …, xk−1t sont les réalisations observées en t des variables explicatives, encore appelées encore variables exogènes ou variables indépendantes. Le modèle est multiple s’il y en a plus d’une. ut est la réalisation non observée en t de la perturbation aléatoire. - a et b1, … bk−1 sont les paramètres inconnus dont on recherche la valeur. On a vu dans l’introduction générale que ce modèle est considéré comme linéaire, car yt est une fonction linéaire des paramètres inconnus. Il est qualifié de simple lorsqu’il ne comporte qu’une seule variable explicative. yt = a + b xt + ut Dans ce cas particulier, on va donc ajuster le nuage des observations par une droite dans le plan (xt, yt) et les paramètres inconnus s’interprètent donc comme la pente de la droite pour b et comme l’ordonnée à l’origine pour a. 14 6 5 4 Ci 3 2 1 0 0 2 4 6 8 10 12 Ri Dans le cas du modèle de régression linéaire multiple, ce modèle comporte k variables explicatives (y compris la constante) et l’ajustement du nuage des T observations se fera par un (hyper-)plan de dimension k (le nombre des variables explicatives). L’objectif est ici de fournir une estimation pour les paramètres a, b1, …, bk−1. Pour cela nous utiliserons la méthode des MCO pour déduire les formules des estimateurs et leurs propriétés. Le plan du chapitre est le suivant. • Nous allons envisager les différentes écritures possibles du modèle et particulièrement l’écriture générale matricielle (section 1). • Il sera ensuite nécessaire de formuler différentes hypothèses concernant les perturbations aléatoires. Nous allons donc les énumérer et les interpréter (section 2). • Nous allons ensuite trouver la solution du problème des MCO et l’expression des estimateurs (section 3). • Nous en étudierons ensuite les propriétés théoriques à distance finie (section 4) puis asymptotiquement (section 5) en utilisant les différentes hypothèses formulées sur les perturbations aléatoires. • Nous étudierons la possibilité d’estimateurs alternatifs comme celui du maximum de vraisemblance et ses relations avec l’estimateur des MCO (section 6) pour nous convaincre que c’est le meilleur estimateur possible. • Enfin nous discuterons des prévisions dans un modèle économétrique (section 7). 1 Les différentes formulations du modèle de régression linéaire multiple Pour passer aux notations matricielles, il est nécessaire d’appliquer l’écriture générique du modèle pour chaque observation : y1 = a + b1 x1,1 + b2 x 2,1 + ... + bk −1 xk −1,1 + u1 y2 = a + b1 x1,2 + b2 x 2,2 + ... + bk −1 xk −1,2 + u2 ... yt = a + b1 x1,t + b2 x 2,t + ... + bk −1 xk −1,t + ut ... yT = a + b1 x1,T + b2 x 2,T + ... + bk −1 xk −1,T + uT On peut réécrire vectoriellement le modèle linéaire en gardant bien à l’esprit les formats des vecteurs : 15 x1,1 xk −1,1 u1 y1 1 x1,2 xk −1,2 u2 y2 1 ... ... ... ... ... + ... + bk −1 + = a + b1 x1,t xk −1,t ut yt 1 ... ... ... ... ... 1 yT x1,T xk −1,T uT On peut donc réécrire le modèle linéaire multiple comme une combinaison linéaire dans T IR : y = a eT + b1 x1 + ... + bk −1 xk −1 + u (T ×1) (1×1) (T ×1) (1×1) (T ×1) (1×1) (T ×1) (T ×1) avec - y le vecteur des T observations de la variable à expliquer. - eT le vecteur de dimension T ne comportant que des 1. C’est une « variable » qui prend la même valeur pour toutes les observations. Elle capture donc ce qui est commun à toutes les observations dans le phénomène à expliquer. - x1,… xk–1 les (k – 1) vecteurs des T observations des variables explicatives. Chaque variable prend des valeurs différentes entre les observations. C’est ce qui caractérise l’hétérogénéité entre les observations dans le phénomène à expliquer. - L’influence de chaque variable explicative sur le phénomène à expliquer est mesurée par les k paramètres inconnus a, b1, … bk–1 dont on recherche la valeur. C’est l’hétérogénéité des déterminants dans l’ensemble des observations qui va expliquer l’hétérogénéité du phénomène à expliquer. - u le vecteur des T réalisations non observées de la perturbation aléatoire. Posons à présent la matrice X composée des observations des k variables explicatives (y compris la constante) ainsi que β le vecteur contenant les paramètres inconnus à estimer : 1 ... X = 1 (T ×k ) ... 1 xk −1,1 ... xk −1,t ... xk −1,T x1,1 ... x1,t ... x1,T et a b β = 1 (k ×1) ... bk −1 Il est important à ce stade d’envisager les deux sens de lecture de la matrice X : - - d’une part, une ligne correspond à une observation, caractérisée dans l’espace des k variables IR (puisque ici une observation se définit avec k coordonnées). L’ajustement du nuage de points des observations se fera dans l’espace des variables, comme on l’a vu dans le cadre du modèle de régression linéaire simple. D’autre part, une colonne correspond à une variable, caractérisée dans l’espace des T observations IR (puisque ici une variable se définit avec T coordonnées). Ce sont ces variables qu’on étudie dans cet espace lors de l’interprétation géométrique des MCO. Le modèle se réécrit alors : y = X (T ×1) β + u (T ×k ) (k ×1) (T ×1) On a présenté précédemment la matrice X, soit de façon encore condensée sous sa forme en colonne : 16 X = eT (T ×k ) (T ,1) x1 ... (T ,1) xk −1 (T ,1) Sous cette forme, une colonne correspond à toutes les observations d’une variable. Dans la littérature, on pourra également rencontrer l’écriture dite en ligne : X' (1,k1) ... ' X = Xt (T ×k ) (1,k ) ... ' XT (1,k ) Sous cette forme, une ligne correspond à la réalisation de toutes les variables pour une observation : X t' = (1,k ) 1 (1,1) x1,t ... (1,1) xk −1,t (1,1) Sous cette forme, le modèle s’écrit encore de façon générique : yt = X t' ⋅ β + ut (1,1) (1,k ) (k ,1) (1,1) Pour la suite, il est nécessaire de bien savoir manipuler ces différentes écritures et de bien garder à l’esprit le format des matrices afin d’éviter les erreurs, même si dans la suite nous nous concentrerons majoritairement sur l’écriture la plus compacte. 2 Les premières hypothèses sur les perturbations aléatoires Avant de pouvoir tirer une conclusion quelconque sur la question que l’on se pose grâce au modèle économétrique que l’on a formulé, il faut avoir dépassé les étapes techniques de spécification du modèle. Sur le plan technique, une fois le modèle formulé, la démarche est la suivante : • Enoncer un certain nombre d’hypothèses concernant les perturbations aléatoires (non observées). • Utiliser une méthode d’estimation sous ces hypothèses. • Tester la validité des hypothèses formulées une fois l’estimation du modèle réalisée, à partir d’une estimation des perturbations. • Envisager la meilleure méthode d’estimation lorsque telle ou telle hypothèse n’est pas vérifiée. Détaillons la liste et l’interprétation des hypothèses sur les perturbations. 2.1 La perturbation est d’espérance nulle H1 : E ( u (T ,1) 17 X) = 0 (T ,1) L’espérance des perturbations conditionnellement aux variables explicatives est nulle pour chaque réalisation. L’ensemble des déterminants non retenus dans le modèle (et regroupés dans les perturbations) est d’espérance nulle, c’est-à-dire que leurs effets sur la variable à expliquer des variables de second ordre se compensent entre eux à chaque observation. Autrement dit, l’approximation constituée par le modèle correspond à la loi moyenne de la variable aléatoire à expliquer : E (y X ) = X β Dans le cas contraire, on ferait le modèle ferait une erreur systématique à chaque observation pour expliquer y. 2.2 Les variables exogènes sont des variables certaines H2 : E (X ' ⋅ u ) = 0 Cette hypothèse implique que X et u ne sont pas linéairement corrélés. Cela signifie que l’approximation constituée par le modèle est telle que les déterminants de seconde importance de y que l’on a négligés et qui figurent donc dans la perturbation aléatoire ne sont pas liés aux variables explicatives de première importance X retenues dans le modèle. C’est cette implication qui est essentielle et qui doit être respectée si X est finalement une matrice constituée de variables aléatoires, car elle permet d’obtenir des estimateurs non biaisés. Pour simplifier les calculs qui vont suivre sans avoir d’impact fondamental sur les résultats, on supposera : H2-bis : X est une matrice de variables certaines. 2.3 X est une matrice de plein rang colonne H3 : X est une matrice de rang égal à k c’est-à-dire de plein rang colonne. On fait ici l’hypothèse que les colonnes de la matrice X (c’est-à-dire les variables) sont linéairement indépendantes entre elles. Dans le cas contraire, cela signifierait qu’au moins une variable explicative pourrait s’écrire comme une combinaison linéaire d’autres variables explicatives du modèle. Dans un tel cas de figure, cette variable serait alors redondante et n’apporterait rien au modèle. De plus, cela nous empêcherait même d’estimer ses paramètres puisque le même phénomène interviendrait deux fois dans l’explication. On est alors dans le cas de multicolinéarité stricte et le modèle n’est pas identifiable. Dans le cas du modèle de régression linéaire simple, cela signifie que les observations xt 1 T 2 (xt − x )2 ≠ 0 i.e. elles ne sont pas toutes égales à x ) et se possèdent une variance ( sx = T t =1 ∑ comportent de façon différente de la constante. Elles apportent donc une information supplémentaire et non redondante relativement à la constante du modèle (ce point sera plus compréhensible dans la section sur l’interprétation géométrique du modèle linéaire simple). C’est cette variabilité de comportement de la variable x qui va permettre d’expliquer la variable y. 2.4 L’hypothèse d’homoscédasticité et de non covariance des perturbations H4 : E ( u ⋅ u ' ) = σ2I T . (T ,1) (1,T ) 18 La matrice de variances-covariances des perturbations est une matrice scalaire, c’est-à-dire qu’elle s’écrit comme le produit d’un scalaire par la matrice identité. En effet, pour H1 vérifiée : u1 ... ' V ( u ) = E ( u ⋅ u ) = E ut ⋅ ( u1 (T ,1) (T ,1) (1,T ) ... u T E (u12 ) ... = E (u1ut ) ... E (u1uT ) ... E (u1ut ) ... ut ... ... E (ut2 ) ... ... E (ut uT ) ... ... uT ) = E u12 ... u1ut ... u1uT E (u1uT ) σ2 ... ... E (ut uT ) = 0 ... ... E (uT2 ) 0 ... u1ut ... ... ut2 ... ... ... 0 ut uT ... ... σ2 ... ... 0 ... ... u1uT ... ut uT ... uT2 0 ... 2 0 = σ IT ... σ2 Envisageons plus précisément ces deux hypothèses. • L’homoscédasticité des perturbations : la variance des perturbations est identique pour tout t. En effet, ∀t , 2 2 2 V (ut ) = E [ut − E (ut )] = E (ut ) = σ Cela revient à dire que l’ampleur des erreurs (ou l’approximation réalisée par le modèle) est constante pour toute observation. Cela revient encore à dire que cette ampleur ne dépend pas d’une variable ou d’un facteur ayant rapport avec l’observation t, auquel cas le modèle « oublierait » d’expliquer quelque chose de systématique qui demeure dans l’erreur et ne serait donc pas acceptable. C’est dès lors l’hypothèse la plus simple à formuler concernant la variance des erreurs, puisqu’elle ne peut pas être supposée nulle. On ne formule donc pas d’hypothèse concernant la valeur de σ². C’est un paramètre inconnu supplémentaire, mais on sent bien que les résultats de l’estimation seront d’autant plus précis que σ² sera faible. • La non-autocorrélation des perturbations : ∀t1 ≠ t2, Cov(ut1 , ut2 ) = E [ut1 − E (ut1 )] ⋅ [ut2 − E (ut2 )] = E [ut1 ⋅ ut2 ] = 0 Une erreur faite sur une observation ne dépend linéairement d’aucune autre erreur faite sur une autre observation. Dans le cas contraire, cela signifierait en effet que le modèle « oublierait » systématiquement un facteur explicatif important de yt dans la partie de la perturbation aléatoire et ne serait donc pas acceptable. De façon rigoureuse, cela signifie qu’il n’existe pas de relation linéaire entre les perturbations. On a vu en effet en introduction que le coefficient de corrélation linéaire entre deux variables s’exprime comme le rapport de la covariance entre les variables et le produit des écart-types de variables (ici la variance puisqu’on est sous l’hypothèse d’homoscédasticité). Pour une covariance nulle, le coefficient de corrélation linéaire est nul. Cependant, cela n’implique pas forcément l’indépendance entre les perturbations, comme on l’a vu en introduction et dans le cours de probabilités (à moins bien sûr que les perturbations soient normalement distribuées). 19 3 L’estimation par carrés ordinaires la méthode des moindres Il faut à présent rechercher une méthode d’estimation qui fournit des estimateurs pour le vecteur de paramètres inconnus possédant des propriétés intéressantes (non biaisés, convergents, …). Nous allons donc commencer par étudier la méthode des moindres carrés ordinaires (MCO). 3.1 Le critère des MCO Le modèle linéaire multiple s’écrit : yt = a + b1 x1,t + b2 x 2,t + ... + bk −1 xk −1,t + ut k On est en présence d’un nuage de T points (que l’on ne peut représenter) dans IR , l’espace des variables. En effet, chaque point a besoin de k coordonnées pour être défini dans cet k espace. L’ajustement du nuage dans IR se fera donc par un hyperplan dont l’équation s’écrit : yˆt = aˆ + bˆ1 x1,t + bˆ2 x 2,t + ... + bˆk −1 xk −1,t et qui passe le plus près possible de tous les points de l’échantillon. La généralisation du programme des MCO se fait dans la droite ligne du cas de la régression linéaire simple : on recherche les paramètres aˆ, bˆ1, bˆ2,... et bˆk −1 tels que : {aˆ,bˆ1,...,bˆk −1} = arg (a,bmin ,...,b 1 = arg = arg k −1 ) S (a , b1,..., bk −1 ) T min ∑ ut2 (a ,b1 ,...,bk −1 ) t =1 T min ∑ (yt − a − b1 x1,t − b2 x2,t − ... − bk −1 xk −1,t )2 ) (a ,b1 ,...,bk −1 t =1 On est en présence d’une fonction scalaire à k paramètres que l’on chercher à minimiser. On doit donc résoudre le système formé par les k équations du premier ordre (CPO) calculées en les solutions aˆ, bˆ , bˆ ,...bˆ , c’est-à-dire la valeur particulièrement permettant 1 2 k −1 d’égaler chaque CPO à 0. ∂S (a , b1,..., bk −1 ) ∂a T a =aˆ b1 =bˆ1 ... b =bˆ k −1 ∂S (a , b1,..., bk −1 ) ∂b1 = 0 ⇔ −2∑ (yˆt − aˆ − bˆ1 x1,t − ... − bˆk −1 xk −1,t ) = 0 t =1 k −1 T a =aˆ b1 =bˆ1 ... b =bˆ k −1 = 0 ⇔ −2∑ (yˆt − aˆ − bˆ1 x1,t − ... − bˆk −1 xk −1,t ) ⋅ x1,t = 0 t =1 k −1 ... 20 ∂S (a , b1,..., bk −1 ) ∂bk −1 T a =aˆ b1 =bˆ1 ... bk −1 =bˆk −1 = 0 ⇔ −2∑ (yˆt − aˆ − bˆ1 x1,t − ... − bˆk −1 xk −1,t ) ⋅ xk −1,t = 0 t =1 Ensuite, on doit valider cette solution en calculant les conditions du second ordre (CSO) pour caractériser un minimum. Mais écrivons directement la solution pour le cas général. 3.2 Expression matricielle de l’estimateur des MCO On peut également calculer l’expression matricielle de l’estimateur des MCO. Pour cela, il suffit d’écrire le programme des MCO sous forme matricielle. Ainsi, en repartant du modèle y = X β + u (T ×k ) (k ×1) (T ×1) (T ×1) le programme précédent se réécrit : βˆ = arg min S (β) = arg min(u'u ) = arg min(y − X β)' (y − X β) β β β Développons l’expression à minimiser : S (β ) = (y − X β)' ⋅ (y − X β ) = ( y ' − β' (1×T ) X ' )⋅( y − X (1×k ) (k ×T ) (T ×1) β ) = y 'y − y ' X β− β' X 'y + β' X ' X β (T ×k ) (k ×1) (1×1) (1×1) (1×1) (1×1) Comme y ' X β et β' X 'y sont des scalaires et qu’ils sont la transposée l’un de l’autre, ils sont (1×1) (1×1) égaux. Le critère se réécrit donc : S (β ) = y 'y − 2 y ' X β+ β' X ' X β (1×1) (1×1) (1×1) Dérivons le critère afin d’obtenir les CPO. La fonction S(β) est minimum en β̂ si : ∂S (β) ∂β β=βˆ =0 Pour pouvoir résoudre ce programme, il est nécessaire de connaître les règles de dérivation matricielle des combinaisons linéaires et des formes quadratiques. n Rappels : pour une forme linéaire du type a 'z = z 'a = ∑ ai zi , avec a et z deux vecteurs i =1 colonnes de taille n, la dérivation par rapport au vecteur de variables z donne : ∂(a 'z ) ∂(z 'a ) = =a ∂z ∂z Pour une forme quadratique z ' Az avec A une matrice carrée symétrique, la dérivation toujours par rapport au vecteur z donne : 21 ∂(z ' Az ) = 2Az ∂z On a alors : −2 X ' y + 2 X' (k ×T ) (T ×1) βˆ = 0 X (k ×T ) (T ×k ) (k ×1) (k ×1) En réécrivant l’expression, on obtient : X ' X βˆ = X 'y (k ×k ) (k ×1) (k ×1) Ce système correspond au système de k équations évoqué au point précédent. C’est le système des équations normales. Il admet une solution unique si la matrice X’X est inversible (c’est-à-dire si elle est de rang égal à k), ce qui est une implication de l’hypothèse H3. Le vecteur β̂ se définit donc comme : βˆ = ( X ' X )−1 X 'y (k ×1) (k ×k ) (k ×1) C’est l’expression matricielle de l’estimateur des MCO dans le cadre de la régression linéaire multiple. L’expression de la dérivée seconde (2X’X) du programme étant une matrice définie positive, on est bien à un minimum en le point solution du programme fourni par les conditions du premier ordre. On en déduit alors la valeur ajustée par le modèle : yˆ = X (T ×1) βˆ (T ×k ) (k ×1) qui est donc une combinaison linéaire des variables explicatives, ainsi que le vecteur des résidus estimés : uˆ = y − yˆ (T ×1) (T ×1) (T ×1) 3.3 Remarques - - D’autres critères pourraient être envisagés pour minimiser la distance entre l’hyperplan estimé et les observations. Cela pourrait être par exemple la somme de la valeur absolue des écarts (plutôt que des carrés comme ici) ou une distance de projection orthogonale des observations sur la droite estimée (plutôt que verticale comme ici). Cependant, on va bientôt voir que c’est le critère des MCO qui permet de fournir les estimateurs possédant les meilleures propriétés. βˆ = (aˆ , bˆ ,..., bˆ )' est l’estimateur des moindres carrés ordinaires du vecteur de 1 k −1 paramètres inconnus β = (a , b1,..., bk −1 )' . β̂ est un vecteur de variables aléatoires puisque c’est une fonction linéaire du vecteur y, qui dépend lui-même du vecteur des perturbations aléatoires u, les poids de la combinaison linéaire étant rassemblés dans la matrice (X ' X )−1 X ' . - On appelle estimations les valeurs particulières prises par les fonctions βˆ = (aˆ , bˆ1,..., bˆk −1 )' pour les réalisations des variables de l’échantillon. Comme pour les variables aléatoires, 22 - - on ne distinguera pas formellement la variable aléatoire de sa réalisation particulière, mais il s’agit bien de deux choses différentes. yˆ = aˆ + bˆ x est la valeur ajustée ou prédiction ou encore valeur estimée de la variable yt t t dans le cadre de la régression linéaire simple C’est la droite de régression de y sur x. Ce terme est dû à Sir Francis Galton pour ses travaux concernant la relation entre la taille des parents et de leurs enfants. Il a en effet observé que plus (moins) les parents étaient grands, plus (moins) leurs enfants l’étaient, mais plus ils se rapprochaient de la moyenne. D’où le terme de régression (vers le point moyen de l’échantillon) mais qui désigne aujourd’hui couramment l’estimation générale d’un modèle linéaire. On a vu que la perturbation aléatoire ut, encore appelée aléa ou erreur, est une variable aléatoire dont on a supposé certaines propriétés et dont les réalisations ne sont pas observées. En revanche, on peut calculer : uˆt = yt − yˆt appelé résidu ou résidu estimé. On a donc : y = X ⋅β + u y = X ⋅ βˆ + uˆ = yˆ + uˆ - La première formulation sera utilisée pour démontrer les propriétés théoriques des estimateurs sous les hypothèses 1 à 6 formulées. Lorsque l’hypothèse H3 n’est pas vérifiée, le système n’a pas de solution unique. On dit que le modèle n’est pas identifiable : il y a une infinité de solutions β̂ et l’influence de chaque variable explicative sur la variable à expliquer ne peut être mesurée. 4 Propriétés de l’estimateur des MCO à distance finie On va s’intéresser aux propriétés du vecteur aléatoire β̂ dans le cadre du modèle de régression linéaire multiple : y = X (T ×1) β + u (T ×k ) (k ×1) (T ×1) On a montré que c’est un vecteur aléatoire comme fonction de la variable aléatoire y. On va donc étudier comme au chapitre précédent s’il vérifie les propriétés standards qu’on recherche chez un estimateur lorsque les hypothèses classiques H1, H2, H3 et H4 sont vérifiées. On a vu que H3 était déjà forcément vérifiée, puisqu’elle nous a permis de fournir l’expression de l’estimateur. 4.1 L’espérance de l’estimateur des MCO L’estimateur se définit comme : βˆ = ( X ' X )−1 X 'y (k ×1) (k ×k ) (k ×1) Montrons qu’il est sans biais. Pour cela, développons selon l’expression de y : βˆ = (X ' X )−1 X ' ⋅ (X ⋅ β + u ) = (X ' X )−1 X ' ⋅ X ⋅ β + (X ' X )−1 X ' ⋅ u 1442443 Ik = β + (X ' X )−1 X ' ⋅ u Prenons l’espérance de cette expression : il est facile en utilisant les hypothèses 2 puis 1 de voir que : 23 E (βˆ ) = E [β + (X ' X )−1 X ' ⋅ u ] = β + (X ' X )−1 X ' ⋅ E (u ) = β { =0 Conclusion : sous H1, H2 et H3, l’estimateur des MCO est sans biais. 4.2 La variance de l’estimateur 4.2.1 Calcul de la variance On s’intéresse à présent à la mesure de la précision de l’estimateur. Comme il s’agit d’un vecteur, on sera en présence d’une matrice de variances-covariances carrée, symétrique, de taille k. On part donc de la définition de la variance : { V (βˆ ) = E [(βˆ − E (βˆ )) ⋅ (βˆ − E (βˆ ))' ] = E [(X ' X )−1 X ' ⋅ u ] ⋅ [(X ' X )−1 X ' ⋅ u ]' −1 } −1 = E [(X X ) X ⋅ u ⋅ u ⋅ X ⋅ (X X ) ] ' ' ' ' = (X ' X )−1 X ' ⋅ E [u ⋅ u ' ] ⋅ X ⋅ (X ' X )−1 = (X ' X )−1 X ' ⋅ σ2 I T ⋅ X ⋅ (X ' X )−1 = σ2 (X ' X )−1 X ' X ⋅ (X ' X )−1 1442443 Ik = σ2 (X ' X )−1 (k ×k ) sous les hypothèses H1, H2, H3 et H4. On pourra vérifier que cette matrice correspond à la matrice : 1 x2 + T T (xt − x )2 t =1 σ2 −x T (xt − x )2 t =1 ∑ ∑ 2 (x t − x ) t =1 1 T (xt − x )2 t =1 −x T ∑ ∑ dans le cas du modèle de régression linéaire simple. 4.2.2 Estimation de la variance Comme le paramètre scalaire σ² est inconnu, il est nécessaire de l’estimer afin de disposer d’une estimation de la matrice de variances-covariances de β̂ . L’estimateur retenu est le suivant : σ ˆ2 = SCR uˆ 'uˆ = T −k T −k ˆ 2 et Remarque : le lecteur prendra bien garde de s’interroger sur la différence entre V (u ) , σ V (uˆ ) . 24 4.3 Le théorème de Gauss-Markov Théorème : Soit un modèle de régression simple y = X ⋅ β + u avec les hypothèses associées 1 à 4. L’estimateur β̂ des MCO est l’estimateur le plus précis dans l’ensemble des estimateurs linéaires sans biais de β. Dans ce cas, tout estimateur β̂* fournira une estimation moins précise que celui des MCO. Pour traduire cela dans le cadre d’un vecteur et donc d’une matrice de variancescovariances, cela signifie que la différence entre la matrice de variances-covariances de tout estimateur concurrent avec celle de l’estimateur des MCO donnera une matrice semi-définie positive, c’est-à-dire une matrice dont les éléments diagonaux (correspondant à la différence des variances) seront tous positifs ou nuls : V (aˆ * ) Cov (aˆ * , bˆ1* ) Cov (aˆ * , bˆ1* ) V (bˆ1* ) V (βˆ * ) − V (βˆ ) = ... ... * ˆ* ... Cov (aˆ , bk −1) ... Cov (aˆ * , bˆk* −1 ) V (aˆ ) Cov (aˆ, bˆ1) Cov (aˆ, bˆ1) V (bˆ1) ... ... − ... ... ... ... ... V (bˆk* −1 ) Cov (aˆ, bˆk −1 ) ... ... Cov (aˆ, bˆk −1 ) ... ... ... ... ... V (bˆk −1 ) ce qui implique : V (aˆ * ) − V (aˆ ) > 0 V (bˆ1* ) − V (bˆ1 ) > 0 ... V (bˆk* −1 ) − V (bˆk −1 ) > 0 L’estimateur des MCO est donc le précis pour toutes les composantes de β̂ . Preuve : comme précédemment, posons qu’il existe un estimateur β̂* linéaire en les données et tel que : βˆ * = H ⋅ y (k ×1) (k ×T ) (T ×1) H est une matrice non aléatoire que l’on cherche à déterminer. Exprimons cet estimateur en fonction de l’estimateur des MCO : βˆ * = βˆ − βˆ + H ⋅ y = βˆ + (H − ( X 'X )−1 X ' ) ⋅ y = βˆ + L ⋅ y L est une matrice non aléatoire comme combinaison de matrices non aléatoires. L’estimateur β̂* est défini comme étant sans biais : on a donc : E (βˆ * ) = E (βˆ + L ⋅ y ) = E (βˆ ) + E (L ⋅ y ) = β + L ⋅ E (y ) = β + L ⋅ E ( X β + u ) = β + L ⋅ (X β + E (u )) = β + L ⋅ X β { =0 De la propriété du sans biais, on déduit que LX β = 0 ⇔ L ⋅ X = 0 (toutes les autres possibilités pour justifier la nullité de LXβ (L = 0 qui implique que l’estimateur recherché est 25 celui des MCO, Xβ ou β nuls, ce qui implique que le modèle n’a rien à chercher) n’étant pas intéressantes). L’expression de β̂* se réécrit donc : βˆ * = βˆ + L ⋅ ( X ⋅ β + u ) = βˆ + L ⋅ u = (X 'X )−1 X ' ⋅ y + L ⋅ u = (X 'X )−1 X ' ⋅ (X ⋅ β + u ) + L ⋅ u = β + (X 'X )−1 X ' ⋅ u + L ⋅ u = β + [( X 'X )−1 X ' + L ] ⋅ u De cela on peut déduire la variance de l’estimateur : { V (βˆ * ) = E [(βˆ * − β) ⋅ (βˆ * − β)' ] = E [(( X 'X )−1 X ' + L ) ⋅ u ] ⋅ [(( X 'X )−1 X ' + L ) ⋅ u ]' } Il est facile de développer cette expression : { } V (βˆ * ) = E [(X 'X )−1 X ' + L ] ⋅ u ⋅ u ' ⋅ [ X (X 'X )−1 + L' ] { } = [( X 'X )−1 X ' + L ] ⋅ E u ⋅ u ' ⋅ [ X (X 'X )−1 + L' ] Or d’après H4, V (βˆ * ) = [(X 'X )−1 X ' + L ] ⋅ σ2IT ⋅ [ X (X 'X )−1 + L' ] ' = σ2[(X 'X )−1 X ' ⋅ X ( X 'X )−1 + ( X 'X )−1 X L' + L ⋅ X ( X 'X )−1 + LL' ] { 12⋅3 1442443 =0 =0 = Ik = σ2[(X 'X )−1 + LL' ] = V (βˆ ) + σ2LL' D’où : V (βˆ * ) − V (βˆ ) = σ2LL' avec σ2 positif et LL’ une matrice semi-définie positive. On a donc démontré le théorème. Conclusion : l’estimateur β̂ des MCO est l’estimateur le plus précis dans l’ensemble des estimateurs linéaires sans biais de β. Il fournit donc la meilleure information possible sur ce vecteur de paramètres inconnus à distance finie. 5 Propriétés asymptotiques de l’estimateur des MCO Que deviennent l’estimateur des MCO et ses propriétés lorsque la taille de l’échantillon tend vers l’infini ? Commençons par des petits rappels de cours. 5.1 Rappels sur les différents types de convergence Considérons une suite de variables aléatoires non nécessairement indépendantes X1, …, Xn. Vers quoi converge cette suite lorsque n tend vers l’infini ? Doit-on s’intéresser aux valeurs vers lesquelles convergent les moments de cette suite lorsque n tend vers l’infini ? A sa loi limite ? A la convergence de la suite des réalisations de cette série ? 5.1.1 La convergence en probabilité Définition Une suite de variables aléatoires X1,… Xn définies sur le même espace fondamental converge en probabilité vers le nombre certain a si, étant donné ε et η deux nombres 26 positifs arbitrairement faibles et choisis à l’avance, il est possible de trouver un seuil N lié à ε et η tel que : ∀n > N (ε , η ) Pr{ Xn − a > ε }<η Ainsi, lorsque n tend vers l’infini, la variable aléatoire Xn tend vers le nombre certain a avec une probabilité égale à 1 : Pr(X n = a ) → 1 n →∞ ≠ → 0 Pr( X a ) n n →∞ En d’autres termes, à partir du seuil N, la probabilité que Xn prenne une valeur particulière en dehors de l’intervalle a ± ε est très faible. Cela s’écrit encore : p Xn → a ou p lim X n = a Cette notion de convergence en probabilité vérifie des propriétés très pratiques découlant du théorème de Slutsky. Théorème de Slutsky Si deux suites de variables aléatoires X1, …, Xn et Y1, …, Yn convergent en probabilité respectivement vers X et Y, f(Xn,Yn) converge en probabilité vers f(X,Y), avec f une fonction définie et continue sur IR². p lim(X n ) = X ⇒ p lim[ f (X n , Yn )] = f (X , Y ) p lim(Yn ) = Y Une application utile est fournie par les exemples suivants : pour deux suites de variables aléatoires X1, …, Xn et Y1, …, Yn convergeant en probabilité respectivement vers X et Y. On a alors : p p p Xn + Yn → X + Y , λXn → λX , Xn ⋅ Yn → X ⋅ Y , … Remarque : la convergence en probabilité n’implique pas la convergence des moments. 5.1.2 La convergence en loi Définition Etant donnée une variable aléatoire X de fonction de répartition F(x), on dit que la suite de variables aléatoires X1, …, Xn converge en loi vers X lorsque n tend vers l’infini si Fn(x) converge vers F(x) : L Fn (x ) → F (x ) ⇒ X n → X n →∞ Un exemple typique d’application est le théorème central-limite. Ce théorème précise les conditions pour qu’une variable aléatoire converge vers une loi normale. Théorème central-limite Soit une suite de variables aléatoires X1, …, Xn mutuellement indépendantes et 27 2 identiquement distribuées, d’espérance et de variance finies notées µ X et σX . La suite X n définie comme la moyenne arithmétique de la suite X1, …, Xn Xn = 1 n n ∑ Xi i =1 converge en loi vers la variable normale centrée réduite lorsque n → ∞ : L n (X n − µ X ) → N (0, σ2X ) 5.1.3 La convergence en moyenne quadratique Définition Une suite de variables aléatoires X1, …, Xn converge en moyenne quadratique vers a si l’espérance du carré de l’écart entre Xn et a converge vers 0 lorsque n augmente indéfiniment : m .q . 2 E [(X n − a ) ] → 0 ⇒ X n → a n →∞ Propriété : pour deux suites de variables aléatoires X1, …, Xn et Y1, …, Yn convergeant en moyenne quadratique respectivement vers X et Y, on a alors : m.q . m.q . m.q . Xn + Yn → X + Y , E (Xn ) → E (X ) , E (Xn2 ) → E (X 2 ) , On en déduit que : m.q . P L Xn → X ⇒ Xn → X ⇒ Xn → X 5.2 Une hypothèse supplémentaire : H5 Aux quatre premières hypothèses standards utilisées jusqu’à présent, on en ajoute une nouvelle. 1 ' X X = VX , T →∞ T (k ,k ) H5 : lim S X = lim T →∞ avec VX une matrice finie définie positive et inversible. Il suffit de poser la structure de la matrice 1 ' X X . Cette hypothèse signifie que lorsque T T tend vers l’infini : 1. les moyennes, les variances et les covariances sont finies. En effet, en présence d’une constante dans le modèle, cette matrice contient des éléments T égaux à ∑ x j ,t à la (j + 1)ème de la première colonne (avec j ∈ 1, k − 1 ), t =1 T ∑ x 2j ,t à t =1 l’intersection de la diagonale principale et de la (j + 1)ème ligne (avec j ∈ 1, k − 1 ), et 28 T enfin ∑ xi ,t ⋅ x j ,t sur les éléments non diagonaux de la matrice, à l’intersection t =1 entre (i + 1)ème ligne et la (j + 1)ème colonne (avec i ∈ 1, k − 1 , j ∈ 1, k − 1 et i ≠ j ). 2. les variables explicatives restent linéairement indépendantes. On a alors la conservation de l’hypothèse H3 lorsque T tend vers l’infini. L’idée est donc comme précédemment que les variables explicatives conservent toujours une certaine variance lorsque T tend vers l’infini. Partons du fait que les variables xit sont des variables aléatoires indépendamment et identiquement distribuées de variances σ2xi . L’idée est ici que les variables xit conservent toujours une certaine variance lorsque la taille de l’échantillon tend vers l’infini ( 1 T lim sx2i = lim ∑ (xit − x )2 = σ2xi ≠ 0 ). En effet, dans le cas contraire, cela voudrait dire que T →∞ T →∞ T t =1 les xit convergent vers leur moyenne à partir d’une certaine date. Dès lors, une observation supplémentaire n’apporterait aucune information. Ainsi, disposer d’observations supplémentaires apporte de l’information. N’oublions pas que même s’il paraît paradoxal de parler des explicatives comme une variable aléatoire au regard de l’hypothèse H2, cette hypothèse n’est là que pour simplifier les calculs et permettre de modéliser yt conditionnellement aux xit observés dans l’échantillon. 5.3 Convergence en probabilité de l’estimateur des MCO L’estimateur se définit à présent comme βˆT : βT (k ×1) ˆ = ( X' X )−1 X ' (k ×T ) (T ×k ) y (k ×T ) (T ×1) et dépend de la taille de l’échantillon T. On s’intéresse donc à la suite de variables aléatoires βˆT , βˆT +1,... et sa convergence lorsque T tend vers l’infini. Preuve : montrons que l’estimateur des MCO converge en probabilité vers la vraie valeur du paramètre inconnu. On sait que la convergence en moyenne quadratique est une condition suffisante de la convergence en probabilité. Autrement dit, la convergence en moyenne quadratique implique la convergence en probabilité. Pour que βˆT converge en moyenne quadratique vers β, il faut que : E [(βˆT − β) ⋅ (βˆT − β)' ] → 0 T →+∞ (k ×k ) Comme βˆT est un estimateur sans biais, cela revient à montrer que : V (βˆT ) → 0 T →+∞ (k ×k ) On a déjà calculé l’expression de la matrice de variances-covariances de βˆT : σ2 X ' X −1 V (βˆT ) = σ2 ( X ' X )−1 = ( ) → 0 ⋅ (V X )−1 = 0 T →+∞ (k ×k ) T T (k ×k ) d’après H5. 29 Conclusion : l’estimateur des MCO converge en moyenne quadratique donc en probabilité vers la vraie valeur du paramètre inconnu. Remarque : Cette hypothèse H5 peut être considérée comme restrictive dans la mesure où elle ne permet pas d’inclure des variables telles que le temps dans le modèle de régression, car la moyenne et la variance d’une telle variable augmentent avec le nombre d’observations. A la formulation de cette hypothèse, on pourra préférer par exemple : H5bis : lim ( X 'X )−1 = 0 . T →∞ (k ,k ) 5.4 La normalité asymptotique de l’estimateur des MCO Pour pouvoir étudier la convergence en loi de l’estimateur des MCO, on va utiliser le théorème central-limite. Pour cela, on va redéfinir H4 en introduisant l’hypothèse d’indépendance des perturbations. H4bis : Les perturbations ut sont indépendamment et identiquement distribuées (iid) d’espérance 0 et de variance σ². On en déduit donc le résultat suivant. Sous les hypothèses H1, H2, H3, H4bis et H5, l’estimateur centré dilaté asymptotiquement une loi normale : T (βˆT − β) suit T (βˆT − β) → N (0, σ2 (VX )−1 ) L Preuve : appliquons le théorème central limite. On a vu que l’estimateur des MCO est une combinaison linéaire avec des poids non aléatoires de lois indépendantes : βˆT = β + (X 'X )−1 X ' ⋅ u On peut donc avoir recours au théorème central-limite. On a vu au point précédent qu’il est nécessaire de dilater βˆT − β , puisque cet estimateur converge en probabilité vers 0 (dans le cas contraire, sa distribution asymptotique serait dégénérée puisque égale à une constante). L’expression de l’espérance et de la variance de cet estimateur étant connue : E [ T (βˆT − β)] = T [E (βˆT ) − β] = 0 σ2 X ' X −1 X ' X −1 V [ T (βˆT − β)] = TV (βˆT ) = T ( ) = σ2 ( ) → σ2 ⋅ (V X )−1 T →+∞ T T T On en déduit donc le résultat énoncé précédemment. Conclusion : - A distance finie (T est fixé), les MCO fournissent des estimateurs sans biais et les plus précis parmi l’ensemble des estimateurs linéaires sans biais. - Au niveau asymptotique (T tend vers l’infini), les MCO fournissent des estimateurs convergents en probabilité et les estimateurs centrés-dilatés suivent asymptotiquement une loi normale. 6 L’hypothèse de normalité des perturbations et ses conséquences Envisageons à présent les conséquences d’une sixième hypothèse : 30 H6 : u ~ N (0, σ2IT ) . Cette hypothèse implique en premier que les perturbations sont indépendantes sous H4. Avec l’hypothèse H4, les perturbations sont à présent indépendantes, plus besoin d’H4bis. Cette hypothèse assez exigeante permettra d’effectuer les tests sur le modèle. Sa pertinence repose sur le fait que nombre de variables économiques observées suivent des lois lognormales et qu’on modélise souvent les variables dans le cadre d’une spécification loglinéaire. Dans ce cas, les perturbations, représentant le logarithme de variables économiques, peuvent être normalement distribuées. Cependant, grâce au théorème central-limite, il n’est pas nécessaire de supposer la normalité des composantes de u pour justifier la normalité des perturbations. La convergence en loi vers la normalité le permet également. En effet, ut peut comprendre une infinité de facteurs indépendamment et identiquement distribués qui jouent additivement. Deux conséquences majeures apparaissent : - La variable y est à présent normalement distribuée comme : y ~ N (X β, σ2IT ) . On va donc pouvoir écrire la vraisemblance. Les estimateurs du maximum de vraisemblance sont ceux des MCO. 6.1 Le critère du maximum de vraisemblance L’idée est de retenir l’estimateur permettant de maximiser la vraisemblance d’un échantillon donné. L’estimateur obtenu est convergent, asymptotiquement efficace et asymptotiquement normal. Comme on a vu que yt ~ N (X t ' ⋅ β, σ2I T ) , il est possible d’écrire la densité de probabilité de l’observation en t : 1 ' 2 − 2 (yt − X t β ) 1 f (yt ) = e 2σ σ 2π L’indépendance des perturbations fait que les yt sont aussi indépendantes. On écrit alors la vraisemblance de l’échantillon comme le produit des densités de probabilités de toutes les réalisations yt : l (β, σ ; y1,..., yT ) = 2 T ∏ f (yt ) = t =1 − 1 (σ 2π ) T e 1 T ' 2 ∑ (yt − X t β ) 2σ2 t =1 = − 1 (σ 2π ) T e 1 2σ2 (y − X β )' (y − X β ) La vraisemblance est donc ici une fonction à plusieurs arguments à valeurs dans IR+. Les estimateurs du maximum de vraisemblance, notés β% et σ% 2 , sont solutions du programme suivant : max l (β, σ2; y1,..., yT ) (β,σ2 ) Il est équivalent de maximiser cette fonction ou le logarithme népérien de cette fonction, puisque la transformation est définie, continue et croissante. Le programme devient alors : max ln l (β, σ2; y1,..., yT ) (β,σ2 ) avec : 31 ln l (β, σ2; y1,..., yT ) = − T 1 ln(2π) − T ln σ − (y − X β)(' y − X β) 2 2σ2 1 (y − X β)'(y − X β) par rapport à β revenant à minimiser (y − X β)(' y − X β) par 2σ2 rapport à β, les estimateurs du maximum de vraisemblance sont identiques à ceux des MCO. Maximiser − Remarques : - L’estimateur des MCO étend donc la portée des propriétés à distance finie mises en évidence précédemment par le théorème de Gauss-Markov. En effet, l’estimateur des MCO possède en plus la propriété d’efficacité asymptotique des estimateurs du maximum de vraisemblance, et cela, quel que soit l’ensemble des estimateurs auxquels on se réfère (linéaires ou pas). C’est donc l’estimateur le plus précis possible ! - Il convient de garder à l’esprit que l’estimateur des MCO ne correspond à celui du maximum de vraisemblance que sous l’hypothèse H6. Il reste à déterminer l’estimateur du maximum de vraisemblance de σ². Au maximum de vraisemblance, on sait qu’on vérifie la condition du premier ordre : ∂ ln l (β, σ2; y1,..., yT ) ∂σ β=β% σ2 =σ% 2 =0 Ainsi, et d’après l’équivalence entre les estimateurs des MCO et du maximum de vraisemblance : − T 1 + (y − X βˆ )(' y − X βˆ ) = 0 σ% σ% 3 d’où : σ% 2 = 1 1 SCR (y − X βˆ )(' y − X βˆ ) = uˆ 'uˆ = T T T 6.2 La loi de l’estimateur des paramètres inconnus du premier ordre A distance finie, il est assez simple de voir que : βˆ N (β, σ2 (X ' X )−1 ) Preuve : c’est trivial quand on applique les propriétés de combinaison linéaire de lois normales. On peut exprimer l’estimateur comme une combinaison linéaire non aléatoire de y, qui dépend de u, un vecteur de lois normales. C’est donc un vecteur de lois normales. Dès lors, comme on connaît ses moments (espérance et variance), ce vecteur aléatoire est parfaitement défini. 32 7 Interprétation géométrique des MCO Pour examiner les vecteurs de variables, plaçons-nous à présent dans l’espace des observations, c’est-à-dire IRT. En effet, il est nécessaire d’avoir T observations pour définir le vecteur de la variable à expliquée et les k vecteurs des variables explicatives. La matrice X, si elle est de rang égal à k, définit un sous-espace vectoriel de l’espace des observations IRT de dimension k. Ce sous-espace vectoriel noté L est donc engendré par les k vecteurs qui le composent. y û ŷ L Le principe consiste donc à trouver ŷ = X ⋅ βˆ , c’est-à-dire une combinaison linéaire particulière des vecteurs du sous-espace vectoriel L tel que la distance entre y et ŷ soit minimale. D’après les résultats énoncés au chapitre précédent, on sait que cela implique que ŷ est la projection orthogonale sur L du vecteur y et s’exprime comme une combinaison linéaire unique des vecteurs qui le composent. Cela est illustré dans le graphique précédent. On en déduit donc que le vecteur uˆ = y − yˆ (T ×1) (T ×1) (T ×1) est orthogonal au plan L et donc à toutes les vecteurs qui le composent. On a donc le produit scalaire suivant : X' uˆ = 0 (k ×T )(T ×1) (k ×1) Ainsi : X ' (y − yˆ ) = 0 ⇔ X ' ( y − X ⋅ βˆ ) = 0 (k ×T ) (T ×1) ⇔ X' (k ×1) y = X' (k ×T ) (T ×1) (k ×T ) (T ×1) (T ×k ) (k ×1) (k ×1) X ⋅ βˆ ⇔ βˆ = (X 'X )−1 X ' ⋅ y (k ×T ) (T ×k ) (k ×1) (k ×1) (k ×k ) (k ×T ) (T ×1) C’est donc l’équivalent du système d’équations normales établies auparavant. Pour asseoir ces résultats, il est utile d’introduire une certaine catégorie de matrices qui se révéleront très pratiques par la suite : les projecteurs. 33 Ce sont des matrices de projection orthogonale. Elles possèdent la propriété d’être égales à leur transposée ( P ' = P ) et à toute puissance entière d’elle-même ( P n = P ). Elles sont donc symétriques et idempotentes. De plus, leur rang est égal à la dimension de leur espace de projection. On va s’intéresser ici à deux projecteurs particuliers : PX (T ×T ) = X (X 'X )−1 X ' M X = I T − PX = I T − X (X 'X )−1 X ' (T ×T ) PX est la matrice de projection sur le plan projection, à savoir k. L. Son rang est égal à la dimension de l’espace de MX est la matrice de projection sur le plan orthogonal à L. Son rang est égal à la dimension de l’espace de projection, à savoir T-k. Comme PX et MX projettent sur des espaces orthogonaux, on vérifiera que : PX ⋅ M X (T ×T ) (T ×T ) = 0 PX ⋅ X (T ×T ) (T ×k ) = X (T ×T ) ainsi que : (T ×k ) puisque X appartient déjà à l’espace d’arrivée et MX ⋅ X (T ×T ) (T ×k ) = 0 (T ×k ) On peut dès lors fournir une interprétation de ŷ et de û . Ainsi : yˆ = X ⋅ βˆ = X ( X 'X )−1 X ' ⋅ y = PX ⋅ y uˆ = y − yˆ = (IT − PX ) ⋅ y = M X ⋅ y De cette dernière équation, on peut également déduire : uˆ = M X ⋅ y = M X ⋅ (X ⋅ β + u ) = M X ⋅ X ⋅ β + M X ⋅ u = M X ⋅ u 1 424 3 0 relation qui nous sera utile pour déduire les propriétés des estimateurs. 7.1 Application n°1 : l’estimateur de la variance des perturbations est sans biais Montrons qu’il est sans biais. On a vu qu’on pouvait écrire : uˆ = M X ⋅ u Dès lors, on peut poser : uˆ 'uˆ = (M X ⋅ u )' ⋅ (M X ⋅ u ) = u ' ⋅ M X ⋅ u (1×1) 34 d’après les propriétés de symétrie et d’idempotence des projecteurs orthogonaux. Prenons à présent l’espérance de cette expression : E (uˆ 'uˆ ) = E (u ' ⋅ M X ⋅ u ) = E (tr (u ' ⋅ M X ⋅ u )) (1×1) Toujours d’après les propriétés de l’opérateur de la trace, on peut écrire : E (uˆ 'uˆ ) = E (tr (M X ⋅ u ⋅ u ' )) = tr (E (M X ⋅ u ⋅ u ' )) = tr (M X ⋅ E (u ⋅ u ' )) 1 424 3 (1×1) (T ×T ) σ2 I T = σ2tr (M X ) = σ2 (T − k ) (T ×T ) grâce aux hypothèses 3 et 4 et au fait que tr ( M X ) = T − k , ce qui est assez simple à montrer. Dès lors, on peut en déduire un estimateur sans biais de σ² : 1 uˆ 'uˆ σ2 ) = σ2 E (uˆ 'uˆ ) = σ2 ⇔ E ( ) = E (ˆ (1×1) T −k T −k uˆ 'uˆ pour estimer la variance des perturbations T −2 dans le cadre du modèle de régression linéaire simple. ˆ2 = C’est la raison pour laquelle on utilise σ On constate ici que l’estimateur du maximum de vraisemblance de la variance des perturbations σ̂2 ≠ σ% 2 puisqu’on a précédemment défini un estimateur de la variance des perturbations comme : σ ˆ2 = SCR T −k L’estimateur σ% 2 du maximum de vraisemblance est donc biaisé négativement à distance finie puisque σ̂2 est sans biais : SCR T − k SCR T −k 2 E( ) = σ2 ⇔ E( )= σ T −k T T −k T T − k SCR T −k 2 SCR k ⇔ E( )= σ ⇔ E( ) = (1 − ) σ2 < σ2 T T −k T T T La méthode du maximum de vraisemblance conduit donc à une sous-estimation systématique de la vraie valeur σ2 mais fournit un estimateur cependant plus précis. A contrario, le biais tend asymptotiquement vers 0 et l’estimateur est convergent. On a donc un arbitrage à faire selon que l’on est à distance finie ou non entre un estimateur biaisé mais plus précis et un estimateur non biaisé mais moins précis. 7.2 Application n°3 : loi suivie par l’estimateur de la variance 7.2.1 Deux résultats sur la distribution des formes quadratiques R3 : Soit le vecteur X N (0, Σ) , avec Σ sa matrice de variance-covariances, une matrice symétrique définie positive de taille n. Alors : X 'Σ−1X 35 χ2(n ) R4 : Soit X à n. Alors : N (0, σ2I n ) et A une matrice symétrique et idempotente de rang r inférieur ou égal 1 σ2 X' ⋅ A ⋅ X χ2(r ) Preuves détaillées : en 4 coups à la fin de ce chapitre. 7.2.2 Loi de l’estimateur de la variance On a : (T − k ) σ ˆ2 σ 2 = SCR σ 2 χ2(T − k ) Preuve : on sait que : u N (0, σ2I n ) et on a vu qu’on pouvait écrire : uˆ = M X ⋅ u avec MX le projecteur orthogonal sur le plan orthogonal à celui formé par les k variables explicatives du modèle linéaire. Le rang de cette matrice symétrique et idempotente est égal à (T − k). Dès lors : (T − k ) σ ˆ2 σ 2 = SCR σ 2 = uˆ'uˆ σ 2 = 1 σ 2 (M X ⋅ u )' ⋅ (M X ⋅ u ) = 1 σ 2 u' ⋅ M X ⋅ u χ2(T − k ) en appliquant simplement R4 à l’expression. 7.3 Application n°3 : le théorème de Frish-Waugh Soit le modèle de régression multiple suivant : y = X (T ×1) β + Z c + u (T ×k ) (k ×1) (T × p ) ( p ×1) (T ×1) Ce modèle comporte k + p variables explicatives scindées en deux sous-groupes notés X et Z. On ne s’intéresse en fait qu’à l’influence de β. Théorème de Frish Waugh : soient les modèles : y = X (T ×1) β + Z c + u (T ×k ) (k ×1) (T × p ) ( p ×1) (T ×1) et MZ ⋅ y = MZ ⋅ X β + MZ ⋅ u (T ×1) (T ×k ) (k ×1) 36 (T ×1) avec M Z = I T − PZ le projecteur sur l’espace orthogonal des variables composant Z. L’estimateur des MCO obtenu dans la première régression et noté β̂1 est identique à celui obtenu dans la seconde régression et noté β̂2 . Démonstration : en appliquant l’estimateur des MCO à la seconde régression, on a : βˆ 2 = [(M Z ⋅ X )'(M Z ⋅ X )]−1(M Z ⋅ X )(' M Z ⋅ y ) = [ X ' ⋅ M Z ' ⋅ M Z ⋅ X ]−1 X ' ⋅ M Z ' ⋅ M Z ⋅ y = [ X ' ⋅ M Z ⋅ M Z ⋅ X ]−1 X ' ⋅ M Z ⋅ M Z ⋅ y = [ X ' ⋅ (M Z )2 ⋅ X ]−1(X ' ⋅ (M Z )2 ⋅ y ) = [ X ' ⋅ M Z ⋅ X ]−1 X ' ⋅ M Z ⋅ y d’après les propriétés de symétrie et d’idempotence caractérisant un projecteur orthogonal. Repartons à présent de la première régression écrite sous forme partitionnée : β (k ×1) y = X Z ⋅ + (Tu×1) (T ×k ) (T × p ) (T ×1) 14 4244 3 ( pc×1) W 123 (T ×(k + p )) γ ((k + p )×1) Le système d’équations normales de cette régression s’écrit donc : (W ' ⋅ W ) ⋅ ˆγ = W ' ⋅ y soit encore sous forme partitionnée : ' βˆ ' X X 1 (k ×T ) (k ×1) (k ×T ) Z ⋅ = X ⋅ y ⇔ (T ×k ) (T × p ) cˆ1 Z ' (T ×1) Z ' 14 4 244 3 ( p×T ) ( p×1) ( p ×T ) W 424 3 424 3 1 123 1 (T ×(k + p )) ' ' ˆγ W W ((k + p )×T ) ((k + p )×1) ((k + p )×T ) X' X (k ×T ) (T ×k ) ' X Z ( p×T ) (T ×k ) ' Z βˆ1 X y (k ×T ) (T ×1) (k ×1) = ⋅ Z ' Z cˆ1 Z ' y ( p×T ) (T × p ) ( p ×1) ( p ×T ) (T ×1) X' (k ×T ) (T × p ) soit encore en développant sous la forme de deux blocs d’équations normales : X 'X βˆ1 + X 'Z cˆ1 (k ×k ) (k ×1) (k × p ) ( p ×1) = X 'y Z X β1 + Z Z cˆ1 ( p×k ) (k ×1) ( p× p ) ( p×1) = Z 'y ' ˆ ' (k ×1) ( p ×1) Du second bloc d’équations, on déduit l’expression de l’estimateur de c : cˆ1 = [ Z 'Z ]−1 Z 'y − [ Z 'Z ]−1 Z 'X βˆ1 ( p ×1) ( p× p ) ( p ×1) ( p× p ) que l’on réintroduit dans le premier bloc d’équations : 37 ( p ×k ) (k ×1) X 'X βˆ1 + X 'Z [ Z 'Z ]−1 Z 'y − [ Z 'Z ]−1 Z 'X βˆ1 = X 'y (k ×k ) (k ×1) (k × p ) ( p × p ) ( p×k ) (k ×1) (k ×1) ( p ×1) ( p × p ) En développant et en réorganisant l’expression : X 'X ⋅ βˆ1 − X ' ⋅ Z ⋅ [ Z 'Z ]−1 ⋅ Z ' ⋅ X ⋅ βˆ1 = X 'y − X ' ⋅Z ⋅ [Z 'Z ]−1 ⋅ Z ' ⋅ y 1442443 1442443 PZ PZ En mettant β̂1 en facteur à droite : (X 'X − X 'PZ X ) ⋅ βˆ1 = (X ' − X 'PZ ) ⋅ y puis en mettant X’ en facteur à gauche et X à droite : X ' ⋅ (I T − PZ ) ⋅ X ⋅ βˆ1 = X ' ⋅ (IT − PZ ) ⋅ y 1424 3 1 424 3 MZ MZ ⇔ βˆ1 = (X ' ⋅ M Z ⋅ X )−1(X ' ⋅ M Z ⋅ y ) = βˆ 2 on retrouve l’expression de l’estimateur des MCO de la seconde régression. Conclusion : même si on ne s’intéresse pas aux effets des variables de Z, on ne peut cependant pas les éliminer de la régression si elles sont pertinentes pour expliquer y sous peine de travailler avec des estimations fausses de β. En effet, si on estime le modèle y = Xβ + u l’estimateur obtenu est donc : βˆ = (X ' X )−1 X 'y . Or, si le vrai modèle est y = X β + Zc + u il est nécessaire de tenir compte de l’influence des variables Z en estimant le modèle suivant : MZ ⋅y = MZ ⋅ X ⋅ β + MZ ⋅ u où les variables sont toutes projetées sur l’espace orthogonal aux variables Z. Dès lors, toutes les variables sont filtrées de l’influence des variables Z. 8 Questions diverses 8.1 Le poids des observations dans l’estimation par les MCO Plaçons-nous dans le cas du modèle de régression linéaire simple pour fixer les idées : yt = a + b xt + ut L’estimateur b̂ peut se réécrire : 38 T bˆ = (y − y ) T ∑ (yt − y ) ⋅ (xt − x ) ∑ (xt − x )2 (xtt − x ) t =1 = T ∑ (xt − x )2 t =1 = T ∑ (xt − x )2 t =1 T (y − y ) ∑ pt ⋅ (xtt − x ) t =1 t =1 yt − y est la pente du segment joignant le point (xt, yt) au point moyen ( x, y ). On a : xt − x pt = 2 (x t − x ) T ∑ ≥0 2 (x t − x ) t =1 T ∑ pt =1 t =1 La pente estimée est donc la moyenne pondérée des pentes des segments joignant toutes les 2 observations au point moyen de l’échantillon. Le poids pt est fonction de (xt − x ) , autrement dit il donne d’autant plus de poids au point éloigné du point moyen. Dès lors, la droite de régression est fortement influencée par les points extrêmes et dont la pente est très différente de celle de la droite de régression. Une méthode pour corriger ce défaut est d’éliminer les points dits aberrants, c’est-à-dire trop éloignés du point moyen. Ce type de pratique repose sur le jugement de l’économètre, ainsi que sur différents indices. 8.2 L’équation d’analyse de la variance La première équation normale implique : eT ' ⋅ uˆ = 0 ⇔ T ∑ uˆt = 0 ⇔ uˆ = 0 t =1 Ce premier résultat provient toujours du fait qu’il y a une constante dans le modèle. La moyenne empirique des résidus estimés est donc égale à 0. Ce résultat est la contrepartie empirique de l’hypothèse H1. De cela, on peut déduire comme précédemment que la moyenne de la variable à expliquer est égale à la moyenne de la valeur ajustée. En effet, comme : y = yˆ + uˆ ⇒ T ∑ t =1 yt = T ∑ t =1 yˆt + T ∑ uˆt ⇒ t{ =1 y = yˆ 0 On en déduit donc que l’hyperplan ajustant le nuage des observations passe par le point moyen. yˆ = y = aˆ + bˆ1 x1 + ... + bˆk −1 xk −1 L’analyse de la variance découle de ces deux résultats : y (T ×1) = yˆ + uˆ (T ×1) (T ×1) En retranchant y eT de chaque coté de l’égalité, il vient : y − y eT = (yˆ − y eT ) + uˆ 39 Les deux termes du membre de droite sont orthogonaux car soustraire le scalaire y eT de ŷ ne modifie pas sa propriété d’orthogonalité avec û . On peut donc appliquer le théorème de Pythagore : y − y eT 2 2 = yˆ − y eT + uˆ 2 soit encore : T ∑ ( yt − y )2 = t =1 14243 SCT T ∑ ( yˆt − y )2 + T ∑ uˆt2 ⇔ V ( y) = V ( yˆ ) + V (uˆ) t =1 t =1 { 14243 SCR SCE La variance de y est égale à la variance expliquée par le modèle plus la variance résiduelle. Remarque : encore une fois on remarque que tout provient de la première équation normale (qui implique que uˆ = 0 et y = yˆ ). Dans le cas où il n’y aurait pas de constante dans le modèle, l’analyse de la variance serait impossible. 8.3 Le coefficient de détermination 8.3.1 Définition Grâce à l’analyse de la décomposition de la variance, ce coefficient se définit très simplement comme la part de la variance expliquée par le modèle rapportée à la variance totale : T V ( yˆ ) SCE R2 = = = V ( y ) SCT ∑ ( yˆt − y )2 t =1 T ∑ ( yt − y )2 t =1 Il est facile de voir dans l’équation de la variance que : T T ∑ (yˆt − y )2 t =1 T ∑ ∑ uˆt2 + 2 (yt − y ) t =1 t =1 T ∑ =1 2 (yt − y ) t =1 d’où : T R2 = 1 − SCR =1− SCT ∑ uˆt2 t =1 T ∑ ( yt − y )2 t =1 Le coefficient de détermination prend donc des valeurs comprises entre 0 et 1. Au pire, le modèle n’explique rien, au mieux il explique toute la variance de la variable y. 40 8.3.2 Le R² comme coefficient de corrélation Dans le modèle de régression linéaire simple, le coefficient de détermination est égal au 2 carré du coefficient de corrélation linéaire rx ,y entre les variables explicative et expliquée x et y. Preuve : repartons de la définition du coefficient de corrélation linéaire. sx2, y rx2, y = sx2 sy2 Repartons de la définition de R² : T T ∑ (aˆ + bˆ xt − aˆ − bˆ x )2 R2 = (xt − x )2 ∑ 2 t =1 = bˆ T ∑ (yt − y )2 t =1 t =1 T ∑ (yt − y )2 2 s = bˆ2 x2 sy t =1 sx , y Or, on sait que bˆ = 2 . Dès lors, sx R2 = sx2, y sx2 sx2sx2 sy2 = sx2, y sx2sy2 = rx2, y 8.3.3 Interprétation géométrique du R² On peut directement réécrire : T ∑ (yˆt − y )2 R2 = t =1 T ∑ (yt − y )2 = yˆt − y eT 2 yt − y eT 2 = cos2 w t =1 avec w l’angle formé par les deux vecteurs dans le triangle rectangle. D’où des interprétations très intuitives. Plus le R² est élevé, plus les variables sont corrélées. Ou encore, plus le pouvoir explicatif du modèle est élevé, plus y est proche de ŷ , plus l’angle est faible et plus le cosinus et donc le R² est proche de 1. 8.3.4 Les limites du R² : premier exemple Il ne faut cependant pas attacher trop d’importance à cette mesure pour juger de la qualité de l’ajustement d’un modèle. En effet, elle est très dépendante de la forme des variables dans le modèle. Illustration : Soit le modèle suivant : yt = a + b xt + ut Réécrivons-le en posant : z t = yt − xt . On a alors : yt − xt = a + (b − 1)xt + ut ⇔ z t = α + βxt + wt 41 1 Ces deux modèles sont équivalents mais si bˆ < , alors on obtiendra un R² supérieur avec 2 l’estimation du second modèle. Preuve : dans les deux cas, les droites de régression passent par les points moyens. Ainsi, on a : y = aˆ + bˆ x ˆ + βˆ x z =α Comme z t = yt − xt , on a alors z = y − x . On peut donc réécrire : y = aˆ + bˆ x ˆ + (βˆ + 1)x y = α On en déduit donc : ˆ aˆ = α ˆ b = 1 + βˆ Les résidus estimés peuvent donc s’écrire : ˆ t = zt − α ˆ − βˆ xt = zt − aˆ − (bˆ − 1)xt = zt + xt − aˆ − bˆ xt = yt − aˆ − bˆ xt = uˆt w Posons les formules des R² dans les deux cas : T T ∑ uˆt2 1 − R(2i ) = ∑ wˆ t2 t =1 T 1 − R(2ii ) = ∑ (yt − y ) 2 t =1 t =1 T ∑ (zt − z )2 t =1 Les deux expressions ne diffèrent que par leur dénominateur. Or ici, R(2ii ) > R(2i ) ⇔ ⇔ T T T T t =1 t =1 t =1 t =1 ∑ (zt − z )2 > ∑ (yt − y )2 ⇔ ∑ [(yt − y ) − (xt − x )]2 > ∑ (yt − y )2 T T T T t =1 t =1 t =1 t =1 ∑ (yt − y )2 + ∑ (xt − x )2 − 2∑ (yt − y )(xt − x ) > ∑ (yt − y )2 T ∑ (yt − y )(xt − x ) ⇔ t =1 T ∑ ( xt − x ) 2 < 1 1 ⇔ bˆ < 2 2 t =1 8.3.5 Les limites du R² : second exemple On a vu à la section précédente que le coefficient de détermination n’était pas un critère sur lequel on pouvait fonder seul l’analyse d’un modèle économétrique. En effet, on a vu qu’on pouvait, sous une certaine condition, faire augmenter ce coefficient en manipulant les données. Ici, nous constatons qu’il peut également augmenter de façon mécanique en ajoutant des variables explicatives dans le modèle. 42 Démonstration : Envisageons le modèle suivant y = X β + u1 (T ×k ) (k ×1) (T ×1) (T ×1) ainsi qu’un nouveau modèle avec seulement une variable explicative supplémentaire : y = X (T ×1) β + z c + u2 (T ×k ) (k ×1) (T ×1) (1×1) (T ×1) Ce modèle peut se réécrire en posant la matrice des explicatives W comme suit : W (T ×(k +1)) = X z ( T × k ) ( 1) T × On définit ŷ1 et ŷ2 comme : yˆ1 = PX ⋅ y yˆ2 = PW ⋅ y grâce aux projecteurs PX et PW projetant sur le plan respectivement formé par les variables de X et de W. Les résidus estimés û1 et û2 sont orthogonaux à ces matrices. Si le coefficient de détermination de la seconde équation est supérieur à celui de la première équation, on a alors : T T ∑ uˆ2,2 t R22 ≥ R12 ⇔ 1 − ∑ uˆ1,2t t =1 ≥1− T ∑ (yt − y ) t =1 T ∑ (yt − y )2 2 t =1 t =1 ce qui implique que : T T t =1 t =1 ∑ uˆ1,2t ≥ ∑ uˆ2,2 t Montrons que c’est le cas : en effet : uˆ1 = y − yˆ1 ⇔ uˆ1 = y − yˆ2 + yˆ2 − yˆ1 = uˆ2 + yˆ2 − yˆ1 123 =uˆ2 Le vecteur û2 est orthogonal au plan formé par les variables de X puisque ce dernier est inclus dans celui formé par les variables de W. Comme ŷ1 et ŷ2 appartiennent respectivement à ces deux plans, il est clair que û2 est orthogonal à ŷ2 - ŷ1 . Dès lors, d’après le théorème de Pythagore, on peut écrire : uˆ1 2 = uˆ2 2 + yˆ2 − yˆ1 2 ⇒ uˆ1 2 ≥ uˆ2 2 ⇒ R22 ≥ R12 Pour obtenir l’égalité, il faudrait que yˆ2 = yˆ1 , c’est-à-dire que cˆ = 0 . 43 Ainsi, il suffit d’introduire des variables supplémentaires dans la régression pour faire augmenter le coefficient de détermination de façon mécanique et cela quelque soit la pertinence du modèle considéré. 8.3.6 Le coefficient de détermination ajusté Cet indicateur est noté R 2 . Il vise à fournir une indication concernant la part de la variance totale expliquée par le modèle mais corrigée de l’effet mécanique induit par l’ajout de variables supplémentaires. Il est défini comme : T ∑ uˆt2 t =1 R =1− T −k 2 T ∑ (yt − y )2 t =1 T −1 L’ajout d’une variable supplémentaire implique comme on l’a vu la diminution de la somme des carrés des résidus, mais également celle de T − k (car k augmente). On n’a dès lors plus une augmentation systématique de cet indicateur lors de l’ajout d’une variable explicative supplémentaire. Le coefficient de détermination ajusté est un rapport de deux estimateurs sans biais de la variance des résidus et de la variance totale. Il est évident de voir que pour maximiser cet indicateur, il est nécessaire de minimiser la valeur de variance des résidus. Il présente également l’inconvénient d’être manipulable et de pouvoir prendre des valeurs négatives. En effet, le coefficient ajusté peut se réécrire facilement comme : 1 − R2 = T −1 (1 − R 2 ) T −k et il peut devenir négatif dès lors que : 1 − R2 > T −k T −1 ce qui rend difficile son interprétation comme un rapport de variance. Comme son prédécesseur, il ne faut donc pas fonder une analyse ou une validation de modèle uniquement sur l’observation du coefficient de détermination ajusté. 8.4 Prédictions de la variable expliquée Dans le cadre du modèle linéaire : yt (1,1) = X t' ⋅ β + ut (1,k ) (k ,1) (1,1) on cherche à prévoir la valeur y0 de la variable expliquée à partir des valeurs particulières X0. On suppose donc d’après notre modèle que : y 0 = X 0' ⋅ β + u0 La prédiction proposée sera donc : 44 ŷ 0 = X 0' ⋅ βˆ et on pourra avoir l’erreur de prévision suivante : eˆ0 = yˆ0 − y0 calculable une fois y0 observée. ê 0 est une variable aléatoire dont la réalisation dépend de la réalisation (non observée au moment de la prédiction) de y0. Caractérisons les propriétés de cette erreur de prévision : eˆ0 = yˆ0 − y 0 = X 0' ⋅ βˆ − ( X 0' ⋅ β + u0 ) = X 0' ⋅ (βˆ − β ) − u0 Sous les hypothèses H1 à H3, ê0 est d’espérance nulle, X0 est certaine et les estimateurs sont sans biais. On a donc : E (eˆ0 ) = E [ X 0' ⋅ (βˆ − β ) − u0 ] = X 0' ⋅ [E (βˆ ) − β] − E (u0 ) = 0 Autrement dit, le prédicteur ŷ0 de y0 est sans biais. Pour ce qui est de la variance : V (eˆ0 ) = E [(eˆ0 )2 ] = E [(X 0' ⋅ (βˆ − β) − u0 ) ⋅ (X 0' ⋅ (βˆ − β) − u0 )' ] = E [ X 0' ⋅ (βˆ − β) ⋅ (βˆ − β)' ⋅ X 0 − X 0' ⋅ (βˆ − β) ⋅ u0 − u0 ⋅ (βˆ − β)' ⋅ X 0 + u02 ] = E [ X 0' ⋅ (βˆ − β) ⋅ (βˆ − β)' ⋅ X 0 ] + E [u02 ] = X 0' ⋅ E [(βˆ − β) ⋅ (βˆ − β)' ] ⋅ X 0 + E [u02 ] 144 42444 3 V (βˆ ) = X 0' ⋅ σ2 (X 'X )−1 ⋅ X 0 + σ2 = σ2(1 + X 0' ⋅ (X 'X )−1 ⋅ X 0 ) puisque β constant, X0 certain et donc non corrélée avec tous les autres termes et que sous H4, u0 est non corrélée avec les ut et donc avec les estimateurs. La variance de l’erreur de prévision est donc proportionnelle : - A l’incertitude irréductible (la perturbation u0 étant imprévisible), - A un terme intégrant la variance de l’estimateur des MCO. Ainsi, plus on est imprécis sur la valeur de l’estimateur, plus la variance de l’erreur de prévision sera importante. 45 Annexes R1 : Supposons que le vecteur X soit composé de n lois normales centrées réduites, identiquement et indépendamment distribuées : X N (0, I n ) ⇔ xi N (0,1) i ∈ 1, n On sait d’après le cours de probabilités que la forme quadratique suit une loi du Chi-deux : X 'X = n n i =1 i =1 ∑ xi2 = ∑ "(N (0,1))2 " χ2(n ) R2 : Supposons que le vecteur X soit à présent composé de n lois normales centrées et de variance σ², identiquement et indépendamment distribuées : X N (0, σ2I n ) ⇔ x i N (0, σ2 ) i ∈ 1, n On sait d’après le cours de probabilités que la forme quadratique formée par la somme de lois normales centrées réduites au carré suit une loi du Chi-deux : 1 σ2 X 'X = 2 n xi = σ i =1 ∑ n ∑ " ( N (0,1)) 2 " χ2(n ) i =1 Cette expression peut encore se réécrire : X '(σ2I )−1 X χ2(n ) avec l’inverse de σ2I la matrice caractérisant la forme quadratique. R3 : Soit le vecteur X N (0, Σ) , avec Σ sa matrice de variance-covariances, une matrice symétrique définie positive de taille n. Alors : X 'Σ−1X χ2(n ) Ce résultat n’est pas direct car les lois normales ne sont pas linéairement indépendantes (Σ est non diagonale). L’idée est de réécrire ces lois normales comme une somme de lois normales indépendantes. On peut réécrire cette forme quadratique en diagonalisant la matrice Σ. On obtient alors : Σ = Q ⋅ D ⋅ Q −1 = Q ⋅ D ⋅ Q ' avec Q −1 = Q ' car Σ est une matrice symétrique. Comme Σ est une matrice de variancescovariances, ses valeurs propres portées sur la diagonale principale de la matrice D sont toutes strictement positives (une valeur propre nulle impliquerait un déterminant nul pour cette matrice ce qui n’est pas possible pour une matrice de variances-covariances). On peut donc décomposer la matrice D comme : 46 1 Σ =Q D32 ⋅ D 1 4⋅24 P 1 2 ⋅ Q' = P ⋅ I ⋅ P ' = P ⋅ P ' On est alors dans la base euclidienne, et non plus dans une base des vecteurs propres. On peut donc en déduire l’expression de la matrice Σ −1 : Σ−1 = (P ⋅ P ' )−1 = (P ' )−1 ⋅ P −1 = (P −1)' ⋅ P −1 d’après les propriétés de l’inversion et de la transposition des matrices, ainsi que : −1 Σ = P ⋅ P ' ⇔ P −1 ⋅ Σ ⋅ (P ' )−1 = P ⋅3 P ⋅ P ' ⋅ (P ' )−1 ⇔ P −1 ⋅ Σ ⋅ (P −1 )' = I 1 424 1424 3 I I Ceci étant fait, définissons à présent le vecteur Y = P −1X . Comme X est un vecteur de variables aléatoires normales, Y l’est aussi comme combinaison linéaire de lois normales. Calculons leurs moments : E (Y ) = E (P −1X ) = P −1E ( X ) = 0 V (Y ) = V (P −1X ) = E [(P −1X )(P −1X )' ] = E [P −1XX '(P −1 )' ] = P −1E [ XX ' ](P −1)' = P −1Σ(P −1 )' = I On est donc en présence de lois normales indépendantes centrées réduites. D’où d’après R1 : χ2(n ) Y 'Y On peut en déduire que : Y 'Y = (P −1X )'(P −1X ) = X ' (P −1 )' P −1 X = X 'Σ −1X 14243 Σ −1 χ2(n ) R4 : Supposons enfin que : X N (0, I n ) ⇔ xi N (0,1) i ∈ 1, n et la forme quadratique suivante : X ' ⋅ A ⋅ X avec A une matrice symétrique et idempotente de rang r inférieur ou égal à n. On reconnaît ici la définition d’un projecteur. Diagonalisons cette matrice. On obtient Q la matrice des vecteurs propres (attention : Q est orthogonale. On a donc Q −1 = Q ' car A est symétrique) et Λ, la matrice diagonalisée, a donc la forme suivante : 1 1 0 O ' Q AQ = Λ = 1 0 0 O 0 47 avec r valeurs propres unitaires et n−r valeurs propres nulles. Posons : Y = Q 'X et X = QY Comme X est un vecteur de lois normales, Y l’est aussi comme combinaisons linéaires de lois normales. Calculons leurs moments : E (Y ) = E (Q 'X ) = Q 'E ( X ) = 0 V (Y ) = V (Q ' ⋅ X ) = E [(Q 'X ) ⋅ (Q 'X )' ] = E [Q ' ⋅ X ⋅ X ' ⋅ Q ] = Q ' ⋅ E [ XX ' ] ⋅ Q = Q 'Q = I 1 424 3 I On est donc en présence de lois normales indépendantes centrées réduites. La forme quadratique initiale s’exprime donc : ' X' ⋅ A ⋅ X = Y ' ⋅Q A ⋅3 Q ⋅Y 14⋅24 Λ On est donc en présence d’une somme de r lois normales indépendantes centrées réduites au carré puisque ne subsistent que les éléments de Λ différents de 0. D’où : X' ⋅ A ⋅ X χ2(r ) On en déduit donc le résultat général suivant : soit X 1 idempotente de rang r. Alors 2 X ' ⋅ A ⋅ X χ2(r ) . σ 48 N (0, σ2I n ) et A une matrice Chapitre 2 Inférence dans le modèle linéaire Dans le chapitre précédent, nous avons envisagé l’estimation du modèle linéaire général. Nous avons étudié un estimateur particulier, celui des moindres carrés ordinaires, et montré que sous les hypothèses standards de la régression, il possédait les meilleures propriétés possibles. Nous avons donc à présent à notre disposition une estimation ponctuelle pour les paramètres du modèle, ainsi qu’une mesure de la précision de cette estimation, au travers des variances fournies par la matrice de variances-covariances des estimations. Cependant, cette estimation est intimement liée à l’échantillon utilisé et serait certainement différente numériquement pour un autre échantillon. En effet, l’estimateur donne en espérance la vraie valeur du paramètre inconnu mais l’estimation obtenue est une réalisation particulière de la variable aléatoire que constitue cet estimateur. Plusieurs types de question se posent à présent. • D’abord, à la place d’une estimation ponctuelle, ne pourrait-on pas fournir plutôt un intervalle pour le paramètre inconnu, qui tiendrait compte de l’incertitude liée au modèle estimé, à l’échantillon utilisé, … ? • Ensuite, au regard de la valeur estimée du paramètre inconnu, ne pourrait-on pas envisager l’hypothèse que la valeur de ce paramètre inconnu n’est pas statistiquement différente d’une valeur prédite par la théorie ? (Exemple : dans une équation de salaires, ne pourrait-on pas envisager que le taux de croissance des salaires nominaux est parfaitement indexé sur le taux de croissance des prix ?) Ou encore, si la variable explicative n’est pas pertinente, ne pourrait-on pas tester la nullité du paramètre qui lui est associée et donc l’exclure du modèle ? • Enfin, ne pourrait-on pas généraliser cette dernière procédure à plusieurs paramètres estimés simultanément, et ainsi réaliser un test joint ? (Exemple : dans une équation de Cobb-Douglas estimée, la somme des coefficients estimés sur le travail et le capital est-il significativement différent de 1 ?). Ou encore, si plusieurs variables explicatives ne semblent pas pertinentes, ne pourrait-on pas tester leur nullité simultanément ? Est-il alors différent de tester individuellement ou de façon jointe ? 49 Nous allons donc envisager dans ce chapitre les résultats concernant l’estimation des paramètres par intervalle de confiance, et la réalisation de tests simples et de tests joints sur les paramètres, ainsi que l’estimation d’un modèle sous contraintes et ses implications. 1 Résultats préliminaires 1.1 Indépendance de deux formes quadratiques Supposons que Z N (0, σ2I n ) et qu’on est en présence de deux formes quadratiques de Z, Z ' ⋅ A ⋅ Z et Z ' ⋅ B ⋅ Z avec A et B deux matrices symétriques et idempotentes. Nous cherchons les conditions pour lesquelles ces deux formes quadratiques sont indépendamment distribuées. Comme ces matrices sont symétriques et idempotentes, on peut réécrire : Z ' ⋅ A ⋅ Z = (AZ )'(AZ ) Z ' ⋅ B ⋅ Z = (BZ )(' BZ ) Si chacune des variables dans les vecteurs AZ et BZ ont une corrélation nulle, alors elles sont indépendamment distribuées, et de même pour toute fonction de ces vecteurs telle que Z’AZ et Z’BZ. Calculons la covariance entre ces deux vecteurs : E [(A ⋅ Z )(B ⋅ Z )' ] = E [ A ⋅ Z ⋅ Z ' ⋅ B ' ] = A ⋅ E [Z ⋅ Z ' ] ⋅ B = σ2AB 1424 3 σ2I n Dès lors, les covariances (et donc les corrélations) sont nulles si AB = BA = 0 (puisqu’on est en présence de matrices symétriques), ce qui implique l’indépendance des deux formes quadratiques ici (du fait de l’hypothèse de normalité). 1.2 Indépendance entre une forme quadratique et une combinaison linéaire Supposons que Z N (0, σ2In ) et qu’on est en présence d’une forme quadratique Z ' ⋅ A ⋅ Z et d’une combinaison linéaire L ⋅ Z . A est une matrice symétrique et idempotente de taille n et L est une matrice de taille (m × n) quelconque. Nous cherchons les conditions pour lesquelles ces deux fonctions sont indépendamment distribuées. On va pour cela calculer la corrélation entre les vecteurs AZ et LZ : E [(A ⋅ Z )(L ⋅ Z )' ] = E [ A ⋅ Z ⋅ Z ' ⋅ L' ] = A ⋅ E [ Z ⋅ Z ' ] ⋅ L' = σ2AL' 1424 3 σ2I n Dès lors, les covariances (et donc les corrélations) sont nulles si AL’ = 0 ou de façon équivalente LA = 0 (puisque A est une matrice symétrique par définition), ce qui implique l’indépendance des deux formes quadratiques ici (du fait de l’hypothèse de normalité). 50 2 L’estimation par intervalles de confiance La démarche à suivre est toujours la même, en deux temps. • trouver une fonction de l’estimateur et du paramètre inconnu dont on peut identifier la loi, classique de préférence. • utiliser ce résultat et la table de la loi pour un niveau de confiance donné pour construire l’intervalle de confiance. 2.1 Intervalles de confiance pour β 2.1.1 Loi suivie par une fonction de l’estimateur et du paramètre inconnu On a vu précédemment que sous les hypothèses classiques de la régression, la distribution de l’estimateur β̂ du vecteur de paramètres inconnus β suivait (asymptotiquement ou exactement) des lois normales : βˆ (k ×1) N (β, σ2 ( X ' X )−1 ) (k ×k ) ⇔ ∀j ∈ 1, k N (β j , σ2 ( X ' X )−1 ) jj βˆ j où σ2 (X ' X )−1 désigne l’élément de la jème ligne et colonne de la matrice de variances jj covariances des paramètres estimés, c'est-à-dire la variance de β̂ j le jème paramètre du vecteur estimé β̂ . Notons-le σβ2ˆ pour alléger les notations. j Pour tout paramètre inconnu β j du vecteur β , on peut écrire, d’après les propriétés de la loi normale : ∀j ∈ 1, k βˆ j N (β j , σ2ˆ ) ⇔ βj βˆ j − β j σ2ˆ N (0,1) βj 2.1.2 Construction de l’intervalle de confiance Dès lors, il est possible de construire un intervalle de confiance pour les paramètres inconnus à partir de ce résultat. Définissons cet intervalle comme la probabilité que les réalisations de la loi normale centrée réduite aient une probabilité égale à 1–α d’appartenir respectivement à l’intervalle [–tα, tα] inconnus pour le moment : βˆ j − β j Pr −t α ≤ ≤ tα = 1 − α σβˆ j L’intervalle pour la loi de β̂ est ici forcément symétrique, puisque la loi normale est une loi symétrique autour de 0. La valeur de tα dépend donc de la valeur choisie pour 1–α. Ainsi, si la probabilité recherchée est 1–α, on choisit dans la table de la loi normale la valeur de tα associée à la surface à gauche de 1 – α/2. Exemple : Si on désire qu’il y ait 95% de chances que les réalisations de la loi normale appartiennent à l’intervalle de confiance, on choisit dans la table de la loi normale la valeur de tα associée à la surface à gauche de 97,5%, soit 1,95. Pour 90% de chances, on choisira 1,64. 51 Dès lors, comme on connaît à présent la valeur de tα, il est possible de déduire un intervalle de confiance pour les paramètres inconnus β : βˆ j − β j βˆ j − β j Pr −t α ≤ ≤ t α = 1 − α ⇔ −t α ≤ ≤ tα σβˆ σβˆ j j On peut donc en déduire la définition de l’intervalle de confiance de β j : β j ∈ βˆ j − tα σβˆ , βˆ j + tα σβˆ j j au niveau de confiance de 1–α. Cet intervalle est donc symétrique autour de l’estimation ponctuelle. La largeur de l’intervalle dépend : • du niveau de confiance exigé 1–α (plus 1–α est grand, plus tα sera important et donc plus l’intervalle sera large) • de la précision de l’estimation ponctuelle du paramètre inconnu, mesurée par l’écarttype de l’estimateur σβˆ (plus l’imprécision de l’estimation ponctuelle est importante, j plus l’intervalle sera large). Application : fournir un intervalle de confiance pour βˆ j = 6 et σβˆ = 2 . j 2.2 Construction d’un opérationnel pour β intervalle de confiance Un problème se pose ici. La formule obtenue pour l’estimateur par intervalle de confiance de βj n’est pas opérationnelle car on ne connaît pas la valeur de σ2 . L’approche précédente est donc peu réaliste. On va cependant la mettre à profit pour en déduire un intervalle de confiance opérationnel de β. 2.2.1 Loi suivie par une modification de la fonction initiale Remplaçons σ2 par son estimation σ̂2 . On obtient alors l’estimation pour la variance de β j égale à pour simplifier σ ˆ 2 (X ' X )−1 que l’on notera jj σ ˆ β2ˆ . Notez bien la présence des deux chapeaux pour marquer j l’estimateur de la variance de l’estimateur. Cependant, la variable aléatoire formée à présent par βˆ j − β j σ ˆ βˆ ne suit plus une loi normale j centrée réduite mais une loi de Student. En effet, on peut réécrire cette variable aléatoire comme : 52 βˆ j − β j βˆ j − β j σ ˆ βˆ = j βˆ j − β j σ ˆ 2 ( X ' X )−1 jj = βˆ j − β j σ2 2 ' −1 ˆ (X X ) 2σ σ jj = σ2 ( X ' X )−1 jj (T − k ) σ ˆ2 1 σ (T − k ) 2 On voit bien qu’il s’agit du rapport entre une loi normale centrée réduite et la racine carrée d’une loi du χ² rapporté à son nombre de degrés de liberté. On est donc en présence d’une loi de Student si ces deux lois sont indépendantes. Pour démontrer l’indépendance, on a recours au résultat préliminaire 2 de la section 1, sous les hypothèses standards. Preuve : il suffit pour cela de les réécrire en fonction des perturbations réduites u σ N (0, I n ) . u u β̂ − β comme ( X 'X )−1 X ' ⋅ , qui est donc une fonction linéaire de . On σ σ σ u' u σ ˆ2 ⋅ M X ⋅ , qui est donc une forme quadratique de peut également réécrire (T − k ) 2 comme σ σ σ u . σ On peut réécrire D’après le résultat préliminaire, montrer l’indépendance de ces deux variables aléatoires revient donc à calculer : ' M X ⋅ (X 'X )−1 X ' = M X ⋅ X (X 'X )−1 = 0 1 424 3 0 ce qui achève la preuve. 2.2.2 Construction pratique de l’intervalle de confiance Dès lors, cette nouvelle statistique suit par définition une loi de Student, d’un nombre de degrés de liberté égal au nombre de degrés de liberté de la loi du χ² du dénominateur. βˆ j − β j σ ˆ βˆ TT −k j Comme précédemment, il est alors possible de construire un intervalle de confiance opérationnel pour les paramètres inconnus du vecteur β à partir de cette nouvelle distribution. Définissons cet intervalle comme la probabilité que les réalisations de la loi de Student aient une probabilité égale à 1–α d’appartenir à l’intervalle [–tα, tα] : βˆ j − β j Pr −t α ≤ ≤ tα = 1 − α σ ˆ βˆ j L’intervalle pour la loi de β̂ est ici forcément symétrique, puisque la loi de Student est une loi symétrique autour de 0. La valeur de tα dépend donc de la valeur choisie pour 1–α. Ainsi, si la probabilité recherchée est 1–α, on choisit dans la table de la loi de Student la valeur de t α associée à la surface p/2 égale à α/2 et pour un nombre de degrés de liberté égal à T–k. 53 On peut donc en déduire la définition de l’intervalle de confiance de β j : β j ∈ βˆ j − tα σ ˆ βˆ , βˆ j + tα σ ˆ βˆ j j au niveau de confiance de 1–α. Exemple : si on désire qu’il y ait 95% de chances que les réalisations d’une loi de Student à 25 degrés de liberté appartiennent à l’intervalle de confiance, on choisit dans la table de la loi de Student la valeur de tα associée à la surface à gauche de 97,5% ou de 2,5% à droite, soit une valeur de p de 0,05 et donc la valeur de tα 2,06. Application : sachant que la taille de l’échantillon est égale à 28 et qu’on a estimé 3 paramètres, fournir un intervalle de confiance pour βˆ j = 6 et σ ˆ βˆ = 2 . Comparer au résultat j obtenu à la question précédente. 2.3 Construction des intervalles de confiance pour σ2 2.3.1 Loi suivie par la statistique On a vu précédemment que sous les hypothèses classiques de la régression, la distribution de l’estimateur σ̂2 du paramètre inconnu σ2 suit une loi du χ² : (T − k ) σ ˆ2 σ 2 = SCR σ 2 χ2(T − k ) 2.3.2 Construction de l’intervalle de confiance Définissons cet intervalle comme la probabilité que les réalisations de la loi du χ² 2 ] : aient une probabilité égale à 1–α d’appartenir à l’intervalle [χ2inf , χsup σ ˆ2 2 Pr χ2inf ≤ (T − k ) 2 ≤ χsup =1− α σ La loi du χ² n’étant pas symétrique, il n’y a aucune relation entre les valeurs formant l’intervalle contenant les réalisations de la loi avec une probabilité égale à 1–α. La surface à l’extérieur de l’intervalle est égale à α, répartie en deux surfaces de taille identique égales à α/2. On doit donc lire la valeur de χ2inf dans la table du χ² à T–k degrés de liberté, pour une surface à gauche égale à α/2 ou une surface à droite égale à 1– α/2. 2 De même, on lira la valeur de χsup dans la table du χ² à T–k degrés de liberté, pour une surface à gauche égale à 1–α/2 ou une surface à droite égale à α/2. Exemple : Pour une loi du χ² à 30 degrés de liberté, l’intervalle de confiance à 90% est [18.49 , 43.77]. L’intervalle de confiance concernant le paramètre inconnu σ2 : σ ˆ2 σ ˆ2 2 2 2 Pr χ2inf ≤ (T − k ) 2 ≤ χsup = 1 − α ⇔ χinf ≤ (T − k ) 2 ≤ χsup σ σ 54 2 ] connu grâce à 1–α. On peut donc en déduire : avec [χ2inf , χsup (T − k ) σ ˆ 2 (T − k ) σ ˆ2 σ2 ∈ , 2 χsup χ2inf au seuil de confiance de 1–α. Ici, l’intervalle n’a aucune raison d’être symétrique autour de l’estimation ponctuelle du paramètre inconnu. Comme précédemment, la largeur de l’intervalle dépend du niveau de confiance requis pour construire l’intervalle. 3 Test sur plusieurs paramètres L’idée est d’ici de se demander si le ou les paramètres inconnus que l’on cherche à estimer sont statistiquement égaux ou non à telle valeur supposée. 3.1 Rappels généraux sur la méthodologie des tests L’utilisation des intervalles de confiance comme moyen de décision est possible. Cependant, bien que conscient des erreurs qu’il peut commettre, l’économètre-statisticien ne peut évaluer de façon directe le risque d’erreur. La théorie des tests le permet, en se ramenant uniquement au choix entre deux hypothèses antagonistes, notées H0 et H1. L’hypothèse H0, encore appelée hypothèse nulle, est privilégiée par l’économètre-statisticien jusqu’au moment où elle est infirmée par l’observation. Ainsi, le test a pour but de mesurer l’adéquation d’une hypothèse à la réalité observée à travers l’information apportée par notre échantillon. On retient plusieurs étapes dans la démarche des tests. 3.1.1 La formulation des hypothèses Il est d’abord nécessaire de formuler les hypothèses à tester, et par voie de conséquence, les erreurs de décision en termes de ces hypothèses. Supposons que l’on fasse un test sur le paramètre inconnu b. On distinguera types de tests sur un paramètre. Dans le cas des tests unilatères, on teste l’égalité du paramètre inconnu à la valeur b0 sous l’hypothèse nulle contre la stricte supériorité (respectivement infériorité) à cette même valeur sous l’hypothèse alternative : H 0 : b = b0 H1 : b > b0 ou H 0 : b = b0 H1 : b < b0 Dans le cas des tests bilatères, on teste l’égalité du paramètre inconnu à la valeur b0 sous l’hypothèse nulle contre la différence (c’est-à-dire la stricte supériorité ou infériorité) à cette même valeur sous l’hypothèse alternative : H 0 : b = b0 H1 : b ≠ b0 C’est généralement ces deux derniers types de tests qu’on formulera dans nos analyses. 3.1.2 La définition des risques et leurs probabilités A partir de là, nous avons deux actions possibles, et donc deux possibilités de se tromper. Ainsi, « se tromper » revient à « choisir une hypothèse alors que l’autre est vraie ». On peut alors définir deux types de risques : - le risque de première espèce est le risque de refuser l’hypothèse nulle alors 55 qu’elle est vraie. On définit la probabilité de ce risque comme α = Pr {H 0 H 0 } . - Le risque de seconde espèce est le risque d’accepter l’hypothèse nulle alors qu’elle est fausse. On définit la probabilité de ce risque comme β = Pr {H 0 H1} . On notera que le conditionnement ne se fait pas par rapport à un événement mais par rapport à un état de la nature que l’on n’observe pas. De plus, alors qu’on peut rencontrer des notations laissant entendre qu’on choisit l’hypothèse alternative, il doit être bien clair que l’on accepte ou que l’on rejette l’hypothèse nulle et rien d’autre ! L’hypothèse alternative ne permet que de définir la zone de rejet. 3.1.3 La règle de décision Il s’agit ensuite de trouver un outil, c’est-à-dire une statistique, nous permettant de mesurer l’adéquation entre l’hypothèse formulée et la réalité observée, et ainsi d’apporter une réponse à la question posée. Il s’agit d’une fonction discriminante (ou pivotale) construite sous l’hypothèse nulle, dont on va comparer la valeur observée à la valeur théorique calculée à partir de la loi de probabilités et définie à partir de la zone de rejet de l’hypothèse nulle construite à partir de l’hypothèse alternative pour une probabilité de risque de première espèce α donnée (méthodologie de Neymann-Pearson). Une règle de décision est ensuite formulée, permettant de comparer la valeur particulière de la fonction discriminante pour l’échantillon utilisé à la valeur théorique issue de la table statistique. 3.1.4 Exemples Dans le cas du test unilatère sur le paramètre inconnu b : H 0 : b = b0 H1 : b > b0 on utilisera comme fonction discriminante la loi suivie par l’estimateur de ce paramètre formulée sous l’hypothèse nulle. Ainsi, pour bˆ N (b, σb ) (on supposera ici σb connu), on écrira sous H0 : bˆ − b0 σbˆ N (0,1) L’hypothèse alternative permet de définir la zone critique, c’est à dire la zone de rejet de l’hypothèse nulle connaissant la probabilité du risque de première espèce α. On raisonne de la manière suivante : du fait de l’incertitude due au modèle, à l’échantillonnage, …, on ne pourra probablement pas observer exactement l’égalité à la valeur b0 même si c’est bien le cas. On va donc se laisser une certaine marge pour accepter l’hypothèse nulle. Posons que 56 cette marge d’acceptation va jusqu’à une valeur c, pour le moment inconnue mais supérieure à b0 (du fait de l’hypothèse alternative). L’action d’accepter ou de rejeter l’hypothèse nulle va donc se traduire dans la position du marge : • b̂ constatée relativement à cette à l’intérieur de cette marge, on peut statistiquement accepter l’hypothèse d’égalité du paramètre inconnu b à la valeur b0 supposée dans l’hypothèse nulle. • Au delà de cette marge, l’hypothèse n’est plus statistiquement acceptable. C’est ainsi que l’on va confronter la pertinence de notre hypothèse à la réalité des données. La probabilité du risque de première espèce, à savoir rejeter l’hypothèse nulle alors qu’elle est vraie, se traduit par l’égalité suivante et par l’observation de marge acceptable c : { } { α = Pr H 0 H 0 = Pr bˆ > c b = b0 } b̂ qui est au delà de la ˆ c − b0 b − b0 = Pr > b = b0 σ σ 123 bˆ bˆ 123 = Z N (0,1) t où c est la valeur critique au delà de laquelle il n’est plus tenable de défendre l’hypothèse nulle et où on doit donc la rejeter. Il ne reste alors plus qu’à trouver la valeur de t dans la bˆ − b0 table de la loi normale centrée réduite pour cette probabilité α et à la comparer à σbˆ pour savoir si on se place dans la zone d’acceptation ( bˆ − b0 bˆ − b0 < t) ou de rejet ( > t) de σbˆ σbˆ l’hypothèse nulle. Dans le cas du test unilatère sur le paramètre inconnu b : H 0 : b = b0 H1 : b < b0 Ici, la marge d’acceptation est toujours au voisinage de b0 jusqu’à une autre valeur c, pour le moment inconnue, mais inférieure à b0 (du fait de l’hypothèse alternative). L’action d’accepter ou de rejeter l’hypothèse nulle va donc se traduire dans la position du b̂ constatée relativement à cette marge : - A l’intérieur de cette marge, on peut statistiquement accepter l’hypothèse d’égalité du paramètre inconnu b à la valeur b0 supposée dans l’hypothèse nulle. 57 - Au delà de cette marge, l’hypothèse n’est plus statistiquement acceptable. C’est ainsi que l’on va confronter la pertinence de notre hypothèse à la réalité des données. Comme précédemment, la probabilité du risque de première espèce ne change pas. Ce qui change, c’est la façon de rejeter l’hypothèse nulle : { } { α = Pr H 0 H 0 = Pr bˆ < c b = b0 } ˆ c − b0 b − b0 = Pr < b = b0 σ σ 123 bˆ bˆ 123 =Z N (0,1) t Il ne reste alors plus qu’à trouver la valeur de t dans la table de la loi normale centrée bˆ − b0 réduite pour la probabilité α et à le comparer à pour savoir si on se place dans la σbˆ zone d’acceptation ( bˆ − b0 bˆ − b0 > t) ou de rejet ( < t) de l’hypothèse nulle. σbˆ σbˆ Enfin, dans le cas du test bilatère sur le paramètre inconnu b : H 0 : b = b0 H1 : b ≠ b0 Ici, la marge d’acceptation va se situer autour de b0, jusqu’à deux valeurs c1 et c2, pour le moment inconnues situées de part et d’autre de b0 (toujours du fait de l’hypothèse alternative). L’action d’accepter ou de rejeter l’hypothèse nulle va donc se traduire dans la position du b̂ constatée relativement à cette marge d’acceptation : - A l’intérieur de cette marge, on peut statistiquement accepter l’hypothèse d’égalité du paramètre inconnu b à la valeur b0 supposée dans l’hypothèse nulle. Au delà de cette marge (d’un coté ou d’un autre), l’hypothèse n’est plus statistiquement acceptable. En appliquant la définition de la probabilité du risque de première espèce, et en adaptant la règle de rejet de l’hypothèse nulle : - 58 { } { α = Pr H 0 H 0 = Pr bˆ ∉ [c1, c 2 ] b = b0 ⇔ } ⇔ { 1 − α = Pr bˆ ∈ [c1, c 2 ] b = b0 } c 2 − b0 bˆ − b0 c1 − b0 1 − α = Pr < < b = b0 σbˆ σbˆ σbˆ 1 424 3 123 1 424 3 −t =Z N (0,1) t Il ne reste alors plus qu’à trouver la valeur de t associée la probabilité α dans la table de la bˆ − b0 loi normale centrée réduite et à les comparer à pour savoir si on se place dans la σbˆ zone d’acceptation ( t < bˆ − b0 < t ) ou de rejet de l’hypothèse nulle (dans le cas contraire). σbˆ Application : On a βˆ j = 6 et σ2 ( X ' X )−1 = 2 . Tester si β j = 0 . jj 3.1.5 La performance du test Enfin, et nous nous y intéresserons dans une moindre mesure pour ce qui est de ce cours, il est nécessaire d’étudier la performance du test mis en œuvre. Ainsi, la puissance, c’est-àdire la probabilité de rejeter l’hypothèse nulle lorsqu’elle est fausse, devra être forte pour un test performant. 3.2 Test sur la valeur d’un paramètre du modèle 3.2.1 Description générale Pour les paramètres estimés dans le cadre d’un modèle économétrique, on a vu que la distribution opérationnelle de βˆ j était une loi de Student à T–k degrés de liberté : βˆ j − β j σ ˆ βˆ TT −k j On veut tester l’égalité du paramètre inconnu à une valeur particulière β0 . Les hypothèses s’écrivent donc : H 0 : β j = β0 H1 : β j ≠ β0 La fonction discriminante sous H0 est donc : βˆ j − β0 ˆ βˆ σ TT −k j pour une probabilité du risque de première espèce de α. La règle de décision s’écrit : ˆ c1 − β0 β j − β0 c 2 − β0 Pr < < β = β0 = 1 − α ˆ βˆ σ ˆ βˆ σ ˆ βˆ σ j j j 424 3 1 424 3 1 424 3 1 TT −k t −t 59 Il est possible de lire la valeur de t dans la table de Student en fonction de la probabilité du risque de première espèce et du nombre de degrés de liberté de la loi, et donc d’en déduire la βˆ j − β0 zone d’acceptation. Si ∈ [ - t , t ] , alors l’hypothèse nulle est acceptable. Dans le cas σ ˆ βˆ j contraire, elle n’est pas soutenable. 3.2.2 Application particulière Un test très répandu dit de significativité cherche à tester la pertinence de chaque variable explicative dans la régression. On envisage pour cela la nullité du paramètre inconnu qui lui est associé : H0 : β j = 0 H1 : β j ≠ 0 Ainsi, si βˆ j σ ˆ βˆ ∈ [−t, t ] , alors l’hypothèse nulle est acceptable et le paramètre inconnu n’est pas j significativement différent de 0 au seuil de α. Dans le cas contraire, l’hypothèse nulle est rejetée et la variable explicative est statistiquement pertinente. 3.2.3 De l’utilisation des intervalles de confiance pour les tests d’hypothèses bilatères On peut utiliser les intervalles de confiance pour répondre aux questions posées par les tests dans le cas particulier où : • le test est bilatéral • le niveau de confiance de l’intervalle est égal à 1 – α, la probabilité de risque de première espèce avec lequel le test est réalisé. Dans ces conditions en effet, on constate que l’intervalle de confiance correspond à la zone d’acceptation du test. Il est alors inutile de mener un test si ces conditions sont remplies. Il suffit de regarder si la valeur supposée dans l’hypothèse nulle appartient ou non à l’intervalle de confiance. Si c’est le cas, on est dans la zone d’acceptation et on accepte l’hypothèse nulle ; dans le cas contraire, on la rejette. 3.3 Tests joints sur tous les paramètres du modèle On va s’intéresser ici au test joint sur plusieurs paramètres et montrer qu’il peut apporter une information différente de celle issue de plusieurs tests effectués séparément sur des paramètres. 3.3.1 Méthodologie Ainsi, pour le vecteur β, on va poser à titre d’exemple : H 0 : β = β0 H1 : β ≠ β0 Intéressons-nous à la distribution de β afin de construire une fonction discriminante pour ce test. Sous H0 on a : βˆ (k ×1) N (β0 , σ 2 ( X ' X )−1 ) ⇔ βˆ − β0 (k ×k ) 60 N (0, σ2 ( X ' X )−1 ) D’après le résultat R3 obtenu au chapitre précédent, il est facile de déterminer la distribution de la forme quadratique suivante sous l’hypothèse nulle : (X ' X ) ˆ (βˆ − β0 )'[σ2 ( X ' X )−1 ]−1(βˆ − β0 ) = (βˆ − β0 )' (β − β0 ) σ2 χ2 (k ) Cependant, comme à la section précédente, cette statistique n’est pas opérationnelle puisqu’on ne connaît pas la vraie valeur de σ2 . On va donc remplacer σ2 par son estimation σ̂2 . (X ' X ) ˆ (βˆ − β0 )' (β − β0 ) σ ˆ2 Ce choix modifie la loi suivie par la statistique. Il est donc nécessaire de se ramener à une loi connue. Modifions la statistique en divisant l’expression précédente par k. On peut alors écrire : (βˆ − β0 )'(X ' X )(βˆ − β0 ) k ⋅σ ˆ2 Cette fonction discriminante présente l’avantage d’être opérationnelle puisqu’on connaît tous les éléments qui la composent. De plus, on peut montrer qu’elle suit une loi standard connue sous H0. En effet, elle se réécrit : (βˆ − β0 )' (X ' X )(βˆ − β0 ) k ⋅σ ˆ2 = (βˆ − β0 )' (X ' X )(βˆ − β0 ) k ⋅σ ˆ2 σ2 σ2 (X ' X ) ˆ 1 (βˆ − β0 )' (β − β0 ) 2 k σ = σ ˆ2 1 (T − k ) 2 σ (T − k ) χ2 (k ) k χ2 (T − k ) T −k Dans le terme de gauche, tout est connu donc calculable ; dans le terme de droite, σ2 disparaît du rapport mais permet d’identifier un rapport de formes quadratiques suivant des lois du χ² divisées par leur nombre de degrés de liberté. On est donc en présence d’une loi de Fisher si ces deux lois sont indépendantes. Pour démontrer l’indépendance, il suffit d’utiliser le résultat préliminaire n°1 de la section 1 concernant l’indépendance de deux formes quadratiques. Preuve : Montrons que les deux lois sont indépendantes. Il suffit pour cela de les réécrire en u fonction des perturbations réduites N (0, I n ) . σ On a vu qu’on pouvait réécrire de u β̂ − β comme ( X 'X )−1 X ' ⋅ , qui est donc une fonction linéaire σ σ (X ' X ) ˆ u . Dès lors, (βˆ − β)' (β − β) peut se réécrire comme : σ σ2 ' ' ' −1 ' u ' −1 ' u u ' ' −1 ' ' −1 ' u (X X ) X ⋅ σ ⋅ ( X X ) ⋅ (X X ) X ⋅ σ = σ ⋅ X (X X ) (X X )(X X ) X ⋅ σ ' u u = ⋅ [ X (X ' X )−1 X ' ] ⋅ σ σ ' u u = ⋅ PX ⋅ σ σ 61 u dont on sait qu’elle suit une loi du χ² dont le σ nombre de degrés de libertés est égal au rang de PX, c’est-à-dire k. qui est donc une forme quadratique de On peut également réécrire (T − k ) ' u u comme ⋅ M X ⋅ , qui est donc une forme σ σ σ ˆ2 σ2 u , dont on sait qu’elle suit une loi du χ² dont le nombre de degrés de σ libertés est égal au rang de MX, c’est-à-dire T–k. quadratique de D’après le résultat préliminaire, montrer l’indépendance de ces deux variables aléatoires revient à calculer le produit des matrices symétriques qui les caractérisent, c’est-à-dire : M X ⋅ PX = 0 par définition, ce qui achève la preuve. La fonction discriminante pour le test est donc la statistique F qui suit une loi de Fisher ici à k et T–k degrés de liberté. Elle peut donc être réécrite sous H0 : (βˆ − β0 )'(X ' X )(βˆ − β0 ) F (k ,T − k ) k ⋅σ ˆ2 3.3.2 Illustration : le modèle de régression linéaire simple Soit le modèle linéaire simple : yt = a + b xt + ut On pose le test suivant : H 0 : a = a 0 , b = b0 H1 : H 0 fausse La statistique de Fisher peut se réécrire sous H0 : F = (βˆ − β0 )'(X ' X )(βˆ − β0 ) k ⋅σ ˆ2 = (aˆ − a0 x11 x12 aˆ − a0 bˆ − b0 x 21 x 22 bˆ − b0 2ˆ σ2 ) Comme la matrice X’X est symétrique, on a x12 = x21. La statistique de test est donc égale dans ce cas à : F = ( ) ( 1 2 x11 (aˆ − a 0 ) + 2x12 (aˆ − a0 ) bˆ − b0 + x 22 bˆ − b0 2ˆ σ2 ) 2 Cette statistique doit être comparée à une valeur critique f* issue de la loi de Fisher à 2 et T– 2 degrés de liberté et définie pour une probabilité de risque de première espèce posée et égale à α : Pr(F > f * ) = α On peut donc définir la zone d’acceptation de l’hypothèse nulle comme : 62 Pr(F < f * ) = 1 − α Ainsi, si on se place dans le plan (a ,b), l’équation F = f* décrit l’équation d’une ellipse centrée en aˆ, bˆ . ( ) L’intérieur de cette ellipse décrit toutes les valeur a0 et b0 que l’on peut formuler dans l’hypothèse nulle et qui conduiront à l’acceptation de l’hypothèse nulle pour la probabilité de risque de première espèce α. A l’extérieur de cette ellipse, l’hypothèse nulle est rejetée. Tester une hypothèse comparable de façon séparée conduit à une zone d’acception rectangulaire, obtenue par l’intersection des zones d’acceptation de tests autour de chaque estimation ponctuelle. Tout cela est illustré par la représentation graphique suivante : b b̂ â a On peut dès lors constater qu’un test joint ne va pas forcément conduire aux mêmes conclusions que des tests séparés (par exemple si on se place à l’intérieur de l’ellipse mais à l’extérieur de la zone hachurée). Cette différence provient de la prise en compte de la covariance entre les deux estimateurs, alors que les tests réalisés de façon isolée n’utilisent que la variance de l’estimateur. Il peut dès lors se révéler utile de réaliser des tests joints. Cependant, un défaut de l’approche telle qu’elle est présentée ici est qu’elle porte sur tous les paramètres inconnus de la régression simultanément. Ainsi, par exemple, un test de significativité globale de la régression pourra être réalisé. Cependant, on voit bien que s’il est naturel d’évaluer la nullité des paramètres associés aux variables explicatives, il est beaucoup plus délicat de supposer en même temps la nullité de la constante si la variable endogène n’est pas centrée. Dès lors, faire une telle hypothèse pourrait nuire à la conclusion finale du test puisque dans une hypothèse jointe, il suffit qu’une hypothèse ne soit pas vérifiée pour induire un rejet de l’hypothèse nulle (n’oubliez pas qu’une hypothèse jointe se traduit par une intersection d’événements et que l’hypothèse contraire se traduit par l’événement contraire, c’est-à-dire signifie une union d’événements). Dès lors, un test plus naturel consisterait donc à supposer la nullité des paramètres associés aux variables explicatives hors constante. De même et plus généralement, on n’a pas forcément d’a priori théoriques concernant tous les paramètres inconnus d’une régression linéaire et on peut ressentir le besoin de seulement réaliser le test sur un sous-ensemble de paramètres inconnus. Il est donc nécessaire de développer une procédure intermédiaire. 63 3.4 Tests joints sur un sous-ensemble de paramètres Supposons que l’on se place dans le modèle linéaire de régression multiple avec k variables explicatives (y compris la constante) et formulé sous les hypothèses standards. On s’intéresse à poser r hypothèses sur les paramètres inconnus. Ces hypothèses vont prendre la forme de contraintes linéaires sur les paramètres inconnus du modèle. 3.4.1 Quelques exemples de tests joints Exemple 1 : supposons la fonction de production suivante : yt = a + α lt + βkt + ut On va par exemple chercher à tester l’hypothèse de rendements constants. Pour cela, on va poser : H0 : α + β = 1 H1 : α + β ≠ 1 Exemple 2 : soit l’équation de salaire suivante : wt = a + α0 pt + α1 pt −1 + α2 pt −2 + γZ t + ut avec Z les autres variables explicatives du modèle. On va par exemple chercher à tester l’hypothèse de parfaite indexation des salaires sur les prix. Pour cela, on va poser : H 0 : α 0 + α1 + α2 = 1 H1 : α 0 + α1 + α 2 ≠ 1 Exemple 3 : soit le modèle de régression multiple suivant : yt = a + b1 x1,t + b2 x 2,t + b3 x 3,t + b4 x 4,t + ut On va par exemple chercher à tester l’hypothèse de l’égalité des paramètres b1 et b2 et le fait que b3 = –b4. Pour cela, on va poser : H 0 : b1 = b2 et b3 = −b4 H1 : H 0 fausse Exemple 4 : soit le modèle de régression multiple suivant : yt = a + b1 x1,t + b2 x 2,t + ... + bk −1 xk −1,t + ut On va par exemple chercher à tester l’hypothèse de non pertinence de la régression. Pour cela, on va poser : H 0 : b1 = b2 = ... = bk −1 = 0 H1 : H 0 fausse 3.4.2 La méthodologie On a besoin d’un cadre général où formuler ces différentes hypothèses. L’idée est donc d’exprimer le test de la façon suivante : 64 y = X ⋅ β + u H0 : C ⋅ β = c (r ×k ) (k ×1) (r ×1) H1 : y = X ⋅ β + u La matrice C résume les r relations supposées entre les paramètres inconnus du modèle. La matrice C et le vecteur c permettent de réécrire les contraintes linéaires de la façon suivante : C ⋅ β = c (r ×k ) (k ×1) (r ×1) où r est le nombre d’hypothèses formulées. Le rang de la matrice C est donc égal à r. Ainsi, dans l’exemple 1, on a formulé r = 1 contrainte pour 3 paramètres inconnus. La matrice C est de format (1×3) et c est un scalaire. On écrira alors l’hypothèse nulle comme : a ( 0 1 1) ⋅ α = 1 β Dans l’exemple 2, on a formulé r = 1 contrainte pour au moins 4 paramètres inconnus plus un vecteur de paramètres inconnus. La matrice C est de format (1×5) et c est un scalaire. On écrira alors l’hypothèse nulle comme : a α0 ( 0 1 1 1 0 ) ⋅ α1 = 1 α2 γ Dans l’exemple 3, on a formulé r = 2 contraintes pour 5 paramètres inconnus. La matrice C est de format (2×5) et c est un vecteur de taille 2. On écrira alors l’hypothèse nulle comme : a b1 0 1 −1 0 0 0 ⋅ b 2 = 0 0 0 1 1 0 b3 b 4 Enfin, dans l’exemple 4, on a formulé r = k–1 contraintes pour k paramètres inconnus. La matrice C est de format (k–1×k) et c est un vecteur de taille k–1. On écrira alors l’hypothèse nulle comme : b1 1 0 L 0 0 0 b2 0 1 L 0 0 ⋅ M = 0 M M O M M M bk −1 0 0 L 1 0 0 a Il est alors nécessaire de trouver une fonction discriminante pour mener à bien ce test. 65 3.4.3 Le test Comme précédemment, on sait que : βˆ (k ×1) N (β, σ2 ( X ' X )−1 ) (k ×k ) ce qui implique : N (C ⋅ β − c ), σ2C (X ' X )−1C ' (r ×r ) (r ×1) (C ⋅ βˆ − c ) (r ×1) d’après les propriétés de la loi normale et des opérateurs espérance et variance. Or sous H0, on suppose que C ⋅ β = c . Dès lors, la distribution de C ⋅ βˆ − c sous H0 peut donc se réécrire : C ⋅ βˆ − c N (0, σ2C (X ' X )−1C ' ) dont on déduit : ' C ⋅ βˆ − c σ2C (X ' X )−1C ' −1 C ⋅ βˆ − c χ2 (r ) d’après le résultat R3 sur les formes quadratiques du chapitre précédent (section 6). Comme à la section précédente, cette statistique n’est pas opérationnelle puisqu’on ne connaît pas la vraie valeur de σ2. On va donc remplacer σ2 par son estimation σ̂2 . ' C ⋅ βˆ − c σ ˆ 2C ( X ' X )−1C ' −1 C ⋅ βˆ − c Ce choix modifie la loi suivie par la statistique. Il est donc nécessaire de se ramener à une loi connue. Modifions la statistique en divisant l’expression précédente par r. On peut alors écrire : ' C ⋅ βˆ − c C ( X ' X )−1C ' F = r ⋅σ ˆ2 −1 C ⋅ βˆ − c En faisant apparaître les termes adéquats (σ2 et T–k) au numérateur et au dénominateur de l’expression, on obtient alors facilement : −1 ' −1 C ⋅ βˆ − c C (X ' X )−1C ' C ⋅ βˆ − c C ⋅ βˆ − c ' σ2C (X ' X )−1C ' C ⋅ βˆ − c 2 r ⋅ σ r F = = σ ˆ2 1 σ ˆ2 1 (T − k ) 2 (T − k ) 2 σ (T − k ) σ (T − k ) χ2 (r ) r χ2 (T − k ) k On reconnaît un rapport de formes quadratiques suivant des lois du χ² divisées par leur nombre de degrés de liberté. On est donc en présence d’une loi de Fisher si ces deux lois sont indépendantes. Pour démontrer l’indépendance, il suffit d’utiliser le résultat préliminaire n°1 de la section 1 concernant l’indépendance de deux formes quadratiques. 66 Preuve : Montrons que les deux lois sont indépendantes. Il suffit pour cela de les réécrire en u fonction des perturbations réduites N (0, I n ) . σ On a vu qu’on pouvait réécrire de u β̂ − β comme ( X 'X )−1 X ' ⋅ , qui est donc une fonction linéaire σ σ u . Pré-multiplions par la matrice C. On obtient : σ 08 6 474 βˆ − β (C ⋅ βˆ − c ) − (C ⋅ β − c ) u C = = C ⋅ (X ' X )−1 X ' ⋅ σ σ σ La forme quadratique peut alors se réécrire : ' −1 u ' −1 ' u ⋅ ⋅ ⋅ C (X ' X )−1C ' ⋅ C ⋅ (X ' X )−1 X ' ⋅ = C ( X X ) X σ σ ' u ' −1 ' ' −1 ' −1 ' −1 ' u ⋅ X (X X ) C ⋅ C ( X X ) C C ⋅ ( X X ) X ⋅ σ σ qui est donc une forme quadratique de (T − k ) σ ˆ2 σ 2 u . σ ' u peut se réécrire comme ⋅ M X σ u u . ⋅ , qui est donc une forme quadratique de σ σ D’après le résultat préliminaire, montrer l’indépendance de ces deux variables aléatoires revient à calculer le produit des matrices symétriques qui les caractérisent, c’est-à-dire : M X ⋅ X ( X 'X )−1C ' ⋅ C (X 'X )−1C ' 1 424 3 =0 −1 C ⋅ ( X 'X )−1 X ' = 0 par définition, ce qui achève la preuve. La fonction discriminante pour les tests impliquant des combinaisons linéaires entre les paramètres inconnus est donc la statistique ' C ⋅ βˆ − c C ( X ' X )−1C ' F = r ⋅σ ˆ2 −1 C ⋅ βˆ − c qui suit une loi de Fisher ici à r et T–k degrés de liberté. 67 Questions : que constate-t-on si on pose C comme l’identité de taille k et c = β0 ? Ce test peut-il également s’appliquer pour le cas d’une contrainte sur un seul paramètre ? 4 L’estimation sous contraintes linéaires : les moindres carrés contraints On va dans cette section présenter l’estimateur βˆc des MC sous contraintes (MCC) et étudier ses propriétés. On va voir qu’il est équivalent - d’estimer un modèle à k paramètres inconnus par les MCC sous r contraintes, ce qui donnera l’estimateur βˆc et d’intégrer ces r contraintes dans le modèle et d’estimer ce modèle contraint à k – r paramètres par les MCO. Intuitivement, on se dit que si la contrainte était parfaitement valable, l’estimateur des MCO (non contraint) se positionnerait naturellement de façon à respecter la contrainte. Cependant, il faut aussi envisager, pour les mêmes raisons que pour les tests réalisés précédemment, que les caractéristiques de l’échantillon utilisé ne permettent pas de mettre en exergue complètement ces contraintes. Dès lors, il est nécessaire de se demander si ces contraintes sont statistiquement soutenables au regard des données ou pas. - SCrc SCrnc βˆ c βˆ nc On pourra envisager cette question au travers de la distance entre les quantités SCRnc et SCRc, qui caractérise la distance entre le modèle sous contraintes et le modèle non contraint, c'est-à-dire entre l’hypothèse nulle formulée et les données. Cette approche permettra donc d’aborder le problème des tests d’hypothèses simples ou jointes vu à la section précédente de façon plus simple. 68 4.1 Retour sur les exemples précédents En examinant les exemples présentés précédemment, on constate que les hypothèses peuvent le plus souvent être examinées dans le cadre d’un modèle contraint, c’est-à-dire en estimant des modèles modifiés. Ainsi, en ce qui concerne l’exemple 1, une solution possible consisterait à estimer le modèle contraint (écrit sous l’hypothèse nulle) suivant : yt − kt = a + α (lt − kt ) + εt On n’a donc plus que 2 paramètres à estimer. Ce modèle possède T–2 degrés de liberté. Pour l’exemple 2, l’hypothèse nulle consiste à estimer le modèle suivant : wt − pt −2 = a + α0 ( pt − pt −2 ) + α1( pt −1 − pt −2 ) + γZ t + εt On n’a donc plus que 4 paramètres à estimer. Ce modèle possède T–4 degrés de liberté. Pour l’exemple 3, l’hypothèse nulle consiste à estimer le modèle suivant : yt = a + b1 (x1,t + x 2,t ) + b3 ( x 3,t − x 4,t ) + εt On n’a donc plus que 2 paramètres à estimer. Ce modèle possède T–2 degrés de liberté. Enfin, pour l’exemple 4, l’hypothèse nulle consiste à estimer le modèle suivant : yt = a + εt On n’a donc plus qu’un paramètre à estimer. Ce modèle possède T–1 degrés de liberté. Il reste à présent à comparer la « distance » entre le modèle contraint et le modèle non contraint. Il va falloir bien évidemment pour cela construire un test. 4.2 L’estimateur des moindres carrés contraints L’idée est d’estimer le modèle de régression linéaire multiple suivant y = X ⋅ β + u (T ×k ) (k ×1) (T ×1) (T ×1) sous les r contraintes linéaires suivantes : C ⋅ β = c (r ×k ) (k ×1) (r ×1) On va donc appliquer la méthode des moindres carrés ordinaires en prenant en compte les r contraintes linéaires formulées. Le programme devient donc : min S (β) = min(u'u ) = min(y − X β)' (y − X β) sous les contraintes C ⋅ β = c β β β La solution de ce programme est notée βˆc relativement à l’estimateur des MCO traditionnels β̂ (noté parfois βˆnc pour non contraint). Cette solution s’exprime comme : βˆ c = βˆnc − ( X 'X )−1C ' ⋅ [C ⋅ ( X 'X )−1 ⋅ C ' ]−1(C ⋅ βˆ nc − c ) Preuve : Il suffit d’écrire le lagrangien du programme de minimisation sous contraintes : 69 L (β, λ ) = (y − X ⋅ β )'(y − X ⋅ β ) + (C ⋅ β − c )' ⋅ 2λ avec λ le vecteur de taille (r × 1) des paramètres de Lagrange associés aux contraintes. La multiplication par 2 permet de simplifier légèrement les calculs. Développons l’expression : L (β, λ ) = y 'y − 2 ⋅ β ⋅ X ' ⋅ y + β' ⋅ ( X 'X ) ⋅ β + 2 ⋅ β' ⋅ C ' ⋅ λ − 2 ⋅ c ' ⋅ λ et calculons les CPO : ∂L (β, λ ) = 0 ⇔ −2 ⋅ X 'y + 2 ⋅ ( X 'X ) ⋅ βˆc + 2 ⋅ C 'λˆ = 0 ∂β β=βˆc λ=λˆ ∂L (β, λ ) = 0 ⇔ C ⋅ βˆc − c = 0 ∂λ β=βˆc λ=λˆ En simplifiant la première expression par 2 et en pré-multipliant par ( X 'X )−1 : − (X 'X )−1 ⋅ X 'y + βˆc + ( X 'X )−1 ⋅ C 'λˆ = 0 ⇔ βˆc = βˆnc − (X 'X )−1 ⋅ C 'λˆ 144244 3 =βˆnc Il ne reste donc plus qu’à trouver l’expression de λ̂ afin d’avoir l’expression de βˆc . Remplaçons l’expression trouvée dans la seconde condition du premier ordre : C ⋅ βˆc = c ⇔ C ⋅ βˆ nc − C ⋅ ( X 'X )−1 ⋅ C 'λˆ = c C ⋅ ( X 'X )−1 ⋅ C ' est de format (r × r). C’est une matrice inversible car ( X 'X )−1 est régulière et C est une matrice de rang r. Son rang est donc égal à r. On obtient alors : λˆ = [C ⋅ ( X 'X )−1 ⋅ C ' ]−1(C ⋅ βˆnc − c ) En remplaçant l’expression de λ̂ dans l’expression de βˆc , on a donc bien : βˆ c = βˆnc − ( X 'X )−1 ⋅ C '[C ⋅ ( X 'X )−1 ⋅ C ' ]−1(C ⋅ βˆ nc − c ) ce qui achève la preuve (et le lecteur). On constate que lorsque l’estimateur des MCO vérifie exactement les contraintes linéaires supposées, alors l’estimateur des MCC est égal à l’estimateur des MCO. 4.3 Deux propriétés de l’estimateur des MCC Deux cas de figure sont possibles : si l’hypothèse nulle est vraie ou non. Si les contraintes sont valables, l’estimateur des MCC est sans biais est plus précis que l’estimateur non contraint sous les hypothèses standards de la régression. Preuve : Réécrivons l’expression de l’estimateur des MCC : βˆc = βˆnc − W ⋅ (C ⋅ βˆnc − c ) 70 avec W = ( X 'X )−1 ⋅ C '[C ⋅ ( X 'X )−1 ⋅ C ' ]−1 une matrice non aléatoire. 1. Montrons que l’estimateur est sans biais. E (βˆc ) = E [βˆnc − W ⋅ (C ⋅ βˆnc − c )] = E [βˆnc ] − W ⋅ (C ⋅ E [βˆnc ] − c ) 123 123 =β =β = β − W ⋅ (C ⋅ β − c ) d’après les propriétés de l’estimateur des MCO. Ainsi, si l’hypothèse nulle est vérifiée, l’estimateur des MCC est sans biais : E (βˆc ) = β − W ⋅ (C ⋅24 β −3 c) = β 1 4 =0 Dans le cas contraire, il est biaisé. 2. Montrons qu’il est plus précis. On peut réécrire : βˆnc = (X ' X )−1 X ' ⋅ (X ⋅ β + u ) = β + (X ' X )−1 X ' ⋅ u Remplaçons dans l’expression de l’estimateur des MCC : βˆc = β + (X 'X )−1 X ' ⋅ u − W ⋅ [C ⋅ (β + (X 'X )−1 X ' ⋅ u ) − c ] c’est-à-dire si l’hypothèse nulle est vérifiée : βˆc = β + (X 'X )−1 X ' ⋅ u − W ⋅ [C ⋅24 β −3 c + C ⋅ (X 'X )−1 X ' ⋅ u ] 1 4 =0 soit encore : βˆc − β = (I − WC ) ⋅ (X 'X )−1 X ' ⋅ u La variance de l’estimateur s’écrit donc : V (βˆc ) = E [βˆc − β][βˆc − β]' = E [(I − WC ) ⋅ (X 'X )−1 X ' ⋅ u ][(I − WC ) ⋅ (X 'X )−1 X ' ⋅ u ]' Développons : V (βˆc ) = (I − WC ) ⋅ (X 'X )−1 X ' ⋅ E [u ⋅ u ' ] ⋅ X ⋅ ( X 'X )−1 ⋅ (I − WC )' 1 424 3 σ2 I T = σ2(I − WC ) ⋅ (X 'X )−1 ⋅ (X 'X ) ⋅ ( X 'X )−1 ⋅ (I − WC )' 1442443 Ik −1 = σ (I − WC ) ⋅ (X X ) 2 ' { ⋅ (I − WC )' ' ' = σ2 (X 'X )−1 + WC ⋅ (X 'X )−1 ⋅ CW − WC ⋅ ( X 'X )−1 − ( X 'X )−1 ⋅ C 'W ' L’expression se simplifie : 71 } { ⋅ C {[C ⋅ (X 'X ) } ' ' ' WC ⋅ (X 'X )−1 ⋅ CW = W ⋅ C ⋅ (X 'X )−1 ⋅ C ' (X 'X )−1 ⋅ C '[C ⋅ (X 'X )−1 ⋅ C ' ]−1 = W ⋅ C ⋅ (X 'X )−1 −1 ' } ' ⋅ C ' ]−1 C ⋅ (X 'X )−1 { } = W ⋅ C ⋅ ( X 'X )−1 ⋅ C ' [C ⋅ ( X 'X )−1 ⋅ C ' ]' −1 C ⋅ (X 'X )−1 = W ⋅ [C ⋅ ( X 'X )−1 ⋅ C ' ][C ⋅ (X 'X )−1 ⋅ C ' ]−1 C ⋅ ( X 'X )−1 1444444 424444444 3 I = W ⋅ C ⋅ ( X 'X )−1 Remplaçons : { = σ2 {( X 'X )−1 − (X 'X )−1 ⋅ C 'W '} ' ' V (βˆc ) = σ2 ( X 'X )−1 + WC ⋅ ( X 'X )−1 − WC ⋅ ( X 'X )−1 − ( X 'X )−1 ⋅ CW } = V (βˆnc ) − σ2(X 'X )−1 ⋅ C 'W ' = V (βˆnc ) − σ2(X 'X )−1 ⋅ C '[C ⋅ ( X 'X )−1 ⋅ C ' ]−1C ⋅ ( X 'X )−1 La différence entre la variance de l’estimateur des MCO et celle des MCC est donc une matrice définie positive si on la réécrit comme une forme quadratique : V (βˆnc ) − V (βˆc ) = σ2 ( X 'X )−1 ⋅ C ' [C ⋅ ( X 'X )−1 ⋅ C ' ]−1 C ⋅ ( X 'X )−1 14 4244 3 14442444 3 14243 A' B A L’estimateur des MCC est donc plus précis que celui des MCO lorsque les contraintes linéaires sont vérifiées ; mais il est important de se souvenir que ce résultat théorique ne tient que si l’hypothèse nulle était vérifiée. 4.4 La distance entre les modèles contraint et non contraint 4.4.1 Réinterprétation du test joint sur les paramètres inconnus On a vu que la statistique de test joint sur une partie des paramètres inconnus pouvait s’écrire : ' C ⋅ βˆ − c C ( X ' X )−1C ' F = 2 r ⋅σ ˆ −1 C ⋅ βˆ − c Cette expression peut se traduire comme la distance entre le modèle contraint et le modèle non contraint. Ainsi : ' C ⋅ βˆ − c C ( X ' X )−1C ' −1 C ⋅ βˆ − c = SCrc − SCrnc Preuve : Soient û le vecteur des résidus estimés du modèle non contraint et ε̂ celui du modèle contraint. Par définition : εˆ = y − X ⋅ βˆc 72 On peut le réécrire en fonction de l’estimateur des MCO : εˆ = y − X ⋅ βˆc + X ⋅ βˆnc − X ⋅ βˆnc = y − X ⋅ (βˆc − βˆnc ) − X ⋅ βˆnc = uˆ − X ⋅ (βˆc − βˆnc ) Calculons la somme des carrés des résidus estimés : ' SCrc = εˆ'εˆ = uˆ − X ⋅ (βˆc − βˆnc ) ⋅ uˆ − X ⋅ (βˆc − βˆnc ) = uˆ 'uˆ + (βˆc − βˆnc )' ⋅ X ' ⋅ X ⋅ (βˆc − βˆnc ) = SCrnc + (βˆc − βˆnc )' ⋅ ( X 'X ) ⋅ (βˆc − βˆnc ) D’après la définition de l’estimateur des MCC, on sait que : βˆ c − βˆ nc = −( X 'X )−1 ⋅ C '[C ⋅ ( X 'X )−1 ⋅ C ' ]−1(C ⋅ βˆnc − c ) On a donc : SCrc − SCrnc = (βˆ c − βˆ nc )' ⋅ ( X 'X ) ⋅ (βˆc − βˆ nc ) ' = ( X 'X )−1 ⋅ C '[C ⋅ ( X 'X )−1 ⋅ C ' ]−1(C ⋅ βˆnc − c ) ⋅ ( X 'X ) ⋅ (X 'X )−1 ⋅ C '[C ⋅ ( X 'X )−1 ⋅ C ' ]−1(C ⋅ βˆnc − c ) = (C ⋅ βˆnc − c )' [C ⋅ ( X 'X )−1 ⋅ C ' ]−1 ⋅ C ⋅ ( X 'X )−1 ⋅ ( X 'X ) ⋅ (X 'X )−1 ⋅ C ' [C ⋅ (X 'X )−1 ⋅ C ' ]−1(C ⋅ βˆnc − c ) 1442443 Ik 14444444444 424444444444 4 3 Ir = (C ⋅ βˆnc − c )[' C ⋅ (X 'X )−1 ⋅ C ' ]−1 ⋅ (C ⋅ βˆnc − c ) ce qui achève la preuve. Dès lors, comme : σ ˆ2 = SCrnc uˆ 'uˆ = T −k T −k On peut réécrire : ' C ⋅ βˆ − c C (X ' X )−1C ' F = 2 ˆ r ⋅σ −1 C ⋅ βˆ − c SCrc − SCrnc r = SCrnc T −k On a vu que le nombre de degrés de liberté associé à chaque somme des carrés des résidus est égal à dlc = T – (k – r) dans le cas de la régression contrainte et à dlnc = T – k dans celui de la régression non contrainte. On peut alors réécrire : F = ' ' −1 ' ˆ C ⋅ β − c C (X X ) C −1 ˆ C ⋅ β − c r ⋅σ ˆ2 SCrc − SCrnc dlc − dlnc = SCrnc dlnc 4.4.2 Réécriture et applications On montre que cette expression peut se réécrire : 73 F (dlc − dlnc , dlnc ) SCrc − SCrnc dlc − dlnc F = = SCrnc dlnc SCrc SCrnc − SCT SCT dlc − dlnc R2 − R2 T − k = nc 2 c SCrnc r 1 − Rnc 1 −1 + SCT dlnc 1 −1 + car SCT = SCEnc + SCRnc = SCEc + SCRc s’il y a des constantes dans les modèles. Une application directe est le test de significativité globale, qui permet de tester la pertinence globale d’une régression, c’est-à-dire la nullité des paramètres de toutes les variables explicatives à l’exception de la constante. On montre alors que la statistique de test se réécrit : F = 2 2 Rnc − Rc2 T − k Rnc T −k = 2 2 r 1 − Rnc 1 − Rnc k − 1 F (k − 1, T − k ) puisqu’il est facile de voir que pour le modèle contraint, SCT = SCRc et donc SCEc = 0 d’après l’équation de la variance. Cette écriture du test est très pratique et très souvent utilisée car elle ne requiert finalement que le calcul du R² de la régression à tester. Références bibliographiques Dormont B., Introduction à l’Econométrie, Editions Montchrétien. Greene W.H., Econometric Analysis, Mac Millan. Maddala G., Econometric methods and applications, 74