Note sur la méthode du kernel.
Transcription
Note sur la méthode du kernel.
Note sur la méthode du kernel. Philippe Bernard Ingénierie Economique et Financière Université Paris-Dauphine Février 2006 Table des matières 1 Loi normale, loi log-normale et rendements 2 2 La méthode du noyau (kernel) 4 3 Résultats 10 4 Annexe : calculs 14 1 La théorie du portefeuille recourt souvent à l’hypothèse que les investisseurs (ménages, investisseurs institutionnels) ne prennent en compte que les deux premiers moments des rednements (i.e. l’espérance et la variance) pour évaluer les portefeuilles et les actifs financiers. Ceci implique notamment que par hypothèse les investisseurs sont notamment indifférents à : — l’importance de l’asymétrie des distributions des rendements (la skewness ou moment d’ordre 3) ; — l’importance relative des rendements extrêmes par rapport aux rendements moyens, i.e. l’importance relative des queues de distribution (la kurtosis ou moment d’ordre 4). Certains types d’actifs (comme les options) ou certains secteurs (comme celui des hedge funds) se caractérises pourtant souvent par des asymétries importantes ou par une relative importance des rendements extrêmes. Cependant, il est possible de justifier l’approche moyenne-variance qui néglige les moments supérieurs à 2. L’une des justifications les plus simples consiste à supposer que les préférences des investisseurs vérifient les axiomes de l’utilité espérée et que les rendements suivent une loi normale. Sous cette double hypothèse, il est possible de montrer que quelle que soit l’utilité élémentaire dont on prend l’utilité totale ne dépendra que de la moyenne et de la variance. Cette démonstration pose naturellement le problème de la normalité des rendements des actifs financiers en général, des actions en particulier. Certains instruments des statistiques non-paramétriques permettent de donner certaines réponses. Avant d’aborder ces méthodes, on revient brièvement sur les lois normales et log-normales. 1 Loi normale, loi log-normale et rendements Supposer que les rendemenents suivent la loi normale revient à supposer que le rende- ment (net discret) a pour fonction de densité une fonction f définie par son espérance m et son écart-type σ, avec : 1 1 r−m 2 f (r) = √ exp − ( ) 2 σ σ 2π Cette loi normale a deux propriétés intéressantes pour les actifs financiers : (1) — elle est stable pour l’addition - et donc si les rendements d’actifs constituant un portefeuille suivent une loi normale, les rendements du portefeuille en suivent une aussi ; 2 — si l’agent vérifie les hypothèses de l’utilité espérée alors ses préférences ne dépendent que de l’espérance et de la variance des rendements des portefeuilles. Cependant, en dépit de ces “bonnes propriétés”, à la loi normale est souvent préférée la loi log-normale pour représenter les rendements des titres. e est la variable aléatoire, alors ln X e Avec la loi log-normale, on suppose que, si X est distribuée normalement. Or, en finance, les rendements utilisés à court-terme sont les rendements continus qui sont par définition le logarithme népérien du facteur de croissance des prix. Aussi, dans cette approche : e et = Pt X Pt−∆ (2) en indiçant chaque variable par la période t et par la durée ∆ de la période. Le rendement continu du titre est donc : Pet ) (3) Pt−∆ Sous l’hypothèse log-normale, les rendements étant les rendements continus, alors la et ) = ln( ln(X fonction de densité de Xt = Pt /Pt−∆ est : f (Xt ) = 1 1 ln Xt − m 2 √ exp − ( ) 2 σ σXt 2π où m et σ sont l’espérance et l’écart-type de ln(Xt ). Deux propriétés essentielles (dont les démonstrations sont présentées en annexe) de la loi log-normale sont les suivantes : Propriétés 1 Si la variable Xt suit la loi log-normale d”espérance m et d’écart-type σ alors : σ2 E (Xt ) = exp(m + ) 2 2 V ar(Xt ) = exp(2m + σ )(exp(σ 2 ) − 1) Que l’on choisisse la loi normale (et que l’on raisonne en rendements géométriques ou discrets) ou la loi log-normale (et que l’on raisonne en rendements arithmétiques ou continus), il est essentiel d’évaluer si cette hypothèse est plausible ou non. Ceci suppose que l’on puisse calculer à partir des données observées (les cours) la distribution suivie par les rendements. Une des méthodes les plus couramment utilisées est la méthode non paramétrique du noyau (ou kernel). 3 Dis tribution des rendements continus du CAC 40, 1990-200 4 his togramme à 10 interv. 50 40 30 20 10 0 -0,08 -0,06 -0,05 -0,03 -0,02 -0 0,01 0,03 0,04 0,06 0,07 Fig. 1 — 2 La méthode du noyau (kernel) La méthode non paramétrique la plus simple pour inférer la fonction de densité des ren- dements est évidemment la construction d’histogrammes. Même si cet instrument simple n’est pas à négliger, il présente plusieurs défauts. Notamment qu’il repose essentiellement sur un choix arbitraire : le choix des intervalles utilisés. Selon ce dernier, la distribution obtenue peut grandement différer. Différents exemples abondent dans la littérature, notament la bio-statistique. Les figures 1, 2 et 3 illustrent ainsi l’application de la méthode aux rendements continus (en données quotidiennes) du CAC 40 sur la période allant du 1er mars 1990 au 1er octobre 2004. Il illustre qu’un nombre trop limité d’intervalles peut donner une fausse idée comme le montre la comparaison des figures 1 et 3. Les figures 4, 5 et 6 appliquent la même méthode cette fois à l’indice Dow Jones, plus précisément le DJIA30, pour la période allant du 1er mars 1986 au 1er octobre - les rendements étant les rendements continus sur données quotidiennes. Les deux histogrammes les plus lisses (figures 3 et 6) confortent l’hypothèse que les rendements continus sont distribuées de manière normale (ou log-normale). Pour dépasser les limites de la méthode de l’histogramme, les statisticiens ont déve- 4 Dis tribution des rendements continus du CAC 40, 1990-200 4 his togramme à 20 interv. 30 25 20 15 10 5 07 0, 06 0, 0, 04 03 01 0, 0, -0 0, 00 2 ,0 3 -0 ,0 ,0 -0 -0 -0 ,0 ,0 8 6 5 0 Fig. 2 — Dis tribution des rendements géométriques du CAC 40, 1990-20 04 his togramme à 50 intervalles 12 10 8 6 4 2 Fig. 3 — 5 06 0, 05 0, 04 0, 03 0, 02 0, 01 0, 1 -0 ,0 2 -0 ,0 3 ,0 4 -0 ,0 5 -0 -0 ,0 7 ,0 -0 -0 ,0 8 0 Dis tribution des rendements continus du DJIA30, 1986-2004 his togramme à 10 interv. 40 35 30 25 20 15 10 5 0 -0,04 -0,03 -0,02 -0,02 -0,01 -0 0 0,01 0,02 0,02 0,03 Fig. 4 — Dis tribution des rendements continus du DJIA30, 1990-2004 his togramme à 20 interv. 20 15 10 5 Fig. 5 — 6 03 0, 02 0, 02 0, 01 0, 00 0, 00 0, 1 ,0 -0 2 ,0 -0 2 ,0 -0 3 ,0 -0 -0 ,0 4 0 Dis tribution des rendements géométriques du DJIA 30, 1986-2004 his togramme à 50 intervalles 10 8 6 4 2 03 0, 02 0, 02 0, 01 0, 01 0, 00 0, 0, 00 1 ,0 2 -0 ,0 2 -0 ,0 3 -0 ,0 3 -0 ,0 -0 -0 ,0 4 0 Fig. 6 — loppé, à partir des années 50, la méthode du Kernel.1 Cette méthode a notamment comme avantage de ne pas supposer a priori une forme fonctionnelle pour la fonction de densité que l’on cherche à estimer. Ce faisant elle constitue donc une méthode non paramétrique. L’instuition du kernel peut être retrouvée en repartant de la construction de l’histogramme. On dispose de N observations : SN = {X1 , X2 , ..., XN } où Xi sont les valeurs (unidimensionnelles) constatées. Par exemple les rendements. L’histogramme revient alors à spécifier un intervalle h et un nombre d’intervalles M. Puis les différents intervalles [X0 + m.h, X0 + (m + 1).h[, où x0 est l’origine, m = 1, ..., M , étant spécifiés, on détermine pour chaque observation l’intervalle auquel il appartient. La fonction de densité que l’on estime ainsi, notée fb, peut alors s’écrire : n o 1 b ∈ SN : X b ∈ I(X) fb(X) = # X Nh (4) où I(X) est donc l’intervalle auquel x appartient. On peut réécrire cette expression en introduisant une fonction caractéristique qui pour chaque X et chaque observation nous 1 Silverman [?] est la référence classique de la littérature. Le chapitre introductif est disponible sur le web. 7 dit simplement si l’observation appartient ou non à l’intervalle I(X) : b / I(X) 0 si X ∈ b X) = δ(X; 1 si X b ∈ I(X) (5) L’expression (4) peut alors se réécrire : 1 X b X) fb(X) = δ(X; Nh (6) e N X∈S Une fois h fixé, la densité empirique de X va donc être déterminée par les valeurs de la b Mais δ(X; b X) ne peut prendre fonction caractéristique δ(.; X) en chaque observation X. que deux valeurs : 0 ou 1. Cette réécriture met donc en évidence un inconvénient de l’histogramme : comme δ est une fonction discontinue, même si l’on ne modifie que légèrement h, c’est à dire si l’on modifie la dimension de l’intervalle utilisée, certaines observations dès qu’elles vont entrer ou sortir dans l’intervalle vont voir leur valeur passer de 0 à 1 et inversement. Ceci fait que la densité empirique n’est pas une fonction continue à la valeur de h. Comme l’ont montré de nombreux exemples notamment en biostatistique, ceci peut conduire à des distributions empiriques dont la forme peut s’avérer trop sensible au choix de h. Aussi les statisticiens ont tenté de proposer des méthodes non paramétriques plus robustes. Le kernel (ou noyau) fut ainsi développé au début des années 50. L’écriture (6) de la densité empirique permet de comprendre simplement l’intuition du kernel. Elle consiste à rechercher en lieu et place de δ d’une fonction K, le kernel, qui nous définisse la densité empirique par : 1 X b X) fb(X) = K(X, hN e N X∈S tout en évitant les inconvénients d’une fonction discontinue comme δ. Dans la littérature, notamment en raison des résultats empiriques obtenus, deux noyaux se sont progressivement imposés : — le noyau gaussien b b X) = √1 exp(− 1 ( X − X )2 ) K(X; 2 h 2π — le noyau d’Epanechnikov b b X) b X) = 3 (1 − ( X − X )2 )I(X; K(X; 4 h 8 où, dans les deux cas, u est un réel compris entre −1 et 1, I est la fonction indicatrice suivante : b X) = I(X; ( e 1 si ( X−X )2 < 1 h e 0 si ( X−X )2 ≥ 1 h Une fois adoptée la fonction de kernel (qui donne généralement des résultats très proches dès lors que l’on a suffisamment de données), il reste à déterminer la valeur de h. Différentes méthodes sont possibles pour cela. Certaines recourent notamment à des méthodes de maximisation de la vraissemblance. Les études appliquées ont cependant montré qu’empiriquement certaines formules ad hoc donnent des résultats très statisfaisants. Ainsi pour le noyau gaussien, un choix courant et relativement efficace est : 1 4 1 h = cb σN − 5 , c = 3 ou ( ) 5 5 La figure 7 illustre la procédure du kernel pour le noyau gaussien. Les observations dont on dispose sont les rendements observés d’un titre dont on cherche à représenter la distribution. Pour garder l’exemple simple, on suppose que l’on ne dispose que de trois observations : R = −5%, 10%, 25% Dans le cas du noyau gaussien, comme l’illustre la figure 7, on va donc sommer les n courbes en cloche. Ce faisant, comme l’on somme des courbes lisses et dérivables, on obtient nécessairement une fonction de densité estimée à la fois continue et dérivable. Si l’on prend comme valeur de l’écart-type : r 1 σ b= ((−5 + 10)2 + (10 + 10)2 + (25 − 10)2 ) = 18.028 2 1 et si l’on applique la formule h = 3b σN − 5 alors numériquement : h ' 43. 415 Avec le noyau gaussien, les fonctions à utiliser sont donc : Ã !2 b−R R 1 1 b R) = √ exp(− ) K(R; 2 43.415 2π Aussi, nos trois observations nous donnent trois fonctions : µ ¶2 1 1 −5 − R K1 (R) = √ exp(− ) 2 43.415 2π 9 1 0.8 0.6 0.4 0.2 -100 -50 0 0 50 x 100 Fig. 7 — Un exemple de construction par lissage de la fonction de densité. 1 1 K2 (R) = √ exp(− 2 2π µ 10 − R 43.415 ¶2 ) µ ¶2 1 1 25 − R K2 (R) = √ exp(− ) 2 43.415 2π La densité empirique de chaque rendement R (observé ou non) est alors obtenu en sommant ces trois fonctions : fb(X) = 1 [K1 (R) + K2 (R) + K3 (R)] 3(43.415) Le résultat obtenu est celui illustré par la figure 7. La méthode du kernel permet donc d’estimer en faisant le minimum d’hypothèses les distributions des rendements. Quel est le verdict de cette méthode ? Peut-on, tout au moins en première approximation, considérer que les rendements sont des variables normalement distribuées. 3 Résultats Ci-dessous on applique donc la méthode du kernel pour estimer le rendement d’actions et / ou d’indices d’actions. Selon l’horizon étudié, on utilise soit les rendements discrets 10 (lorsque l’horizon est annuel) et les rendements continus (lorsque l’horizon est la journée). Les figures 8, 9, 10 et 11 présentent ainsi les résultats obtenus en appliquant la méthode du kernel aux rendements discrets annuels de quelques-uns des principaux indices : — l’indice MSCI World construit par la banque d’investissement américaine Morgan Stanley qui est utilisé par de nombreux professionnels (funds, banques d’investissement, investisseurs institutionnels) pour gérer passivement leurs investissements ; — l’indice S&P500 construits par la société américaine Standard & Poor’s, indice qui conprend 500 valeurs et qui est un des principaux indices d’actions américaines utilisés aux Etats-Unis car beaucoup plus représentatif des valeurs américaines que l’indice Dow Jones (DJIA30) ; — l’indice MSCI Europe construit comme le MSCI World par la banque d’investissement Mirgan Stanley mais qui ne concerne que les valeurs européennes ; — enfin l’indice Nikkei 225 qui est constuit à partir de 225 valeurs japonaises. Les valeurs de ces différents indices ont été calculées par les sociétés qui les construises non seulement sur les périodes où ils ont été commercialisés mais également sur les périodes antérieures. Ainsi, on dispose de données annuelles pour les MSCI World remontant à 1920, du S&P500 depuis 1801, du MSCI Europe depuis 1920, du Nikkei 225 depuis 1916.2 Comme les figures l’illustrent, les densités estimées par la méthode du kernel s’avèrent en fait très proches des densités normales (prédites par le rendement moyen historique et son écart-type). Ceci n’est pas nécessairement pas un hasard mais doit certainement être relié au théorème centrale limite : celui-ci, en effet, démontre que sous certaines conditions (dont celles que les variances sont bornées), la combinaison d’un grand nombre de variables aléatoires tend à être approximativement gaussienne. Les résultats obtenus sur les actions des sociétés font souvent apparaître “une certaine tendance à la normalité”. Ainsi, sur les figures 12, 13, 14, 15, 16, 17 et 18 sont représentés les densités estimées et normales des actions de sociétés américaines (Microsoft, Dupont de Nemours, General Motors) et françaises (Michelin, Axa, l’Oréal, BNP) pour leurs rendements continus estimés sur données quotidiennes. Les résultats font apparaître une certaine “normalité” des fonctions de densité : — les distributions sont unimodales et symétriques ; — elles approximent “relativement bien” les distributions normales que l’on obtient en utilisant les rendements moyens et les écart-types historiques de ces titres. Cependant, même si on peut être surpris par la qualité de l’ajustement, on peut 2 Ces données sont tirées celles fournies par (http ://www.globalfindata.com/). 11 la société Global Financial Data, Inc Distribution des rendements de l'indice MSCI Monde, 1920 - 2001 (données annuelles, rendements discrets) 2,5 2 1,5 densité estimée densité normale 1 0,5 0 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 Fig. 8 — La distribution des rendements du S&P 500, 1801-2001 (données annuelles, rendements discrets) 3 2,5 2 densité estimée 1,5 densité normale 1 0,5 0 -0,8 -0,6 -0,4 -0,2 0 0,2 Fig. 9 — 12 0,4 0,6 Distribution des rendements de l'indice MSCI Europe, 1920-2001 (données annuelles, rendements discrets) 2,5 2 1,5 densité estimée densité normale 1 0,5 0 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 Fig. 10 — Distribution des rendements du Nikkei 225, 1915-2003 (données annuelles, rendements discrets) 2 1,8 1,6 1,4 1,2 densité estimée densité normale 1 0,8 0,6 0,4 0,2 0 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 Fig. 11 — 13 0,6 0,8 1 Estimation de la fonction de densité de Microsoft données quotidiennes 6 oct 2000 - 30 sept 2004 25 20 15 densité effective 10 densité normale 5 0 -0,2 -0,15 -0,1 -0,05 0 0,05 0,1 0,15 -5 Fig. 12 — également remarquer qu’à la différence des exemples précédants portant sur les indices, les densités estimées donnent systématiquement plus de poids aux valeurs proches de la moyenne et parfois aux valeurs extrêmes. Ceci est un fait stylisé qui a conduit à certains économistes à recourir à d’autres distributions simples. Selon certains récents une combinaison de distributions normales ou la loi de Student donneraient ainsi des résultats sensiblement supérieurs. Cependant, au regard de l’ensemble des résultats, on peut comprendre, qu’en première approximation on puisse se satisfaire de la loi normale (ou de sa variante log normale). 4 Annexe : calculs x est supposée log-normalement distribuée (avec pour paramètres m et σ). Alors l’es- pérance de x s’écrit : E (x) = Z +∞ xf (x)dx Z +∞ 1 ln(x) − m 2 dx 1 )) x exp(− ( = √ 2 σ σx 2π −∞ −∞ 14 Estimation de la fonction de densité de Dupont de Nemours données quotidiennes 6 octobre 2000 30 septembre 2004 30 25 20 15 densité effective densité normale 10 5 0 -0,15 -0,1 -0,05 0 0,05 0,1 0,15 -5 Fig. 13 — Estimation de la fonction de densité des rendemenents géométriques de General Motors données quotidiennes 6 oct 2000 30 sept 2004 25 20 15 densité effective densité normale 10 5 0 -0,15 -0,1 -0,05 0 0,05 Fig. 14 — 15 0,1 0,15 0,2 Estimation de la densité des rendements de l'action Michelin données quotidiennes : 8 janv. 1985 - 1er oct. 2004 30 25 20 15 densité effective densité normale 10 5 0 -0,2 -0,15 -0,1 -0,05 0 0,05 0,1 0,15 0,2 -5 Fig. 15 — Estimation de la densité des rendements continus d'Axa données quotidiennes : mars 1990 - octobre 2004 35 30 25 20 densité estimée densité normale 15 10 5 0 -0,15 -0,1 -0,05 0 0,05 -5 Fig. 16 — 16 0,1 0,15 0,2 Estimation de la fonction de densité des rendements continus de l'Oréal données quotidiennes : mars 1990 - octobre 2004 40 35 30 25 20 densité estimée densité normale 15 10 5 0 -0,15 -0,1 -0,05 0 0,05 0,1 0,15 -5 Fig. 17 — Estimation de la fonction de densité des rendements continus de l'action BNP données quotidiennes : mars 1990 - octobre 2004 35 30 25 20 densité estimée densité normale 15 10 5 0 -0,15 -0,1 -0,05 0 0,05 -5 Fig. 18 — 17 0,1 0,15 puisque : u= ln(x) − m dx ⇒ du = σ σx En posant : t= on a : dt = ln(x) − m σ dx , x = exp(σt + m) x et donc : E (x) = = = = Z +∞ 1 1 √ exp(− t2 + σt + m)dt 2 2π −∞ Z +∞ 1 1 √ exp(− (t2 − 2σt) + m)dt 2 2π −∞ Z +∞ 1 σ2 1 √ + m)dt exp(− (t − σ)2 + 2 2 2π −∞ Z +∞ 1 1 σ2 exp(− (t − σ)2 )dt exp( + m) √ 2 2 2π −∞ Le second terme est l’intégrale de N (m, 1) et donc : σ2 E (x) = exp( + m) 2 De même : V ar(x) = E(x2 ) − E(x)2 et x2 = exp 2(σt + m) 2 E(x ) = = = = Z +∞ 1 1 √ exp(− t2 + 2σt + 2m)dt 2 2π 0 Z +∞ 1 1 √ exp(− (t2 − 4σt) + 2m)dt 2 2π 0 Z +∞ 1 1 √ exp(− (t − 2σ)2 + 2σ 2 + 2m)dt 2 2π 0 Z +∞ 1 1 2 exp 2(σ + m) √ exp(− (t − σ)2 )dt 2 2π 0 Par conséquent, on obtient bien : V ar(x) = exp 2(σ 2 + m) − exp(σ 2 + 2m) = exp(σ 2 + 2m)(exp(σ 2 ) − 1) 18