Note sur la méthode du kernel.

Transcription

Note sur la méthode du kernel.
Note sur la méthode du kernel.
Philippe Bernard
Ingénierie Economique et Financière
Université Paris-Dauphine
Février 2006
Table des matières
1 Loi normale, loi log-normale et rendements
2
2 La méthode du noyau (kernel)
4
3 Résultats
10
4 Annexe : calculs
14
1
La théorie du portefeuille recourt souvent à l’hypothèse que les investisseurs (ménages,
investisseurs institutionnels) ne prennent en compte que les deux premiers moments des
rednements (i.e. l’espérance et la variance) pour évaluer les portefeuilles et les actifs
financiers. Ceci implique notamment que par hypothèse les investisseurs sont notamment
indifférents à :
— l’importance de l’asymétrie des distributions des rendements (la skewness ou moment d’ordre 3) ;
— l’importance relative des rendements extrêmes par rapport aux rendements moyens,
i.e. l’importance relative des queues de distribution (la kurtosis ou moment d’ordre
4).
Certains types d’actifs (comme les options) ou certains secteurs (comme celui des hedge
funds) se caractérises pourtant souvent par des asymétries importantes ou par une relative
importance des rendements extrêmes. Cependant, il est possible de justifier l’approche
moyenne-variance qui néglige les moments supérieurs à 2. L’une des justifications les
plus simples consiste à supposer que les préférences des investisseurs vérifient les axiomes
de l’utilité espérée et que les rendements suivent une loi normale. Sous cette double
hypothèse, il est possible de montrer que quelle que soit l’utilité élémentaire dont on
prend l’utilité totale ne dépendra que de la moyenne et de la variance.
Cette démonstration pose naturellement le problème de la normalité des rendements
des actifs financiers en général, des actions en particulier. Certains instruments des statistiques non-paramétriques permettent de donner certaines réponses. Avant d’aborder ces
méthodes, on revient brièvement sur les lois normales et log-normales.
1
Loi normale, loi log-normale et rendements
Supposer que les rendemenents suivent la loi normale revient à supposer que le rende-
ment (net discret) a pour fonction de densité une fonction f définie par son espérance m
et son écart-type σ, avec :
1
1 r−m 2
f (r) = √ exp − (
)
2
σ
σ 2π
Cette loi normale a deux propriétés intéressantes pour les actifs financiers :
(1)
— elle est stable pour l’addition - et donc si les rendements d’actifs constituant un
portefeuille suivent une loi normale, les rendements du portefeuille en suivent une
aussi ;
2
— si l’agent vérifie les hypothèses de l’utilité espérée alors ses préférences ne dépendent
que de l’espérance et de la variance des rendements des portefeuilles.
Cependant, en dépit de ces “bonnes propriétés”, à la loi normale est souvent préférée
la loi log-normale pour représenter les rendements des titres.
e est la variable aléatoire, alors ln X
e
Avec la loi log-normale, on suppose que, si X
est distribuée normalement. Or, en finance, les rendements utilisés à court-terme sont les
rendements continus qui sont par définition le logarithme népérien du facteur de croissance
des prix. Aussi, dans cette approche :
e
et = Pt
X
Pt−∆
(2)
en indiçant chaque variable par la période t et par la durée ∆ de la période. Le rendement
continu du titre est donc :
Pet
)
(3)
Pt−∆
Sous l’hypothèse log-normale, les rendements étant les rendements continus, alors la
et ) = ln(
ln(X
fonction de densité de Xt = Pt /Pt−∆ est :
f (Xt ) =
1
1 ln Xt − m 2
√ exp − (
)
2
σ
σXt 2π
où m et σ sont l’espérance et l’écart-type de ln(Xt ). Deux propriétés essentielles (dont les
démonstrations sont présentées en annexe) de la loi log-normale sont les suivantes :
Propriétés 1 Si la variable Xt suit la loi log-normale d”espérance m et d’écart-type σ
alors :
σ2
E (Xt ) = exp(m + )
2
2
V ar(Xt ) = exp(2m + σ )(exp(σ 2 ) − 1)
Que l’on choisisse la loi normale (et que l’on raisonne en rendements géométriques
ou discrets) ou la loi log-normale (et que l’on raisonne en rendements arithmétiques ou
continus), il est essentiel d’évaluer si cette hypothèse est plausible ou non. Ceci suppose
que l’on puisse calculer à partir des données observées (les cours) la distribution suivie
par les rendements. Une des méthodes les plus couramment utilisées est la méthode non
paramétrique du noyau (ou kernel).
3
Dis tribution des rendements continus du CAC 40, 1990-200 4
his togramme à 10 interv.
50
40
30
20
10
0
-0,08 -0,06 -0,05 -0,03 -0,02
-0
0,01 0,03 0,04 0,06 0,07
Fig. 1 —
2
La méthode du noyau (kernel)
La méthode non paramétrique la plus simple pour inférer la fonction de densité des ren-
dements est évidemment la construction d’histogrammes. Même si cet instrument simple
n’est pas à négliger, il présente plusieurs défauts. Notamment qu’il repose essentiellement
sur un choix arbitraire : le choix des intervalles utilisés. Selon ce dernier, la distribution obtenue peut grandement différer. Différents exemples abondent dans la littérature,
notament la bio-statistique.
Les figures 1, 2 et 3 illustrent ainsi l’application de la méthode aux rendements continus
(en données quotidiennes) du CAC 40 sur la période allant du 1er mars 1990 au 1er octobre
2004. Il illustre qu’un nombre trop limité d’intervalles peut donner une fausse idée comme
le montre la comparaison des figures 1 et 3.
Les figures 4, 5 et 6 appliquent la même méthode cette fois à l’indice Dow Jones,
plus précisément le DJIA30, pour la période allant du 1er mars 1986 au 1er octobre - les
rendements étant les rendements continus sur données quotidiennes.
Les deux histogrammes les plus lisses (figures 3 et 6) confortent l’hypothèse que les
rendements continus sont distribuées de manière normale (ou log-normale).
Pour dépasser les limites de la méthode de l’histogramme, les statisticiens ont déve-
4
Dis tribution des rendements continus du CAC 40, 1990-200 4
his togramme à 20 interv.
30
25
20
15
10
5
07
0,
06
0,
0,
04
03
01
0,
0,
-0
0,
00
2
,0
3
-0
,0
,0
-0
-0
-0
,0
,0
8
6
5
0
Fig. 2 —
Dis tribution des rendements géométriques du CAC 40, 1990-20 04
his togramme à 50 intervalles
12
10
8
6
4
2
Fig. 3 —
5
06
0,
05
0,
04
0,
03
0,
02
0,
01
0,
1
-0
,0
2
-0
,0
3
,0
4
-0
,0
5
-0
-0
,0
7
,0
-0
-0
,0
8
0
Dis tribution des rendements continus du DJIA30, 1986-2004
his togramme à 10 interv.
40
35
30
25
20
15
10
5
0
-0,04 -0,03 -0,02 -0,02 -0,01
-0
0
0,01 0,02 0,02 0,03
Fig. 4 —
Dis tribution des rendements continus du DJIA30, 1990-2004
his togramme à 20 interv.
20
15
10
5
Fig. 5 —
6
03
0,
02
0,
02
0,
01
0,
00
0,
00
0,
1
,0
-0
2
,0
-0
2
,0
-0
3
,0
-0
-0
,0
4
0
Dis tribution des rendements géométriques du DJIA 30, 1986-2004
his togramme à 50 intervalles
10
8
6
4
2
03
0,
02
0,
02
0,
01
0,
01
0,
00
0,
0,
00
1
,0
2
-0
,0
2
-0
,0
3
-0
,0
3
-0
,0
-0
-0
,0
4
0
Fig. 6 —
loppé, à partir des années 50, la méthode du Kernel.1 Cette méthode a notamment comme
avantage de ne pas supposer a priori une forme fonctionnelle pour la fonction de densité
que l’on cherche à estimer. Ce faisant elle constitue donc une méthode non paramétrique.
L’instuition du kernel peut être retrouvée en repartant de la construction de l’histogramme. On dispose de N observations :
SN = {X1 , X2 , ..., XN }
où Xi sont les valeurs (unidimensionnelles) constatées. Par exemple les rendements. L’histogramme revient alors à spécifier un intervalle h et un nombre d’intervalles M. Puis les
différents intervalles [X0 + m.h, X0 + (m + 1).h[, où x0 est l’origine, m = 1, ..., M , étant
spécifiés, on détermine pour chaque observation l’intervalle auquel il appartient. La fonction de densité que l’on estime ainsi, notée fb, peut alors s’écrire :
n
o
1
b ∈ SN : X
b ∈ I(X)
fb(X) =
# X
Nh
(4)
où I(X) est donc l’intervalle auquel x appartient. On peut réécrire cette expression en
introduisant une fonction caractéristique qui pour chaque X et chaque observation nous
1
Silverman [?] est la référence classique de la littérature. Le chapitre introductif est disponible sur le
web.
7
dit simplement si l’observation appartient ou non à l’intervalle I(X) :

b / I(X)


 0 si X ∈
b X) =
δ(X;


 1 si X
b ∈ I(X)
(5)
L’expression (4) peut alors se réécrire :
1 X
b X)
fb(X) =
δ(X;
Nh
(6)
e N
X∈S
Une fois h fixé, la densité empirique de X va donc être déterminée par les valeurs de la
b Mais δ(X;
b X) ne peut prendre
fonction caractéristique δ(.; X) en chaque observation X.
que deux valeurs : 0 ou 1. Cette réécriture met donc en évidence un inconvénient de l’histogramme : comme δ est une fonction discontinue, même si l’on ne modifie que légèrement
h, c’est à dire si l’on modifie la dimension de l’intervalle utilisée, certaines observations
dès qu’elles vont entrer ou sortir dans l’intervalle vont voir leur valeur passer de 0 à 1 et
inversement. Ceci fait que la densité empirique n’est pas une fonction continue à la valeur
de h. Comme l’ont montré de nombreux exemples notamment en biostatistique, ceci peut
conduire à des distributions empiriques dont la forme peut s’avérer trop sensible au choix
de h. Aussi les statisticiens ont tenté de proposer des méthodes non paramétriques plus
robustes. Le kernel (ou noyau) fut ainsi développé au début des années 50.
L’écriture (6) de la densité empirique permet de comprendre simplement l’intuition
du kernel. Elle consiste à rechercher en lieu et place de δ d’une fonction K, le kernel, qui
nous définisse la densité empirique par :
1 X
b X)
fb(X) =
K(X,
hN
e N
X∈S
tout en évitant les inconvénients d’une fonction discontinue comme δ.
Dans la littérature, notamment en raison des résultats empiriques obtenus, deux
noyaux se sont progressivement imposés :
— le noyau gaussien
b
b X) = √1 exp(− 1 ( X − X )2 )
K(X;
2
h
2π
— le noyau d’Epanechnikov
b
b X)
b X) = 3 (1 − ( X − X )2 )I(X;
K(X;
4
h
8
où, dans les deux cas, u est un réel compris entre −1 et 1, I est la fonction indicatrice
suivante :
b X) =
I(X;
(
e
1 si ( X−X
)2 < 1
h
e
0 si ( X−X
)2 ≥ 1
h
Une fois adoptée la fonction de kernel (qui donne généralement des résultats très
proches dès lors que l’on a suffisamment de données), il reste à déterminer la valeur de
h. Différentes méthodes sont possibles pour cela. Certaines recourent notamment à des
méthodes de maximisation de la vraissemblance. Les études appliquées ont cependant
montré qu’empiriquement certaines formules ad hoc donnent des résultats très statisfaisants. Ainsi pour le noyau gaussien, un choix courant et relativement efficace est :
1
4 1
h = cb
σN − 5 , c = 3 ou ( ) 5
5
La figure 7 illustre la procédure du kernel pour le noyau gaussien. Les observations
dont on dispose sont les rendements observés d’un titre dont on cherche à représenter la
distribution. Pour garder l’exemple simple, on suppose que l’on ne dispose que de trois
observations :
R = −5%, 10%, 25%
Dans le cas du noyau gaussien, comme l’illustre la figure 7, on va donc sommer les n
courbes en cloche. Ce faisant, comme l’on somme des courbes lisses et dérivables, on
obtient nécessairement une fonction de densité estimée à la fois continue et dérivable.
Si l’on prend comme valeur de l’écart-type :
r
1
σ
b=
((−5 + 10)2 + (10 + 10)2 + (25 − 10)2 ) = 18.028
2
1
et si l’on applique la formule h = 3b
σN − 5 alors numériquement :
h ' 43. 415
Avec le noyau gaussien, les fonctions à utiliser sont donc :
Ã
!2
b−R
R
1
1
b R) = √ exp(−
)
K(R;
2 43.415
2π
Aussi, nos trois observations nous donnent trois fonctions :
µ
¶2
1
1 −5 − R
K1 (R) = √ exp(−
)
2 43.415
2π
9
1
0.8
0.6
0.4
0.2
-100
-50
0 0
50
x
100
Fig. 7 — Un exemple de construction par lissage de la fonction de densité.
1
1
K2 (R) = √ exp(−
2
2π
µ
10 − R
43.415
¶2
)
µ
¶2
1
1 25 − R
K2 (R) = √ exp(−
)
2 43.415
2π
La densité empirique de chaque rendement R (observé ou non) est alors obtenu en sommant ces trois fonctions :
fb(X) =
1
[K1 (R) + K2 (R) + K3 (R)]
3(43.415)
Le résultat obtenu est celui illustré par la figure 7.
La méthode du kernel permet donc d’estimer en faisant le minimum d’hypothèses
les distributions des rendements. Quel est le verdict de cette méthode ? Peut-on, tout
au moins en première approximation, considérer que les rendements sont des variables
normalement distribuées.
3
Résultats
Ci-dessous on applique donc la méthode du kernel pour estimer le rendement d’actions
et / ou d’indices d’actions. Selon l’horizon étudié, on utilise soit les rendements discrets
10
(lorsque l’horizon est annuel) et les rendements continus (lorsque l’horizon est la journée).
Les figures 8, 9, 10 et 11 présentent ainsi les résultats obtenus en appliquant la méthode
du kernel aux rendements discrets annuels de quelques-uns des principaux indices :
— l’indice MSCI World construit par la banque d’investissement américaine Morgan
Stanley qui est utilisé par de nombreux professionnels (funds, banques d’investissement, investisseurs institutionnels) pour gérer passivement leurs investissements ;
— l’indice S&P500 construits par la société américaine Standard & Poor’s, indice qui
conprend 500 valeurs et qui est un des principaux indices d’actions américaines
utilisés aux Etats-Unis car beaucoup plus représentatif des valeurs américaines que
l’indice Dow Jones (DJIA30) ;
— l’indice MSCI Europe construit comme le MSCI World par la banque d’investissement Mirgan Stanley mais qui ne concerne que les valeurs européennes ;
— enfin l’indice Nikkei 225 qui est constuit à partir de 225 valeurs japonaises.
Les valeurs de ces différents indices ont été calculées par les sociétés qui les construises
non seulement sur les périodes où ils ont été commercialisés mais également sur les périodes
antérieures. Ainsi, on dispose de données annuelles pour les MSCI World remontant à
1920, du S&P500 depuis 1801, du MSCI Europe depuis 1920, du Nikkei 225 depuis 1916.2
Comme les figures l’illustrent, les densités estimées par la méthode du kernel s’avèrent
en fait très proches des densités normales (prédites par le rendement moyen historique
et son écart-type). Ceci n’est pas nécessairement pas un hasard mais doit certainement
être relié au théorème centrale limite : celui-ci, en effet, démontre que sous certaines
conditions (dont celles que les variances sont bornées), la combinaison d’un grand nombre
de variables aléatoires tend à être approximativement gaussienne.
Les résultats obtenus sur les actions des sociétés font souvent apparaître “une certaine
tendance à la normalité”. Ainsi, sur les figures 12, 13, 14, 15, 16, 17 et 18 sont représentés
les densités estimées et normales des actions de sociétés américaines (Microsoft, Dupont
de Nemours, General Motors) et françaises (Michelin, Axa, l’Oréal, BNP) pour leurs
rendements continus estimés sur données quotidiennes. Les résultats font apparaître une
certaine “normalité” des fonctions de densité :
— les distributions sont unimodales et symétriques ;
— elles approximent “relativement bien” les distributions normales que l’on obtient en
utilisant les rendements moyens et les écart-types historiques de ces titres.
Cependant, même si on peut être surpris par la qualité de l’ajustement, on peut
2
Ces
données
sont
tirées
celles
fournies
par
(http ://www.globalfindata.com/).
11
la
société
Global
Financial
Data,
Inc
Distribution des rendements de l'indice MSCI Monde, 1920 - 2001
(données annuelles, rendements discrets)
2,5
2
1,5
densité estimée
densité normale
1
0,5
0
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
Fig. 8 —
La distribution des rendements du S&P 500, 1801-2001
(données annuelles, rendements discrets)
3
2,5
2
densité estimée
1,5
densité normale
1
0,5
0
-0,8
-0,6
-0,4
-0,2
0
0,2
Fig. 9 —
12
0,4
0,6
Distribution des rendements de l'indice MSCI Europe, 1920-2001
(données annuelles, rendements discrets)
2,5
2
1,5
densité estimée
densité normale
1
0,5
0
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
Fig. 10 —
Distribution des rendements du Nikkei 225, 1915-2003
(données annuelles, rendements discrets)
2
1,8
1,6
1,4
1,2
densité estimée
densité normale
1
0,8
0,6
0,4
0,2
0
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
Fig. 11 —
13
0,6
0,8
1
Estimation de la fonction de densité de Microsoft données quotidiennes 6 oct 2000 - 30 sept 2004
25
20
15
densité effective
10
densité normale
5
0
-0,2
-0,15
-0,1
-0,05
0
0,05
0,1
0,15
-5
Fig. 12 —
également remarquer qu’à la différence des exemples précédants portant sur les indices,
les densités estimées donnent systématiquement plus de poids aux valeurs proches de la
moyenne et parfois aux valeurs extrêmes. Ceci est un fait stylisé qui a conduit à certains
économistes à recourir à d’autres distributions simples. Selon certains récents une combinaison de distributions normales ou la loi de Student donneraient ainsi des résultats
sensiblement supérieurs. Cependant, au regard de l’ensemble des résultats, on peut comprendre, qu’en première approximation on puisse se satisfaire de la loi normale (ou de sa
variante log normale).
4
Annexe : calculs
x est supposée log-normalement distribuée (avec pour paramètres m et σ). Alors l’es-
pérance de x s’écrit :
E (x) =
Z
+∞
xf (x)dx
Z +∞
1 ln(x) − m 2 dx
1
))
x exp(− (
= √
2
σ
σx
2π −∞
−∞
14
Estimation de la fonction de densité de Dupont de Nemours données quotidiennes 6 octobre 2000 30 septembre 2004
30
25
20
15
densité effective
densité normale
10
5
0
-0,15
-0,1
-0,05
0
0,05
0,1
0,15
-5
Fig. 13 —
Estimation de la fonction de densité des rendemenents géométriques de General Motors données quotidiennes 6 oct 2000 30 sept 2004
25
20
15
densité effective
densité normale
10
5
0
-0,15
-0,1
-0,05
0
0,05
Fig. 14 —
15
0,1
0,15
0,2
Estimation de la densité des rendements de l'action Michelin données quotidiennes : 8 janv. 1985 - 1er oct. 2004
30
25
20
15
densité effective
densité normale
10
5
0
-0,2
-0,15
-0,1
-0,05
0
0,05
0,1
0,15
0,2
-5
Fig. 15 —
Estimation de la densité des rendements continus d'Axa
données quotidiennes : mars 1990 - octobre 2004
35
30
25
20
densité estimée
densité normale
15
10
5
0
-0,15
-0,1
-0,05
0
0,05
-5
Fig. 16 —
16
0,1
0,15
0,2
Estimation de la fonction de densité des rendements continus de l'Oréal
données quotidiennes : mars 1990 - octobre 2004
40
35
30
25
20
densité estimée
densité normale
15
10
5
0
-0,15
-0,1
-0,05
0
0,05
0,1
0,15
-5
Fig. 17 —
Estimation de la fonction de densité des rendements continus de l'action BNP
données quotidiennes : mars 1990 - octobre 2004
35
30
25
20
densité estimée
densité normale
15
10
5
0
-0,15
-0,1
-0,05
0
0,05
-5
Fig. 18 —
17
0,1
0,15
puisque :
u=
ln(x) − m
dx
⇒ du =
σ
σx
En posant :
t=
on a :
dt =
ln(x) − m
σ
dx
, x = exp(σt + m)
x
et donc :
E (x) =
=
=
=
Z +∞
1
1
√
exp(− t2 + σt + m)dt
2
2π −∞
Z +∞
1
1
√
exp(− (t2 − 2σt) + m)dt
2
2π −∞
Z +∞
1
σ2
1
√
+ m)dt
exp(− (t − σ)2 +
2
2
2π −∞
Z +∞
1
1
σ2
exp(− (t − σ)2 )dt
exp( + m) √
2
2
2π −∞
Le second terme est l’intégrale de N (m, 1) et donc :
σ2
E (x) = exp( + m)
2
De même :
V ar(x) = E(x2 ) − E(x)2
et
x2 = exp 2(σt + m)
2
E(x ) =
=
=
=
Z +∞
1
1
√
exp(− t2 + 2σt + 2m)dt
2
2π 0
Z +∞
1
1
√
exp(− (t2 − 4σt) + 2m)dt
2
2π 0
Z +∞
1
1
√
exp(− (t − 2σ)2 + 2σ 2 + 2m)dt
2
2π 0
Z +∞
1
1
2
exp 2(σ + m) √
exp(− (t − σ)2 )dt
2
2π 0
Par conséquent, on obtient bien :
V ar(x) = exp 2(σ 2 + m) − exp(σ 2 + 2m)
= exp(σ 2 + 2m)(exp(σ 2 ) − 1)
18