Rappels de Statistique et d`Algèbre Linéaire

Transcription

Rappels de Statistique et d`Algèbre Linéaire
Rappels de Statistique et d’Algèbre Linéaire
Emmanuel Duguet
Septembre 2010
table des matières
1 Moments empiriques et moments théoriques
1.1 Moments empiriques des vecteurs . . . . . . .
1.1.1 Moyenne arithmétique . . . . . . . . .
1.1.2 Variance empirique . . . . . . . . . . .
1.1.3 Ecart-type empirique . . . . . . . . . .
1.1.4 Covariance empirique . . . . . . . . .
1.1.5 Corrélation empirique . . . . . . . . .
1.2 Moments empiriques des matrices . . . . . . .
1.2.1 Moyenne arithmétique . . . . . . . . .
1.2.2 Matrice de covariance empirique . . .
1.3 Convergence en probabilité . . . . . . . . . .
1.4 Inégalité de Bienaymé-Chebichev . . . . . . .
1.5 La loi faible des grands nombres . . . . . . .
1.6 Théorème de la limite centrale . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
2
3
3
4
4
5
5
5
9
10
12
13
2 Algèbre linéaire
14
2.1 Calcul matriciel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Matrices définies positives . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Produits de Kronecker . . . . . . . . . . . . . . . . . . . . . . . . 16
1
ANNEXE 1
Moments empiriques et
moments théoriques
1.1
Moments empiriques des vecteurs
Le but de cette section est de se familiariser avec les notations de calcul matriciel, car c’est sous cette forme qu’apparaissent le plus souvent les moments
empiriques. Il faut donc savoir les simplifier quand on les recontre dans une
expression.
1.1.1
Moyenne arithmétique
La moyenne arithmétique d’un vecteur colonne z = (z1 , z2 , ..., zN )0 peut se trouver sous les formes équivalentes suivantes :
N
z0e
z0e
1 X
z= 0 =
zi ,
=
ee
N
N i=1
car on a :
⎛
et :
⎜
⎜
z 0 e = (z1 , z2 , ..., zN ) ⎜
⎝
1
1
..
.
1
⎛
⎜
⎜
e0 e = (1, 1, ..., 1) ⎜
⎝
⎞
N
⎟
X
⎟
zi ,
⎟ = z1 + z2 + ... + zN =
⎠
i=1
1
1
..
.
1
⎞
⎟
⎟
⎟ = |1 + 1 +
{z... + 1} = N.
⎠
N fois
2
3
1.1.2
Variance empirique
La variance empirique de la série z, notée Ve (z) , peut se trouver sous les formes
équivalentes :
N
1 X
(zi − z)2
N i=1
Ve (z) =
N
1 X 2
2
z − (z)
N i=1 i
=
1
0
(z − ze) (z − ze) ,
N
z0 z
=
− (z)2
N
=
car
⎛
⎜
⎜
z − ze = ⎜
⎝
z1
z2
..
.
zN
ce qui implique :
⎞
⎛
⎟ ⎜
⎟ ⎜
⎟−⎜
⎠ ⎝
z
z
..
.
z
⎞
⎛
⎟ ⎜
⎟ ⎜
⎟=⎜
⎠ ⎝
z1 − z
z2 − z
..
.
zN − z
⎛
⎜
⎜
0
(z − ze) (z − ze) = (z1 − z, z2 − z, ..., zN − z) ⎜
⎝
2
2
⎞
⎟
⎟
⎟,
⎠
⎞
z1 − z
z2 − z
..
.
zN − z
2
= (z1 − z) + (z2 − z) + ... + (zN − z)
=
N
X
i=1
⎟
⎟
⎟
⎠
(zi − z)2 .
En posant z = 0, on trouve :
z0 z =
N
X
zi2 .
i=1
1.1.3
Ecart-type empirique
Il s’agit simplement de la racine carrée de la variance empirique. On le note :
p
σ e (x) = Ve (x).
4
1.1.4
Covariance empirique
La covariance empirique entre le vecteur z = (z1 , z2 , ..., zN )0 et le vecteur x =
0
(x1 , x2 , ..., xN ) , Cove (z, x) , s’écrit :
Cove (x, z) =
=
N
1 X
(zi − z) (xi − x)
N i=1
N
1 X
zi xi − z x
N i=1
1
0
(z − ze) (x − xe)
N
z0 x
=
− z x.
N
=
En effet :
⎛
⎜
⎜
(z − ze)0 (x − xe) = (z1 − z, z2 − z, ..., zN − z) ⎜
⎝
x1 − x
x2 − x
..
.
xN − x
⎞
⎟
⎟
⎟
⎠
= (z1 − z) (x1 − x) + ... + (zN − z) (xN − x)
=
N
X
i=1
(zi − z) (xi − x) .
En posant z = 0 = x dans l’expression précédente, on a :
z0 x =
N
X
zi xi .
i=1
On remarque de plus que lorsque z = x :
Cove (x, x) =
N
1 X
(xi − x) (xi − x)
N i=1
N
1 X
2
=
(xi − x)
N i=1
= Ve (x) .
1.1.5
Corrélation empirique
Le coefficient de corrélation linéaire empirique entre les séries z et x, noté
ρe (x, z) est défini par :
Cove (x, z)
Cove (x, z)
=
ρe (x, z) = p
.
σ
e (x) σ e (z)
Ve (x) Ve (z)
5
Il peut donc prendre différentes formes en fonction des expressions que nous
avons vu plus haut. On peut faire apparaître son expression dans la définition
des différents estimateurs.
1.2
1.2.1
Moments empiriques des matrices
Moyenne arithmétique
On considère maintenant une matrice X de dimension (N, p) . Chaque ligne de
X correspond à une observation et ¡chaque colonne de ¢X corrrespond à une
variable. On note ces variables X = X (1) |X (2) | . . . |X (p) . On a :
X=
⎛
X 0e
1 ⎜
⎜
=
⎜
N
N
⎝
|{z}
(p,1)
1.2.2
X (1)0
X (2)0
..
.
X (p)0
⎞
⎛
⎟
1 ⎜
⎜
⎟
⎜
⎟e =
N⎝
⎠
X (1)0 e
X (2)0 e
..
.
X (p)0 e
⎞
⎛
⎟ ⎜
⎟ ⎜
⎟=⎜
⎠ ⎝
x1
x2
..
.
xp
⎞
⎟
⎟
⎟.
⎠
Matrice de covariance empirique
Contrairement au cas univarié, on définit une matrice qui contient à la fois les
variances et les covariances des variables. Les variances sont sur la diagonale de
la matrice de covariance. On a :
Ve (X) =
X 0X
0
−XX
N
On peut définir la matrice des produits croisés des variables explicatives X 0 X
à partir du modèle écrit par observations ou par variables. Selon le contexte
une expression peut s’avérer plus pratique que l’autre, et il faut pouvoir passer
facilement entre les différentes expressions.
6
Par rapport aux variables, on a:
⎛ (1)0 ⎞
X
⎜ X (2)0 ⎟ ³
´
⎟
⎜
X 0 X = ⎜ . ⎟ X (1) |X (2) |...|X (p)
(N,p)(N,p)
⎝ .. ⎠
X (p)0
⎛
⎜
⎜
=⎜
⎝
⎛
⎜
⎜
=⎜
⎜
⎝
X (1)0 X (1)
X (1)0 X (2)
..
.
X (1)0 X (2)
X (2)0 X (2)
..
.
...
...
..
.
X (1)0 X (p)
X (2)0 X (p)
..
.
X (p)0 X (1)
X (p)0 X (2)
...
X (p)0 X (p)
PN 2
x
PNi=1 i1
x
xi2
i1
i=1
..
.
PN
i=1 xi1 xip
PN
i=1 xi1 xi2
P
N
2
i=1 xi2
..
.
PN
i=1 xi2 xip
...
...
..
.
...
⎞
⎟
⎟
⎟
⎠
PN
xi1 xip
Pi=1
N
i=1 xi2 xip
..
.
PN 2
i=1 xip
⎞
⎟
⎟
⎟
⎟
⎠
La matrice des moments empiriques non centrés de X est définie par :
⎞
⎛
PN
PN
... N −1 i=1 xi1 xip
N −1 i=1 x2i1
P
⎟
⎜ −1 PN
... N −1 N
⎜ N
X 0X
i=1 xi1 xi2
i=1 xi2 xip ⎟
⎟
⎜
=⎜
..
..
..
⎟
N
.
.
.
⎠
⎝
P
P
N
N
−1
−1
2
N
...
N
i=1 xi1 xip
i=1 xip
On en déduit la matrice de covariance empirique :
⎛
⎜
⎜
Ve (X) = ⎜
⎜
⎝
PN
N −1 i=1 x2i1
P
N −1 N
i=1 xi1 xi2
..
.
PN
−1
N
i=1 xi1 xip
...
...
..
.
...
PN
N −1 i=1 xi1 xip
P
N −1 N
i=1 xi2 xip
..
.
PN 2
−1
N
i=1 xip
⎛
⎞
x1
⎜ x2 ⎟ ¡
⎜
⎟
−⎜ . ⎟
⎝ .. ⎠
xp
⎞
⎟
⎟
⎟
⎟
⎠
x1
x2
···
xp
¢
7
⎛
⎜
⎜
=⎜
⎜
⎝
⎛
⎜
⎜
=⎜
⎜
⎝
PN
N −1 i=1 x2i1
P
N −1 N
i=1 xi1 xi2
..
.
P
N
N −1 i=1 xi1 xip
...
...
..
.
...
PN
N −1 i=1 xi1 xip
P
N −1 N
i=1 xi2 xip
..
.
P
N
N −1 i=1 x2ip
P
2
2
N −1 N
i=1 xi1 − x1
P
N
−1
N
i=1 xi1 xi2 − x1 x2
..
.
P
N −1 N
x
i=1 i1 xip − x1 xp
...
...
..
.
...
On obtient donc finalement :
⎛
Ve (x1 )
⎜ Cove (x1 , x2 )
⎜
Ve (X) = ⎜
..
⎝
.
⎞
⎛
⎟ ⎜
⎟ ⎜
⎟−⎜
⎟ ⎝
⎠
x21
x1 x2
..
.
...
...
..
.
x1 xp
x2 xp
..
.
x1 xp
...
x2p
P
N −1 N
xi1 xip − x1 xp
Pi=1
N
N −1 i=1 xi2 xip − x2 xp
..
.
P
2
2
N −1 N
i=1 xip − xp
⎞
⎟
⎟
⎟
⎠
⎞
⎟
⎟
⎟
⎟
⎠
Cove (x1 , x2 )
Ve (x2 )
..
.
...
...
..
.
Cove (x1 , xp )
Cove (x2 , xp )
..
.
Cove (x1 , xp ) Cove (x2 , xp )
...
Ve (xp )
⎞
⎟
⎟
⎟
⎠
Par rapport aux observations. La matrice de covariance empirique peut
s’écrire :
N
1 X 0
0
(X)
=
X Xi − X X
Ve
N i=1 i
on a :
N
X
Xi0 Xi =
i=1
=
⎛
⎜
⎜
(xi1 , xi2 , ..., xip ) ⎜
⎝
i=1
N
X
⎛
N ⎜
X
⎜
⎜
⎝
i=1
⎛
⎜
⎜
=⎜
⎜
⎝
xip
⎞
⎟
⎟
⎟
⎠
x2i1
xi1 xi2
..
.
xi1 xi2
x2i2
..
.
...
...
..
.
xi1 xip
xi2 xip
..
.
xi1 xip
xi2 xip
...
x2ip
PN 2
x
PNi=1 i1
i=1 xi1 xi2
..
.
PN
i=1 xi1 xip
= X 0X
xi1
xi2
..
.
PN
i=1 xi1 xi2
P
N
2
i=1 xi1
..
.
PN
i=1 xi2 xip
...
...
..
.
...
⎞
⎟
⎟
⎟
⎠
PN
xi1 xip
Pi=1
N
i=1 xi2 xip
..
.
PN 2
i=1 xip
⎞
⎟
⎟
⎟
⎟
⎠
8
On retrouve donc le même résultat que précédemment. De même pour les
produits croisés entre les variables explicatives et la variable expliquée, on a :
⎛
⎜
⎜
=⎜
⎝
(N,p)(N,1)
X0
y
X (1)0
X (2)0
..
.
X (p)0
⎞
⎛
⎟
⎜
⎟
⎜
⎟y = ⎜
⎠
⎝
⎛ PN
i=1 xi1 yi
⎟ ⎜ PN xi2 yi
i=1
⎟ ⎜
⎟=⎜ .
⎠ ⎝ ..
PN
X (p)0 y
i=1 xip yi
X (1)0 y
X (2)0 y
..
.
⎞
⎞
N
⎟ X
⎟
=
X 0 yi .
⎟
⎠ i=1 i
Les moments centrés donnent donc :
Cove (X, y) =
N
1 X 0
X 0y
Xi yi − X y =
− X y.
N i=1
N
Le vecteur correspondant est égal à :
⎛
⎜
⎜
Cove (X, y) = ⎜
⎝
⎛
⎜
⎜
=⎜
⎝
⎛
⎜
⎜
=⎜
⎝
⎛
⎜
⎜
=⎜
⎝
P
N −1 N
xi1 yi
Pi=1
N
−1
N
i=1 xi2 yi
..
.
P
N −1 N
i=1 xip yi
P
N −1 N
xi1 yi
Pi=1
N
−1
N
i=1 xi2 yi
..
.
PN
N −1 i=1 xip yi
⎞
⎞
⎟ ⎜
⎟ ⎜
⎟−⎜
⎠ ⎝
⎛
⎟ ⎜
⎟ ⎜
⎟−⎜
⎠ ⎝
PN
N −1 i=1 xi1 yi − x1 y
P
N −1 N
i=1 xi2 yi − x2 y
..
.
PN
N −1 i=1 xip yi − xp y
Cove (x1 , y)
Cove (x2 , y)
..
.
Cove (xp , y)
⎛
x1 y
x2 y
..
.
xp y
x1
x2
..
.
xp
⎞
⎟
⎟
⎟y
⎠
⎞
⎟
⎟
⎟
⎠
⎞
⎟
⎟
⎟
⎠
⎞
⎟
⎟
⎟.
⎠
Sous certaines conditions, les moments empiriques que nous venons de voir
convergent en probabilité vers les moments théoriques correspondants. Ce point
est examiné dans la section suivante.
9
1.3
Convergence en probabilité
définition 1.1 Soit bbN une variable aléatoire dont la réalisation dépend du
nombre d’observations disponibles dans un échantillon (noté N ). On dit que
cette suite de variables aléatoires bbN converge en probabilité vers une valeur b
lorsque le nombre d’observations N tend vers l’infini, si elle vérifie la propriété
suivante :
¯
h¯
i
¯
¯
∀ε > 0, Pr ¯bbN − b¯ > ε −→ 0.
N→+∞
La convergence en probabilité de bbN vers b est notée de manière abrégée par
l’expression :
Plim bbN = b,
où Plim est l’abréviation de “probability limit” (i.e., limite en probabilité). Elle
s’écrit également :
P
bbN −→
b.
N →+∞
Cette définition signifie que l’évènement “bbN s’écarte de b d’une distance
supérieure à ε” est de probabilité nulle (i.e., impossible) lorsque N → +∞.
Cette propriété s’étend à certaines fonctions de bbN , comme le montre le théorème
suivant.
THÉORÈME 1.1 [Slutsky]
Soit bbN une suite de variables aléatoires qui converge en probabilité vers b :
Plim bbN = b,
et soit g (.) une fonction continue définie au point b. On a :
³
´
³ ´
Plim g bbN = g Plim bbN = g (b) .
Les définitions précédentes et le théorème de Slutsky s’étendent au cas vectoriel en raisonnant composante par composante. En particulier le théorème de
Slutsky permet de simplifier considérablement le calcul des limites en probabilités. Prenons deux estimateurs convergents, b
a d’un paramètre a et bb d’un
paramètre b. On a :
Plim b
a + bb = Plim b
a + Plim bb = a + b,
car la fonction g (a, b) = a + b est continue et les estimateurs convergent en
probabilité. De même, en utilisant les fonctions g (a, b) = ab, g (a, b) = a/b
(pour b 6= 0) on obtient les propriétés :
Plim b
a bb = Plim b
a Plim bb = a b,
b
a
a
Plim b
a
Plim =
= , b 6= 0.
bb
b
Plim bb
10
1.4
Inégalité de Bienaymé-Chebichev
Le théorème suivant est très important. Il nous permet notamment de démontrer
la loi des grands nombres et le fait que la convergence en moyenne quadratique
implique la convergence en probabilité...en une seule ligne.
THÉORÈME 1.2 [Inégalité de Bienaymé-Chebichev]
Soit Z une variable de carré intégrable, on a :
∀δ > 0, Pr [|Z| ≥ δ] ≤
preuve :
Soit la variable de Bernoulli :
D=
½
1 ¡ 2¢
E Z .
δ2
1 si |Z| ≥ δ
0 sinon
son espérance mathématique est égale à :
E (D) = 1 × Pr [|Z| ≥ δ] + 0 × Pr [|Z| < δ] = Pr [|Z| ≥ δ] .
D’autre part :
1. Si |Z| ≥ δ on a D = 1 donc :
|Z|
Z2
≥ 1 ⇒ 2 ≥ D = 1.
δ
δ
2. Si |Z| < δ on a D = 0 donc :
|Z|
Z2
≥ 0 ⇒ 2 ≥ D = 0.
δ
δ
donc dans tous les cas on a :
µ 2¶
Z
Z2
≥ E (D)
≥
D
⇒
E
δ2
δ2
1 ¡ ¢
⇔ 2 E Z 2 ≥ Pr [|Z| ≥ δ] .
δ
Remarque 1.1 En posant Z = X − E (X) , on obtient l’expression :
∀δ > 0, Pr [|X − E (X)| ≥ δ] ≤
i
h
car V (X) = E (X − E (X))2 .
1
V (X) ,
δ2
¤
11
La convergence en probabilité est parfois difficile à vérifier directement, on
utilise alors une conditions suffisante, qui correspond en fait à la convergence
en moyenne quadratique.
définition 1.2 Soit bbN une variable aléatoire dont la réalisation dépend du
nombre d’observations disponibles dans un échantillon (noté N ). On dit que
cette suite de variables aléatoires bbN converge en moyenne quadratique vers une
valeur b lorsque le nombre d’observations N tend vers l’infini, si elle vérifie une
des deux propriétés équivalentes suivantes :
∙³
´2 ¸
1. E bbN − b
→ 0 lorsque N → +∞.
³ ´
2. E bbN → b
et
On note ce résultat :
³ ´
V bbN → 0
bbN
lorsque
N → +∞.
m.q.
−→ b.
N →+∞
Cette définition porte directement sur la distance entre bbN et b. Elle impose
que cette distance s’annule quand le nombre d’observations devient suffisamment
grand. L’équivalence entre les deux définitions vient du développement suivant
:1
∙³
´2 ¸
i h ³
´i2
h
= V bbN − b + E bbN − b
E bbN − b
³ ´ ³ ³ ´
´2
= V bbN + E bbN − b ≥ 0.
Les deux termes précédents sont positifs ou nuls donc pour que³ l’expression
´
s’annule lorsque N → +∞, il faut que l’on ait simultanément V bbN → 0 et
³ ´
E bbN → b.
propriété 1.1 Soit bbN une suite de variables aléatoires, on a :
bbN
m.q.
−→ b
N →+∞
⇒
Plim bbN = b,
la convergence en moyenne quadratique implique la convergence en probabilité.
preuve :
C’est une conséquence de l’inégalité de Bienaymé-Chebichev. En posant Z =
bbN − b et δ = ε > 0 dans le théorème [1.2] , on obtient :
∙³
¯
h¯
i
´2 ¸
1
¯
¯
∀ε > 0, 0 ≤ Pr ¯bbN − b¯ ≥ ε ≤ 2 E bbN − b
−→ 0.
N →+∞
ε
¤
1 On rappelle que : V(X) = E X 2 − E(X)2 ⇔ E X 2 = V(X) +E(X)2 . Ici on pose
X =e
bn − b.
12
1.5
La loi faible des grands nombres
Cette section permet de faire le lien entre les moments empiriques que nous
avons vu plus haut et la convergence en probabilité que nous venons de voir.
Elle signifie que sous certaines conditions, les moments empiriques convergent en
probabilité vers les moments théoriques correspondants. On l’appelle loi faible
des grands nombres, car la convergence en probabilité est également appelée
convergence faible. La version de cette loi que nous utilisons est due à Markov
(cf. Petrov 1995, p.134).
THÉORÈME 1.3 [Markov]
Soit (X1 , .., XN ) une suite de variables aléatoires qui admettent une espérance mathématique E (Xk ) = mk pour toute valeur de k ∈ {1, ..., N } , et
qui vérifient la propriété suivante :
#
"N
X
1
Xk → 0 lorsque N → +∞,
V
N2
k=1
alors
"
#
N
N
1 X
1 X
Plim
Xk −
mk = 0.
N
N
k=1
k=1
preuve :
P
Il suffit de poser Z = N −1 N
k=1 (Xk − mk ) dans l’inégalité de BienayméChebichev (théorème [1.2]) :
¯
#
#
"N
"¯
N
N
¯
¯1 X
X
1
1 X
¯
¯
Xk −
mk ¯ ≥ δ ≤ 2 2 V
Xk
−→ 0.
∀δ > 0, Pr ¯
N →+∞
¯
¯N
N
δ N
k=1
k=1
k=1
En effet, on a :
N
1 X
[E (Xk ) − mk ] = 0
N
k=1
#
"
#
"
N
N
N
1 X
1 X
1 X
Xk −
mk = V
Xk
V (Z) = V
N
N
N
E (Z) =
k=1
k=1
k=1
h
i
PN
PN
car N −1 k=1 mk est une quantité certaine et que l’on a :V N −1 k=1 Xk =
i
hP
N
N −2 V
X
.
k
k=1
¤
Une moyenne arithmétique de variable aléatoires converge donc vers la moyenne
des espérances mathématiques
des variables
aléatoires, à condition que la varih
i
PN
−1
ance de leur moyenne V N
k=1 Xk tende vers 0 lorsque N → +∞.
13
Exemple 1.1 On considère un échantillon de variables (X1 , ..., Xk ) indépendantes, d’espérance et de variance constantes : ∀k, mk = m et V (Xk ) = σ2 .
Sous hypothèse d’indépendance, on obtient la condition suivante :
#
"N
N
X
N σ2
σ2
1 X
1
X
)
=
=
=
(X
→ 0 quand N → +∞.
V
V
k
k
N2
N2
N2
N
k=1
k=1
−1
PN
−1
D’autre part N
(N × m) = m. On a donc le résultat de
k=1 mk = N
convergence suivant :
Plim X = m,
la moyenne empirique converge vers l’espérance mathématique commune des
variables (X1 , ..., Xk ) .
Exemple 1.2 On considère un échantillon de variables (X1 , ..., Xk ) indépendantes de variances différentes et finies : V (Xk ) = σ 2k . La moyenne arithméP
2
tique de ces variances N −1 N
k=1 σ k = σ est également finie. En effet :
σ≤
max σ 2k qui est finie.
k=1,...,N
ce qui implique :
#
"N
N
X
1
σ
1 X 2
X
σk =
=
→0
V
k
N2
N2
N
k=1
quand
k=1
N → +∞.
On en déduit que :
Plim X = Plim
N
1 X
E (Xk ) .
N
k=1
1.6
Théorème de la limite centrale
Le théorème suivant nous permet de déterminer la loi asymptotique de la plupart
de nos estimateurs.
THÉORÈME 1.4 (Liapunov) Soit u1 , u2 , ..., uN une suite de variables aléatoires indépendantes d’espérances mathématiques E (ui ) = μi et de variances
respectives V (ui ) = E (ui − μi )2 = σ 2i 6= 0, i = 1, ..., n. On suppose également
que le moment absolu d’ordre trois existe E |ui − μi |3 = β i ∀i. Soient :
ÃN
ÃN
!1/3
!1/2
X
X
2
βi
, DN =
σi
,
BN =
i=1
i=1
alors, si lim BN /DN = 0 lorsque N → +∞, on a :
N
X
ui − μ
i
i=1
DN
−→ N (0, 1) .
N→+∞
ANNEXE 2
Algèbre linéaire
2.1
Calcul matriciel
On considère une matrice A = [Aij ] de format (m, n) .
1. La transposée de A, notée A0 , est définie par A0 = [Aji ] , on intervertit
donc les lignes et les colonnes.
2. A est de plein rang colonne si ses colonnes sont linéairement indépendantes. C’est-à-dire si :
∀α ∈ IRn ,
Aα = 0 ⇒ α = 0.
3. A est de plein rang ligne si ses lignes sont linéairement indépendantes (i.e.,
si A0 est de plein rang colonne).
On considère maintenant deux matrices A de format (m, n) et B de format
(r, p) .
1. Le produit matriciel de A par B n’existe que si le nombre de colonnes
de A est égal au nombre de lignes de B : n = r. Dans ce cas, on le note
F = AB et il est de format (m, p) .
2. Les élements de la matrice produit F = [Fij ] = AB sont définis comme
les produits scalaires de la i−ème ligne de A et de la j−ième colonne de
B.
3. AB n’est généralement pas égal à BA, le produit matriciel n’est pas commutatif.
4. A (B + C) = AB + BC.
5. (A + B) C = AC + BC.
6. (AB)0 = B 0 A0 .
14
15
On considère maintenant deux matrices carrées A de format (m, m) et B de
format (r, r) .
1. Une matrice est carrée si elle a autant de lignes que de colonnes.
2. Une matrice carrée A est symétrique si A0 = A.
3. La trace d’une matrice carrée AP
est définie par la somme de ses élements
m
diagonaux. On la note tr (A) = i=1 Aii .
4. tr (A + B) = tr (A) + tr (B) .
5. Si ABC est une matrice carrée et si les formats sont compatibles : tr (ABC) =
tr (CAB) = tr (BCA) . Il n’est pas nécessaire que chaque matrice soit carrée à l’intérieur des produits précédents.
6. Si A est une matrice carrée de plein rang (ligne ou colonne), elle admet
une inverse notée A−1 telle que AA−1 = A−1 A = I.
−1
7. Si les matrices A et B sont inversibles : (AB)
= B −1 A−1 .
8. Une matrice carrée A est idempotente si A2 = A.
2.2
Matrices définies positives
définition 2.1 Une matrice A de format (m, m) est semi définie positive lorsque
:
∀α ∈ IRm , s (α, A) = α0 Aα ≥ 0.
définition 2.2 Une matrice A de format (m, m) est définie positive lorsque :
∀α ∈ IRm , α 6= 0, s (α, A) = α0 Aα > 0.
La propriété suivante est utile pour comparer les variances des différents
estimateurs.
propriété 2.1 Soit X(n,p) une matrice quelconque, alors X 0 X est semi définie
positive.
preuve :
En posant A = X 0 X, on obtient :
0
2
s (α, X 0 X) = α0 X 0 Xα = (Xα) (Xα) = kXαk ≥ 0.
| {z } | {z }
(1,n)
(n,1)
¤
La propriété suivante est utile pour montrer l’existence de certains estimateurs.
16
propriété 2.2 Soit X(n,p) une matrice de plein rang colonne, rang (X) = p,
alors X 0 X est définie positive (donc de rang égal à p).
preuve :
La matrice X est de plein rang colonne :
∀α ∈ IRp ,
X 0α = 0 ⇒ α = 0
donc kXαk2 ne peut être nul que dans le cas α = 0. En conséquence :
∀α ∈ IRp , α 6= 0, kXαk2 > 0.
2.3
¤
Produits de Kronecker
Soient deux matrices A = [Aij ] de format (a, b) et B = [Bij ] de format (c, d) .
Le produit de Kronecker de la matrice A par la matrice B, noté A ⊗ B, donne
une matrice F = [Fij ] de format (ac, bd) . Cette matrice est définie par :
⎞
⎛
A1,1 B A1,2 B · · · A1,b B
⎜ A2,1 B A2,2 B · · · A2,b B ⎟
⎟
⎜
F = [Aij B] = ⎜
⎟,
..
..
..
..
⎠
⎝
.
.
.
.
Aa,1 B
Aa,2 B
···
Aa,b B
chaque élément originel de la matrice A se voit multiplié par la totalité de la
matrice B. Chacun des éléments de la matrice ci-dessus est donc de dimensions
égales à celles de B, et C est de format (ac, bd) . Les propriétés suivantes sont
valables sous réserve que les formats des matrices autorisent les multiplications
matricielles indiquées.
1. Dans le cas général (A ⊗ B) n’est pas égal à (B ⊗ A) , le produit de Kronecker n’est donc pas commutatif.
2. 0 ⊗ A = 0.
3. A ⊗ 0 = 0, mais attention, le format de ce 0 n’est pas nécessairement le
même que celui de la propriété précédente.
4. A ⊗ (B + C) = A ⊗ B + A ⊗ C.
5. (A + B) ⊗ C = A ⊗ B + B ⊗ C.
6. ∀ (x, y) ∈ IR2 , (xA) ⊗ (yB) = xy (A ⊗ B) .
7. (A ⊗ B) (C ⊗ D) = (AC ⊗ BD) .
0
8. (A ⊗ B) = (A0 ⊗ B 0 ) .
9. Si A et B sont inversibles : (A ⊗ B)−1 = A−1 ⊗ B −1 .
10. tr (A ⊗ B) = tr A. tr B.

Documents pareils