Calculer une covariance

Transcription

Calculer une covariance
Optimal Sup-Spé. Le n° 1
Calculer une covariance
Maths Spé - Concours 2015
Problématique
Comment calculer la covariance d’un couple de variables aléatoires réelles discrètes X et Y définies sur un même
espace probabilisé pΩ, A, P q ? Quelles sont les propriétés de la covariance ?
Réponse
Attention !
Rappelons pour commencer que la covariance d’un couple de variables aléatoires n’existe pas toujours ! Pour
justifier l’existence de la covariance d’une variable aléatoire, deux cas se présentent :
— si pX, Y qpΩq est fini, alors le couple pX, Y q admet une covariance,
— si pX, Y qpΩq est infini, alors le couple pX, Y q admet une covariance admet une variance si et seulement
ř
si, la série double
pxi ´ EpXqqpyj ´ EpY qqP pX “ xi , Y “ yj q converge.
pxi ,yj qPpX,Y qpΩq
Une condition suffisante d’existence : si X et Y admettent un moment d’ordre 2, alors le couple pX, Y q admet
une covariance.
Théorème
ř
Rappel de cours
de transfert pour un couple de variables aléatoires. Si la série double
f ppxi , yj qP pX “ xi , Y “ yj q converge, alors fppX, Y qq admet une espérance, et on a alors :
pxi ,yj qPpX,Y qpΩq
E pf ppX, Y qqq “
ř
f ppxi , yj qP pX “ xi , Y “ yj q.
pxi ,yj qPpX,Y qpΩq
Lorsque l’existence de la covariance du couple pX, Y q a été établie, on a alors le choix entre utiliser la définition
(rare) ou la formule de Huygens. :
Optimal Sup/Spé - 11, rue Geoffroy l’Angevin 75004 Paris - tel : 01.40.26.78.78 - www.optimalsupspe.fr
2
- Concours 2015
Rappel de cours
Définition.
covpX, Y q “ E rpX ´ EpXqqpY ´ EpY qqs.
Formule de König-Huygens.
covpX, Y q “ EpXY q ´ EpXqEpY q.
Propriétés.
— covpX, Xq “ V pXq,
— covpX, Y q “ covpY, Xq,
— covpaX ` bY, Zq “ a covpX, Zq ` b covpY, Zq.
1. Le calcul de la covariance : attention au support de pX, Y q
Pour calculer la covariance, il faut le plus souvent se ramener à la formule de König-Huygens et calculer EpXY q.
Dans ce calcul, qui se fait toujours à l’aide du théorème de transfert, il ne faut pas oublier qu’il s’agit d’une double
somme, et non d’une somme simple. Attention également aux indices : dans certains exercices, il peut arriver que X
et Y soient liées, par exemple que X soit toujours inférieure à Y . Il faut calculer la somme sur le support du couple,
à savoir sur pX, Y qpΩq. Par exemple, si X représente le plus petit numéro obtenu et Y le plus grand numéro obtenu
dans une suite de deux tirages sans remise d’une boule dans une urne contenant n boules numérotées de 1 à n, alors X
est toujours inférieur strictement à Y . Dans cet exemple, il ne faut pas calculer la double somme pour chaque valeur
i et j de X et de Y mais pour chaque valeur possible pi, jq du couple pX, Y q, avec ici la condition i ă j.
2. Covariance et corrélation linéaire
Lorsque covpX, Y q ą 0, on dit que les variables X et Y sont positivement corrélées. L’interprétation d’une covariance positive est la suivante : plus X est élevé, plus, en moyenne, Y est élevé (et réciproquement).
Lorsque covpX, Y q ă 0, on dit que les variables X et Y sont négativement corrélées. L’interprétation d’une covariance positive est alors la suivante : plus X est élevé, plus, en moyenne, Y est petit (et réciproquement).
Enfin, lorsque covpX, Y q “ 0, on dit que les variables X et Y ne sont pas corrélées.
La covariance est un outil pour mesurer la corrélation linéaire entre deux variables aléatoires.
3. Le coefficient de corrélation linéaire
Rappel de cours
Le coefficient de corrélation linéaire. Lorsque pX, Y q admet une covariance, on définit le coefficient de
corrélation linéaire du couple pX, Y q, et l’on note ρX,Y , le nombre :
ρX,Y “
covpX, Y q
.
σpXqσpY q
Propriété. On a :
|ρX,Y | ď 1.
Le coefficient de corrélation linéaire mesure le degré de corrélation entre X et Y . Si ce coefficient vaut `1, Y est
une fonction affine (ou quasi affine) de X, c’est-à-dire que l’on a (presque sûrement) Y “ aX ` b, et l’on a : a ą 0.
De façon analogue, si ce coefficient vaut ´1, Y est une fonction affine (ou quasi affine) de X, c’est-à-dire que l’on a
(presque sûrement) Y “ aX ` b, et l’on a : a ă 0.
Plus le coefficient de corrélation entre X et Y est élevé, plus la corrélation est forte entre les variables X et Y . En
3
- Concours 2015
statistiques, on a coutume d’évaluer qu’un modèle linéaire prédit correctement les variations de Y en fonction de X
dès lors que le coefficient de corrélation est supérieur en valeur absolue à 0, 8.
4. Indépendance et corrélation.
Il faut se souvenir que deux variables indépendantes ne sont pas corrélées :
Rappel de cours
Si X et Y sont indépendantes, alors covpX, Y q “ 0.
Attention !
La réciproque est fausse.
5. Un exemple
Considérons X le plus petit numéro obtenu, et Y le plus grand numéro obtenu, dans une suite de deux tirages sans
remise d’une boule dans une urne contenant n boules numérotées de 1 à n.
(
Des calculs de probabilités prouvent que pX, Y qpΩq “ pi, jq P rr 1 , n ss2ˆ, 1˙ď i ă j ď n , et que pour tout couple
2
n
pi, jq P pX, Y qpΩq, P pX “ i, Y “ jq “
. Cette somme comportant
termes (voir le Polycopié Dénom2
npn ´ 1q
brements), on vérifie que la somme des probabilités fait 1, ce qui est le cas. Des calculs de lois, puis d’espérance,
n`1
2pn ` 1q
prouvent également que : EpXq “
, et que EpY q “
(voir le Polycopié Probabilités). Intéressons3
3
nous ici au calcul de la covariance.
Commençons d’abord par préciser que X et Y prennent un nombre fini de valeurs, donc admettent un moment
d’ordre 2, ce qui suffit à établir l’existence de la covariance de pX, Y q. On a, d’après le théorème de transfert :
ř
EpXY q =
ijP pX “ i, Y “ jq.
1ďiăjďn
EpXY q “
n j´1
ř
ř
2
j i
npn ´ 1q j“2 i“1
EpXY q “
n pj ´ 1qj
ř
2
j
.
npn ´ 1q j“2
2
EpXY q “
n
ř
1
pj 3 ´ j 2 q.
npn ´ 1q j“2
En ajoutant et en retranchant 1, il vient :
n
ř
1
pj 3 ´ j 2 q.
npn ´ 1q j“1
EpXY q “
EpXY q “
1
npn ´ 1q
ˆ
˙
n2 pn ` 1q2
npn ` 1qp2n ` 1q
´
,
4
6
soit après calculs :
EpXY q “
D’après la formule de König-Huygens, il vient :
pn ` 1qp3n ` 2q
.
12
4
- Concours 2015
covpX, Y q “
Comme : EpXq “
pn ` 1qp3n ` 2q
´ EpXqEpY q.
12
2pn ` 1q
n`1
et que EpY q “
, on a finalement :
3
3
covpX, Y q “
pn ` 1qp3n ` 2q 2pn ` 1q2
´
,
12
9
et l’on peut ainsi conclure :
covpX, Y q “
pn ` 1qpn ´ 2q
.
36
Interprétation du signe de la covariance : il est logique que covpX, Y q ą 0 puisque ici, plus X prend une valeur
élevée, plus, en moyenne Y prend une valeur élevé. En effet, si l’on a obtenu un grand numéro, noté k, comme valeur
pour X (i.e. si le plus petit des deux numéros est égal à k), cela interdit au plus grand des deux numéros obtenus, Y ,
de prendre des valeurs petites (toutes les valeurs inférieures ou égales à k étant désormais impossibles). Ainsi, plus X
est élevé, plus, en moyenne, Y est élevé. Les variables X et Y sont positivement corrélées.
Remarque
On a vu que l’indépendance de deux variables aléatoires réelles discrètes impliquait la nullité de la covariance
de ce couple, et que la réciproque était fausse. Il n’en reste pas moins que la contraposée de cette propriété est
vraie (si A implique B, non-B implique toujours non-A).
Ici, puisque covpX, Y q ‰ 0 (dès lors que n ą 3, on déduit de la propriété précédente, par contraposée, que X
et Y ne sont pas indépendantes.
Enfin, on peut remarquer que la covariance s’annule lorsque n “ 2. C’est logique, car s’il y a deux boules dans
l’urne, X et Y sont constantes, égales respectivement à 1 et 2. Or, deux variables constantes sont indépendantes,
et donc de covariance nulle.
6. Conclusion
En guise de conclusion on rappellera l’importance qu’il y a à interpréter les résultats en probabilités, ici le signe
de la covariance, et à bien connaître les liens entre indépendance et corrélation. On pourra aussi rappeler que le calcul
n’est pas la seule arme disponible pour déterminer une covariance :
Point méthode
Calculer une covariance : une méthode alternative. Lorsque l’on connaît la variance de X ` Y ainsi
que les variance respectives de X et de Y , on peut utiliser les propriétés de la variance :
V pX ` Y q “ V pXq ` V pY q ` 2covpX, Y q,
d’où :
1
rV pX ` Y q ´ V pXq ´ V pY qs.
2
Application : cette astuce pourrait s’appliquer à l’exemple précédent, sous réserve d’avoir préalablement calculé
V pXq et V pY q. On peut en effet remarquer que X ` Y est la somme des deux premiers numéros obtenus. En
notant N1 et N2 les variables aléatoires correspondantes au premier et au second numéro obtenu, N1 suit
clairement une loi uniforme sur rr 1 , n ss. Il en est de même pour N2 (malgré l’absence de remise) puisque toutes
les boules jouent un rôle symétrique. Dès lors : V pX ` Y q “ V pN1 ` N2 q “ V pN1 q ` V pN2 q ` 2covpN1 , N2 q “
n2 ´ 1
2ˆ
` 2covpN1 , N2 q. Le calcul de covpN1 , N2 q, si on l’a déjà effectué préalablement, permet de trouver
12
V pX ` Y q, puis par différence, de retrouver la covariance de X et Y . La méthode directe était toutefois ici plus
rapide.
covpX, Y q “

Documents pareils