cours maths chapitre 2 stat à deux variables.dot

Transcription

cours maths chapitre 2 stat à deux variables.dot
Daniel Abécassis.
Année universitaire 2010/2011
PCEM1
Cours de bio-mathématiques.
Chapitre II : Series statistiques à deux variables.
II. 1. Introduction.
Dans ce chapitre, on s’intéresse à l’étude simultanée de deux variables notées X et Y,
étudiées sur la même échantillon. L’objectif essentiel présenté est la mise en évidence d’une éventuelle
variation des deux variables X et Y. La relation entre les deux variables peut être causale, dans ce cas, il
est d’une réelle importance de pour trouver un modèle mathématique reliant les deux variables X et Y.
Ce chapitre mettra surtout en évidence des cas simples pour lesquels les relations de
causalité seront modélisées par des relations linéaire ou affine. La nécessité de cette modélisation est de
façon claire, de pouvoir faire des prévisions-ou plutôt des estimations à courts termes. Ces estimations
peuvent influer sur , par exemple, une stratégie commerciale que le gérant d’une entreprise pourra mette
en œuvre.
II.2 Définitions.
A. Série double
Les variables X et Y que l’on considérera dans ce chapitre seront des variables quantitatives et
discrètes.
On appelle série statistique double (X ;Y) l’ensemble des couples ( xi ; y i ) . Chaque couple étant
associé à un individu de la population. Les résultats sont généralement présentés sous forme de tableau.
Par exemple, pour une population de six voitures, nous pouvons étudier le prix de vente et la côte de
revente au bout d’un an. On obtient le tableau ci-dessous :
Le lecteur comprend, à présent de façon plus claire, qu’il existe un lien de causalité entre ces deux
variables.
B. Nuage de points.
Les variables X et Y étant quantitatives et discrètes, nous pouvons considérer ce que l’on nomme le
nuage de points associé à une série statistique. Ce nuage est l’ensemble des points ( xi ; y i ) représentant
une série double.
A ce titre, donnons les deux exemples suivants :
1. Dans le cas précédent, on a :
2. Consommation et vitesse.
II. 3 Modélisation mathématique.
A. Le point moyen G.
On appelle point moyen le point G de coordonnées G ( x; y )
Où x est la moyenne arithmétique des valeurs prises par la variable X.
y est la moyenne arithmétique des valeurs prises par la variable Y.
1
∑ xi
n i
1
y = ∑ yi
n i
x=
Dans le cas de l’exemple 1, le point moyen G figure sur le tracé.
B. Ajustement affine.
Ainsi que je l’ai précisé en introduction, notre objectif est de trouver le moyen de remplacer le nuage de
points par une fonction y = f (x) ou x = g ( y ) . Si cela est le cas, une relation de causalité entre les deux
variables X et Y sera triviale.
Dans le cas pour lequel la modélisation est une droite de la forme y = ax + b , nous dirons que l’on
a réalisé un ajustement affine entre les variables X et Y.
Dans les autres cas, les fonctions f et g pourront être des paraboles, des fonctions ln, des fonctions
exp, des fonctions puissances etc, …..
C. Ajustement affine par la méthode de Mayer.
On partage le nuage de points en deux sous nuages. On détermine alors les deux points moyens
G1 , et , G2 de ces deux sous nuages.
Théorème : La droite de Mayer est la droite (G1G2 ) . Cette droite constitue une droite d’ajustement
affine du nuage de points associé à la série statistique double étudiée.
D. ajustement affine par la méthode des moindres carrés.
Le but de nos cours en mathématiques n’est en aucun cas académique. Si le lecteur s’intéresse aux
théories mathématiques, bons nombres d’ouvrages sont à sa disposition. Ma responsabilité envers vous
est de vous donner les outils mathématiques qui pourront vous aider dans vos démarches
professionnelles. C’est la raison pour laquelle, j’éviterai une théorie encombrante( hors programme ),
d’autant que les calculatrices que vous disposez sont assez performantes pour réaliser ces calculs.
D1. Coefficient de corrélation linéaire
On appelle coefficient de corrélation linéaire le réel r défini par :
r=
σ xy
Cov( X ; Y )
=
σ x .σ y
σ xσ y
Avec :
1
n
σ x = V ( X ) est l’écart type de X. On rappelle que : V ( X ) = [∑ xi2 ] − x est la variance de X
2
i
De même :
1
n
σ y = V (Y ) est l’écart-type de Y. On rappelle que : V (Y ) = [∑ y i2 ] − y est la variance de Y.
2
i
1
Cov( X ; Y ) = σ xy = [∑ xi . y i ] − x y est la covariance entre les variables X et Y.
n i
Attention : Il est rare, mais cela peut arriver que les valeurs des variables X et Y soient regroupées en
effectifs. Dans ce cas, et ainsi que nous l’avons vu dans le chapitre précédent, on obtient :
V (X ) =
2
1
[∑ ni xi2 ] − x
n i
2
1
V (Y ) = [∑ ni y i2 ] − y
n i
1
Cov( X ; Y ) = σ xy = [∑ xi . y i ] − x y
n i
De façon empirique, il existe une bonne corrélation linéaire entre les variables X et Y si et seulement si :
r ≥ 0,85
Dans ce cas, le nuage de points associé a à la série statistique double peut être modélisé par une droite.
Cette droite est dite la droite de régression linéaire. Elle est déterminée à partir d’une théorie qui se
nomme la méthode des moindres carrés.
Il est clair que si r = 1 , la corrélation est alors parfaite et la droite de régression linéaire passe par tous
les points du nuages statistique.
D2. Droites de régression linéaire.
Il existe deux droites de régression linéaire que l’on peut considérer lorsque les variables X et Y sont en
corrélation linéaire ( ie lorsque r ≥ 0,85 )
1. Droite de régression de y en x :
y = ax + b
avec
σ xy

a =
V (X )

b = y − a x

2. Droite de régression de x en y
x = a ' y + b'
avec :
σ xy

 a' =
V (Y )

b' = x − a ' y

On remarque de façon aisée que l’on a :
σ xy
σ xy
σ xy2
a.a ' =
.
=
=
= r2
V ( X ) V (Y ) V ( X ).V (Y ) σ x2 .σ y2
Ie ; r = a.a '
σ xy2

Documents pareils