Cours 2

Transcription

Cours 2
CHU Amiens IFTLM 2ème année, UPJV IUP Santé
2012-2013
Statistique
Cours 2
Statistique descriptive à deux variables - Régression
Le cours précédent traitait de la statistique descriptive univariée, c’est-à-dire de la description d’une
série statistique selon un seul caractère (la taille par exemple). On veut maintenant étudier, visualiser
et mesurer les liens éventuels existant entre deux variables : c’est l’objet de la statistique descriptive
bivariée. On considère une population sur laquelle on étudie deux variables quantitatives X et Y . On
étudiera donc des séries statistiques à deux variables ; autrement dit un couple de variables (X, Y ). On
veut savoir si les deux variables sont liées par une liaison fonctionnelle du type Y = f (X)(c’est-à-dire
que l’on peut prévoir les valeurs de Y à partir des valeurs de X), ou bien X = g(Y ) (c’est-à-dire que
l’on peut prévoir les valeurs de X à partir des valeurs de Y ). Précisons dès maintenant que l’existence
d’une telle liaison entre les deux variables X et Y ne signifie pas obligatoirement un lien de cause à
effet entre elles (expliquer).
Exemple fondamental : Y = aX + b (liaison affine).
Sur un échantillon de n individus extrait de la population, on observe n couples (x1 , y1 ), . . . , (xn , yn )
de valeurs de X et Y .
Représentation graphique : nuage de points
Ces observations peuvent être représentées dans le plan. A chaque couple (xi , yi ), i = 1, . . . , n,
on fait correspondre un point Mi . On obtient un nuage de point. La forme du nuage obtenu peut
indiquer le type de dépendance possible entre X et Y . Si les points sont ”plutôt” alignés, on peut
envisager une relation de type Y = aX + b (équation de droite). Si le nuage ”forme” une parabole, on
peut envisager une relation de type Y = aX 2 + bX + c, etc... On dit que l’on cherche à ajuster une
courbe au nuage de points.
1
Droite de régression de y en x
On cherche à ajuster une droite d’équation y = ax + b au nuage de points. En fait, on essaie de
minimer les distances entre les points du nuage Mi (xi , yi ) et les points correspondant sur la droite
Pi (xi , axi + b).
On trouve un unique couple (a, b) qui minimise cette distance. On ne détaillera pas les calculs
pour obtenir a et b.
La droite de régression de y en x a pour équation :
Dy/x : y = ax + b avec a =
cov(x, y)
et b = ȳ − ax̄
s2x
avec les notations suivantes pour les moments :
P
P
• moyennes : x̄ = n1 ni=1 xi , ȳ = n1 ni=1 yi .
P
P
• variances : s2x = n1 ni=1 (xi − x̄)2 , s2y = n1 ni=1 (yi − ȳ)2 .
P
P
• covariance : cov(x, y) = n1 ni=1 (xi − x̄)(yi − ȳ) = n1 ni=1 xi yi − x̄ȳ.
Exemple On considère la série double statistique suivante :
xi 2 3 5 1 4
yi 4 9 11 3 8
Le nuage de points correspondant est représenté sur le graphique ci-dessous.
et b = ȳ − ax̄.
La droite de régression de y en x a pour équation y = ax + b avec a = covs(x,y)
2
x
Il vaudra mieux utiliser une calculatrice ou un tableur pour obtenir les coefficients a et b plutôt que
d’effectuer les calculs suivants
xi yi xi yi
2 4
8
3 9
27
5 11 55
1 3
3
4 8
32
15 35 125
x2i
4
9
25
1
16
55
55
35
125
2
2
On a x̄ = 15
5 = 3, ȳ = 5 = 7, cov(x, y) = 5 − 3 × 7 = 4, sx = 5 − 3 = 2.
On en déduit a = 42 = 2 et b = 7 − 2 × 3 = 1.
La droite de régression de y en x a donc pour équation y = 2x + 1.
On peut remarquer que cette droite passe par deux points du nuage : c’est une coincidence !
2
Droite de regression de x en y
On suit une démarche analogue à celle qui a donné la droite de régression de y en x, en échangeant le
rôle de x et y.
cov(x, y)
et d = x̄ − aȳ
Dx/y : x = cy + d avec c =
s2y
On peut remarquer que les équations peuvent aussi s’écrire
Dy/x : y − ȳ = a(x − x̄)
Dx/y : x − x̄ = c(y − ȳ)
Les droites Dy/x et Dx/y se coupent donc au point G(x̄, ȳ).
Exemple
Reprenons l’exemple précédent. On a toujours x̄ = 3, ȳ = 7, cov(x, y) = 4, s2x = 2 et a = 2.
On calcule s2y =
291
5
=
− 72 = 9, 2, d’où c = covs(x,y)
2
x
4
9,2
=
1
2,3 .
1
(y − 7),
La droite de régression de x en y a donc pour équation x − x̄ = c(y − ȳ), soit x − 3 = 2,3
c’est-à-dire y = 2, 3x + 0, 1.
On retrouve également une équation de la droite de régression de y en x : y − ȳ = a(x − x̄), soit
y − 7 = 2(x − 3), c’est-à-dire y = 2x + 1.
Les droites Dy/x et Dx/y se coupent au point G(x̄, ȳ) = G(3, 7).
3
Coefficient de corrélation linéaire entre x et y
(x,y)
Le coefficient de corrélation linéaire est défini par : rx,y = cov
sx sy .
Qualité de l’ajustement
2 6 1. On peut aussi montrer que r 2 = 1 si et seulement si pour tout
On peut démontrer que rx,y
x,y
i =, . . . , n, Mi (xi , yi ) ∈ Dy/x , c’est-à-dire si et seulement si les points Mi sont alignés sur Dy/x .
2 est proche de 1, meilleur est l’ajustement de la droite de régression
De façon générale, plus rx,y
au nuage de points. Le signe de rx,y (qui est le même que celui de a) indique le sens de la liaison
(croissante si rx,y > 0, décroissante si rx,y < 0) entre X et Y .
Partageant arbitrairement le plan en secteurs de 30◦ , on obtient 5 zones permettant
de définir
√
une bonne, médiocre ou mauvaise corrélation entre X et Y . Sachant que cos 30◦ = 23 ' 0, 866 et
cos 60◦ = 21 , ce critère graphique se traduit numériquement par :
√
• si
• si
3
2
1
2
6 |rx,y | 6 1, il existe une bonne corrélation linéaire entre X et Y .
√
6 |rx,y | 6
3
2 ,
la corrélation linéaire entre X et Y est médiocre.
• si 0 6 |rx,y | 6 12 , la corrélation linéaire entre X et Y est mauvaise.
Siginfication de rx,y
2 prouve qu’il
La question se pose de savoir si une forte valeur de rx,y (en valeur absolue) ou de rx,y
y a une forte corrélation entre les deux caractères X et Y (par exemple lorsque l’ajustement est bon)
ou si elle est due au hasard de l’échantillonage (par exemple lorsque n est petit). Pour obtenir une
réponse, on peut utiliser des tests statistiques (voir statistique inductive).
4
Exercices
Exercice 1
Dans la série statistique suivante, x représente le nombre de jours d’exposition au soleil d’une
feuille et y le nombre de stomates aérifères au millimètre carré :
x 2 4 8 10 24 40 52
y 6 11 15 20 39 62 85
1. Déterminer une équation de la droite de régression de y en x.
2. Calculer le coefficient de corrélation linéaire entre x et y. Commenter le résultat.
3. Quel nombre de stomates peut-on prévoir après 30 jours d’exposition au soleil ? après 60 jours ?
Exercice 2
On sélectionne 12 personnes inscrites à un stage de formation. Avant le début de la formation, ces
stagiaires subissent une épreuve A notée de 0 20. A l’issue du stage, une épreuve B identique à la
première est aussi notée de 0 20. Considérant les deux variables X =note de A et Y =note de B, on
a obtenu les résultats suivants :
stagiaire 1 2 3 4 5 6 7 8 9 10 11 12
xi
3 4 6 7 9 10 9 11 12 13 15 4
yi
8 9 10 13 15 14 13 16 13 19 6 19
1. (a) Représenter ces résultats par un nuage de points.
(b) Quelle courbe d’ajustement ce nuage vous suggère-t-il ?
2. A partir des résultats obtenus, on a déterminé la droite de régression de y en x, ainsi que le
coefficient de corrélation linéaire entre x et y. On a obtenu l’équation y = 0, 180x + 11, 99 et
r = 0, 101. Expliquer pourquoi l’ajustement n’est pas bon.
3. On décide d’éliminer les stagiaires 11 et 12, et donc de ne tenir compte que des stagiaires 1 à 10.
(a) Déterminer une équation de la droite de régression de y en x.
(b) Calculer le coefficient de corrélation linéaire entre x et y. Interpréter le résultat obtenu.
Exercice 3
Le tableau ci-dessous donne une estimation du montant des achats en ligne des ménages français :
Année
Rang de l’année : xi
Montant d’achats en millions d’euros : yi
1998
0
75
1999
1
260
2000
2
820
2001
3
1650
2002
4
2300
2003
5
4000
2004
6
5300
1. (a) Préciser la population, la(les) variable(s) étudiée(s) et la taille de l’échantillon.
(b) Donner une équation de la droite de régression de y en x.
(c) Donner le coefficient de corrélation linéaire entre x et y. Interpréter le résultat obtenu.
(d) Quelle prévision du montant d’achats peut-on faire pour l’année 2005 ? Est-elle fiable ?
√
2. On considère la nouvelle variable z = y.
(a) Déterminer une équation de la droite de régression de z en x, ainsi que le coefficient de
corrélation linéaire entre x et z. Interpréter le résultat obtenu.
(b) En déduire une expression de y en fonction de x, puis une prévision du montant d’achats
pour l’année 2005.
3. A partir du tableau de données, le logiciel Excel propose un ajustement polynomial par l’équation
y = 130x2 + 100x + 68.
(a) S’agit-il du même ajustement que celui obtenu dans le 2) ? Expliquer cette situation.
(b) Déduire de cet ajustement une prévision du montant d’achats pour l’année 2005.
4. Le montant des achats en ligne en 2005 a été de 7700 millions d’euros. Lequel des trois ajustements précédents vous paraı̂t-il le plus conforme à la réalité ? Justifier votre réponse.
Exercice 4
Le tableau ci-dessous donne l’évolution, par période de 5 ans, de la population (en millions
d’habitants) de l’Allemagne ; il s’agit de la population globale des deux Allemagnes (RDA et RFA)
de 1958 à 1973, puis de la population de l’Allemagne réunifiée de 1993 à 2008.
Année
Rang de l’année : xi
Population : yi
1958
1
71.5
1963
2
74.4
1968
3
77
1973
4
78.8
1993
8
81
1998
9
82.1
2003
10
82.5
2008
11
82.2
1. Représenter graphiquement la série statistique (xi , yi ).
2. On commence par chercher un ajustement affine.
(a) Donner une équation de la droite de régression de y en x. Donner le coefficient de corrélation
linéaire entre x et y. interpréter le résultat obtenu.
(b) En déduire une estimation de la population de l’Allemagne en 2018. L’estimation est-elle
fiable ?
3. On cherche maintenant un ajustement de type logarithmique, autrement dit à modéliser le
phénomène étudié par une relation du type y = a ln(x) + b. Pour cela, on considère la nouvelle
variable z = ln(x).
(a) Effectuer une régression permettant d’obtenir les coefficients a et b. Préciser les variables
considérées de donner le coefficient de corrélation linéaire correspondant. Interpréter le
résultat obtenu.
(b) En déduire une estimation de la population de l’Allemagne en 2018. L’estimation est-elle
fiable ?
4. Comparer les deux estimations des 2)b) et 3)b) et commenter les résultats obtenus. Lequel des
deux ajustmements est le meilleur ?