Cours - UPMC

Transcription

Cours - UPMC
5.
LIEN ENTRE
VARIABLES :
RÉGRESSION SIMPLE
Régression linéaire simple
• Modèle ≠ corrélation
• Fonction de la forme Y = aX + b, premier ordre
• Pertinent que si r significatif et plutôt élevé
• Variable dépendante Y (= réponse) : dont on cherche à
comprendre la variation
• Variable indépendante (= explicative) X : par rapport à
laquelle on cherche à expliquer les variations de Y
• Plusieurs variables X : régression multiple
Types de régression
• X contrôlé,Y aléatoire : modèle I
• X et Y aléatoires : modèle II
• Droites passent par X et Y moyens
• Démarche expérimentale/démarche corrélative
Exemple : dans quelle mesure la température influence-telle la croissance d’une espèce ?
• Démarche expérimentale : individus placés à des
températures différentes, mesure de la croissance
et des processus biologiques liés : test de liens de
causalité, élaboration de modèles prédictifs...
• Démarche corrélative : on recherche dans la nature
des situations où l’espèce est présente dans des
conditions variables de température. On mesure la
corrélation entre la taille observée et la
température ➡ régression = modèle
• Mise en évidence de corrélations
• Corrélation ≠ causalité !!
• Absence de corrélation ≠ absence de lien
Utilisations de la régression
• Description : modèle fonctionnel
• Trouver le meilleur modèle
• Génération d’hypothèses
• Inférence : test d’une hypothèse
• Tests des paramètres
• Lien entre variables
• Prévision et prédiction
• Valeurs de Y pour de nouvelles valeurs de X
• Interpolation (prévision) ≠ extrapolation (prédiction)
Régression de modèle I
• Variation sur Y >> X
• Typiquement utilisée dans un contexte expérimental :
X contrôlé
• Méthode des moindres carrés ordinaires MCO
(ordinary least-squares : OLS)
• Parfois utilisable quand X et Y sont aléatoires si on ne
cherche pas une estimation parfaite des paramètres, ni
leur significativité
• Parfois (souvent) le seul type de régression des
logiciels
• Principe des moindres carrés
intercept
b
+
X
a
^Y =
Y
^
Yi
Yi
pente
résidus
X
^ 2
On veut minimiser la somme des (Yi-Yi)
• Après développement mathématique (minimisation
de la somme des carrés des résidus), on trouve
2
a = Sxy/Sx = rxy(Sy/Sx)
b = Ȳ - aX̄
car la droite passe par le centre de gravité du nuage
de point (coordonnées = moyennes)
•
• C’est le carré du coefficient de corrélation r
2
• r = variance expliquée par le modèle de régression :
2
Coefficient de détermination : r
b
+
X
a
^Y =
Y
Y
^
Yi
Yi
X
• Test de signification : on peut tester r ou a (idem)
• La pente a
H
:
a
=
0
• 0
H
:
a
≠
0
• 1
• Test F (analyse de variance), avec
2
2
F = SyR /Se avec 1 et (n - 2) ddl
variance expliquée par la régression = SCER
= variance due aux erreurs = SCEE/(n - 2)
Tableau d’ANOVA
• Exemple pour une régression Age-Taille sur 54 individus
Variable réponse = Age
Source
ddl
Somme des
carrés
Carré
moyen
F
Probabilité
Taille
1
31135,9
31135,9
55,581
0
Résidus
52
29129,6
560,2
• Conditions d’application du test
• Homogénéité des variances
• Distribution normale des résidus
• Indépendance des résidus
Pas de tendance : OK
Tendance : non valide
•
2
Tester le r est équivalent à tester le coefficient
de corrélation r
• On emploie la statistique t vue précédemment
(ci-dessous, suit une loi de Student), ou la Table
donnant le rcritique
2
t = √F = (r√(n - 2))/(√(1 - r ))
• Test unilatéral ou bilatéral à (n - 2) ddl
• Test réalisable par permutations
Intervalles de confiance
• Pente : relation (0 ?), hypothèse (≠ 0)
• Ordonnée à l’origine (0 ?)
Estimation
:
intervalle
d’un
Y
pour
un
X
i
i
•
• Prédiction d’une estimation : pour une nouvelle
observation d’un Yi , intervalle plus large
• Estimation de la moyenne : pour une nouvelle série de
valeurs de Y pour une seule valeur de X, intervalle
plus étroit
Calculs
• Intervalle de confiance de la pente
• La vraie pente (α) se situe entre
2
2
a ± tbil.√(Sa ); où √(Sa ) est l’erreur type de a
2
2
2
2
Sa = Se /(n - 1)Sx = SCEE/((n - 2)(n - 1)Sx )
2
(rappel : Se = SCEE/(n -2) ;
2
2
2
SCEE = Σ(Σ(yi - ŷi) ) = (n - 1)Sy (1 - r )
• t suit une loi de Student à (n - 2) ddl
• Intervalle de confiance de l’ordonnée à l’origine
• Le vrai intercept (β) se situe entre
2
2
b ± tbil.√(Sb ); où √(Sb ) est l’erreur type de b
2
2
2
2
Sb = (Se ΣXi )/(nΣ(Xi - X̄ ) )
2
2
2
2
= (Sy (1-r )ΣXi )/(Sx n(n - 2))
• t suit une loi de Student à (n - 2) ddl
• Intervalle de confiance d’une estimation
• Une estimation de y, ŷ, se situe entre
2
2
ŷ ± tbil.√(Sŷ ); où √(Sŷ ) est l’écart type de ŷ
2
2
2
2
Sŷ = Se (1/n + (Xi - X̄ ) /Σ(Xi - X̄ ) )
2
2
2
2
= ((n - 1)Sy (1 - r )/(n - 2))(1/n + (Xi - X̄ ) /Σ(Xi - X̄ ) )
• t suit une loi de Student à (n - 2) ddl
• On utilise également la régression de modèle I
• Quand on a une raison claire de postuler quelle
variable influence l’autre
• Quand on veut simplement faire de la prévision
• Quand seulement le r est important
2
Régression de modèle II
• X et Y aléatoires, erreurs de même ordre
• En modèle I : la régression de Y sur X ≠ X sur Y
• Cas typique des relations dans la nature
• Relation poids-longueur, entre abondances, ...
• Plusieurs méthodes
• Axe majeur AM
• Axe majeur réduit AMR
• Axe majeur sur données cadrées AMDC
• Axe majeur
intercept
Y
Y
b
+
X
a
=
pente
^
Yi
Yi
résidus
^
Xi Xi
X
• Axe majeur : plus grande variabilité du nuage de
points = première composante principale
• Plus complexe à calculer
• Sensible aux échelles des variables (contrairement au
modèle I basé sur la corrélation)
• On transforme souvent les variables en ln
• Axe majeur réduit : sur données centrées-réduites
• Nécessite une forte corrélation (r significatif)
entre les variables et un grand nombre
d’observations
• Pente non testable
• Si les données ne sont pas exprimées dans les mêmes
unités
• Axe majeur sur données cadrées
• Cadrage
Xi’ = (Xi - Xmin)/(Xmax - Xmin)
Yi’ = (Yi - Ymin)/(Ymax - Ymin)
• Avec un minimum à 0, la transformation devient
Xi’ = Xi/Xmax
Yi’ = Yi/Ymax
• Les données varient ainsi entre 0 et 1
• A éviter en cas de valeurs aberrantes
•
Pente de l’axe majeur : am
am = (d ±
2
√(d
+ 4))/2 ; (± suivant le signe de r)
avec d = (a2 - r2)/(ar2)
où a = pente de la droite MCO
et r = coefficient de corrélation
• Ordonnée à l’origine
bm = Ȳ - amX̄
• Intervalle de confiance laborieux à calculer
Choisir le bon type de régression
But ?
Estimation
Prédiction
Lien
Variation sur Y > 3 fois celle sur X ?
Non
Oui
Données normales ?
(transformation)
Non
Comparer
valeurs prédites
et
valeurs
observées
MCO
test par
permutations
Oui
X et Y de mêmes unités
et variances semblables ?
Non
Oui
Oui
AM
AMR
r significatif ?
Non
AMDC (si pas de valeurs aberrantes)