Cours - UPMC
Transcription
Cours - UPMC
5. LIEN ENTRE VARIABLES : RÉGRESSION SIMPLE Régression linéaire simple • Modèle ≠ corrélation • Fonction de la forme Y = aX + b, premier ordre • Pertinent que si r significatif et plutôt élevé • Variable dépendante Y (= réponse) : dont on cherche à comprendre la variation • Variable indépendante (= explicative) X : par rapport à laquelle on cherche à expliquer les variations de Y • Plusieurs variables X : régression multiple Types de régression • X contrôlé,Y aléatoire : modèle I • X et Y aléatoires : modèle II • Droites passent par X et Y moyens • Démarche expérimentale/démarche corrélative Exemple : dans quelle mesure la température influence-telle la croissance d’une espèce ? • Démarche expérimentale : individus placés à des températures différentes, mesure de la croissance et des processus biologiques liés : test de liens de causalité, élaboration de modèles prédictifs... • Démarche corrélative : on recherche dans la nature des situations où l’espèce est présente dans des conditions variables de température. On mesure la corrélation entre la taille observée et la température ➡ régression = modèle • Mise en évidence de corrélations • Corrélation ≠ causalité !! • Absence de corrélation ≠ absence de lien Utilisations de la régression • Description : modèle fonctionnel • Trouver le meilleur modèle • Génération d’hypothèses • Inférence : test d’une hypothèse • Tests des paramètres • Lien entre variables • Prévision et prédiction • Valeurs de Y pour de nouvelles valeurs de X • Interpolation (prévision) ≠ extrapolation (prédiction) Régression de modèle I • Variation sur Y >> X • Typiquement utilisée dans un contexte expérimental : X contrôlé • Méthode des moindres carrés ordinaires MCO (ordinary least-squares : OLS) • Parfois utilisable quand X et Y sont aléatoires si on ne cherche pas une estimation parfaite des paramètres, ni leur significativité • Parfois (souvent) le seul type de régression des logiciels • Principe des moindres carrés intercept b + X a ^Y = Y ^ Yi Yi pente résidus X ^ 2 On veut minimiser la somme des (Yi-Yi) • Après développement mathématique (minimisation de la somme des carrés des résidus), on trouve 2 a = Sxy/Sx = rxy(Sy/Sx) b = Ȳ - aX̄ car la droite passe par le centre de gravité du nuage de point (coordonnées = moyennes) • • C’est le carré du coefficient de corrélation r 2 • r = variance expliquée par le modèle de régression : 2 Coefficient de détermination : r b + X a ^Y = Y Y ^ Yi Yi X • Test de signification : on peut tester r ou a (idem) • La pente a H : a = 0 • 0 H : a ≠ 0 • 1 • Test F (analyse de variance), avec 2 2 F = SyR /Se avec 1 et (n - 2) ddl variance expliquée par la régression = SCER = variance due aux erreurs = SCEE/(n - 2) Tableau d’ANOVA • Exemple pour une régression Age-Taille sur 54 individus Variable réponse = Age Source ddl Somme des carrés Carré moyen F Probabilité Taille 1 31135,9 31135,9 55,581 0 Résidus 52 29129,6 560,2 • Conditions d’application du test • Homogénéité des variances • Distribution normale des résidus • Indépendance des résidus Pas de tendance : OK Tendance : non valide • 2 Tester le r est équivalent à tester le coefficient de corrélation r • On emploie la statistique t vue précédemment (ci-dessous, suit une loi de Student), ou la Table donnant le rcritique 2 t = √F = (r√(n - 2))/(√(1 - r )) • Test unilatéral ou bilatéral à (n - 2) ddl • Test réalisable par permutations Intervalles de confiance • Pente : relation (0 ?), hypothèse (≠ 0) • Ordonnée à l’origine (0 ?) Estimation : intervalle d’un Y pour un X i i • • Prédiction d’une estimation : pour une nouvelle observation d’un Yi , intervalle plus large • Estimation de la moyenne : pour une nouvelle série de valeurs de Y pour une seule valeur de X, intervalle plus étroit Calculs • Intervalle de confiance de la pente • La vraie pente (α) se situe entre 2 2 a ± tbil.√(Sa ); où √(Sa ) est l’erreur type de a 2 2 2 2 Sa = Se /(n - 1)Sx = SCEE/((n - 2)(n - 1)Sx ) 2 (rappel : Se = SCEE/(n -2) ; 2 2 2 SCEE = Σ(Σ(yi - ŷi) ) = (n - 1)Sy (1 - r ) • t suit une loi de Student à (n - 2) ddl • Intervalle de confiance de l’ordonnée à l’origine • Le vrai intercept (β) se situe entre 2 2 b ± tbil.√(Sb ); où √(Sb ) est l’erreur type de b 2 2 2 2 Sb = (Se ΣXi )/(nΣ(Xi - X̄ ) ) 2 2 2 2 = (Sy (1-r )ΣXi )/(Sx n(n - 2)) • t suit une loi de Student à (n - 2) ddl • Intervalle de confiance d’une estimation • Une estimation de y, ŷ, se situe entre 2 2 ŷ ± tbil.√(Sŷ ); où √(Sŷ ) est l’écart type de ŷ 2 2 2 2 Sŷ = Se (1/n + (Xi - X̄ ) /Σ(Xi - X̄ ) ) 2 2 2 2 = ((n - 1)Sy (1 - r )/(n - 2))(1/n + (Xi - X̄ ) /Σ(Xi - X̄ ) ) • t suit une loi de Student à (n - 2) ddl • On utilise également la régression de modèle I • Quand on a une raison claire de postuler quelle variable influence l’autre • Quand on veut simplement faire de la prévision • Quand seulement le r est important 2 Régression de modèle II • X et Y aléatoires, erreurs de même ordre • En modèle I : la régression de Y sur X ≠ X sur Y • Cas typique des relations dans la nature • Relation poids-longueur, entre abondances, ... • Plusieurs méthodes • Axe majeur AM • Axe majeur réduit AMR • Axe majeur sur données cadrées AMDC • Axe majeur intercept Y Y b + X a = pente ^ Yi Yi résidus ^ Xi Xi X • Axe majeur : plus grande variabilité du nuage de points = première composante principale • Plus complexe à calculer • Sensible aux échelles des variables (contrairement au modèle I basé sur la corrélation) • On transforme souvent les variables en ln • Axe majeur réduit : sur données centrées-réduites • Nécessite une forte corrélation (r significatif) entre les variables et un grand nombre d’observations • Pente non testable • Si les données ne sont pas exprimées dans les mêmes unités • Axe majeur sur données cadrées • Cadrage Xi’ = (Xi - Xmin)/(Xmax - Xmin) Yi’ = (Yi - Ymin)/(Ymax - Ymin) • Avec un minimum à 0, la transformation devient Xi’ = Xi/Xmax Yi’ = Yi/Ymax • Les données varient ainsi entre 0 et 1 • A éviter en cas de valeurs aberrantes • Pente de l’axe majeur : am am = (d ± 2 √(d + 4))/2 ; (± suivant le signe de r) avec d = (a2 - r2)/(ar2) où a = pente de la droite MCO et r = coefficient de corrélation • Ordonnée à l’origine bm = Ȳ - amX̄ • Intervalle de confiance laborieux à calculer Choisir le bon type de régression But ? Estimation Prédiction Lien Variation sur Y > 3 fois celle sur X ? Non Oui Données normales ? (transformation) Non Comparer valeurs prédites et valeurs observées MCO test par permutations Oui X et Y de mêmes unités et variances semblables ? Non Oui Oui AM AMR r significatif ? Non AMDC (si pas de valeurs aberrantes)