La régression linéaire simple
Transcription
La régression linéaire simple
Introduction Etude de la corrélation La régression linéaire simple Régression linéaire simple [email protected] Equipe d’Accueil 4275 "Biostatistique, recherche clinique et mesures subjectives en santé", Université de Nantes Odontologie - Cours #7 1 / 31 Plan Introduction Etude de la corrélation Régression linéaire simple 1. Introduction 2. Etude de la corrélation 3. Régression linéaire simple 2 / 31 Plan Introduction Etude de la corrélation Régression linéaire simple 1. Introduction 2. Etude de la corrélation 3. Régression linéaire simple 3 / 31 Les acquis Introduction Etude de la corrélation Régression linéaire simple • Variable catégorielle à expliquer en fonction d’une autre variable catégorielle explicative (comparaison de deux pourcentages). • Test de comparaison de deux fréquences (approximation normale). • Test du Chi-deux (plus de deux groupes) • Test du Chi-deux exact de Fisher (test non-paramétrique). • Test du Chi-deux de Mac Nehmar (données appariées). • Variable continue à expliquer en fonction d’une autre variable catégorielle explicative à deux modalités (comparaison de deux moyennes). • • • • Test de Student : comparaison de deux moyennes. Test de Student sur différence (données appariées). Test de Mann-Withney (test non-paramétrique). Test de Wilcoxon (données appariées, test non-paramétrique). → Comment étudier le lien entre deux variables continues ? 4 / 31 Exemple Introduction Etude de la corrélation Régression linéaire simple Etude de la fonction rénale (Y ) selon l’âge (X ). Sujet 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Y 114.0 110.0 114.0 102.0 101.0 107.0 109.0 117.0 108.0 97.3 101.0 104.0 105.0 121.0 114.0 X 27.6 39.2 52.8 46.1 49.4 48.8 51.1 45.1 41.7 50.6 58.8 30.2 37.6 30.7 49.5 Sujet 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Y 96.0 99.0 103.0 98.0 109.0 120.0 111.0 105.0 116.0 96.3 112.0 105.0 93.7 108.0 100.0 X 63.2 52.5 34.1 47.7 27.0 30.2 38.9 38.6 30.7 47.6 50.9 35.7 57.8 59.2 61.0 5 / 31 Exemple Introduction ● 120 Etude de la corrélation ● Régression linéaire simple 115 ● ● ● 110 ● ● ● ● ● ● ● 105 ● ● ● ● ● ● ● 100 ● ● ● ● ● ● ● ● 95 Clairance à la créatinine en ml/min ● ● ● 30 40 50 60 Age en années 6 / 31 Deux méthodes Introduction Etude de la corrélation Régression linéaire simple 1 Etude de la corrélation : • Interprétation limitée des résultats. 2 Régression linéaire simple : • Interprétation plus riche des résultats. • Généralisation à plusieurs facteurs explicatifs (variables continues ou catégorielles). 7 / 31 Plan Introduction Etude de la corrélation Régression linéaire simple 1. Introduction 2. Etude de la corrélation 3. Régression linéaire simple 8 / 31 Calcul et interprétation Introduction Etude de la corrélation Régression linéaire simple • Echantillon composé de n individus (i = 1, ..., n) • Observation des couples (yi , xi ) • Indépendance des observations (les Yi |xi sont indépendantes). P P xi − n i xi yi r=q P P P P ( i xi )2 − n i xi2 ( i yi )2 − n i yi2 i yi P i • Interprétation du coefficient de corrélation linéaire : • r = 1 : lien linéaire parfait dans le même sens • r = −1 : lien linéaire parfait dans le sens inverse • |r | > 0.5 : lien linéaire fort • 0.3 < |r | < 0.5 : lien linéaire moyen • 0.1 < |r | < 0.3 : lien linéaire faible • r = 0 : pas de liaison linéaire 9 / 31 Application à notre exemple Introduction Etude de la corrélation Régression linéaire simple Etude de la fonction rénale (Y ) en fonction de l’âge (X ) P P P 2 • i xi = 1334, 3 ; i yi = 342125, 7 ; Pi yi2 = 3196, 3 ; P x = 62626, 5 ; x y = 140943, 0 i i i i i • r = −0, 53 • Forte corrélation : Il semble que la fonction du rein diminue avec l’âge du patient. 10 / 31 Application à notre exemple Introduction Etude de la corrélation Régression linéaire simple Etude de la fonction rénale (Y ) en fonction de l’âge (X ) P P P 2 • i xi = 1334, 3 ; i yi = 342125, 7 ; Pi yi2 = 3196, 3 ; P x = 62626, 5 ; x y = 140943, 0 i i i i i • r = −0, 53 • Forte corrélation : Il semble que la fonction du rein diminue avec l’âge du patient. Problème Peut-on conclure que le coefficient de corrélation linéaire ρ de la population est significativement différent de 0 ? 10 / 31 Test de corrélation Introduction Etude de la corrélation Régression linéaire simple • Définition des hypothèses : • H0 : ρ = 0 • H1 : ρ 6= 0 √ R • Statistique de test : T = √ n−2 1−R 2 ∼ Tn−2 ddl • n = 30 ; ddl = 28 ; α = 5% • Région non-critique (test bilatéral) : [−2, 048; 2, 048] √ 28 1−0,532 0,53 • t = √ = 3, 21 ∈ Région critique • On rejette l’hypothèse nulle selon laquelle le coefficient de régression linéaire est nul (p < 5%). Il semble qu’il y ait un lien entre la clairance à la créatinine et l’âge. 11 / 31 Table de la loi de Student Introduction Etude de la corrélation LOI DE STUDENT On connaît α et on cherche t vérifiant P(T>t) Régression linéaire simple ν \ α 0.35 0.510 1 0.30 0.25 0.20 0.15 0.10 0.05 0.025 0.0125 0.01 0.005 0.0025 0.727 1.000 1.376 1.963 3.078 6.314 12.71 25.45 31.82 63.66 12 / 3163 127.3 0.0 Table de la loi de Student Introduction Etude de la corrélation Régression linéaire simple ν\α 1 2 3 4 5 6 7 8 9 10 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.025 0.0125 0.01 0.005 0.0025 0.0005 0.510 0.445 0.424 0.414 0.408 0.404 0.402 0.399 0.398 0.397 0.727 0.617 0.584 0.569 0.559 0.553 0.549 0.546 0.543 0.542 1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 1.963 1.386 1.250 1.190 1.156 1.134 1.119 1.108 1.100 1.093 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 12.71 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 25.45 6.205 4.177 3.495 3.163 2.969 2.841 2.752 2.685 2.634 31.82 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 63.66 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 127.3 14.09 7.453 5.598 4.773 4.317 4.029 3.833 3.690 3.581 636.6 31.60 12.93 8.610 6.869 5.959 5.408 5.041 4.781 4.587 11 12 13 14 15 16 17 18 19 20 0.396 0.395 0.394 0.393 0.393 0.392 0.392 0.392 0.391 0.391 0.540 0.539 0.538 0.537 0.536 0.535 0.534 0.534 0.533 0.533 0.697 0.695 0.694 0.692 0.691 0.690 0.689 0.688 0.688 0.687 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 1.088 1.083 1.079 1.076 1.074 1.071 1.069 1.067 1.066 1.064 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.593 2.560 2.533 2.510 2.490 2.473 2.458 2.445 2.433 2.423 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 3.497 3.428 3.373 3.326 3.286 3.252 3.223 3.197 3.174 3.153 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 21 22 23 24 25 26 27 28 29 30 0.391 0.390 0.390 0.390 0.390 0.390 0.389 0.389 0.389 0.389 0.532 0.532 0.532 0.531 0.531 0.531 0.531 0.530 0.530 0.530 0.686 0.686 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 1.063 1.061 1.060 1.059 1.058 1.058 1.057 1.056 1.055 1.055 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.414 2.406 2.398 2.391 2.385 2.379 2.373 2.369 2.364 2.360 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 3.135 3.119 3.104 3.091 3.078 3.067 3.057 3.047 3.038 3.030 3.819 3.792 3.767 3.745 3.725 3.707 3.690 3.674 3.659 3.646 40 50 60 120 ∞ 0.388 0.388 0.387 0.386 0.385 0.529 0.528 0.527 0.526 0.524 0.681 0.679 0.679 0.677 0.674 0.851 0.849 0.848 0.845 0.842 1.050 1.047 1.046 1.041 1.036 1.303 1.299 1.296 1.289 1.282 1.684 1.676 1.671 1.658 1.645 2.021 2.009 2.000 1.980 1.960 2.329 2.311 2.298 2.267 2.236 2.423 2.403 2.390 2.358 2.326 2.704 2.678 2.660 2.617 2.576 2.971 2.937 2.921 2.873 2.828 3.551 3.497 3.460 3.373 3.291 13 / 31 Limites Introduction Etude de la corrélation Régression linéaire simple Limites • Attention aux conclusions non-valides pour une relation non-linéaire. • Plusieurs relations possibles pour un même coefficient de corrélation. • Aucune quantification de la relation. 14 / 31 Plan Introduction Etude de la corrélation Régression linéaire simple 1. Introduction 2. Etude de la corrélation 3. Régression linéaire simple 15 / 31 Définition du modèle Introduction Etude de la corrélation Le modèle s’écrit : Régression linéaire simple Yi = β0 + β1 xi + i • β0 est l’ordonnée à l’origine (moyenne de Yi quand xi = 0). • β1 est la pente (changement moyen de Yi quand xi augmente d’une unité). • i est le résidu (différence entre la valeur prédite et celle observée). • Les résidus sont distribués selon une loi normale de moyenne nulle et de variance σ 2 (variance résiduelle). 16 / 31 Estimation de la droite de régression • Objectf : Trouver la meilleure droite pour un nuage de points. Introduction Etude de la corrélation Régression linéaire simple • Minimisation des valeurs des résidus. • Critère des Moindres Carrés : X X CMC = (yi − ŷi )2 = (yi − β0 − β1 xi )2 i i • Calcul des dérivées partielles de CMC : n X ∂CMC/∂β = −1 × 2 × (yi − β0 − β1 xi ) 0 i=1 n X (yi − β0 − β1 xi ) ∂CMC/∂β1 = −xi × 2 × i=1 X X ∂CMC/∂β0 = −2 yi + 2nβ0 + 2β1 xi i ∂CMC/∂β1 = −2 X i i yi xi + 2β0 X i xi + 2β1 X xi2 i 17 / 31 Estimation de la droite de régression Introduction Etude de la corrélation Régression linéaire simple • Les valeurs optimales, β̂0 et β̂1 , minimisent le CMC : X X yi − nβ̂0 − β̂1 xi = 0 i X i yi xi − β̂0 i X xi − β̂1 X i xi2 = 0 i • Le CMC est minimum pour : P P P i xi yi − ( i xi )( i yi )/n P P β̂ = 1 2 2 i xi − ( i xi ) /n X X β̂ = yi /n − β̂1 yi /n 0 i i 18 / 31 Estimation des autres paramètres importants Introduction Etude de la corrélation Régression linéaire simple • On peut alors simplement déduire la variance résiduelle des estimations précédentes. 2 σ̂ = P − ŷi )2 = n−2 i (yi P i (yi − β̂0 − β̂1 xi )2 n−2 • Si β̂1 représente la pente de Y en fonction de X et que β̂10 représente la pente de X en fonction de Y , alors on montre que : r̂ 2 = β̂1 β̂10 r 2 représente la proportion de variation de Y expliquée par X . Rappelons que r est le coefficient de corrélation linéaire. 19 / 31 Application à notre exemple Introduction Etude de la corrélation Régression linéaire simple Etude de la fonction rénale (Y ) en fonction de l’âge (X ) P P • n = 30 ; i yi = 3196, 3 ; i yi2 = 342125, 7 ; P P P 2 i xi yi = 140943, 0 ; i xi = 1334, 3 ; i xi = 62626, 5 ; • β̂0 = 123, 0 : La fonction rénale d’un nouveau né (x = 0) est estimée à 123,0 ml/min en moyenne. Attention : cette valeur n’est pas fiable (aucun enfant dans l’étude). • β̂1 = −0, 37 : La fonction rénale chute en moyenne de 3,7 ml/min tous les 10 ans. • σ̂ 2 = 6, 35. • r̂ 2 = 0, 29 : 29% de la variation de Y est expliquée par X . 20 / 31 Application à notre exemple Introduction ● 120 Etude de la corrélation ● Régression linéaire simple 115 ● ● ● 110 ● ● ● ● ● ● ● 105 ● ● ● ● ● ● ● 100 ● ● ● ● ● ● ● ● 95 Clairance à la créatinine en ml/min ● ● ● 30 40 50 60 Age en années 21 / 31 Application à notre exemple Introduction ● 120 Etude de la corrélation ● Régression linéaire simple 115 ● ● ● 110 ● ● ● ● ● ● ● 105 ● ● β1 = − 3.7 ● ● ● ● ● 100 ● ● + 10 ● ● ● ● ● ● 95 Clairance à la créatinine en ml/min ● ● ● 30 40 50 60 Age en années 22 / 31 Application à notre exemple 130 Introduction Etude de la corrélation β0 120 ● ● ● ● ● ● ● ● 110 ● ● ● ● ● ● ● ● ●● ● ● ● 100 ● ● ● ● ● ● ● ● ● 90 Clairance à la créatinine en ml/min Régression linéaire simple 0 10 20 30 40 50 60 Age en années 23 / 31 Intervalle de confiance de β1 Introduction Etude de la corrélation h i IC(1−α) = β̂1 ± tα,n−2 s(β̂1 ) Régression linéaire simple • tα,n−2 : fractile de la loi de Student à n − 2 ddl (lue dans la table). • s(β̂1 ) : écart-type estimé de la pente √ • Remarque : s(β̂1 ) = σ̂/(σ̂x n − 1), où σ̂x est l’écart-type de X . • Si l’intervalle de confiance comprend la valeur 0, on conclura que la pente n’est pas significativement différente de 0. • Si l’intervalle de confiance ne comprend pas la valeur 0, on conclura que la pente est significativement différente de 0. 24 / 31 Test de β1 (méthode 1 : Test de Student) Introduction Etude de la corrélation Régression linéaire simple • Définition des htypothèses • H0 : β1 = 0 • H1 : β1 6= 0 • Statistique de test : T = β1 /s(β1 ) ∼ Tn−2 ddl • Définition de la région critique. • Si t appartient à la région critique, on rejette H0 , sinon on ne peut pas rejeter H0 . 25 / 31 Application à notre exemple Introduction Etude de la corrélation Régression linéaire simple Etude de la fonction rénale (Y ) en fonction de l’âge (X ) • Intervalle de confiance à 95% de β1 (t5%;28 = 2, 048) : IC95% = [−0, 37 ± 2, 048 × 0, 11] = [−0, 48; −0, 26] • L’intervalle de confiance ne comprend pas la valeur 0, il semble donc que la pente soit significativement différente de zéro. • Test → H0 : β1 = 0 contre H1 : β1 6= 0 • α = 0, 05, t5%;28 = 2, 048 • t = −0, 37/0, 11 = −3, 35 • |t| > 2, 048, on rejette H0 . 26 / 31 Hypothèses du modèle : linéarité Introduction ● 120 Etude de la corrélation ● Régression linéaire simple 115 ● ● ● 110 ● ● ● ● ● ● ● 105 ● ● β1 = − 3.7 ● ● ● ● ● 100 ● ● + 10 ● ● ● ● ● ● 95 Clairance à la créatinine en ml/min ● ● ● 30 40 50 60 Age en années 27 / 31 Hypothèses du modèle : linéarité Introduction ● 60 Etude de la corrélation ● ● ● ● 50 40 ● ● ● ● ● 10 ● ●● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ●● 0 ● ● ● y2 30 y1 20 ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● −10 −2 0 4 ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● 2 Régression linéaire simple ● ● ● ● ● 0 ● 10 20 30 x1 40 50 0 10 20 30 40 50 x2 28 / 31 Hypothèses du modèle : linéarité Introduction ● 60 Etude de la corrélation ● ● ● ● 50 40 ● ● ● ● ● 10 ● ●● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ●● 0 ● ● ● y2 30 y1 20 ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● −10 −2 0 4 ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● 2 Régression linéaire simple ● ● ● ● ● 0 ● 10 20 30 x1 40 50 0 10 20 30 40 50 x2 29 / 31 Hypothèses du modèle : normalité des résidus 10 Introduction Etude de la corrélation 0 2 4 Effective 6 8 Régression linéaire simple −10 −5 0 5 10 15 residus 30 / 31 Hypothèses du modèle : homoscédasticité des résidus Introduction ● ● 10 Etude de la corrélation ● ● Régression linéaire simple ● ● 5 ● ● ● ● ● ● 0 ● ● ● ● ● ● ● ● −5 Valeurs prédites ● ● ● ● ● ● ● ● ● ● 100 102 104 106 108 110 112 residus 31 / 31