Chapitre II: Statistiques avec SPSS
Transcription
Chapitre II: Statistiques avec SPSS
Chapitre II: Statistiques avec SPSS Caroline Verhoeven Table des matières 1 Tests non paramétriques Normalité ? Exercice Test t pour 2 échantillons indépendants Test t pour 2 échantillons appariés Test de Mann-Withney Test de rangs de Wilcoxon pour 2 échantillons appariés Exercices 2 Régression et ANOVA Introduction ANOVA à 1 facteur Exercices ANOVA à plusieurs facteurs Régression Exercices Caroline Verhoeven MEMO-I402 2 / 39 1. Tests non paramétriques 1. Normalité ? Tester la normalité : Exemple I Exemple 1 Chez le grillon des sauges (Cyphoderris strepitans), durant l’accouplement, la femelle grignote les extrémités des ailes du mâle. En 1999, Johnson et al. se sont demandé si une femelle affamée aura plus facilement tendance à s’accoupler. Caroline Verhoeven MEMO-I402 3 / 39 1. Tests non paramétriques 1. Normalité ? Tester la normalité : Exemple I Exemple 1 Chez le grillon des sauges (Cyphoderris strepitans), durant l’accouplement, la femelle grignote les extrémités des ailes du mâle. En 1999, Johnson et al. se sont demandé si une femelle affamée aura plus facilement tendance à s’accoupler. Ils ont pris 24 grillons et ont choisi un groupe de N1 = 11 au hasard qu’ils ont affamé, l’autre groupe de N2 = 13 a été nourri. Après quoi chaque femelle a été mise dans une cage avec 1 mâle, et on a enregistré le temps d’attente pour l’accouplement Caroline Verhoeven MEMO-I402 3 / 39 1. Tests non paramétriques 1. Normalité ? Tester la normalité : Exemple I Exemple 1 Chez le grillon des sauges (Cyphoderris strepitans), durant l’accouplement, la femelle grignote les extrémités des ailes du mâle. En 1999, Johnson et al. se sont demandé si une femelle affamée aura plus facilement tendance à s’accoupler. Ils ont pris 24 grillons et ont choisi un groupe de N1 = 11 au hasard qu’ils ont affamé, l’autre groupe de N2 = 13 a été nourri. Après quoi chaque femelle a été mise dans une cage avec 1 mâle, et on a enregistré le temps d’attente pour l’accouplement Les mesures se trouvent sur le slide suivant Caroline Verhoeven MEMO-I402 3 / 39 1. Tests non paramétriques 1. Normalité ? Tester la normalité : Exemple II Exemple 1 faim 1,9 2,1 3,8 9,0 9,6 13,0 14,7 17,9 21,7 29,0 72,3 Caroline Verhoeven nourri 1,5 1,7 2,4 3,6 5,7 22,6 22,8 39,0 54,4 72,1 73,6 79,5 88,9 MEMO-I402 4 / 39 1. Tests non paramétriques 1. Normalité ? Tester la normalité : Exemple III Femelles nourries 8 8 6 6 nombre nombre Femelles affamées 4 2 2 0 4 0 0 20 40 60 temps 80 100 Caroline Verhoeven 0 MEMO-I402 20 40 60 temps 80 100 5 / 39 1. Tests non paramétriques 1. Normalité ? Tester la normalité avec SPSS : Le Q-Q plot I Le Q-Q plot : Compare les quantiles de nos données (centrées et réduites) avec les quantiles (théoriques) de la normale standard. Caroline Verhoeven MEMO-I402 6 / 39 1. Tests non paramétriques 1. Normalité ? Tester la normalité avec SPSS : Le Q-Q plot I Le Q-Q plot : Compare les quantiles de nos données (centrées et réduites) avec les quantiles (théoriques) de la normale standard. Si les données sont distribuées normalement, les quantiles observés et théoriques sont (approximativement) égaux Caroline Verhoeven MEMO-I402 6 / 39 1. Tests non paramétriques 1. Normalité ? Tester la normalité avec SPSS : Le Q-Q plot I Le Q-Q plot : Compare les quantiles de nos données (centrées et réduites) avec les quantiles (théoriques) de la normale standard. Si les données sont distribuées normalement, les quantiles observés et théoriques sont (approximativement) égaux SPSS : Analyze → Descriptive Statistics → Q-Q plots Caroline Verhoeven MEMO-I402 6 / 39 1. Tests non paramétriques 1. Normalité ? Tester la normalité avec SPSS : Le Q-Q plot II Petit film explicatif youtube Caroline Verhoeven MEMO-I402 7 / 39 1. Tests non paramétriques 1. Normalité ? Tester la normalité avec SPSS : Le test de Shapiro-Wilk I Le test de Shapiro-Wilk : Test statistique qui détermine si la variable est distribuée normalement H0 : La variable est distribuée normalement Ha : La variable n’est pas distribuée normalement Caroline Verhoeven MEMO-I402 8 / 39 1. Tests non paramétriques 1. Normalité ? Tester la normalité avec SPSS : Le test de Shapiro-Wilk I Le test de Shapiro-Wilk : Test statistique qui détermine si la variable est distribuée normalement H0 : La variable est distribuée normalement Ha : La variable n’est pas distribuée normalement Si p ≤ 0, 05 RH0 , si p > 0, 05 NRH0 Caroline Verhoeven MEMO-I402 8 / 39 1. Tests non paramétriques 1. Normalité ? Tester la normalité avec SPSS : Le test de Shapiro-Wilk I Le test de Shapiro-Wilk : Test statistique qui détermine si la variable est distribuée normalement H0 : La variable est distribuée normalement Ha : La variable n’est pas distribuée normalement Si p ≤ 0, 05 RH0 , si p > 0, 05 NRH0 Il faut minimum 7 données Caroline Verhoeven MEMO-I402 8 / 39 1. Tests non paramétriques 1. Normalité ? Tester la normalité avec SPSS : Le test de Shapiro-Wilk I Le test de Shapiro-Wilk : Test statistique qui détermine si la variable est distribuée normalement H0 : La variable est distribuée normalement Ha : La variable n’est pas distribuée normalement Si p ≤ 0, 05 RH0 , si p > 0, 05 NRH0 Il faut minimum 7 données En SPSS : Analyze → Descriptive Satistics → Explore → Plots Caroline Verhoeven MEMO-I402 8 / 39 1. Tests non paramétriques 1. Normalité ? Tester la normalité avec SPSS : Le test de Shapiro-Wilk I Le test de Shapiro-Wilk : Test statistique qui détermine si la variable est distribuée normalement H0 : La variable est distribuée normalement Ha : La variable n’est pas distribuée normalement Si p ≤ 0, 05 RH0 , si p > 0, 05 NRH0 Il faut minimum 7 données En SPSS : Analyze → Descriptive Satistics → Explore → Plots On peut également y trouver le test de Kolmogorov-Smirnov Caroline Verhoeven MEMO-I402 8 / 39 1. Tests non paramétriques 1. Normalité ? Tester la normalité avec SPSS : Le test de Shapiro-Wilk II Petit film explicatif youtube Caroline Verhoeven MEMO-I402 9 / 39 1. Tests non paramétriques 2. Exercice Exercice 1 Ouvrir le fichier grillon.xls en SPSS Faire le test de Shapiro Wilk et un Q-Q plot pour les grillons nourries et pour les grillons affamées. Caroline Verhoeven MEMO-I402 10 / 39 1. Tests non paramétriques 3. Test t pour 2 échantillons indépendants Test de t pour 2 échantillons indépendants : principe But : Conclure si les moyennes µ1 et µ2 de 2 populations sont égales ou non Formulation des hypothèses : H0 : µ1 = µ2 vs Ha : µ1 > µ2 (ou µ1 < µ2 , ou µ1 6= µ2 ) On considère 2 échantillons de N1 et N2 sujets Si σ12 = σ22 , test t classique Si σ12 6= σ22 , test t de Welch D’abord tester si σ12 = σ22 avec Fisher Caroline Verhoeven MEMO-I402 11 / 39 1. Tests non paramétriques 3. Test t pour 2 échantillons indépendants Test de t pour 2 échantillons indépendants : principe But : Conclure si les moyennes µ1 et µ2 de 2 populations sont égales ou non Formulation des hypothèses : H0 : µ1 = µ2 vs Ha : µ1 > µ2 (ou µ1 < µ2 , ou µ1 6= µ2 ) On considère 2 échantillons de N1 et N2 sujets Si σ12 = σ22 , test t classique Si σ12 6= σ22 , test t de Welch D’abord tester si σ12 = σ22 avec Fisher SPSS : Analyze → Compare Means → Independent-Samples T Test Caroline Verhoeven MEMO-I402 11 / 39 1. Tests non paramétriques 4. Test t pour 2 échantillons appariés Test t pour 2 échantillons appariés : principe But : Tester si la moyenne reste la même ou non pour les mêmes sujets dans des conditions différentes Caroline Verhoeven MEMO-I402 12 / 39 1. Tests non paramétriques 4. Test t pour 2 échantillons appariés Test t pour 2 échantillons appariés : principe But : Tester si la moyenne reste la même ou non pour les mêmes sujets dans des conditions différentes SPSS : Analyze → Compare Means → Paired-Samples T Test Caroline Verhoeven MEMO-I402 12 / 39 1. Tests non paramétriques 5. Test de Mann-Withney Test de Mann-Whitney : Principes Egalement appelé test de rangs de Wilcoxon Equivalent non-paramétrique du test t à 2 échantillons indépendants Caroline Verhoeven MEMO-I402 13 / 39 1. Tests non paramétriques 5. Test de Mann-Withney Test de Mann-Whitney : Principes Egalement appelé test de rangs de Wilcoxon Equivalent non-paramétrique du test t à 2 échantillons indépendants Formulation des hypothèses H0 : µ̃1 = µ̃2 médianes ! Ha : µ̃1 6= µ̃2 Caroline Verhoeven MEMO-I402 13 / 39 1. Tests non paramétriques 5. Test de Mann-Withney Test de Mann-Whitney : Principes Egalement appelé test de rangs de Wilcoxon Equivalent non-paramétrique du test t à 2 échantillons indépendants Formulation des hypothèses H0 : µ̃1 = µ̃2 médianes ! Ha : µ̃1 6= µ̃2 SPSS : Analyze → Nonparametric Tests → Independent Samples Caroline Verhoeven MEMO-I402 13 / 39 1. Tests non paramétriques 5. Test de Mann-Withney Test de Mann-Whitney : conditions Il n’y a pas de conditions sur la distribution de la population Les distributions de 2 populations doivent avoir la même forme Les 2 échantillons sont aléatoires simples Les 2 échantillons sont indépendants Caroline Verhoeven MEMO-I402 14 / 39 1. Tests non paramétriques 6. Test de rangs de Wilcoxon pour 2 échantillons appariés Wilcoxon pour 2 échantillons appariés : Principe Egalement appelé test de Wilcoxon des rangs signés Equivalent non-paramétrique du test t pour 2 échantillons appariés Caroline Verhoeven MEMO-I402 15 / 39 1. Tests non paramétriques 6. Test de rangs de Wilcoxon pour 2 échantillons appariés Wilcoxon pour 2 échantillons appariés : Principe Egalement appelé test de Wilcoxon des rangs signés Equivalent non-paramétrique du test t pour 2 échantillons appariés Hypothèse sur la médiane δ̃ des différence entre les 2 mesures d’1 paire Caroline Verhoeven MEMO-I402 15 / 39 1. Tests non paramétriques 6. Test de rangs de Wilcoxon pour 2 échantillons appariés Wilcoxon pour 2 échantillons appariés : Principe Egalement appelé test de Wilcoxon des rangs signés Equivalent non-paramétrique du test t pour 2 échantillons appariés Hypothèse sur la médiane δ̃ des différence entre les 2 mesures d’1 paire Formulation des hypothèses H0 : δ̃ = 0 Ha : δ̃ 6= 0 Caroline Verhoeven MEMO-I402 15 / 39 1. Tests non paramétriques 6. Test de rangs de Wilcoxon pour 2 échantillons appariés Wilcoxon pour 2 échantillons appariés : Principe Egalement appelé test de Wilcoxon des rangs signés Equivalent non-paramétrique du test t pour 2 échantillons appariés Hypothèse sur la médiane δ̃ des différence entre les 2 mesures d’1 paire Formulation des hypothèses H0 : δ̃ = 0 Ha : δ̃ 6= 0 SPSS : Analyze → Nonparametric Tests → Related Samples Caroline Verhoeven MEMO-I402 15 / 39 1. Tests non paramétriques 7. Exercices Exercice I Exercice 2 Reprendre le fichier grillon.xls Déterminer s’il y a une différence significative entre le temps d’accouplements de femelles nourries et affamées Exercice 3 En 1994, Régis et Millot ont étudié l’impact de la pratique du poney sur des enfants handicapés mentaux. Ils ont mesuré le nombre de comportements de stéréotypie (répétition des mêmes geste ou mots) de 6 enfants lors de travaux manuels à leur institut médico-pédagogique et lors de la pratique du poney. Ouvrir le fichier hippother.xls en SPSS Déterminer s’il y a une différence de comportement significative entre l’activité manuelle et l’activité avec les poneys Caroline Verhoeven MEMO-I402 16 / 39 1. Tests non paramétriques 7. Exercices Exercice II Exercice 4 Ouvrir le fichier oiseau.xlsx avec SPSS Tester la normalité de la différence avant-après Aide :Transform → Compute Variable Déterminer s’il y a une différence significative entre le taux d’anticorps avant et après l’implantation. Exercice 5 Ouvrir le fichier coucou.xls dans Excel Mettre dans un format acceptable pour SPSS Ouvrir le fichier avec SPSS Tester la normalité des mesures pour les nids de roitelets et de fauvettes Déterminer s’il y a une différence significative entre le taille des oeufs dans les nids de roitelets et de fauvettes Caroline Verhoeven MEMO-I402 17 / 39 1. Tests non paramétriques 7. Exercices Exercice III Exercice 6 Les gens faisant beaucoup de sport ont la réputation d’être plus attirants d’un point de vue sexuel. Pour vérifier cela, on a compté le nombre de partenaires sexuelles qu’on eu des étudiants en sport et des étudiants en bio, sur une année. Ouvrir le fichier sport vs bio.xls Tester si le nombre de partenaires sexuelles est une variable distribuée normalement pour les étudiants en bio et les étudiants en sport Déterminer s’il y a une différence différence significative entre le nombre de partenaires sexuelles des étudiants en sport et en bio. Caroline Verhoeven MEMO-I402 18 / 39 2. Régression et ANOVA 1. Introduction Utilisation de la régression et ANOVA Dans les études on a des données imposées par les chercheurs (prédicteurs) des donnees qui peuvent être observées comme réactions (réponses) Quand utiliser l’ ANOVA et la régression Modèle ANOVA à 1 facteur ANOVA à 2 facteur Régression simple Régresion multiple Régression logistique Réponse 1 quantitative 1 quantitative 1 quantitative 1 quantitative 1 qualitative Caroline Verhoeven Prédicteur 1 qualitative 2 qualitative 1 quantitative 2 (ou plus) quantitatives 1 (ou plus) quantitative MEMO-I402 19 / 39 2. Régression et ANOVA 2. ANOVA à 1 facteur ANOVA à 1 facteur ANOVA : généralisation du test t pour 2 échantillons indépendants, vers k > 2 échantillons indépendants Formulation des hypothèses H0 : µ1 = µ2 = · · · = µk Ha : Au moins une des moyennes est différente des autres ANOVA : ANalysis Of VAriance En SPSS : Analyze → Compare Means → One-Way ANOVA Caroline Verhoeven MEMO-I402 20 / 39 2. Régression et ANOVA 2. ANOVA à 1 facteur ANOVA à 1 facteur : conditions Echantillons indépendants Les sujets doivent être indépendants Distribution normale de la population pour chaque groupe Variances identiques pour tous les groupes : Test de Levene (test préliminaire) : H0 : σ1 = σ2 = · · · = σk Ha : Au moins une des variance est différente des autres Caroline Verhoeven MEMO-I402 21 / 39 2. Régression et ANOVA 2. ANOVA à 1 facteur Les tests post-hoc pour l’ANOVA LSD : Compare tous les groupes 2 à 2. Grand risque de faire une erreur du type I Tukey : Correction par rapport à LSD pour diminuer le risque d’erreur du type I. Fonctionne bien quand les différents groupes ont le même nombre de sujets Bonferroni : Le plus simple. basse puissance Sidak : Même idée que Bonferroni, mais puissance un peu meilleure Scheffe : pas très bonne puissance, mais très populaire Dunnet : compare les différents groupes avec un groupe contrôle Caroline Verhoeven MEMO-I402 22 / 39 2. Régression et ANOVA 2. ANOVA à 1 facteur ANOVA à mesures répétées : Principe On mesures k fois les mêmes sujets sous des conditions différentes Caroline Verhoeven MEMO-I402 23 / 39 2. Régression et ANOVA 2. ANOVA à 1 facteur ANOVA à mesures répétées : Principe On mesures k fois les mêmes sujets sous des conditions différentes Généralisation du test t pour 2 échantillons appariés Caroline Verhoeven MEMO-I402 23 / 39 2. Régression et ANOVA 2. ANOVA à 1 facteur ANOVA à mesures répétées : Mauchly Les variances des différences entre 2 groupes sont-elles toutes les mêmes ? Caroline Verhoeven MEMO-I402 24 / 39 2. Régression et ANOVA 2. ANOVA à 1 facteur ANOVA à mesures répétées : Mauchly Les variances des différences entre 2 groupes sont-elles toutes les mêmes ? Pour y répondre : test de Mauchly H0 : les variances des différences entre 2 groupes sont les mêmes Ha : Il y a au moins 1 variance des différences qui est différentes Caroline Verhoeven MEMO-I402 24 / 39 2. Régression et ANOVA 2. ANOVA à 1 facteur ANOVA à mesures répétées : Mauchly Les variances des différences entre 2 groupes sont-elles toutes les mêmes ? Pour y répondre : test de Mauchly H0 : les variances des différences entre 2 groupes sont les mêmes Ha : Il y a au moins 1 variance des différences qui est différentes p > 0, 05 : NRH0 p < 0, 05 : RH0 Caroline Verhoeven MEMO-I402 24 / 39 2. Régression et ANOVA 2. ANOVA à 1 facteur ANOVA à mesures répétées : Mauchly Les variances des différences entre 2 groupes sont-elles toutes les mêmes ? Pour y répondre : test de Mauchly H0 : les variances des différences entre 2 groupes sont les mêmes Ha : Il y a au moins 1 variance des différences qui est différentes p > 0, 05 : NRH0 p < 0, 05 : RH0 Si RH0 : correction de Greenhouse-Geisser correction Huynh-Feldt Caroline Verhoeven MEMO-I402 24 / 39 2. Régression et ANOVA 2. ANOVA à 1 facteur ANOVA à mesures répétées : Après Mauchly Si NRH0 : pas de correction (sphericity assumed) Caroline Verhoeven MEMO-I402 25 / 39 2. Régression et ANOVA 2. ANOVA à 1 facteur ANOVA à mesures répétées : Après Mauchly Si NRH0 : pas de correction (sphericity assumed) Si RH0 : Regarder ε (Epsilon) de Greenhouse-Geisser Si ε = 1 : sphéricité parfaite Au plus ε petit, au plus éloigné de la sphéricité Caroline Verhoeven MEMO-I402 25 / 39 2. Régression et ANOVA 2. ANOVA à 1 facteur ANOVA à mesures répétées : Après Mauchly Si NRH0 : pas de correction (sphericity assumed) Si RH0 : Regarder ε (Epsilon) de Greenhouse-Geisser Si ε = 1 : sphéricité parfaite Au plus ε petit, au plus éloigné de la sphéricité Choix de correction : Si ε > 0, 75 : Huynh-Feldt Si ε < 0, 75 : Greenhouse-Geisser Caroline Verhoeven MEMO-I402 25 / 39 2. Régression et ANOVA 2. ANOVA à 1 facteur Les test post-hoc pour l’ANOVA à mesures répétées SPSS permet uniquement : LSD Bonferroni Sidak Caroline Verhoeven MEMO-I402 26 / 39 2. Régression et ANOVA 3. Exercices Exercices I Exercice 7 En 2002, Wright et Czeisler ont mesuré le cycle de production de mélatonine chez N = 22 sujets aléatoirement soumis à un des 3 traitement suivants. Ils ont été réveillés durant leur sommeil et soumis à une forte lumière dans les yeux, à l’arrière du genoux ou à aucune lumière, durant une période de 3 heures. Après 2 jours, on a mesuré leur cycle de mélatonine. Le “shift” du cycle est donné en heures. Un shift négatif montre un retard. Ouvrir le fichier melatonine.sav Tester si les données ont une distribution normale pour les 3 traitements Déterminer s’il y a une différence différence significative entre les 3 traitements. Caroline Verhoeven MEMO-I402 27 / 39 2. Régression et ANOVA 3. Exercices Exercices II Exercice 8 Dans l’émission de réalité “I’m a celebrity, get me out of here”, des célébrités doivent survivre dans la jungle et doivent subir des épreuves désagréables et humiliantes. Une de ces épreuves est de manger des choses peu appétissantes. 8 célébrités mangent chacune 4 de ces choses. On mesure le temps qui leur faut avant d’avoir la nausée en secondes. Ouvrir le fichier celeb.xls Tester si il y aune différence de temps pour attraper la nausées entres ces 4 choses Caroline Verhoeven MEMO-I402 28 / 39 2. Régression et ANOVA 4. ANOVA à plusieurs facteurs ANOVA à 2 facteurs On veut évaluer les effets de 2 facteurs : on compare les moyennes des populations correspondant à toutes les combinaisons de tous les niveaux de chacun de ces 2 facteurs. Exemple : Etude de la sensibilité aux effets de l’insuline chez des femmes en fonction de leur poids (normal ou surpoids) et selon qu’elles sont hyperthyroı̈diennes ou non. Caroline Verhoeven MEMO-I402 29 / 39 2. Régression et ANOVA 4. ANOVA à plusieurs facteurs ANOVA à 2 facteurs On veut évaluer les effets de 2 facteurs : on compare les moyennes des populations correspondant à toutes les combinaisons de tous les niveaux de chacun de ces 2 facteurs. Exemple : Etude de la sensibilité aux effets de l’insuline chez des femmes en fonction de leur poids (normal ou surpoids) et selon qu’elles sont hyperthyroı̈diennes ou non. Plusieurs facteurs ⇒ possibilité d’interaction entre ces facteurs Caroline Verhoeven MEMO-I402 29 / 39 2. Régression et ANOVA 4. ANOVA à plusieurs facteurs ANOVA à 2 facteurs On veut évaluer les effets de 2 facteurs : on compare les moyennes des populations correspondant à toutes les combinaisons de tous les niveaux de chacun de ces 2 facteurs. Exemple : Etude de la sensibilité aux effets de l’insuline chez des femmes en fonction de leur poids (normal ou surpoids) et selon qu’elles sont hyperthyroı̈diennes ou non. Plusieurs facteurs ⇒ possibilité d’interaction entre ces facteurs Formulation des hypothèses nulles : H0 : Le poids n’a pas d’influence sur la sensibilité à l’insuline H0 : La thyroı̈de n’a pas d’influence sur la sensibilité à l’insuline H0 : L’effet du poids sur la sensibilité à l’insuline ne dépend pas de la thyroı̈de (interaction) Caroline Verhoeven MEMO-I402 29 / 39 2. Régression et ANOVA 4. ANOVA à plusieurs facteurs ANOVA à 2 facteurs On veut évaluer les effets de 2 facteurs : on compare les moyennes des populations correspondant à toutes les combinaisons de tous les niveaux de chacun de ces 2 facteurs. Exemple : Etude de la sensibilité aux effets de l’insuline chez des femmes en fonction de leur poids (normal ou surpoids) et selon qu’elles sont hyperthyroı̈diennes ou non. Plusieurs facteurs ⇒ possibilité d’interaction entre ces facteurs Formulation des hypothèses nulles : H0 : Le poids n’a pas d’influence sur la sensibilité à l’insuline H0 : La thyroı̈de n’a pas d’influence sur la sensibilité à l’insuline H0 : L’effet du poids sur la sensibilité à l’insuline ne dépend pas de la thyroı̈de (interaction) En SPSS : Analyze → General Linear Model → Univariate Caroline Verhoeven MEMO-I402 29 / 39 2. Régression et ANOVA 4. ANOVA à plusieurs facteurs Exercice 9 Walker et al ont étudié le stress chez les manchots de Magellan en 2005. Certains se reproduisent dans une région retirée avec peu d’activités humaine. D’autres se reproduisent dans des régions touristiques. Caroline Verhoeven MEMO-I402 30 / 39 2. Régression et ANOVA 4. ANOVA à plusieurs facteurs Exercice 9 Walker et al ont étudié le stress chez les manchots de Magellan en 2005. Certains se reproduisent dans une région retirée avec peu d’activités humaine. D’autres se reproduisent dans des régions touristiques. On veut savoir si les manchots stress plus en grandissant et si le fait de grandir dans une zone touristique ou non influence le stress. Caroline Verhoeven MEMO-I402 30 / 39 2. Régression et ANOVA 4. ANOVA à plusieurs facteurs Exercice 9 Walker et al ont étudié le stress chez les manchots de Magellan en 2005. Certains se reproduisent dans une région retirée avec peu d’activités humaine. D’autres se reproduisent dans des régions touristiques. On veut savoir si les manchots stress plus en grandissant et si le fait de grandir dans une zone touristique ou non influence le stress. Pour cela, on les capture et on mesure leur concentration de corticostérone 30 minutes après. On fait cela pour 3 catégories de manchots : récemment éclos, de 40 à 50 jours et juste adultes. Caroline Verhoeven MEMO-I402 30 / 39 2. Régression et ANOVA 4. ANOVA à plusieurs facteurs Exercice 9 Walker et al ont étudié le stress chez les manchots de Magellan en 2005. Certains se reproduisent dans une région retirée avec peu d’activités humaine. D’autres se reproduisent dans des régions touristiques. On veut savoir si les manchots stress plus en grandissant et si le fait de grandir dans une zone touristique ou non influence le stress. Pour cela, on les capture et on mesure leur concentration de corticostérone 30 minutes après. On fait cela pour 3 catégories de manchots : récemment éclos, de 40 à 50 jours et juste adultes. Ouvrir le fichier pinguin.xls. Déterminer si l’âge des jeunes manchots a une influence sur leur niveau de stress, si le fait de grandir dans une région retirée ou touristique a une influence sur leur niveau de stress et si l’effet de l’âge dépend de l’environnement. Caroline Verhoeven MEMO-I402 30 / 39 2. Régression et ANOVA 4. ANOVA à plusieurs facteurs ANOVA à 2 facteurs : interaction Interaction significative ⇒ intéressant de tester 1 facteur pour les différents niveaux de l’autre facteur. En SPSS : Caroline Verhoeven MEMO-I402 31 / 39 2. Régression et ANOVA 4. ANOVA à plusieurs facteurs ANOVA à 2 facteurs : interaction Interaction significative ⇒ intéressant de tester 1 facteur pour les différents niveaux de l’autre facteur. En SPSS : 1 File → New → Syntax Caroline Verhoeven MEMO-I402 31 / 39 2. Régression et ANOVA 4. ANOVA à plusieurs facteurs ANOVA à 2 facteurs : interaction Interaction significative ⇒ intéressant de tester 1 facteur pour les différents niveaux de l’autre facteur. En SPSS : 1 2 File → New → Syntax taper dans la fenêtre : GLM réponse by facteur1 facteur2 /emmeans=tables(facteur1*facteur2)compare(facteur1). Dans l’exemple manchots : GLM cortico by age région /emmeans=tables(age*région)compare(age). Caroline Verhoeven MEMO-I402 31 / 39 2. Régression et ANOVA 4. ANOVA à plusieurs facteurs ANOVA à 2 facteurs : interaction Interaction significative ⇒ intéressant de tester 1 facteur pour les différents niveaux de l’autre facteur. En SPSS : 1 2 3 File → New → Syntax taper dans la fenêtre : GLM réponse by facteur1 facteur2 /emmeans=tables(facteur1*facteur2)compare(facteur1). Dans l’exemple manchots : GLM cortico by age région /emmeans=tables(age*région)compare(age). Run → All Caroline Verhoeven MEMO-I402 31 / 39 2. Régression et ANOVA 5. Régression Régression logistique I xi : données quantitatives, prédicteur Réponse : données qualitatives avec 2 valeurs possibles Pour chaque xi une proportion pi de succès Caroline Verhoeven MEMO-I402 32 / 39 2. Régression et ANOVA 5. Régression Régression logistique I xi : données quantitatives, prédicteur Réponse : données qualitatives avec 2 valeurs possibles Pour chaque xi une proportion pi de succès pi logit(pi ) = ln 1 − pi Si il y a un lien linéaire Caroline Verhoeven MEMO-I402 32 / 39 2. Régression et ANOVA 5. Régression Régression logistique I xi : données quantitatives, prédicteur Réponse : données qualitatives avec 2 valeurs possibles Pour chaque xi une proportion pi de succès pi logit(pi ) = ln 1 − pi Si il y a un lien linéaire Question : comment déterminer la droite p logit(p) = ln = b0 + b 1 x 1−p Caroline Verhoeven MEMO-I402 32 / 39 2. Régression et ANOVA 5. Régression Régression logistique I xi : données quantitatives, prédicteur Réponse : données qualitatives avec 2 valeurs possibles Pour chaque xi une proportion pi de succès pi logit(pi ) = ln 1 − pi Si il y a un lien linéaire Question : comment déterminer la droite p logit(p) = ln = b0 + b 1 x 1−p Minimisation au sens des moindres carrés : n X di2 i=1 di : distance entre les mesures et la droite Caroline Verhoeven MEMO-I402 32 / 39 2. Régression et ANOVA 5. Régression Régression logistique I xi : données quantitatives, prédicteur Réponse : données qualitatives avec 2 valeurs possibles Pour chaque xi une proportion pi de succès pi logit(pi ) = ln 1 − pi Si il y a un lien linéaire Question : comment déterminer la droite p logit(p) = ln = b0 + b 1 x 1−p Minimisation au sens des moindres carrés : n X di2 i=1 di : distance entre les mesures et la droite En SPSS : Analyze → Regression → Binary Logistic Caroline Verhoeven MEMO-I402 32 / 39 2. Régression et ANOVA 5. Régression Régression logistique II Petit film explicatif youtube Caroline Verhoeven MEMO-I402 33 / 39 2. Régression et ANOVA 5. Régression Régression multiple I xi1 , xi2 , . . . , xik : données quantitatives, prédicteurs yi : données quantitatives, réponse Caroline Verhoeven MEMO-I402 34 / 39 2. Régression et ANOVA 5. Régression Régression multiple I xi1 , xi2 , . . . , xik : données quantitatives, prédicteurs yi : données quantitatives, réponse Caroline Verhoeven MEMO-I402 34 / 39 2. Régression et ANOVA 5. Régression Régression multiple I xi1 , xi2 , . . . , xik : données quantitatives, prédicteurs yi : données quantitatives, réponse Question : comment déterminer la droite y = b0 + b1 x + b2 x2 + · · · + bk xk , Caroline Verhoeven MEMO-I402 b0 ? b1 ? . . . bk ? 34 / 39 2. Régression et ANOVA 5. Régression Régression multiple I xi1 , xi2 , . . . , xik : données quantitatives, prédicteurs yi : données quantitatives, réponse Question : comment déterminer la droite y = b0 + b1 x + b2 x2 + · · · + bk xk , b0 ? b1 ? . . . bk ? En SPSS : Analyze → Regression → linear Caroline Verhoeven MEMO-I402 34 / 39 2. Régression et ANOVA 5. Régression Régression multiple II Petit film explicatif youtube Caroline Verhoeven MEMO-I402 35 / 39 2. Régression et ANOVA 6. Exercices Exercice 10 Ouvrir le fichier film.xls. Déterminer l’équation permettant des recettes d’un film hollywoodien tiré d’un livre sur base de : Coûts de production Coûts publicitaires Recettes du livres On considère 10 films. Caroline Verhoeven MEMO-I402 36 / 39 2. Régression et ANOVA 6. Exercices Exercices intima-média Ouvrir le fichier intima media.xls en SPSS Exercice 11 Regarder si l’âge a une influence sur la pratique du sport Exercice 12 Regarder si l’âge et l’IMC ont une influence sur l’épaisseur de l’intima-média Exercice 13 Regarder si l’épaisseur de l’intima-média dépend de la consommation d’alcool et de tabac Caroline Verhoeven MEMO-I402 37 / 39 2. Régression et ANOVA 6. Exercices Exercices enseignement enfants trisomiques I de Graaf et al ont étudié, en 2013 l’importance du choix de l’enseignement (enseignement spécialisé ou enseignement traditionnel) pour des enfants atteints de trisomie. Ils ont pour cela fait remplir un questionnaire à des parents d’enfants trisomiques suivant les deux types d’enseignements. Ils ont interrogé les parents sur les performances des enfants en lecture, écriture et mathématiques. On a également des données sur l’âge, le QI des enfants et le niveau d’étude des parents. Caroline Verhoeven MEMO-I402 38 / 39 2. Régression et ANOVA 6. Exercices Exercices enseignement enfants trisomiques II Vous trouverez des données basées sur cette étude dans le fichier down.xls Exercice 14 Y a-t-il une différence entre les performances des enfants suivant l’enseignement spécialisé et l’enseignement traditionnel en lecture, écriture et mathématiques. Exercice 15 Etudier l’effet du type d’enseignement et du niveau d’études des parents sur les performances de l’enfant en lecture. Exercice 16 Etudier l’effet du QI, de l’âge et du niveau d’étude de la mère sur les performances de l’enfant en lecture, écriture et mathématiques. Exercice 17 Etudier l’impact du niveau d’études des parents sur le choix de l’enseignement chez l’enfant. Caroline Verhoeven MEMO-I402 39 / 39