Rattrapage statistiques Ce diaporama emprunte beaucoup à
Transcription
Rattrapage statistiques Ce diaporama emprunte beaucoup à
Rattrapage statistiques ED00355X Pierre Ratinaud Ce diaporama emprunte beaucoup à diaporama de Jean-Jacques Maurice qu'il utilisait dans le cadre de l'UE20 (UE de Statistiques de la licence de sciences de l'éducation Etudiant Numéro Alfred 1 Eugénie 2 Gertrude 3 Gustave 4 Ernestine 5 Marguerite 6 Sexe M F F M F F Age 24 26 22 23 23 25 Taille 1,80 1,62 1,56 1,74 1,49 1,69 Les stats, Note en math j'aime : 12 Un peu 5 Pas du tout 14 Beaucoup 8 Pas du tout 11 Un peu 3 Pas du tout Echelle nominale Echelle ordinale Echelle d’intervalle La taille L’âge L’instrument de mesure garantit des intervalles égaux. On est autorisé à utiliser la moyenne Echelle nominale Pas de hiérarchie entre les modalités de la variable Echelle ordinale Hiérarchie entre les modalités de la variable admise par toute personne à qui cette question est posée Echelle d’intervalle La taille L’âge L’instrument de mesure garantit des intervalles égaux. Variable sexe : Homme On est autorisé à utiliser la moyenne Femme Pas du tout Variable opinion : j’aime les stats Un peu Beaucoup Passionnément Echelle nominale Pas de hiérarchie entre les modalités de la variable Variable sexe : Homme Femme Echelle ordinale Echelle d’intervalle Hiérarchie entre les modalités de la variable admise par toute personne à qui cette question est posée Pas du tout J’aime les stats La taille L’âge L’instrument de mesure garantit des intervalles égaux. Un peu Beaucoup Passionnément On est autorisé à utiliser la moyenne Vous allez voter pour : madame x, monsieur y ou mademoiselle z ? Echelle nominale Pas de hiérarchie entre les modalités de la variable Variable sexe : Homme Femme Echelle ordinale Echelle d’intervalle Hiérarchie entre les modalités de la variable admise par toute personne à qui cette question est posée La taille L’âge L’instrument de mesure garantit des intervalles égaux. Pas du tout J’aime les stats Un peu Beaucoup On est autorisé à utiliser la moyenne Passionnément Le repas au RU : 0 1 0 : pas du tout satisfaisant 4 : haut niveau gastronomique 2 3 4 Echelle nominale Pas de hiérarchie entre les modalités de la variable Variable sexe : Homme Femme Echelle ordinale Echelle d’intervalle Hiérarchie entre les modalités de la variable admise par toute personne à qui cette question est posée Pas du tout J’aime les stats La taille L’âge L’instrument de mesure garantit des intervalles égaux. Un peu Beaucoup Passionnément On est autorisé à utiliser la moyenne Un prof de math prépare une interrogation écrite : 4 exos, notés 5 points chacun. Exo 1 : nombres relatifs Exo 2 : fractions Exo 3 : géométrie Exo 4 : algèbre Echelle nominale Pas de hiérarchie entre les modalités de la variable Variable sexe : Homme Femme Echelle ordinale Hiérarchie entre les modalités de la variable admise par toute personne à qui cette question est posée Pas du tout J’aime les stats Passionnément Numéro de sécurité sociale : Femme : 2 La taille L’âge L’instrument de mesure garantit des intervalles égaux. Un peu Beaucoup Homme : 1 Echelle d’intervalle On est autorisé à utiliser la moyenne Echelle nominale Pas de hiérarchie entre les modalités de la variable Variable sexe : Homme Femme Echelle ordinale Hiérarchie entre les modalités de la variable admise par toute personne à qui cette question est posée Pas du tout J’aime les stats Pourcentages : hommes, 25% ; femmes, 75% Histogrammes Secteurs angulaires La taille L’âge L’instrument de mesure garantit des intervalles égaux. Un peu Beaucoup Passionnément Effectifs : 75 hommes, 25 femmes Echelle d’intervalle La moyenne n’est pas autorisée Médiane Quantiles (médiane, déciles, centiles) On est autorisé à utiliser la moyenne Variance Ecart type Moyenne arithmétique : indice de tendance centrale Prononcer « mu » x ∑ µ= N POPULATION Somme de toutes les valeurs Nombre de valeurs Moyenne arithmétique : indice de tendance centrale Prononcer « mu » x ∑ µ= N POPULATION Prononcer « x barre » Somme de toutes les valeurs Nombre de valeurs ECHANTILLON x ∑ X= n Somme de toutes les valeurs Nombre de valeurs L’étendue L’étendue « R » : c’est la différence entre la valeur la plus élevée et la valeur la plus basse. Exemple : Notes obtenues par un groupe d’élèves (échelle d’intervalle) 8, 11, 5, 14, 8, 11, 16, L’étendue « R » = 16 – 5 = 11 11 LA VARIANCE ET L’ECART TYPE Voici les scores sur 20 (échelles d’intervalles) de deux groupes A & B Groupe A : 10 - 12 - 8 - 9 - 11 Groupe B : 3 - 17 - 2 - 18 - 19 - 1 Ces deux groupes ont pour moyenne : 10 LA VARIANCE ET L’ECART TYPE Voici les scores sur 20 (échelles d’intervalles) de deux groupes A & B Groupe A : 10 - 12 - 8 - 9 - 11 Groupe B : 3 - 17 - 2 - 18 - 19 - 1 8 Groupe A Groupe B Ces deux groupes ont pour moyenne : 10 1 2 3 9 10 11 12 17 18 19 LA VARIANCE ET L’ECART TYPE Voici les scores sur 20 (échelles d’intervalles) de deux groupes A & B Groupe A : 10 - 12 - 8 - 9 - 11 Groupe B : Ces deux groupes ont pour moyenne : 10 3 - 17 - 2 - 18 - 19 - 1 8 Groupe A 9 1 0 1 12 1 Dispersion Groupe B 1 2 17 18 19 3 D i s p e r s i o n LA VARIANCE ET L’ECART TYPE Voici les scores sur 20 (échelles d’intervalles) de deux groupes A & B Groupe A : 10 - 12 - 8 - 9 - 11 Groupe B : Ces deux groupes ont pour moyenne : 10 3 - 17 - 2 - 18 - 19 - 1 8 9 10 11 12 Groupe A Dispersion Groupe B 1 2 17 18 19 3 D i s p e r s i o n LA MOYENNE (indice de tendance centrale) NE DIT RIEN DE LA DISPERSION DES VALEURS Deux outils vont être associés à la moyenne pour donner à voir la dispersion des données : La variance et l’écart type. La variance L’idée consiste à inventer un indice qui donne une idée des écarts à la moyenne. Ecart à la moyenne élevé au carré Variance σ 2 X ( = − X ) + ( X 2 − X ) + ( X 3 − X ) +............. ( X n − X ) n 2 1 2 2 C’est la moyenne des carrés des écarts à la moyenne. 2 La variance L’idée consiste à inventer un indice qui donne une idée des écarts à la moyenne. Ecart à la moyenne élevé au carré Variance σ 2 X ( = − X ) + ( X 2 − X ) + ( X 3 − X ) +............. ( X n − X ) n 2 1 2 2 C’est la moyenne des carrés des écarts à la moyenne. Cette formule est équivalente à : σ 2 X − X) ( ∑ = n 2 2 La variance L’idée consiste à inventer un indice qui donne une idée des écarts à la moyenne. Ecart à la moyenne élevé au carré Variance σ 2 X ( = − X ) + ( X 2 − X ) + ( X 3 − X ) +............. ( X n − X ) n 2 1 2 2 2 C’est la moyenne des carrés des écarts à la moyenne. Exemple pour le groupe A : 8 Groupe A Variance = 9 1 0 1 12 1 ( 8 − 10) 2 + ( 9 − 10) 2 + ( 10 − 10) 2 + ( 11 − 10) 2 + ( 12 − 10) 2 5 10 = =2 5 Exemple pour le groupe B : Groupe B Variance = 1 2 17 18 19 3 ( 1 − 10) 2 + ( 2 − 10) 2 + ( 3 − 10) 2 + ( 17 − 10) 2 + ( 18 − 10) 2 + ( 19 − 10) 2 6 = 388 = 64,66 6 8 Groupe A 9 1 0 1 12 1 Dispersion Variance du groupe A = 2 Groupe B 1 2 17 18 19 3 D i s p e r s i o n Variance du groupe B = 64,66 ATTENTION σ 2 X ( = − X ) + ( X 2 − X ) + ( X 3 − X ) +............. ( X n − X ) n 2 1 2 2 2 Etant donné que nous travaillons sur de petits échantillons et que nous supposons qu’ils représentent toute une population, il faut apporter un correctif à cette formule en divisant par n-1 σ 2 X ( = − X ) + ( X 2 − X ) + ( X 3 − X ) +............. ( X n − X ) n −1 2 1 2 2 2 ATTENTION σ 2 X ( = − X ) + ( X 2 − X ) + ( X 3 − X ) +............. ( X n − X ) n 2 1 2 2 2 Etant donné que nous travaillons sur de petits échantillons et que nous supposons qu’ils représentent toute une population, il faut apporter un correctif à cette formule en divisant par n-1 σ 2 X ( = − X ) + ( X 2 − X ) + ( X 3 − X ) +............. ( X n − X ) n −1 2 1 2 2 VOS CALCULETTES POSSEDENT LES DEUX FORMULES, VOUS UTILISEREZ TOUJOURS LA DEUXIEME 2 Groupe A Variance = Variance = ( 8 − 10) 2 + ( 9 − 10) 2 + ( 10 − 10) 2 + ( 11 − 10) 2 + ( 12 − 10) 2 5 ( 8 − 10) 2 + ( 9 − 10) 2 + ( 10 − 10) 2 + ( 11 − 10) 2 + ( 12 − 10) 2 5−1 10 = =2 5 10 = = 2,5 4 Groupe B Variance = Variance = ( 1 − 10) 2 + ( 2 − 10) 2 + ( 3 − 10) 2 + ( 17 − 10) 2 + ( 18 − 10) 2 + ( 19 − 10) 2 6 ( 1 − 10) 2 + ( 2 − 10) 2 + ( 3 − 10) 2 + ( 17 − 10) 2 + ( 18 − 10) 2 + ( 19 − 10) 2 6 −1 388 = = 64,66 6 388 = = 77,6 5 8 Groupe A 9 1 0 1 12 1 Dispersion Variance du groupe A = 2,5 Groupe B 1 2 17 18 19 3 D i s p e r s i o n Variance du groupe B = 77,6 A la lecture de ces deux variances on voit que la dispersion du groupe B est plus importante que celle du groupe A. Mais ces calculs ayant été obtenus par des élévations au carré, il est difficile de percevoir l’ordre de grandeur des variances. 8 Groupe A 9 1 0 1 12 1 Dispersion Variance du groupe A = 2,5 Groupe B 1 2 17 18 19 3 D i s p e r s i o n Variance du groupe B = 77,6 A la lecture de ces deux variances on voit que la dispersion du groupe B est plus importante que celle du groupe A. Mais ces calculs ayant été obtenus par des élévations au carré, il est difficile de percevoir l’ordre de grandeur des variances. C’est pourquoi, on a inventé l’écart type qui n’est que la racine carrée de la variance. 8 Groupe A 9 1 0 1 12 1 Dispersion Variance du groupe A = 2,5 Groupe B 1 2 17 18 19 3 D i s p e r s i o n Variance du groupe B = 77,6 A la lecture de ces deux variances on voit que la dispersion du groupe B est plus importante que celle du groupe A. Mais ces calculs ayant été obtenus par des élévations au carré, il est difficile de percevoir l’ordre de grandeur des variances. C’est pourquoi, on a inventé l’écart type qui n’est que la racine carrée de la variance. Groupe A : variance = 2,5 Ecart type = 2,5 = 1,58 Groupe B : variance = 77,6 Ecart type = 77,6 = 8,81 Rappel des diverses formules que vous utiliserez La variance L’écart type σ 2 X − X) ( ∑ = σ = 2 n −1 ∑( X − X ) n −1 2 Correction de Yates χ ∑ 2 (n ) 0 − n t − 0,5 2 ddl = 1 Mac Nemar 4 cases nt n1 n2 n3 n4 0 Lecture de la table numérique pour χ 2: Au seuil .05 ou .01 - si valeur calculée > valeur théorique alors H0 est rejetée ; - si valeur calculée < valeur théorique alors H0 acceptée. ddl = k-1 s llon anti ants h c d E pen indé ∑ Ec h ap ant i pa llo rié ns s n0 : effectif (observé) d’une modalité de la variable nt : effectif théorique pour cette modalité N : effectif total k : nombre de modalités de la variable Pas besoin de calculer des effectifs théoriques 4c − nt ) nt (n 0 − nt ) nt 2 Effectif théoriqued 'unecellule = + a b - c d Total ligne x total colonne Nombre total de sujets ddl : (Nb col. - 1)(Nb lignes - 1) Mac Nemar (échantillons appariés) après + avant C 2 e omp ffe ara ct i fs ison ob s e de r vé s (n ase s Echelle nominale ∑ 2 4c n ectifs so rai / eff a mp és Co bserv ues q s o ori ctif thé e f ef ase s (Chi Carré) 2 N N n1n4 − n2 n3 − 2 χ2 = ( n1 + n2 )( n3 + n4 )( n1 + n3 )( n2 + n4 ) χ2 = ( a−d − 1) a+d 2 La formule ne prend en compte que les cases du « changement » (discordantes) Pas besoin de calculer des effectifs théoriques Q de Cochran Dans le cas de petits échantillons χ2 ne s ’applique plus lorsque l’effectif théorique d ’une case est inférieur à 5 B T de Student t= A n iso e / ara oriqu ée p é m v Co ne th bser en ne o y mo yen mo t= x−M S N S = 2 x−y 1 1 S2 + N N x y (N x ( ) − 1) S2x + N y − 1 S2y Nx + Ny − 2 ddl = Nx+Ny - 2 F de SNEDECOR Echelle d ’intervalle ce rian o Va hom non s llon anti ants h c d E pen indé 2 m Com oy par en ne aison so bs de erv ée s C t= Ec h ap ant i pa llo rié ns s F de SNEDECOR Pour vérifier si les variances sont homogènes : on calcule un F en plaçant la plus forte variance au numérateur x−y 2 S2x S y + Nx Ny Lecture du t théorique lorsque les variances ne sont pas homogènes Lire le t pour le ddl du groupe x (Nx - 1) Lire le t pour le ddl du groupe y (Ny - 1) Faire la moyenne de ces 2 t. S2x F= 2 Sy Pour trouver le F théorique on a besoin de 2 ddl L1 est le ddl de l ’échantillon ayant la plus grande variance L1 = N x − 1 L2 = N y − 1 x : moyenne de l ’échantillon x Pour chaque individu on calcule la différence entre score au temps t et score au temps t+1 H0 : la moyenne des différences est proche de 0 On revient donc à la formule ; A comparaison d’une moyenne (celle des différences) avec une moyenne théorique = 0 S : Ecart type échantillon M : moyenne théorique N : effectif de l ’échantillon S2x S2 : variance de l ’échantillon x, carré de l ’écart type : variance « commune » aux 2 échantillons x et y Lecture de la table numérique pour F ou pour t : Au seuil .05 ou .01 - si valeur calculée > valeur théorique alors H0 est rejetée ; - si valeur calculée < valeur théorique alors H0 acceptée.