statistique descriptive
Transcription
statistique descriptive
STATISTIQUE DESCRIPTIVE A QUOI SERT LA STATISTIQUE? 1. Ordonner un flux important d d’informations informations 2. Réaliser une induction statistique CHIFFRES DE LA DELINQUANCE Evolution trimestrielle depuis 2001 La statistique permet de rendre lisible un flux fl important i de d données. d é Actifs sportifs en fonction du revenu Les gens qui pratiquent le plus seraient les plus aisés Lien entre prix de la licence et nombre de licenciés L’augmentation du prix de la licence est en relation avec une diminution du nombre de licenciés. La statistique permet de tirer des conclusions sur le lien existant entre plusieurs variables La statistique permet de tirer des conclusions sur des actions à entreprendre entreprendre. A la condition d’une rigueur méthodologique N Notes obtenues b par une promotion i La statistique permet de résumer un ensemble de données. 1 Les variables 1-1 Les différents niveaux de mesure 1-2 1 2 Précisions Pé ii méthodologiques éth d l i sur les l variables i bl 11-33 Groupes expérimentaux 2-1-1 Les différents niveaux de mesure • Variable nominale • Variable ordinale • Variable d'intervalle • Variable numérique (de rapport) 2-1-1 Les différents niveaux de mesure • Variable nominale -très très peu structurée -distribue distribue la population étudiée en classe d’équivalence: d équivalence: aucun classement ordonné. ordonné -classification. classification Nature des blessures en football amateur (5 à 30 ans) Données 1250 cas (SHIRPT) •Pas Pas de blessure plus grave qu’une autre. Répartition des médailles aux Jeux Olympiques Pays ALLEMAGNE AUSTRALIE BULGARIE CHINE FRANCE JAPON USA RUSSIE Nombre de médailles 48 49 12 63 37 39 103 92 •On peut diminuer le nombre de variables: - continent -pays fortement industrialisées -population l i Pertinence du choix du ggroupement p en fonction de l’objet d’étude n’est pas du ressort de la statistique Attention: un nombre peut être une variable nominale!!! Années Nb Mariages Nb Divorces 1998 271 361 116 515 1999 286 191 116 813 2000 297 922 114 005 2001 288 255 112 631 INSEE 2004 INSEE, V i bl nominale Variable i l Utilité / flux d’informations important Sociologie, grilles d’observation sur le terrain. 2-1-1 Les différents niveaux de mesure • Variable ordinale -structure d’ordre -classement -impossible i ibl de d quantifier tifi l’écart l’é t entre t 2 classes l Mesure de l’ l’extension i du d tronc tronc. Normal et bon •Ordre dans la mesure de la variable. •Impossibilité de quantifier la différence entre 2 classes Passable Nb N Normal l X passable Y médiocre z Médiocre 2-1-1 Les différents niveaux de mesure • Variable d'intervalle -intervalles séparant 2 valeurs calculables et comparables (soustraction-addition). -définition définition arbitraire: zéro-origine, zéro origine unité étalon. étalon -Impossibilité rapport entre 2 valeurs de la variable Exemple de 2 échelles d’intervalles arbitraires: La mesure de température Echelle C1 C2 C3 C4 C li Celsius 10 30 70 125 Echelle F1 F2 F3 F4 Fahrenh eit 50 86 158 257 Possible: Impossible: ((C2-C1))/(F ( 2-F1))=0,55 C2/C1=3 (C4-C3)/(F4-F3)=0,55 F2/F1=1,72 F = 1,8 C + 32 fahrenheit 0 dC 32 dF 100 dC 212 dF A = 11,8 8 B = 32 Celcius Y= a X + B l B et a sont arbitraires le bi i N Notes au concours dde ki kinésithérapie é i hé i 0 5 10 15 20 Comparaison possible notes même examen (unité points). I Impossibilité ibili é d’établir d’é bli des d relations l i de d rapport. Normalement, 2 manières d’évaluation ont relation de rapport. Malhonnête intellectuelle d’additionner 2 notes issues évaluation différente sans précaution. 2-1-1 Les différents niveaux de mesure • Variable de rapport (numérique) -zéro non arbitraire -Scores et intervalles applicables aux opérations arithmétiques -Unités arbitraires yards (0,914-m), miles (1609-m), mille (1852-m) Année lumière (9461 .10 109 km), km) parsec (30857 (30857.10 109 km). km) E Exemples: l JO 2004 disque di femme f m yards 67.02 73,3 1 Sadova Natalya RUS 2 Kelesídou Anastasía GRE 66.68 72,95 3 Yatchenko Irina BLR 66.17 72 39 72,39 4 Pospíšilová-Cechlová Vera CZE 66.08 72,26 5 Antonova Olena UKR 65.75 71,9 6 Grasu Nicoleta ROM 64.92 64 92 71,03 7 Faumuina Beatrice NZL 69 42 69,42 63.45 Y X Y=aX a reste arbitraire bi i 73,5 73 72,5 72 71,5 71 70,5 70 69 5 69,5 69 63 64 65 66 67 68 V i bl Variable Etat Qualitatif: -nominale: nature des blessures Nature des blessures en FB Fréquence d’apparition Membres > 0,52 t tronc 0 06 0,06 Tête 0,17 Tête visage 0,25 Total 1 + Population importante, + fréquence = probabilité V i bl Variable Etat Qualitatif -variable variable ordinale Fréquence pratique sportive Probabilité d’apparition quotidiennement idi 0,4 Plusieurs fois semaine 03 0,3 hebdomadaire 0,1 exceptionnellement 0,1 jamais 0,1 V i bl Variable Etat Quantitatif -discrète: discrète: « qui passe dd’une une valeur ponctuelle à une autre » Nombre de buts par match 0 1 2 3 Fréquence d’apparition d apparition 4 0,10 5 0,05 0,09 0 09 0,17 0 28 0,28 0,31 Manipulation du type continue Ex: 2,6 buts /match Variable continue Etat Quantitatif -continue: ti « entre t 2 valeurs l quelconques, l il estt possible de situer une valeur intermédiaire » La loi de probabilité pour chaque valeur de la variable est donc impossible La L probabilité b bilité désigne dé i les l chances h d’apparition d’ iti de d la l valeur dans un petit intervalle qui comprend cette valeur. 1 Sadova Natalya RUS 67.02 2 Kelesídou Anastasía GRE 66.68 3 Yatchenko Irina BLR 66.17 4 Pospíšilová-Cechlová Vera CZE 66.08 5 Antonova Olena UKR 65.75 6 Grasu Nicoleta ROM 64.92 64 92 7 Faumuina Beatrice NZL 63.45 Pi? L variables Les i bl 4 structures t t de d variables: i bl -nominale -ordinale -intervalle i ll -de rapport. pp 3 niveaux de mesure -qualitatifs -quantitatifs tit tif (discrètes (di èt ou continues) 2-1-3 Précisions méthodologiques sur les variables • variable indépendante • variable i bl dépendante dé d t • variable parasite L variable La i bl indépendante i dé d « celle que l’expérimentateur fait varier afin de déceler des effets …» 2 VI: VI:- type dd’entraînement entraînement (groupe) - temps d’entraînement (session) V i bl indépendante Variable i dé d Le choix des groupes correspond à une variable indépendante. dépe da e. Effet ff de la consommation d’alcool ppersonnelle sur l’estimation de la consommation des autres Estimation de la consommation de la population locale Grand buveur régulier +++ Grand buveur occasionnel + Buveur modéré Ok C Cameron, 2003 L variable La i bl indépendante i dé d -provoquée: é explicitement li it t pris i en compte t par l’expérimentateur. -invoquée: invoquée: modalités pré pré-établies, établies sexe sexe, age age, taille taille, niveau sociologique, traits de personnalité. L variable La i bl dépendante dé d « ce que l’expérimentateur mesure de façon différenciée en réponse aux modifications systématiques qu’il fait subir à la variable indépendante » 4 VD: - RM - Nb répétition -PMA PMA -Fc max Les variable indépendantes et dépendantes 4 structures t t de d variables: i bl -nominale -ordinale -intervalle i ll -de rapport. pp 3 niveaux de mesure -qualitatifs -quantitatifs tit tif (discrêtes (di êt ett continues) L variable La i bl parasite i « variable indésirable, susceptible d’intervenir sur la variable dépendante sans que ll’expérimentateur expérimentateur soit capable d’en mesurer les effets » Si elle est contrôlée: neutralisée Exemples: E l nutrition, t iti motivation, ti ti personnalité lité de d l’entraîneur… E Exemple l de d variables i bl parasites i Effet d’un type d’entraînement sur les performances d’un groupe d’étalons. dé l VI: entraînement (distances longues / courtes) VD: p placement courses dans l’année. Ré l Résultats fictifs fi if 4 5 6 7 8 9 10 5.2 5.1 4.9 4.8 4.7 4.5 4.2 6.8 6.9 3.1 4.9 5.2 4.9 5.1 4.9 4.8 4.7 5.4 7 4.7 courses 1 Long court 2 3 Une variable parasite pourrait avoir une influence sur la variable place lors de la course? Variable parasite -chaleur des juments Variable neutralisée g -hongre -course sans jument Li entre les Lien l variables i bl -Comparaison -Lien de causalité -Interaction COMPARAISONS Effet variation type de population sur notes NOTES BLONDES ?????????????? BRUNES ???????????????? Comparaisons de 3 modalités de la variable indépendante Alcool (0.5g/kg) Bière Pic d’alcoolémie (g/l) 0.5 Vin 0.65 Whisky coca 0.7 Jusque x modalités d li é Comparaison pour le même groupe VI: temps VD: poids Evolution pondérale chez treize hommes sains de poids normal et stable (D'après Debry G.) Comparaisons p de -3 modalités de la VI (alcool) ( l l) sur la l VD -5 modalités de la VI (temps) sur VD Alcoolémies après consommation de 0,5 g d'alcool pur/kg de poids selon le type de boisson (D'après Lereboullet J.) M Mesure ddes li liens de d causalité li é Représente le lien entre 2 variables La L manière iè dont d t évolue é l une variable i bl / l’évolution l’é l ti de l’autre Appelée mesure de la corrélation: -si si relation linéaire: corrélation linéaire Différent d’un lien de cause à effet. Le nuage de points Description relation entre 2 variables quantitatives mesurées sur les même quantités statistiques M(x,y) x: valeur de VI (explicative) Y:valeur de VD (à expliquer) R l i linéaire Relation li é i entre 2 variables i bl Une relation est dite linéaire lorsque le nuage g de points p pparaît étiré le long g d’une droite. R l i linéaire Relation li é i négative é i « Si les valeurs d’une variable tendent à augmenter t quandd les l valeurs l de d l’autre l’ t variable tendent à diminuer » Lien entre la pointure et résultats en philosophie Les 2 variables évoluent sans aucun lien par rapport à l’autre Lien entre pointures et performances au basket L’augmentation de la pointure est accompagnée plus ou moins fortement d’une augmentation des performances. Li entre pointure Lien i et tailles ill Plus jje suis ggrand,, pplus jj’ai de grands g pieds p et viceversa. Lien entre prix de la licence et nombre de licenciés L’augmentation du prix de la licence est en relation avec une diminution du nombre de licenciés. A Attention: i diffé différent dde cause à effet!! ff !! Distan nce paarcourrue 16 14 12 10 8 6 4 2 0 0 5 10 15 Vitesse donnée au ballon 20 25 L’é d du L’étude d lien li de d causalité li é Établir une relation entre 2 variables La force de la relation se calcule p par un coefficient Ne N correspond d pas à un li lien de d cause à effet. ff Mesure de ll’interaction interaction dd’une une variable sur une autre Brruit dan ns l’am mphi STAPS Médecine Heures de cours de statistiques M Mesure ddes effets ff VI : heures de cours a effet sur VD « bruit » VI : groupe étudiant a effet sur VD « bruit » Interaction: effet sur effet VI (groupe étudiant) a effet sur ll’effet effet de la VI (heures cours) sur la VD (bruit) VI (heures ce cours) a effet sur effet de VI (étudiant) sur VD (bruit) P d’ Pas d’effet ff temps nii d’i d’interaction i Brruit dan ns l’am mphi STAPS Médecine Heures de cours de statistiques Effet temps, effet groupe mais pas d’interaction Brruit dan ns l’am mphi STAPS Médecine Heures de cours de statistiques 2-2 Groupes et tâches expérimentales 2-2-1 ggroupe p expérimental p 2-2-2 groupe contrôle 2-2-3 2 2 3 groupe placebo l b 2-2-4 les méthodes L groupe expérimental Le éi l « Groupe dont les sujets accomplissent une ou plusieurs modalités précises de la (ou des) variable(s) indépendante(s) » Ex: 2 groupes expérimentaux (entraînement lourd lourdléger) L groupe contrôle Le ôl « Groupe servant de référence f dans une expérimentation, en représentant p le degré zéro de la variable indépendante mise à l’épreuve p » gro pes groupes Rééducation 1 Rééducation 2 rien a ant avant après Actes pédagogiques pour diminuer une attitude scoliotique chez 12-16 ans groupes avant après Etirements (cervical, dorsal et lombaire) Rien Musculation muscles dorsaux rien Amélioration Amélioration Tempère ou renforce les effets d’une variable L groupe placebo Le l b « je ferai plaisir » « variété de groupe contrôle dont la fonction est de déceler dd’éventuels éventuels effets dd’attente attente de type psychologique » Ex:médecine effet de croyance, aussi sur l’intervenant (P (Pygmalion) li ) Effet de la DHEA Beaulieu et al., 2000 L différentes Les diffé méthodes éh d Groupes appariés: « ggroupe oupe de même ê e effectif dont tous les membres se correspondent p respectivement terme à terme » Avant Après L différentes Les diffé méthodes éh d Groupe indépendant : « groupes non appariés, mais considérés comme équivalent dont on souhaite comparer les productions relativement l ti t aux différences diffé de d modalités d lité de d la VI » E d transversales-longitudinales Etudes l l i di l Evolution de la vitesse avec l'age 1,2 vitesse e (m.s-1) 1 0,8 06 0,6 0,4 0,2 0 filles 6ème garçons 5ème 4ème 3ème 2de 1ère terminale classes Groupe p apparié: pp étude longitudinale g Groupe indépendant: étude transversale 3- Analyse descriptive des données But: faire parler des données en y mettant de l’ordre 3-1 présentation des variables 33-22 paramètres de tendance centrale 3-3 3 3 paramètres de dispersion Le tableau de contingence pour variable nominale Modalité de la variable va ab e X1 « G compet » Fréquence absolue Fréquence relative n n1 n1/N X2 « G loisir » n2 n2/N Xi « 3eme age » ni ni/N Xn « … » nn nn/N / TOTAL N 1 E Exemple l Utilisation internet Fréquence absolue Fréquence relative danss lee No da Nordd n Hommes n1 n1/N Femmes n2 n2/N TOTAL N 1 Présentation graphique Le diagramme en bâtons Présentation graphique des variables qualitatives Le camembert : secteur circulaire L’angle de chaque modalité correspond à sa fréquence relative. Plusieurs variables peuvent apparaître sur le même graphique Tableau de contingence pour variables quantitatives Modalité de la variable va ab e X1 «17 ans » Fréquence Fréquence absolue abso ue (n) ( ) relative e a ve n1 n1/N=f1 Fréquence cumulée cu u ée f1 X2 « 18 ans » n2 n2/N=f2 f1+f2 Xi « …ans » nii ni/N=fi i/N fi f1+ +fi f1+…+fi Xn « …ans » nn nn/N=fn nn/N fn TOTAL N (total) 1 1 Présentation graphique pour variables discrètes 100 Fréq quencee 80 60 40 20 0 18 19 Age amphi 20 21 22 23 24 Hi Histogramme avec fréquence fé relative l i 0,25 02 0,2 0,15 0,1 0,05 0 18 19 20 21 40 % d de l’ l’amphi hi estt constitué tit é d’étudiants de 18 et 19 ans 22 23 24 Hi Histogramme avec fréquence fé cumulée lé 1,2 1 0,8 0,6 0,4 0,2 0 18 19 20 21 22 23 24 80 % des étudiants de ll’amphi amphi ont moins de 21 ans Présentation pour variables continues Regroupement g p en classe p Amplitude identique simplifie p lecture des résultats Modalité Fréquenc Fréquenc de la e absolue e relative variable n [entre et [ n1 n1/N=f1 [[entre et [ n2 n2/N=f2 [entre et [ ni ni/N=fi [entre et [ nn nn/N=fn TOTAL N 1 Fréquenc e cumulée f1 f1+f2 f1+…+fi 1 Histogramme Hi Centre de la classe P l Polygone statistique i i Di Diagramme cumulatif l if L paramètres Les è de d tendance d centrale l Mode Médiane Médi Moyenne y L mode Le d Le mode est la modalité observée la plus fréquente Nbre enfants Effectif 0 1 2 3 1 3 4 2 Effectif le p plus important 10 Mode = 2 Le mode est toujours calculable, quel que soit le type de la variable (nominale, ordinale ou cardinale). cardinale) L mode Le d Le mode n’est pas nécessairement unique Nbre enfants Effectif 0 1 2 3 4 1 3 4 2 2 5 6 7 4 3 1 D Deux modes d : 2 ett 5 Le mode est vite calculé à ll’aide aide des graphiques L médiane La édi Ordre croissant 1 2 … 3 n Ordre croissant 1 2 … 3 50% n 50% Médiane ? La Médiane : Les n observations étant rangées et numérotées de 1 à n de manière croissante, i trouver la l valeur l qui permet de partager la suite ordonnée en d deux parties ti d’égale d’é l Importance 1er cas de figure n est impair n impair, n = 2k+1 ( = 11) 2 5 2,8 2,5 2 8 3,2 3 2 3,3 3 3 3,5 3 5 4,5 4 5 5,6 5 6 5,9 5 9 6,4 6 4 6,8 6 8 7,7 77 k = 5 observations k = 5 observations Une observation centrale autant d’observations de p part et d’autre Médiane : observation centrale : 4,5 2ème cas de figure : n est pair n pair, n = 2k ( = 10) 2 5 2,8 2,5 2 8 3,2 3 2 3,3 3 3 3,5 3 5 4,5 4 5 5,6 5 6 5,9 5 9 6,4 6 4 6,8 68 k = 5 observations k = 5 observations Partage en deux séries égales , et 4,5 , deux observations encadrantes : 3,5 Médiane : interpolation entre 3,5 et 4,5 3,5 + 4,5 2 =4 La médiane est vite repérée à ll’aide aide du diagramme cumulatif L moyenne arithmétique La ih éi Modalité M d lité F Fréquen é Fé Fréquen de la ce ce variable ariable absolue absol e relative relati e n X1 n1 n1/N=f1 X2 n2 n2/N=f2 Xi ni ni/N=fi xn nn nn/N=fn TOTAL N 1 M = (n1 * X1 +…+ Nn* Xn) / N M= 1/N ∑ ni Xi Si on a établi des classes, classes Xi correspond au centre de classe. A Attention i à bien bi utiliser ili la l moyenne !! 1 voiture roule 2 tours de circuit de 6 kms -200km/h -300km/h Quelle est la vitesse moyenne?? Moy arith = (200+300)/2=250 km/h La vitesse est fonction de la distance et du temps!! 1er tour: t= 6/200 = 0.03h =108 s 2è tour: 2ème t t= t 6/300 = 0.02h 0 02h =72s 72 Temps pour les 2 tours: 0.05h (180s) Vi Vitesse moyenne: 12/0.05 12/0 05 = 240 km/h k /h La vitesse arithmétique donne une mauvaise réponse M Moyenne hharmonique i 1/H = ½ (1/a + 1/b) 1/H = ½ ((1/200 +1/300)) = 5/1200 H = 1200/5 = 240 km/h k /h A Autre exemple l Fédération Française de Natation. 2006 500000 2006: 2007: augmentation g de 4% 2008: augmentation de 16% Valeur moyenne y de croissance sur les années? (16+4)/2 = 10% Un pourcentage est fonction de son nombre de base. 500000*1.04 = 520000 (1997) 520000*1 16 603200 (1998) 520000*1.16=603200 Augmentation en 2 ans: 603200/500000 = 1.2064 S i 20.64% Soit 20 64% sur 2 ans Moyenne y par p an : X * X = 1.2064 X = (1.2064)1/2 = 1.09836 M Moyenne géométrique é é i g = (a.b)1/2 g = (1.04*1.16)1/2 = (1.2064)1/2 = 1.09836 P Paramètres è dde di dispersion i -Etendue: valeur + élevée moins valeur + petite -intervalle i t ll de d variation: i ti annonce du d chiifre hiif le l plus l petit et du plus grands -Variance -Ecart Ecart type L variance, La i l’écart l’é type Variance : « la moyenne des écarts à la moyenne , au carré » Ecart type: « racine carrée de la variance » Ils renseignent sur la dispersion des données autour de la moyenne V i Variance M Ecart type Parfois la moyenne ne correspond à rien!! Nom mbre inndividuus 100 80 60 40 20 0 18 19 20 A amphi Age hi 21 22 23 24 Moyenne identique, variance différente L espaces interquartiles Les i il