Support pour le cours de Statistique Descriptive
Transcription
Support pour le cours de Statistique Descriptive
POLYTECH MONTPELLIER Département Systèmes Embarqués Support pour le cours de Statistique Descriptive André MAS 1 1 Introduction aux statistiques descriptives 1.1 Les types de données On distingue essentiellement trois types de données : – Qualitatives : elles ne peuvent pas être chi¤rées (ex : couleur des yeux, classe socio-professionnelle). Une variable qualitative est décomposée en modalités. Ainsi la variable ”couleur des yeux” pourra prendre les modalités ”marron, bleu, vert, ...”. Les données sont représentées dans un tableau du type : Modalités E¤ectif Fréquence Mod_1 n1 f1 ... ... ... Mod_k nk fk Où ni est le nombre d’individus prenant la modalité i et fi = ni =n: – Quantitatives discrètes : elles ne peuvent prendre que des valeurs entières (ex : nombre d’enfants dans le foyer). Les données sont représentées dans un tableau du type : Valeur Val_1 ... Val_p E¤ectif n1 ... np Fréquence f1 ... fp Fréq. Cumulée Croissante F1 ... Fp Pi Où ni est le nombre d’individus prenant la valeur i et Fi = j=1 fj est la proportion d’individus dont les valeurs sont inférieures ou égale à la iéme valeur Val_i. – Quantitatives continues : Elles peuvent prendre des valeurs réelles quelconques. Elles peuvent être regroupées en classes ou non. Mais quand elles le sont, les données sont représentées dans un tableau du type : Classe [a1 ; a2 [ ... [ap ; ap+1 [ Centre a1 +a2 2 ... ap +ap+1 2 E¤ectif n1 ... np Fréquence f1 ... fp Fréq. Cum. Croissante F1 ... Fp L’amplitude de la classe i est sa longueur : ai+1 ai : La densité de la classe bornée i est ni = (ai+1 ai ) : Remarque : Attention à la nature des données ! Ainsi la température est généralement mesurée en degré Celsius. Les relevés fourniront des valeurs entières mais la température ne peut pas être considérée comme une variable discrète... 1.2 Représentations graphiques Dans cette section, on ne cherche pas à être exhaustif et seuls les principaux graphiques sont présentés. 1.2.1 Variables qualitatives Les représentations sont très nombreuses et dépendent de la nature des données. Dans tous les cas on représente pour chaque modalité de la variable un e¤ectif ou une fréquence. Quelques exemples : – Diagramme en secteurs (camembert). – Diagramme à bandes : on porte sur l’axe vertical les e¤ectifs. Chaque modalité est représentée par une barre dont la hauteur est proportionnelle à son e¤ectif. 2 Exemple : L’entreprise Initiales dispose de 6 produits dans son catalogue : A,B,C,D,E et F. Les résultats des ventes de ces 6 produits sont résumés dans le tableau suivant (la variable est donc ici "type de produit vendu") : Produit Unités vendues Fréquence A 480 0,12 B 1200 0,3 C 1040 0,26 D 640 0,16 E 160 0,04 F 480 0,12 Ce tableau est représenté par les deux diagrammes ci dessous. Diagramme en barre 0.30 Diagrammme en secteur 0.20 B C 0.10 A F E 0.00 D A 1.2.2 B C D E F Variables quantitatives discrètes Essentiellement deux types de graphique permettant de visualiser les e¤ectifs (ou fréquences) cumulés. – Diagramme en bâtons : on porte sur l’axe des abscisses les valeurs discrètes de la variable et les e¤ectifs ou les fréquences en ordonnées. Chaque valeur discrète de la variable est représentée par une barre verticale dont la hauteur correspond à l’e¤ectif. – Diagramme cumulatif (fonction de répartition) : on porte sur l’axe des abscisses les valeurs discrètes de la variable et les e¤ectifs cumulés croissants sur l’axe des ordonnées. On trace alors une courbe en escalier qui sera ouverte à gauche et fermée à droite en chaque point de discontinuité. Celle-ci donne pour chaque x la proportion des individus dont la valeur est inférieure à x: Exemple : L’étude suivante porte sur le nombre d’enfants dans un échantillon de 100 familles. Nombre d’enfants Nombre de familles 0 13 1 26 3 2 27 3 17 4 8 5 4 6 3 7 1 8 1 Fonction de répartition 0.6 0.4 0.0 0 0 1 2 3 4 5 6 7 8 0 nombre d'enfants 1.2.3 0.2 Fréquence cumulée 15 10 5 Fréquence 20 0.8 25 1.0 Diagrame en barre 2 4 6 8 nombre d'enfants Variables quantitatives continues On suppose dans un premier temps qu’elles sont regroupées en classes dont les amplitudes ne sont pas nécessairement constantes. Là aussi deux graphiques essentiels : – Histogramme : C’est un diagramme composé de rectangles contigus (chaque rectangle est associé à une classe) dont l’aire est proportionnelle à l’e¤ectif de la classe. Ainsi la hauteur des rectangles est donnée par la densité de fréquence dans le cas de classes d’amplitudes di¤érentes. Si les classes ont toutes la même amplitude, densité de fréquence et fréquence sont proportionnelles. On peut alors placer n’importe laquelle de ces deux grandeurs en ordonnées. – Courbe (ou polygone) des fréquences cumulées croissantes : C’est une ligne brisée croissante ; elle est donc a¢ ne par morceaux. On la trace en joignant les points (xi ; yi ) où xi est la borne supérieure de la ième classe et yi est la fréquence cumulée croissante associée à la ième classe. Quand il n’y a pas de regroupement en classes, l’histogramme ne peut pas être dé…ni comme au-dessus. Par contre la courbe des fréquences cumulées croissantes ou fonction de répartition peut être tracée de façon analogue au cas discret. C’est aussi une fonction en escalier dont les ”sauts”ont tous une amplitude de 1=n (ce qui n’est pas le cas si la variable est discrète). Exemple : L’analyse du taux de nitrate d’un échantillon de 150 bouteilles d’eau minérale a donné les résultats suivants : Classe E¤ectif E¤ectif cumulé croissant [2; 5 2; 8[ 11 11 [2; 8 3; 1[ 24 35 [3; 1 3; 4[ 40 75 [3; 4 3; 7[ 42 117 [3; 7 4; 0[ 20 137 [4; 0 4; 3[ 13 150 4 Ici les classes sont d’amplitudes égales. Voici l’histogramme et la courbe de fréquences cumulées croissantes. Courbes des fréquences cumulées 0.8 0.2 0.4 Fréquences cumulées 0.6 0.20 0.15 0.10 0.0 0.05 0.00 Fréquences cumulées 0.25 1.0 Histogramme des fréquences [ 2,5-2,8[ [ 3,1-3,4[ [ 3,4-3,7[ [ 3,7-4,0[ [ 4,0-4,3[ 2.5 [ 4,3-4,7[ Taux de nitrate 1.2.4 3.0 3.5 4.0 4.5 Taux de nitrate Autres types de graphiques : – Diagramme tige-feuilles : c’est une variante simpli…ée de l’histogramme. Il est très peu utilisé et ne sera donc pas représenté ici. – Boîte à moustaches : elle permet de représenter les trois quartiles, la moyenne, voire l’écart interdécile, le minimum et le maximum. Par exemple sur le diagramme suivant on a représenté les distributions des longueurs des dents de 3 lots de cochons d’Inde auxquels ont été administrés pendant leur croisssance des doses journalières di¤érentes de vitamine C. Les deux extrémités de la "boîte" représentent l’écart interquartile. La barre qui sépare la boîte en deux représente la médiane, le max et le min apparaissent de part et d’autre de la boîte. 1.3 1.3.1 Variables quantitatives Paramètres de position Ce sont des valeurs numériques qui vont ”résumer”l’échantillon en caractérisant son ordre de grandeur. On ne les calcule que dans le cas des variables quantitatives. Ils permettent de pointer un ”centre” de l’échantillon. Tous ces paramètres de position n’ont pas les mêmes propriétés. Il faut savoir les choisir. Dans toute la suite : x1 ; :::; xn désigne notre échantillon composé de n:observations. On sera amené à distinguer plusieurs cas selon que l’on a e¤ectué un regroupement en classes ou non. Dans le cas d’un regroupement en classes, nous noterons ei le Ppp le nombre de classes, ni l’e¤ectif associé à la classe i et x centre de la classe (bien entendu, n = k=1 nk ). Moyenne (arithmétique) : Elle vaut dans le cas d’un échantillon discret ou continu sans regroupement en classes : n x= 1X xk n k=1 1=n Il existe d’autres ”moyennes” : géométrique, G = (x1 ::: xn ) 5 ;harmonique, H = Pn n 1 i=1 xi : 20 15 10 5 0 Longeur des dents 25 30 35 Boxplot ou diagramme en boîte 0.5 1 2 Quantité de vitamine C (en mg) Quand la variable est continue avec des regroupements en classes : p 1X x= nk x ek n k=1 Remarque : On peut montrer que x est la solution du programme suivant : min a n X (xi 2 a) : i=1 Quantiles : La dé…nition suivante est la plus rigoureuse. Elle peut paraître un peu abstraite mais un petit schéma l’éclairera. Dé…nition : On appelle quantile d’ordre ( est un pourcentage) et on note q = inf ftjFn (t) g où Fn est la courbe des fréquences cumulées croissantes (ou fonction de répartition empirique) associée à l’échantillon x1 ; :::; xn . La médiane (M e) est le quantile d’ordre 50%. Elle partage la série x1 ; :::; xn en deux séries de même taille : 50 % des observations sont supérieures à la médiane, 50 % sont inférieures. La médiane dispose, par rapport à la moyenne, d’un avantage qui compense un calcul délicat : elle est très peu sensible aux valeurs extrêmes (très grandes ou très petites parfois issues d’une erreur dans la collecte des données). Pour s’en convaincre il su¢ t de calculer et de comparer la moyenne et la médiane sur un échantillon du type : 1; 1; 3; 2; 200:000; 5; 2: Ainsi x ' 28573; M e = 2. Les trois quartiles q25; q50 et q75 partagent la série initiale en quatre séries de même taille. Pour un découpage de 10% en 10%, on parle de déciles. Calcul pratique des quantiles : Il se fait en ordonnant la série x1 ; :::; xn mais dépend de la nature de cette dernière et peut nécessiter le calcul des fréquences cumulées croissantes. 1 er cas : variable discrète : On suppose que l’échantillon a été ordonné : x1 ::: xn : Même si certains xi sont égaux, on les écrit tous. On calcule = n=100: Si est entier, q = x : Si n’est pas entier, q = x[ ]+1 où [ ] est la partie entière de : 2 eme cas : variable continue avec regroupement en classes : On détermine d’abord la classe dans laquelle va se trouver le quantile, c’est celle dans laquelle les fréquences cumulées croissantes atteignent %: 6 Le quantile est ensuite obtenu par interpolation linéaire. En notant [a; b[ la classe qui contient le quantile et F (x) la fréquence cumulée croissante en x, on obtient : q b a F (a) = a F (b) F (a) Dans ce cas, les quantiles peuvent aussi être directement lus sur la courbe des fréquences cumulées croissantes. 3 eme cas : variable continue sans regroupement en classes : Le calcul se fait de manière similaire au cas d’une variable discrète. Les quantiles peuvent également être obtenus graphiquement sur les diagramme ou graphe des fréquences cumulées. La médiane, par exemple, est l’image réciproque de 1=2. Remarque : On peut montrer que M e est la solution du programme suivant : min a n X jxi i=1 aj : Mode Il se calcule dans deux cas : 1. Variable discrète : Il correspond à la valeur de la variable pour laquelle l’e¤ectif est maximum (autrement dit, lu en abscisse du diagramme en bâtons, le mode correspond à la barre la plus haute). 2. Variable continue avec regroupement en classes : le mode est en fait une classe modale, un intervalle ; celui qui correpond à l’e¤ectif le plus élevé. 1.3.2 Paramètres de dispersion Les paramètres de dispersion sont des grandeurs qui mesurent l’étalement des valeurs observées autour d’une valeur centrale (moyenne, médiane). Variance et écart-type La variance est une grandeur positive ! 1. Si la variable est discrète ou continue sans regroupement en classes, la variance est ! n n 1X 2 1X 2 (xk x) = xk x2 : Vx = n n k=1 k=1 2. Si la variable est discrète ou continue avec regroupement en classes, la variance est : ! p n 1X 1X 2 nk (e xk x) = Vx = nk x ek 2 x2 : n n k=1 k=1 Dans tous les cas, l’écart-type est : x = p Vx : Ecarts absolus moyens L’écart absolu moyen (eam) par rapport à la moyenne est n Ex = 1X nk jxk n k=1 7 xj : L’écart absolu moyen (eam) par rapport à la médiane est n EM e 1X = nk jxk n M ej k=1 On peut montrer les inégalités suivantes : 0 EM e Ex : Ecarts interquantiles h L’intervalle interquantile d’ordre % est dé…ni par I = q 100 2 100 2 ; q 100+ 100 2 2 i : Il contient donc % des observations en laissant % des plus petites et % des plus grandes. L’écart interquartile (d’ordre 50), [q25 ; q75 ] contient 50% des valeurs centrales. L’écart interdécile [q10 ; q90 ] contient 80% des valeurs centrales. En…n l’étendue se dé…nit par L = xmax xmin : C’est la di¤érence entre la plus grande et la plus petite valeur observée. 1.3.3 Paramètres de forme Les paramètres de forme apportent des informations sur l’aplatissement et la symétrie de la distribution. On note p le moment centré d’ordre p : n p = 1X nk (xk n p x) : k=1 Coe¢ cient d’asymétrie (ou skewness) C’est = 3 3 Si < 0; la distribution est étalée sur la gauche. Si > 0; la distribution est étalée sur la droite. Si = 0; la distribution est symétrique. Coe¢ cient d’aplatissement (ou kurtosis) Il vaut = Si Si Si 1.4 = 3 3: 2 4 : 4 ' 3; l’aplatissement est proche de celui de la loi normale. < 3; la distribution est plus aplatie que celle de la loi normale. > 3; la distribution est moins aplatie que celle de la loi normale. Petit glossaire Box and whiskers plot : boîte à moustaches, Cumulative density function (cdf ) : courbe des fréquences cumulées croissantes, Kurtosis : coe¢ cient d’aplatissement, Mean : moyenne, Range : étendue, Sample : échantillon, Sample size : taille de l’échantillon, Skewness : coe¢ cient d’asymétrie, Standard deviation : écart-type, Stem and leaf plot : diagramme tige et feuilles 8 2 Intermède : l’incertitude sur une moyenne Lors d’une série d’expériences on mesure la dureté HRC (par exemple) d’un matériau donné. Bien entendu l’enfoncement, mesuré avec une très grande précision n’est jamais exactement le même sur chacune des expériences parce que le réglage du pénétateur n’est jamais constant, que le matériau n’est jamais complètement homogène et que l’appareil de mesure lui-même n’est pas exempt de défauts. Au …nal on récupère n valeurs HRC1 ; :::; HRCn correpondant aux n essais. La question que l’on peut se poser est celle du contrôle de la dureté moyenne, notée d. Cette dureté est une grandeur THEORIQUE, soit donnée (si le matériau est connu), soit inconnue si le matériau est nouveau. La valeur : 1 dn = (HRC1 + ::: + HRCn ) n est proche de d mais le caractère aéatoire de l’expérience fait que malgré tout dn 6= d: On peut se poser alors la question suivante : D’après les n valeurs de l’échantillon dois-je considérer que la dureté de mon matériau est SIGNIFICATIVEMENT di¤érente d’une valeur d0 …xée (et donc connue) ? Dans la question précédente il est possible de remplacer le mot ’di¤érent’par ’plus grande’ou ’plus petite’. En d’autres termes je cherche à savoir comment prendre en compte le hasard pour répondre à la question précédente et tenter de gommer la variabilité des mesures. La solution est bien entendu basée sur l’examen de dn d0 = sn . Si sn est ’petit’on répondra non à la question précédente, sinon on pourra licitement répondre oui puisqu’il faut trancher et qu’on nous demande de prendre une décision. C’est ici que les mathématiques viennent à la rescousse. Un résultat de statistique théorique nous propose de considérer la grandeur suivante tn = p n dn d0 n où n est la variance de l’échantillon (HRCi )1 i n : On a alors : Proposition 1 Si tn < 2; la dureté HRC théorique d n’est pas signi…cativement di¤ érente de la valeur de référence d0 . Inversement si tn 2; on considèera qu’il y a une di¤ érence sign…cative (positive ou négative) entre d et d0 . Remarque importante : Le nombre tn est sans dimension et peut être utilisé de façon universelle pour tous les problèmes de sign…cativité d’une moyenne. Il ne dépend pas du problème considéré ni des unités (ici la dureté). Ce nombre tn est appelé t de Student ou test de Student, ... 9 3 L’analyse de la variance L’analyse de la variance est un méthode statistique permettant d’étudier l’e¤et d’une ou de plusieurs variable qualitatives sur une variable quantitative. 3.1 Un exemple pour commencer On souhaite étudier le taux de cholestérol, dans une population donnée, selon la catégorie socioprofessionnelle (CSP). Les données sont regroupées dans un tableau du type : Agriculteurs a1 a2 ... ... an1 Ouvriers o1 o2 ... on2 a o Employés e1 ... ... ... ... en3 e Cadres c1 ... cn4 c où a1 est le taux de cholestérol du premier agriculteur de notre échantillon, n2 est le nombre d’ou1 vriers dans cet échantillon et e = (e1 + ::: + en3 ) est la moyenne du taux de cholestérol dans la n3 sous-population des employés. Le modèle d’analyse de la variance va nous permettre de répondre à des questions du type "y a-t-il un e¤et de la CSP sur le taux de cholestérol ?" Ou bien "les taux de cholestérol dans les sous-populations des ouvriers et des employés sont-ils signi…catiovement di¤érents ?" Dans cet exemple la variable quantitative est le taux de cholestérol et la variable qualititive est la CSP. Cette variable, également appelée "facteur de variabilité" dispose de quatre modalités (ou niveaux : A, O, E et C). 3.2 3.2.1 Analyse de variance à un facteur Les données et le modèle On étudie un facteur A qui se décompose en k niveaux : A1 ; :::; Ak . On dispose de k échantillons de tailles respectives n1 ; n2 ; :::; nk correspondant chacun à un niveau du Pk facteur. On pose n = i=1 ni et on dresse le tableau suivant : Facteurs Moyennes A1 x11 x21 ... ... xn1 1 x1 A2 x12 x22 ... ... xn2 2 x2 ... ... ... ... ... ... ... Ai x1i x2i ... ... xni i xi ... ... ... ... ... ... ... Ak x1k x2k ... ... xni k xk Attention, dans le tableau précédent les ni sont tous di¤érents et les colonnes n’ont donc pas toutes la même hauteur a priori ! Ici xji est la valeur prise par la variable numérique pour le j ieme individu du groupe i et xi = ni 1 X xj ni j=1 i On pose le modèle suivant : xji = mi + "ji 10 (1) où "ji suit une loi normale centrée et de variance 2 ("ji N 0; 2 ). Le terme mi est la moyenne théorique (donc inconnue) asssociée au niveau. Ai : Elle est di¤érente de la moyenne empirique xi calculée sur l’échantillon. Dans l’exemple introdutif m4 serait la moyenne du taux de cholestérol calculée sur tous les cadres ... en France. Le terme "ji représente la variation due à l’individu j autour de la moyenne mi : C’est un terme purement aléatoire qui suit une loi normale centrée. Remarque 2 Le modèle 1 appelle un premier commentaire. Il postule que la loi de xji est gaussienne N mi ; 2 , donc que le facteur n’in‡uencera que les moyennes et pas les variances ( 2 ne dépend pas de i). Cette hypothèse, tout comme celle de normalité des observations est assez lourde. il faut également noter que le modèle s’écrit aussi sous la forme xji = + ai + "ji Pp où correspond à l’e¤ et moyen du facteur et où ai est l’e¤ et associé au niveau Ai . La condition i=1 ai = 0 permet de s’assurer que les p e¤ ets se compensent. Dans l’exemple précédent un ai négat… serait associé à une CSP pour laquelle le taux de cholestérol serait plus faible que le taux moyen. 3.2.2 Le test Présentation Nous allons nous intéresser à l’une des questions évoquée à propos de l’exemple introductif : "Y a-t-il un e¤et du facteur A sur la variable numérique x ?". Si tel est le cas, on doit s’attendre à ce que l’une des mi soit di¤érent des autres. La question peut donc se poser en terme de test statistique sous la forme suivante : 8 < H0 : m1 = m2 = ::: = mk contre (2) : H1 : Il existe i et j tels que mi 6= mj Accepter H1 revient à décider qu’il n’y a pas, au vu des observations, d’e¤et de A sur la variable x. Notre décision va se baser sur l’examen des moyennes empiriques xi : Notons k n i 1 XX xj n i=1 j=1 i x= L’idée du test est la suivante : si les moyennes m1 ; ::; mk sont égales, les x1 ; x2 ; :::; xk seront assez proches. Si tel n’est pas le cas les xi seront dispersées. Le test va nous permettre de décider ce que l’on doit entendre par "dispersion des moyennes". La formule de décomposition de la variance C’est une formule importante en statistique. Notons S 2 la variance totale : k S2 = n i 1 XX xj n i=1 j=1 i 2 x : Introduisons également les deux termes suivants k 2 SB = 1X ni (xi n i=1 k 2 SW = 2 x) n i 1 XX xj n i=1 j=1 i 11 2 xi Théorème 3 On a toujours 2 2 S 2 = SB + SW La preuve de ce théroème est très simple dès lors que l’on n’est pas rebuté par les sommes à double indice. Il su¢ t de développer le carré xji 2 x 2 = xji xi + xi = xji xi x 2 + (xi 2 x) + 2 xji xi (xi x) La variance totale se décompose donc en deux termes : 2 – SB est la variance inter-colonnes ("between" en anglais). Plus les xi seront dispersés autour de x; 2 plus la variabilité sera grande d’une colonne à l’autre. inversement, un "petit" SB coorespondra à des valeurs des xi bien conentrées autour de la moyenne générale. 2 – SW est la variance intra-colonnes ("within" en anglais). Ce terme est la somme sur toute les colonnes (de i = 1 à k) des carrés des écarts entre les observations et la moyenne qui leur est associée. Il exprime la variabilité au sein des colonnes, quand les niveaux sont …xés. Des résultats de probabilité nous assurent que si les xi suivent des lois normales N 0; 2 , n n n S2 2 n 1; 2 2 SB 2 k 1; 2 2 SW 2 n k: 2 Le F de Fisher et sa distribution Revenons à notre problème de test (2). Nous allons proposer de baser notre décision sur la statistique de test suivante 2 n k SB F = 2 k 1 SW Si l’on fait abstraction du terme n k k en première lecture, le rapport F est construit sur le principe 1 suivant : 2 2 – Si F est "grand" cela signi…e que SB est sensiblement supérieur à SW ; autrement dit que la variabilité entre les colonnes est supérieure à la variabilité au sein des colonnes, qu’il y a davantage d’hétérogénéité entre les colonnes qu’au sein des colonnes. Ou encore que les moyennes mi sont bien di¤érenciées. 2 2 – Inversement si F est petit SW est sensiblement supérieur à SB et la variabilité au sein des colonnes est plus grande qu’entre les colonnes. Les moyennes mi ne sont alors pas (ou peu) di¤érenciables. Il reste à de…nir ce que l’on entend par un "grand" ou un "petit" F: là encore la théorie des probabilités va nous aider. En e¤et, elle nous apprend que si tout les moyennes mi sont égales, F suit la loi de Fisher (ou Fisher-Snedecor) à k 1 et n k degrés de liberté. Dans ce cas (k 1;n k) P F > f1 (k 1;n k) = (3) où f1 est le quantile d’ordre 1 associée à la loi de Fisher à k 1 et n k degrés de liberté. L’égalité (3) se traduit littéralement par :"Si tout les moyennes mi sont égales, la statistique F n’a (k 1;n k) qu’une probabilité de % de dépasser la valeur f1 " (cette valeur sera lue dans une table ou calculée automatiquement par un ordinateur). La probabilité de se tromper en rejetant H0 alors qu’elle (k 1;n k) est vraie se confond avec la probabilité que F soit supérieure à f1 alors que les moyennes sont 12 égales. D’après 3 cette probabilité vaut et est donc faible si est peu élevé ( = 0; 05 ou 0; 01 par exemple). (k 1;n k) (k 1;n k) Cette valeur f1 détermine le seuil dans notre problème de test. Si F est inférieure à f1 on acceptera l’hypothèse nulle H0 d’égalité des moyennes (donc d’absence d’e¤et du facteur A sur la (k 1;n k) variable x). Et si F est supérieure à f1 on rejettera H0 . Le tableau d’analyse de la variance Il est calculé par la plupart des logiciels et résume les informations qui ont été mentionnées au dessus. Il prend souvent la forme suivante : 3.2.3 Source de variation d.d.l. Somme des carrés Facteur A k 1 2 SB Résiduelle n k 2 SW Totale n 1 S2 variance 2 SB k 1 2 SB n k S2 n 1 F F = n k 2 k SB 2 1 SW (k 1;n k) f1 Exemple Ue étude agronomique porte sur le rendement de di¤érentes variétés de maïs (M 1; M 2; M 3 et M 4) récoltées sur n = 24 parcelles. Les résultats sont collectés dans le tableau suivant : Variété M1 60 64 63 61 M2 62 66 67 70 66 65 M3 67 70 69 72 74 68 ni 4 6 6 M4 63 57 57 59 58 62 60 56 8 Nous sommes bien enprésnece d’une analyse de variance à un facteur : la variété de maïs. Le graphique ci-dessous est un "box and whiskers plot" ou graphique "boîte à moustaches". Il permet de visualiser pour chaque groupe l’étendue des valeurs observées des rendements. 13 65 60 Rendements 70 Boxplot des rendements M1 M2 M3 M4 Les quatre groupes Voici le résultat obtenu grâce au logiciel R Source de variance Rendement Résiduelle Totale d.d.l Somme des carrés Carrés moyens 3 20 23 456 122 578 152 6; 1 25; 13 F p-value 24; 2 5; 8 10 7 Il y a bien un e¤et des groupes sur le rendements. La ’p-value’nous assure que s’il n’y avait pas d’e¤et la valeur du F n’aurait qu’une probabilité de 5; 8 10 7 d’atteindre ou de dépasser la valeur 24; 2. 3.3 Analyse de variance à deux facteurs Dans l’exemple introductif, on peut souhaiter étudier, en plus de la CSP, l’e¤et du sexe sur le taux de cholestérol. On introduit dans ce cas un second facteur B qui se décompose en deux niveaux. On dispose d’un nouveau tableau qui peut s’écrire : Agriculteurs f h Ouvriers f h Employés f h f Cadres h x1;1 1 x1;1 2 ... x1;1 n1 ;1 x1;2 1 x1;2 2 ... ... ... 1;2 xn1 ;2 x2;1 1 x2;1 2 ... x2;1 n2 x2;2 1 x2;2 2 ... ... x2;2 n2 x11 ... ... ... ... 1 xn3 ;1 x21 ... ... x2n3 ;2 x11 ... x1n4 ;1 x21 ... ... ... x2n4 ;2 x1 x2 x1 x2 x1 x2 x1 x2 x x x x Ce tableau est un peu plus dur à lire puisque désormais les observations sont a¤ublées de trois indices. Ainsi dans xj;k i ; l’indice j 2 f1; :::; 4g nous donne le niveau du facteur A : j = 1 correspond aux agriculteurs ; l’indice k 2 f1; 2g nous donne les niveau du facteur B ici le sexe. En…n l’indice i est associé à la répétition des mesures. 14 Le modèle est alors : xi;j k = où est appelé e¤et moyen, niveau j du facteur B et où terme "ijk représente le bruit. On pose : i ij + + i + j + "ijk ij est l’e¤et principal du niveau i du facteur A, j est l’e¤et principal du ets l’e¤et d’interaction entre le niveau i de A et le niveau j de B. Le x::: = p q r 1 X X X i;j xk pqr i=1 j=1 k=1 xij: = xi:: r 1X r xi;j k k=1 q r 1 X X i;j = xk qr j=1 x::j: = 1 pr k=1 p r XX xi;j k i=1 k=1 On a le tableau : E¤et théorique i j ij E¤et x::: xi:: x::j: xij: estimé x::: x::: x::j: xi:: + x::: On introduit maintenant des termes de variance (ou sommes de carrés similaires à ceux de l’ANOVA à un facteur). La variance "expliquée" par le facteur A est : 2 SA p 1 X ni (xi:: = pqr i=1 2 x::: ) or ici ni = qr (nous traitons le cas "équilibré") donc …nalement : p 2 = SA 1X qr (xi:: n i=1 p 1X (xi:: p i=1 2 x::: ) 2 x::: ) Puis q 2 SB 1X = pr (x:j: n j=1 p 2 SAB = = p q 1 XX (xij: pq i=1 j=1 p 2 SR = q 1 XX r (xij: n i=1 j=1 q q 1X x::: ) = (x:j: q j=1 2 2 x::: ) 2 x::j: xi:: + x::: ) x::j: xi:: + x::: ) r 1 X X X i;j xk n i=1 j=1 k=1 15 2 2 xij: L’équation de décomposition de la variance s’écrit désormais p q r 1 X X X i;j S = xk n i=1 j=1 2 2 x::: k=1 2 2 2 2 = SA + SB + SAB + SR On peut alors dresser le tableau d’analyse de la variance. Source de variation d.d.l. Somme des carrés Facteur A p 1 2 nSA Facteur B q 1 2 nSB Interaction AB (p Résiduelle pq (r Totale pqr 1) (q 1) 1 1) carré moyens 2 nSA p 1 2 nSB q 1 2 nSAB (p 1)(q 1) 2 SR 2 nSAB 2 nSR F FA = FB = 2 nSA p 1 2 nSB q 1 FAB = pq(r 1) 2 SR pq(r 1) 2 SR 2 nSAB pq(r 1) 2 (p 1)(q 1) SR pq (r 1) S2 n 1 S2 3/ Le cas du plan sans répétition. C’est à dire si l’un des nij vaut 1: Dans ce cas on ne peut pas estimer un modèle avec interaction. Pour simpli…er supposons que r = 1: On est obligé de réduire le modèle et de considérer xi;j k = + i + j + "ijk L’équation d’analyse de la variance est modi…ée (on supprime un terme). Il en va de même du tableau d’analyse de la variance. 16 4 La régression linéaire 4.1 Régression linéaire simple Le modèle : y = b0 + b1 x + "; On observe un échantillon (yi ; xi )1 Les estimateurs : On note : " i n. n Sxy = n 1X (xi n i=1 x) (yi n Sxx = 2 N 0; y) = n 1X (xi n i=1 2 x) = 1X xi yi n i=1 1X 2 x n i=1 i x y 2 (x) Les estimateurs des coe¢ cients de la droite de régression sont : bb1 = Sxy ; Sxx bb0 = y bbx; On obtient un estimateur de la variance du bruit 2 en introduisant les résidus estimés "bi = ybi ybi = bb0 + bb1 xi : n 1 X 2 b2 = (b yi yi ) n 2 i=1 Pn Pn Pn 2 2 2 On pose T SS = i=1 (yi y) RSS = i=1 (b yi y) ESS = i=1 (b yi y i ) : Décomposition de la variance : T SS = RSS + ESS et R2 = RSS=T SS. Variabilité des estimations : Pn 2 On pose s2x = n 1 1 i=1 (xi x) : Si (b0 ; b1 ) = (b0 ; b1 ), valeur prescrite : s b 1 x2 bb1 b p + tn 2; ; bb0 b0 b tn 2; 1 n (n 1) s2x sx n 1 chaque fois avec une probabilité 4.2 1 . Régression linéaire multiple Le modèle : y = b0 + b1 x1 + ::: + bp xp + "; On observe un échantillon (yi ; xi1 ; xi2 ; :::; xip )1 Sous forme matricielle Y = X + avec 2 3 2 y1 1 x11 x12 6 y2 7 6 1 x21 x22 7 6 Y =6 4 ::: 5 ; X = 4 ::: ::: ::: yn 1 xn1 xn2 Les estimateurs : b = Xt X 1 n 1 b2 = 1 p " i n. 3 ::: x1p ::: x2p 7 7; ::: ::: 5 ::: xnp Xt Y = arg min kY n X (b yi i=1 17 2 yi ) 2 N 0; 2 1 3 = 4 ::: 5 ; p 2 X kRn 2 3 "1 6 "2 7 7 =6 4 ::: 5 "n yi où Variabilité : cov b bbj = bj bj 2 tn Xt X 1 j = f1; :::; pg p 1; avec bj2 le jième terme diagonal de la matrice b2 [Xt X] 1 . Tableau d’analyse de la régression : Source de variation d.d.l Somme des carrés Variance F Régression p RSS M SR = RSS=p M SR=M SE Erreur n p 1 ESS M SE = ESS= (n p 1) Total n 1 TSS La valeur du F permet de décider si la régression est justi…ée ou non (test de H0 : b0 = b1 = ::: = bp = 0) ou encore de savoir si X a un e¤et sur Y. R2adj = 1 M SE T SS=(n 1) 18