Support pour le cours de Statistique Descriptive

Transcription

Support pour le cours de Statistique Descriptive
POLYTECH MONTPELLIER
Département Systèmes Embarqués
Support pour le cours de Statistique Descriptive
André MAS
1
1
Introduction aux statistiques descriptives
1.1
Les types de données
On distingue essentiellement trois types de données :
– Qualitatives : elles ne peuvent pas être chi¤rées (ex : couleur des yeux, classe socio-professionnelle).
Une variable qualitative est décomposée en modalités. Ainsi la variable ”couleur des yeux” pourra
prendre les modalités ”marron, bleu, vert, ...”. Les données sont représentées dans un tableau du
type :
Modalités E¤ectif Fréquence
Mod_1
n1
f1
...
...
...
Mod_k
nk
fk
Où ni est le nombre d’individus prenant la modalité i et fi = ni =n:
– Quantitatives discrètes : elles ne peuvent prendre que des valeurs entières (ex : nombre d’enfants
dans le foyer). Les données sont représentées dans un tableau du type :
Valeur
Val_1
...
Val_p
E¤ectif
n1
...
np
Fréquence
f1
...
fp
Fréq. Cumulée Croissante
F1
...
Fp
Pi
Où ni est le nombre d’individus prenant la valeur i et Fi = j=1 fj est la proportion d’individus
dont les valeurs sont inférieures ou égale à la iéme valeur Val_i.
– Quantitatives continues : Elles peuvent prendre des valeurs réelles quelconques. Elles peuvent être
regroupées en classes ou non. Mais quand elles le sont, les données sont représentées dans un tableau
du type :
Classe
[a1 ; a2 [
...
[ap ; ap+1 [
Centre
a1 +a2
2
...
ap +ap+1
2
E¤ectif
n1
...
np
Fréquence
f1
...
fp
Fréq. Cum. Croissante
F1
...
Fp
L’amplitude de la classe i est sa longueur : ai+1 ai : La densité de la classe bornée i est ni = (ai+1 ai ) :
Remarque : Attention à la nature des données ! Ainsi la température est généralement mesurée
en degré Celsius. Les relevés fourniront des valeurs entières mais la température ne peut pas être
considérée comme une variable discrète...
1.2
Représentations graphiques
Dans cette section, on ne cherche pas à être exhaustif et seuls les principaux graphiques sont présentés.
1.2.1
Variables qualitatives
Les représentations sont très nombreuses et dépendent de la nature des données. Dans tous les cas on
représente pour chaque modalité de la variable un e¤ectif ou une fréquence. Quelques exemples :
– Diagramme en secteurs (camembert).
– Diagramme à bandes : on porte sur l’axe vertical les e¤ectifs. Chaque modalité est représentée par
une barre dont la hauteur est proportionnelle à son e¤ectif.
2
Exemple : L’entreprise Initiales dispose de 6 produits dans son catalogue : A,B,C,D,E et F. Les
résultats des ventes de ces 6 produits sont résumés dans le tableau suivant (la variable est donc ici "type
de produit vendu") :
Produit Unités vendues Fréquence
A
480
0,12
B
1200
0,3
C
1040
0,26
D
640
0,16
E
160
0,04
F
480
0,12
Ce tableau est représenté par les deux diagrammes ci dessous.
Diagramme en barre
0.30
Diagrammme en secteur
0.20
B
C
0.10
A
F
E
0.00
D
A
1.2.2
B
C
D
E
F
Variables quantitatives discrètes
Essentiellement deux types de graphique permettant de visualiser les e¤ectifs (ou fréquences) cumulés.
– Diagramme en bâtons : on porte sur l’axe des abscisses les valeurs discrètes de la variable et les
e¤ectifs ou les fréquences en ordonnées. Chaque valeur discrète de la variable est représentée par
une barre verticale dont la hauteur correspond à l’e¤ectif.
– Diagramme cumulatif (fonction de répartition) : on porte sur l’axe des abscisses les valeurs discrètes
de la variable et les e¤ectifs cumulés croissants sur l’axe des ordonnées. On trace alors une courbe
en escalier qui sera ouverte à gauche et fermée à droite en chaque point de discontinuité. Celle-ci
donne pour chaque x la proportion des individus dont la valeur est inférieure à x:
Exemple : L’étude suivante porte sur le nombre d’enfants dans un échantillon de 100 familles.
Nombre d’enfants
Nombre de familles
0
13
1
26
3
2
27
3
17
4
8
5
4
6
3
7
1
8
1
Fonction de répartition
0.6
0.4
0.0
0
0
1
2
3
4
5
6
7
8
0
nombre d'enfants
1.2.3
0.2
Fréquence cumulée
15
10
5
Fréquence
20
0.8
25
1.0
Diagrame en barre
2
4
6
8
nombre d'enfants
Variables quantitatives continues
On suppose dans un premier temps qu’elles sont regroupées en classes dont les amplitudes ne sont
pas nécessairement constantes. Là aussi deux graphiques essentiels :
– Histogramme : C’est un diagramme composé de rectangles contigus (chaque rectangle est associé
à une classe) dont l’aire est proportionnelle à l’e¤ectif de la classe. Ainsi la hauteur des
rectangles est donnée par la densité de fréquence dans le cas de classes d’amplitudes
di¤érentes. Si les classes ont toutes la même amplitude, densité de fréquence et fréquence sont
proportionnelles. On peut alors placer n’importe laquelle de ces deux grandeurs en ordonnées.
– Courbe (ou polygone) des fréquences cumulées croissantes : C’est une ligne brisée croissante ; elle
est donc a¢ ne par morceaux. On la trace en joignant les points (xi ; yi ) où xi est la borne supérieure
de la ième classe et yi est la fréquence cumulée croissante associée à la ième classe.
Quand il n’y a pas de regroupement en classes, l’histogramme ne peut pas être dé…ni comme au-dessus.
Par contre la courbe des fréquences cumulées croissantes ou fonction de répartition peut être tracée de
façon analogue au cas discret. C’est aussi une fonction en escalier dont les ”sauts”ont tous une amplitude
de 1=n (ce qui n’est pas le cas si la variable est discrète).
Exemple : L’analyse du taux de nitrate d’un échantillon de 150 bouteilles d’eau minérale a donné les
résultats suivants :
Classe
E¤ectif E¤ectif cumulé croissant
[2; 5 2; 8[ 11
11
[2; 8 3; 1[ 24
35
[3; 1 3; 4[ 40
75
[3; 4 3; 7[ 42
117
[3; 7 4; 0[ 20
137
[4; 0 4; 3[ 13
150
4
Ici les classes sont d’amplitudes égales. Voici l’histogramme et la courbe de fréquences cumulées
croissantes.
Courbes des fréquences cumulées
0.8
0.2
0.4
Fréquences
cumulées
0.6
0.20
0.15
0.10
0.0
0.05
0.00
Fréquences cumulées
0.25
1.0
Histogramme des fréquences
[ 2,5-2,8[
[ 3,1-3,4[
[ 3,4-3,7[
[ 3,7-4,0[
[ 4,0-4,3[
2.5
[ 4,3-4,7[
Taux de nitrate
1.2.4
3.0
3.5
4.0
4.5
Taux de nitrate
Autres types de graphiques :
– Diagramme tige-feuilles : c’est une variante simpli…ée de l’histogramme. Il est très peu utilisé et ne
sera donc pas représenté ici.
– Boîte à moustaches : elle permet de représenter les trois quartiles, la moyenne, voire l’écart interdécile, le minimum et le maximum. Par exemple sur le diagramme suivant on a représenté les
distributions des longueurs des dents de 3 lots de cochons d’Inde auxquels ont été administrés pendant leur croisssance des doses journalières di¤érentes de vitamine C. Les deux extrémités de la
"boîte" représentent l’écart interquartile. La barre qui sépare la boîte en deux représente la médiane,
le max et le min apparaissent de part et d’autre de la boîte.
1.3
1.3.1
Variables quantitatives
Paramètres de position
Ce sont des valeurs numériques qui vont ”résumer”l’échantillon en caractérisant son ordre de grandeur.
On ne les calcule que dans le cas des variables quantitatives. Ils permettent de pointer un ”centre” de
l’échantillon. Tous ces paramètres de position n’ont pas les mêmes propriétés. Il faut savoir les choisir.
Dans toute la suite : x1 ; :::; xn désigne notre échantillon composé de n:observations. On sera amené
à distinguer plusieurs cas selon que l’on a e¤ectué un regroupement en classes ou non. Dans le cas d’un
regroupement en classes, nous noterons
ei le
Ppp le nombre de classes, ni l’e¤ectif associé à la classe i et x
centre de la classe (bien entendu, n = k=1 nk ).
Moyenne (arithmétique) :
Elle vaut dans le cas d’un échantillon discret ou continu sans regroupement en classes :
n
x=
1X
xk
n
k=1
1=n
Il existe d’autres ”moyennes” : géométrique, G = (x1 ::: xn )
5
;harmonique, H =
Pn n
1
i=1 xi
:
20
15
10
5
0
Longeur des dents
25
30
35
Boxplot ou diagramme en boîte
0.5
1
2
Quantité de vitamine C (en mg)
Quand la variable est continue avec des regroupements en classes :
p
1X
x=
nk x
ek
n
k=1
Remarque : On peut montrer que x est la solution du programme suivant :
min
a
n
X
(xi
2
a) :
i=1
Quantiles :
La dé…nition suivante est la plus rigoureuse. Elle peut paraître un peu abstraite mais un petit schéma
l’éclairera.
Dé…nition : On appelle quantile d’ordre ( est un pourcentage) et on note q = inf ftjFn (t)
g
où Fn est la courbe des fréquences cumulées croissantes (ou fonction de répartition empirique) associée à
l’échantillon x1 ; :::; xn .
La médiane (M e) est le quantile d’ordre 50%. Elle partage la série x1 ; :::; xn en deux séries de même
taille : 50 % des observations sont supérieures à la médiane, 50 % sont inférieures. La médiane dispose,
par rapport à la moyenne, d’un avantage qui compense un calcul délicat : elle est très peu sensible aux
valeurs extrêmes (très grandes ou très petites parfois issues d’une erreur dans la collecte des données).
Pour s’en convaincre il su¢ t de calculer et de comparer la moyenne et la médiane sur un échantillon du
type : 1; 1; 3; 2; 200:000; 5; 2: Ainsi x ' 28573; M e = 2.
Les trois quartiles q25; q50 et q75 partagent la série initiale en quatre séries de même taille. Pour un
découpage de 10% en 10%, on parle de déciles.
Calcul pratique des quantiles : Il se fait en ordonnant la série x1 ; :::; xn mais dépend de la nature de
cette dernière et peut nécessiter le calcul des fréquences cumulées croissantes.
1 er cas : variable discrète : On suppose que l’échantillon a été ordonné : x1 ::: xn : Même si certains
xi sont égaux, on les écrit tous. On calcule = n=100: Si est entier, q = x : Si n’est pas
entier, q = x[ ]+1 où [ ] est la partie entière de :
2 eme cas : variable continue avec regroupement en classes : On détermine d’abord la classe dans laquelle
va se trouver le quantile, c’est celle dans laquelle les fréquences cumulées croissantes atteignent %:
6
Le quantile est ensuite obtenu par interpolation linéaire. En notant [a; b[ la classe qui contient le
quantile et F (x) la fréquence cumulée croissante en x, on obtient :
q
b
a
F (a)
=
a
F (b) F (a)
Dans ce cas, les quantiles peuvent aussi être directement lus sur la courbe des fréquences cumulées
croissantes.
3 eme cas : variable continue sans regroupement en classes : Le calcul se fait de manière similaire au cas
d’une variable discrète.
Les quantiles peuvent également être obtenus graphiquement sur les diagramme ou graphe des fréquences cumulées. La médiane, par exemple, est l’image réciproque de 1=2.
Remarque : On peut montrer que M e est la solution du programme suivant :
min
a
n
X
jxi
i=1
aj :
Mode
Il se calcule dans deux cas :
1. Variable discrète : Il correspond à la valeur de la variable pour laquelle l’e¤ectif est maximum
(autrement dit, lu en abscisse du diagramme en bâtons, le mode correspond à la barre la plus
haute).
2. Variable continue avec regroupement en classes : le mode est en fait une classe modale, un intervalle ;
celui qui correpond à l’e¤ectif le plus élevé.
1.3.2
Paramètres de dispersion
Les paramètres de dispersion sont des grandeurs qui mesurent l’étalement des valeurs observées autour
d’une valeur centrale (moyenne, médiane).
Variance et écart-type
La variance est une grandeur positive !
1. Si la variable est discrète ou continue sans regroupement en classes, la variance est
!
n
n
1X 2
1X
2
(xk x) =
xk
x2 :
Vx =
n
n
k=1
k=1
2. Si la variable est discrète ou continue avec regroupement en classes, la variance est :
!
p
n
1X
1X
2
nk (e
xk x) =
Vx =
nk x
ek 2
x2 :
n
n
k=1
k=1
Dans tous les cas, l’écart-type est :
x
=
p
Vx :
Ecarts absolus moyens
L’écart absolu moyen (eam) par rapport à la moyenne est
n
Ex =
1X
nk jxk
n
k=1
7
xj :
L’écart absolu moyen (eam) par rapport à la médiane est
n
EM e
1X
=
nk jxk
n
M ej
k=1
On peut montrer les inégalités suivantes : 0 EM e Ex
:
Ecarts interquantiles
h
L’intervalle interquantile d’ordre % est dé…ni par I = q 100
2
100
2
; q 100+
100
2
2
i
: Il contient donc
% des
observations en laissant
% des plus petites et
% des plus grandes.
L’écart interquartile (d’ordre 50), [q25 ; q75 ] contient 50% des valeurs centrales.
L’écart interdécile [q10 ; q90 ] contient 80% des valeurs centrales.
En…n l’étendue se dé…nit par
L = xmax xmin :
C’est la di¤érence entre la plus grande et la plus petite valeur observée.
1.3.3
Paramètres de forme
Les paramètres de forme apportent des informations sur l’aplatissement et la symétrie de la distribution.
On note p le moment centré d’ordre p :
n
p
=
1X
nk (xk
n
p
x) :
k=1
Coe¢ cient d’asymétrie (ou skewness)
C’est
=
3
3
Si < 0; la distribution est étalée sur la gauche.
Si > 0; la distribution est étalée sur la droite.
Si = 0; la distribution est symétrique.
Coe¢ cient d’aplatissement (ou kurtosis)
Il vaut
=
Si
Si
Si
1.4
=
3
3:
2
4
:
4
' 3; l’aplatissement est proche de celui de la loi normale.
< 3; la distribution est plus aplatie que celle de la loi normale.
> 3; la distribution est moins aplatie que celle de la loi normale.
Petit glossaire
Box and whiskers plot : boîte à moustaches, Cumulative density function (cdf ) : courbe des fréquences
cumulées croissantes, Kurtosis : coe¢ cient d’aplatissement, Mean : moyenne, Range : étendue, Sample :
échantillon, Sample size : taille de l’échantillon, Skewness : coe¢ cient d’asymétrie, Standard deviation :
écart-type, Stem and leaf plot : diagramme tige et feuilles
8
2
Intermède : l’incertitude sur une moyenne
Lors d’une série d’expériences on mesure la dureté HRC (par exemple) d’un matériau donné. Bien
entendu l’enfoncement, mesuré avec une très grande précision n’est jamais exactement le même sur
chacune des expériences parce que le réglage du pénétateur n’est jamais constant, que le matériau n’est
jamais complètement homogène et que l’appareil de mesure lui-même n’est pas exempt de défauts. Au
…nal on récupère n valeurs HRC1 ; :::; HRCn correpondant aux n essais.
La question que l’on peut se poser est celle du contrôle de la dureté moyenne, notée d. Cette dureté
est une grandeur THEORIQUE, soit donnée (si le matériau est connu), soit inconnue si le matériau est
nouveau. La valeur :
1
dn = (HRC1 + ::: + HRCn )
n
est proche de d mais le caractère aéatoire de l’expérience fait que malgré tout dn 6= d:
On peut se poser alors la question suivante :
D’après les n valeurs de l’échantillon dois-je considérer que la dureté de mon matériau est
SIGNIFICATIVEMENT di¤érente d’une valeur d0 …xée (et donc connue) ?
Dans la question précédente il est possible de remplacer le mot ’di¤érent’par ’plus grande’ou ’plus
petite’.
En d’autres termes je cherche à savoir comment prendre en compte le hasard pour répondre à la
question précédente et tenter de gommer la variabilité des mesures.
La solution est bien entendu basée sur l’examen de dn d0 = sn . Si sn est ’petit’on répondra non
à la question précédente, sinon on pourra licitement répondre oui puisqu’il faut trancher et qu’on nous
demande de prendre une décision.
C’est ici que les mathématiques viennent à la rescousse. Un résultat de statistique théorique nous
propose de considérer la grandeur suivante
tn =
p
n
dn
d0
n
où
n
est la variance de l’échantillon (HRCi )1
i n
: On a alors :
Proposition 1 Si tn < 2; la dureté HRC théorique d n’est pas signi…cativement di¤ érente de la valeur
de référence d0 . Inversement si tn
2; on considèera qu’il y a une di¤ érence sign…cative (positive ou
négative) entre d et d0 .
Remarque importante :
Le nombre tn est sans dimension et peut être utilisé de façon universelle pour tous les problèmes de
sign…cativité d’une moyenne. Il ne dépend pas du problème considéré ni des unités (ici la dureté). Ce
nombre tn est appelé t de Student ou test de Student, ...
9
3
L’analyse de la variance
L’analyse de la variance est un méthode statistique permettant d’étudier l’e¤et d’une ou de plusieurs
variable qualitatives sur une variable quantitative.
3.1
Un exemple pour commencer
On souhaite étudier le taux de cholestérol, dans une population donnée, selon la catégorie socioprofessionnelle (CSP). Les données sont regroupées dans un tableau du type :
Agriculteurs
a1
a2
...
...
an1
Ouvriers
o1
o2
...
on2
a
o
Employés
e1
...
...
...
...
en3
e
Cadres
c1
...
cn4
c
où a1 est le taux de cholestérol du premier agriculteur de notre échantillon, n2 est le nombre d’ou1
vriers dans cet échantillon et e =
(e1 + ::: + en3 ) est la moyenne du taux de cholestérol dans la
n3
sous-population des employés. Le modèle d’analyse de la variance va nous permettre de répondre à des
questions du type "y a-t-il un e¤et de la CSP sur le taux de cholestérol ?" Ou bien "les taux de cholestérol
dans les sous-populations des ouvriers et des employés sont-ils signi…catiovement di¤érents ?"
Dans cet exemple la variable quantitative est le taux de cholestérol et la variable qualititive est la CSP.
Cette variable, également appelée "facteur de variabilité" dispose de quatre modalités (ou niveaux : A,
O, E et C).
3.2
3.2.1
Analyse de variance à un facteur
Les données et le modèle
On étudie un facteur A qui se décompose en k niveaux : A1 ; :::; Ak .
On dispose de k échantillons
de tailles respectives n1 ; n2 ; :::; nk correspondant chacun à un niveau du
Pk
facteur. On pose n = i=1 ni et on dresse le tableau suivant :
Facteurs
Moyennes
A1
x11
x21
...
...
xn1 1
x1
A2
x12
x22
...
...
xn2 2
x2
...
...
...
...
...
...
...
Ai
x1i
x2i
...
...
xni i
xi
...
...
...
...
...
...
...
Ak
x1k
x2k
...
...
xni k
xk
Attention, dans le tableau précédent les ni sont tous di¤érents et les colonnes n’ont donc pas toutes la
même hauteur a priori !
Ici xji est la valeur prise par la variable numérique pour le j ieme individu du groupe i et
xi =
ni
1 X
xj
ni j=1 i
On pose le modèle suivant :
xji = mi + "ji
10
(1)
où "ji suit une loi normale centrée et de variance 2 ("ji
N 0; 2 ). Le terme mi est la moyenne
théorique (donc inconnue) asssociée au niveau. Ai : Elle est di¤érente de la moyenne empirique xi calculée
sur l’échantillon. Dans l’exemple introdutif m4 serait la moyenne du taux de cholestérol calculée sur tous
les cadres ... en France.
Le terme "ji représente la variation due à l’individu j autour de la moyenne mi : C’est un terme
purement aléatoire qui suit une loi normale centrée.
Remarque 2 Le modèle 1 appelle un premier commentaire. Il postule que la loi de xji est gaussienne
N mi ; 2 , donc que le facteur n’in‡uencera que les moyennes et pas les variances ( 2 ne dépend pas
de i). Cette hypothèse, tout comme celle de normalité des observations est assez lourde. il faut également
noter que le modèle s’écrit aussi sous la forme
xji =
+ ai + "ji
Pp
où correspond à l’e¤ et moyen du facteur et où ai est l’e¤ et associé au niveau Ai . La condition i=1 ai =
0 permet de s’assurer que les p e¤ ets se compensent. Dans l’exemple précédent un ai négat… serait associé
à une CSP pour laquelle le taux de cholestérol serait plus faible que le taux moyen.
3.2.2
Le test
Présentation
Nous allons nous intéresser à l’une des questions évoquée à propos de l’exemple introductif :
"Y a-t-il un e¤et du facteur A sur la variable numérique x ?".
Si tel est le cas, on doit s’attendre à ce que l’une des mi soit di¤érent des autres. La question peut
donc se poser en terme de test statistique sous la forme suivante :
8
< H0 : m1 = m2 = ::: = mk
contre
(2)
:
H1 : Il existe i et j tels que mi 6= mj
Accepter H1 revient à décider qu’il n’y a pas, au vu des observations, d’e¤et de A sur la variable x. Notre
décision va se baser sur l’examen des moyennes empiriques xi : Notons
k
n
i
1 XX
xj
n i=1 j=1 i
x=
L’idée du test est la suivante : si les moyennes m1 ; ::; mk sont égales, les x1 ; x2 ; :::; xk seront assez proches.
Si tel n’est pas le cas les xi seront dispersées. Le test va nous permettre de décider ce que l’on doit
entendre par "dispersion des moyennes".
La formule de décomposition de la variance
C’est une formule importante en statistique. Notons S 2 la variance totale :
k
S2 =
n
i
1 XX
xj
n i=1 j=1 i
2
x
:
Introduisons également les deux termes suivants
k
2
SB
=
1X
ni (xi
n i=1
k
2
SW
=
2
x)
n
i
1 XX
xj
n i=1 j=1 i
11
2
xi
Théorème 3 On a toujours
2
2
S 2 = SB
+ SW
La preuve de ce théroème est très simple dès lors que l’on n’est pas rebuté par les sommes à double
indice. Il su¢ t de développer le carré
xji
2
x
2
= xji
xi + xi
= xji
xi
x
2
+ (xi
2
x) + 2 xji
xi (xi
x)
La variance totale se décompose donc en deux termes :
2
– SB
est la variance inter-colonnes ("between" en anglais). Plus les xi seront dispersés autour de x;
2
plus la variabilité sera grande d’une colonne à l’autre. inversement, un "petit" SB
coorespondra à
des valeurs des xi bien conentrées autour de la moyenne générale.
2
– SW
est la variance intra-colonnes ("within" en anglais). Ce terme est la somme sur toute les colonnes
(de i = 1 à k) des carrés des écarts entre les observations et la moyenne qui leur est associée. Il
exprime la variabilité au sein des colonnes, quand les niveaux sont …xés.
Des résultats de probabilité nous assurent que si les xi suivent des lois normales N 0; 2 ,
n
n
n
S2
2
n 1;
2
2
SB
2
k 1;
2
2
SW
2
n k:
2
Le F de Fisher et sa distribution
Revenons à notre problème de test (2). Nous allons proposer de baser notre décision sur la statistique
de test suivante
2
n k SB
F =
2
k 1 SW
Si l’on fait abstraction du terme
n
k
k
en première lecture, le rapport F est construit sur le principe
1
suivant :
2
2
– Si F est "grand" cela signi…e que SB
est sensiblement supérieur à SW
; autrement dit que la variabilité entre les colonnes est supérieure à la variabilité au sein des colonnes, qu’il y a davantage
d’hétérogénéité entre les colonnes qu’au sein des colonnes. Ou encore que les moyennes mi sont bien
di¤érenciées.
2
2
– Inversement si F est petit SW
est sensiblement supérieur à SB
et la variabilité au sein des colonnes
est plus grande qu’entre les colonnes. Les moyennes mi ne sont alors pas (ou peu) di¤érenciables.
Il reste à de…nir ce que l’on entend par un "grand" ou un "petit" F: là encore la théorie des probabilités
va nous aider. En e¤et, elle nous apprend que si tout les moyennes mi sont égales, F suit la loi de Fisher
(ou Fisher-Snedecor) à k 1 et n k degrés de liberté. Dans ce cas
(k 1;n k)
P F > f1
(k 1;n k)
=
(3)
où f1
est le quantile d’ordre 1
associée à la loi de Fisher à k 1 et n k degrés de liberté.
L’égalité (3) se traduit littéralement par :"Si tout les moyennes mi sont égales, la statistique F n’a
(k 1;n k)
qu’une probabilité de % de dépasser la valeur f1
" (cette valeur sera lue dans une table ou
calculée automatiquement par un ordinateur). La probabilité de se tromper en rejetant H0 alors qu’elle
(k 1;n k)
est vraie se confond avec la probabilité que F soit supérieure à f1
alors que les moyennes sont
12
égales. D’après 3 cette probabilité vaut et est donc faible si est peu élevé ( = 0; 05 ou 0; 01 par
exemple).
(k 1;n k)
(k 1;n k)
Cette valeur f1
détermine le seuil dans notre problème de test. Si F est inférieure à f1
on acceptera l’hypothèse nulle H0 d’égalité des moyennes (donc d’absence d’e¤et du facteur A sur la
(k 1;n k)
variable x). Et si F est supérieure à f1
on rejettera H0 .
Le tableau d’analyse de la variance
Il est calculé par la plupart des logiciels et résume les informations qui ont été mentionnées au dessus.
Il prend souvent la forme suivante :
3.2.3
Source de variation
d.d.l.
Somme des carrés
Facteur A
k
1
2
SB
Résiduelle
n
k
2
SW
Totale
n
1
S2
variance
2
SB
k 1
2
SB
n k
S2
n 1
F
F =
n
k
2
k SB
2
1 SW
(k 1;n k)
f1
Exemple
Ue étude agronomique porte sur le rendement de di¤érentes variétés de maïs (M 1; M 2; M 3 et M 4)
récoltées sur n = 24 parcelles. Les résultats sont collectés dans le tableau suivant :
Variété
M1
60
64
63
61
M2
62
66
67
70
66
65
M3
67
70
69
72
74
68
ni
4
6
6
M4
63
57
57
59
58
62
60
56
8
Nous sommes bien enprésnece d’une analyse de variance à un facteur : la variété de maïs.
Le graphique ci-dessous est un "box and whiskers plot" ou graphique "boîte à moustaches". Il permet
de visualiser pour chaque groupe l’étendue des valeurs observées des rendements.
13
65
60
Rendements
70
Boxplot des rendements
M1
M2
M3
M4
Les quatre groupes
Voici le résultat obtenu grâce au logiciel R
Source de variance
Rendement
Résiduelle
Totale
d.d.l
Somme des carrés
Carrés moyens
3
20
23
456
122
578
152
6; 1
25; 13
F
p-value
24; 2
5; 8 10
7
Il y a bien un e¤et des groupes sur le rendements. La ’p-value’nous assure que s’il n’y avait pas d’e¤et
la valeur du F n’aurait qu’une probabilité de 5; 8 10 7 d’atteindre ou de dépasser la valeur 24; 2.
3.3
Analyse de variance à deux facteurs
Dans l’exemple introductif, on peut souhaiter étudier, en plus de la CSP, l’e¤et du sexe sur le taux de
cholestérol. On introduit dans ce cas un second facteur B qui se décompose en deux niveaux. On dispose
d’un nouveau tableau qui peut s’écrire :
Agriculteurs
f
h
Ouvriers
f
h
Employés
f
h
f
Cadres
h
x1;1
1
x1;1
2
...
x1;1
n1 ;1
x1;2
1
x1;2
2
...
...
...
1;2
xn1 ;2
x2;1
1
x2;1
2
...
x2;1
n2
x2;2
1
x2;2
2
...
...
x2;2
n2
x11
...
...
...
...
1
xn3 ;1
x21
...
...
x2n3 ;2
x11
...
x1n4 ;1
x21
...
...
...
x2n4 ;2
x1
x2
x1
x2
x1
x2
x1
x2
x
x
x
x
Ce tableau est un peu plus dur à lire puisque désormais les observations sont a¤ublées de trois indices. Ainsi dans xj;k
i ; l’indice j 2 f1; :::; 4g nous donne le niveau du facteur A : j = 1 correspond aux
agriculteurs ; l’indice k 2 f1; 2g nous donne les niveau du facteur B ici le sexe. En…n l’indice i est associé
à la répétition des mesures.
14
Le modèle est alors :
xi;j
k =
où est appelé e¤et moyen,
niveau j du facteur B et où
terme "ijk représente le bruit.
On pose :
i
ij
+
+
i
+
j
+ "ijk
ij
est l’e¤et principal du niveau i du facteur A, j est l’e¤et principal du
ets l’e¤et d’interaction entre le niveau i de A et le niveau j de B. Le
x::: =
p
q
r
1 X X X i;j
xk
pqr i=1 j=1
k=1
xij: =
xi::
r
1X
r
xi;j
k
k=1
q
r
1 X X i;j
=
xk
qr j=1
x::j: =
1
pr
k=1
p
r
XX
xi;j
k
i=1 k=1
On a le tableau :
E¤et théorique
i
j
ij
E¤et
x:::
xi::
x::j:
xij:
estimé
x:::
x:::
x::j:
xi:: + x:::
On introduit maintenant des termes de variance (ou sommes de carrés similaires à ceux de l’ANOVA
à un facteur). La variance "expliquée" par le facteur A est :
2
SA
p
1 X
ni (xi::
=
pqr i=1
2
x::: )
or ici ni = qr (nous traitons le cas "équilibré") donc …nalement :
p
2
=
SA
1X
qr (xi::
n i=1
p
1X
(xi::
p i=1
2
x::: )
2
x::: )
Puis
q
2
SB
1X
=
pr (x:j:
n j=1
p
2
SAB
=
=
p
q
1 XX
(xij:
pq i=1 j=1
p
2
SR
=
q
1 XX
r (xij:
n i=1 j=1
q
q
1X
x::: ) =
(x:j:
q j=1
2
2
x::: )
2
x::j:
xi:: + x::: )
x::j:
xi:: + x::: )
r
1 X X X i;j
xk
n i=1 j=1
k=1
15
2
2
xij:
L’équation de décomposition de la variance s’écrit désormais
p
q
r
1 X X X i;j
S =
xk
n i=1 j=1
2
2
x:::
k=1
2
2
2
2
= SA
+ SB
+ SAB
+ SR
On peut alors dresser le tableau d’analyse de la variance.
Source de variation
d.d.l.
Somme des carrés
Facteur A
p
1
2
nSA
Facteur B
q
1
2
nSB
Interaction AB
(p
Résiduelle
pq (r
Totale
pqr
1) (q
1)
1
1)
carré moyens
2
nSA
p 1
2
nSB
q 1
2
nSAB
(p 1)(q 1)
2
SR
2
nSAB
2
nSR
F
FA =
FB =
2
nSA
p 1
2
nSB
q 1
FAB =
pq(r 1)
2
SR
pq(r 1)
2
SR
2
nSAB
pq(r 1)
2
(p 1)(q 1)
SR
pq (r 1)
S2
n 1
S2
3/ Le cas du plan sans répétition.
C’est à dire si l’un des nij vaut 1: Dans ce cas on ne peut pas estimer un modèle avec interaction.
Pour simpli…er supposons que r = 1: On est obligé de réduire le modèle et de considérer
xi;j
k =
+
i
+
j
+ "ijk
L’équation d’analyse de la variance est modi…ée (on supprime un terme). Il en va de même du tableau
d’analyse de la variance.
16
4
La régression linéaire
4.1
Régression linéaire simple
Le modèle :
y = b0 + b1 x + ";
On observe un échantillon (yi ; xi )1
Les estimateurs :
On note :
"
i n.
n
Sxy =
n
1X
(xi
n i=1
x) (yi
n
Sxx =
2
N 0;
y) =
n
1X
(xi
n i=1
2
x) =
1X
xi yi
n i=1
1X 2
x
n i=1 i
x y
2
(x)
Les estimateurs des coe¢ cients de la droite de régression sont :
bb1 = Sxy ;
Sxx
bb0 = y
bbx;
On obtient un estimateur de la variance du bruit 2 en introduisant les résidus estimés "bi = ybi
ybi = bb0 + bb1 xi :
n
1 X
2
b2 =
(b
yi yi )
n 2 i=1
Pn
Pn
Pn
2
2
2
On pose T SS = i=1 (yi y)
RSS = i=1 (b
yi y)
ESS = i=1 (b
yi y i ) :
Décomposition de la variance : T SS = RSS + ESS et R2 = RSS=T SS.
Variabilité des estimations
:
Pn
2
On pose s2x = n 1 1 i=1 (xi x) : Si (b0 ; b1 ) = (b0 ; b1 ), valeur prescrite :
s
b
1
x2
bb1 b
p
+
tn 2; ; bb0 b0
b tn 2;
1
n (n 1) s2x
sx n 1
chaque fois avec une probabilité
4.2
1
.
Régression linéaire multiple
Le modèle :
y = b0 + b1 x1 + ::: + bp xp + ";
On observe un échantillon (yi ; xi1 ; xi2 ; :::; xip )1
Sous forme matricielle Y = X + avec
2
3
2
y1
1 x11 x12
6 y2 7
6 1 x21 x22
7
6
Y =6
4 ::: 5 ; X = 4 ::: :::
:::
yn
1 xn1 xn2
Les estimateurs :
b = Xt X
1
n
1
b2 =
1
p
"
i n.
3
::: x1p
::: x2p 7
7;
::: ::: 5
::: xnp
Xt Y = arg min kY
n
X
(b
yi
i=1
17
2
yi )
2
N 0;
2
1
3
= 4 ::: 5 ;
p
2
X kRn
2
3
"1
6 "2 7
7
=6
4 ::: 5
"n
yi où
Variabilité :
cov b
bbj
=
bj
bj
2
tn
Xt X
1
j = f1; :::; pg
p 1;
avec bj2 le jième terme diagonal de la matrice b2 [Xt X]
1
.
Tableau d’analyse de la régression :
Source de variation
d.d.l
Somme des carrés
Variance
F
Régression
p
RSS
M SR = RSS=p
M SR=M SE
Erreur
n p 1
ESS
M SE = ESS= (n p 1)
Total
n 1
TSS
La valeur du F permet de décider si la régression est justi…ée ou non (test de H0 : b0 = b1 = ::: =
bp = 0) ou encore de savoir si X a un e¤et sur Y.
R2adj = 1
M SE
T SS=(n 1)
18