Outils statistiques Notes de cours. - Université Paris-Est Marne

Transcription

Outils statistiques Notes de cours. - Université Paris-Est Marne
1
Outils statistiques
Notes de cours.
Clotilde Fermanian – Françoise Lucas
Année 2010 – 2011
L2-L3
Université Paris 12 –Val de Marne.
2
Avertissement : Ce texte constitue des notes qui couvrent ce
qui a été fait en cours. Mais les Exemples n’y sont pas développés.
Il faut donc s’appuyer en complément sur des notes manuscrites ou
des exemples tirés de manuels ou des travaux dirigés.
Bibiographie : [1] Statistique théorique et appliquée, Pierre Dagnelie, Editions de boeck.
Chapitre 1
Collecte de données Expérimentation
(cf. notes de cours de F. Lucas)
3
4
CHAPITRE 1. COLLECTE DE DONNÉES - EXPÉRIMENTATION
Chapitre 2
Statistique descriptive à
une dimension
(C. Fermanian)
2.1
Introduction
La statistique descriptive a pour but de présenter les données sur
une forme telle qu’on puisse en prendre connaissance et les exploiter facilement. Elle peut concerner une seule variable ou une seule
caractéristique d’une variable à la fois ; on parle alors de statistique
descriptive à une dimension. Elle peut aussi s’attacher à deux (ou
plusieurs ) variables, on parle alors de statistique descriptive à deux
(ou plusieurs) dimensions.
Pour décrire ces données, on va utiliser plusieurs moyens. Des tableaux statistiques permettent de présenter les données sus formes
de distribution en fréquences. Différents types de diagramme permettent d’obtenir des représentations graphiques qui donnent une
appréhension visuelle rapide des données. Enfin, certaines valeurs
typiques sont attachées aux donnés et donnent un ‘condensé’ d’information : calculer ces paramètres constitue la réduction des données.
2.2
2.2.1
Les distributions en fréquence
Fréquences
La forme la plus élémentaire de présentation de données statistiques consiste en l’énumération des observations
x1 , x2 , x3 , · · · , xn .
5
6
CHAPITRE 2. STATISTIQUE DESCRIPTIVE À UNE DIMENSION
Cette liste peut-être ou non ordonnée. Par ailleurs, la même valeur
peut apparaı̂tre plusieurs fois. On peut alors présenter les données
sous la forme d’une distribution de fréquences : on ne fait figurer
qu’une seule fois la même valeur mais on spécifie combien de fois
elle apparait. On retient alors une liste de la forme
x1 , x2 , · · · , xp ; n1 , n2 , · · · , np .
Les valeurs x1 , · · · , xp sont généralement rangées par ordre croissant
et on sait que la donnée xi apparait ni fois. On a donc
p ≤ n et
p
X
ni = n.
i=1
On peut aussi exprimer les fréquences en valeurs relatives par-rapport
à l’effectif total. On parle alors de la fréquence relative n0i
n0i =
ni
.
n
On a alors
p
X
n0i = 1.
i=1
On peut exprimer les fréquences relatives en pourcentage
n0i % = 100 ·
ni
.
n
On utilise aussi la notion de fréquences cumulées. La fréquence absolue cumulée N 0 (xk ) associée à la donnée xk est le nombre d’observation correspondant à une donnée inférieure ou égale à xk :
0
N (xk ) =
k
X
ni = n1 + · · · + nk .
i=1
La fréquence relative cumulée est son expression en valeur relative
N 0 (xk )
= n01 + · · · + n0k .
n
Exemple : Distribution de fréquences du nombre de pieds d’asphodèles observées dans 512 carrés de 1 m2 (tiré de la référence
[1]).
2.3. LES REPRÉSENTATIONS GRAPHIQUES
2.2.2
7
Les distributions groupées
Quand le nombre de valeurs observées est élevé, on condense les
tableaux statistiques en groupant les observations en classes. On
obtient ainsi des distributions de fréquences groupées en classes ou
distributions groupées. Chacune des classes est caractérisée par les
valeurs extrêmes qu’elle peut contenir. L’écart entre les limites des
classes est appelé amplitude ou intervalle de classe. La fréquence
d’une classe est le nombre d’observations qui y sont contenues.
Exemple : Distribution de fréquences du poids des feuilles de 1 000
plantes de chicorée witloof (exemple tiré de la référence [1]).
2.3
2.3.1
Les représentations graphiques
Diagrammes de fréquence non cumulées
Les diagrammes en bâtons sont éablis en traçant parallèlement à
l’axe des ordonnées, en face de chaque valeur observée xi , un segment de longueur égale à la fréquence de cette valeur. Ce type de
graphique est particulièrement adapté au cas des distributions non
groupées.
Les polygônes de fréquence sont construits en joignant par une ligne
brisée les extrémités des segments voisinss des diagrammes en bâtons.
Les histogrammes se composent de rectangles dont les intervalles
de classe sont les bases et les fréquences les hauteurs. Ce type de
graphique est adapté au cas des distributions groupées.
Pour chaque type de représentation graphique, les échelles des abcisses et des ordonnées sont choisies de manière à mettre en valeur
les caractéristiques essentielles des distributions.
Exemples : 1- Diagramme en bâtons et polygone de fréquence donnant le nombre de pieds d’asphodèles observés dans 512 carrés de
1 m2 .
2- Histogramme donnant le poids des feuilles de 1 000 plantes de
chicorée witloof.
2.3.2
Diagrammes de fréquence cumulées
Les distributions de fréquence cumulées peuvent être représentées
graphiquement par des polygones de fréquences ou des histogrammes.
Au dessus du point xi de l’axe des abcisses se trouve un point dont
8
CHAPITRE 2. STATISTIQUE DESCRIPTIVE À UNE DIMENSION
l’ordonnée indique en valeur absolue ou relative, la fréquence des observations inférieures ou égales à l’abcisse considérée. Les polygones
de fréquence cumulées sont construits différemment selon le type de
distribution.
Pour les distributions non-groupées, le polygone est construit en
escalier : on dessine des segments de droites verticaux de longueur
proportionnelle aux fréquences mais en les décalant progressivement
vers le haut de telle sorte que l’origine de chacun d’eux soit située à
hauteur de l’extrémité du précédent. On joint ensuite ces différents
segments verticaux par des segments horizontaux.
Pour les distributions groupées, on joint par une ligne brisée les
points obtenus en portant en face des limites supérieures des classes,
des ordonnées égales aux fréquences cumulées, absolues ou relative.
Dans le cas des fréquences relatives, la fonction obtenue est appelée
fonction cumulative de fréquences ou fonction de distribution. Elle
est croissante et prend la valeur 1 en xp .
Exemples : Polygone de fréquences cumulées pour les deux exemples
précédant.
Remarque : On rencontrera fréquemment des distributions en cloche
ou des distributions avec deux ou plusieurs cloches. Les valeurs ont
tendance à se regrouper autour de l’une d’entre elles (distribution à
une cloche) ou autour de deux ou plusieurs valeurs (distribution à
deux ou plusieurs cloches).
2.3.3
Autres types de représentation graphique
(Non abordé cette année, faute de temps)
Les boxplots : L’ensemble des observations, classées par ordre croissant, est subdivisé en quatre groupes de même effectif ou d’effectifs
quasi égaux. Deux rectangles contigus (les ‘boı̂tes’) sont affectés aux
deux groupes intermédiaires et deux lignes (les ‘moustaches’) sont
affectées, de part et d’autre de ces rectangles, aux deux groupes
extrêmes.
Les diagrammes circulaires ou camemberts permettent de représenter
les distributions en fréquence dans des cercles : les aires des différents
secteurs sont proportionnelles aux fréquences. Ce type de diagramme
est adapté aux donnés qualitatives.
2.4. LA RÉDUCTION DES DONNÉES
9
L’utilisation d’échelles non-linéaires est adapté dans certains cas,
échelles logarithmiques par exemple.
2.4
La réduction des données
Le calcul de certains paramètres permet de caractériser de façon
simple les séries statistiques observées. Les paramètres de position
servent à caractériser l’ordre de grandeur des observations. Les paramètres de dispersion permettent de chiffrer la variabilité des valeurs observées autour d’un des paramètres de position.
2.4.1
Les paramètres de position
1- La moyenne arithmétique que l’on appelle généralement moyenne
est la somme des valeurs observés divisée par le nombre d’observations :
n
1X
x=
xi .
n i=1
Comme chaque valeur xi doit être prise en considération autant de
fois qu’elle a été observée, cette expression devient pour les distributions en fréquence
p
X
x=
(ni xi ).
i=1
Dans le cas des distributions non groupées, les deux expressions
sont rigoureusement équivalentes. Par contre, pour les distributions
groupés, on commet en général une certaine erreur, en remplaçant
chacune des valeurs réellement observées par le point central de la
classe correspondante.
Propriétés :
– Si yi = a + bxi , alors y = a + bx.
– Si yi = xi − x alors y = 0.
2- La médiane x̃ est un paramètre de position tel que la moitié des
observations lui sont inférieures (ou égales) et la moitié supérieures
(ou égales).
Pour les séries statistiques et les distributions non groupées, quand
le nombre d’observations est impair, la médiane est l’observation de
rang n+1
2
x̃ = x n+1 si n est impair.
2
10
CHAPITRE 2. STATISTIQUE DESCRIPTIVE À UNE DIMENSION
Quand n est pair, tout nombre compris entre x n2 et x n2 +1 répond
à la définition. On prend comme valeur de la médiane la moyenne
entre ces deux observations
1
x n2 + x n2 +1 si n est pair.
x̃ =
2
Dans le cas des distributions non groupées, la médiane peut être
déterminée graphiquement en utilisant les diagrammes de fréquences
cumulées :
1
N 0 (x̃) = .
2
3- De façon analogue, on définit les quartiles q1 , q2 et q3 d’une
distribution de fréquence par
1
1
3
N 0 (q1 ) = , N 0 (q2 ) = , N 0 (q3 ) = .
4
2
4
Les trois quartiles divisent l’ensemble des observations en quatre
sous-ensembles de même effectif, le deuxième quartile étant confondu
avec la médiane. Les quartiles se calculent de la même manière que
la médiane. Des problèmes peuvent se poser quand l’effectif n’est
pas un nombre pair.
4- On appelle mode ou valeur dominante d’une distribution non
groupée la ou les valeurs observées de fréquence maximum. On appelle classe(s) modale(s) d’une distribution groupée la ou les classe(s)
de fréquence maximum si l’intervalle de classe n’est pas constant.
On dit qu’une distribution est unimodale si elle ne possède qu’un
maximum de fréquence, plurimodale s’il y en a plusieurs.
2.4.2
Les paramètres de dispersion
La variance s2 d’une série statistique ou d’une distribution de
fréquence est la moyenne arithmétique des carrés des écarts par
rapport à la moyenne
n
p
1X
1X
s =
ni (xi − x)2 .
(xi − x)2 ou
n i=1
n i=1
2
Les deux définitions sont équivalentes dans le cas des distributions
non groupées. Par contre, comme pour la moyenne, on commet une
certaine erreur dans le cas des distributions groupées.
2.4. LA RÉDUCTION DES DONNÉES
11
L’écart-type s est la racine carrée de la variance et le coefficient de
variation cv est obtenu en exprimant l’écart type en valeur relative
ou en pourcentage de la moyenne (quand celle-ci est positive) :
cv =
s
s
ou 100 · .
x
x
Propriétés :
– La variance, l’écart-type et le coefficient de variation sont nuls
si et seulement si tous les écarts xi − x sont égaux à 0. Toutes
les valeurs sont alors égales entre elles.
– La variance et l’écart type sont invariants par changement
d’origine : si yi = a + bxi ,
sy = |b|sx , cvy = cvx .
En effet, on a alors y = a + bx et
n
s2y
1X
=
((a + bxi ) − (a + bx))2
n i=1
n
1X
(b(xi − x))2
n i=1
=
n
b2 X
(xi − x)2
=
n i=1
= b2 s2x
L’écart moyen absolu ou écart moyen est la moyenne des valeurs
absolues des écarts par rapport à la moyenne
p
n
1X
1X
(ni |xi − x|) .
em =
|xi − x| ou
n i=1
n i=1
On appelle amplitude l’écart entre les valeurs extrêmes d’une série
d’observations classées par ordre croissant :
w = xn − x1 .
Ce paramètre n’est pas défini exactement pour les distributions
groupées, les valeurs extrêmes n’étant plus connues avec exactitude
après le groupement en classe. On peut montrer que
s≤
w
.
2
12
CHAPITRE 2. STATISTIQUE DESCRIPTIVE À UNE DIMENSION
La détermination de l’amplitude peut donc permettre de vérifier
l’ordre de grandeur de la variance.
L’écart interquantile est la différence q3 − q1 . Cet intervalle englobe
la moitié ou approximativement la moitié des observations qui se
situent au centre de la distribution.
2.5
Exécution des calculs, différents types d’erreur
Les erreurs d’approximation ou d’arrondi sont liées au caractère
approché ou arrondi de la majorité des nombres impliqués dans les
calculs. Le but est de conserver à tout moment le nombre de chiffres
le plus adéquat pour assurer une précision suffisante des résultats
sans compliquer outre mesure le travail. Il y a un équilibre à assurer
entre une perte d’information liée à un arrondi excessif au cours
de résultats intermédiaires et une complexification dangereuse des
calculs impliquée par la conservation de trop de décimales.
Il est donc important de différencier valeurs exactes et valeurs approchées : les fréquences observées et la plupart des constantes intervenant dans les calculs sont des valeurs connues de manière exacte
tandis que les résultats de mesure et les nombres arrondis ne sont
en général que des valeurs approchées.
La précision des valeurs approchées peut être caractérisée soit par
leur nombre de décimales exactes, soit par leur nombre de chiffres
significatifs.
Les chiffres qui, dans une valeur approchée, servent uniquememnt
à indiquer l’ordre de grandeur du nombre envisagé sont dits non
significatifs. Les autres chiffres sont considérés comme significatifs.
Exemple : Les chiffres non significatifs sont soulignés :
5, 802 − 2, 307 − 0, 70 − 0, 0021.
On remarquera que les valeurs approchées 0, 7, 0, 70 et 0, 700 ne
représentent pas exactement la même chose. Ces nombres représentent
des valeurs comprises respectivement entre 0, 65 et 0, 75, 0, 695 et
0, 705, 0, 6995 et 0, 7005.
Quelques règles simples :
2.5. EXÉCUTION DES CALCULS, DIFFÉRENTS TYPES D’ERREUR
13
Pour les sommes et les différences, le dernier chiffre significatif du
résultat est celui qui correspond vers la droite au dernier chiffre
significatif du terme qui possède (vers la droite également) le moins
de chiffres significatifs :
103, 2 + 8, 753 − 92, 39 = 19, 563
Le résultat correctement arrondi est 19, 6.
Pour les produits et les quotients, le résultat possède autant de
chiffres significatifs que le facteur qui en possède le moins :
2, 1 × 0, 0129 × 11, 2 = 0, 303408
le résultat correctement arrondi est 0, 30 puisqu’un des trois facteurs
du produit ne possède que deux chiffres significatifs.
Enfin, notons qu’il est toujours opportun de vérifier l’ordre de grandeur des résultats obtenus.
14
CHAPITRE 2. STATISTIQUE DESCRIPTIVE À UNE DIMENSION
Chapitre 3
Statistique descriptive à
deux dimensions
(C. Fermanian)
3.1
Introduction
La statistique descriptive à deux dimensions a pour objet de
mettre en évidence les relations qui existent entre deux séries d’observations considérées simultanément.
3.2
Distribution de fréquence à deux dimensions
Les observations relatives à deux variables se présentent sous
la forme d’une série statistique double c’est-à-dire de la suite de
n couples de valeurs observées (xi , yi ) rangées dans l’ordre croissant
de l’une des deux variables
x1 x2 · · ·
y1 y2 · · ·
xn
yn
Comme dans le cas unidimensionnel, on condense les données en
distribution de fréquence. On note
x1 x2 · · ·
y1 y2 · · ·
xp
yq
les valeurs distinctes. On construit un tableau à double entrée dont
les p lignes donnent les valeurs de x, les q colonnes, celles de y et
l’on met dans la cellule correspondant au couple (xi , yj ) le nombre
ni,j correspondant au nombre d’observations de (xi , yj ). L’ensemble
15
16
CHAPITRE 3. STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS
des valeurs xi et yj d’une part et des fréquences ni,j constitue une
distribution de fréquences à deux dimensions.
On peut aussi grouper les observations en une distribution groupée
en réunissant en classe les valeurs observées. Les symboles xi et yj
représentent alors les points centraux des classes et l’on désigne par
∆x et ∆y les intervalles de classe pour x et y respectivement.
Exemple : Charge en matière en suspension et en carbone organique total dans les eaux usées arrivant à une centrale d’épuration
(données communiquées par F. Lucas).
On peut également calculer des fréquences relatives
n0ij =
nij
.
n
Dans le cas des distributions de fréquence à deux variables, on introduit une nouvelle notion : les distributions marginales et les distributions conditionnelles.
3.2.1
Distributions marginales
On obtient les fréquences marginales ni· et n·j en calculant les totaux
relatifs aux différentes lignes ou colonnes
ni· =
q
X
nij et n·j =
j=1
p
X
nij .
i=1
Ces fréquences sont reliées par les relations
p
X
ni· =
q
X
i=1
n·j =
j=1
p
q
X
X
ni,j = n.
i=1 j=1
Les fréquences marginales relatives correspondantes sont
n0i· =
n·j
ni·
et n0·j =
.
n
n
Ces fréquences sont telles que
n0i·
=
q
X
j=1
n0ij ,
n0·j
=
q
X
i=1
n0ij ,
p
X
i=1
n0i·
=
q
X
j=1
n0·j = 1.
3.3.
REPRÉSENTATION GRAPHIQUE
3.2.2
17
Distributions conditionnelles
Non traité cette année
En considérant une ligne particulière du tableau à double entrée,
on définit par l’ensemble des valeurs y1 , · · · , yq et les fréquences
ni1 , · · · , niq une distribution à une dimension appelée distribution
conditionnelle de y sous la condition x = xi .
Les fréquences relatives associées sont appelées fréquences conditionnelles. On appelle fréquence de y sous la condition x = xi
n0j|i =
n0ij
nij
= 0.
ni
ni
De même, en considérant la j-ième colonne, on définit la fréquence
de x sous la condition y = yj
n0i|j =
n0ij
nij
= 0.
nj
nj
On vérifie que
q
X
j=1
n0j|i = 1 et
p
X
n0i|j = 1.
i=1
3.3
Représentation graphique
3.3.1
Diagramme de dispersion ou nuage de points
On représente la série à deux variables sous forme de diagramme
de dispersion ou nuage de points en faisant figurer les n points de
coordonnée (x1 , y1 ), · · · , (xn , yn ). On peut aussi faire figurer des boxplots sur ces diagrammes.
Exemple : Diagramme correspondant à l’exemple précédent.
3.3.2
Représentation des distributions de fréquences à
deux dimensions
On utilise des figures en trois dimensions.
Les diagrammes en bâtons sont établis en traçant perpendiculairement au plan (x, y), en chaque point (xi , yj ) un segment de longueur
égale à nij ou n0ij .
18
CHAPITRE 3. STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS
Les stéréogrammes sont composés de parallélépipèdes rectangles juxtaposés dont les bases correspondent à chacune des cellules du tableau à double entrée et dont les hauteurs sont égales aux fréquences
absolues ou relatives.
Figure : (schématique...)
3.4
Réduction des données
Les paramètres utilisés pour caractériser les séries statistiques
doubles sont de deux types.
– Les uns ne concernent qu’une variable à la fois, ils servent à
caractériser les distributions marginales ou conditionnelles.
– Les autres servent à décrire les relations existant entre les deux
séries d’observation.
Pour caractériser les distributions marginales ou conditionnelles,
on utilise les paramètres des distributions à une variable.
On définit les moyennes marginales
n
p
n
q
1X
1X
x=
(ni· xi ),
xi ou
n i=1
n i=1
1X
1X
y=
yj ou
(n·j yj ).
n j=1
n j=1
les variances marginales
n
p
n
q
s2x
1X
1 X
=
(xi − x)2 ou
ni· (xi − x)2 ,
n i=1
n i=1
s2y
1X
1 X
=
(yi − y)2 ou
n·j (yj − y)2 ,
n j=1
n j=1
les moyennes conditionnelles
p
q
1 X
1 X
xj =
(nij xi ) et y i =
(nij yj ),
n·j i=1
ni· j=1
et les variances conditionnelles
s2x|j
p
q
1 X
1 X
2
2
=
nij (xi − xj )
nij (yj − y i )2 .
et sy|i =
n·j i=1
ni· j=1
3.4. RÉDUCTION DES DONNÉES
19
L’étude simultanée des deux séries d’observation se fait grâce
aux outils détaillés dans la fin de ce paragraphe : la covariance et le
coefficient de corrélation.
3.4.1
Covariance
La covariance des deux séries d’observation x et y est définie par
q
p
n
1X
1 XX
[nij (xi − x)(yj − y)] .
cov(x, y) =
[(xi − x)(yi − y)] ou
n i=1
n i=1 j=1
La covariance est positive lorsqu’à des valeurs élevées des xi correspondent des valeurs élevées des yi . Réciproquement, la covariance
est négative lorsqu’à des valeurs élevées des xi correspondent des
valeurs faibles des yi . Elle est donc positive ou négative selon que le
nuage de points a une allure croissante ou décroissante.
Propriétés :
- Si x0 = a + bx et y 0 = c + dy alors
cov(x0 , y 0 ) = bd cov(x, y).
- La covariance est inférieure ou égale en valeur absolue au produit
des écarts-types :
|cov(x, y)| ≤ sx sy .
Preuve : On regarde la quantité
n
1 X
P (b) =
[b(xi − x) − (yi − y)]2 .
n i−=1
Cette quantité est un polynôme du second degré en b
P (b) = b2 s2x − 2bcov(x, y) + s2y .
Ce polynôme a un signe constant, il a donc un discriminant négatif,
d’où
4 cov(x, y)2 − 4s2x s2y ≤ 0.
- Si cov(x, y) = sx sy , alors tous les points observés se trouvent
sur une même droite
y − y = byx (x − x) avec byx =
cov(x, y)
.
sx
20
CHAPITRE 3. STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS
Preuve : Si cov(x, y) = sx sy , alors le discriminant du polynôme P (b)
est nul. Ce polynôme a alors une unique racine
byx =
cov(x, y)
sx
et le fait que P (byx ) = 0 implique que pour tout i,
byx (xi − x) − (yi − y) = 0,
ce qui signife que tous les points (xi , yi ) sont sur la droite y − y =
byx (x − x).
3.4.2
Coefficient de corrélation
Le coefficient de corrélation est défini par
r=
cov(x, y)
.
sx sy
Ce coefficient est toujours compris entre −1 et 1 et a le même signe
que la covariance. Il ne peut être égal à ±1 que si les points sont
situés sur une même droite non parallèle aux axes. Il s’interprète
comme suit
– r = 1 quand toutes les points se trouvent sur une même droite
croissante,
– r ∼ 1 quand toutes les points se trouvent à proximité d’une
même droite croissante,
– 0 < r < 1 quand le nuage de points est allongé parallèlement
à une droite croissante,
– r = 0 ou r ∼ 0 quand le nuage de points est allongé prallèlement
à l’un des axes de coordonnées ou de forme arrondi,
– −1 < r < 0 quand le nuage de points est allongé parallèlement
à une droite décroissante,
– r ∼ −1 quand toutes les points se trouvent à proximité d’une
même droite décroissante,
– r = −1 quand toutes les points se trouvent sur une même droite
décroissante.
Figures : Schéma correspondant à chacune de ces situations.
Propriété : Si x0 = a + bx et y 0 = c + dy alors r = r0 .
Pour conclure, remarquons qu’il ne faut pas perdre de vue que l’existence d’une corrélation entre deux séries d’observation n’implique
3.4. RÉDUCTION DES DONNÉES
21
pas nécessairement une relation de cause à effet. La corrélation peut
être due au fait que les deux variables sont soumises à des influences
communes.
3.4.3
Régression linéaire au sens des moindre carrés
Quand le nuage de points a une forme générale linéaire, on peut
tenter de préciser la relation qui lie les variables x et y par la recherche d’une droite qui s’ajuste au mieux aux valeurs observées. La
méthode des moindre carrés permet de trouver une telle droite qui
minimise la somme des carrés des écarts entre les points observés et
les points correspondants de la droite.
Si l’équation de la droite est
y = ax + b
la somme des carrés des écarts à minimiser est
n
n
X
X
2
Σ=
(yi − y(xi )) =
(yi − axi − b)2 .
i=1
i=1
On cherche a et b tel que cette quantité soit minimale, il faut donc
annuler les dérivées partielles par-rapport à a et b
∂a Σ = ∂b Σ = 0.
On trouve
n
X
(yi − a − bxi ) = 0 et
i=1
n
X
xi (yi − a − bxi ) = 0,
i=1
soit
an + b
n
X
i=1
xi =
n
X
yi et a
i=1
n
X
xi + b
i=1
n
X
i=1
x2i =
n
X
(xi yi ).
i=1
La première équation donne
y = a + bx
ce qui implique que la droite de régression passe par le point moyen
(x, y).
En multipliant la première équation par x et en la soustrayant à la
seconde, on obtient
Pn
Pn
Pn
1
cov(x, y)
i=1 (xi yi ) − n (
i=1 xi ) (
i=1 yi )
=
b=
.
Pn 2 1 Pn
2
2
s
x
−
(
x
)
x
i
i=1 i
i=1
n
22
CHAPITRE 3. STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS
En effet, en développant les produits (xi − x)(yi − y), on démontre
" n
! n !#
n
n
X
1 X
1 X
1X
(xi −x)(yi −y) =
x i yi −
xi
yi
.
cov(x, y) =
n i=1
n i=1
n i=1
i=1
La droite de régression de y en x a donc pour équation
y=
cov(x, y)
(x − x) + y.
s2x
On appelle coefficient de régression de y en x la quantité
byx =
cov(x, y)
.
s2x
On peut aussi calculer la droite de régression de x en y
x = bxy (y − y) + x
où
bxy =
cov(x, y)
.
s2y
Ces deux droites se coupent au point moyen (x, y) et forment entre
elles un angle d’autant plus petit que la valeur absolue du coefficient
de corrélation est proche de 1.
Chapitre 4
Probabilités mathématiques
et distributions théoriques
4.1
Notion de probabilité
La notion de probabilité est liée aux notions d’expérience et
d’événement aléatoires. Une expérience est dite aléatoire quand on
ne peut pas en prévoir exactement le résultat parce que tous les facteurs dont dépendent ce résultat ne sont pas controlés. Un événement
aléatoire est un événement qui peut éventuellement se réaliser au
cours d’une expérience aléatoire.
Quand une expérience alátoire a été répétée un certain nombre de
fois n, on peut déterminer le nombre de réalisations de l’événement A
qui y est associé. On connait alors sa fréquence abolue nA et on peut
calculer sa fréquence relative
nA
n0A =
.
n
Si l’expérience est réalisée un grand nombre de fois dans des conditions uniformes, on constate que la fréquence relative a tendance à se
stabiliser. On peut alors postuler, pour tout événement aléatoire qui
remplit ces conditions, l’existence d’un nombre fixe dont la fréquence
relative a tendance à s’approcher. Ce nombre est par définition la
probabilité mathématique de l’événement considéré. La probabilité
ainsi définie est une forme idéalisée de la fréquence relative.
4.2
Propriétés mathématiques de la probabilité
La notion de probabilité n’est pas définie de façon suffisante par
son seul postulat d’existence. Aussi doit-on lui attribuer un certain
23
24CHAPITRE 4. PROBABILITÉS MATHÉMATIQUES ET DISTRIBUTIONS THÉORIQUES
nombre de propriétés sous forme d’axiomes. Ceux-ci peuvent être
compris par analogie avec certaines propriétés de la fréquence relative.
1- La probabilité de tout événement aléatoire A est comprise entre 0
et 1 :
0 ≤ P (A) ≤ 1.
2- Si deux événements A et B associés à une même expérience
aléatoire ne peuvent pas se produire simultanément, alors
P (A ou B) = P (A) + P (B).
De tels événements sont dits exclusifs.
Si A1 , · · · , Am sont m événements exclusifs
P (A1 ou · · · ou Am ) = P (A1 ) + · · · + P (Am ).
Ces propriétés impliquent que dans le cas de deux événements A
et B non nécessairement exclusifs
P (A ou B) = P (A) + P (B) − P (A etB).
En effet
P (A ou B) = P (A sans B) + P (B sans A) + P (A et B)
avec
P (A) = P (A sans B)+P (A et B) et P (B) = P (B sans A)+P (A et B).
4.3
Probabilité conditionnelle et indépendance
stochastique
Non traité cette année
Par analogie avec les propriétés des fréquences conditionnelles, on
définit la probabilité conditionnelle de l’événement A sous la condition B par
P (A et B)
P (A|B) =
.
P (B)
On a donc la propriété
P (A) = P (A|B)P (B).
4.4. NOTION DE VARIABLE ALÉATOIRE ET DISTRIBUTIONS DISCONTINUES25
On dira que deux événements sont stochastiquement indépendants
si
P (A|B) = P (A|non B) = P (A)
ou non B désigne la non-réalisation de B. Lorsque cette condition
n’est pas réalisée, on dit que ces événements sont dépendants.
4.4
4.4.1
Notion de variable aléatoire et distributions
discontinues
Définitions
Une variable aléatoire X est une variable associée à une expérience
aléatoire et servant à caractériser le résultat de cette expérience. Elle
est dite discontinue ou discrète si elle varie de façon discontinue. A
chacune des valeurs x que peut prendre la variable X, on associe
une probabilité P (x)
P (x) = P (X = x).
Nous considérerons des variables aléatoires prenant des valeurs entières
positives. L’ensemble des valeurs admissibles x et des probabilités
correspondantes P (x) constitue une distribution de probabilité ou
distribution théorique discontinue. La relation existant entre x et
P (x) est appelée loi de probabilité. La distribution cumulée des probabilités donne naissance à la fonction de distribution
F (x) = P (X ≤ x).
Les distributions théoriques discontinues et leurs fonctions de répartition
ont des propriétés analogues à celles des distributions non groupées
exprimées en fréquences relatives et de leurs fonctions de distribution :
∞
X
P (x) = 1,
x=0
0 ≤ F (x) ≤ 1, F (x) = 0 pour x < 0 et F (∞) = 1.
4.4.2
Paramètres d’une variable aléatoire
On appelle espérance mathématique ou valeur moyenne d’une variable aléatoire la quantité
E(X) =
+∞
X
x=0
xP (X = x).
26CHAPITRE 4. PROBABILITÉS MATHÉMATIQUES ET DISTRIBUTIONS THÉORIQUES
Cette valeur correspond à la valeur attendue ou valeur la plus probable de la variable aléatoire.
Propriétés : 1- E(aX + b) = aE(X) + b.
2- E(X + Y ) = E(X) + E(Y ).
On appelle valeur médiane de la variable aléatoire X le nombre m̃
tel que
1
F (m̃) = .
2
Cette définition est ambiguë car la fonction F peut être discontinue
et 21 peut ne pas être une valeur prise.
On appelle variance de la variable aléatoire X la quantité
∞
X
σ =
(x − m)2 P (x)
2
x=0
où m = E(X). Le nombre σ est l’écart-type et le nombre CV =
le coefficient de variation.
σ
m
Propriété : σ(aX + b) = |a|σ(X).
On remarquera que toutes ces définitions sont calquées sur les formules relatives aux séries statistiques. On les obtient en remplaçant
les fréquences relatives par les probabilités.
4.4.3
Exemples
Distributions binomiales : On considère un ensemble de n expériences
aléatoires identiques et stochastiquement équivalentes, à chacune
desquelles sont associés deux événement exclusifs A et B. Par expériences
identiques, on veut dire que les probabilités de A et B ne varient
pas d’une expérience à l’autre et sont telles que
P (A) = p et P (B) = q = 1 − p.
Ce schéma d’expérience appelé Schéma de Bernouilli est réalisé par
exemple par le jet de n pièces de monnaie identiques. L’événement
A désigne le fait que la pièce tombe sur pile et l’événement B que la
pièce tombe sur face. Cela concerne aussi le prélèvement dans une
population de n personnes possédant chacun l’un ou l’autre de deux
caractères opposés.
4.4. NOTION DE VARIABLE ALÉATOIRE ET DISTRIBUTIONS DISCONTINUES27
On considère la variable aléatoire X correspondant au nombre de
réalisations de l’événement A au cours des n expériences. La variable
X prend ses valeurs entre 0 et n. La probabilité d’avoir x réalisations
de A et n − x réalisations de B est
px q n−x
Par aillleurs il y a Cnx façons d’avoir x réalisations de A, Cnx est le
coefficient binômial
x!(n − x)!
Cnx =
.
n!
On a donc
P (X = x) = Cxn px (1 − p)n−x .
Cette loi s’appelle la loi binomiale et on dit que X est une variable binomiale par référence à la formule du binôme qui donne le
dévelopement de (p + q)n . Comme p + q = 1, on a bien
∞
X
x=0
P (x) =
n
X
x=0
P (x) =
n
X
Cnx px q n−x = 1.
x=0
Les paramètres d’une variable aléatoire binomiale sont
m = np =, σ 2 = npq.
Les preuves de ces formules seront vues en exercice en TD.
Il faut remarquer qu’une variable aléatoire binomiale est complètement
déterminée par sa moyenne et sa variance puisque
σ2
m2
et n =
.
m
m − σ2
Distributions de Poisson. Une variable aléatoire X suit une distribution de Poisson si on a
mx
P (X = x) = e−m
.
x!
Ces distributions sont caractérisées par un seul paramètre m. On
peut voir cette distribution comme un cas limite de distribution
binomiale lorsque p → 0 et n → ∞ en conservant np = m. On peut
alors monter que
x
x x n−x
−m m
.
Cn p q
→e
x!
Ce résultat est le théorème de Poisson.
Les paramètres des distributions de Poisson sont
p=1−
E(X) = σ 2 = m.
28CHAPITRE 4. PROBABILITÉS MATHÉMATIQUES ET DISTRIBUTIONS THÉORIQUES
4.5
4.5.1
Variables aléatoires et distributions continues
Définitions et paramètres
Une variable aléatoire pouvant valoir n’importe quel nombre réel
est dite continue. On s’intéresse alors à la probabilité d’observer une
valeur dans un certain intervalle près d’une valeur x :
P (x < X < x + δx).
Cette probabilité tend en général vers 0 lorsque ∆x tend vers 0 : la
probabilité d’obtenir exactement une valeur donnée est généralement
nulle même si cet événement n’est pas impossible. La notion de distribution n’a donc pas de sens pour des valeurs aléatoires continues.
En revanche, la notion de fonction de répartition reste pertinente et
on note
F (x) = P (X ≤ x).
Si F est dérivable, la fonction f (x) définie par
f (x) = F 0 (x) = lim
∆x→0
F (x + ∆x) − F (x)
∆x
est la densité de probabilité associée à la variable aléatoire X. On a
Z x
F (t)dt.
F (x) =
−∞
On a donc
+∞
Z
f (x)dx = 1.
−∞
On appelle espérance mathématique de X la quantité
Z +∞
tf (t)dt.
E(X) =
−∞
La médiane m̃ est définie par
1
F (m̃) = .
2
La variance par
2
Z
+∞
σ =
(x − m)2 f (x)dx
−∞
où m = E(X). L’écart-type est le nombre σ et le coefficient de vaσ
riation est CV (X) = m
.
4.6. L’INDÉPENDANCE STOCHASTIQUE DES VARIABLES ALÉATOIRES29
On remarquera que l’intégrale joue pour les variables continues le
rôle de la somme pour les variables discontinues. Par ailleurs, ces paramètres ont les mêmes propriétés que dans le cas des distributions
discontinues.
4.5.2
Exemple : les distributions normales
On appelle distribution normale de paramètres σ et m toute distribution continue de densité de probabilité
f (t) = √
1
2
1
e− 2σ2 (x−m) .
2πσ
Une variable aléatoire admettant une telle densité de probabilité est
dite normale. On peut vérifier que m et σ sont respectivement la
moyenne et l’écart type de cette distribution. Lorsque m = 0 et
σ = 1, on parle de distribution normale réduite.
Figure : Tracé de f (x) et F (x).
Propriétés : 1- On remarque que F (m) = 21 . On a donc m̃ = m.
2- Si X est une variable aléatoire normale de moyenne mX et d’écarttype σX , alors Y = aX + b aussi avec pour paramètres
mY = amX + b et σY = |a|σX .
4.6
L’indépendance stochastique des variables
aléatoires
Paragraphe non traité cette année
Par extension de la notion d’indépendance de deux événements,
on dira que deux variables aléatoires discontinues X et Y sont
indépendantes si
P (X = x et Y = y) = P (X = x)P (Y = y).
Pour des variables aléatoires continues X et Y , on définit
F (x, y) = P (X ≤ x et Y ≤ y)
et on définit la fonction
f (x, y) = lim
∆x,∆y→0
F (x + ∆x, y + ∆y) − F (x, y)
∂ 2F
=
.
∆x ∆y
∂x∂y
30CHAPITRE 4. PROBABILITÉS MATHÉMATIQUES ET DISTRIBUTIONS THÉORIQUES
On dit que les variables sont indépendantes lorsque
f (x, y) = fX (x)fY (y)
où fX et fY sont respectivement les densités de probabilité de X et
de Y .
On a alors les propriétés suivantes
Propriétés : 1- Si X et Y sont indépendantes
2
2
2 2
2
.
+ m2X σX
σY + m2y σX
= σX
E(XY ) = E(X)E(Y ) et σXY
q
CVXY = CVX2 CVY2 + CVX2 + CVY2 .
2- La somme ou la différence de plusieurs variables aléatoires normales indépendantes est une variable aléatoire normale.
Chapitre 5
Tests d’hypothèses
(cf. notes de cours de F. Lucas)
31