1 Un peu de vocabulaire - Page personnelle de Julien Chenal

Transcription

1 Un peu de vocabulaire - Page personnelle de Julien Chenal
Statistiques - Échantillonnage
Cours
Objectifs du chapitre
Passer d’un mode de représentation des données à un autre (données brutes, tableau
d’effectifs, représentation graphique)
Calculer la moyenne, la médiane, les quartiles d’une série statistique. Donner une interprétation de ces indicateurs.
Calculer un intervalle de fluctuation ou de confiance à 95% et interpréter le résultat.
1 Un peu de vocabulaire
Toute étude statistique s’appuie sur des données qui peuvent être de plusieurs types. Dans le cas
où les données sont numériques i.e. des nombres, on distingue les données discrètes (par exemple,
le nombre d’enfants par famille, les notes d’une classe à un contrôle) et les données continues (par
exemple, un temps de parcours, la taille d’individus).
Définition
La population d’une série statistique est l’ensemble des individus sur lesquels porte
l’étude statistique.
Le caractère de la série est la propriété étudiée. Il est dit :
• qualitatif si les valeurs que peut prendre ce caractère ne sont pas numériques (par
exemple, la couleur des yeux d’une population).
• quantitatif si les valeurs que peut prendre ce caractère sont des nombres. Et dans ce cas,
il peut être discret ou continu.
1
On suppose que le caractère étudié peut prendre les valeurs x 1 , . . . , x p avec les effectifs n 1 , . . . , n p .
On résume souvent la situation par un tableau :
Valeurs
Effectifs
Fréquence Effectifs cumulés Fréquences cumulées
x1
n1
f1 =
n1
n
n1
f1
x2
n2
f2 =
n2
n
n1 + n2
f1 + f2
...
...
...
...
...
xp
np
fp =
n1 + · · · + n p = n
f1 + · · · + f p = 1
Total
n = n1 + · · · + n p
np
n
1
Définition
L’effectif cumulé d’une valeur x i est égal à la somme des effectifs des valeurs inférieures
ou égales à x i (de même pour les fréquences cumulées).
Lorqu’un caractère quantitatif prend un grand nombre de valeurs, on peut les regrouper en classes
a +b
[a, b[ : b − a est appelé l’amplitude de la classe et le centre de la classe est
.
2
Classes
Effectifs
[a, b[
n1
f1 =
...
...
...
[u, v[
np
fp =
Total
n = n1 + · · · + n p
2
Fréquences
1
n1
n
np
n
2 Représentations graphiques
Pour représenter une série statistique, on peut utiliser plusieurs représentations sous forme de
graphiques. Présentons en ici quelques unes.
2.1 Le diagramme en bâtons
Il est formé de bâtons dont l’abscisse est la valeur x i et la hauteur est l’effectif correspondant n i .
Exemple : le tableau suivant récapitule les notes obtenues à un devoir.
Notes
Effectifs
6
3
8
4
10
6
12
6
14
5
15
3
18
1
2.2 L’histogramme
Lorsque les valeurs sont regroupées par classes, on représente la série par des rectangles de base
chaque classe et d’aire proportionnelle à l’effectif.
Exemple : le tableau suivant récapitule les heures de travail quotidien d’un groupe d’élèves.
Heure de travail
Effectifs
[0; 1[
40
[1; 2[
95
3
[2; 3[
86
[3; 4[
24
[4; 5[
5
2.3 Le diagramme des fréquences cumulées croissantes
Reprenons l’exemple de la partie précédente :
Heure de travail
Effectifs
Fréquences
Fréquences cumulées
[0; 1[
40
16%
16%
[1; 2[
95
38%
54%
[2; 3[
86
34,4%
88,4%
[3; 4[
24
9,6%
98%
[4; 5[
5
2%
100%
On a ajouté les deux lignes des fréquences et des fréquences cumulées. Le diagramme des fréquences
cumulées croissantes est formé des segments reliant les points ayant pour abscisse l’extrémité d’une
classe et comme ordonnée la fréquence cumulée correspondante :
2.4 Le diagramme circulaire
Un disque est partagé en secteurs dont l’angle au centre est proportionnel à l’effectif.
Exemple : on s’intéresse à la deuxième langue vivante choisie par les 500 élèves d’un lycée.
Langues
Effectifs
Angle
Anglais
225
162°
Espagnol
150
108°
Allemand
75
54°
4
Italien
25
18°
Autres
25
18°
Total
500
360°
3 Paramètres statistiques
Une série statistique peut contenir de très nombreuses données. Il est donc impéritif de trouver
des indicateurs de la série pour les résumer.
3.1 La moyenne
La moyenne est l’indicateur le plus utilisé pour caractériser une série statistique.
Définition
On suppose que le caractère étudié peut prendre les valeurs x 1 , . . . , x p avec les effectifs
n 1 , . . . , n p . Alors la moyenne de cette série, notée x, est donnée par
x=
n1 x1 + n2 x2 + · · · + n p x p
n1 + n2 + · · · + n p
.
On peut également calculer la moyenne en utilisant les fréquences.
Théorème
Si on note f i la fréquence du caractère x i alors
x = f 1 x1 + · · · + f p x p .
Remarques importantes!!
Lorsque la série est regroupée en classes, on calcule la moyenne en prenant pour valeurs
x i le centre de chaque classe.
3.2 La médiane
Définition
La médiane d’une série statistique est le nombre Me tel que
50% au moins des individus ont une valeur du caractère inférieure ou égale à Me et
50% au moins des individus ont une valeur du caractère supérieure ou égale à Me.
5
Remarques importantes!!
• Le médiane n’est pas nécessairement un nombre de la série.
• C’est la valeur centrale de la série si l’effectif total n est impair et la demi-somme des
deux valeurs centrales si n est pair.
• Si le caractère est quantitatif continu, la médiane correspond à la valeur du caractère
ayant une fréquence cumulée croissante de 0, 5.
• Les valeurs de la moyenne et de la médiane peuvent être très différentes.
3.3 Les quartiles
Définition
Le premier quartile Q 1 est le plus petit nombre de la série tel qu’au moins 25% des données soient inférieures ou égales à Q 1 .
Le troisième quartile Q 3 est le plus petit nombre de la série tel qu’au moins 75% des données soient inférieures ou égales à Q 3 .
L’intervalle inter-quartiles est l’intervalle [Q 1 ,Q 3 ] et Q 3 −Q 1 est l’écart inter-quartiles
3.4 Les déciles
Définition
Le premier décile D 1 est le plus petit nombre de la série tel qu’au moins 10% des données
soient inférieures ou égales à D 1 .
On définit également le neuvième décile D 9 : c’est le plus petit nombre de la série tel qu’au
moins 90% des données soient inférieures ou égales à D 9 .
L’intervalle inter-déciles est l’intervalle [D 1 , D 9 ] et D 9 − D 1 est l’écart inter-déciles.
6
Exercice résolu
Pour la série statistique 3; 5; 6; 6; 8; 10; 12; 20; 20; 21; 23; 25, on a n = 12 donc la moyenne vaut
x=
3 + 5 + 6 + 6 + 8 + 10 + 12 + 20 + 20 + 21 + 23 + 25 53
=
= 13, 25
12
4
et la médiane vaut
Me =
10 + 12
= 11
12
12
= 3, Q 1 est le troisième nombre de la série donc Q 1 = 6.
4
12 × 3
On a
= 9 donc Q 3 est le neuvième nombre de la série d’où Q 3 = 20. Donc [6; 20] est
4
l’intervalle inter-quartiles et l’écart inter-quartiles vaut 20 − 6 = 14.
12
= 1, 2, le premier décile est le deuxième nombre de la série donc
Par ailleurs, comme
10
12 × 9
D 1 = 5 et comme
= 10, 8, le neuvième décile est le onzième nombre de la série donc
10
D 9 = 23.
On résume la situation à l’aide d’un diagramme en boites :
et comme
4 Échantillonnage
Il est parfois impossible de recueillir des données sur l’ensemble d’une population. On étudie
alors un échantillon de cette population à l’aide d’un sondage. On étudie la caractère souhaité sur
l’échantillon puis on essaie ensuite d’en déduire des estimations du caractère sur la population entière. Par exemple, lors d’un sondage d’opinion sur les intentions de vote, on interroge environ un
millier de personnes et on en “déduit” les intentions de vote de toute la population.
4.1 Modélisation
Définition
En statistique, un échantillon de taille n est la liste des n résultats obtenus par n répétitions indépendantes de la même expérience.
Exemple : On lance un dé équilibré à six faces et on relève le chiffre qu’on obtient. On répète ce
lancer 100 fois et on obtient un échantillon de taille 100. On répète cette expérience pour obtenir un
deuxième échantillon de taille 100. On a reporté les résultats dans le tableau suivant :
Chiffre
1
2
3
4
5
6
Échantillon A 0, 14 0, 17 0, 19 0, 18 0, 17 0, 15
Échantillon B 0, 15 0, 16 0, 16 0, 18 0, 17 0, 18
7
On constate que les distributions de ces deux échantillons sont différentes : c’est ce qu’on appelle la
fluctuation d’échantillonnage.
La moyenne de l’échantillon A vaut 3, 52 et celle de B est 3, 6.
4.2 Intervalle de fluctuation, intervalle de confiance
On note p la proportion de la population vérifiant le critère étudié et p̂ la proportion de l’échantillon de taille n vérifiant ce critère.
Si on connait la proportion théorique p, on a le résultat suivant :
Théorème (Théorème de l’intervalle de fluctuation)
On suppose que p ∈ [0, 2; 0, 8] et que n ≥ 25. Alors dans ce cas, dans plus de 95% des cas,
·
¸
1
1
p̂ ∈ p − p ; p + p .
n
n
En revanche, si on cherche à estimer p et qu’on ne connait que l’estimation p̂, on a le résultat suivant :
Théorème (Théorème de l’intervalle de confiance)
On suppose que p̂ ∈ [0, 2; 0, 8] et que n ≥ 25. Alors dans ce cas, dans plus de 95% des cas,
¸
·
1
1
p ∈ p̂ − p ; p̂ + p .
n
n
Remarques importantes!!
Pour les deux théorèmes précédents, on parle d’intervalle de fluctuation ou de confiance à
95%, ou au seuil 95%.
8
Exercice résolu
On souhaite savoir si une entreprise exerce une discrimination à l’embauche vis-à-vis des
femmes. S’il n’y a pas discrimination, la proportion de femmes dans cette entreprise devraient être représentative de la proportion de femmes dans la population active. On admet que la proportion de femmes dans la population active est 0, 5.
1) En utilisant l’intervalle de fluctuation au seuil 0, 95, déterminer si une entreprise contenant 1183 femmes sur 2540 salariés exerce une discrimination à l’égard des femmes.
2) Quel doit être le nombre minimal de femmes dans cette entreprise pour que la proportion p̂ de femmes appartienne à l’intervalle de fluctuation [0, 48; 0, 52] ?
Solution :
1) La taille de l’échantillon est n = 2540. Dans cet exercice, on connait la proportion
théorique p = 0, 5. Les conditions d’application
du théorème étant
respectées, on peut
¸
·
1
1
, soit [0, 48; 0, 52]. Or ici,
donc conclure qu’au seuil 95%, p̂ ∈ 0, 5 − p
; 0, 5 + p
2540
2540
1183
p̂ =
≈ 0, 466. Donc p̂ ∉ [0, 48; 0, 52]. On en conclut que cette entreprise exerce très
2540
probablement une discrimination à l’égard des femmes.
2) Pour que p̂ ∈ [0, 48; 0, 52], il faut avoir au minimum 0.48 × 2540 = 1219.2, donc au moins
1220 femmes.
Exercice résolu
Lors du deuxième tour des élections présidentielles, un candidat souhaite connaitre les
intentions de vote des français en sa faveur.
Un premier sondage sur 250 personnes interrogées donne une intention de vote de 54%.
Un second sondage sur 1900 personnes interrogées donne une intention de vote de 53%.
Quel est le sondage qui est le plus favorable au candidat ?
Solution : On ne connait pas la proportion théorique des français qui vont voter pour ce
candidat. On ne connait que les proportions observées sur les deux sondages. Le premier
sondage donne une proportion p̂ = 0, 54 sur un échantillon de taille n = 250. On peut donc
déterminer l’intervalle de confiance à 95% :
·
¸
1
1
p ∈ 0, 54 − p
; 0, 54 + p
, soit [0, 477; 0, 604].
250
250
Le second sondage donne une proportion p̂ = 0, 53 sur un échantillon de taille n = 1900.
On obtient donc un intervalle de confiance à 95% :
¸
·
1
1
p ∈ 0, 53 − p
; 0, 53 + p
, soit [0, 507; 0, 553].
1900
1900
Pour être élu, il faut au moins une proportion de 0, 5, or le premier sondage ne permet pas
d’affirmer que p ≥ 0, 5, alors que le second sondage permet d’affirmer que dans 95% des
cas, p ≥ 0, 5. C’est donc le second sondage qui est le plus favorable au candidat.
9

Documents pareils