Leçon n°11 – Statistiques et simulations

Transcription

Leçon n°11 – Statistiques et simulations
Leçon n°11 – Statistiques et simulations
C’est une leçon qui se prolongera les années suivantes. Il s’agit de rapprocher « les
statistiques » d’une notion qui sera étudiée en première « les probabilités » et en particuliers
de voir les fluctuations d’échantillonnage. En fait, simplement, nous allons simuler sur
ordinateur des jeux ou des situations et faire des statistiques sur les résultats obtenus.
Nous constaterons que si le nombre N de simulations est grand (10 000 dans Excel par
exemple) alors la fréquence d’apparition d’une éventualité se rapproche très prés de la
probabilité naturelle (due au pur hasard) de cette éventualité.
La probabilité naturelle est en fait la fréquence théorique d’apparition d’une possibilité
d’un jeu ou d’un phénomène physique ou économique étudié.
1
Par exemple, la probabilité naturelle de Pile quand on jette une pièce en l’air est de
c’est-à2
dire 0,5 soit 50%. (Une possibilité dans un jeu ou un phénomène est appelée éventualité).
Il y a un théorème qui dit :
Si on effectue une simulation en répétant N fois une expérience alors la fréquence
d’apparition d’une éventualité f, dans 95% des cas, aura la propriété suivante

1
1 
f ∈p −
; p+

N
N

p étant probabilité calculée de l’éventualité étudiée.
Nous allons envisager des simulations pour illustrer ceci.
Jets d’une pièce de monnaie.
Dans Excel, il existe une fonction aléatoire « =alea() » qui permet de tirer au hasard un réel
entre 0 et 1. Nous pouvons donc simuler le jet d’une pièce en utilisant cette fonction. Nous
écrivons dans une cellule dont la largeur sera réduite à 3 par exemple, = ent(alea()*2).
« ent » est la fonction partie entière. Nous multiplions par 2 pour obtenir 0 ou 1 en effet,
0 < alea() < 1 et donc 0 < alea()*2 < 2, si nous obtenons 0,45879814 alors la fonction ent
donnera 0 et si nous avons 1,78945154 alors ent donnera 1.
Nous allons décider que 0 représente PILE et 1 représente FACE.
On prendra soin de réduire horizontalement un vingtaine de colonnes à la largeur 3.
La petite poignée située en bas à droite de la cellule permet de recopier le contenue d’une
cellule. Nous allons donc l’utiliser pour recopier 20 fois horizontalement et 10 fois pour
commencer verticalement la formule tapée dans A1.
Nous aurons alors simuler le jets de 200 pièces (20 x 10).
Voici ce que nous voyons dans Excel.
1
1
1
1
1
0
0
1
0
1
1
1
1
1
1
0
0
0
0
0
0
1
1
1
1
1
0
1
0
0
1
1
0
0
0
1
0
0
0
0
0
0
0
0
0
1
1
1
1
1
0
1
1
0
0
0
1
1
1
0
1
1
0
1
1
1
0
1
0
0
0
0
0
0
0
0
1
0
1
1
0
0
1
1
1
1
1
1
1
0
1
0
1
0
0
1
0
0
0
0
1
0
0
1
1
0
1
0
1
1
0
0
1
1
0
1
0
1
1
1
0
1
1
0
1
1
0
1
1
1
0
0
0
1
0
0
0
0
1
0
1
0
1
1
0
1
0
0
0
0
0
0
0
0
1
1
1
0
0
0
1
0
0
0
0
1
1
1
0
1
1
1
0
1
1
0
1
0
0
0
0
0
0
0
0
0
1
0
0
0
1
0
0
1
0
0
0
0
0
0
Sur le côté, nous allons utiliser une autre fonction Excel pour compter les 0 et les 1.
Nous écrivons dans une cellule (W4 par exemple) =nb.si(A1 :T10 ;0) pour compter les 0 et à
côté (X4 par exemple) =nb.si(A1 :T10 ;1) pour compter les 1.
(Attention, le point dans cette formule est celui qui se trouve sur le clavier principal de
l’ordinateur et il ne faut pas taper celui qui se trouve sur le pavé numérique du clavier)
Nous obtiendrons ici 96 fois 0 et 104 fois 1 soit 96 Piles et 104 faces. La touche F9 permet de
refaire un nouveau jet de 200 pièces. Nous observons que la fréquences d’apparitions des 0 et
celle des 1 sont toujours très proches l’une de l’autre.
Dans le cas de la pièce, Pile et Face ont une probabilité de 0.5 (1 sur 2 ou 50%) et dans la
simulation effectuée, nous avons :
Fréquences des Piles 96 sur 200 soit environ 0,48 donc 48%.
Fréquences des Faces 104 sur 200 soit environ 0,52 donc 52%.
Essayer maintenant de faire 20 000 tirages c’est-à-dire de copier la première ligne 1000 fois.
Que constatons nous ?
L’ordinateur met environ 30 à 40 secondes pour calculer. J’ai obtenu 10088 pour les 0 et 9912
pour les 1.
Résultats
10 088 Piles sur 20 000 (1000 x 20) et donc en pourcentage 0,5044 soit 50,4%
9912 Faces sur 20 000 et donc en pourcentage 0,4956 soit 49,6%.
Ces résultats se rapprochent de la probabilité théorique qui est 50%.
Si vous avez le temps, vous pouvez faire pour 50 000 jets soit 2500 lignes x 20 colonnes mais
l’ordinateur va prendre beaucoup de temps pour calculer !
Voilà donc ce que nous appelons une simulation.
Nous pouvons vérifier que les résultats donnés ici pour f satisfont le théorème cité au début.
Pour 200 tirages :

1
1 
f∈ 0,5 −
; 0,5 +
 soit environ f observé doit être dans l’intervalle [0,43 ;0,57].
200
200 

Nous voyons qu’il peut y avoir des écarts par rapport à 0,5 mais c’est normal car N est assez
petit.
Voyons pour 20 000 tirages :

1
1 
f∈ 0,5 −
; 0,5 +
 soit environ f observé dans l’intervalle [0,493 :0,507].
20000
20000 

C’est beaucoup plus précis et vérifié dans EXCEL.
Exercices d’applications
Exercice 1
Jets d’un dé.
Nous vous demandons de simuler le jet d’un dé dans Excel en utilisant la fonction alea().
Effectuer 1000 lancers et étudier les résultats obtenus.
Exercice 2
Etude du sexe des enfants dans des familles de 4 enfants.
On veut étudier les familles de quatre enfants afin de déterminer par la théorie et par la
simulation avec un tableur la fréquence d’apparition des familles ayant quatre enfants de
même sexe.
Dans Excel, pour tirer au hasard fille ou garçon, on utilise à nouveau la fonction aléatoire alea
(= ent(alea()*2) et « ent » qui permet de prendre la partie entière d’un nombre aléatoire
généré par « alea()*2 ».
On copie alors avec la poignée sur le côté de la cellule pour effectuer par exemple 1 000
simulations d’apparition d’un enfant, on tire cette poignée sur 4 colonnes et 1 000 lignes.
Nous avons ainsi, simuler 1 000 familles de quatre enfants.
Nous adoptons 0 pour un garçon et 1 pour une fille.
Nous faisons ensuite la somme de chaque ligne dans la colonne 5 :
(= somme(a1:d1)) puis on recopie la formule pour les 1 000 lignes. Il reste à détecter dans ces
sommes 0 (4 garçons) et 4 (4 filles) : nous employons la fonction nb.si :
(=nb.si(e1:e1000 ;0)+nb.si(e1:e1000;4) et enfin nous diviserons par 1 000 pour avoir le
pourcentage.
Interpréter les résultats obtenus.
Pour la théorie, écrire toutes les compositions possibles de familles de quatre enfants puis
compter celles dans lesquelles nous trouvons quatre enfants de même sexe afin de donner la
probabilité d’avoir une famille où les 4 enfants ont le même sexe.
Correction
Exercice 1
En premier lieu, nous réduisons la largeur de dix cellules
(FORMATCELLULECOLONNELARGEUR)
Pour obtenir dans Excel, les faces d’un dé, nous taperons dans chaque cellule :
=ent(alea()*6)+1 .Le « +1 » évitant d’obtenir 0.
Nous pouvons prendre donc dix cellules horizontalement et copier avec « la poignée » la
formule dans ces dix cellules puis verticalement sur 100 lignes afin d’avoir 1000 jets de dé
simulés (100 x 10).
Dans la cellule L2, nous allons compter les faces1.
Dans la cellule L3, nous comptons les 2 etc.
Dans chaque cas, nous utilisons la formule : =nb.si(A1:J100;1) pour la première puis
=nb.si(A1:J100;2) pour la face 2 etc.
Je vérifie en L8 que la somme fait 1000 avec =somme(L2 :L7)
Je peux dans la colonne suivante calculer les pourcentages correspondants.
Dans la cellule M2 : =L2/L8 puis on appuie sur le bouton %
Dans la cellule M3 :=L3/L8 etc…
Evidemment en M8, on peux additionner ces pourcentages :=somme(M2 :M8) pour voir
100%.
Nous voyons apparaître des pourcentages voisins les uns des autres autour de 16% (0,16)
dans les cellules de M2 à M7.
1
La fréquence théorique d’une face est : soit environ 0,167 et donc environ 16,7%.
6
(Il y a 6 faces et une seule sort donc 1 sur 6)
Si les résultats sont un peu éloignés de 16,7%, cela vient du fait que le nombre de lancers est
trop faible.
Aussi essayer avec 5000, les résultats seront plus probants.
Remarque :
La fréquence f d’apparition d’une face doit être dans la simulation dans l’intervalle (à 95%
1
1
1
1 
des cas) : f∈  −
; +
 soit environ f∈[0,135 ;0,198].
6
6
1000
1000


Exercice 2
Commençons par la théorie.
(Nous tiendrons compte de l’ordre d’apparition des enfants : FGFG est donc différent de
GFGF en effet les enfants se font généralement l’un après l’autre, nous éliminons la
possibilité d’avoir des jumeaux.
On peut écrire d’abord toutes les situations : (On doit faire un arbre )
GGGG
G …………..GGGG
GGGF
G
F ………..….GGGF
GGFG
GGFF
G
G …….……..GGFG
GFGG
F
GFGF
G
G
F ……….…..GGFF
GFFG
F
etc.
GFFF
F
FGGG
FGGF
G
FGFG
FGFF
F
(à vous de compléter)
FFGG
F
FFGF
FFFG
FFFF
Les feuilles de cet arbre donnent toutes les solutions.
Nous comptons donc 16 situations différentes et 2 seulement donnent 4 enfants de même
sexe : fréquence théorique que nous appelons « probabilité d’avoir 4 enfants de même
2
sexe » :
= 0,125 soit 12,5 %
16
Faisons la simulation avec Excel : (Simulation sur 1000 cas)
1
0
1
0
0
0
0
0
1
1
0
0
1
1
0
1
1
1
1
0
0
0
1
1
0
0
0
1
1
0
0
0
0
1
0
1
0
0
1
1
Etc.
0 1
1
1
0
1
1
0
1
0
1
0
1
0
1
3
3
2
2
2
0
2
0
4
2
1
1
3
0
2
En appuyant sur f9, Excel
recommence une simulation de
1000 familles. Nous pouvons
voir comment la fréquence
étudiée varie.
Nombres de
familles ayant 4
enfants de même
sexe 118
pourcentage :
11,8 %
Il faut plus de tirages car avec
1000, nous sommes dans
l’intervalle :

1
1 
;0,125 +
0,125 −

1000
1000 

soit [9,3% ; 15,6%].