prépa en ligne L1 bio stat Chap 1 Cours - Poly

Transcription

prépa en ligne L1 bio stat Chap 1 Cours - Poly
Daniel Abécassis.
Année universitaire 2010/2011
Prépa- L1.
Cours de bio-statistiques.
Chapitre I : Series statistiques à une variable.
I.1. Objectifs.
Pour définir le sujet que nous allons traiter, je me permets de me référer au mathématicien
français Laurent Schwartz :
La statistique est un mode de pensée permettant de recueillir, de traiter et d’interpréter les
données qu’on rencontre dans divers domaines et tout particulièrement dans les sciences de la vie, du fait
que ces données présentent une caractéristique essentielle : la variabilité.
Il est de ce point de vue clair qu’il existe un lien intime entre la notion de statistique et celle des
probabilité : la théorie des probabilité modélise des phénomènes où le « hasard » intervient. On peut
concevoir trois liens essentiels entre ces deux notions :
1. Les données observées sont très souvent entachées d’erreurs : Les lois des probabilités
permettent de représenter les variations entres valeurs expérimentales et valeurs théoriques.
2. La répartition statistique d’une variable est souvent proche de modèles mathématiques.
3. Les échantillons d’individus observés sont la plupart du temps tirés au hasard, ceci pour
assurer leur représentativité. Si le tirage est fait de façon équiprobable ( je reviendrai sur la
signification de ce terme ) , chaque individu de la population a une probabilité constante et
bien définie d’appartenir à l’échantillon.
En prenant l’exemple évident d’une molécule médicamenteuse que l’on met sur le marché mondial, on
peut comprendre le lien entre les données statistiques et les probabilités : Celles-ci permet de trouver une
modélisation sur une population mondiale.
I.2. La démarche statistique.
On distingue deux grands aspect
1. L’aspect exploratoire : la statistique descriptive.
Celle-ci a pour objectif de synthétiser, de résumer, de structurer l’information contenue dans les données
concernant un phénomène étudié. On utilise des représentations graphiques ou des tableaux et on calcule
quelques indicateurs.
2. L’aspect décisionnel : la statistique inférentielle.
En général, les ensembles d’observation correspondent à des échantillons présentant un caractère
aléatoire. On essaie de modéliser le phénomène à l’aide de modèles probabilistes. Cela permet sinon des
prévisions, tout du moins des présomptions qui sont précieuses dans l’étude de certains faits ( sociaux,
économiques ou industriels ).
Cette étude permet alors la généralisation les propriétés d’un échantillon représentatif d’un ensemble
plus vaste.
Ceci étant, on comprend que la statistique descriptive précède la statistique inférentielle dans une
démarche de traitement de données. Ces deux aspects se complètent et ne s’opposent pas.
I.3. Définitions fondamentales.
1. population.
Une population est un ensemble d’individus sur lesquels on étudie un caractère ou une variable ( qui
prendra plusieurs valeurs ou modalités ).
Une statistique porte ainsi sur un ensemble dit population dont les éléments sont appelés
individus.
2. Echantillons. Lots.
Un échantillon est une partie de la population considérée. On étudie un échantillon d’une population
lorsque celle-ci est impossible à étudier dans son ensemble. On considère qu’un échantillon est
représentatif d’une population dans son ensemble si celui-ci est suffisamment important.
3. Caractère : Variable
Le caractère est un trait déterminé C présent chez tous les individus d’une population sur laquelle on
effectue une statistique. C’est la propriété que l’on choisie d’observer et d’étudier dans la population ou
sur l’échantillon considéré.
En toute généralité, on distingue deux types de variables :
A. Les variables qualitatives.
Un caractère est dit qualitatif s’il est repérable sans être mesurable. A ce titre, les variables qualitatives
produisent des valeurs non numériques.
Prenons pour exemples évidents :
-La couleur des yeux dans une population ;
-La teinte de verres de lunettes.
-Le sexe et la situation matrimoniale des salariés d’une entreprise.
B. Les variables quantitatives.
Un caractère est dit quantitatif s’il est mesurable. Ce sont des variables ordonnées, productives de
nombres.
Prenons les exemples évidents :
-La puissance fiscale d’une automobile.
-Le chiffre d’affaires d’une entreprise.
-L’âge des salariés d’une entreprise.
4. Liens probabilistes.
Par définition, on peut interpréter la probabilité d’un évènement aléatoire comme la valeur limite de la
fréquence avec laquelle cet évènement se réalise au cours d’un nombre croissant de répétition de
l’expérience.
On peut répéter une expérience un nombre fini de fois, noté n. On aura alors observé une sous
population appelée échantillon.
Chaque expérience aléatoire produit un résultat xi . On disposera alors de n valeurs : x1 , x 2 ,...., x n ,
ensemble appelé échantillon de valeurs de la variable aléatoire X
I.4. Définitions et notations.
1 Effectif et effectif total.
On note généralement X le caractère ( variable ) étudié et xi la valeur ( ou modalité ) du caractère.
On remarquera que dans le cas d’un caractère continu xi = ci , le centre de la classe.
On notera :
-n l’effectif total : Ce sera le nombre total d’individus qui composent la population.
- ni l’effectif d’une valeur ou d’une classe ( ie d’un intervalle ) . Ce sera l’effectif d’une
valeur xi ie le nombre d’individus associés à cette valeur. L’effectif d’une classe est le nombre d’éléments
de cette classe.
Classe
x1
x2
xi
xk
Effectifs
n1
n2
ni
nk
k
n = ∑ ni
i =1
est l’effectif total.
2. Fréquence.
A. Fréquence d’une variable. C’est le rapport entre l’effectif de cette valeur et l’effectif total.
fi =
ni
n
B. Fréquence d’une classe : Elle est la proportion d’individus de la population appartenant à cette classe.
On peut l’exprimer en terme de pourcentage.
fi =
ci
n
Remarque : Il est clair que
k
∑f
i =1
i
=1
avec : 1 ≤ i ≤ k
3. effectif cumulé.
L’effectif cumulé croissant d’une valeur est égal à la somme des effectifs des valeurs inférieures ou égale.
i
Ni = ∑ n j
j =1
L’effectif cumulé décroissant d’une valeur est égal à la somme des effectifs des valeurs supérieures ou
égal
4. Fréquence cumulé
La fréquence cumulée croissante est la somme des fréquences des valeurs inférieures ou égale.
i
Fi = ∑ f j
j =1
La fréquence cumulée décroissante est la somme des fréquences des valeurs supérieures ou égale.
I.5. Représentations des données et représentations graphiques.
1. Tableau
Nous avons vu qu’une série statistique à une variable peut se représenter par un tableau dont les
caractéristiques sont présentées en ligne ou en colonne.
Il peut être utile dans la plupart des cas de compléter le tableau par les fréquences cumulées
croissante en terme de pourcentage.
Donnons l’exemple significatif suivant :
Remarque : Pour une variable quantitative, les modalités sont mesurables. Ce sont :
•
les valeurs numériques ponctuelles lorsque la variable est discrète.
•
Des intervalles lorsque la variable est continue ou lorsque la variable est discrète et qu’elle
comporte beaucoup de modalités.
2. Graphique.
La représentation graphique des données relatives à un caractère unique repose sur la proportionnalité
des longueurs ou des aires des graphiques, aux effectifs ou aux fréquences , des différentes modalités du
caractère. On peut mettre en évidence :
•
Les « camemberts » utilisent la notion d’angle et de mesure d’angle. Malheureusement, ces
mesures ne sont pas toujours acquises
•
Les histogrammes et les graphiques en barres ou en bâtons utilisent une échelle verticale sur
laquelle on porte les effectifs ou les fréquences.
•
Des courbes de variations.
A. Cas d’une variable qualitative.
Dans ce cas, la seule représentation intéressante est celle des effectifs ou des fréquences. On met
en évidence :
* les tuyaux ou diagrammes en barres –ou à bandes.
* les diagrammes à secteurs ou circulaires ( ou camemberts)
Dans ce cas, l’effectif total est représenté par un disque. Chaque modalité est représentée par un secteur
circulaire dont la surface ( angle au centre ) est proportionnelle à l’effectif correspondant. L’exemple
suivant est significatif à ce titre :
• les diagrammes en bâtons.
On porte en abscisse les modalités de façon arbitraire. L’axe des ordonnées met en évidence des
segments dont la longueur est proportionnelle aux effectifs –ou aux fréquences – de chaque modalité.
On appelle alors polygone statistique la ligne obtenue en joignant les sommets des bâtons.
* Exemple :
En 1982, les recettes du budget de l’état se représentaient de la façon suivante :
Taxes sur la valeur ajoutée
Impôt sur le revenu
Impôts sur les sociétés
Taxe sur les produits pétroliers
Autres impôts
Recettes non fiscales
TOTAL
348
163
71
54
161
41
838
B. Cas d’une variable quantitative discrète.
Dans ce cas, la variable est la mesure du caractère.. Celle-ci peut être discrète ou continue. On
rappelle, à ce propos, qu’une variable est dite discrète lorsqu’elle n’est pas continue. Nous ne pouvons
avoir alors des intervalles. Il existe deux types de représentations graphiques :
• Diagramme différentiel ;
Il correspond à une représentation des effectifs ou des fréquences qui met en évidence les différences
d’effectifs ( ou de fréquences ) entre les différentes modalités ou classes.
La différence avec les variables qualitatives consiste en ce que les abscisses sont les valeurs numériques
de la variable statistique.
Les valeurs discrètes xi prises par les variables sont placées sur l’axe des abscisses et les effectifs –ou les
fréquences –sont placées sur l’axe des ordonnées. La hauteur du bâton est proportionnelle à l’effectif.
On peut également utiliser un diagramme à secteurs si on souhaite comparer la partie au tout.
Prenons pour exemple la série suivante :
C. Cas d’une variable quantitative continue.
C 1. Diagramme différentiel.
On utilise un histogramme. Celui-ci est constitué de rectangles contigus ayant pour base chacune des
classes et une aire proportionnelle à l’effectif ou à la fréquence de la classe correspondante.
C
2. Diagramme cumulatif.
Cela consiste à mettre en évidence une courbe cumulative des effectives et des fréquences
I.6. Modélisation mathématique- Paramètres de position et de dispersion.
A. Paramètres de position.
1. Le mode.
On appelle mode ( ou classe modale ) d’une série l’élément d’une population correspondant au plus
grand effectif. C’est la valeur observée d’effectif maximal.
Pour une variable discrète : Il faut classer les données par ordre croissant
Pour une variable continue : La classe modale correspond à la classe ayant l’effectif maximal. Il est
fortement conseillé d’utiliser un histogramme pour déterminer le mode. La meilleure des méthodes
expérimentales est de tenir compte des classes adjacentes :
2. La moyenne.
On appelle moyenne arithmétique de n nombres la valeur suivante :
x=
∑n x
i
i
i
n
Remarque : Si l’on a affaire à des classes ( ie intervalles ) il est nécessaire de considérer le milieu de
chaque classe, ainsi, on obtient :
x=
∑n c
i i
i
n
Théorème : il est aisé de mettre en évidence le caractère linéaire de la moyenne :
ax + b = a x + b
3. La médiane.
Pour une série ordonnée quelconque, on appelle la médiane Me la valeur qui sépare l’ensemble de
la population en deux partie de même effectif. :
*Pour des variables discrètes :
La détermination de Me peut s’obtenir à partir du tableau statistique en recherchant la valeur de
n
1
la variable correspondant à une fonction cumulée égale à
( pour les effectifs cumulés ) ou à = 50% (
2
2
pour les fréquences cumulées ). Il est toutefois nécessaire de faire attention à la parité de l’entier n :
- Si n est impair : n=2k+1, on a :
- Si n est pair : n=2k , on a :
Dans le cas d’une détermination graphique, cela est encore plus aisé
* Pour les variables continues
On détermine tout d’abord la classe médiane en se servant des fréquences cumulées croissantes. La
classe médiane correspond à l’intervalle qui contient la valeur 50% des fréquences cumulées. On affine
la détermination de Me en considérant le théorème de Thalès :
4.
L
4. L’étendue.
L’étendue d’une série est la différence entre la plus grande valeur et la plus petite valeur de la variable.
5. L’écart moyen
On appelle écart moyen le nombre e défini par la relation :
e=
1
∑ ( xi − x)
n i
6. La variance :
Nous avons déjà rencontré cette notion en terminale. Elle concerne la variable aléatoire X. On rappelle
que l’on a les relations suivantes :
2
1
V = [∑ ni xi2 ] − x
n i
Ou encore :
2
1
V = [∑ ni ci2 ] − x
n i
7. L’écart type.
Cette notion est également celle mise en évidence en classe de Terminale :
σ= V
On rappelle toutefois que cette notion est directement liée à la notion de dispersion entre toutes les
valeurs de la variable et la valeur moyenne de celle-ci. A ce titre, la sémantique « dispersion » est très
significative.
Nous mettrons en évidence dans les prochains cours concernant les lois de probabilités que 95%
de la population est comprise dans l’intervalle [ x − 2σ ; x + 2σ ]
8. Quartiles et déciles.
Ces notions sont relatives aux caractéristiques de position. En effet, nous avons vu que la médiane
partage la population en deux parties égales.
On peut imaginer de partager la population en quatre parties égales. Les quartiles Q1 , Q2 , etQ3
séparent les données observées en quatre parties identiques.
Il en est de même pour ce que l’on nomme les déciles : Il existe 9 déciles ( Di )1≤i≤9 séparant les
données observées en 10 groupes d’effectifs égaux.
La détermination des quartiles et des déciles s’opèrent de façon identique à celle de la valeur de la
médiane, en considérant le théorème de Thalès.
On appelle l’intervalle interquartile la différence entre le troisième et le premier quartile :

Documents pareils