prépa en ligne L1 bio stat Chap 1 Cours - Poly
Transcription
prépa en ligne L1 bio stat Chap 1 Cours - Poly
Daniel Abécassis. Année universitaire 2010/2011 Prépa- L1. Cours de bio-statistiques. Chapitre I : Series statistiques à une variable. I.1. Objectifs. Pour définir le sujet que nous allons traiter, je me permets de me référer au mathématicien français Laurent Schwartz : La statistique est un mode de pensée permettant de recueillir, de traiter et d’interpréter les données qu’on rencontre dans divers domaines et tout particulièrement dans les sciences de la vie, du fait que ces données présentent une caractéristique essentielle : la variabilité. Il est de ce point de vue clair qu’il existe un lien intime entre la notion de statistique et celle des probabilité : la théorie des probabilité modélise des phénomènes où le « hasard » intervient. On peut concevoir trois liens essentiels entre ces deux notions : 1. Les données observées sont très souvent entachées d’erreurs : Les lois des probabilités permettent de représenter les variations entres valeurs expérimentales et valeurs théoriques. 2. La répartition statistique d’une variable est souvent proche de modèles mathématiques. 3. Les échantillons d’individus observés sont la plupart du temps tirés au hasard, ceci pour assurer leur représentativité. Si le tirage est fait de façon équiprobable ( je reviendrai sur la signification de ce terme ) , chaque individu de la population a une probabilité constante et bien définie d’appartenir à l’échantillon. En prenant l’exemple évident d’une molécule médicamenteuse que l’on met sur le marché mondial, on peut comprendre le lien entre les données statistiques et les probabilités : Celles-ci permet de trouver une modélisation sur une population mondiale. I.2. La démarche statistique. On distingue deux grands aspect 1. L’aspect exploratoire : la statistique descriptive. Celle-ci a pour objectif de synthétiser, de résumer, de structurer l’information contenue dans les données concernant un phénomène étudié. On utilise des représentations graphiques ou des tableaux et on calcule quelques indicateurs. 2. L’aspect décisionnel : la statistique inférentielle. En général, les ensembles d’observation correspondent à des échantillons présentant un caractère aléatoire. On essaie de modéliser le phénomène à l’aide de modèles probabilistes. Cela permet sinon des prévisions, tout du moins des présomptions qui sont précieuses dans l’étude de certains faits ( sociaux, économiques ou industriels ). Cette étude permet alors la généralisation les propriétés d’un échantillon représentatif d’un ensemble plus vaste. Ceci étant, on comprend que la statistique descriptive précède la statistique inférentielle dans une démarche de traitement de données. Ces deux aspects se complètent et ne s’opposent pas. I.3. Définitions fondamentales. 1. population. Une population est un ensemble d’individus sur lesquels on étudie un caractère ou une variable ( qui prendra plusieurs valeurs ou modalités ). Une statistique porte ainsi sur un ensemble dit population dont les éléments sont appelés individus. 2. Echantillons. Lots. Un échantillon est une partie de la population considérée. On étudie un échantillon d’une population lorsque celle-ci est impossible à étudier dans son ensemble. On considère qu’un échantillon est représentatif d’une population dans son ensemble si celui-ci est suffisamment important. 3. Caractère : Variable Le caractère est un trait déterminé C présent chez tous les individus d’une population sur laquelle on effectue une statistique. C’est la propriété que l’on choisie d’observer et d’étudier dans la population ou sur l’échantillon considéré. En toute généralité, on distingue deux types de variables : A. Les variables qualitatives. Un caractère est dit qualitatif s’il est repérable sans être mesurable. A ce titre, les variables qualitatives produisent des valeurs non numériques. Prenons pour exemples évidents : -La couleur des yeux dans une population ; -La teinte de verres de lunettes. -Le sexe et la situation matrimoniale des salariés d’une entreprise. B. Les variables quantitatives. Un caractère est dit quantitatif s’il est mesurable. Ce sont des variables ordonnées, productives de nombres. Prenons les exemples évidents : -La puissance fiscale d’une automobile. -Le chiffre d’affaires d’une entreprise. -L’âge des salariés d’une entreprise. 4. Liens probabilistes. Par définition, on peut interpréter la probabilité d’un évènement aléatoire comme la valeur limite de la fréquence avec laquelle cet évènement se réalise au cours d’un nombre croissant de répétition de l’expérience. On peut répéter une expérience un nombre fini de fois, noté n. On aura alors observé une sous population appelée échantillon. Chaque expérience aléatoire produit un résultat xi . On disposera alors de n valeurs : x1 , x 2 ,...., x n , ensemble appelé échantillon de valeurs de la variable aléatoire X I.4. Définitions et notations. 1 Effectif et effectif total. On note généralement X le caractère ( variable ) étudié et xi la valeur ( ou modalité ) du caractère. On remarquera que dans le cas d’un caractère continu xi = ci , le centre de la classe. On notera : -n l’effectif total : Ce sera le nombre total d’individus qui composent la population. - ni l’effectif d’une valeur ou d’une classe ( ie d’un intervalle ) . Ce sera l’effectif d’une valeur xi ie le nombre d’individus associés à cette valeur. L’effectif d’une classe est le nombre d’éléments de cette classe. Classe x1 x2 xi xk Effectifs n1 n2 ni nk k n = ∑ ni i =1 est l’effectif total. 2. Fréquence. A. Fréquence d’une variable. C’est le rapport entre l’effectif de cette valeur et l’effectif total. fi = ni n B. Fréquence d’une classe : Elle est la proportion d’individus de la population appartenant à cette classe. On peut l’exprimer en terme de pourcentage. fi = ci n Remarque : Il est clair que k ∑f i =1 i =1 avec : 1 ≤ i ≤ k 3. effectif cumulé. L’effectif cumulé croissant d’une valeur est égal à la somme des effectifs des valeurs inférieures ou égale. i Ni = ∑ n j j =1 L’effectif cumulé décroissant d’une valeur est égal à la somme des effectifs des valeurs supérieures ou égal 4. Fréquence cumulé La fréquence cumulée croissante est la somme des fréquences des valeurs inférieures ou égale. i Fi = ∑ f j j =1 La fréquence cumulée décroissante est la somme des fréquences des valeurs supérieures ou égale. I.5. Représentations des données et représentations graphiques. 1. Tableau Nous avons vu qu’une série statistique à une variable peut se représenter par un tableau dont les caractéristiques sont présentées en ligne ou en colonne. Il peut être utile dans la plupart des cas de compléter le tableau par les fréquences cumulées croissante en terme de pourcentage. Donnons l’exemple significatif suivant : Remarque : Pour une variable quantitative, les modalités sont mesurables. Ce sont : • les valeurs numériques ponctuelles lorsque la variable est discrète. • Des intervalles lorsque la variable est continue ou lorsque la variable est discrète et qu’elle comporte beaucoup de modalités. 2. Graphique. La représentation graphique des données relatives à un caractère unique repose sur la proportionnalité des longueurs ou des aires des graphiques, aux effectifs ou aux fréquences , des différentes modalités du caractère. On peut mettre en évidence : • Les « camemberts » utilisent la notion d’angle et de mesure d’angle. Malheureusement, ces mesures ne sont pas toujours acquises • Les histogrammes et les graphiques en barres ou en bâtons utilisent une échelle verticale sur laquelle on porte les effectifs ou les fréquences. • Des courbes de variations. A. Cas d’une variable qualitative. Dans ce cas, la seule représentation intéressante est celle des effectifs ou des fréquences. On met en évidence : * les tuyaux ou diagrammes en barres –ou à bandes. * les diagrammes à secteurs ou circulaires ( ou camemberts) Dans ce cas, l’effectif total est représenté par un disque. Chaque modalité est représentée par un secteur circulaire dont la surface ( angle au centre ) est proportionnelle à l’effectif correspondant. L’exemple suivant est significatif à ce titre : • les diagrammes en bâtons. On porte en abscisse les modalités de façon arbitraire. L’axe des ordonnées met en évidence des segments dont la longueur est proportionnelle aux effectifs –ou aux fréquences – de chaque modalité. On appelle alors polygone statistique la ligne obtenue en joignant les sommets des bâtons. * Exemple : En 1982, les recettes du budget de l’état se représentaient de la façon suivante : Taxes sur la valeur ajoutée Impôt sur le revenu Impôts sur les sociétés Taxe sur les produits pétroliers Autres impôts Recettes non fiscales TOTAL 348 163 71 54 161 41 838 B. Cas d’une variable quantitative discrète. Dans ce cas, la variable est la mesure du caractère.. Celle-ci peut être discrète ou continue. On rappelle, à ce propos, qu’une variable est dite discrète lorsqu’elle n’est pas continue. Nous ne pouvons avoir alors des intervalles. Il existe deux types de représentations graphiques : • Diagramme différentiel ; Il correspond à une représentation des effectifs ou des fréquences qui met en évidence les différences d’effectifs ( ou de fréquences ) entre les différentes modalités ou classes. La différence avec les variables qualitatives consiste en ce que les abscisses sont les valeurs numériques de la variable statistique. Les valeurs discrètes xi prises par les variables sont placées sur l’axe des abscisses et les effectifs –ou les fréquences –sont placées sur l’axe des ordonnées. La hauteur du bâton est proportionnelle à l’effectif. On peut également utiliser un diagramme à secteurs si on souhaite comparer la partie au tout. Prenons pour exemple la série suivante : C. Cas d’une variable quantitative continue. C 1. Diagramme différentiel. On utilise un histogramme. Celui-ci est constitué de rectangles contigus ayant pour base chacune des classes et une aire proportionnelle à l’effectif ou à la fréquence de la classe correspondante. C 2. Diagramme cumulatif. Cela consiste à mettre en évidence une courbe cumulative des effectives et des fréquences I.6. Modélisation mathématique- Paramètres de position et de dispersion. A. Paramètres de position. 1. Le mode. On appelle mode ( ou classe modale ) d’une série l’élément d’une population correspondant au plus grand effectif. C’est la valeur observée d’effectif maximal. Pour une variable discrète : Il faut classer les données par ordre croissant Pour une variable continue : La classe modale correspond à la classe ayant l’effectif maximal. Il est fortement conseillé d’utiliser un histogramme pour déterminer le mode. La meilleure des méthodes expérimentales est de tenir compte des classes adjacentes : 2. La moyenne. On appelle moyenne arithmétique de n nombres la valeur suivante : x= ∑n x i i i n Remarque : Si l’on a affaire à des classes ( ie intervalles ) il est nécessaire de considérer le milieu de chaque classe, ainsi, on obtient : x= ∑n c i i i n Théorème : il est aisé de mettre en évidence le caractère linéaire de la moyenne : ax + b = a x + b 3. La médiane. Pour une série ordonnée quelconque, on appelle la médiane Me la valeur qui sépare l’ensemble de la population en deux partie de même effectif. : *Pour des variables discrètes : La détermination de Me peut s’obtenir à partir du tableau statistique en recherchant la valeur de n 1 la variable correspondant à une fonction cumulée égale à ( pour les effectifs cumulés ) ou à = 50% ( 2 2 pour les fréquences cumulées ). Il est toutefois nécessaire de faire attention à la parité de l’entier n : - Si n est impair : n=2k+1, on a : - Si n est pair : n=2k , on a : Dans le cas d’une détermination graphique, cela est encore plus aisé * Pour les variables continues On détermine tout d’abord la classe médiane en se servant des fréquences cumulées croissantes. La classe médiane correspond à l’intervalle qui contient la valeur 50% des fréquences cumulées. On affine la détermination de Me en considérant le théorème de Thalès : 4. L 4. L’étendue. L’étendue d’une série est la différence entre la plus grande valeur et la plus petite valeur de la variable. 5. L’écart moyen On appelle écart moyen le nombre e défini par la relation : e= 1 ∑ ( xi − x) n i 6. La variance : Nous avons déjà rencontré cette notion en terminale. Elle concerne la variable aléatoire X. On rappelle que l’on a les relations suivantes : 2 1 V = [∑ ni xi2 ] − x n i Ou encore : 2 1 V = [∑ ni ci2 ] − x n i 7. L’écart type. Cette notion est également celle mise en évidence en classe de Terminale : σ= V On rappelle toutefois que cette notion est directement liée à la notion de dispersion entre toutes les valeurs de la variable et la valeur moyenne de celle-ci. A ce titre, la sémantique « dispersion » est très significative. Nous mettrons en évidence dans les prochains cours concernant les lois de probabilités que 95% de la population est comprise dans l’intervalle [ x − 2σ ; x + 2σ ] 8. Quartiles et déciles. Ces notions sont relatives aux caractéristiques de position. En effet, nous avons vu que la médiane partage la population en deux parties égales. On peut imaginer de partager la population en quatre parties égales. Les quartiles Q1 , Q2 , etQ3 séparent les données observées en quatre parties identiques. Il en est de même pour ce que l’on nomme les déciles : Il existe 9 déciles ( Di )1≤i≤9 séparant les données observées en 10 groupes d’effectifs égaux. La détermination des quartiles et des déciles s’opèrent de façon identique à celle de la valeur de la médiane, en considérant le théorème de Thalès. On appelle l’intervalle interquartile la différence entre le troisième et le premier quartile :