02/02/2015 MANDRILLE Chloé D1 CR : BAUMIER Vincent
Transcription
02/02/2015 MANDRILLE Chloé D1 CR : BAUMIER Vincent
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) 02/02/2015 MANDRILLE Chloé D1 CR : BAUMIER Vincent Biomédecine quantitative Professeur Bernard Giusiano 20 pages Introduction à l'analyse quantitative (1) Plan : A. Introduction B. Population, échantillon I. Distribution II. Échantillon III. Population C. Statistiques descriptives : types de variables, paramètres I. Variables II. Caractérisation des données qualitatives et ordinales unidimensionnelles III. Caractérisation des données qualitatives à deux dimensions IV.Caractérisation des données quantitatives à une dimension V. Histogramme D. Paramètres I. Paramètres de position II. Paramètres de dispersion A. Introduction La médecine est depuis longtemps considérée comme un art car le médecin doit faire des choix dans l’incertitude. Cependant, avec le temps, la composante scientifique de la médecine devient de plus en plus importante . En effet, la médecine repose sur des lois générales petit à petit mises en évidences. 2 exemples de personnes, d'expériences qui ont remis en question les savoirs et les protocoles de l'époque : • SAIGNEE : S. f. (Médecine thérapeutique) la saignée est une ouverture faite à un vaisseau sanguin, pour en tirer le fluide qui y est contenu. C'est un des plus grands & des plus prompts moyens de guérison que la Médecine connaisse. Encyclopédie de Diderot et d’Alembert, 1751. A l'époque, on croyait que pratiquer des saignées permettait de guérir les patients de leur maladie. Or un scientifique a fait des expériences dont le résultat est le suivant : Plus on pratique la saignée tôt, plus le patient mourrait vite. Ce scientifique ne fut pas pris au sérieux par ses confrères à l'époque. 1/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) • Au XIXeme siècle, un obstétricien anglais compara le taux de mortalité maternelle et infantile de deux établissements. L'un avait un taux de mortalité deux fois plus élevé que l'autre . On compara alors les pratiques des deux établissements. Dans celui où le taux de mortalité était le plus élevé, c'étaient des étudiants qui pratiquaient les accouchements directement après avoir disséqué des cadavres. L' obstétricien anglais émit alors l'hypothèse que les étudiants contaminaient les mères et les bébés via leurs mains sales .Il décida alors d'instaurer le lavage de main avant chaque accouchement et on observa une chute significative de la mortalité. Cet homme aussi ne fut pas pris au sérieux de suite. Le premier essai clinique contrôlé De 1740 à 1744 le commandant George Anson remporte plusieurs batailles sur les mers contre la flotte espagnole.Ses victoires ont rapportées 1 313 843 pièces d’or et 35 682 onces d’argent pur. Cependant 4 hommes sont morts au combat et plus de 1000 hommes sont morts du scorbut. En 1746, James LIND a suivi 12 marins malades sur 14 jours. Il a divisé les marins en 6 paires : il a donné à la première paire 1 L. de cidre, à la deuxième 25 gouttes d’élixir de vitriol, à la troisième 2 cuillères de vinaigre, à la quatrième ¼ L. d’eau de mer, à la cinquième une pâte médicinale, et à la sixième paire 2 oranges et 1 citron. On a observé une guérison spectaculaire et complète grâce à la vitamine C contenu dans l'orange et le citron . B. Population, échantillon La méthode statistique a pour but : – de dégager certaines propriétés d’un ensemble de mesures ou d’observations, – de décrire cet ensemble, appelé population. La variabilité est la règle dans les sciences de la vie, ce qui n'est pas le cas dans d’autres domaines tel que l'automobile : une voiture a toujours 4 roues, c'est une constante. On observe que la distribution est plus ou moins large et symétrique dans le diagramme ci dessus. 2/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) I. Distribution On prend l'exemple de la distribution de taille. On mesure donc 10 personnes et on représente ces mesures sur un axe allant de 150 à 190 cm. Chaque cube correspond à une personne et l'ensemble des cubes va donc décrire la population. On réalise la même expérience mais cette fois avec 400 personnes : 1) Distribution normale 3/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) On inclut une infinité de personne. Il y a tellement de cubes que cela peut se résumer par une courbe en cloche appelée aussi courbe de Gauss ou courbe de la loi normale. Sur le plan mathématique, on a établi l’équation de cette droite qui va de -∞ à +∞. La probabilité que x soit sous la courbe est de 1 car x est compris entre ]-∞ ; +∞[. L'aire sous la courbe représente donc la probabilité pour qu'un individu pris au hasard ait une taille comprise dans cet intervalle . 2) Notion de paramètres Du fait de la variabilité, on ne peut pas donner la valeur d’une seule mesure pour résumer la population. Par exemple , si la taille moyenne d'une population est de 1m70 , cela ne nous donne pas une bonne idée de la taille dans cette population. En effet les tailles pourraient être comprises entre 1m68 et 1m72 ou encore entre 1m50 et 1m90. Il faut des indices qui puissent résumer valablement les observations. Souvent un seul ne suffit pas. Exemple : moyenne et variance ( ou écart type = racine carré de la variance) pour le poids de naissance II. Échantillon Le plus souvent, la population ne peut pas être observée dans sa totalité. Cela serait trop long , trop cher ou même impossible car parfois l'étude détruit l'individu. Pour illustrer ce dernier point on peut prendre l'exemple de la machine à fabriquer les gélules. On souhaite mesurer la dose radioactive moyenne de chaque gélule. Or pour ce faire il est nécessaire de casser les gélules. On ne peut pas tous les étudier car cela sous entendrait de casser toutes les gélules... On en tire donc un échantillon qui doit être représentatif de la population ( ne pas prendre que les plus grands ou que les plus petits) C’est cet échantillon que l’on va observer, c’est sur lui que l’on va faire les mesures, calculer les paramètres. Puis on extrapolera les résultats à la population. On prend donc notre population d'étude. On sélectionne au hasard quelques individus. On fait nos mesures et on obtient la moyenne x de l'échantillon qui va permettre d'estimer la moyenne μ de la population. 4/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) 1) Échantillon représentatif Un bon échantillon doit correspondre à une image réduite de la population. L’échantillon doit être représentatif de la population étudiée. Dans le cas contraire, on dit que l’échantillon est biaisé. Le choix de l’échantillon et le recueil des données constitue la phase fondamentale, la plus longue, de l’étude. 2) Les Biais classiques Les biais sont très nombreux • Biais de recrutement : l'inclusion d'un sujet dans l'étude est liée à un ou plusieurs des facteurs étudiés et ne repose pas sur le hasard. • Effet "travailleur sain" : on le retrouve principalement dans des échantillons constitués à partir de travailleurs dont l’état de santé n'est pas celui de la population générale. Par exemple pour notre enquête on veut un échantillon témoin ; on fait appel à des étudiants.. Mais cela n'est pas représentatif de la population générale. • Effet "volontaire" : les échantillons constitués sur la base du volontariat posent les problèmes liés aux motivations personnelles pouvant être induites par un état de santé particulier ou par une exposition à des facteurs de risque dépendants du phénomène étudié . • Biais d'admission (paradoxe de Berkson) : ce biais peut se retrouver dans les études où les échantillons d'individus proviennent de services hospitaliers ayant, par exemple, un recrutement très spécifique. De ce fait l’échantillon ne sera pas représentatif de la population cible. • Non réponse - autosélection : l'inclusion d'un individu dans l'échantillon dépend d'une décision de sa part qui peut être liée au phénomène étudié. • Biais de "prévalence - incidence" (biais de Neyman) : il correspond à la situation ou des décès précoces n'auront pas été pris en compte du fait du laps de temps entre l'exposition et son effet éventuel ou encore lorsque des cas n'ont pas été découverts. Par exemple si on s’intéresse à l'effet de la pollution sur la survenue du cancer , si on prend les personnes exposées par leur travail a tel substance entre 10 ou 20 ans , on va louper ceux qui sont mort seulement après 3 ans . Attention au timing de la maladie quand on ne la connaît pas. Un cardiologue voulait mettre en évidence que la tension des enfants pouvait prédire leur susceptibilité à développer de l'hypertension artérielle quand ils seront adultes. Il a donc demandé aux médecins scolaires de relever la tension des enfants. Cependant ce cardiologue n'a pas bien posé le problème , on note un manque de rigueur. En effet, les mesures ne se font qu'à certains ages ( quand ils sont évalués par le médecin , laissant ainsi de longues périodes sans mesure) . La tension n'est pas la même non plus lorsqu'on la prends avant ou après la récréation . Il manque un cadre précis à cet étude. « Si quelqu’un vient me demander conseil sur ce qu’il convient de faire en termes de statistiques alors qu’il a déjà recueilli toutes les données, tout ce que je peux lui dire c’est comment est morte son étude. » 5/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) III. Population 1) Quelle population ? • Étude portant sur la consommation de tabac chez les français - La population est l'ensemble des français et la caractéristique est la consommation de tabac. Il faudrait préciser ici que la population est l'ensemble des français de plus de 12 ans par exemple. • Étude portant sur la composition en mercure des ampoules électriques produites dans l'usine X. -La population est constituée des ampoules électriques produites à l'usine X et la caractéristique étudiée est la concentration en Hg. Il faudrait préciser ici la période. • Une compagnie pharmaceutique veut vérifier un nouveau vaccin contre une certaine maladie. On administre ce produit à 50 patients atteints de la maladie. - La population est formée de tous les gens atteints de la maladie, l'échantillon est formé des 50 patients à qui on a administré le médicament et la caractéristique étudiée est la réponse au médicament. 2) Échantillonnage Une fois qu'on a notre population, on va faire un échantillonnage. Tirage au hasard : un échantillon ne doit pas être choisi par commodité. La meilleure façon d’obtenir un échantillon représentatif est par tirage au sort ou par tables de nombres aléatoires. Stratification : parfois tous les individus ne sont pas égaux face au caractère étudié. On subdivise alors la population en sous groupes ( strates) . On fait un tirage au sort dans les strates. Chaque strate peut être représentée en fonction de son importance dans la population ( exemple du sondage politique : on divise l’échantillon suivant les différentes catégories professionnelles). Attention : l'échantillon n’est pas la population ! Du fait de la variabilité des mesures dans le monde vivant, l’échantillonnage est soumis à des fluctuations. Du fait de ces fluctuations appelées fluctuations d’échantillonnage, les conclusions que l’on peut tirer à partir d’un échantillon sont sujettes à erreur. Le calcul d’un paramètre sur un échantillon ne permet que d’estimer le paramètre de la population 6/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) 3) Fluctuations d’échantillonnage Dans 1940 échantillons de 20 sujets, on a trouvé 6 malades. On sait par ailleurs que le vrai pourcentage est de 30 % ( simulé sur un ordinateur) . Mais tous les échantillons n'ont pas 30 % de malades : certain en ont 3 d'autres 11 etc ..c'est l'effet de la fluctuation de l’échantillonnage . 4) Intervalles de fluctuation et de confiance Le pourcentage de malades dans un échantillon de 20 sujets est compris entre 15% et 50%... Mais seulement pour 95% des 10000 échantillons. C'est l'intervalle de fluctuation. • A partir d’un échantillon, on ne doit pas donner une valeur unique pour un pourcentage ou pour une moyenne, mais un intervalle. C'est l'intervalle de confiance . L'intervalle de confiance est une idée très importante. En effet si on nous dit dans un article qu'un traitement guérit 70% des patients il faut faire attention aux nombres de personnes incluses dans l'étude. La précision n'est pas la même pour 4 sujets que pour 200 sujets ! 7/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) 5) Probabilités et distribution normale Pour les variables biologiques, la distribution normale ou de gauss apparaît très souvent . Elle se modélise par une courbe en cloche. La valeur la plus haute , modale est appelée moyenne. La courbe est symétrique autour de la moyenne. Cette courbe fait une inflexion : entre le point d'inflexion et la valeur moyenne, on trouve la valeur de l'écart type. Cette distribution dépend uniquement de la moyenne et de l'écart type. Ici moyenne = 3, 7 et écart type = 0.25 6) Estimation et intervalle de confiance Les résultats d’une étude réalisée sur un échantillon représentatif de nourrissons masculins français âgés de 3 mois, ont donné une estimation de la taille moyenne de 60,2 cm avec un intervalle de confiance à 95% de [59,2 ; 61,2] Il y aurait donc 95 chances sur 100 que la taille moyenne des nourrissons masculins français de 3 mois soit comprise entre 59,2 et 61,2 cm. 8/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) Distribution de la variable normale centrée réduite Toute variable peut être transformée en variable centrée réduite en enlevant à toutes les valeurs la valeur de la moyenne et en divisant toutes les valeurs par l'écart type. Cette variable centrée réduite a une moyenne = 0 et un écart type =1. L’intérêt principal est qu'on a une seule courbe connue avec des calculs d'aires sous la courbe simple. On retrouvera la courbe initiale en multipliant par l'écart type et en rajoutant la moyenne. C. Statistiques descriptives : types de variables, paramètres Le but des statistiques descriptives est de décrire un ensemble d’observations à l’aide de quelques éléments caractéristiques. Elle entraîne généralement une perte d’information. Les méthodes descriptives dépendent de la nature (type) des variables. I. Variables Ce sont des caractéristiques ou facteurs susceptibles de prendre une valeur différente pour chaque individu étudié. On trouve différents types de variables : – Qualitatives – Quantitatives – Temporelles 9/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) 1) Les variables qualitatives Elles sont non mesurables. Cela revient à définir des catégories ou classes exclusives correspondant aux différentes modalités du caractère observé, puis à déterminer à quelle classe appartient chaque individu. On dénombre les effectifs appartenant à chacune des classes Exemples : le sexe, la couleur des yeux, l'efficacité ou la non efficacité d'un traitement, la nature des cellules d'un tissu, le groupe sanguin … Il existe 3 types de variables qualitatives : - variables qualitatives ordinales ( les valeurs couvrent plusieurs classes ordonnées (exemple :petit moyen et grand) - variables qualitatives nominales ( classes sans ordre) - variables qualitatives binaires ( variables nominales particulières : ne prend que 2 valeurs : Oui/ non ; blanc/ noir...) 2) Les variables quantitatives Elles sont caractérisées par des valeurs numériques exploitables arithmétiquement ( on peut faire des additions, des soustractions ..) On distingue : • Les variables quantitatives continues : elles prennent n'importe quelles valeurs numériques dans l'intervalle d'observation. Elles appartiennent à l'ensemble des réels : toutes les valeurs sont possibles . Exemple : Poids 56,3 kg / taille 1,72 m / cholestérol 2,22 g/l Ces variables sont très utilisées en médecine . La précision est limitée par l'instrument de mesure • Les variables quantitatives discrètes . Ce sont des variables numériques discontinues . En général se sont des valeurs entières . Elles correspondent souvent à un dénombrement. Exemple : rechute d'une maladie 3 rechute par an / rappel de vaccin 4 injections / dentition 32 dents Ces variables ne sont pas distribuées normalement la plupart du temps mais parfois on peut faire comme si . • Les variables temporelles. Ce sont des variables quantitatives particulières utilisant les unités de temps. Elles permettent l'analyse de la survie etc schéma précédent à savoir ! 10/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) II. caractérisation des données qualitatives et ordinales unidimensionnelles On va pouvoir donner : • La fréquence absolue et tableau des effectifs • Les fréquences relatives ( pourcentage) • Les fréquences cumulées ( relatives et absolues) • un diagramme « camembert » • un diagramme en bâtons et mode 1) Fréquence absolue et tableau des effectifs La fréquence absolue est le nombre d'individus par classe. Ce dénombrement donne lieu à une représentation des données sous forme de tableau. Sur les classes ainsi formées, seules les opérations suivantes sont permises : - réaliser des classes disjointes à partir d'une seule classe, - regrouper certaines classes La seule relation qui puisse être utilisée sur ces données est la relation d'appartenance à une même classe. Exemple : regrouper les classes correspondant aux rhésus + ou - , ou ignorer le rhésus pour former les groupes A, B, AB, O. 2) Fréquences relatives Les fréquences relatives sont, pour chaque classe, le rapport de son effectif au nombre total d'individus de la série des mesures. La somme des fréquences relatives est égale à 1. 11/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) Parfois, les résultats sont exprimés en pourcentage, chacune des fréquences relatives étant multipliées par 100 et arrondies à l'unité. 3) le diagramme camembert On peut représenter les effectifs absolus ou relatifs des classes par des secteurs de cercle dont la surface est proportionnelle à l'effectif . Le diagramme « camembert » est bien adapté à la représentation des données qualitatives « pures ». 4) Diagramme en bâtons Pour les données ordinales on peut également représenter les fréquences absolues, relatives ou cumulées par un diagramme en bâtons. Exemple : échantillon de 500 cancéreux dont on a noté le stade 12/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) III. Caractérisation des données qualitatives à deux dimensions Les modalités de deux variables qualitatives permettent de constituer des classes exclusives auxquelles sont affectées chaque observation. Les classes exclusives sont représentées sous la forme d'un tableau appelé tableau de contingence. IV. Caractérisation des données quantitatives à une dimension Rappel : les variables quantitatives peuvent être de deux types : variables discontinues ( ou discrètes ) et variables continues. Dans le cas des variables discontinues, il est possible de représenter les données par un diagramme en bâtons, comme dans le cas de données ordinales. Dans tous les cas, on peut diviser l'intervalle de variation de la variable en un certain nombre de classe et l'on dénombre toutes les mesures à l'intérieur de chaque classe. • V. Histogramme : C'est un diagramme en bâton un peu particulier Pour le construction on porte sur l'axe des abscisses les extrémités de chaque classe. Pour chacune d'elles on construit un rectangle dont la base est le segment limité aux extrémités de la classe et la surface est proportionnelle à l'effectif de la classe. 13/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) Pour les variables quantitatives : D. Paramètres Il existe 2 types de paramètres : • Paramètres de POSITION : - Médiane - Quartiles, déciles, percentiles - Mode - Moyenne - Fréquences relatives • Paramètres de DISPERSION : - extrêmes ( minimum, maximum) donne une idée de l’étalement mais trompeur - entendue ( range ) ( max - minimum ) - intervalle interquartile - variance - écart type - coefficient de variation 14/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) I. Paramètres de positions 1) Moyenne La moyenne s'exprime dans les mêmes unités que les valeurs observées. C'est un indicateur de tendance centrale servant à résumer une série de données d'une variable quantitative. 2) Médiane C'est la valeur qui partage la série des individus en 2 groupes d'effectifs égaux . La médiane est moins influencée que la moyenne arithmétique par les valeurs extrêmes de la variable. La moitié des sujets présentent une valeur inférieure à la médiane. L'autre moitié une valeur supérieure à la médiane. La médiane est plus intéressante que la moyenne dans les distributions anormales 3) Quartiles 15/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) Le 1er quartile sépare 25% des valeurs les plus faibles et 75% des valeurs les plus élevées Le 3eme quartile sépare 75% des valeurs les plus faibles et 25% des valeurs les plus élevées. Le deuxième quartile sépare 50% des valeurs les plus faibles de 50% des valeurs les plus élevées Le 2eme quartile est en faite la médiane ! II ) Paramètres de dispersion 1) Extrêmes ( Min-Max) Ils sont très sensible aux valeurs extrêmes et permettent de détecter les erreurs . • 2) Étendue : Valeur Maximale – valeur Minimale 16/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) 3) Espace interquartiles Qi = Q3 – Q1 Cet espace contient 50% des valeurs de la série. 4) Écart type : Écart type d'une population : Écart type estimé d'une population à partir d'un échantillon : L'écart type est la même grandeur que la moyenne. M +/-s Sur le schéma ci dessus on observe différentes distributions en cloche avec des valeurs d'écart type différentes . Plus l'écart type est petit, plus la courbe est pointue. 17/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) La distance entre la moyenne et la projection du point d'inflexion de la courbe donne l'écart type. Conclusion : Un distribution peut donc être résumé par : – un paramètre de position – un paramètre de dispersion 18/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) A méditer… • « En France, en moyenne, chaque personne possède un testicule. » (anonyme) • « Un enfant sur sept étant Chinois, nous nous sommes arrêtés à six. » (Marie-Lyse Aston) • « Il y a trois sortes de mensonges : le mensonge simple, le fieffé mensonge, et les statistiques » (Benjamin Disraeli) 19/20 BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1) Retour des stats, même prof, la joie ! 20/20