02/02/2015 MANDRILLE Chloé D1 CR : BAUMIER Vincent

Transcription

02/02/2015 MANDRILLE Chloé D1 CR : BAUMIER Vincent
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
02/02/2015
MANDRILLE Chloé D1
CR : BAUMIER Vincent
Biomédecine quantitative
Professeur Bernard Giusiano
20 pages
Introduction à l'analyse quantitative (1)
Plan :
A. Introduction
B. Population, échantillon
I. Distribution
II. Échantillon
III.
Population
C. Statistiques descriptives : types de variables, paramètres
I. Variables
II. Caractérisation des données qualitatives et ordinales unidimensionnelles
III.
Caractérisation des données qualitatives à deux dimensions
IV.Caractérisation des données quantitatives à une dimension
V. Histogramme
D. Paramètres
I. Paramètres de position
II. Paramètres de dispersion
A. Introduction
La médecine est depuis longtemps considérée comme un art car le médecin doit faire des choix dans
l’incertitude. Cependant, avec le temps, la composante scientifique de la médecine devient de plus en plus
importante . En effet, la médecine repose sur des lois générales petit à petit mises en évidences.
2 exemples de personnes, d'expériences qui ont remis en question les savoirs et les protocoles de l'époque :
•
SAIGNEE : S. f. (Médecine thérapeutique) la saignée est une ouverture faite à un vaisseau sanguin,
pour en tirer le fluide qui y est contenu. C'est un des plus grands & des plus prompts moyens de
guérison que la Médecine connaisse. Encyclopédie de Diderot et d’Alembert, 1751.
A l'époque, on croyait que pratiquer des saignées permettait de guérir les patients de leur maladie. Or un
scientifique a fait des expériences dont le résultat est le suivant : Plus on pratique la saignée tôt, plus le
patient mourrait vite. Ce scientifique ne fut pas pris au sérieux par ses confrères à l'époque.
1/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
•
Au XIXeme siècle, un obstétricien anglais compara le taux de mortalité maternelle et infantile de deux
établissements. L'un avait un taux de mortalité deux fois plus élevé que l'autre . On compara alors les
pratiques des deux établissements. Dans celui où le taux de mortalité était le plus élevé, c'étaient des
étudiants qui pratiquaient les accouchements directement après avoir disséqué des cadavres.
L' obstétricien anglais émit alors l'hypothèse que les étudiants contaminaient les mères et les bébés via
leurs mains sales .Il décida alors d'instaurer le lavage de main avant chaque accouchement et on
observa une chute significative de la mortalité. Cet homme aussi ne fut pas pris au sérieux de suite.
Le premier essai clinique contrôlé
De 1740 à 1744 le commandant George Anson remporte plusieurs batailles sur les mers contre la flotte
espagnole.Ses victoires ont rapportées 1 313 843 pièces d’or et 35 682 onces d’argent pur. Cependant 4
hommes sont morts au combat et plus de 1000 hommes sont morts du scorbut.
En 1746, James LIND a suivi 12 marins malades sur 14 jours.
Il a divisé les marins en 6 paires : il a donné à la première paire 1 L. de cidre, à la deuxième 25 gouttes d’élixir
de vitriol, à la troisième 2 cuillères de vinaigre, à la quatrième ¼ L. d’eau de mer, à la cinquième une pâte
médicinale, et à la sixième paire 2 oranges et 1 citron.
On a observé une guérison spectaculaire et complète grâce à la vitamine C contenu dans l'orange et le citron .
B. Population, échantillon
La méthode statistique a pour but :
– de dégager certaines propriétés d’un ensemble de mesures ou d’observations,
– de décrire cet ensemble, appelé population.
La variabilité est la règle dans les sciences de la vie, ce qui n'est pas le cas dans d’autres domaines tel que
l'automobile : une voiture a toujours 4 roues, c'est une constante.
On observe que la distribution est plus ou moins large et symétrique dans le diagramme ci dessus.
2/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
I. Distribution
On prend l'exemple de la distribution de taille. On mesure donc 10 personnes et on représente ces mesures sur
un axe allant de 150 à 190 cm. Chaque cube correspond à une personne et l'ensemble des cubes va donc décrire
la population.
On réalise la même expérience mais cette fois avec 400 personnes :
1) Distribution normale
3/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
On inclut une infinité de personne. Il y a tellement de cubes que cela peut se résumer par une courbe en cloche
appelée aussi courbe de Gauss ou courbe de la loi normale. Sur le plan mathématique, on a établi l’équation
de cette droite qui va de -∞ à +∞. La probabilité que x soit sous la courbe est de 1 car x est compris entre ]-∞ ;
+∞[. L'aire sous la courbe représente donc la probabilité pour qu'un individu pris au hasard ait une taille
comprise dans cet intervalle .
2) Notion de paramètres
Du fait de la variabilité, on ne peut pas donner la valeur d’une seule mesure pour résumer la population. Par
exemple , si la taille moyenne d'une population est de 1m70 , cela ne nous donne pas une bonne idée de la taille
dans cette population. En effet les tailles pourraient être comprises entre 1m68 et 1m72 ou encore entre 1m50 et
1m90.
Il faut des indices qui puissent résumer valablement les observations. Souvent un seul ne suffit pas.
Exemple : moyenne et variance ( ou écart type = racine carré de la variance) pour le poids de naissance
II. Échantillon
Le plus souvent, la population ne peut pas être observée dans sa totalité. Cela serait trop long , trop cher ou
même impossible car parfois l'étude détruit l'individu. Pour illustrer ce dernier point on peut prendre l'exemple
de la machine à fabriquer les gélules. On souhaite mesurer la dose radioactive moyenne de chaque gélule. Or
pour ce faire il est nécessaire de casser les gélules. On ne peut pas tous les étudier car cela sous entendrait de
casser toutes les gélules...
On en tire donc un échantillon qui doit être représentatif de la population ( ne pas prendre que les plus grands
ou que les plus petits)
C’est cet échantillon que l’on va observer, c’est sur lui que l’on va faire les mesures, calculer les paramètres.
Puis on extrapolera les résultats à la population.
On prend donc notre population d'étude. On sélectionne au hasard quelques individus. On fait nos mesures et on
obtient la moyenne x de l'échantillon qui va permettre d'estimer la moyenne μ de la population.
4/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
1) Échantillon représentatif
Un bon échantillon doit correspondre à une image réduite de la population. L’échantillon doit être représentatif
de la population étudiée. Dans le cas contraire, on dit que l’échantillon est biaisé.
Le choix de l’échantillon et le recueil des données constitue la phase fondamentale, la plus longue, de l’étude.
2) Les Biais classiques
Les biais sont très nombreux
• Biais de recrutement : l'inclusion d'un sujet dans l'étude est liée à un ou plusieurs des facteurs étudiés et ne
repose pas sur le hasard.
• Effet "travailleur sain" : on le retrouve principalement dans des échantillons constitués à partir de
travailleurs dont l’état de santé n'est pas celui de la population générale. Par exemple pour notre enquête on
veut un échantillon témoin ; on fait appel à des étudiants.. Mais cela n'est pas représentatif de la population
générale.
• Effet "volontaire" : les échantillons constitués sur la base du volontariat posent les problèmes liés aux
motivations personnelles pouvant être induites par un état de santé particulier ou par une exposition à des
facteurs de risque dépendants du phénomène étudié .
• Biais d'admission (paradoxe de Berkson) : ce biais peut se retrouver dans les études où les échantillons
d'individus proviennent de services hospitaliers ayant, par exemple, un recrutement très spécifique. De ce fait
l’échantillon ne sera pas représentatif de la population cible.
• Non réponse - autosélection : l'inclusion d'un individu dans l'échantillon dépend d'une décision de sa part qui
peut être liée au phénomène étudié.
• Biais de "prévalence - incidence" (biais de Neyman) : il correspond à la situation ou des décès précoces
n'auront pas été pris en compte du fait du laps de temps entre l'exposition et son effet éventuel ou encore
lorsque des cas n'ont pas été découverts. Par exemple si on s’intéresse à l'effet de la pollution sur la survenue du
cancer , si on prend les personnes exposées par leur travail a tel substance entre 10 ou 20 ans , on va louper
ceux qui sont mort seulement après 3 ans . Attention au timing de la maladie quand on ne la connaît pas.
Un cardiologue voulait mettre en évidence que la tension des enfants pouvait prédire leur susceptibilité à
développer de l'hypertension artérielle quand ils seront adultes. Il a donc demandé aux médecins scolaires de
relever la tension des enfants. Cependant ce cardiologue n'a pas bien posé le problème , on note un manque de
rigueur. En effet, les mesures ne se font qu'à certains ages ( quand ils sont évalués par le médecin , laissant ainsi
de longues périodes sans mesure) . La tension n'est pas la même non plus lorsqu'on la prends avant ou après la
récréation . Il manque un cadre précis à cet étude.
« Si quelqu’un vient me demander conseil sur ce qu’il convient de faire en termes de statistiques alors qu’il a
déjà recueilli toutes les données, tout ce que je peux lui dire c’est comment est morte son étude. »
5/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
III.
Population
1) Quelle population ?
• Étude portant sur la consommation de tabac chez les français
- La population est l'ensemble des français et la caractéristique est la consommation de tabac. Il faudrait
préciser ici que la population est l'ensemble des français de plus de 12 ans par exemple.
• Étude portant sur la composition en mercure des ampoules électriques produites dans l'usine X.
-La population est constituée des ampoules électriques produites à l'usine X et la caractéristique étudiée est la
concentration en Hg. Il faudrait préciser ici la période.
• Une compagnie pharmaceutique veut vérifier un nouveau vaccin contre une certaine maladie. On
administre ce produit à 50 patients atteints de la maladie.
- La population est formée de tous les gens atteints de la maladie, l'échantillon est formé des 50 patients à qui
on a administré le médicament et la caractéristique étudiée est la réponse au médicament.
2) Échantillonnage
Une fois qu'on a notre population, on va faire un échantillonnage.
Tirage au hasard : un échantillon ne doit pas être choisi par commodité. La meilleure façon d’obtenir un
échantillon représentatif est par tirage au sort ou par tables de nombres aléatoires.
Stratification : parfois tous les individus ne sont pas égaux face au caractère étudié. On subdivise alors la
population en sous groupes ( strates) . On fait un tirage au sort dans les strates. Chaque strate peut être
représentée en fonction de son importance dans la population ( exemple du sondage politique : on divise
l’échantillon suivant les différentes catégories professionnelles).
Attention : l'échantillon n’est pas la population !
Du fait de la variabilité des mesures dans le monde vivant, l’échantillonnage est soumis à des fluctuations.
Du fait de ces fluctuations appelées fluctuations d’échantillonnage, les conclusions que l’on peut tirer à partir
d’un échantillon sont sujettes à erreur.
Le calcul d’un paramètre sur un échantillon ne permet que d’estimer le paramètre de la population
6/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
3) Fluctuations d’échantillonnage
Dans 1940 échantillons de 20 sujets, on a trouvé 6 malades. On sait par ailleurs que le vrai pourcentage est de
30 % ( simulé sur un ordinateur) . Mais tous les échantillons n'ont pas 30 % de malades : certain en ont 3
d'autres 11 etc ..c'est l'effet de la fluctuation de l’échantillonnage .
4) Intervalles de fluctuation et de confiance
Le pourcentage de malades dans un échantillon de 20 sujets est compris entre 15% et 50%... Mais seulement
pour 95% des 10000 échantillons. C'est l'intervalle de fluctuation.
• A partir d’un échantillon, on ne doit pas donner une valeur unique pour un pourcentage ou pour une moyenne,
mais un intervalle. C'est l'intervalle de confiance .
L'intervalle de confiance est une idée très importante. En effet si on nous dit dans un article qu'un traitement
guérit 70% des patients il faut faire attention aux nombres de personnes incluses dans l'étude. La précision n'est
pas la même pour 4 sujets que pour 200 sujets !
7/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
5) Probabilités et distribution normale
Pour les variables biologiques, la distribution normale ou de gauss apparaît très souvent . Elle se modélise par
une courbe en cloche.
La valeur la plus haute , modale est appelée moyenne. La courbe est symétrique autour de la moyenne.
Cette courbe fait une inflexion : entre le point d'inflexion et la valeur moyenne, on trouve la valeur de l'écart
type.
Cette distribution dépend uniquement de la moyenne et de l'écart type.
Ici moyenne = 3, 7 et écart type = 0.25
6) Estimation et intervalle de confiance
Les résultats d’une étude réalisée sur un échantillon représentatif de nourrissons masculins français âgés de 3
mois, ont donné une estimation de la taille moyenne de 60,2 cm avec un intervalle de confiance à 95% de
[59,2 ; 61,2]
Il y aurait donc 95 chances sur 100 que la taille moyenne des nourrissons masculins français de 3 mois soit
comprise entre 59,2 et 61,2 cm.
8/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
Distribution de la variable normale centrée réduite
Toute variable peut être transformée en variable centrée réduite en enlevant à toutes les valeurs la valeur de
la moyenne et en divisant toutes les valeurs par l'écart type.
Cette variable centrée réduite a une moyenne = 0 et un écart type =1.
L’intérêt principal est qu'on a une seule courbe connue avec des calculs d'aires sous la courbe simple.
On retrouvera la courbe initiale en multipliant par l'écart type et en rajoutant la moyenne.
C. Statistiques descriptives : types de variables, paramètres
Le but des statistiques descriptives est de décrire un ensemble d’observations à l’aide de quelques éléments
caractéristiques. Elle entraîne généralement une perte d’information.
Les méthodes descriptives dépendent de la nature (type) des variables.
I. Variables
Ce sont des caractéristiques ou facteurs susceptibles de prendre une valeur différente pour chaque individu
étudié.
On trouve différents types de variables :
– Qualitatives
– Quantitatives
– Temporelles
9/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
1) Les variables qualitatives
Elles sont non mesurables. Cela revient à définir des catégories ou classes exclusives correspondant aux
différentes modalités du caractère observé, puis à déterminer à quelle classe appartient chaque individu.
On dénombre les effectifs appartenant à chacune des classes
Exemples : le sexe, la couleur des yeux, l'efficacité ou la non efficacité d'un traitement, la nature des cellules
d'un tissu, le groupe sanguin …
Il existe 3 types de variables qualitatives :
- variables qualitatives ordinales ( les valeurs couvrent plusieurs classes ordonnées (exemple :petit moyen et
grand)
- variables qualitatives nominales ( classes sans ordre)
- variables qualitatives binaires ( variables nominales particulières : ne prend que 2 valeurs : Oui/ non ; blanc/
noir...)
2) Les variables quantitatives
Elles sont caractérisées par des valeurs numériques exploitables arithmétiquement ( on peut faire des
additions, des soustractions ..)
On distingue :
•
Les variables quantitatives continues : elles prennent n'importe quelles valeurs numériques dans
l'intervalle d'observation. Elles appartiennent à l'ensemble des réels : toutes les valeurs sont possibles .
Exemple : Poids 56,3 kg / taille 1,72 m / cholestérol 2,22 g/l
Ces variables sont très utilisées en médecine .
La précision est limitée par l'instrument de mesure
•
Les variables quantitatives discrètes . Ce sont des variables numériques discontinues . En général se
sont des valeurs entières . Elles correspondent souvent à un dénombrement.
Exemple : rechute d'une maladie 3 rechute par an / rappel de vaccin 4 injections / dentition 32 dents
Ces variables ne sont pas distribuées normalement la plupart du temps mais parfois on peut faire comme
si .
•
Les variables temporelles. Ce sont des variables quantitatives particulières utilisant les unités de temps.
Elles permettent l'analyse de la survie etc
schéma précédent à savoir !
10/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
II. caractérisation des données qualitatives et ordinales unidimensionnelles
On va pouvoir donner :
• La fréquence absolue et tableau des effectifs
• Les fréquences relatives ( pourcentage)
• Les fréquences cumulées ( relatives et absolues)
• un diagramme « camembert »
• un diagramme en bâtons et mode
1) Fréquence absolue et tableau des effectifs
La fréquence absolue est le nombre d'individus par classe.
Ce dénombrement donne lieu à une représentation des données sous forme de tableau.
Sur les classes ainsi formées, seules les opérations suivantes sont permises :
- réaliser des classes disjointes à partir d'une seule classe,
- regrouper certaines classes
La seule relation qui puisse être utilisée sur ces données est la relation d'appartenance à une même classe.
Exemple : regrouper les classes correspondant aux rhésus + ou - , ou ignorer le rhésus pour former les groupes
A, B, AB, O.
2) Fréquences relatives
Les fréquences relatives sont, pour chaque classe, le rapport de son effectif au nombre total d'individus de la
série des mesures.
La somme des fréquences relatives est égale à 1.
11/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
Parfois, les résultats sont exprimés en pourcentage, chacune des fréquences relatives étant multipliées par 100
et arrondies à l'unité.
3) le diagramme camembert
On peut représenter les effectifs absolus ou relatifs des classes par des secteurs de cercle dont la surface est
proportionnelle à l'effectif .
Le diagramme « camembert » est bien adapté à la représentation des données qualitatives « pures ».
4) Diagramme en bâtons
Pour les données ordinales on peut également représenter les fréquences absolues, relatives ou cumulées par un
diagramme en bâtons.
Exemple : échantillon de 500 cancéreux dont on a noté le stade
12/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
III. Caractérisation des données qualitatives à deux dimensions
Les modalités de deux variables qualitatives permettent de constituer des classes exclusives auxquelles sont
affectées chaque observation.
Les classes exclusives sont représentées sous la forme d'un tableau appelé tableau de contingence.
IV. Caractérisation des données quantitatives à une dimension
Rappel : les variables quantitatives peuvent être de deux types : variables discontinues ( ou discrètes ) et
variables continues.
Dans le cas des variables discontinues, il est possible de représenter les données par un diagramme en bâtons,
comme dans le cas de données ordinales.
Dans tous les cas, on peut diviser l'intervalle de variation de la variable en un certain nombre de classe et l'on
dénombre toutes les mesures à l'intérieur de chaque classe.
•
V. Histogramme :
C'est un diagramme en bâton un peu particulier
Pour le construction on porte sur l'axe des abscisses les extrémités de chaque classe.
Pour chacune d'elles on construit un rectangle dont la base est le segment limité aux extrémités de la classe et la
surface est proportionnelle à l'effectif de la classe.
13/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
Pour les variables quantitatives :
D. Paramètres
Il existe 2 types de paramètres :
•
Paramètres de POSITION :
- Médiane
- Quartiles, déciles, percentiles
- Mode
- Moyenne
- Fréquences relatives
•
Paramètres de DISPERSION :
- extrêmes ( minimum, maximum) donne une
idée de l’étalement mais trompeur
- entendue ( range ) ( max - minimum )
- intervalle interquartile
- variance
- écart type
- coefficient de variation
14/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
I. Paramètres de positions
1) Moyenne
La moyenne s'exprime dans les mêmes unités que les valeurs observées.
C'est un indicateur de tendance centrale servant à résumer une série de données d'une variable quantitative.
2) Médiane
C'est la valeur qui partage la série des individus en 2 groupes d'effectifs égaux .
La médiane est moins influencée que la moyenne arithmétique par les valeurs extrêmes de la variable.
La moitié des sujets présentent une valeur inférieure à la médiane. L'autre moitié une valeur supérieure à la
médiane.
La médiane est plus intéressante que la moyenne dans les distributions anormales
3) Quartiles
15/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
Le 1er quartile sépare 25% des valeurs les plus faibles et 75% des valeurs les plus élevées
Le 3eme quartile sépare 75% des valeurs les plus faibles et 25% des valeurs les plus élevées.
Le deuxième quartile sépare 50% des valeurs les plus faibles de 50% des valeurs les plus élevées
Le 2eme quartile est en faite la médiane !
II ) Paramètres de dispersion
1) Extrêmes ( Min-Max)
Ils sont très sensible aux valeurs extrêmes et permettent de détecter les erreurs .
•
2) Étendue :
Valeur Maximale – valeur Minimale
16/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
3) Espace interquartiles
Qi = Q3 – Q1
Cet espace contient 50% des valeurs de la série.
4) Écart type :
Écart type d'une population :
Écart type estimé d'une population à partir d'un échantillon :
L'écart type est la même grandeur que la moyenne. M +/-s
Sur le schéma ci dessus on observe différentes distributions en cloche avec des valeurs d'écart type différentes .
Plus l'écart type est petit, plus la courbe est pointue.
17/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
La distance entre la moyenne et la projection du point d'inflexion de la courbe donne l'écart type.
Conclusion :
Un distribution peut donc être résumé par :
– un paramètre de position
– un paramètre de dispersion
18/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
A méditer…
• « En France, en moyenne, chaque personne possède un testicule. » (anonyme)
• « Un enfant sur sept étant Chinois, nous nous sommes arrêtés à six. » (Marie-Lyse Aston)
• « Il y a trois sortes de mensonges : le mensonge simple, le fieffé mensonge, et les statistiques »
(Benjamin Disraeli)
19/20
BIOMEDECINE QUANTITATIVE - Introduction à l'analyse quantitative (1)
Retour des stats, même prof, la joie !
20/20

Documents pareils