statistique descriptive

Transcription

statistique descriptive
STATISTIQUE DESCRIPTIVE
A QUOI SERT LA STATISTIQUE?
1. Ordonner un flux important d
d’informations
informations
2. Réaliser une induction statistique
CHIFFRES DE LA
DELINQUANCE
Evolution trimestrielle depuis 2001
La
statistique permet de rendre lisible
un flux
fl important
i
de
d données.
d
é
Actifs sportifs en fonction du revenu
Les gens qui pratiquent le plus seraient les plus
aisés
Lien entre prix de la licence et nombre de
licenciés
L’augmentation du prix de la licence est en
relation avec une diminution du nombre de
licenciés.
 La
statistique permet de tirer des conclusions sur
le lien existant entre plusieurs variables
 La
statistique permet de tirer des conclusions sur
des actions à entreprendre
entreprendre.
A
la condition d’une rigueur méthodologique
N
Notes
obtenues
b
par une promotion
i
La statistique permet de résumer un ensemble de
données.
1 Les variables
 1-1 Les différents niveaux de mesure
 1-2
1 2 Précisions
Pé ii
méthodologiques
éth d l i
sur les
l variables
i bl
 11-33 Groupes expérimentaux
2-1-1 Les différents niveaux de mesure
•
Variable nominale
•
Variable ordinale
•
Variable d'intervalle
•
Variable numérique (de rapport)
2-1-1 Les différents niveaux de mesure
•
Variable nominale
-très
très peu structurée
-distribue
distribue la population étudiée en classe
d’équivalence:
d
équivalence: aucun classement ordonné.
ordonné
-classification.
classification
Nature des blessures en football
amateur (5 à 30 ans)
Données 1250 cas
(SHIRPT)
•Pas
Pas de blessure plus
grave qu’une autre.
Répartition des médailles
aux Jeux Olympiques
Pays
ALLEMAGNE
AUSTRALIE
BULGARIE
CHINE
FRANCE
JAPON
USA
RUSSIE
Nombre de
médailles
48
49
12
63
37
39
103
92
•On peut diminuer le nombre
de variables:
- continent
-pays fortement industrialisées
-population
l i
Pertinence du choix du
ggroupement
p
en fonction de
l’objet d’étude n’est pas du
ressort de la statistique
Attention: un nombre peut être
une variable nominale!!!
Années
Nb Mariages
Nb Divorces
1998
271 361
116 515
1999
286 191
116 813
2000
297 922
114 005
2001
288 255
112 631
INSEE 2004
INSEE,
V i bl nominale
Variable
i l

Utilité / flux d’informations important

Sociologie, grilles d’observation sur le terrain.
2-1-1 Les différents niveaux de mesure
•
Variable ordinale
-structure d’ordre
-classement
-impossible
i
ibl de
d quantifier
tifi l’écart
l’é t entre
t 2 classes
l
Mesure de
l’
l’extension
i du
d
tronc
tronc.
Normal et bon
•Ordre dans la mesure de la
variable.
•Impossibilité de quantifier
la différence entre 2 classes
Passable
Nb
N
Normal
l
X
passable Y
médiocre z
Médiocre
2-1-1 Les différents niveaux de mesure
• Variable d'intervalle
-intervalles séparant 2 valeurs calculables et comparables
(soustraction-addition).
-définition
définition arbitraire: zéro-origine,
zéro origine unité étalon.
étalon
-Impossibilité rapport entre 2 valeurs de la variable
Exemple de 2 échelles d’intervalles arbitraires:
La mesure de température
Echelle
C1
C2
C3
C4
C li
Celsius
10
30
70
125
Echelle
F1
F2
F3
F4
Fahrenh
eit
50
86
158
257
Possible:
Impossible:
((C2-C1))/(F
( 2-F1))=0,55
C2/C1=3
(C4-C3)/(F4-F3)=0,55
F2/F1=1,72
F = 1,8 C + 32
fahrenheit
0 dC  32 dF
100 dC  212 dF
A = 11,8
8
B = 32
Celcius
Y= a X + B
l B et a sont arbitraires
le
bi i
N
Notes
au concours dde ki
kinésithérapie
é i hé i
0
5
10
15
20
Comparaison possible notes même examen (unité points).
I
Impossibilité
ibili é d’établir
d’é bli des
d relations
l i
de
d rapport.
Normalement, 2 manières d’évaluation ont relation de rapport.
Malhonnête intellectuelle d’additionner 2 notes issues évaluation
différente sans précaution.
2-1-1 Les différents niveaux de mesure
•
Variable de rapport (numérique)
-zéro non arbitraire
-Scores et intervalles applicables aux opérations arithmétiques
-Unités arbitraires
yards (0,914-m), miles (1609-m), mille (1852-m)
Année lumière (9461 .10
109 km),
km) parsec (30857
(30857.10
109 km).
km)
E
Exemples:
l JO 2004 disque
di
femme
f
m
yards
67.02
73,3
1
Sadova Natalya
RUS
2
Kelesídou Anastasía
GRE 66.68
72,95
3
Yatchenko Irina
BLR
66.17
72 39
72,39
4
Pospíšilová-Cechlová Vera
CZE
66.08
72,26
5
Antonova Olena
UKR 65.75
71,9
6
Grasu Nicoleta
ROM 64.92
64 92
71,03
7
Faumuina Beatrice
NZL
69 42
69,42
63.45
Y X
Y=aX
a reste arbitraire
bi i
73,5
73
72,5
72
71,5
71
70,5
70
69 5
69,5
69
63
64
65
66
67
68
V i bl
Variable
Etat Qualitatif:
-nominale: nature des blessures
Nature des
blessures en FB
Fréquence
d’apparition
Membres >
0,52
t
tronc
0 06
0,06
Tête
0,17
Tête visage
0,25
Total
1
 + Population importante, +
fréquence = probabilité
V i bl
Variable
Etat Qualitatif
-variable
variable ordinale
Fréquence pratique sportive
Probabilité
d’apparition
quotidiennement
idi
0,4
Plusieurs fois semaine
03
0,3
hebdomadaire
0,1
exceptionnellement
0,1
jamais
0,1
V i bl
Variable
Etat Quantitatif
-discrète:
discrète: « qui passe dd’une
une valeur ponctuelle à une autre »
Nombre de
buts par
match
0
1
2
3
Fréquence
d’apparition
d
apparition
4
0,10
5
0,05
0,09
0
09
0,17
0 28
0,28
0,31
Manipulation du
type continue
Ex: 2,6 buts /match
Variable
continue
Etat Quantitatif
-continue:
ti
« entre
t 2 valeurs
l
quelconques,
l
il estt
possible de situer une valeur intermédiaire »
La loi de probabilité pour chaque valeur de la variable est
donc impossible
 La
L probabilité
b bilité désigne
dé i
les
l chances
h
d’apparition
d’
iti de
d la
l
valeur dans un petit intervalle qui comprend cette valeur.

1
Sadova Natalya
RUS
67.02
2
Kelesídou Anastasía
GRE 66.68
3
Yatchenko Irina
BLR
66.17
4
Pospíšilová-Cechlová Vera
CZE
66.08
5
Antonova Olena
UKR 65.75
6
Grasu Nicoleta
ROM 64.92
64 92
7
Faumuina Beatrice
NZL
63.45
Pi?
L variables
Les
i bl
4 structures
t t
de
d variables:
i bl
-nominale
-ordinale
-intervalle
i
ll
-de rapport.
pp
3 niveaux de mesure
-qualitatifs
-quantitatifs
tit tif (discrètes
(di èt ou
continues)
2-1-3 Précisions méthodologiques sur les variables
•
variable indépendante
•
variable
i bl dépendante
dé d t
•
variable parasite
L variable
La
i bl indépendante
i dé d
« celle que l’expérimentateur fait varier afin de déceler
des effets …»
2 VI:
VI:- type dd’entraînement
entraînement (groupe)
- temps d’entraînement (session)
V i bl indépendante
Variable
i dé d
Le choix des groupes correspond à une variable
indépendante.
dépe da e.
Effet
ff de la consommation d’alcool ppersonnelle
sur l’estimation de la consommation des autres
Estimation de la
consommation de la
population locale
Grand buveur régulier
+++
Grand buveur occasionnel
+
Buveur modéré
Ok
C
Cameron,
2003
L variable
La
i bl indépendante
i dé d
-provoquée:
é explicitement
li it
t pris
i en compte
t par
l’expérimentateur.
-invoquée:
invoquée: modalités pré
pré-établies,
établies sexe
sexe, age
age, taille
taille,
niveau sociologique, traits de personnalité.
L variable
La
i bl dépendante
dé d
« ce que l’expérimentateur mesure de façon différenciée en réponse
aux modifications systématiques qu’il fait subir à la variable
indépendante »
4 VD: - RM
- Nb répétition
-PMA
PMA
-Fc max
Les variable indépendantes
et dépendantes
4 structures
t t
de
d variables:
i bl
-nominale
-ordinale
-intervalle
i
ll
-de rapport.
pp
3 niveaux de mesure
-qualitatifs
-quantitatifs
tit tif (discrêtes
(di êt ett
continues)
L variable
La
i bl parasite
i
« variable indésirable, susceptible d’intervenir sur
la variable dépendante sans que ll’expérimentateur
expérimentateur
soit capable d’en mesurer les effets »
 Si
elle est contrôlée: neutralisée
Exemples:
E
l nutrition,
t iti motivation,
ti ti personnalité
lité de
d
l’entraîneur…
E
Exemple
l de
d variables
i bl parasites
i
Effet d’un type d’entraînement
sur les performances d’un
groupe d’étalons.
dé l
VI: entraînement (distances
longues / courtes)
VD: p
placement courses dans
l’année.
Ré l
Résultats
fictifs
fi if
4
5
6
7
8
9
10
5.2 5.1 4.9
4.8
4.7
4.5
4.2
6.8
6.9
3.1
4.9 5.2 4.9
5.1
4.9
4.8
4.7
5.4
7
4.7
courses
1
Long
court
2
3
Une variable parasite pourrait avoir une influence sur
la variable place lors de la course?
Variable parasite
-chaleur des juments
Variable neutralisée
g
-hongre
-course sans jument
Li entre les
Lien
l variables
i bl
-Comparaison
-Lien de causalité
-Interaction
COMPARAISONS
Effet variation type de population sur notes
NOTES
BLONDES
??????????????
BRUNES
????????????????
Comparaisons de 3 modalités de la
variable indépendante
Alcool
(0.5g/kg)
Bière
Pic
d’alcoolémie
(g/l)
0.5
Vin
0.65
Whisky coca
0.7
Jusque x
modalités
d li é
Comparaison pour le même groupe
VI: temps
VD: poids
Evolution pondérale chez treize hommes sains de poids
normal et stable (D'après Debry G.)
Comparaisons
p
de
-3 modalités de la
VI (alcool)
( l l) sur la
l
VD
-5 modalités de la
VI (temps) sur
VD
Alcoolémies après consommation de 0,5 g
d'alcool pur/kg de poids selon le type de
boisson (D'après Lereboullet J.)
M
Mesure
ddes li
liens de
d causalité
li é
 Représente
le lien entre 2 variables
 La
L manière
iè dont
d t évolue
é l une variable
i bl / l’évolution
l’é l ti
de l’autre
 Appelée mesure de la corrélation:
-si
si relation linéaire: corrélation linéaire
Différent d’un lien de cause à effet.
Le nuage de points
Description relation
entre 2 variables
quantitatives mesurées
sur les même quantités
statistiques
M(x,y)
x: valeur de VI
(explicative)
Y:valeur de VD (à
expliquer)
R l i linéaire
Relation
li é i entre 2 variables
i bl
Une relation est dite linéaire lorsque le
nuage
g de points
p
pparaît étiré le long
g d’une
droite.
R l i linéaire
Relation
li é i négative
é i
« Si les valeurs d’une variable tendent à
augmenter
t quandd les
l valeurs
l
de
d l’autre
l’ t
variable tendent à diminuer »
Lien entre la pointure et
résultats en philosophie
Les 2 variables évoluent sans aucun lien par
rapport à l’autre
Lien entre pointures et performances
au basket
L’augmentation de la pointure est accompagnée
plus ou moins fortement d’une augmentation des
performances.
Li entre pointure
Lien
i
et tailles
ill
Plus jje suis ggrand,, pplus jj’ai de grands
g
pieds
p
et viceversa.
Lien entre prix de la licence et nombre de
licenciés
L’augmentation du prix de la licence est en
relation avec une diminution du nombre de
licenciés.
A
Attention:
i
diffé
différent dde cause à effet!!
ff !!
Distan
nce paarcourrue
16
14
12
10
8
6
4
2
0
0
5
10
15
Vitesse donnée au ballon
20
25
L’é d du
L’étude
d lien
li de
d causalité
li é
 Établir
une relation entre 2 variables
 La
force de la relation se calcule p
par un coefficient
 Ne
N
correspond
d pas à un li
lien de
d cause à effet.
ff
Mesure de ll’interaction
interaction dd’une
une variable
sur une autre
Brruit dan
ns l’am
mphi
STAPS
Médecine
Heures de cours de statistiques
M
Mesure
ddes effets
ff
 VI
: heures de cours a effet sur VD « bruit »
 VI : groupe étudiant a effet sur VD « bruit »
Interaction: effet sur effet
 VI (groupe étudiant) a effet sur ll’effet
effet de la VI
(heures cours) sur la VD (bruit)
 VI (heures ce cours) a effet sur effet de VI
(étudiant) sur VD (bruit)
P d’
Pas
d’effet
ff temps nii d’i
d’interaction
i
Brruit dan
ns l’am
mphi
STAPS
Médecine
Heures de cours de statistiques
Effet temps, effet groupe mais pas
d’interaction
Brruit dan
ns l’am
mphi
STAPS
Médecine
Heures de cours de statistiques
2-2 Groupes et tâches expérimentales
 2-2-1 ggroupe
p expérimental
p
 2-2-2 groupe contrôle
 2-2-3
2 2 3 groupe placebo
l b
 2-2-4 les méthodes
L groupe expérimental
Le
éi
l
« Groupe dont les sujets accomplissent une ou
plusieurs modalités précises de la (ou des)
variable(s) indépendante(s) »
Ex: 2 groupes expérimentaux (entraînement lourd
lourdléger)
L groupe contrôle
Le
ôl
« Groupe servant de
référence
f
dans une
expérimentation,
en représentant
p
le
degré zéro de la
variable
indépendante mise
à l’épreuve
p
»
gro pes
groupes
Rééducation
1
Rééducation
2
rien
a ant
avant
après
Actes pédagogiques pour diminuer une
attitude scoliotique chez 12-16 ans
groupes
avant
après
Etirements (cervical,
dorsal et lombaire)
Rien
Musculation muscles
dorsaux
rien
Amélioration
Amélioration
 Tempère ou renforce les effets d’une variable
L groupe placebo
Le
l b « je ferai plaisir »
« variété de groupe contrôle dont la fonction est de
déceler dd’éventuels
éventuels effets dd’attente
attente de type
psychologique »
Ex:médecine
effet de croyance, aussi sur l’intervenant
(P
(Pygmalion)
li )
Effet de la DHEA
Beaulieu et al., 2000
L différentes
Les
diffé
méthodes
éh d

Groupes appariés: «
ggroupe
oupe de même
ê e effectif
dont tous les membres
se correspondent
p
respectivement terme à
terme »
Avant
Après
L différentes
Les
diffé
méthodes
éh d
Groupe indépendant : « groupes non appariés,
mais considérés comme équivalent dont on
souhaite comparer les productions
relativement
l ti
t aux différences
diffé
de
d modalités
d lité de
d
la VI »
E d transversales-longitudinales
Etudes
l l
i di l
Evolution de la vitesse avec l'age
1,2
vitesse
e (m.s-1)
1
0,8
06
0,6
0,4
0,2
0
filles
6ème
garçons
5ème
4ème
3ème
2de
1ère
terminale
classes
Groupe
p apparié:
pp
étude longitudinale
g
Groupe indépendant: étude transversale
3- Analyse descriptive des données
But: faire parler des données en y
mettant de l’ordre
 3-1 présentation des variables
 33-22 paramètres de tendance centrale
 3-3
3 3 paramètres de dispersion
Le tableau de contingence pour
variable nominale
Modalité de la
variable
va
ab e
X1 « G compet »
Fréquence absolue Fréquence relative
n
n1
n1/N
X2 « G loisir »
n2
n2/N
Xi « 3eme age »
ni
ni/N
Xn « … »
nn
nn/N
/
TOTAL
N
1
E
Exemple
l
Utilisation internet Fréquence absolue Fréquence relative
danss lee No
da
Nordd
n
Hommes
n1
n1/N
Femmes
n2
n2/N
TOTAL
N
1
Présentation graphique
Le diagramme en
bâtons
Présentation graphique des variables
qualitatives
Le camembert : secteur circulaire
L’angle de chaque modalité correspond à sa
fréquence relative.
Plusieurs variables peuvent apparaître
sur le même graphique
Tableau de contingence pour
variables quantitatives
Modalité de la
variable
va
ab e
X1 «17 ans »
Fréquence Fréquence
absolue
abso
ue (n)
( ) relative
e a ve
n1
n1/N=f1
Fréquence
cumulée
cu
u ée
f1
X2 « 18 ans »
n2
n2/N=f2
f1+f2
Xi « …ans »
nii
ni/N=fi
i/N fi
f1+ +fi
f1+…+fi
Xn « …ans »
nn
nn/N=fn
nn/N
fn
TOTAL
N (total)
1
1
Présentation graphique
pour variables discrètes
100
Fréq
quencee
80
60
40
20
0
18
19
Age amphi
20
21
22
23
24
Hi
Histogramme
avec fréquence
fé
relative
l i
0,25
02
0,2
0,15
0,1
0,05
0
18
19
20
21
40 % d
de l’
l’amphi
hi estt constitué
tit é
d’étudiants de 18 et 19 ans
22
23
24
Hi
Histogramme
avec fréquence
fé
cumulée
lé
1,2
1
0,8
0,6
0,4
0,2
0
18
19
20
21
22
23
24
80 % des étudiants de ll’amphi
amphi ont
moins de 21 ans
Présentation
pour variables continues
Regroupement
g p
en classe
p
Amplitude
identique
simplifie
p
lecture des
résultats
Modalité Fréquenc Fréquenc
de la
e absolue e relative
variable
n
[entre et [ n1
n1/N=f1
[[entre et [ n2
n2/N=f2
[entre et [ ni
ni/N=fi
[entre et [ nn
nn/N=fn
TOTAL N
1
Fréquenc
e
cumulée
f1
f1+f2
f1+…+fi
1
Histogramme
Hi
Centre de la
classe
P l
Polygone
statistique
i i
Di
Diagramme
cumulatif
l if
L paramètres
Les
è
de
d tendance
d
centrale
l
 Mode
 Médiane
Médi
 Moyenne
y
L mode
Le
d
Le mode est la modalité observée la plus fréquente
Nbre enfants
Effectif
0
1
2
3
1
3
4
2
Effectif le p
plus
important
10
Mode = 2
Le mode est toujours calculable, quel que soit
le type de la variable (nominale, ordinale ou
cardinale).
cardinale)
L mode
Le
d
Le mode n’est pas nécessairement unique
Nbre enfants
Effectif
0
1
2
3
4
1
3
4
2
2
5
6
7
4
3
1
D
Deux
modes
d : 2 ett 5
Le mode est vite calculé à ll’aide
aide des
graphiques
L médiane
La
édi
Ordre croissant
1
2
…
3
n
Ordre croissant
1
2
…
3
50%
n
50%
Médiane
?
La Médiane :
Les n observations étant
rangées et numérotées
de 1 à n de manière
croissante,
i
trouver la
l valeur
l
qui permet de partager
la suite ordonnée en
d
deux
parties
ti d’égale
d’é l
Importance
1er cas de figure n est impair
n impair, n = 2k+1 ( = 11)
2 5 2,8
2,5
2 8 3,2
3 2 3,3
3 3 3,5
3 5 4,5
4 5 5,6
5 6 5,9
5 9 6,4
6 4 6,8
6 8 7,7
77
k = 5 observations
k = 5 observations
Une observation centrale
autant d’observations de p
part et d’autre
Médiane : observation centrale : 4,5
2ème cas de figure : n est pair
n pair, n = 2k ( = 10)
2 5 2,8
2,5
2 8 3,2
3 2 3,3
3 3 3,5
3 5 4,5
4 5 5,6
5 6 5,9
5 9 6,4
6 4 6,8
68
k = 5 observations
k = 5 observations
Partage en deux séries égales
, et 4,5
,
deux observations encadrantes : 3,5
Médiane : interpolation entre 3,5 et 4,5
3,5 + 4,5
2
=4
La médiane est vite repérée à ll’aide
aide
du diagramme cumulatif
L moyenne arithmétique
La
ih éi
Modalité
M
d lité F
Fréquen
é
Fé
Fréquen
de la
ce
ce
variable
ariable absolue
absol e relative
relati e
n
X1
n1
n1/N=f1
X2
n2
n2/N=f2
Xi
ni
ni/N=fi
xn
nn
nn/N=fn
TOTAL N
1
M = (n1 * X1 +…+ Nn* Xn) / N
M= 1/N ∑ ni Xi
Si on a établi des classes,
classes Xi
correspond au centre de classe.
A
Attention
i à bien
bi utiliser
ili la
l moyenne !!
1 voiture roule 2 tours de circuit de 6 kms
-200km/h
-300km/h
Quelle est la vitesse moyenne??
Moy arith = (200+300)/2=250 km/h
La vitesse est fonction de la distance
et du temps!!
1er tour: t= 6/200 = 0.03h =108 s
2è tour:
2ème
t
t=
t 6/300 = 0.02h
0 02h =72s
72
Temps pour les 2 tours: 0.05h (180s)
Vi
Vitesse
moyenne: 12/0.05
12/0 05 = 240 km/h
k /h
La vitesse arithmétique donne une mauvaise réponse
M
Moyenne
hharmonique
i
 1/H
= ½ (1/a + 1/b)
1/H = ½ ((1/200 +1/300)) = 5/1200
H = 1200/5 = 240 km/h
k /h
A
Autre
exemple
l
Fédération Française de Natation.
2006 500000
2006:
2007: augmentation
g
de 4%
2008: augmentation de 16%
Valeur moyenne
y
de croissance sur les années?
(16+4)/2 = 10%
Un pourcentage est fonction de son
nombre de base.
500000*1.04 = 520000 (1997)
520000*1 16 603200 (1998)
520000*1.16=603200
Augmentation en 2 ans: 603200/500000 = 1.2064
S i 20.64%
Soit
20 64% sur 2 ans
Moyenne
y
par
p an : X * X = 1.2064
X = (1.2064)1/2 = 1.09836
M
Moyenne
géométrique
é é i
g
= (a.b)1/2
g
= (1.04*1.16)1/2 = (1.2064)1/2 = 1.09836
P
Paramètres
è
dde di
dispersion
i
 -Etendue:
valeur + élevée moins valeur + petite
 -intervalle
i t
ll de
d variation:
i ti
annonce du
d chiifre
hiif le
l plus
l
petit et du plus grands
 -Variance
 -Ecart
Ecart type
L variance,
La
i
l’écart
l’é
type
Variance : « la moyenne des écarts à la moyenne ,
au carré »
Ecart type: « racine carrée de la variance »
Ils renseignent sur la dispersion des données autour
de la moyenne
V i
Variance
M
Ecart type
Parfois la moyenne ne correspond à
rien!!
Nom
mbre inndividuus
100
80
60
40
20
0
18
19
20
A amphi
Age
hi
21
22
23
24
Moyenne identique, variance différente
L espaces interquartiles
Les
i
il

Documents pareils