Rattrapage statistiques Ce diaporama emprunte beaucoup à

Transcription

Rattrapage statistiques Ce diaporama emprunte beaucoup à
Rattrapage statistiques
ED00355X
Pierre Ratinaud
Ce diaporama emprunte beaucoup à diaporama de Jean-Jacques Maurice qu'il utilisait
dans le cadre de l'UE20 (UE de Statistiques de la licence de sciences de l'éducation
Etudiant Numéro
Alfred
1
Eugénie
2
Gertrude
3
Gustave
4
Ernestine
5
Marguerite
6
Sexe
M
F
F
M
F
F
Age
24
26
22
23
23
25
Taille
1,80
1,62
1,56
1,74
1,49
1,69
Les stats,
Note en math
j'aime :
12
Un peu
5
Pas du tout
14
Beaucoup
8
Pas du tout
11
Un peu
3
Pas du tout
Echelle nominale
Echelle ordinale
Echelle d’intervalle
La taille
L’âge
L’instrument de mesure
garantit des intervalles
égaux.
On est autorisé à utiliser
la moyenne
Echelle nominale
Pas de hiérarchie entre les
modalités de la variable
Echelle ordinale
Hiérarchie entre les modalités de
la variable admise par toute
personne à qui cette question est
posée
Echelle d’intervalle
La taille
L’âge
L’instrument de mesure
garantit des intervalles
égaux.
Variable sexe :
Homme
On est autorisé à utiliser
la moyenne
Femme
Pas du tout
Variable opinion : j’aime les stats
Un peu
Beaucoup
Passionnément
Echelle nominale
Pas de hiérarchie entre les
modalités de la variable
Variable sexe :
Homme
Femme
Echelle ordinale
Echelle d’intervalle
Hiérarchie entre les modalités de
la variable admise par toute
personne à qui cette question est
posée
Pas du tout
J’aime
les stats
La taille
L’âge
L’instrument de mesure
garantit des intervalles
égaux.
Un peu
Beaucoup
Passionnément
On est autorisé à utiliser
la moyenne
Vous allez voter pour :
madame x, monsieur y ou mademoiselle z ?
Echelle nominale
Pas de hiérarchie entre les
modalités de la variable
Variable sexe :
Homme
Femme
Echelle ordinale
Echelle d’intervalle
Hiérarchie entre les modalités de
la variable admise par toute
personne à qui cette question est
posée
La taille
L’âge
L’instrument de mesure
garantit des intervalles
égaux.
Pas du tout
J’aime
les stats
Un peu
Beaucoup
On est autorisé à utiliser
la moyenne
Passionnément
Le repas au RU :
0
1
0 : pas du tout satisfaisant
4 : haut niveau gastronomique
2
3
4
Echelle nominale
Pas de hiérarchie entre les
modalités de la variable
Variable sexe :
Homme
Femme
Echelle ordinale
Echelle d’intervalle
Hiérarchie entre les modalités de
la variable admise par toute
personne à qui cette question est
posée
Pas du tout
J’aime
les stats
La taille
L’âge
L’instrument de mesure
garantit des intervalles
égaux.
Un peu
Beaucoup
Passionnément
On est autorisé à utiliser
la moyenne
Un prof de math prépare une interrogation
écrite : 4 exos, notés 5 points chacun.
Exo 1 : nombres relatifs
Exo 2 : fractions
Exo 3 : géométrie
Exo 4 : algèbre
Echelle nominale
Pas de hiérarchie entre les
modalités de la variable
Variable sexe :
Homme
Femme
Echelle ordinale
Hiérarchie entre les modalités de
la variable admise par toute
personne à qui cette question est
posée
Pas du tout
J’aime
les stats
Passionnément
Numéro de sécurité sociale :
Femme : 2
La taille
L’âge
L’instrument de mesure
garantit des intervalles
égaux.
Un peu
Beaucoup
Homme : 1
Echelle d’intervalle
On est autorisé à utiliser
la moyenne
Echelle nominale
Pas de hiérarchie entre les
modalités de la variable
Variable sexe :
Homme
Femme
Echelle ordinale
Hiérarchie entre les modalités de
la variable admise par toute
personne à qui cette question est
posée
Pas du tout
J’aime
les stats
Pourcentages :
hommes, 25% ;
femmes, 75%
Histogrammes
Secteurs angulaires
La taille
L’âge
L’instrument de mesure
garantit des intervalles
égaux.
Un peu
Beaucoup
Passionnément
Effectifs : 75
hommes, 25 femmes
Echelle d’intervalle
La moyenne n’est pas
autorisée
Médiane
Quantiles (médiane,
déciles, centiles)
On est autorisé à utiliser
la moyenne
Variance
Ecart type
Moyenne arithmétique : indice de tendance centrale
Prononcer « mu »
x
∑
µ=
N
POPULATION
Somme de toutes
les valeurs
Nombre de valeurs
Moyenne arithmétique : indice de tendance centrale
Prononcer « mu »
x
∑
µ=
N
POPULATION
Prononcer
« x barre »
Somme de toutes
les valeurs
Nombre de valeurs
ECHANTILLON
x
∑
X=
n
Somme de toutes
les valeurs
Nombre de valeurs
L’étendue
L’étendue « R » :
c’est la différence entre la valeur la plus élevée et la valeur la plus basse.
Exemple :
Notes obtenues par un groupe d’élèves (échelle d’intervalle)
8,
11,
5,
14,
8,
11,
16,
L’étendue « R » = 16 – 5 = 11
11
LA VARIANCE ET L’ECART TYPE
Voici les scores sur 20 (échelles d’intervalles) de deux groupes A & B
Groupe A : 10 - 12 - 8 - 9 - 11
Groupe B :
3 - 17 - 2 - 18 - 19 - 1
Ces deux groupes
ont pour
moyenne : 10
LA VARIANCE ET L’ECART TYPE
Voici les scores sur 20 (échelles d’intervalles) de deux groupes A & B
Groupe A : 10 - 12 - 8 - 9 - 11
Groupe B :
3 - 17 - 2 - 18 - 19 - 1
8
Groupe A
Groupe B
Ces deux groupes
ont pour
moyenne : 10
1
2
3
9
10 11 12
17 18 19
LA VARIANCE ET L’ECART TYPE
Voici les scores sur 20 (échelles d’intervalles) de deux groupes A & B
Groupe A : 10 - 12 - 8 - 9 - 11
Groupe B :
Ces deux groupes
ont pour
moyenne : 10
3 - 17 - 2 - 18 - 19 - 1
8
Groupe A
9
1
0
1 12
1
Dispersion
Groupe B
1
2
17 18 19
3
D i s p e r s i o n
LA VARIANCE ET L’ECART TYPE
Voici les scores sur 20 (échelles d’intervalles) de deux groupes A & B
Groupe A : 10 - 12 - 8 - 9 - 11
Groupe B :
Ces deux groupes
ont pour
moyenne : 10
3 - 17 - 2 - 18 - 19 - 1
8 9 10 11 12
Groupe A
Dispersion
Groupe B
1
2
17 18 19
3
D i s p e r s i o n
LA MOYENNE (indice de tendance centrale)
NE DIT RIEN DE LA DISPERSION DES VALEURS
Deux outils vont être associés à la moyenne pour donner à voir la
dispersion des données : La variance et l’écart type.
La variance
L’idée consiste à inventer un indice qui donne une idée des écarts à la moyenne.
Ecart à la moyenne
élevé au carré
Variance
σ
2
X
(
=
− X ) + ( X 2 − X ) + ( X 3 − X ) +............. ( X n − X )
n
2
1
2
2
C’est la moyenne des carrés des écarts à la moyenne.
2
La variance
L’idée consiste à inventer un indice qui donne une idée des écarts à la moyenne.
Ecart à la moyenne
élevé au carré
Variance
σ
2
X
(
=
− X ) + ( X 2 − X ) + ( X 3 − X ) +............. ( X n − X )
n
2
1
2
2
C’est la moyenne des carrés des écarts à la moyenne.
Cette formule est équivalente à :
σ
2
X − X)
(
∑
=
n
2
2
La variance
L’idée consiste à inventer un indice qui donne une idée des écarts à la moyenne.
Ecart à la moyenne
élevé au carré
Variance
σ
2
X
(
=
− X ) + ( X 2 − X ) + ( X 3 − X ) +............. ( X n − X )
n
2
1
2
2
2
C’est la moyenne des carrés des écarts à la moyenne.
Exemple pour le groupe A :
8
Groupe A
Variance =
9
1
0
1 12
1
( 8 − 10) 2 + ( 9 − 10) 2 + ( 10 − 10) 2 + ( 11 − 10) 2 + ( 12 − 10) 2
5
10
=
=2
5
Exemple pour le groupe B :
Groupe B
Variance =
1
2
17 18 19
3
( 1 − 10) 2 + ( 2 − 10) 2 + ( 3 − 10) 2 + ( 17 − 10) 2 + ( 18 − 10) 2 + ( 19 − 10) 2
6
=
388
= 64,66
6
8
Groupe A
9
1
0
1 12
1
Dispersion
Variance du groupe A = 2
Groupe B
1
2
17 18 19
3
D i s p e r s i o n
Variance du groupe B = 64,66
ATTENTION
σ
2
X
(
=
− X ) + ( X 2 − X ) + ( X 3 − X ) +............. ( X n − X )
n
2
1
2
2
2
Etant donné que nous travaillons sur de petits échantillons et que nous
supposons qu’ils représentent toute une population, il faut apporter un
correctif à cette formule en divisant par n-1
σ
2
X
(
=
− X ) + ( X 2 − X ) + ( X 3 − X ) +............. ( X n − X )
n −1
2
1
2
2
2
ATTENTION
σ
2
X
(
=
− X ) + ( X 2 − X ) + ( X 3 − X ) +............. ( X n − X )
n
2
1
2
2
2
Etant donné que nous travaillons sur de petits échantillons et que nous
supposons qu’ils représentent toute une population, il faut apporter un
correctif à cette formule en divisant par n-1
σ
2
X
(
=
− X ) + ( X 2 − X ) + ( X 3 − X ) +............. ( X n − X )
n −1
2
1
2
2
VOS CALCULETTES POSSEDENT LES DEUX FORMULES, VOUS
UTILISEREZ TOUJOURS LA DEUXIEME
2
Groupe A
Variance =
Variance =
( 8 − 10) 2 + ( 9 − 10) 2 + ( 10 − 10) 2 + ( 11 − 10) 2 + ( 12 − 10) 2
5
( 8 − 10) 2 + ( 9 − 10) 2 + ( 10 − 10) 2 + ( 11 − 10) 2 + ( 12 − 10) 2
5−1
10
=
=2
5
10
=
= 2,5
4
Groupe B
Variance =
Variance =
( 1 − 10) 2 + ( 2 − 10) 2 + ( 3 − 10) 2 + ( 17 − 10) 2 + ( 18 − 10) 2 + ( 19 − 10) 2
6
( 1 − 10) 2 + ( 2 − 10) 2 + ( 3 − 10) 2 + ( 17 − 10) 2 + ( 18 − 10) 2 + ( 19 − 10) 2
6 −1
388
=
= 64,66
6
388
=
= 77,6
5
8
Groupe A
9
1
0
1 12
1
Dispersion
Variance du groupe A = 2,5
Groupe B
1
2
17 18 19
3
D i s p e r s i o n
Variance du groupe B = 77,6
A la lecture de ces deux variances on voit que la dispersion du groupe B est plus
importante que celle du groupe A. Mais ces calculs ayant été obtenus par des élévations
au carré, il est difficile de percevoir l’ordre de grandeur des variances.
8
Groupe A
9
1
0
1 12
1
Dispersion
Variance du groupe A = 2,5
Groupe B
1
2
17 18 19
3
D i s p e r s i o n
Variance du groupe B = 77,6
A la lecture de ces deux variances on voit que la dispersion du groupe B est plus
importante que celle du groupe A. Mais ces calculs ayant été obtenus par des élévations
au carré, il est difficile de percevoir l’ordre de grandeur des variances.
C’est pourquoi, on a inventé l’écart type qui n’est que la racine carrée de la
variance.
8
Groupe A
9
1
0
1 12
1
Dispersion
Variance du groupe A = 2,5
Groupe B
1
2
17 18 19
3
D i s p e r s i o n
Variance du groupe B = 77,6
A la lecture de ces deux variances on voit que la dispersion du groupe B est plus
importante que celle du groupe A. Mais ces calculs ayant été obtenus par des élévations
au carré, il est difficile de percevoir l’ordre de grandeur des variances.
C’est pourquoi, on a inventé l’écart type qui n’est que la racine carrée de la
variance.
Groupe A : variance = 2,5 Ecart type =
2,5 = 1,58
Groupe B : variance = 77,6 Ecart type =
77,6 = 8,81
Rappel des diverses formules que vous utiliserez
La variance
L’écart type
σ
2
X − X)
(
∑
=
σ =
2
n −1
∑( X − X )
n −1
2
Correction de Yates
χ
∑
2
(n
)
0 − n t − 0,5
2
ddl = 1
Mac Nemar 4 cases
nt
n1 n2
n3 n4
0
Lecture de la table numérique pour χ 2:
Au seuil .05 ou .01
- si valeur calculée > valeur théorique alors H0 est rejetée ;
- si valeur calculée < valeur théorique alors H0 acceptée.
ddl = k-1
s
llon
anti ants
h
c
d
E
pen
indé
∑
Ec
h
ap ant i
pa llo
rié ns
s
n0 : effectif (observé) d’une modalité de la variable
nt : effectif théorique pour cette modalité
N : effectif total
k : nombre de modalités de la variable
Pas besoin de calculer des effectifs théoriques
4c
− nt )
nt
(n
0
− nt )
nt
2
Effectif théoriqued 'unecellule =
+
a
b
-
c
d
Total ligne x total colonne
Nombre total de sujets
ddl : (Nb col. - 1)(Nb lignes - 1)
Mac Nemar (échantillons appariés)
après
+
avant
C
2 e omp
ffe ara
ct i
fs ison
ob
s e de
r vé
s
(n
ase
s
Echelle
nominale
∑
2
4c
n ectifs
so
rai / eff
a
mp és
Co bserv ues
q
s o ori
ctif thé
e
f
ef
ase
s
(Chi Carré)
2
N

N  n1n4 − n2 n3 − 

2
χ2 =
( n1 + n2 )( n3 + n4 )( n1 + n3 )( n2 + n4 )
χ2 =
( a−d
− 1)
a+d
2
La formule ne prend en compte
que les cases du « changement »
(discordantes)
Pas besoin de calculer des effectifs théoriques
Q de Cochran
Dans le cas de petits échantillons χ2 ne s ’applique plus lorsque l’effectif théorique d ’une case est inférieur à 5
B
T de Student
t=
A
n
iso e /
ara oriqu ée
p
é
m
v
Co ne th bser
en ne o
y
mo yen
mo
t=
x−M
S
N
S =
2
x−y
 1
1 

S2 
+
N
N
 x
y
(N
x
(
)
− 1) S2x + N y − 1 S2y
Nx + Ny − 2
ddl = Nx+Ny - 2
F de
SNEDECOR
Echelle
d ’intervalle
ce
rian o
Va hom
non
s
llon
anti ants
h
c
d
E
pen
indé
2 m Com
oy par
en
ne aison
so
bs de
erv
ée
s
C
t=
Ec
h
ap ant i
pa llo
rié ns
s
F de SNEDECOR
Pour vérifier si les variances sont homogènes :
on calcule un F en plaçant la plus forte variance au numérateur
x−y
2
S2x S y
+
Nx Ny
Lecture du t théorique lorsque
les variances ne sont pas homogènes
Lire le t pour le ddl du groupe x (Nx - 1)
Lire le t pour le ddl du groupe y (Ny - 1)
Faire la moyenne de ces 2 t.
S2x
F= 2
Sy
Pour trouver le F théorique on a besoin de 2 ddl
L1 est le ddl de l ’échantillon ayant la plus grande variance
L1 = N x − 1
L2 = N y − 1
x
: moyenne de l ’échantillon x
Pour chaque individu on calcule la différence entre score au temps t
et score au temps t+1
H0 : la moyenne des différences est proche de 0
On revient donc à la formule ; A comparaison d’une moyenne (celle
des différences) avec une moyenne théorique = 0
S : Ecart type échantillon
M : moyenne théorique
N : effectif de l ’échantillon
S2x
S2
: variance de l ’échantillon x, carré de l ’écart type
: variance « commune » aux 2 échantillons x et y
Lecture de la table numérique pour F ou pour t :
Au seuil .05 ou .01
- si valeur calculée > valeur théorique alors H0 est rejetée ;
- si valeur calculée < valeur théorique alors H0 acceptée.

Documents pareils