Une variable qualitative (nominale) ou binaire

Transcription

Une variable qualitative (nominale) ou binaire
-1-
ETUDIANTS-SES.doc
Une variable qualitative (nominale) ou binaire
(Analyse de la distribution des valeurs)
Présentation du dossier ETUDIANTS
1
2
1.1
Questions
2
1.2
Structure des données
2
1.3
Source
2
2
Ouverture du fichier
3
3
Sélection de la variable à analyser
3
4
Voir les données
3
4.1
5
Liste des unités par modalité
3
Voir la distribution
4
5.1
Distribution des effectifs et pourcentages
5.1.1
Diagramme à secteurs
5.1.2
Diagramme en surfaces
5.1.3
Diagramme à barres
4
4
4
5
5.2
5
6
Distribution par effectifs décroissants
Analyser la dispersion des effectifs
5
6.1
Phi² / Distribution uniforme
5
6.2
Rapport de variation
6
6.3
Entropie
6
6.4
Indice inégalité de Gini
6
6.5
Taux quadratique de concentration
6
6.6
Indice de diversité
6
7
Analyser la Tendance centrale
6
7.1
Valeur modale
6
7.2
Distribution par effectifs décroissants
6
8
Comparer les modalités entre elles
7
8.1
Modalité la plus fréquente
7
8.2
Différences des pourcentages
7
8.3
Rapports des pourcentages
7
9
Comparer la distribution à une distribution de référence
7
9.1
Analyse descriptive
8
9.2
Analyse inférentielle
8
10
Codages
10.1
Codage disjonctif
10.2
Regroupement de modalités
11
8
8
8
Analyse d’une variable binaire : Le sexe
9
11.1
Analyser la modalité F
11.1.1
Afficher le pourcentage observé (F)
11.1.2
Analyse inférentielle
9
9
9
11.2
Comparer à un pourcentage de référence (F)
11.2.1
Première analyse : Référence = 50%
11.2.2
Deuxième analyse : Référence = 75%
12
Analyser modalité H
18/06/2010
10
10
10
11
Denis CORROYER
-2-
ETUDIANTS-SES.doc
1 PRÉSENTATION DU DOSSIER ETUDIANTS
On s’intéresse ici aux réponses à deux questions posées à des étudiants en 3ème année de psychologie à l’université
Paris Descartes (Paris 5) :
- « Quel est votre sexe ? »
- « Quelle série du bac avez-vous passé ? »
Le questionnaire a été rempli par 302 étudiants. Il était anonyme, mais les étudiants étaient invités à se choisir un
pseudonyme pour pouvoir, s’ils le souhaitaient, se situer dans les tableaux et graphiques.
- La variable SEXE (H ou F) rapporte le sexe des étudiants interrogés.
- La variable BACC rapporte la série telle qu’elle a été indiquée par l’étudiant. La variable BAC (un seul « C ») rapporte
la même variable recodée en procédant à certains regroupements et en en utilisant les codes actuels pour les
principales séries du bac (ES, L, S, T).
Les données analysées ci-après (données partielles ci-dessous) sont celles d’un échantillon de 36 étudiants extrait au
hasard de cette population de 302 étudiants.
ETUDIANT
1
2
3
4
5
6
7
8
9
10
SRP
EMA
SEX
BACC
BAC
POIDS
F
F
G
ES
T
ES
1
1
1
1
1
1
1
1
1
1
SABX
F
L
L
EMIC
F
L
L
AMELIEM
CHEBLI
FIOR
FUERTES
SCARLETT
F
H
F
F
F
G
D
D
C
B
T
S
S
S
ES
CENIE
F
L
L
(…)
(…)
(…)
(…)
32
33
34
35
TIGRIS
MIKY
LOULOU
F
F
F
PRO
S
L
T
S
L
ZORRO
F
S
S
36
MELIS
F
S
S
1
1
1
1
1
1.1 Questions
On souhaite connaître, pour l’ensemble des étudiants en 3ème année de psychologie lors de cette année universitaire
(1998-99) :
1. la répartition des étudiants selon les différentes séries du bac.
2. la proportion de femmes parmi ces étudiants.
1.2 Structure des données
Les deux variables analysées ici (SEX et BACC) sont des variables nominales (ou qualitatives).
L’une d’elles, le sexe, présente la particularité de comporter deux modalités seulement. On parle dans ce cas de
variable binaire ou dichotomique.
1.3 Source
Denis Corroyer – Université Paris Descartes (Paris 5) – [email protected]
18/06/2010
Denis CORROYER
-3-
ETUDIANTS-SES.doc
2 OUVERTURE DU FICHIER
Lancer SES-Analyse
Menu Fichier – Ouvrir un dossier SES (*.SES)
Sélectionner le dossier ETUDIANT.SES
3 SÉLECTION DE LA VARIABLE À ANALYSER
Menu « Données à analyser » puis « Définir un sous-ensemble de données à analyser »
ou cliquer sur l’icône :
Sélectionner la variable BAC en tant que variable dépendante (VD).
Valider en cliquant sur OK
On procédera tout d’abord à l’analyse de la variable BAC puis à l’analyse de la variable SEX. Pour cette dernière on
s’intéressera principalement aux procédures spécifiques d’une variable binaire.
Utiliser le Menu « Analyse » pour procéder aux analyses qui suivent.
N.B. : Les titres et sous-titres correspondent aux sous-menus du menu Analyse
4 VOIR LES DONNÉES
4.1 Liste des unités par modalité
BAC
T
ES
L
S
Liste ETUDIANT
SRP, AMELIEM, LIDO, LOLA, MICKA, TIGRIS
EMA, SCARLETT, MATAHARI, CYCO, LUNE, ALBATOR, MELB, AYA, SCOUBIDOU
SABX, EMIC, CENIE, DR007, AGOAK, CLEM, PAQUERETTE, SANDRAS, LOULOU
CHEBLI, FIOR, FUERTES, BIBI, LOL, NOUNOU, 3D, ZAZ, JOE, MIKY, ZORRO, MELIS
18/06/2010
Denis CORROYER
-4-
ETUDIANTS-SES.doc
5 VOIR LA DISTRIBUTION
5.1 Distribution des effectifs et pourcentages
Pour la variable BAC :
- la modalité la plus fréquente est S (observée 12 fois),
- la modalité la moins fréquente est T (observée 6 fois).
De manière générale, cliquer sur l’icône
pour obtenir les représentations graphiques des tableaux affichés.
Cliquer sur cette icône pour obtenir les représentations graphiques de cette distribution
La boite de dialogue conseille de représenter la distribution sous forme de diagramme à secteurs (camembert) mais
d’autres représentations sont également possibles.
5.1.1
Diagramme à secteurs
BAC (Serie du baccalaureat)
L : 25%
ES : 25%
T : 17%
S : 33%
5.1.2
Diagramme en surfaces
BAC (Serie du baccalaureat)
ES
(25%)
18/06/2010
L
(25%)
Denis CORROYER
S
(33%)
T
(17%)
-5-
ETUDIANTS-SES.doc
5.1.3
Diagramme à barres
16
14
12
10
8
6
4
2
0
33 %
25 %
25 %
17 %
ES
L
S
T
BAC (Serie du baccalaureat)
5.2 Distribution par effectifs décroissants
Cette présentation permet de mieux visualiser, principalement dans le cas de modalités nombreuses, les modalités les
plus fréquentes et les moins fréquentes.
BAC
n
Pct
S
12
33 %
ES
9
25 %
L
9
25 %
T
6
17 %
Total
36
100 %
Pour la variable BAC :
- la série du bac la plus fréquente est la série scientifique (S).
- les bacs les moins fréquents sont les bacs technologiques (T)
6 ANALYSER LA DISPERSION DES EFFECTIFS
De nombreux indices sont proposés. On s’intéressera ici principalement au calcul d’un Phi² pour la comparaison de la
distribution observée des 4 séries du bac et une répartition uniforme (où les 4 bacs seraient observés dans les mêmes
proportions, soit ici 25%).
6.1 Phi² / Distribution uniforme
Phi²U
Phi²Umax
Phi²U/Max
0,056
3,000
2%
L’écart entre la distribution observée et une répartition uniforme est faible (Phi²U/Phi²max = 2% < 4%).
La répartition observée s’éloigne peu d’une distribution uniforme.
Cliquer sur le bouton Inférer de la fenêtre de résultat précédente pour mettre en œuvre la procédure inférentielle (test
du Khi²).
Ddl
Khi²Unif
Seuil
G²
3
2,00
57,24%
2,04
Au vu de ces résultats, on ne peut pas conclure que, dans la population parente (l’ensemble des étudiants de
3ènme année de psychologie à Paris Descartes), la répartition des séries du bac s'écarte d'une distribution
uniforme (test Khi² non significatif, p=57,24% > 5%)..
18/06/2010
Denis CORROYER
-6-
ETUDIANTS-SES.doc
6.2 Rapport de variation
Mod
n
RV
S
12
0,67
Pour ce groupe de 36 observations, la modalité la plus fréquente de BAC (Valeur modale) est S, observée 12 fois.
Rapport de Variation =0,67
Le Rapport de Variation varie entre 0, lorsque l'effectif est concentré dans une seule classe, et (K-1)/K, lorsque la
dispersion des effectifs est maximale (K représente le nombre de modalités)
Référence: Novi, M. (1998) (p.9)
Formule de définition: RV = 1 - (nMode/n)
6.3 Entropie
Ent
Ent_max
InvEnt
Ent_norm
1,959
2,000
0,041
0,980
Référence: Novi, M. (1998) (p.9)
Formule de définition: Ent = -Somme(pk * Log2(pk)
6.4 Indice inégalité de Gini
Diam
DiamMax
Gini
0,02
0,50
0,04
6.5 Taux quadratique de concentration
Dps
0,14
6.6 Indice de diversité
D
D_max
D_normé
0,736
0,750
0,981
L’Indice de diversité estime la probabilité que deux observations prises au hasard dans les données appartiennent à
deux modalités différentes.
Référence: Novi, M. (1998) (p.10)
Formule de définition: D = 1 - Som((nk/n)²)
7 ANALYSER LA TENDANCE CENTRALE
7.1 Valeur modale
La Valeur modale ou Mode est la modalité la plus fréquente.
Mod
n
Pct
S
12
33 %
Pour la variable Bac, la modalité la plus fréquente est le bac de série S observé 12 fois, soit 33 % des cas..
7.2 Distribution par effectifs décroissants
Ce tableau permet de voir la modalité la plus fréquente (modalité la plus à gauche) mais également la fréquences des
autres modalités.
S
ES
L
T
Total
n
12
9
9
6
36
Pct
33 %
25 %
25 %
17 %
100 %
18/06/2010
Denis CORROYER
-7-
ETUDIANTS-SES.doc
8 COMPARER LES MODALITÉS ENTRE ELLES
8.1 Modalité la plus fréquente
Mod
n
Pct
S
12
33 %
La modalité la plus fréquente est : S observée 12 fois, soit 33 %.
8.2 Différences des pourcentages
Ce tableau présente les différences de pourcentages (exprimées en « points de pourcentages ») entre les couples de
modalités de la variable Bac.
L-C
ES
L
S
T
ES
0 pts %
0 pts %
+8 pts %
-8 pts %
L
0 pts %
0 pts %
+8 pts %
-8 pts %
S
-8 pts %
-8 pts %
0 pts %
-17 pts %
T
+8 pts %
+8 pts %
+17 pts %
0 pts %
Les différences ont été calculées dans le sens : modalité en ligne - modalité en colonne). La diagonale comporte
nécessairement des 0 et le tableau symétrique au signe près : chaque différence est reportée deux fois, avec un signe
différent.
Il apparaît, à titre d’exemple, que :
- le pourcentage de ES est inférieur de 8 points (33%-25%)au pourcentage de S.
- le pourcentage de S est supérieur de 17 points (12%-6%) au pourcentage de T.
8.3 Rapports des pourcentages
L/C
ES
L
S
T
ES
1,00
1,00
1,33
0,67
L
1,00
1,00
1,33
0,67
S
0,75
0,75
1,00
0,50
T
1,50
1,50
2,00
1,00
(Les rapports ont été calculés dans le sens : modalité en ligne / modalité en colonne).
Le nombre de scientifiques (S) est égal à 1,33 fois le nombre de Littéraires (L)
Les nombre de littéraires (L) est égal à 0.75 fois le nombre de Scientifiques (S)
9 COMPARER LA DISTRIBUTION À UNE DISTRIBUTION DE RÉFÉRENCE
Le logiciel propose de saisir une distribution de référence.
Supposons que l’on dispose d’une distribution de référence, observée par exemple, 10 ans plus tôt dans la même
université (ou la même année dans une autre université) :
BAC
Pct
ES
18 %
L
22 %
S
38 %
T
22 %
Total
100 %
On saisit cette répartition dans la fenêtre suivante sous forme de fréquences (Attention, le total doit être égal à 1) :
18/06/2010
Denis CORROYER
-8-
ETUDIANTS-SES.doc
9.1 Analyse descriptive
Après avoir cliqué sur le bouton OK, on obtient le tableau suivant :
Effectif
total
Nb modalités
Phi2
Phi2Max
Phi2/Phi2Max
36
4
0,0500
3
0,0167
Le « Phi² pour comparaison à une distribution de référence » mesure l'écart entre la distribution observée et la
distribution de référence définie précédemment.
On constate que, pour ce groupe de 36 observations, la distribution des séries du bac s'écarte peu de la distribution
de référence (Phi²/Phi²max = 0,0167 < 0,04).
La distribution observée en 1998-99 s’écarte peu de la distribution observée 10 ans plus tôt.
9.2 Analyse inférentielle
Pour obtenir l’inférence sur l’écart à la distribution de référence (Khi² / distribution de référence), cliquer sur le bouton
« Inférence » de la fenêtre précédente.
Ddl
Khi²Ref
Seuil
3
1,80
61,51%
La distribution observée ne diffère pas de la distribution de référence (Khi²=1,80 , ddl=3, non significatif, p=61,51%
> 0,05)
10 CODAGES
10.1 Codage disjonctif
Ce type de codage est nécessaire en préalable à plusieurs procédures (analyses factorielles ; régression multiple…). Il
consiste à créer autant de variables que de modalités de la variables initiales et à coder 1 la présence (et 0 pour
l’absence) de telle modalité chez tel individu.
ETUDIANT
SRP
EMA
SABX
ES
0
1
0
L
0
0
1
S
0
0
0
T
1
0
0
ZORRO
MELIS
0
0
0
0
1
1
0
0
Les variables ainsi crées peuvent être enregistrées dans la base de données (cf. l’icône « disquette » dans la fenêtre
présentant le résultat du codage) et analysées ensuite comme toute autre variable.
10.2 Regroupement de modalités
En cours de développement.
18/06/2010
Denis CORROYER
-9-
ETUDIANTS-SES.doc
11 ANALYSE D’UNE VARIABLE BINAIRE : LE SEXE
N.B. : Toutes les procédures présentées à propos d’une variable nominale quelconque comme le bac restent
accessibles. On ne présente toutefois ici que les procédures spécifiques à une variable nominale binaire comme le
Sexe.
Sélectionner la variable Sexe : Menu « Données à analyser » puis « Définir un sous-ensemble de données à analyser »
ou cliquer sur l’icône :
Sélectionner la variable Sexe comme VD.
11.1 Analyser la modalité F
On s’intéresse au pourcentage de filles (F)
11.1.1 Afficher le pourcentage observé (F)
n
nk
%obs
36
33
92 %
Pour ce groupe de 36 observations, on 92 % (33 sur 36) de filles.
11.1.2 Analyse inférentielle
Pour procéder à l’inférence sur le pourcentage parent de la modalité F :
cliquer sur le bouton « Inférence » de la fenêtre de résultats précédente.
La boite de dialogue conseille de calculer l’intervalle de confiance approché (le calcul d’un « Intervalle de confiance
approché simplifié » est présenté ici pour mémoire car cette solution est parfois présenté dans les logiciels ou les
manuels).
Référence : Rouanet, Bernard, Le Roux (1990), p.149-150
Il est également possible de procéder au calcul de probabilités bayésiennes.
11.1.2.1
Intervalle de confiance approché
Seuil
Lim inf.
Lim sup.
5,00%
76 %
99 %
Ce tableau nous indique que, au seuil 5,00%, les valeurs possibles du pourcentage parent de F sont comprises entre
76 % et 99 % (IC(5,00%) = [76 % ; 99 %]) .
11.1.2.2
Limite pour une garantie bayésienne
G(%par<Lim)
Lim%par
G(%par>Lim)
5,00%
82 %
95,00%
G (%parent < 82 %) = 5,00%
G (%parent > 82 %) = 95,00%
On a une garantie de 5,00% que le %parent de F soit inférieur à 82 % et une garantie de 95,00% qu'il soit
supérieur à 82 %.
Référence : Bernard in Rouanet et al. (1998), p.183
18/06/2010
Denis CORROYER
- 10
ETUDIANTS-SES.doc
-
11.2 Comparer à un pourcentage de référence (F)
11.2.1 Première analyse : Référence = 50%
La boite de dialogue suivante propose de saisir un pourcentage de référence (50% par défaut) afin d’obtenir :
- la différence (exprimée en points de pourcentage) entre le pourcentage observé et le pourcentage de référence,
- le rapport du pourcentage observé sur le pourcentage de référence.
Sur cet exemple :
- le pourcentage de filles (92%) est supérieur de 42 points au pourcentage de référence (50%).
- le pourcentage de filles (92%) est presque deux fois (1.83) supérieur au pourcentage de référence (50%).
Pour procéder à l’inférence sur l’écart au pourcentage de référence, cliquer sur le bouton « Inférence » de la fenêtre de
résultats précédente.
On peut calculer le test Z classique et calculer une probabilité bayésienne.
11.2.1.1
Test Z approché (F)
%obs
%ref
Z
p
Zcorr
pcorr
92 %
50 %
5,00
< 0,01%
4,83
< 0,01%
Le pourcentage parent de F s’écarte du pourcentage de référence (test Z significatif, p < 0,01%)
Ce résultat nous permet de conclure (au seuil de 0,01%) que dans la population (l’ensemble des étudiants de
psychologie en 3ème année de Licence à Paris Descartes) le pourcentage de filles est supérieur à 50%.
11.2.1.2
Garantie Bayésienne (F)
G(%par<Lim)
Lim%par
G(%par>Lim)
< 0,01%
50 %
100,00%
On a une garantie de presque 100% que le pourcentage parent de F est supérieur à 50%.
En plaçant le curseur sur la case où s’affiche 100%, la garantie s’affiche avec dix décimales (0.9999999653).
Il est essentiel de rappeler que ces résultats ne nous disent rien sur l’importance de l’écart. Le pourcentage parent est
supérieur à 50%, mais est-il de 60%, 70% ou… seulement 51% ?
11.2.2 Deuxième analyse : Référence = 75%
Il est possible de tester d’autres valeurs de référence. Pour cela :
- fermer les fenêtres du test Z et des probabilités bayésiennes,
- ouvrir à nouveau la fenêtre de dialogue suivante et indiquer le nouveau pourcentage de référence, par exemple
75% :
18/06/2010
Denis CORROYER
- 11
ETUDIANTS-SES.doc
-
On pourra vérifier en cliquant sur le bouton « Inférer » que :
1/ le test Z est encore significatif (au seuil 1.71% < 5%)
2/ la garantie bayésienne reste forte (g = 99.44%).
On pourra donc conclure, après cette nouvelle analyse, que le pourcentage de filles dans la population est supérieur à
75%...
- au seuil 1.71% (si on se réfère au test Z),
- avec une garantie de 99.44% (si on se réfère à la probabilité bayésienne).
12 ANALYSER MODALITÉ H
Les mêmes procédures sont accessibles pour les 2 modalités d’une variable binaire.
18/06/2010
Denis CORROYER