Analyse en composantes principales : Une méthode

Transcription

Analyse en composantes principales : Une méthode
Analyse en composantes principales
Une méthode factorielle pour traiter les
données didactiques
Ali Kouani, S. El Jamali et M.Talbi
Résumé
L’Analyse en Composantes Principales (ACP) est une méthode d’analyse de données.
Elle cherche à synthétiser l’information contenue dans un tableau croisant des individus
et des variables quantitatives. Produire un résumé d’information au sens de l’ACP c’est
établir une similarité entre les individus, chercher des groupes d’individus homogènes,
mettre en évidence une typologie d’individus. Quant aux variables c’est mettre en évidence des bilans de liaisons entre elles, moyennant des variables synthétiques et mettre
en évidence une typologie de variables. L’ACP cherche d’une façon générale à établir des
liaisons entre ces deux typologies.
1
Introduction
Pour évaluer la façon dont les étudiants ont perçu un enseignement, l’enseignant a recours
aux contrôles continus et aux examens de différentes formes. Il étudie sur le plan statistique
l’ensemble des notes en calculant par exemple la moyenne des notes de l’ensemble des élèves,
leur écart type . . . Mais ces indicateurs restent insuffisants dans certaines situations. En effet,
prenons le cas de deux groupes de 10 élèves chacun et les notes qu’ils ont obtenues dans un
même examen comme le montre le tableau ci-dessus :
Mots clés : composantes principales, analyse de données, similarité, typologie d’individus, typologie de
variables, variables synthétiques
1
A. Kaouani et al., Radisma, numéro 2, 2007
2
Nous constatons que les deux ont la même moyenne 10,1. Par conséquent, peut-on en déduire
qu’ils ont le même niveau ? La moyenne est un indicateur global qui permet simplement un
classement des résultats des élèves.
En se référant à l’écart type, nous observons que dans le deuxième groupe les notes des élèves
sont plus concentrées autour de la moyenne que dans le premier groupe. Peut-on en conclure
que les deux groupes sont constitués d’éléments homogènes ? Sinon, comment les déceler dans
le cas où l’on traite plusieurs variables avec un effectif d’élèves assez grand ?
Dans une situation d’orientation ou de passage d’élèves, la moyenne pondérée de toutes les notes
dans les différentes disciplines enseignées est une variable qui résume ou synthétise l’ensemble
dans le sens que : si un élève a obtenu 18 de moyenne, il a certainement de très bonnes notes
dans toutes les matières. Au contraire, un autre qui a obtenu 2 de moyenne n’a certainement
bien réussi aucune discipline. Donc, la pertinence d’une même variable synthétique varie selon
les situations étudiées. Pour illustrer ce propos, considérons le tableau suivant :
Dans ce tableau : 6 individus sont décrits par deux notes (Ni , Nj ).
Cas 1 : la moyenne 1 synthétise bien les notes N1 et N2 ; ce n’est pas le cas de leur différence
Ecart 1 (= N2 − N1 ).
Cas 2 : la moyenne 2 ne synthétise pas N 3 et N 4 ; ce n’est pas le cas de leur différence Ecart 2
(= N4 − N3 ).
A. Kaouani et al., Radisma, numéro 2, 2007
3
Donc, devant une série de données, quelles variables complémentaires peut-on choisir pour
synthétiser au mieux l’information portée par l’ensemble des variables ?
Dans la pratique enseignante, l’enseignant cherche toujours à visualiser graphiquement les
résultats de ses élèves pour les interpréter. Mais, pour analyser les liaisons entre une série
de variables, il va se trouver devant un nombre assez grand de graphiques ; nombre qui rend
presque impossible l’interprétation. En effet avec 10 variables, il aura 45 graphiques de liaisons
et 15 ( ?) le nombre devient alors 105 !
Par conséquent, est- il possible de trouver une représentation plane de l’ensemble des variables dans un espace réduit permettant une visualisation des liens numériques et de déceler des
facteurs latents ?
Le but de cet article est de présenter dans sa première partie une description mathématique
de la méthode exploratoire Analyse en Composantes Principales (ACP).
La seconde partie sera consacrée à l’application de l’ACP à un cas réel (un tableau des notes
des étudiants) où on tâchera de voir ce que l’ACP outil exploratoire (cf. [3]) peut apporter
comme éléments de réponse à des questions de type (cf. [2]).
Ressemblances entre individus :
Quels sont les individus qui se ressemblent ? Quels sont ceux qui sont différents ?
Existe -t-il des groupes homogènes d’individus ? Si oui, peut-on mettre alors en évidence une
typologie des individus ?
Liaisons entre variables :
Quelles sont les variables qui sont liées positivement entre elles ?
Quelles sont celles qui s’opposent (liées négativement) ?
Existe-t-il des groupes de variables corrélées entre elles ?
Si oui, peut-on alors mettre en évidence une typologie des variables ?
Quelles sont les variables qui caractérisent un même groupe d’individus ?
Est- il possible de trouver une représentation plane de l’ensemble des variables dans un espace
réduit permettant une visualisation des liens numériques d’une part et de déceler des facteurs
latents d’autre part?
Quant à la troisième partie de cet article, elle résume l’objet de l’ACP comme elle pose des
questions.
A. Kaouani et al., Radisma, numéro 2, 2007
2
4
Présentation et description de la méthode factorielle :
Analyse en composantes principales (ACP)
On dispose d’un tableau des notes des étudiants de deux filières Sciences Mathématiques (SM)
et Sciences Mathématiques et Informatique (SMI) obtenues dans le premier semestre S1 de
l’année universitaire 2003 /2004 dans les disciplines suivantes :
L’ensemble des données peut être schématisé par une matrice X à n lignes et p colonnes.
Si X est le tableau (nxp) des notes, les colonnes représenteront les variables xi (les disciplines),
les lignes représenteront les individus ej ( étudiants ), alors que xij est la note obtenue par
l’étudiant i dans la discipline j.
Dans une optique purement descriptive on identifiera une variable à la colonne de X correspondante : une variable n’est rien d’autre que la liste des n valeurs qu’elle prend sur les n individus
:


X1j
 X2j 


X j =  ..

 .

Xnj
A. Kaouani et al., Radisma, numéro 2, 2007
5
On identifiera de même l’individu i au vecteur ei à p composante dont le transposé est :
e0i = (xi1 , xi2 , . . . , xi1 )
2.1
Espace des individus
Chaque individu ei sera considéré comme un élément d’un espace vectoriel F (espace des individus). L’ensemble des n individus est un nuage de points de F dont le barycentre est le point
g défini par :
g = (x1 , x2 , . . . , xp ),
où xp est la moyenne aritmétique de xp .
Le point g est appelé parfois : point moyenne du nuage ou centre de gravité.
L’espace F est muni d’une structure euclidienne afin de pouvoir définir des distances entre
individus ei et ej . On utilisera la formulation générale suivante : la distance entre deux individus
ei et ej est définie par la forme quadratique :
d2 (ei ; ej ) = (ei ; ej )0 M (ei ; ej ),
où M est une matrice symétrique de taille p définie positive et (ei ; ej )0 est le transposé du
vecteur (ei ; ej ).
L’espace des individus est donc muni du produit scalaire : hei, eji = e0i M ej .
Le choix de M dépend de l’utilisateur. En pratique les métriques usuelles en ACP sont en
nombre réduit : à part la métrique M = I (Matrice identité de rang p ) ce qui revient à utiliser
le produit scalaire usuel, la métrique la plus utilisée ( et qui est souvent l’option par défaut des
logiciels d’ACP ) est la métrique diagonale des inverses des variances :
Ce qui revient à diviser chaque caractère par son écart-type : entre autres avantages, la
distance entre deux individus ne dépend plus des unités de mesure puisque les nombres xij /sj
A. Kaouani et al., Radisma, numéro 2, 2007
6
sont sans dimension, ce qui est très utile lorsque les variables ne s’expriment pas avec les mêmes
unités.
Surtout, cette métrique donne à chaque caractère la même importance quelle que soit sa dispersion ; l’utilisation de métrique M = I conduirait à privilégier les variables les plus dispersées,
pour lesquelles les différences entre individus sont plus fortes, et à négliger les différences entre
les autres variables.
Remarque : Souvent, les données brutes xij sont remplacées par les données de la forme
(xij − xj )/sj (dite centrée réduite) où xj est la moyenne de la variable xj et sj est l’écart type
de la variable xj . Le centrage permet de comparer les dispersions par rapport à un point de
référence unique (la moyenne, qui vaut zéro pour la variable après centrage). En réduisant les
variables, on les exprime toutes en unités d’écart - type, et on leur donne une variance égale à 1.
2.2
Espace des variables
Chaque variable X i est une liste de n valeurs numériques, qui peut être considérée comme un
vecteur X i d’un espace E à n dimensions appelé espace des variables. Pour étudier la proximité
des variables entre elles, on munit E d’une métrique.
Généralement, on définit le produit scalaire entre deux variables par :
0
hX i , X k i = X i DX k avec D =
1
I.
n
L’angle θjk entre deux variables est donné par :
cos θjk =
Sjk
hX i , X k i
=
.
j
k
kx kkx k
Sj S k
Dans le cas de variables centrées réduites on a alors :
Ce produit scalaire est la covariance sjk car :
*
+
n
Xi − Xi Xk − Xk
1 X Xij − X i Xkj − X k
,
=
si
sk
n j=1
si
sk
Et
Var
De plus,
Xi − Xi
si
!
n
1 X Xij − X i Xij − X i
=
=
n j=1
si
si
Xi − X Xi − X
,
si
si
i
X − X 2
=
si .
D
A. Kaouani et al., Radisma, numéro 2, 2007
i
X − X 2
1
si = s2
i
D
n
1X
Xij − X Xij − X
n j=1
7
!
= 1.
Donc le nuage des variables est situé sur une sphère de rayon 1.
De plus le cosinus de l’angle de ces deux variables n’est autre que leur coefficient de corrélation
linéaire :
i
k
n
X
X
X
−
X
−
j
k
j
k
X
ij
ik
hX − X ; X − X i
1
θjk =
=
.
n j=1
Sj
Sk
kxj − X j kkxk − X k k
L’interprétation d’un coefficient de corrélation comme un cosinus est une propriété très importante puisqu’elle donne un support géométrique, donc visuel, au coefficient de corrélation.
2.3
L’inertie
On appelle ” Inertie totale du nuage de points ” la moyenne des carrés des distances des points
au centre de gravité :
X1
kei − gk.
Ig =
n
Remarque :
Ig est la moyenne des écarts absolus entre les individus ei et leur barycentre g.
Si M = D 12 , on montre que Ig = Trace(R) = p, où R est la matrice de variance covariance des
s
données centrées réduites (cf. [4], pp. 163-164).
En d’autres termes, l’inertie est donc égale au nombre de variables et ne dépend pas de leurs
valeurs.
3
3.1
Analyse en Composantes Principales (ACP)
Projection des individus sur un sous-espace
Principe :
On ne peut pas visualiser directement le nuage N des individus du fait de la dimension importante de l’espace F (dimF = p). Le principe de l’ACP (et plus généralement de l’analyse
factorielle) consiste à projeter orthogonalement le nuage N sur un plan (plus généralement sur
un sous-espace de l’espace F ).
A. Kaouani et al., Radisma, numéro 2, 2007
8
Le plan (ou le sous-espace) est choisi de façon à ce que la projection orthogonale déforme
le moins possible le nuage. En terme de distance entre individus le sous-espace cherché est tel
que :
P
Ig = i n1 kei − fi k2
soit minimal. Où fi est un vecteur dans l’espace de projection cherché et ei vecteur (individu)
dans l’espace initial.
Cette écriture n’est autre que la forme classique du critère des moindres carrés ; par conséquent
le sous-espace passera par le point fictif g barycentre du nuage N des individus.
Or d’après le théorème de Pythagore, on a :
kei − gk2 = kei − fi k2 + kei − gk2
Donc,
1X
1X
1X
kei − gk2 =
kei − fi k2 +
kei − gk2 .
n i
n i
n i
P
Par conséquent l’expression I ci-dessus, revient à maximiser : n1 i kei − gk2 , puisque Ig est
constant.
3.2
Théorème fondamental
• Le sous-espace Fk de dimension k rendant I maximal est engendré par les k valeurs propres de V M associés aux k plus grandes valeurs propres.
Dans notre cas on prend M = D 12 et V la matrice de variance covariance entre variables.
s
• Fk est un sous-espace rendant I maximale, alors le sous-espace de dimension k +1 rendant
I maximale est la somme directe de Fk et du sous-espace de dimension 1 M -orthogonal
à Fk : la suite des sous-espaces Fk est une suite emboı̂tée.
Les vecteurs propres de V M , M -normés à 1 sont appelés axes principaux d’inertie.
La matrice V M étant M - symétrique possède des vecteurs propres M - orthogonaux deux à
A. Kaouani et al., Radisma, numéro 2, 2007
9
deux et le rang de V M est égal à p donc le nombre d’axes principaux est p.
Les vecteurs propres M − 1 - normés de M V sont appelés facteurs principaux. Ils sont M −1 et
V - orthogonaux.
3.3
Composantes principales
Ce sont les variables ci définies par les facteurs principaux :
ci = XUi .
ci est le vecteur renfermant les coordonnées des projections des individus sur l’axe défini par ai
avec ai unitaire.
La variance d’une composante principale est égale à la valeur propre λ:
V (ci ) = λi
En effet V (c) = c0 Dc = u0 X 0 DXu = u0 V u or : V u = λM −1 u donc V (c) = λu0 M −1 u = λ
Les composantes principales sont elles-mêmes vecteurs propres d’une matrice de taille n. En
effet :
M V u = λu s’écrit M X 0 DXu = λu. En multipliant à gauche par X et en remplaçant Xu par
c on obtient alors, XM X 0 Dc = λc. La matrice XM X 0 notée W est la matrice dont le terme
général wij est le produit scalaire hei , ej i = e0jj M ej .
D’où pour résumer : dans la pratique on calcule les u par diagonalisation de M V, puis on
obtient les c = Xu, les axes principaux a n’ayant pas d’intérêt pratique.
3.4
Qualité des représentations sur les plans principaux
Le but de l’ACP étant d’obtenir une représentation des individus dans un espace de dimension
plus faible que p (dim F ), la question qui se pose alors est : comment apprécie-t-on la perte
d’information subie et de savoir combien de facteurs faut-il retenir ?
Le critère habituellement utilisé est celui du pourcentage d’inertie totale expliqué (cf. [4], pp
176-179). On mesure la qualité de Fk par :
λ 1 + λ2 + . . . + λk
λ1 + λ2 + . . . + λ k
∗ 100 =
∗ 100.
Ig
λ 1 + λ 2 + . . . + λp
Ce pourcentageest appelé
parfois : le pourcentage expliqué par le sous-espace Fk .
λ1 +λ2
Si par exemple
∗ 100 = 90%, on conçoit clairement que le nuage de points est presque
Ig
aplati sur un sous-espace à deux dimensions et qu’une représentation du nuage dans le plan des
deux premiers axes principaux sera satisfaisante.
A. Kaouani et al., Radisma, numéro 2, 2007
3.5
10
Application de l’ACP à la matrice des notes
Les données sont traitées par le logiciel SPAD (Système Pour l’Analyse des Données) produit
DECISA. Le choix de ce logiciel est justifié par son mode d’utilisation simplifié, son interface
enrichie par les logiciels Excel pour l’entrée des données et l’édition des résultats, SPSS et SAS
pour les données et son guide d’utilisation et d’interprétations des différents modules de traitement des données tels que l’ACP, la classification hiérarchique
Nous partons d’un fichier constitué des notes des étudiants des filières SM et SMI obtenues au
cours du 1er semestre S1 2003/2004. Le choix du module Analyse en Composantes Principales
du logiciel SPAD, nous a permis de visualiser les résultats suivants :
• une statistique sommaire des variables étudiées (moyenne, écart type, minimum);
• la matrice des corrélations des variables.
• le tableau des valeurs propres de la matrice de corrélation ainsi que le pourcentage
d’explication de chaque valeur propre.
• un plan de projection des variables.
• un plan de projection des individus.
Par conséquent, le travail du chercheur résidera dans l’interprétation des différents résultats.
Chose qu’on a essayé de présenter dans cette troisième partie.
Les statistiques élémentaires sur les variables sont données dans le tableau 2 :
Le paramètre écart- type montre que les notes obtenues en mécanique (MECA) et en analyse 1 (ANALY1) sont plus dispersées autour de la moyenne.
A. Kaouani et al., Radisma, numéro 2, 2007
11
La matrice de corrélation entre variables est indiquée dans le tableau 3 :
Dans notre exemple, toutes les variables sont corrélées positivement. Donc, les notes varient
dans le même sens.
La corrélation est forte entre le Calcul Vectoriel et les disciples : la thermodynamique, l’algèbre
linaire 1 et la mécanique ; c’est-à-dire que les étudiants qui ont obtenu une bonne note en calcul vectoriel en S1 peuvent également avoir de bonnes notes en thermodynamique, en algèbre
linéaire1 et en mécanique. Ce constat peut être justifié par le fait que : les différents chapitres
intégrés dans le module calcul vectoriel on les retrouve soit d’une façon explicite comme c’est
le cas de l’algèbre linaire 1 ou comme outils de résolution d’exercices comme c’est la cas de
la mécanique et de la thermodynamique. Donc l’étudiant revoit ces concepts sous plusieurs
aspects pendant un même semestre.
La faible corrélation entre LC1 et ALG1 ; LC1 et ANAL ; LC1 et CAL.Vect ; LC1 et MECA ;
et entre LC1 et THER montre la grande rupture qui existe entre la langue d’enseignement des
matières scientifiques pendant le cursus scolaire antérieur de l’étudiant qui est l’arabe et celle
utilisée à l’université (le français). Rupture qui persiste même si nos élèves reçoivent un cours
de traduction pendant la période du lycée ?
La diagonalisation de la matrice de corrélation donne les résultats présentés dans le tableau 4.
A. Kaouani et al., Radisma, numéro 2, 2007
12
La deuxième colonne indique les valeurs propres de la matrice de corrélation.
La troisième colonne nous renseigne sur le pourcentage expliqué par chaque valeur propre.
3.6
Représentation des variables
On obtient alors la représentation suivante des variables dans le plan (facteur 1, facteur 2)
expliquant 69% de l’inertie initiale.
3.6.1
Le cercle des corrélations
A chaque variable, on associe un point dont la coordonnée sur un axe factoriel est une
mesure de la corrélation entre cette variable et le facteur (Axe 1 ou Axe 2) exemple la
coordonnée sur l’axe 1 de la variable LC1 est 0,55 et celle sur l’axe 2 est 0,68. Mais, nous
savons que les variables appartiennent à la sphère de rayon 1.
Donc par projection sur un plan factoriel les variables s’inscrivent dans un cercle de rayon 1 - le
A. Kaouani et al., Radisma, numéro 2, 2007
13
cercle des corrélations-. Elles sont d’autant plus proches du bord du cercle que la variable
est bien représentée par le plan factoriel, c’est-à-dire que la variable est bien corrélée avec les
deux facteurs constituant ce plan.
3.6.2
Représentation des variables sur le premier plan factoriel
L’angle entre deux variables xj et xk , mesuré par son cosinus est égal au coefficient de corrélation linéaire entre les 2 variables: cos θik . Donc : L’interprétation des composantes principales
s’effectue en regardant les corrélations avec les variables de départ. Ainsi on a :
• toutes les variables sont assez éloignées de O ; les variables, et donc les angles qu’elles forment, n’ont pas été trop déformées dans la projection. Plus précisément les pourcentages
d’inertie sont 55,30% (axe1 horizontal) et 14,21% (axe2 vertical) pour le plan 1 ;
• toutes les variables occupent une zone assez restreinte à l’intérieur du cercle des corrélations. L’angle maximum entre deux variables est inférieur à 90◦ . Ceci suggère que toutes
les variables sont corrélées positivement entre elles (cf. tableau 2) ;
• les matières fondamentales de cette filière sont assez corrélées entre elles. Cette affirmation
se vérifie en se rapportant de la matrice de corrélation ;
• les notes des 5 matières (calcul vectoriel, thermodynamique, mécanique, algèbre et analyse) sont plus liées entre elles qu’avec les autres matières. Ceci suggère l’existence de
qualités communes (ou goûts communs) pour réussir dans ces matières ;
A. Kaouani et al., Radisma, numéro 2, 2007
14
• on peut faire des remarques identiques pour la communication et l’informatique et les TP.
L’écart entre ces deux matières et les précédentes suggère l’existence de qualités différentes
(ou goûts différents) pour réussir ces deux groupes de matières.
En conclusion :
Le cercle des corrélations permet de voir, parmi les anciennes variables, les groupes de variables
très corrélées entre elles. Donc son étude est plus simple et plus informative que l’analyse
directe de la matrice de corrélation.
3.7
Variables synthétiques :
l’ACP est une méthode de recherche de nouvelles variables z qui synthétisent les variables
initiales. Ces variables z synthétisent d’autant mieux l’ensemble de variables Vk ; k = 1, . . . , p
lorsqu’elles constituent des combinaisons linéaires des variables initiales. Ainsi, dans l’exemple
on remarque que :
• la première variable synthétique est liée positivement à chacune des variables. Elles les
représentent toutes à peu près de la même façon ;
• la seconde variable synthétique représente une opposition entre langue et communication,
informatique, travaux pratiques de physique et les matières calcul vectoriel, thermodynamique mécanique, algèbre et analyse.
3.8
La première variable synthétique
L’expression de la première composante principale est :
LC(etudi ) − 12, 45
Inf l(etudi ) − 12, 24
F act1 (etudi ) = 0, 55
+ 0, 65
+ ...
2, 43
1, 91
T P1 (etudi ) − 11, 04
+ 0, 71
2, 2
3.9
Interprétation de la première composante
Un élève ayant dans toutes les matières des notes supérieures à la moyenne de l’ensemble, a des
valeurs positives pour toutes les variables centrées ; comme tous les coefficients sont positifs,
cet étudiant a une forte valeur positive pour le Facteur1 (remarquer l’intérêt de faire apparaı̂tre les variables centrées, ceci montre qu’une note influe dans un sens ou dans un autre
selon qu’elle est supérieure à la moyenne de l’ensemble). Réciproquement, un élève qui a une
forte valeur positive pour Fact1 a, globalement, des notes au dessus de la moyenne de l’ensemble.
En ce sens, cette première composante principale représente le niveau général
des étudiants.
A. Kaouani et al., Radisma, numéro 2, 2007
15
La seconde variable synthétique
La seconde composante principale peut s’écrire :
Inf1 (etudi ) − 12, 24
LC(etudi ) − 12, 45
+ 0, 55
F act2 (etudi ) = 0, 68
2, 43
1, 91
Alg(etudi ) − 9, 79
T P1 (etudi ) − 11, 04
− 0, 32
− . . . + 0, 25
3, 79
2, 2
Des notes inférieures à la moyenne dans les matières spécifiques telles que : algèbre, analyse, calcul vectoriel, mécanique et thermodynamique, augmenteront la valeur du F act2 ; par
contre des notes supérieures à la moyenne dans ces matières affaibliront la valeur du F act2 .
Réciproquement, une valeur négative de Fact2 correspond aux étudiants ayant en général des
notes supérieures à la moyenne dans les matières spécifiques de la filière. En conséquence, ces
deux variables synthétiques permettront de postuler qu’on est devant quatre grands groupes
d’étudiants.
Représentation des individus
Représentation des individus sur le plan factoriel défini par les deux premières composantes principales. 6 étudiants sont identifiés : 6, 22, 35, 88, 92,
54. L’étudiant 97 est fictif c’est le point moyenne.
Son but est de fournir des images planes approchées du nuage des individus situés dans
l’espace Rp . L’ensemble des projections de tous les points du nuage d’individus N sur son premier axe factoriel U1 appelé premier facteur, sur les individus, constitue une nouvelle variable
(cf. [2], p.17). On montre que cette variable se confond, à la norme près, à la première composante principale obtenue dans la projection du nuage des variables. Donc, l’interprétation
des axes de ce graphique est par définition celle des composantes principales.
Ainsi, l’axe des abscisses représente le niveau général des étudiants alors que celui des ordonnées représente leur profil. En effet, un étudiant appartenant au groupe 1 possède en général des
notes meilleures dans les matières spécifiques des deux filières avec des capacités déterminées
en communication et en informatique ; c’est le cas par exemple l’étudiant 22.
A. Kaouani et al., Radisma, numéro 2, 2007
16
Par opposition, un étudiant appartenant au groupe 4, c’est un étudiant qui a en général de
notes faibles dans toutes les matières ; c’est le cas de l’étudiant 35.
Donc, le premier axe (axe horizontale) oppose les étudiants qui ont globalement de bonnes
notes à ceux qui ont généralement de mauvaises notes. Quant au deuxième il oppose les étudiants ayant globalement des très bonnes notes en LC et TP et Inf. à ceux qui ont qui ont obtenu
de faibles notes dans ces disciplines.
En conclusion, nous remarquons que l’ACP a l’avantage d’une part de résumer l’ensemble des
variables initiales corrélées en un nombre réduit de facteurs non corrélés. D’autre part, elle
nous a permis de mettre en évidence des similarités ou oppositions entre variables et individus.
4
Conclusion
La question principale de notre travail est: comment à partir d’une série de notes (descripteurs)
obtenues par un ensemble d’étudiants peut-on avoir :
• des variables résumant le mieux l’information portée par ces descripteurs ?
• un bilan de liaison entre les variables ?
• une représentation plane optimale des individus ?
• une aide à l’enseignant dans l’élaboration d’une typologie de ses étudiants selon ces nouvelles variables ?
L’ACP est une méthode exploratoire qui utilise des concepts de l’algèbre linéaire et de la
géométrie et permet de résoudre en partie cette problématique. En effet, en supposant que les
étudiants peuvent être représentés par un nuage de points dans un espace de dimension finie
p(p ≥ 3), l’ACP cherche un sous-espace tel que la projection du nuage initial sur ce sous-espace
déforme le moins possible l’information portée par les variables initiales.
L’outil informatique met à la disposition du chercheur une gamme de logiciels permettant de
traduire en termes de procédures toute la démarche théorique de l’ACP :
• centrage et réduction des données brutes ;
• bilan des liaisons entre les variables ;
• mise en évidence de variables synthétiques ;
• représentation plane (ou sur un sous-espace de faible dimension) optimale des individus.
A. Kaouani et al., Radisma, numéro 2, 2007
5
17
Limites et perspectives
Comme pour toute autre méthode exploratoire nous pouvons citer deux limites principales de
l’ACP :
• la première est la visualisation globale des données. Dans certains cas, cette visualisation
est suffisante ; dans d’autres, par contre, elle permet seulement de situer, dans l’ensemble
des données, une recherche plus poussée, qui peut être soit définie a priori, soit établie
à la lumière des résultats de l’ACP. Par exemple, dans notre cas si on envisage une
pédagogie différenciée en faveur des étudiants ayant obtenu de faibles résultats, la classification hiérarchique est nécessaire pour affiner la formation de groupes homogènes et
pour connaı̂tre les variables qui interviennent le plus dans la formation d’une répartition;
• la deuxième limite est technique. La mise en oeuvre de l’ACP demande le calcul préalable
de la matrice carrée de covariance des données, qui est de taille p2 pour des vecteurs de
dimension p.
Cette matrice est déjà coûteuse à calculer, et sa taille et son traitement deviennent prohibitifs
en haute dimension. Ainsi des données de dimension 1000 donneront lieu à une matrice de un
million d’éléments. D’autres méthodes peuvent être élaborées pour remédier à ce problème (cf.
[1], p. 5).
La faible corrélation des notes entre les disciplines langue et communication et les disciplines
spécifiques des deux filières nous pousse à nous poser un ensemble de questions que l’on peut
résumer ainsi :
• jusqu’à quel point nos étudiants ont tiré profit du cours de traduction instauré au lycée
dans les options scientifiques ?
• le contenu du module Langue et Communication répond-t-il aux besoins exprimés par
nos étudiants ?
• les méthodes d’enseignement des matières langue et communication favorisent -elles une
aide aux étudiants pour surmonter les obstacles dûs au changement brutal de la langue
d’enseignement des matières scientifiques (de l’arabe au français) ?
Bibliographie
[1] M. Delichère et D. Memmi : Analyse Factorielle Neuronale pour Documents Textuels. Les
cahiers du laboratoire Leibniz N◦ 49, GRENOBLE, Avril 2002.
[2] J. Pages, B. Escofier : Analyses factorielles simples et multiples : Objectifs, méthodes et
interprétation. DUNOD, 1990.
A. Kaouani et al., Radisma, numéro 2, 2007
18
[3] J. Pages, B. Escofier : Introduction à l’analyse en composantes principales à partir de
l’étude d’un tableau de notes. Méthode d’analyse statistiques multidimensionnelles en didactiques des mathématique, IRMAR et IRESTE NANTES, 27-29, 1995.
[4] G. Saporta : Probabilités Analyse des données et statistiques Edition Technip, 1990.
Adresses des auteurs :
Laboratoire Interdisciplinaire de Recherches: Apprentissage, Didactique, Evaluation & Technologies de l’Information pour l’Education (lirade-tie),
U.F.R Ingénierie et Technologie de l’Education et de la formation itef
[email protected], [email protected], [email protected]
Faculté des Sciences Ben M’Sik, Université Hassane II
Mohammedia, Casablanca, Maroc