Classification automatique sur facteurs

Transcription

Classification automatique sur facteurs
Classification automatique sur facteurs
Classification automatique sur facteurs
ESSEC
-
OCT
2012
1 / 17
Classification automatique sur facteurs
Plan
Exemple
Classification automatique des données
Interprétation des classes d’une partition
ACP sur les données : détermination des facteurs
2 / 17
Classification automatique sur facteurs
Exemple
Exemple
I
Individus : Les années 1872, 1880, 1890, 1900, 1903, 1906,
1909, 1912, 1920, 1923, 1926, 1929, 1932, 1935, 1938, 1947,
1950, 1953, 1956, 1959, 1962, 1965, 1968 et 1971.
I
Variables : Pour chaque année, on a évalué les dépenses de
l’Etat dans les 11 domaines suivants : Pouvoirs publics (PVP),
Agriculture (AGR), Commerce et industrie (CMI), Transports
(TRA), Logement et aménagement du territoire (LOG),
Education et culture (EDU), Action sociale (ACS), Anciens
combattants (ACO), Défense (DEF), Dette (DET) et Divers (DIV).
Input : tableau de 24 individus (qui sont les années) décrits par
11 variables.
3 / 17
Classification automatique sur facteurs
Classification automatique des données
Introduction
I
La classification automatique est utilisée pour former des
groupes qui sont déterminés selon des critères d’homogénéité et
de distance entre les membres.
I
C’est un instrument privilègié d’un des fondements des
stratégies du marketing : la segmentation des consommateurs.
Deux types d’inputs sont concernés par la classification automatique :
I
tableau individus×variables ou individus× facteurs
I
tableau indivius×individus ou tableau de dissimilarités
4 / 17
Classification automatique sur facteurs
Classification automatique des données
Procédures de constitution des classes
I
Les méthodes hiérachiques : produisent des suites de
partitions en classes de plus en plus vastes.
F IGURE : Représentation hiérarchique
I
Les méthodes de partitionnement : produisent directement
une partition en un nombre de calsses fixé au préalable.
5 / 17
Classification automatique sur facteurs
Classification automatique des données
Les méthodes hiérachiques
1. Principe des méthodes hiérachiques
Il consiste à construire une suite de partitions en n classes, n − 1
classes, ...emboı̂tées les une dans les autres de la manière suivante :
• on recherche à chaque étape les deux classes les plus proches,
on les fusionne et on continue jusuqu’à ce qu’il n’y ait plus
qu’une seule classe.
• la partition en k classes est obtenue en regroupant deux des
classes de la partition en k + 1 classes.
• la partition en n classes est celle où chaque individu est isolé et
la partition en une classe n’est autre que la réunion de tous les
individus (entre les deux il y’a n − 2 partitions).
6 / 17
Classification automatique sur facteurs
Classification automatique des données
Les méthodes hiérachiques
2. Critères de regroupement (ou d’agrégation) de 2
classes.
I
Choisir un critère d’agrégation de deux classes revient à définir
une distance entre classes.
I
Considérons deux classes C1 et C2 . On note ekl le l ème élément
de la classe k . Exemples de critères d’agrégation :
• Critère du lien minimum : d(C1 , C2 ) = min (d(e1i , e2j )),
• Critère du lien maximum : d(C1 , C2 ) = max (d(e1i , e2j )),
• Critère de la moyenne : d(C1 , C2 ) =
1 XX
d(e1i , e2j ),
pC1 pC2
i
j
pC1 pC2
d 2 (gC1 , gC2 ) ou pCk et
pC1 + pC2
sont, respectivement, le cardinal et le centre de gravité de Ck .
• Critère de Ward : d(C1 , C2 ) =
gCk
7 / 17
Classification automatique sur facteurs
Classification automatique des données
Les méthodes hiérachiques
3. Partition issue d’une hiérarchie
I
Pour déterminer une partition à partir d’une hiérarchie, il suffit de
couper la hiérarchie à un niveau donné et d’identifier les
branches (classes) qui en découlent.
I
Pour déterminer la meilleure partition issue de la hiérachie et
donc le meilleure nombre de classes, il faut
• Identifier le plus haut saut entre deux paliers successifs
• Couper la hiéarchie entre ces deux paliers : la partition obtenue est
celle ayant le meilleur nombre de classes.
8 / 17
Classification automatique sur facteurs
Classification automatique des données
Les méthodes non hiérachiques
Les méthodes non hiérachiques
1. Principe.
I
Les méthodes non hiérarchiques permettent de traiter des
populations importantes (même 1000 et plus) à des coûts
raisonnables. Ces méthodes visent à constituer directement k
types à partir de n objets en essayant d’optimiser un indice
global mesurant la qualité de la classification.
I
Le choix du nombre de groupes se pose ici ex-ante ; on peut
parfois avoir des hypothèses a priori provenant d’une phase
exploratoire qualitative.
2. Exemples. centres mobiles, k-means
9 / 17
Classification automatique sur facteurs
Interprétation des classes d’une partition
Interprétation des classes d’une partition
Cette étape consiste à trouver la signification pratique des classes.
Pour cela il faut revenir au variables initiales décrivant les individus :
I
V. quantitatives on décrira les classes en se basant sur les
coordonnées de leur centre de gravité. Ces coordonnées ne sont
autres que les moyennes des variables pour les individus
constituant une classe donnée
I
V. qualitatives l’interprétation peut être assez complexe dans la
mesure où les classes ne sont pas toujours ”pures” mais
représentant des ”tendances dominantes” au sein de la
population étudiée
Exemple : En croisant la variable sexe avec la variable classe
d’appartenance d’un consommateur, on aura des types plutôt
masculin formés de 70% d’hommes et 30% de femmes, d’autres
plutôt féminin.
10 / 17
Classification automatique sur facteurs
ACP sur les données : détermination des facteurs
Nombre d’axes à retenir
Nombre d’axes à retenir I
I
Critère de Kaiser. Il consiste à ne garder, dans une ACP
normée, que les axes dont la valeur propre est supérieure à 1
(i.e. l’inertie moyenne).
I
Taux d’inertie cumulé. Son appréciation doit tenir compte du
nombre de variables et du nombre d’individus : un taux d’inertie
relatif à un axe de 10% peut être une valeur importante si le
tableau possède 100 variables et faible s’il n’en a que 10.
λ1 + ... + λq
λ1 + ... + λq
=
p
I(N )
X
λj
j=1
11 / 17
Classification automatique sur facteurs
ACP sur les données : détermination des facteurs
Nombre d’axes à retenir
Nombre d’axes à retenir II
0
1
2
3
4
valeurs propres
dim 1
I
dim 2
dim 3
dim 4
dim 5
Critère du coude (scree test). Il consiste à retenir les axes dont
les valeurs propres se situent avant le coude.
12 / 17
Classification automatique sur facteurs
ACP sur les données : détermination des facteurs
Interprétation d’une carte des variables
Interprétation des facteurs
1. Variable à retenir : dans une analyse d’une carte des
variables, on ne s’intéresse qu’aux variables bien représentées
sur cette carte (i.e. aux variables proches du cercle de
corrélation).
2. Variable-axe : les variables fortement corrélées avec un
facteur vont contribuer à la définition de cet axe.
3. Variable-variable :
I
I
I
Un angle faible entre 2 variables indique une forte corrélations
entre elles.
2 points variables diamétralement opposés indique une parfaite
corrélation négative (i.e. ρ(j, j 0 ) ' −1) entre ces variables.
Des directions presque orthogonales indiquent une faible
corrélation linéaire entre j et j 0 .
13 / 17
Classification automatique sur facteurs
ACP sur les données : détermination des facteurs
Interprétation d’une carte des variables
Exemple I
14 / 17
Classification automatique sur facteurs
ACP sur les données : détermination des facteurs
Interprétation d’une carte des variables
Exemple II
I
la variable v6 est à exclure de l’étude car proche de l’origine
I
la première composante principale est fortement corrélée aux
variables v1 , v2 et v4 car celles-ci ont de forte coordonnées sur
cet axe
I
elle est par contre très peu corrélée à v3 et v5
→ on dit que cette première composante oppose la variable v4
aux variables v1 et v2
I
la deuxième composante oppose la variable v3 à la variable v5
15 / 17
Classification automatique sur facteurs
ACP sur les données : détermination des facteurs
Interprétation d’une carte des individus
Interprétation de la carte des individus
1. Exclure de l’analyse les individus mal représentés sur le plan
étudié (i.e. cosinus carré faible).
2. Regrouper les individus assez proches.
3. Donner les spécificités de chaque groupe grâce à l’analyse de la
carte des variables associée.
16 / 17
Classification automatique sur facteurs
ACP sur les données : détermination des facteurs
Interprétation d’une carte des individus
Exemple
17 / 17