Classification automatique sur facteurs

Transcription

ESSEC
-
OCT
2012
1 / 17
Plan
Exemple
Classification automatique des données
Interprétation des classes d’une partition
ACP sur les données : détermination des facteurs
2 / 17
Exemple
Exemple
I
Individus : Les années 1872, 1880, 1890, 1900, 1903, 1906,
1909, 1912, 1920, 1923, 1926, 1929, 1932, 1935, 1938, 1947,
1950, 1953, 1956, 1959, 1962, 1965, 1968 et 1971.
I
Variables : Pour chaque année, on a évalué les dépenses de
l’Etat dans les 11 domaines suivants : Pouvoirs publics (PVP),
Agriculture (AGR), Commerce et industrie (CMI), Transports
(TRA), Logement et aménagement du territoire (LOG),
Education et culture (EDU), Action sociale (ACS), Anciens
combattants (ACO), Défense (DEF), Dette (DET) et Divers (DIV).
Input : tableau de 24 individus (qui sont les années) décrits par
11 variables.
3 / 17
Introduction
I
La classification automatique est utilisée pour former des
groupes qui sont déterminés selon des critères d’homogénéité et
de distance entre les membres.
I
C’est un instrument privilègié d’un des fondements des
stratégies du marketing : la segmentation des consommateurs.
Deux types d’inputs sont concernés par la classification automatique :
I
tableau individus×variables ou individus× facteurs
I
tableau indivius×individus ou tableau de dissimilarités
4 / 17
Procédures de constitution des classes
I
Les méthodes hiérachiques : produisent des suites de
partitions en classes de plus en plus vastes.
F IGURE : Représentation hiérarchique
I
Les méthodes de partitionnement : produisent directement
une partition en un nombre de calsses fixé au préalable.
5 / 17
Les méthodes hiérachiques
1. Principe des méthodes hiérachiques
Il consiste à construire une suite de partitions en n classes, n − 1
classes, ...emboı̂tées les une dans les autres de la manière suivante :
• on recherche à chaque étape les deux classes les plus proches,
on les fusionne et on continue jusuqu’à ce qu’il n’y ait plus
qu’une seule classe.
• la partition en k classes est obtenue en regroupant deux des
classes de la partition en k + 1 classes.
• la partition en n classes est celle où chaque individu est isolé et
la partition en une classe n’est autre que la réunion de tous les
individus (entre les deux il y’a n − 2 partitions).
6 / 17
2. Critères de regroupement (ou d’agrégation) de 2
classes.
I
Choisir un critère d’agrégation de deux classes revient à définir
une distance entre classes.
I
Considérons deux classes C1 et C2 . On note ekl le l ème élément
de la classe k . Exemples de critères d’agrégation :
• Critère du lien minimum : d(C1 , C2 ) = min (d(e1i , e2j )),
• Critère du lien maximum : d(C1 , C2 ) = max (d(e1i , e2j )),
• Critère de la moyenne : d(C1 , C2 ) =
1 XX
d(e1i , e2j ),
pC1 pC2
i
j
pC1 pC2
d 2 (gC1 , gC2 ) ou pCk et
pC1 + pC2
sont, respectivement, le cardinal et le centre de gravité de Ck .
• Critère de Ward : d(C1 , C2 ) =
gCk
7 / 17
3. Partition issue d’une hiérarchie
I
Pour déterminer une partition à partir d’une hiérarchie, il suffit de
couper la hiérarchie à un niveau donné et d’identifier les
branches (classes) qui en découlent.
I
Pour déterminer la meilleure partition issue de la hiérachie et
donc le meilleure nombre de classes, il faut
• Identifier le plus haut saut entre deux paliers successifs
• Couper la hiéarchie entre ces deux paliers : la partition obtenue est
celle ayant le meilleur nombre de classes.
8 / 17
Les méthodes non hiérachiques
Les méthodes non hiérachiques
1. Principe.
I
Les méthodes non hiérarchiques permettent de traiter des
populations importantes (même 1000 et plus) à des coûts
raisonnables. Ces méthodes visent à constituer directement k
types à partir de n objets en essayant d’optimiser un indice
global mesurant la qualité de la classification.
I
Le choix du nombre de groupes se pose ici ex-ante ; on peut
parfois avoir des hypothèses a priori provenant d’une phase
exploratoire qualitative.
2. Exemples. centres mobiles, k-means
9 / 17
Cette étape consiste à trouver la signification pratique des classes.
Pour cela il faut revenir au variables initiales décrivant les individus :
I
V. quantitatives on décrira les classes en se basant sur les
coordonnées de leur centre de gravité. Ces coordonnées ne sont
autres que les moyennes des variables pour les individus
constituant une classe donnée
I
V. qualitatives l’interprétation peut être assez complexe dans la
mesure où les classes ne sont pas toujours ”pures” mais
représentant des ”tendances dominantes” au sein de la
population étudiée
Exemple : En croisant la variable sexe avec la variable classe
d’appartenance d’un consommateur, on aura des types plutôt
masculin formés de 70% d’hommes et 30% de femmes, d’autres
plutôt féminin.
10 / 17
Nombre d’axes à retenir
Nombre d’axes à retenir I
I
Critère de Kaiser. Il consiste à ne garder, dans une ACP
normée, que les axes dont la valeur propre est supérieure à 1
(i.e. l’inertie moyenne).
I
Taux d’inertie cumulé. Son appréciation doit tenir compte du
nombre de variables et du nombre d’individus : un taux d’inertie
relatif à un axe de 10% peut être une valeur importante si le
tableau possède 100 variables et faible s’il n’en a que 10.
λ1 + ... + λq
λ1 + ... + λq
=
p
I(N )
X
λj
j=1
11 / 17
Nombre d’axes à retenir
Nombre d’axes à retenir II
0
1
2
3
4
valeurs propres
dim 1
I
dim 2
dim 3
dim 4
dim 5
Critère du coude (scree test). Il consiste à retenir les axes dont
les valeurs propres se situent avant le coude.
12 / 17
Interprétation d’une carte des variables
Interprétation des facteurs
1. Variable à retenir : dans une analyse d’une carte des
variables, on ne s’intéresse qu’aux variables bien représentées
sur cette carte (i.e. aux variables proches du cercle de
corrélation).
2. Variable-axe : les variables fortement corrélées avec un
facteur vont contribuer à la définition de cet axe.
3. Variable-variable :
I
I
I
Un angle faible entre 2 variables indique une forte corrélations
entre elles.
2 points variables diamétralement opposés indique une parfaite
corrélation négative (i.e. ρ(j, j 0 ) ' −1) entre ces variables.
Des directions presque orthogonales indiquent une faible
corrélation linéaire entre j et j 0 .
13 / 17
Exemple I
14 / 17
Exemple II
I
la variable v6 est à exclure de l’étude car proche de l’origine
I
la première composante principale est fortement corrélée aux
variables v1 , v2 et v4 car celles-ci ont de forte coordonnées sur
cet axe
I
elle est par contre très peu corrélée à v3 et v5
→ on dit que cette première composante oppose la variable v4
aux variables v1 et v2
I
la deuxième composante oppose la variable v3 à la variable v5
15 / 17
Interprétation d’une carte des individus
Interprétation de la carte des individus
1. Exclure de l’analyse les individus mal représentés sur le plan
étudié (i.e. cosinus carré faible).
2. Regrouper les individus assez proches.
3. Donner les spécificités de chaque groupe grâce à l’analyse de la
carte des variables associée.
16 / 17
Interprétation d’une carte des individus
Exemple
17 / 17

Classification automatique sur facteurs

Transcription

Documents pareils

et voilà le résultat! - Sophie Ka

Mes caractéristiques : - J`aime faire des blagues.

Introduction `a la logique Licence 3 Examen 9 janvier 2006

Proposition de Stage de D.E.A. Lignes de partage des eaux

partition de piano : les barricades mystérieuses

Sélection de variables On simule des observations du mod`ele y =1

Partition stockée sur le site : e-chant.fr E

L`alphabet de la planète des alphas