Classification automatique sur facteurs
Transcription
Classification automatique sur facteurs
Classification automatique sur facteurs Classification automatique sur facteurs ESSEC - OCT 2012 1 / 17 Classification automatique sur facteurs Plan Exemple Classification automatique des données Interprétation des classes d’une partition ACP sur les données : détermination des facteurs 2 / 17 Classification automatique sur facteurs Exemple Exemple I Individus : Les années 1872, 1880, 1890, 1900, 1903, 1906, 1909, 1912, 1920, 1923, 1926, 1929, 1932, 1935, 1938, 1947, 1950, 1953, 1956, 1959, 1962, 1965, 1968 et 1971. I Variables : Pour chaque année, on a évalué les dépenses de l’Etat dans les 11 domaines suivants : Pouvoirs publics (PVP), Agriculture (AGR), Commerce et industrie (CMI), Transports (TRA), Logement et aménagement du territoire (LOG), Education et culture (EDU), Action sociale (ACS), Anciens combattants (ACO), Défense (DEF), Dette (DET) et Divers (DIV). Input : tableau de 24 individus (qui sont les années) décrits par 11 variables. 3 / 17 Classification automatique sur facteurs Classification automatique des données Introduction I La classification automatique est utilisée pour former des groupes qui sont déterminés selon des critères d’homogénéité et de distance entre les membres. I C’est un instrument privilègié d’un des fondements des stratégies du marketing : la segmentation des consommateurs. Deux types d’inputs sont concernés par la classification automatique : I tableau individus×variables ou individus× facteurs I tableau indivius×individus ou tableau de dissimilarités 4 / 17 Classification automatique sur facteurs Classification automatique des données Procédures de constitution des classes I Les méthodes hiérachiques : produisent des suites de partitions en classes de plus en plus vastes. F IGURE : Représentation hiérarchique I Les méthodes de partitionnement : produisent directement une partition en un nombre de calsses fixé au préalable. 5 / 17 Classification automatique sur facteurs Classification automatique des données Les méthodes hiérachiques 1. Principe des méthodes hiérachiques Il consiste à construire une suite de partitions en n classes, n − 1 classes, ...emboı̂tées les une dans les autres de la manière suivante : • on recherche à chaque étape les deux classes les plus proches, on les fusionne et on continue jusuqu’à ce qu’il n’y ait plus qu’une seule classe. • la partition en k classes est obtenue en regroupant deux des classes de la partition en k + 1 classes. • la partition en n classes est celle où chaque individu est isolé et la partition en une classe n’est autre que la réunion de tous les individus (entre les deux il y’a n − 2 partitions). 6 / 17 Classification automatique sur facteurs Classification automatique des données Les méthodes hiérachiques 2. Critères de regroupement (ou d’agrégation) de 2 classes. I Choisir un critère d’agrégation de deux classes revient à définir une distance entre classes. I Considérons deux classes C1 et C2 . On note ekl le l ème élément de la classe k . Exemples de critères d’agrégation : • Critère du lien minimum : d(C1 , C2 ) = min (d(e1i , e2j )), • Critère du lien maximum : d(C1 , C2 ) = max (d(e1i , e2j )), • Critère de la moyenne : d(C1 , C2 ) = 1 XX d(e1i , e2j ), pC1 pC2 i j pC1 pC2 d 2 (gC1 , gC2 ) ou pCk et pC1 + pC2 sont, respectivement, le cardinal et le centre de gravité de Ck . • Critère de Ward : d(C1 , C2 ) = gCk 7 / 17 Classification automatique sur facteurs Classification automatique des données Les méthodes hiérachiques 3. Partition issue d’une hiérarchie I Pour déterminer une partition à partir d’une hiérarchie, il suffit de couper la hiérarchie à un niveau donné et d’identifier les branches (classes) qui en découlent. I Pour déterminer la meilleure partition issue de la hiérachie et donc le meilleure nombre de classes, il faut • Identifier le plus haut saut entre deux paliers successifs • Couper la hiéarchie entre ces deux paliers : la partition obtenue est celle ayant le meilleur nombre de classes. 8 / 17 Classification automatique sur facteurs Classification automatique des données Les méthodes non hiérachiques Les méthodes non hiérachiques 1. Principe. I Les méthodes non hiérarchiques permettent de traiter des populations importantes (même 1000 et plus) à des coûts raisonnables. Ces méthodes visent à constituer directement k types à partir de n objets en essayant d’optimiser un indice global mesurant la qualité de la classification. I Le choix du nombre de groupes se pose ici ex-ante ; on peut parfois avoir des hypothèses a priori provenant d’une phase exploratoire qualitative. 2. Exemples. centres mobiles, k-means 9 / 17 Classification automatique sur facteurs Interprétation des classes d’une partition Interprétation des classes d’une partition Cette étape consiste à trouver la signification pratique des classes. Pour cela il faut revenir au variables initiales décrivant les individus : I V. quantitatives on décrira les classes en se basant sur les coordonnées de leur centre de gravité. Ces coordonnées ne sont autres que les moyennes des variables pour les individus constituant une classe donnée I V. qualitatives l’interprétation peut être assez complexe dans la mesure où les classes ne sont pas toujours ”pures” mais représentant des ”tendances dominantes” au sein de la population étudiée Exemple : En croisant la variable sexe avec la variable classe d’appartenance d’un consommateur, on aura des types plutôt masculin formés de 70% d’hommes et 30% de femmes, d’autres plutôt féminin. 10 / 17 Classification automatique sur facteurs ACP sur les données : détermination des facteurs Nombre d’axes à retenir Nombre d’axes à retenir I I Critère de Kaiser. Il consiste à ne garder, dans une ACP normée, que les axes dont la valeur propre est supérieure à 1 (i.e. l’inertie moyenne). I Taux d’inertie cumulé. Son appréciation doit tenir compte du nombre de variables et du nombre d’individus : un taux d’inertie relatif à un axe de 10% peut être une valeur importante si le tableau possède 100 variables et faible s’il n’en a que 10. λ1 + ... + λq λ1 + ... + λq = p I(N ) X λj j=1 11 / 17 Classification automatique sur facteurs ACP sur les données : détermination des facteurs Nombre d’axes à retenir Nombre d’axes à retenir II 0 1 2 3 4 valeurs propres dim 1 I dim 2 dim 3 dim 4 dim 5 Critère du coude (scree test). Il consiste à retenir les axes dont les valeurs propres se situent avant le coude. 12 / 17 Classification automatique sur facteurs ACP sur les données : détermination des facteurs Interprétation d’une carte des variables Interprétation des facteurs 1. Variable à retenir : dans une analyse d’une carte des variables, on ne s’intéresse qu’aux variables bien représentées sur cette carte (i.e. aux variables proches du cercle de corrélation). 2. Variable-axe : les variables fortement corrélées avec un facteur vont contribuer à la définition de cet axe. 3. Variable-variable : I I I Un angle faible entre 2 variables indique une forte corrélations entre elles. 2 points variables diamétralement opposés indique une parfaite corrélation négative (i.e. ρ(j, j 0 ) ' −1) entre ces variables. Des directions presque orthogonales indiquent une faible corrélation linéaire entre j et j 0 . 13 / 17 Classification automatique sur facteurs ACP sur les données : détermination des facteurs Interprétation d’une carte des variables Exemple I 14 / 17 Classification automatique sur facteurs ACP sur les données : détermination des facteurs Interprétation d’une carte des variables Exemple II I la variable v6 est à exclure de l’étude car proche de l’origine I la première composante principale est fortement corrélée aux variables v1 , v2 et v4 car celles-ci ont de forte coordonnées sur cet axe I elle est par contre très peu corrélée à v3 et v5 → on dit que cette première composante oppose la variable v4 aux variables v1 et v2 I la deuxième composante oppose la variable v3 à la variable v5 15 / 17 Classification automatique sur facteurs ACP sur les données : détermination des facteurs Interprétation d’une carte des individus Interprétation de la carte des individus 1. Exclure de l’analyse les individus mal représentés sur le plan étudié (i.e. cosinus carré faible). 2. Regrouper les individus assez proches. 3. Donner les spécificités de chaque groupe grâce à l’analyse de la carte des variables associée. 16 / 17 Classification automatique sur facteurs ACP sur les données : détermination des facteurs Interprétation d’une carte des individus Exemple 17 / 17