Classification Automatique et Fonctions de Proximités en

Transcription

Classification Automatique et Fonctions de Proximités en
Classification Automatique et Fonctions de Proximités en
Analyse des Données Symboliques
Francisco de A.T. de Carvalho
Centro de Informatica - CIn,
Universidade Federal de Pernambuco,
Av. Prof. Luiz Freire, s/n – Cidade Universitára
CEP : 50740-540, Recife-PE, Brésil
{ealn,fatc}@cin.ufpe.br
RÉSUMÉ. Dans ce travail nous présentons plusieurs fonctions de proximité qui peuvent être utilisées pour obtenir
des partitions d’objets symboliques par des algorithmes de types « nuées dynamiques ». Ces méthodes de nuées
dynamiques peuvent être appliquées directement au tableau individus - variables ou peuvent être appliquées sur des
tableaux de proximité.
MOTS-CLÉS : Analyse des Données Symboliques, Données Symboliques, Fonctions de Proximités, Algorithme de
type Nuées Dynamiques.
1
Introduction
Grâce à la technologie informatique, de vastes ensembles de données sont recueillis et il est nécessaire de
les résumer. Actuellement plusieurs approches ont été proposées pour l'extraction de connaissances, la
découverte de régularités et la simplification de ces données. Notre approche est l'approche symbolique en
classification et en analyse de données. Son point de départ est l'extraction de connaissances de ces
grandes bases de données, comme en "data mining". Ces connaissances sont modélisées par des objets
plus complexes, appelées "objets symboliques", décrits par des variables symboliques qui peuvent prendre
comme valeur non seulement une catégorie ou une valeur numérique comme dans les approches
classiques mais aussi un ensemble de valeurs, un intervalle, une distribution de fréquence car ces objets
peuvent correspondre à des groupes d’individus et il faut tenir compte de leur variabilité. L'étape suivante
est l'extension des méthodes et algorithmes usuels de l'extraction de connaissances à ces données plus
complexes, passant ainsi du "data mining" au "knowledge mining".
Dans ce travail nous présentons plusieurs fonctions de proximité qui peuvent être utilisés pour obtenir des
partitions d’objets symboliques par des algorithmes de types « nuées dynamiques ». Ces méthodes de
nuées dynamiques peuvent être appliquées directement au tableau individus - variables ou peuvent être
appliquées sur des tableaux de proximité.
Dans le premier cas nous allons nous restreindre à des données de type quantitatives continue, de type
intervalle ou un mélange de ces deux types: les méthodes de nuées dynamiques seront alors basées soit sur
des distances adaptatives du type Mahalanobis ([SOU 04]), soit sur des distances adaptatives et non
adaptatives du type city-block, euclidienne, Chebyshev, ou plus généralement du type Minkowsky ([CHA
02, CHA 03, DEC 04, DEC a, DEC b, SOU 04a, SOU04b]).
L’algorithme d’optimisation utilisé est de type Nuées Dynamiques ([DID 78]) et il consiste à utiliser
alternativement une étape de représentation, où la partition est fixée et pour laquelle on cherche le
meilleur représentant de chaque classe au sens de la distance choisie, et une étape d’allocation, où les
représentants sont fixés et dans laquelle à affecter chaque individu à la classe dont le représentant lui est le
plus semblable. On recommence ces étapes jusqu’à la convergence.
Dans le deuxième cas nous allons considérer des objets symboliques décrits par différents types de
variables symboliques (catégoriques multi-valuées, de type intervalle ou de type modal). Lors du calcul de
la proximité entre ces unités statistiques, il est nécessaire de tenir compte à la fois de la variabilité
(disjonction des valeurs relatives à une variable) et de la connaissance du domaine (dépendance
hiérarchique entre variables). Ces dépendances hiérarchiques sont exprimées par des règles ([BOC 00]).
Pour les données symboliques Booléennes (celles décrites par des variables catégoriques multi-valuées ou
de type intervalle) nous allons considérer deux familles d’indices de proximités.
La première famille utilise pour chaque variable une fonction de comparaison pour mesurer à la fois la
différence de contenu et la différence de position (dans le cas où les données seraient ordonnées, i.e.,
intervalles, ensemble de catégories ordonnées) et une fonction d’agrégation. Les fonctions de comparaison
utilisent des opérateurs symboliques (union et intersection symboliques) et celles qui mesurent la
différence de contenu peuvent être basées sur les indices usuels de comparaison des tableaux binaires. La
fonction d’agrégation s’inspire de la métrique de Minkowsky ([CHA 03, DEC 94, DEC 98b, DEC 00]).
La seconde famille n’utilise pas de fonction d’agrégation. Elle utilise une fonction de comparaison
globale, qui tient compte de toutes les variables à la fois, pour mesurer la différence de contenu et la
différence de volume. Ces fonctions de comparaison utilisent aussi des opérateurs symboliques (union et
intersection symboliques) et celles qui mesurent la différence de contenu peuvent être basées sur les
indices usuels de comparaison des tableaux binaires ([DEC 98b]).
Le problème majeur lié à toutes ces approches est celui de l’aspect combinatoire du calcul lors de la prise
en compte des dépendances hiérarchiques. Il est linéaire en fonction du nombre de variables et,
malheureusement, exponentiel en fonction du nombre de règles. Cette difficulté nous a amenés à
l’introduction de la Forme Normale Symbolique ([CSE 99, CSE 01, CSE 02]). La Forme Normale
Symbolique (NSF), inspiré de la 3ème Forme Normale des bases de données relationnelles, consiste à
factoriser les objets symboliques selon les contraintes exprimées par des règles entre les variables de telle
façon que, dans la plu part des cas, les calculs s’effectuent dans un temps qui n’est quasiment plus affecté
par la présence des règles. La transformation elle-même étant effectuée en un temps polynomial en
fonction du nombre d’objets.
Une variable modale Y définie sur un ensemble E = {ω1, ω2, …} de domaine D ={m1, …,mk} est une
application Y(ω) = (U(ω), q(ω)), où ω ∈ E, et où q(ω) est une distribution de poids sur le domaine D et
U(ω) ⊆ D est le support de q(ω) dans D ([BOC 00]).
Pour les données symboliques modales (celles décrites par des variables symboliques du type modal) les
indices de proximités utilisent pour chaque variable une fonction pour comparer les supports et une autre
fonction pour comparer les distributions de poids. Ces comparaisons sont ensuite réunies par une fonction
d’agrégation. La fonction de comparaison des distributions peu être du type city-block, euclidienne ([CHA
03]), Chebyshev, issue du coefficient d’affinité ([BOC 00] p. 160) ou issue des mesures de généralité pour
des données de type modal ([BRI 02]).
L’algorithme d’optimisation utilisé est encore de type Nuées Dynamiques ([DID 78]) et il consiste à
utiliser alternativement une étape de représentation et une étape d’allocation. Lors de l’étape de
représentation la partition est fixée et pour chacune des classes on cherche l’individu pour lequel la
somme des distances aux individus de la même classe est minimum. Cet individu est le meilleur
représentant de la classe au sens de la distance choisie. Lors de l’étape d’allocation, les représentants sont
fixés et on cherche à affecter chaque individu à la classe dont le représentant lui est plus semblable. On
recommence ces étapes jusqu’à la convergence.
2
Bibliographie
[BRI 02] BRITO, P., DE CARVALHO, F.A.T., «Symbolic Clustering of Constrained Probabilistic Data”,
Exploratory Data Analysis in Empirical Research: Proceedings of the 25th Annual Conference of the
German Classification Society, Gfkl-2001, Munich (Germany), Schwaiger, M and Opitz, O. Eds.,
2003, p.12—21, Springer, Berlin Heidelberg.
[BOC 00] BOCK H-H., DIDAY, E., Analysis of Symbolic Data: Exploratory Methods for Extracting
Statistical Information from Complex Data, Springer, 2000.
[CHA 02] CHAVENT, M., LECHEVALLIER, Y, “Dynamical Clustering of Interval Data Optimization
of an Adequacy Criterion Based on Haussdorf Distance”, Classification, Clustering, and Data
Analysis: Proceedings of the 8th Conference of the International Federation of Classification Societies,
IFCS-2002, Krakow (Poland), Jajuga, K. et al Eds, 2002, p. 53—60, Springer, Berlin Heidelberg.
[CHA 03] CHAVENT, M., DE CARVALHO, F. A. T., LECHEVALLIER, Y., VERDE, R., “Trois
nouvelles méthodes de classification automatique de données symboliques de type intervalle”, Revue
de Statistique Appliquée,, v.LI, n.4, 2003, p.5—29.
[CSE 99] CSERNEL, M., DE CARVALHO, F.A.T., “Usual operations with symbolic data under normal
symbolic form”, Applied Stochastic Models in Business and Industry, v 11, 1999, p.241—257.
[CSE 01] CSERNEL, M., DE CARVALHO, F.A.T., “On memory requirement with normal symbolic
form”, Exploratory Data Analysis in Empirical Research: Proceedings of the 25th Annual Conference
of the German Classification Society, Gfkl-2001, Munich (Germany), Schwaiger, M and Opitz, O.
Eds., 2003, p. 22—30, Springer, Berlin Heidelberg.
[CSE 02] CSERNEL, M., DE CARVALHO, F.A.T., “Modelling memory requeriment with normal
symbolic form”, Classification, Clustering and Data Analysis Proceedings of the 8th Conference of the
International Federation of Classification Societies, IFCS-2002, Krakow (Poland), Jajuga, K. et al Eds,
2002, p.289—296, Springer, Berlin Heidelberg.
[DEC 94] DE CARVALHO, F.A.T, “Proximity coefficients between Boolean symbolic objects”, New
Approaches in Classification and Data Analysis: Proceedings of the 4th Conference of the International
Federation of Classification Societies, IFCS-1994, Paris (France), Diday et al Eds, 1994, p.387—394,
Springer, Berlin Heidelberg.
[DEC 98a] DE CARVALHO, F.A.T, “Extension based proximities between constrained Boolean
symbolic objects”, Data Science, Classification and Related Methods: Proceedings of the 5th
Conference of the International Federation of Classification Societies, IFCS-1996, Tokyo (Japan),
Hayashi, C. et al, 1998, p.370—378, Springer, Berlin Heidelberg.
[DEC 98b] DE CARVALHO, F.A.T., SOUZA, R.M.C.R., “Statistical proximity functions of Boolean
symbolic objects based on histograms”, Advances in Data Science and Classification: Proceedings of
the 6th Conference of the International Federation of Classification Societies, IFCS-1998, Rome
(Italy), Rizzi, A. et al Eds, 1998, p.391—396, Springer, Berlin Heidelberg.
[DEC 99] DE CARVALHO, F. A. T., VERDE, R., LECHEVALLIER, Y., “A dynamical clustering of
symbolic objects based on a context dependent proximity measure”, Proceedings of the IX
International Symposium on Applied Stochastic Models and Data Analysis, AMSDS-1999, Lisboa
(Portugal), Bacelar-Nicolau, H. et al Eds, p.237—242, LEAD, Universidade de Lisboa.
[DEC 00] DE CARVALHO, F.A.T., DIDAY, E., “Un Indice de Proximite entre Objets Symboliques qui
tient compte des Contraintes dans l'Espace de Description”, Induction Symbolique et Numérique à
partir des Données, Diday, E. et al Eds, 2000, p.225—246, Cépadues Éditions, Toulouse.
[DEC 04] DE CARVALHO, F. A. T., LECHEVALLIER, Y., SOUZA, R. M. C. R, “A dynamic cluster
algorithm based on adaptive Lr distances for quantitative data”, Classification, Clustering and Data
Mining Applications: Proceedings of the 9th Conference of the International Federation of
Classification Societies, IFCS-2004, Chicago (USA), Banks, D. et al Eds, 2004, p.33—42, Springer,
Berlin Heidelberg.
[DEC a] DE CARVALHO, F.A.T., SOUZA, R.M.C.R, CHAVENT, M., LECHEVALLIER, Y. “Adaptive
Hausdorff distance and dynamic clustering of interval data”, soumis à Pattern Recognition Letters.
[DEC b] DE CARVALHO, F.A.T., BRITO, P., BOCK, H.-H., “Dynamic clustering for interval data
based on L2 distance”, soumis à Pattern Recognition.
[DID 78] DIDAY, E., GOVAERT, G., LECHEVALLIER, Y., SIDI, J., “Clsutering in pattern
recognition”, Proceedings of the 4th Joint International Conference on Pattern Recognition, Kyoto,
Japan.
[SOU 04a] SOUZA, R. M. C. R., DE CARVALHO, F. A. T., LECHEVALLIER, Y., “Dynamic cluster
methods for interval data based on Mahalanobis distances”, Classification, Clustering and Data
Mining Applications: Proceedings of the 9th Conference of the International Federation of
Classification Societies, IFCS-2004, Chicago (USA), Banks, D. et al Eds, 2004, p.351 – 360, Springer,
Berlin Heidelberg.
[SOU 04b] SOUZA, R. M. C. R., DE CARVALHO, F. A. T., “Clustering of Interval Data based on CityBlock Distances”, Pattern Recognition Letters, v.25, n.3, 2004, p.353 – 365.
[VER 00] VERDE, R., DE CARVALHO, F. A. T., LECHEVALLIER, Y., “A dynamical clustering
algorithm for multi-nominal data”, Data Analysis, Classification and Related Methods: Proceedings of
the 7th Conference of the International Federation of Classification Societies, IFCS-2000, Namur
(Belgium), Kiers, H.A.L. et al Eds, 2000, p.387—394, Springer, Berlin Heidelberg.
[VER 01] VERDE, R., DE CARVALHO, F.A.T., LECHEVALLIER, Y., “A Dynamical Clustering
Algorithm for Symbolic Data”, Tutorial on Symbolic Data Analysis, 25th Annual Conference of the
German Classification Society, Munich (Germany), DIDAY, E., LECHEVALLIER, Y. Eds, 2001,
p.59—72.