Fusion et greffes de données - Cedric
Transcription
Fusion et greffes de données - Cedric
Données manquantes et fusion de fichiers Gilbert Saporta CNAM Statistique Appliquée [email protected] 1 Données manquantes Les mécanismes (Rubin,1976) MCAR (Missing Completely at Random) ) P(Y manquant) indépendant de Y et du reste ) Hypothèse forte mais réaliste si volontaire MAR (Missing at random) ) P(Y manquant/Y,X)=P(Ymanquant/X) ) Non testable MCAR et MAR: données manquantes ignorables Cas non ignorable Nécessité de modéliser le mécanisme pour obtenir des estimations sans biais 2 Supprimer les DM? « listwise » Perte d’information Marche pour MCAR et en régression pour les X si MAR selon Y « Pairwise » Utilisable pour modéle linéaire, ACP ) Matrices non positives, statistiques de tests biaisées 3 Estimer les DM: l’imputation Compléter la non-réponse par une valeur plausible. Méthodes implicites modèles 4 Estimation basée sur des modèles Une donnée manquante sur une variable Y est modélisée à partir des variables X selon un modèle de régression régression simple en prenant la variable la plus corrélée. régression multiple modèle linéaire général si X est nominale et la variable à expliquer est quantitative. Analyse discriminante, ou régression logistique si Y nominal Remarque: estimation par la moyenne 5 maximum de vraisemblance Algorithme EM (espérance, maximisation) L'étape E: espérance conditionnelle de chaque donnée manquante sachant les données observées, d’où estimation des paramètres. L'étape M calcule les estimateurs du maximum de vraisemblance des paramètres, avec les lois conditionnelles des données manquantes. convergence vers la valeur la plus probable de chaque donnée manquante pour l'estimation obtenue des paramètres 6 Maximisation de la cohérence interne, ou de l'homogénéité Présentation hollandaise de l’ACM de G=(G1|G2|…|Gm) comme la minimisation d ’une fonction de perte: 1 σ (X, Y) = m m ∑ (X - G 'jYj )' (X - G 'jYj ) j =1 m 1 X= m ∑ G j Yj j=1 7 Les données manquantes sont complétées pour avoir σ minimal: ACM avec valeurs propres maximales. MCA with missing data Unit 1 2 3 4 5 6 7 8 9 10 Income x medium y low medium high low high high low Age young medium old young young old young medium z young Car am am jap jap am am jap am am am 8 Results of the 27 MCA x y z l l j l l m l l o l m j l m m l m o l h j l h m l h o λ1 .70104 .77590 .76956 .78043 .84394 .84394 .78321 .84907 *.84964 x y z m l y m l m m l o m m y m m m m m o m h y m h m m h o λ1 .63594 .72943 .72636 .70106 .77839 .84394 .73319 .80643 .80949 x h h h h h h h h h y z l y l m l o m y m m m o h y h m h o λ1 .61671 .66458 .65907 .70106 .74342 .74342 .68827 .74193 .74198 9 Solution unidimensionnelle peu réaliste: max (λ1+λ2+…+λk) Recherche exhaustive impossible. Algorithmes itératifs. 10 deux inconvénients majeurs pour toutes ces méthodes: risque d’incohérence: si plusieurs données manquantes sont estimées une par une et non conjointement, sans prendre en compte les corrélations variabilité sous-estimée: deux unités ayant les mêmes valeurs de X auront la même estimation pour la valeur manquante de Y 11 Les méthodes d'imputation de type “ hotdeck ” la valeur manquante est remplacée par la valeur observée chez un répondant “ proche ”, le “ donneur ”. - le hot-deck d'ensemble : le donneur est choisi de façon aléatoire. - le hot-deck par classe : - le hot-deck séquentiel : l'individu le plus “ récent ” du tableau de données 12 le hot-deck hiérarchisé : On remplace l'unité défaillante par une unité ayant les mêmes valeurs pour C1, C2,…, Ck. S'il n'en existe pas alors on la remplace par une unité ayant les mêmes valeurs pour C1, C2,…, Ck-1; etc. … - le hot-deck métrique ou méthode du plus proche voisin avec une distance d(i,j) 13 imputation multiple (Rubin) imputer chaque donnée par m>2 valeurs obtenues par tirage dans un ou plusieurs modèles d'estimation. Puis analyse des données sur chacun des m jeux de données complétés simulation de la distribution a posteriori des données manquantes , variances correctes. Mais: complexité des calculs, temps de calcul et volume considérable. 14 Fusions et greffes Fusions de fichiers et greffes d'enquêtes: combiner des données provenant de sources différentes. en amont du processus de « data mining » . fusionner différentes bases: enquêtes, sources administratives, fichiers clients, données socioéconomiques agrégées, etc. Chaque base peut être constituée d'unités statistiques différentes ou d'agrégation de ces unités à différents niveaux. 15 Fusion de fichiers. Cas élémentaire: deux fichiers: F1 p+q variables mesurées sur n0 unités, F2 sous-ensemble de p variables pour n1 unités. Souvent n0 est faible par rapport à n1 . X0 Y0 X1 ? 16 Greffes d’enquêtes "coller" ou projeter les résultats d'une enquête S1 sur l'espace de référence défini par une enquête S0. X0 Y0 X1 Y1 17 ) Etapes : ) ACP de (X0 Y0), on retient k composantes C0 que l ’on régresse sur les variables communes X0. Ĉ0 = X0 bO ) On positionne les individus de S1 dans le plan principal de S0: C1 = X1 bO • On positionne les variables de Y1 dans S0 en calculant les correlations entre Y1 et C1 18 On utilise donc deux fois la méthode des points supplémentaires (les variables supplémentaires sont positionnées grâce aux individus supplémentaires) combinée avec une approximation des composantes principales. Pour de bons résultats: X0 et Y0 bien corrélées , pour pouvoir reconstituer les composantes principales de S0 X1 et Y1 aussi bien corrélées. 19 Modèles et méthodes pour la fusion de données Appliquer industriellement une technique de traitement de données manquantes. deux approches: Méthodes d’imputation: compléter la non-réponse par une valeur plausible. Repondération : affecter aux répondants des pondérations pour compenser les non-réponses 20 ) conditions : ) vérifier préalablement que la taille de la population du fichier donneur est suffisamment importante par rapport au fichier receveur ) et que les variables communes et les variables spécifiques possèdent des liaisons relativement fortes entre elles. 21 Les méthodes implicites: fusion par appariements intra-cellulaires, imputation par Hot-Deck, méthode des plus proches voisins etc.… donner simultanémént aux variables du fichier receveur toute l'information et les renseignements détenus par les variables du fichier donneur. 22 FICHIER DONNEUR I X0 Y0 Plus proche voisin Imputation X1 ? J FICHIER RECEVEUR 23 La fusion sur référentiel factoriel fréquemment utilisée en France. Son principe (Santini 1984) repose sur : - les variables critiques : servent à déterminer pour l'individu du fichier receveur ses donneurs éligibles. - les variables de rapprochement : une partie des variables communes, par un calcul de distance, permettant de choisir pour chaque receveur le donneur éligible le plus proche 24 Réferentiel factoriel: ACM sur l’ensemble des variables critiques ou communes Détermination d’un voisinage du receveur Choix final parmi les donneurs éligibles selon les variables de rapprochement (sexe, age, …) Pénalisation pour éviter de prendre trop souvent les mêmes donneurs (voir fusion par mariage) 25 Axis II Axis I 26 Fusion par mariages éviter qu'un même donneur transmette son information à plusieurs receveurs (mariages multiples si un donneur est déjà marié à n receveurs, d est pénalisée par : d ' = 1 − (1 − d ) n 27 G. Santini a imaginé 6 types différents de relations de voisinage par “ mariage ”: A receveur, B donneur. le mariage par “ coup de foudre ” (voisins réciproques) : si A est le plus proche voisin de B et si B est le plus proche voisin de A et n'a jamais été marié, alors A et B sont immédiatement mariés. le mariage avec “ l'ami d'enfance ” : si B est le plus proche voisin de A, mais B est déjà marié à A' , alors A sera marié à B' qui est le plus proche voisin de A après B. le mariage par “ adultère ” : variante du cas précédent quand d(B ’,A) est plus grand que la distance pénalisée entre A et B (puisque B est déjà marié a A'). On marie alors A et B. 28 Validation procédures empiriques où on estime des données connues mais cachées que l'on compare ensuite aux vraies valeurs:validation croisées, bootstrap … Indicateurs: reconstitutions de données individuelles prévisions au niveau de groupes reconstitutions de marges, de croisements 29 Fusion avec collage du vecteur entier du donneur moins bon pour la reconstitution de données individuelles,mais garde la structure de corrélation et évite les incohérences Régression variable par variable. C ’est l’inverse Dans tous les cas il est nécessaire d'avoir: • • • Un nombre suffisant de variables communes Des corrélations élevées entre variables communes et variables à imputer. Une structure commune entre fichier donneur et fichier receveur: distributions comparables des variables communes ou critiques, sinon résultats biaisés. Redressements souvent nécessaires. 30 Un exemple: Données SPAD 992 interviews, divisées aléatoirement en deux fichiers : 800 donneur 192 receveur. 4 variables communes: Q1 - classe d'age(5 catégories), Q2 - taille d'agglomération (5 catégories), Q3 - heure de coucher (7 catégories), Q4 - age de fin d'études (5 catégories) . 3 variables d ’opinion Y à imputer: Q5 - La famille est le seul endroit où on se sent bien ? (oui, non) Q6 - Plus haut diplôme obtenu (7 catégories), Q7 - Taux d'écoute TV (4 catégories). 31 Table 3 performances individuelles Méthode Aléatoire Homogénéité max. FRF Classifications correctes 49% 54% 47% Table 4 performances marginales Q5 1 2 Q6 Vraies marges 136 56 Homogénéité max 136 56 FRF 125 67 1 2 3 4 5 6 7 Q7 36 70 35 29 4 18 0 6 114 16 23 33 33 0 49 65 27 33 1 15 2 1 2 3 4 100 36 37 19 118 18 29 27 100 43 31 18 32 Conclusions Techniques: La fusion: un problème de données manquantes massives, stimulant pour les statisticiens. Autres voies de recherche: algorithmes d'apprentissage nonlinéaires (réseaux de neurones). besoin réel de fournir à l'utilisateur final une base unique sans “ trou ”. 33 Prudence quand on utilise des “ données ” qui sont en réalité des estimations et non des valeurs observées: ne jamais utiliser à un niveau individuel, mais uniquement agrégé. Conséquence perverse: un moindre effort de collecte, puisque l'on peut reconstituer des données… Nécessité de valider 34 Déontologiques, confidentialité et protection de la vie privée : des données qui n'ont pas été recueillies mais estimées, peuvent être ajoutées dans des fichiers à l'insu des individus concernés. Quid de La loi “ Informatique et Liberté ” ? paradoxe alors que les INS développent des techniques pour assurer la confidentialité 35 Références Allison P. (2002) Missing data, Sage Publications Co V. (1997) Méthodes statistiques et informatiques pour le traitement des données manquantes.Doctorat, CNAM. Paris. Fischer N. (2004) Fusion Statistique de Fichiers de Données. Doctorat, CNAM, Paris. Saporta G. (2002) Data fusion and data grafting . Computational Statistics and Data Analysis, 38(4),465-473 Tutorial GRAFT SPAD, www.esisproject.com 35