Fusion et greffes de données - Cedric

Transcription

Données manquantes et fusion
de fichiers
Gilbert Saporta
CNAM
Statistique Appliquée
[email protected]
1
Données manquantes

Les mécanismes (Rubin,1976)
MCAR
(Missing Completely at Random)
) P(Y
manquant) indépendant de Y et du reste
) Hypothèse forte mais réaliste si volontaire
MAR
(Missing at random)
) P(Y
manquant/Y,X)=P(Ymanquant/X)
) Non testable
MCAR

et MAR: données manquantes ignorables
Cas non ignorable
Nécessité
de modéliser le mécanisme pour
obtenir des estimations sans biais
2
Supprimer les DM?

« listwise »
Perte
d’information
Marche pour MCAR et en régression pour les X si
MAR selon Y

« Pairwise »
Utilisable
pour modéle linéaire, ACP
) Matrices
non positives, statistiques de tests biaisées
3
Estimer les DM: l’imputation

Compléter la non-réponse par une valeur
plausible.
Méthodes

implicites
modèles
4
Estimation basée sur des modèles

Une donnée manquante sur une variable Y est
modélisée à partir des variables X selon un
modèle de régression
régression
simple en prenant la variable la plus
corrélée.
régression multiple
modèle linéaire général si X est nominale et la
variable à expliquer est quantitative.
Analyse discriminante, ou régression
logistique si Y nominal
Remarque: estimation par la moyenne
5
maximum de vraisemblance

Algorithme EM (espérance, maximisation)
L'étape E: espérance conditionnelle de chaque donnée
manquante sachant les données observées, d’où
estimation des paramètres.
L'étape M calcule les estimateurs du maximum de
vraisemblance des paramètres, avec les lois
conditionnelles des données manquantes.
convergence vers la valeur la plus probable de chaque
donnée manquante pour l'estimation obtenue des
paramètres
6
Maximisation de la cohérence interne,
ou de l'homogénéité

Présentation hollandaise de l’ACM de
G=(G1|G2|…|Gm) comme la
minimisation d ’une fonction de perte:
1
σ (X, Y) =
m
m
∑
(X - G 'jYj )' (X - G 'jYj )
j =1
m
1
X=
m
∑
G j Yj
j=1
7

Les données manquantes sont complétées pour
avoir σ minimal: ACM avec valeurs propres
maximales.
MCA with missing data
Unit
1
2
3
4
5
6
7
8
9
10
Income
x
medium
y
low
medium
high
low
high
high
low
Age
young
medium
old
young
young
old
young
medium
z
young
Car
am
am
jap
jap
am
am
jap
am
am
am
8
Results of the 27 MCA
x y z
l l j
l l m
l l o
l m j
l m m
l m o
l h j
l h m
l h o
λ1
.70104
.77590
.76956
.78043
.84394
.84394
.78321
.84907
*.84964
x y z
m l y
m l m
m l o
m m y
m m m
m m o
m h y
m h m
m h o
λ1
.63594
.72943
.72636
.70106
.77839
.84394
.73319
.80643
.80949
x
h
h
h
h
h
h
h
h
h
y z
l y
l m
l o
m y
m m
m o
h y
h m
h o
λ1
.61671
.66458
.65907
.70106
.74342
.74342
.68827
.74193
.74198
9

Solution unidimensionnelle peu réaliste:
max (λ1+λ2+…+λk)
Recherche exhaustive impossible. Algorithmes
itératifs.
10
deux inconvénients majeurs pour toutes ces
méthodes:

risque d’incohérence: si plusieurs données
manquantes sont estimées une par une et non
conjointement, sans prendre en compte les
corrélations
variabilité sous-estimée: deux unités ayant les
mêmes valeurs de X auront la même estimation
pour la valeur manquante de Y
11
Les méthodes d'imputation de type “ hotdeck ”

la valeur manquante est remplacée par la valeur
observée chez un répondant “ proche ”, le
“ donneur ”.
-
le hot-deck d'ensemble : le donneur est choisi
de façon aléatoire.
- le hot-deck par classe :
- le hot-deck séquentiel : l'individu le plus
“ récent ” du tableau de données
12
le
hot-deck hiérarchisé : On remplace l'unité
défaillante par une unité ayant les mêmes valeurs
pour C1, C2,…, Ck. S'il n'en existe pas alors on la
remplace par une unité ayant les mêmes valeurs
pour C1, C2,…, Ck-1; etc. …
- le hot-deck métrique ou méthode du plus
proche voisin avec une distance d(i,j)
13
imputation multiple (Rubin)

imputer chaque donnée par m>2 valeurs
obtenues par tirage dans un ou plusieurs
modèles d'estimation. Puis analyse des
données sur chacun des m jeux de données
complétés
simulation de la distribution a posteriori des
données manquantes , variances correctes.
Mais: complexité des calculs, temps de calcul et
volume considérable.
14
Fusions et greffes

Fusions de fichiers et greffes d'enquêtes:
combiner des données provenant de sources
différentes.
en amont du processus de « data mining » .
fusionner différentes bases: enquêtes, sources
administratives, fichiers clients, données socioéconomiques agrégées, etc.
Chaque base peut être constituée d'unités
statistiques différentes ou d'agrégation de ces
unités à différents niveaux.
15

Fusion de fichiers. Cas élémentaire:
deux fichiers: F1 p+q variables mesurées sur n0
unités, F2 sous-ensemble de p variables pour n1
unités. Souvent n0 est faible par rapport à n1 .
X0
Y0
X1
?
16

Greffes d’enquêtes
"coller" ou projeter les résultats d'une enquête S1
sur l'espace de référence défini par une enquête
S0.
X0 Y0
X1
Y1
17
) Etapes
:
) ACP de (X0 Y0), on retient k composantes C0
que l ’on régresse sur les variables communes
X0.
Ĉ0 = X0 bO
) On
positionne les individus de S1 dans le plan
principal de S0:
C1 = X1 bO
•
On positionne les variables de Y1 dans S0 en
calculant les correlations entre Y1 et C1
18

On utilise donc deux fois la méthode des points
supplémentaires (les variables supplémentaires sont
positionnées grâce aux individus supplémentaires)
combinée avec une approximation des composantes
principales.
Pour de bons résultats:
X0 et Y0 bien corrélées , pour pouvoir reconstituer les
composantes principales de S0
X1 et Y1 aussi bien corrélées.

19
Modèles et méthodes pour la
fusion de données

Appliquer industriellement une technique de
traitement de données manquantes.
deux approches:
Méthodes d’imputation:
compléter la non-réponse par une valeur
plausible.
Repondération : affecter aux répondants des
pondérations pour compenser les non-réponses
20
) conditions
:
) vérifier
préalablement que la taille de la
population du fichier donneur est suffisamment
importante par rapport au fichier receveur
) et que les variables communes et les variables
spécifiques possèdent des liaisons relativement
fortes entre elles.
21
Les méthodes implicites:

fusion par appariements intra-cellulaires,
imputation par Hot-Deck,
méthode des plus proches voisins etc.…
donner simultanémént aux variables du fichier
receveur toute l'information et les
renseignements détenus par les variables du
fichier donneur.
22
FICHIER DONNEUR
I
X0
Y0
Plus proche voisin
Imputation
X1
?
J
FICHIER RECEVEUR
23
La fusion sur référentiel factoriel

fréquemment utilisée en France. Son principe
(Santini 1984) repose sur :
-
les variables critiques : servent à déterminer
pour l'individu du fichier receveur ses donneurs
éligibles.
- les variables de rapprochement : une partie des
variables communes, par un calcul de distance,
permettant de choisir pour chaque receveur le
donneur éligible le plus proche
24

Réferentiel factoriel: ACM sur l’ensemble des
variables critiques ou communes
Détermination d’un voisinage du receveur
Choix final parmi les donneurs éligibles selon les
variables de rapprochement (sexe, age, …)
Pénalisation pour éviter de prendre trop souvent
les mêmes donneurs (voir fusion par mariage)
25
Axis II
Axis I
26
Fusion par mariages

éviter qu'un même donneur transmette son
information à plusieurs receveurs (mariages
multiples
si un donneur est déjà marié à n receveurs, d
est pénalisée par :
d ' = 1 − (1 − d )
n
27

G. Santini a imaginé 6 types différents de
relations de voisinage par “ mariage ”: A
receveur, B donneur.
le
mariage par “ coup de foudre ” (voisins
réciproques) : si A est le plus proche voisin de B et
si B est le plus proche voisin de A et n'a jamais été
marié, alors A et B sont immédiatement mariés.
le mariage avec “ l'ami d'enfance ” : si B est le plus
proche voisin de A, mais B est déjà marié à A' ,
alors A sera marié à B' qui est le plus proche voisin
de A après B.
le mariage par “ adultère ” : variante du cas
précédent quand d(B ’,A) est plus grand que la
distance pénalisée entre A et B (puisque B est déjà
marié a A'). On marie alors A et B.
28
Validation

procédures empiriques où on estime des
données connues mais cachées que l'on
compare ensuite aux vraies valeurs:validation
croisées, bootstrap …
Indicateurs:
reconstitutions
de données individuelles
prévisions au niveau de groupes
reconstitutions de marges, de croisements
29

Fusion avec collage du vecteur entier du donneur
moins
bon pour la reconstitution de données
individuelles,mais garde la structure de corrélation
et évite les incohérences

Régression variable par variable.
C

’est l’inverse
Dans tous les cas il est nécessaire d'avoir:
•
•
•
Un nombre suffisant de variables communes
Des corrélations élevées entre variables communes
et variables à imputer.
Une structure commune entre fichier donneur et
fichier receveur: distributions comparables des
variables communes ou critiques, sinon résultats
biaisés. Redressements souvent nécessaires.
30
Un exemple:

Données SPAD 992 interviews, divisées
aléatoirement en deux fichiers : 800 donneur
192 receveur.
4 variables communes:
Q1 - classe d'age(5 catégories),
Q2 - taille d'agglomération (5 catégories),
Q3 - heure de coucher (7 catégories),
Q4 - age de fin d'études (5 catégories) .

3 variables d ’opinion Y à imputer:
Q5 - La famille est le seul endroit où on se sent bien ? (oui, non)
Q6 - Plus haut diplôme obtenu (7 catégories),
Q7 - Taux d'écoute TV (4 catégories).
31
Table 3 performances individuelles
Méthode
Aléatoire
Homogénéité max.
FRF
Classifications correctes
49%
54%
47%
Table 4 performances marginales
Q5
1
2
Q6
Vraies marges
136
56
Homogénéité max
136
56
FRF
125
67
1
2
3
4
5
6
7
Q7
36
70
35
29
4
18
0
6
114
16
23
33
33
0
49
65
27
33
1
15
2
1
2
3
4
100
36
37
19
118
18
29
27
100
43
31
18
32
Conclusions

Techniques:
La fusion: un problème de données
manquantes massives, stimulant pour les
statisticiens. Autres voies de recherche:
algorithmes d'apprentissage nonlinéaires (réseaux de neurones).
besoin réel de fournir à l'utilisateur final
une base unique sans “ trou ”.

33
Prudence
quand on utilise des “ données ” qui sont
en réalité des estimations et non des valeurs
observées: ne jamais utiliser à un niveau individuel,
mais uniquement agrégé.
Conséquence perverse: un moindre effort de
collecte, puisque l'on peut reconstituer des
données…
Nécessité de valider
34

Déontologiques, confidentialité et protection de
la vie privée :
des
données qui n'ont pas été recueillies mais
estimées, peuvent être ajoutées dans des fichiers
à l'insu des individus concernés. Quid de La loi
“ Informatique et Liberté ” ?
paradoxe alors que les INS développent des
techniques pour assurer la confidentialité
35
Références

Allison P. (2002) Missing data, Sage Publications
Co V. (1997) Méthodes statistiques et informatiques pour
le traitement des données manquantes.Doctorat, CNAM.
Paris.
Fischer N. (2004) Fusion Statistique de Fichiers de
Données. Doctorat, CNAM, Paris.
Saporta G. (2002) Data fusion and data grafting .
Computational Statistics and Data Analysis, 38(4),465-473
Tutorial GRAFT SPAD, www.esisproject.com
35