Mes données sont-elles fiables ? - UMR Iate

Transcription

Mes données sont-elles fiables ? - UMR Iate
Mes données sont-elles fiables ?
Brigitte Charnomordic 2 , Patrice Buche 2 , Sebastien Destercke 1
1 Heudiasyc,
CNRS Compiegne, France
Montpellier, France
2 INRA,
Atelier MIA
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
1 / 28
Les protagonistes
Brigitte
Patrice
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
Sebastien
At. MIA
2 / 28
Origines: application @web
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
3 / 28
Aspects de la fiabilité
La fiabilité dépend de nombreux aspects:
La provenance, l’origine des données (type de document,
notoriété du document)
Les moyens d’obtention des données (matériel de mesure,
protocole expé.)
L’analyse statistique des données (présence de plan d’expérience,
de répétitions)
⇒ système expert fournissant estimation a priori
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
4 / 28
Méthode
Fiabilité évaluée sur espace ordonné Θ = {θ1 , . . . , θN }
Pour chaque valeur aij de chaque critère Ai , un expert fournit
une apréciation de la fiabilité → ensemble flou sur Θ
L’information fournie par chaque critère sur Θ est fusionnée par
une règle
La fiabilité de chaque donnée est ensuite résumée et les
données ordonnancées par fiabilité décroissante
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
5 / 28
Outline
1
Modéliser fiabilité
2
Récolter l’information
3
Combiner l’information
4
Résumer l’information pour l’utilisateur
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
6 / 28
Modéliser fiabilité
Outline
1
Modéliser fiabilité
2
Récolter l’information
3
Combiner l’information
4
Résumer l’information pour l’utilisateur
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
7 / 28
Modéliser fiabilité
Espace ordonné Θ = {θ1 , . . . , θN } avec N impair.
θ1
...
θ(N+1)/2
...
θN
Moins fiable
←
Neutre
→
Plus fiable
θi peuvent être remplacés par nombre (ici, θi = i)
En pratique, N = 5 ou 7 (ici, N = 5)
! Neutre 6= inconnu !
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
8 / 28
Récolter l’information
Outline
1
Modéliser fiabilité
2
Récolter l’information
3
Combiner l’information
4
Résumer l’information pour l’utilisateur
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
9 / 28
Récolter l’information
Définir les critères (avec expert)
Récolter information experte
Traduire information experte
Ici, info linguistique traduite sous forme d’ensembles flous (récoltée
une fois/domaine d’application)
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
10 / 28
Récolter l’information
Evaluation:exemple
Un ensemble flou est une fonction µ : Θ → [0, 1].
Exemple
Critère présence de répétition
A2 = {oui, non}.
Pour A2 = non, expert associe
jugement "très peu fiable"
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
1
0.5
0.1
θ1 θ2 θ3 θ4 θ5
At. MIA
11 / 28
Récolter l’information
Autre exemple
Exemple sur critère A1 = nbre citations × âge de l’article
[0, 10]
Récent
ignorance
Actuel
peu fiable
Vieux
très peu fiable
[10, 20]
fiable
moyennement fiable
peu fiable
[20, 40]
très fiable
fiable
fiable
40+
très fiable
très fiable
très fiable
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
12 / 28
Combiner l’information
Outline
1
Modéliser fiabilité
2
Récolter l’information
3
Combiner l’information
4
Résumer l’information pour l’utilisateur
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
13 / 28
Combiner l’information
La fusion d’information: concepts de bases
Problème
Plusieurs sources (critères) fournissent des informations sur la même
variable. Trois grandes familles de règles:
Conjonction: suppose que toutes les sources sont fiables et
cohérentes.
Disjonction: suppose qu’au moins une source est fiable.
Moyenne: "accumulation" statistique des informations.
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
14 / 28
Combiner l’information
La fusion d’information: intervalles/ensembles
Problème
2 sources fournissent une information du type x ∈ A et x ∈ B
Conjonction:
A
B
→ en cas de conflit, vide
Disjonction:
A
B
→ peut donner résultats très imprécis
Moyenne: "accumulation" statistique des informations. → pas de
différences entre 2 sources consistantes ("neutre") et 2 sources en
conflit ("pas fiable"/"totalement fiable")
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
15 / 28
Combiner l’information
Fusion des informations: SMC
Besoin de:
1
gérer le conflit
2
gagner de l’information
3
voir apparaitre les désaccords
⇒ sous-ensembles maximaux cohérents
E2
E4
E1
E3
E1 ∩ E2
E2 ∩ E3 ∩ E4
SMC avec quatre sources: (E1 ∩ E2 ) ∪ (E2 ∩ E3 ∩ E4 )
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
16 / 28
Combiner l’information
Combinaison: choix du cadre
Choix des fonctions de croyances car:
cadre générique (inclus probas et ensembles flous)
complexité calculatoire reste limitée
très riche sur l’aspect fusion d’information (dépendence des
sources, gestion du conflit, etc.)
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
17 / 28
Combiner l’information
Petit rappel: fonctions de croyances
Fonction de masse m : 2Θ → [0, 1] sur les sous-ensembles de Θ.
P
m(∅) = 0 et E⊆Θ m(E) = 1.
E avec m(E) > 0: ensemble focal.
Deux mesures d’incertitudes:
X
Bel(A) =
m(E) et
Pl(A) =
X
m(E)
E∩A6=∅
E⊆A
Ensemble flou := fonction de croyance avec ens. focaux emboîtés
α3 =1
E3 ={θ5 }
m(E3 )=0.5
α2 =0.5
E2 ={θ4 ,θ5 }
α1 =0.1
α0 =0
m(E2 )=0.4
E1 ={θ3 ,θ4 ,θ5 }
m(E1 )=0.1
θ1 θ 2 θ3 θ4 θ5
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
18 / 28
Combiner l’information
Fusion des informations
Chaque critère Ai , distinct des autres, fournit une fonction de
croyance mAi
Informations potentiellement conflictuelles
Calculer mglob avec méthode de fusion du type
mglob (E) =
X
S
Y
mi (Ei )
Ei ∈Fi
i=1
⊕S
i=1 (Ei )=E
Ici, ⊕ correspond à la règle de Dubois-Prade étendue à N
sources.
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
19 / 28
Combiner l’information
Exemple
type de source
nb de citation
âge
répétition
critère
nb citation et âge
répétition
type de source
Source
rapport international
2
4
oui
ensemble
{θ1 , θ2 , θ3 }
{θ1 , θ2 }
{θ2 }
{θ3 , θ4 , θ5 }
{θ4 , θ5 }
{θ4 }
{θ3 , θ4 , θ5 }
{θ4 , θ5 }
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
masse de croyance
0,5
0,4
0,1
0,5
0,4
0,1
0,5
0,5
At. MIA
20 / 28
Combiner l’information
Exemple: fusion
ensemble
{θ3 }
{θ2 , θ4 }
{θ1 , θ2 , θ4 }
{θ3 , θ4 }
{θ1 , θ2 , θ3 , θ4 }
{θ2 , θ4 , θ5 }
{θ1 , θ2 , θ4 , θ5 }
{θ3 , θ4 , θ5 }
{θ2 , θ3 , θ4 , θ5 }
{θ1 , θ2 , θ3 , θ4 , θ5 }
masse de croyance
0,125
0,01
0,04
0,025
0,025
0,065
0,26
0,225
0,025
0,2
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
21 / 28
Résumer l’information pour l’utilisateur
Outline
1
Modéliser fiabilité
2
Récolter l’information
3
Combiner l’information
4
Résumer l’information pour l’utilisateur
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
22 / 28
Résumer l’information pour l’utilisateur
Types d’informations renvoyées
Evaluation numérique (type usuel)
Pré-ordonnancement
Explication du résultat
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
23 / 28
Résumer l’information pour l’utilisateur
Résumé fiabilité et ordonnancement des données
D données d1 , . . . , dD sont récupérées, fiabilité di résumée par fct de
croyance mglobi :
Pour résumer, on considère la fonction f (θj ) = j et on résume la
fiabilité sur di par des espérances supérieures/inférieures
[Ei (f ), Ei (f )] t.q.
X
X
Ei (f ) =
m(E) inf f (θ) Ei (f ) =
m(E) sup f (θ)
E∈mglobi
θ∈E
E∈mglobi
θ∈E
Pour ordonner → pré-ordre complet se basant sur la relation de
dominance suivante: di ≤E dj ssi Ei (f ) ≤ Ej (f ) et Ei (f ) ≤ Ej (f ) →
on en extrait partition (classes d’équivalence).
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
24 / 28
Résumer l’information pour l’utilisateur
Exemple: fusion
Inf f
3
2
1
3
1
2
1
3
2
1
sup f
3
4
4
4
4
5
5
5
5
5
ensemble
{θ3 }
{θ2 , θ4 }
{θ1 , θ2 , θ4 }
{θ3 , θ4 }
{θ1 , θ2 , θ3 , θ4 }
{θ2 , θ4 , θ5 }
{θ1 , θ2 , θ4 , θ5 }
{θ3 , θ4 , θ5 }
{θ2 , θ3 , θ4 , θ5 }
{θ1 , θ2 , θ3 , θ4 , θ5 }
E(f ) = 1.85
masse de croyance
0,125
0,01
0,04
0,025
0,025
0,065
0,26
0,225
0,025
0,2
E(f ) = 4.65
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
25 / 28
Résumer l’information pour l’utilisateur
Exemple: ordonnancement
A chaque étape, éliminer et mettre dans une classe d’équivalence les
documents non-dominés (i.e. {ei | 6 ∃ej ∈ F , t.q. ei <E ej })
E
5
4
3
2
1
d1
d2
d3
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
d4
d5
di
At. MIA
26 / 28
Résumer l’information pour l’utilisateur
Exemple: ordonnancement
A chaque étape, éliminer et mettre dans une classe d’équivalence les
documents non-dominés (i.e. {ei | 6 ∃ej ∈ F , t.q. ei <E ej })
E
5
4
3
2
{d1 , d3 }
1
d1
d2
d3
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
d4
d5
di
At. MIA
26 / 28
Résumer l’information pour l’utilisateur
Exemple: ordonnancement
A chaque étape, éliminer et mettre dans une classe d’équivalence les
documents non-dominés (i.e. {ei | 6 ∃ej ∈ F , t.q. ei <E ej })
E
5
4
3
2
{d2 , d5 } < {d1 , d3 }
1
d1
d2
d3
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
d4
d5
di
At. MIA
26 / 28
Résumer l’information pour l’utilisateur
Exemple: ordonnancement
A chaque étape, éliminer et mettre dans une classe d’équivalence les
documents non-dominés (i.e. {ei | 6 ∃ej ∈ F , t.q. ei <E ej })
E
5
4
3
2
{d4 } < {d2 , d5 } < {d1 , d3 }
1
d1
d2
d3
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
d4
d5
di
At. MIA
26 / 28
Résumer l’information pour l’utilisateur
Expliquer résultats
Dans exemple, sous-ensembles de critères apparaissant le plus
souvent:
{ répétition, type de sources }
{ nbre de citations et âges }
→ Imprécision dans [1.85, 4.65] vient du désaccord entre { nb
citations/âges } et autres critères.
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
27 / 28
Résumer l’information pour l’utilisateur
Conclusions et Perspectives
Conclusions
Système générique d’évaluation de fiabilité à partir de
meta-informations.
Utilisation des fonctions de croyance pour leur flexibilité, leur richesse de
mode de combinaisons et leur capacité à modéliser l’ignorance.
Implémentation facilitée via bibliothèque R générique de gestion des
fonctions de croyance
Perspectives
Utilisation de critères d’ordonnancement qualitatifs (i.e. dominance
stochastique)
Prise en compte de critères aux valeurs mal connues, d’experts
multiples ou de pondération des critères.
Extension au problème de "trust" dans les systèmes multi-agents ou
dans le web sémantique.
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
28 / 28

Documents pareils