Mes données sont-elles fiables ? - UMR Iate

Transcription

Mes données sont-elles fiables ?
Brigitte Charnomordic 2 , Patrice Buche 2 , Sebastien Destercke 1
1 Heudiasyc,
CNRS Compiegne, France
Montpellier, France
2 INRA,
Atelier MIA
Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité
(CIRAD/INRA)
données
At. MIA
1 / 28
Les protagonistes
Brigitte
Patrice
(CIRAD/INRA)
données
Sebastien
At. MIA
2 / 28
Origines: application @web
(CIRAD/INRA)
données
At. MIA
3 / 28
Aspects de la fiabilité
La fiabilité dépend de nombreux aspects:
La provenance, l’origine des données (type de document,
notoriété du document)
Les moyens d’obtention des données (matériel de mesure,
protocole expé.)
L’analyse statistique des données (présence de plan d’expérience,
de répétitions)
⇒ système expert fournissant estimation a priori
(CIRAD/INRA)
données
At. MIA
4 / 28
Méthode
Fiabilité évaluée sur espace ordonné Θ = {θ1 , . . . , θN }
Pour chaque valeur aij de chaque critère Ai , un expert fournit
une apréciation de la fiabilité → ensemble flou sur Θ
L’information fournie par chaque critère sur Θ est fusionnée par
une règle
La fiabilité de chaque donnée est ensuite résumée et les
données ordonnancées par fiabilité décroissante
(CIRAD/INRA)
données
At. MIA
5 / 28
Outline
1
Modéliser fiabilité
2
Récolter l’information
3
Combiner l’information
4
Résumer l’information pour l’utilisateur
(CIRAD/INRA)
données
At. MIA
6 / 28
Outline
1
2
3
4
(CIRAD/INRA)
données
At. MIA
7 / 28
Espace ordonné Θ = {θ1 , . . . , θN } avec N impair.
θ1
...
θ(N+1)/2
...
θN
Moins fiable
←
Neutre
→
Plus fiable
θi peuvent être remplacés par nombre (ici, θi = i)
En pratique, N = 5 ou 7 (ici, N = 5)
! Neutre 6= inconnu !
(CIRAD/INRA)
données
At. MIA
8 / 28
Outline
1
2
3
4
(CIRAD/INRA)
données
At. MIA
9 / 28
Définir les critères (avec expert)
Récolter information experte
Traduire information experte
Ici, info linguistique traduite sous forme d’ensembles flous (récoltée
une fois/domaine d’application)
(CIRAD/INRA)
données
At. MIA
10 / 28
Evaluation:exemple
Un ensemble flou est une fonction µ : Θ → [0, 1].
Exemple
Critère présence de répétition
A2 = {oui, non}.
Pour A2 = non, expert associe
jugement "très peu fiable"
(CIRAD/INRA)
données
1
0.5
0.1
θ1 θ2 θ3 θ4 θ5
At. MIA
11 / 28
Autre exemple
Exemple sur critère A1 = nbre citations × âge de l’article
[0, 10]
Récent
ignorance
Actuel
peu fiable
Vieux
très peu fiable
[10, 20]
fiable
moyennement fiable
peu fiable
[20, 40]
très fiable
fiable
fiable
40+
très fiable
très fiable
très fiable
(CIRAD/INRA)
données
At. MIA
12 / 28
Outline
1
2
3
4
(CIRAD/INRA)
données
At. MIA
13 / 28
La fusion d’information: concepts de bases
Problème
Plusieurs sources (critères) fournissent des informations sur la même
variable. Trois grandes familles de règles:
Conjonction: suppose que toutes les sources sont fiables et
cohérentes.
Disjonction: suppose qu’au moins une source est fiable.
Moyenne: "accumulation" statistique des informations.
(CIRAD/INRA)
données
At. MIA
14 / 28
La fusion d’information: intervalles/ensembles
Problème
2 sources fournissent une information du type x ∈ A et x ∈ B
Conjonction:
A
B
→ en cas de conflit, vide
Disjonction:
A
B
→ peut donner résultats très imprécis
Moyenne: "accumulation" statistique des informations. → pas de
différences entre 2 sources consistantes ("neutre") et 2 sources en
conflit ("pas fiable"/"totalement fiable")
(CIRAD/INRA)
données
At. MIA
15 / 28
Fusion des informations: SMC
Besoin de:
1
gérer le conflit
2
gagner de l’information
3
voir apparaitre les désaccords
⇒ sous-ensembles maximaux cohérents
E2
E4
E1
E3
E1 ∩ E2
E2 ∩ E3 ∩ E4
SMC avec quatre sources: (E1 ∩ E2 ) ∪ (E2 ∩ E3 ∩ E4 )
(CIRAD/INRA)
données
At. MIA
16 / 28
Combinaison: choix du cadre
Choix des fonctions de croyances car:
cadre générique (inclus probas et ensembles flous)
complexité calculatoire reste limitée
très riche sur l’aspect fusion d’information (dépendence des
sources, gestion du conflit, etc.)
(CIRAD/INRA)
données
At. MIA
17 / 28
Petit rappel: fonctions de croyances
Fonction de masse m : 2Θ → [0, 1] sur les sous-ensembles de Θ.
P
m(∅) = 0 et E⊆Θ m(E) = 1.
E avec m(E) > 0: ensemble focal.
Deux mesures d’incertitudes:
X
Bel(A) =
m(E) et
Pl(A) =
X
m(E)
E∩A6=∅
E⊆A
Ensemble flou := fonction de croyance avec ens. focaux emboîtés
α3 =1
E3 ={θ5 }
m(E3 )=0.5
α2 =0.5
E2 ={θ4 ,θ5 }
α1 =0.1
α0 =0
m(E2 )=0.4
E1 ={θ3 ,θ4 ,θ5 }
m(E1 )=0.1
θ1 θ 2 θ3 θ4 θ5
(CIRAD/INRA)
données
At. MIA
18 / 28
Fusion des informations
Chaque critère Ai , distinct des autres, fournit une fonction de
croyance mAi
Informations potentiellement conflictuelles
Calculer mglob avec méthode de fusion du type
mglob (E) =
X
S
Y
mi (Ei )
Ei ∈Fi
i=1
⊕S
i=1 (Ei )=E
Ici, ⊕ correspond à la règle de Dubois-Prade étendue à N
sources.
(CIRAD/INRA)
données
At. MIA
19 / 28
Exemple
type de source
nb de citation
âge
répétition
critère
nb citation et âge
répétition
type de source
Source
rapport international
2
4
oui
ensemble
{θ1 , θ2 , θ3 }
{θ1 , θ2 }
{θ2 }
{θ3 , θ4 , θ5 }
{θ4 , θ5 }
{θ4 }
{θ3 , θ4 , θ5 }
{θ4 , θ5 }
(CIRAD/INRA)
données
masse de croyance
0,5
0,4
0,1
0,5
0,4
0,1
0,5
0,5
At. MIA
20 / 28
Exemple: fusion
ensemble
{θ3 }
{θ2 , θ4 }
{θ1 , θ2 , θ4 }
{θ3 , θ4 }
{θ1 , θ2 , θ3 , θ4 }
{θ2 , θ4 , θ5 }
{θ1 , θ2 , θ4 , θ5 }
{θ3 , θ4 , θ5 }
{θ2 , θ3 , θ4 , θ5 }
{θ1 , θ2 , θ3 , θ4 , θ5 }
masse de croyance
0,125
0,01
0,04
0,025
0,025
0,065
0,26
0,225
0,025
0,2
(CIRAD/INRA)
données
At. MIA
21 / 28
Outline
1
2
3
4
(CIRAD/INRA)
données
At. MIA
22 / 28
Types d’informations renvoyées
Evaluation numérique (type usuel)
Pré-ordonnancement
Explication du résultat
(CIRAD/INRA)
données
At. MIA
23 / 28
Résumé fiabilité et ordonnancement des données
D données d1 , . . . , dD sont récupérées, fiabilité di résumée par fct de
croyance mglobi :
Pour résumer, on considère la fonction f (θj ) = j et on résume la
fiabilité sur di par des espérances supérieures/inférieures
[Ei (f ), Ei (f )] t.q.
X
X
Ei (f ) =
m(E) inf f (θ) Ei (f ) =
m(E) sup f (θ)
E∈mglobi
θ∈E
E∈mglobi
θ∈E
Pour ordonner → pré-ordre complet se basant sur la relation de
dominance suivante: di ≤E dj ssi Ei (f ) ≤ Ej (f ) et Ei (f ) ≤ Ej (f ) →
on en extrait partition (classes d’équivalence).
(CIRAD/INRA)
données
At. MIA
24 / 28
Exemple: fusion
Inf f
3
2
1
3
1
2
1
3
2
1
sup f
3
4
4
4
4
5
5
5
5
5
ensemble
{θ3 }
{θ2 , θ4 }
{θ1 , θ2 , θ4 }
{θ3 , θ4 }
{θ1 , θ2 , θ3 , θ4 }
{θ2 , θ4 , θ5 }
{θ1 , θ2 , θ4 , θ5 }
{θ3 , θ4 , θ5 }
{θ2 , θ3 , θ4 , θ5 }
{θ1 , θ2 , θ3 , θ4 , θ5 }
E(f ) = 1.85
masse de croyance
0,125
0,01
0,04
0,025
0,025
0,065
0,26
0,225
0,025
0,2
E(f ) = 4.65
(CIRAD/INRA)
données
At. MIA
25 / 28
Exemple: ordonnancement
A chaque étape, éliminer et mettre dans une classe d’équivalence les
documents non-dominés (i.e. {ei | 6 ∃ej ∈ F , t.q. ei <E ej })
E
5
4
3
2
1
d1
d2
d3
(CIRAD/INRA)
données
d4
d5
di
At. MIA
26 / 28
E
5
4
3
2
{d1 , d3 }
1
d1
d2
d3
(CIRAD/INRA)
données
d4
d5
di
At. MIA
26 / 28
E
5
4
3
2
{d2 , d5 } < {d1 , d3 }
1
d1
d2
d3
(CIRAD/INRA)
données
d4
d5
di
At. MIA
26 / 28
E
5
4
3
2
{d4 } < {d2 , d5 } < {d1 , d3 }
1
d1
d2
d3
(CIRAD/INRA)
données
d4
d5
di
At. MIA
26 / 28
Expliquer résultats
Dans exemple, sous-ensembles de critères apparaissant le plus
souvent:
{ répétition, type de sources }
{ nbre de citations et âges }
→ Imprécision dans [1.85, 4.65] vient du désaccord entre { nb
citations/âges } et autres critères.
(CIRAD/INRA)
données
At. MIA
27 / 28
Conclusions et Perspectives
Conclusions
Système générique d’évaluation de fiabilité à partir de
meta-informations.
Utilisation des fonctions de croyance pour leur flexibilité, leur richesse de
mode de combinaisons et leur capacité à modéliser l’ignorance.
Implémentation facilitée via bibliothèque R générique de gestion des
fonctions de croyance
Perspectives
Utilisation de critères d’ordonnancement qualitatifs (i.e. dominance
stochastique)
Prise en compte de critères aux valeurs mal connues, d’experts
multiples ou de pondération des critères.
Extension au problème de "trust" dans les systèmes multi-agents ou
dans le web sémantique.
(CIRAD/INRA)
données
At. MIA
28 / 28

Mes données sont-elles fiables ? - UMR Iate

Transcription

Documents pareils

filet buche 25 cm 8 kg

Mia HANSEN-LOVE - Festival du film français

Maersk tipped to move for Hamburg Sud

OFFRE DE STAGE EN STATISTIQUE ET AGRONOMIE

NZ avocado industry targets China market access

évaluer l`information

CONVOCATION A L`ASSEMBLEE GENERALE ORDINAIRE SCI MIA

Rainfall prompts red alert in Costa Rica

Jeudi 24 septembre 2015 Centre INRA de Bordeaux