Mes données sont-elles fiables ? - UMR Iate
Transcription
Mes données sont-elles fiables ? - UMR Iate
Mes données sont-elles fiables ? Brigitte Charnomordic 2 , Patrice Buche 2 , Sebastien Destercke 1 1 Heudiasyc, CNRS Compiegne, France Montpellier, France 2 INRA, Atelier MIA Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 1 / 28 Les protagonistes Brigitte Patrice Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données Sebastien At. MIA 2 / 28 Origines: application @web Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 3 / 28 Aspects de la fiabilité La fiabilité dépend de nombreux aspects: La provenance, l’origine des données (type de document, notoriété du document) Les moyens d’obtention des données (matériel de mesure, protocole expé.) L’analyse statistique des données (présence de plan d’expérience, de répétitions) ⇒ système expert fournissant estimation a priori Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 4 / 28 Méthode Fiabilité évaluée sur espace ordonné Θ = {θ1 , . . . , θN } Pour chaque valeur aij de chaque critère Ai , un expert fournit une apréciation de la fiabilité → ensemble flou sur Θ L’information fournie par chaque critère sur Θ est fusionnée par une règle La fiabilité de chaque donnée est ensuite résumée et les données ordonnancées par fiabilité décroissante Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 5 / 28 Outline 1 Modéliser fiabilité 2 Récolter l’information 3 Combiner l’information 4 Résumer l’information pour l’utilisateur Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 6 / 28 Modéliser fiabilité Outline 1 Modéliser fiabilité 2 Récolter l’information 3 Combiner l’information 4 Résumer l’information pour l’utilisateur Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 7 / 28 Modéliser fiabilité Espace ordonné Θ = {θ1 , . . . , θN } avec N impair. θ1 ... θ(N+1)/2 ... θN Moins fiable ← Neutre → Plus fiable θi peuvent être remplacés par nombre (ici, θi = i) En pratique, N = 5 ou 7 (ici, N = 5) ! Neutre 6= inconnu ! Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 8 / 28 Récolter l’information Outline 1 Modéliser fiabilité 2 Récolter l’information 3 Combiner l’information 4 Résumer l’information pour l’utilisateur Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 9 / 28 Récolter l’information Définir les critères (avec expert) Récolter information experte Traduire information experte Ici, info linguistique traduite sous forme d’ensembles flous (récoltée une fois/domaine d’application) Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 10 / 28 Récolter l’information Evaluation:exemple Un ensemble flou est une fonction µ : Θ → [0, 1]. Exemple Critère présence de répétition A2 = {oui, non}. Pour A2 = non, expert associe jugement "très peu fiable" Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données 1 0.5 0.1 θ1 θ2 θ3 θ4 θ5 At. MIA 11 / 28 Récolter l’information Autre exemple Exemple sur critère A1 = nbre citations × âge de l’article [0, 10] Récent ignorance Actuel peu fiable Vieux très peu fiable [10, 20] fiable moyennement fiable peu fiable [20, 40] très fiable fiable fiable 40+ très fiable très fiable très fiable Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 12 / 28 Combiner l’information Outline 1 Modéliser fiabilité 2 Récolter l’information 3 Combiner l’information 4 Résumer l’information pour l’utilisateur Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 13 / 28 Combiner l’information La fusion d’information: concepts de bases Problème Plusieurs sources (critères) fournissent des informations sur la même variable. Trois grandes familles de règles: Conjonction: suppose que toutes les sources sont fiables et cohérentes. Disjonction: suppose qu’au moins une source est fiable. Moyenne: "accumulation" statistique des informations. Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 14 / 28 Combiner l’information La fusion d’information: intervalles/ensembles Problème 2 sources fournissent une information du type x ∈ A et x ∈ B Conjonction: A B → en cas de conflit, vide Disjonction: A B → peut donner résultats très imprécis Moyenne: "accumulation" statistique des informations. → pas de différences entre 2 sources consistantes ("neutre") et 2 sources en conflit ("pas fiable"/"totalement fiable") Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 15 / 28 Combiner l’information Fusion des informations: SMC Besoin de: 1 gérer le conflit 2 gagner de l’information 3 voir apparaitre les désaccords ⇒ sous-ensembles maximaux cohérents E2 E4 E1 E3 E1 ∩ E2 E2 ∩ E3 ∩ E4 SMC avec quatre sources: (E1 ∩ E2 ) ∪ (E2 ∩ E3 ∩ E4 ) Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 16 / 28 Combiner l’information Combinaison: choix du cadre Choix des fonctions de croyances car: cadre générique (inclus probas et ensembles flous) complexité calculatoire reste limitée très riche sur l’aspect fusion d’information (dépendence des sources, gestion du conflit, etc.) Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 17 / 28 Combiner l’information Petit rappel: fonctions de croyances Fonction de masse m : 2Θ → [0, 1] sur les sous-ensembles de Θ. P m(∅) = 0 et E⊆Θ m(E) = 1. E avec m(E) > 0: ensemble focal. Deux mesures d’incertitudes: X Bel(A) = m(E) et Pl(A) = X m(E) E∩A6=∅ E⊆A Ensemble flou := fonction de croyance avec ens. focaux emboîtés α3 =1 E3 ={θ5 } m(E3 )=0.5 α2 =0.5 E2 ={θ4 ,θ5 } α1 =0.1 α0 =0 m(E2 )=0.4 E1 ={θ3 ,θ4 ,θ5 } m(E1 )=0.1 θ1 θ 2 θ3 θ4 θ5 Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 18 / 28 Combiner l’information Fusion des informations Chaque critère Ai , distinct des autres, fournit une fonction de croyance mAi Informations potentiellement conflictuelles Calculer mglob avec méthode de fusion du type mglob (E) = X S Y mi (Ei ) Ei ∈Fi i=1 ⊕S i=1 (Ei )=E Ici, ⊕ correspond à la règle de Dubois-Prade étendue à N sources. Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 19 / 28 Combiner l’information Exemple type de source nb de citation âge répétition critère nb citation et âge répétition type de source Source rapport international 2 4 oui ensemble {θ1 , θ2 , θ3 } {θ1 , θ2 } {θ2 } {θ3 , θ4 , θ5 } {θ4 , θ5 } {θ4 } {θ3 , θ4 , θ5 } {θ4 , θ5 } Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données masse de croyance 0,5 0,4 0,1 0,5 0,4 0,1 0,5 0,5 At. MIA 20 / 28 Combiner l’information Exemple: fusion ensemble {θ3 } {θ2 , θ4 } {θ1 , θ2 , θ4 } {θ3 , θ4 } {θ1 , θ2 , θ3 , θ4 } {θ2 , θ4 , θ5 } {θ1 , θ2 , θ4 , θ5 } {θ3 , θ4 , θ5 } {θ2 , θ3 , θ4 , θ5 } {θ1 , θ2 , θ3 , θ4 , θ5 } masse de croyance 0,125 0,01 0,04 0,025 0,025 0,065 0,26 0,225 0,025 0,2 Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 21 / 28 Résumer l’information pour l’utilisateur Outline 1 Modéliser fiabilité 2 Récolter l’information 3 Combiner l’information 4 Résumer l’information pour l’utilisateur Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 22 / 28 Résumer l’information pour l’utilisateur Types d’informations renvoyées Evaluation numérique (type usuel) Pré-ordonnancement Explication du résultat Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 23 / 28 Résumer l’information pour l’utilisateur Résumé fiabilité et ordonnancement des données D données d1 , . . . , dD sont récupérées, fiabilité di résumée par fct de croyance mglobi : Pour résumer, on considère la fonction f (θj ) = j et on résume la fiabilité sur di par des espérances supérieures/inférieures [Ei (f ), Ei (f )] t.q. X X Ei (f ) = m(E) inf f (θ) Ei (f ) = m(E) sup f (θ) E∈mglobi θ∈E E∈mglobi θ∈E Pour ordonner → pré-ordre complet se basant sur la relation de dominance suivante: di ≤E dj ssi Ei (f ) ≤ Ej (f ) et Ei (f ) ≤ Ej (f ) → on en extrait partition (classes d’équivalence). Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 24 / 28 Résumer l’information pour l’utilisateur Exemple: fusion Inf f 3 2 1 3 1 2 1 3 2 1 sup f 3 4 4 4 4 5 5 5 5 5 ensemble {θ3 } {θ2 , θ4 } {θ1 , θ2 , θ4 } {θ3 , θ4 } {θ1 , θ2 , θ3 , θ4 } {θ2 , θ4 , θ5 } {θ1 , θ2 , θ4 , θ5 } {θ3 , θ4 , θ5 } {θ2 , θ3 , θ4 , θ5 } {θ1 , θ2 , θ3 , θ4 , θ5 } E(f ) = 1.85 masse de croyance 0,125 0,01 0,04 0,025 0,025 0,065 0,26 0,225 0,025 0,2 E(f ) = 4.65 Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 25 / 28 Résumer l’information pour l’utilisateur Exemple: ordonnancement A chaque étape, éliminer et mettre dans une classe d’équivalence les documents non-dominés (i.e. {ei | 6 ∃ej ∈ F , t.q. ei <E ej }) E 5 4 3 2 1 d1 d2 d3 Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données d4 d5 di At. MIA 26 / 28 Résumer l’information pour l’utilisateur Exemple: ordonnancement A chaque étape, éliminer et mettre dans une classe d’équivalence les documents non-dominés (i.e. {ei | 6 ∃ej ∈ F , t.q. ei <E ej }) E 5 4 3 2 {d1 , d3 } 1 d1 d2 d3 Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données d4 d5 di At. MIA 26 / 28 Résumer l’information pour l’utilisateur Exemple: ordonnancement A chaque étape, éliminer et mettre dans une classe d’équivalence les documents non-dominés (i.e. {ei | 6 ∃ej ∈ F , t.q. ei <E ej }) E 5 4 3 2 {d2 , d5 } < {d1 , d3 } 1 d1 d2 d3 Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données d4 d5 di At. MIA 26 / 28 Résumer l’information pour l’utilisateur Exemple: ordonnancement A chaque étape, éliminer et mettre dans une classe d’équivalence les documents non-dominés (i.e. {ei | 6 ∃ej ∈ F , t.q. ei <E ej }) E 5 4 3 2 {d4 } < {d2 , d5 } < {d1 , d3 } 1 d1 d2 d3 Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données d4 d5 di At. MIA 26 / 28 Résumer l’information pour l’utilisateur Expliquer résultats Dans exemple, sous-ensembles de critères apparaissant le plus souvent: { répétition, type de sources } { nbre de citations et âges } → Imprécision dans [1.85, 4.65] vient du désaccord entre { nb citations/âges } et autres critères. Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 27 / 28 Résumer l’information pour l’utilisateur Conclusions et Perspectives Conclusions Système générique d’évaluation de fiabilité à partir de meta-informations. Utilisation des fonctions de croyance pour leur flexibilité, leur richesse de mode de combinaisons et leur capacité à modéliser l’ignorance. Implémentation facilitée via bibliothèque R générique de gestion des fonctions de croyance Perspectives Utilisation de critères d’ordonnancement qualitatifs (i.e. dominance stochastique) Prise en compte de critères aux valeurs mal connues, d’experts multiples ou de pondération des critères. Extension au problème de "trust" dans les systèmes multi-agents ou dans le web sémantique. Brigitte Charnomordic, Patrice Buche, Sébastien Destercke Fiabilité (CIRAD/INRA) données At. MIA 28 / 28