Document search Mediator

Transcription

Document search Mediator
<html>
Web
PDF
MIEL++
query
Ontology
Document
search
Table extraction
and transformation
Mediator
Local
database
XML/RDF
database
Semantic
annotation
1
MIEL++ flexible query
Projection attributes
Relation in which the query is asked
{Microorganism, aw | GrowthParameterAw( Microorganism, aw )
(Microorganism MicroPref)
(aw awPref)}
Selection attributes
2
Preferences expressed as fuzzy
sets
1.0
1.0
0.5
0.5
Gram+
Gram-
MicroPref
0.9 0.94
0.97
0.99
AWPref
3
Query evaluation overview
Query : {a,b | R1(a,b,c)
(c ≈ v)}
Selection of the relation
in the ontology
R1 ={ad1, (
…
Rn ={adn, (
SPARQL query generation
SPARQL
query evaluation
1,
N1 ), a1, b1}
n,
Nn), an, bn}
Calculation of
the comparison degrees
c:v
a
b
XML/RDF
base
4
A part of the OWL ontology
Concept
rdfs:subClassOf
SymbolicConcept
NumericalConcept
HasForTaxonomy
rdfs:range
rdfs:domain
Temperature
MicroorganismRoot
Microorganism
rdfs:domain
Gram+
Gram-
rdfs:range
AssociatedUnitList
AssociatedDomain
rdfs:range
°C, °F
rdfs:domain
Clostridium
botulinum
Salmonella
GrowthParameterAw
Staphylococcus
Spp.
AssociatedRange
rdfs:range
Aw
rdfs:domain
Compound concept
Selection of the relation
rdfs:domain
HasForMinValue
rdfs:range
0
rdfs:domain
HasForMaxValue
rdfs:range
1
5
Building of the query pattern
CONSTRUCT
?t.
DFS
MicroOrg
GrowthParameterAw
rdf: type
rdf: type HasForElt
rdf : type
isAnnotatedBy
?micro
AssociatedDomain
?m
HasForSemantic
?r
HasForMbDgr
?MinS
HasForMinS
AssociatedRange
?aw
?s
isAnnotatedBy
rdf: type
Aw
CFS
Similarity
HasForMaxS
HasForMinK
?MaxS
?MinK
HasForMaxK
?v
rdf: type
rdf: type
HasForMbDgr
?elt
?deg
HasForUnit
HasForSemantic
?MaxK
None
Imprecision
6
Fuzzy query transformation
• Fuzzy predicates are transformed into
boolean predicates (α-cut with α=0)
microorganismPreferences = {1.0/Gram+ + 0.5/Gram-}
awPreferences = {0.9, 0.94, 0.97, 0.99}
closure
0-cut
microorganismPreferences = {1.0/Gram+ + 0.5/Gram- + 1.0/
Clostridium botulinum
1.0/
Staphylococcus
Spp. + 0.5/ Salmonella}
awInterval+ =
[0.9,
0.99]
0-cut
microorganismsList = {Gram+, Gram- , Clostridium botulinum,
Staphylococcus Spp., Salmonella}
7
Sparql query generation
CONSTRUCT
?t.
MicroOrg
DFS
GrowthParameterAw
rdf : type
rdf: type
HasForElt
?micro
rdf: type
AssociatedKey
isAnnotatedBy
?m
rdf: type
HasForMbDgr
?elt
?deg
HasForSemantic
Similarity
?r
HasForMbDgr
AssociatedResult
?aw
?s
HasForMinS
HasForMaxS
HasForMinK
isAnnotatedBy
rdf: type
?v
rdf: type
Aw
<idem Construct>
?MaxS
?MinK
HasForMaxK
HasForUnit
HasForSemantic
CFS
WHERE
?MinS
?MaxK
None
Imprecision
FILTER ( xsd:float (?s) >= 0.5)
FILTER ( ?t = ‘Gram+’ || ?t = ‘Gram-’ || ?t = ‘Clostridium_botulinum' || ?t = ‘Staphylococcus_Spp.' ||
?t = ‘Salmonella')
FILTER ( ( xsd:float (?minS) >= 0.9 && xsd:float (?minS) <= 0.99) || ( xsd:float (?maxS) >= 0.9 &&
xsd:float (?maxS) <= 0.99 || ( xsd:float (?maxS) <= 0.99 && xsd:float (?minS) >= 0.9 ) )
8
Comparison function 1
Preferences (Q) /similarity (A)
1
ad = 0.5
1.0
0,5
0.5
0
Gram+
Clostridium
botulinum
MicroPref
Gram-
…
Clostridium
Perfringens
Clostridium.
Botulinum
MicroAnnotation
9
Comparison function 2
Preferences (Q) /imprecision (A)
1.0
= 1.0 1
N = 1.0
0.5
0.9 0.94
0.97
AWPref
0.99
0
60
0.943 0.95 0.96
0.97
AWAnnotation
10
Example of answer
ad
N
Microorganism
Aw
0.5
1
1
0.5/Clostridium Perfringens +
0.5/Clostridium Botulinum
[0.943, 0.95, 0.96, 0.97]
0.5
0.5
0.68
0.5/Staphylococcus spp.+
0.5/Staphylococcus aureus
[0.88, 0.98, 0.98, 0.99]
0.5
0
0.965
1.0/Salmonella
[0.94, 0.99, 0.99, 0.991]
11
12
13
14
• Generic approach: only the content of the ontology must
be defined to be applied to a new application
• Aggregation approach: annotation of cells then columns,
then relations between columns
• Annotations are accurate
• Experimental results are encouraging to confirm the
potential genericity of our approach tested in
microbiological risk in food and in two other fields
(chemical risk in food and aeronautics)
• Method implemented in the @Web demonstration tool
using W3C standards (OWL, XML/RDF, SPARQL)
15
• Work in progress:
 Detection of redundancies
 Reliability assessment
• Perspectives
 Management of ontology evolutions (PhD of Rim
Touhami in the framework of ANR MAP’OPT 20112014)
 Text mining guided by the ontology
16
17
18
19
20
21
22
• Semantic annotation and querying
Ollivier Haemmerlé, Juliette Dibie-Barthélemy, Lydie Soler, Liliana
Ibanescu INRA Mét@risk
• Reliability assessment
Sébastien Destercke UMR IATE, Brigitte Charnomordic UMR Mistea
• Detection of redundancies
Fatiha Saïs INRIA Leo/LRI
• Text mining
Nathalie Hernandez, Mouna Kamel IRIT IC3
• PhD and master students: Gaëlle Hignette, Rim Touhami, Hajer Chebil,
Rania Khefifi, Nicolas Maillet, Nicolas Guinet
23
24
25
L’emballage alimentaire
 Secteur très dynamique: emballages actifs,
intelligents, nanotechnologies…
 Crises sanitaires: BPA, Phtalates, ITX …
 Préoccupations liées à l’environnement:
emballages recyclés, biosourcés,
renouvelables, biodégradables …
 Maintien de la qualité du produit
 Réduction des dépenses énergétiques
(chaîne du froid: 50 % de la consommation énergétique
d’un magasin sert à conserver les denrées)
26
Objectif: création d’un outil d’aide à la conception d’emballages
(O2)t
=
PeO2 * P * S * dt
e
-
RRO2max * O2 * m * dt
(KmO2 + O2) * (1 +CO2/ KiCO2 )
21%
0%
Diffusion
O2
CO2
Packaging
27
Atmosphère
optimale cible
Paramètres
d’entrée liés au
format de
l’emballage
Paramètres
d’entrée liés à
l’aliment
28
Pression
partielle en
O2 dans
l’emballage
Pression
partielle en
CO2 dans
l’emballage
29
User’s
specif
Vegetable
database
PassiveMap
simulation
Packaging
database
DSS
reasoning
Ranked list of
pertinent
packaging
30
31
32
33
34
• La simulation requière des données expérimentales
stockées en base (même verrou que Sym’Previus)
• L’utilisateur exprime des préférences sur des critères
obligatoires ou optionnels
• Les données expérimentales peuvent être imprécises
• Interrogation flexible multi-critères
bipolaire de la base Emballage
– Critères obligatoires
(vegetable type, vegetable
mass, cost, …)
– Critères optionnels
(biodegradability, …)
• Critères: expression de
préférence
Cost
1
60
0
0.3
1
0.5
0.9
1.2
Additive
0,5
0
Plasticizer
Nano-particle
36
Some query selection criteria may express constraints
(mandatory  excluding solutions), while others express
wishes (optionals  make some solutions preferable to
others)
37
Elements not meeting constraints are
rejected.
38
Elements not meeting constraints are
rejected.
39
Data imprecision treated differently :
pessimistic way for constraints, optimistic
for wishes.
40
41
42
43
Sources de données et de connaissances
Critères technico-socioéconomiques
1 – Modèles d’intégration des données/connaissances
3 – Modèles d’argumentation
pour l’aide à la décision
2 – Modèles inductifs pour la prédiction/simulation
Résultats de
simulation
Simulation d’un scénario technique
44
Technologie
Goût
Nutrition
Sécurité
QUE FAIRE?
Facilité d’emploi
Environnement
Coûts
Exemple
T65 ?
Avoiding chemical contamination
T80 ?
Increasing nutritional components
Proposing a consumer-attractive bread
Decreasing costs
Limitating irritating fibers
Controling appetite
~60 identified arguments
Avoiding the responsability for consumer security
Maintaining sells
Preserving the profession’s technicity
Limitating salt consumption
Reducing costly widespread diseases
• Recueil des arguments des acteurs de la filière
• Modélisation des arguments
• Représentation globale des arguments et des
conflits
• Définition de scenarii pour l’aide à la décision
47
48
49
• La démarche de recherche appliquée s’appuie
sur des enjeux finalisés
• Outils d’aide à la décision
• Problématique de recherche en informatique
– Conception d’un entrepôt de données ouvert sur le
Web (annotation floue de tableaux)
– Interrogation flexible (bipolaire)
– Détection de redondances
– Fiabilité des données
– Modélisation et évolution d’ontologies
– Apprentissage et prédiction
– Arbitrage argumenté
50
• Destercke S., Buche P., Guillard V. (2011) A flexible bipolar querying approach
with imprecise data and guaranteed results. In Fuzzy sets and Systems. In
press.
• Buche P., Couvert O., Dibie-Barthélemy J.,Hignette G., Mettler E., Soler L.
(2010). Flexible Querying Of Web Data To Simulate Bacterial Growth In Food.
Food Microbiology In press.
• Buche P., Dibie-Barthélemy J., Chebil H. (2009). Flexible SPARQL querying of
Web data tables driven by a domain ontology. LNAI 5822: 345-357.
Proceedings of FQAS'09 (Flexible querying and answering systems).
FQAS2009 [181,30 kB]
• Hignette G., Buche P., Dibie-Barthélemy J., Haemmerlé O. (2009). Fuzzy
annotation of web data tables using a domain ontology. LNCS 5554: 638-653.
Proceedings of the European Semantic Web Conference 2009.
• Hignette G., Buche P., Couvert O., Dibie-Barthélemy J., Doussot D.,
Haemmerlé O., Mettler E., Soler L. (2008). Semantic annotation of Web data
applied to risk in food. International Journal of Food Microbiology 128, 174-180.
51
 Appariement d’un critère de sélection flou à
une valeur floue
répond à la requête
ne répond pas
à la requête
TempératureSurvie
???
1
0
10
15
45 50
°C
52
Degrés d’adéquation d’une donnée
floue à un critère flou
Degrés d’adéquation
Formule
Exemple
Signification
Degré de possibilité
[Zadeh 78]
(Q;D) = sup (min (µQ;
Q
D
mesure d’intersection
Degré de nécessité
[Dubois&Prade 88]
D))
N(Q;D) = 1 - (Q;D)
= inf (max (µQ;1-
Q
D))
D
mesure d’inclusion
53