Présentation de Watch System Assistance

Transcription

Présentation de Watch System Assistance
WATCH SYSTEM ASSISTANCE
EasyText : génération automatique de commentaires
FONDEMENTS : G-TAG
• G-TAG, un formalisme pour la génération de textes
• Fondé sur TAG (Tree Adjoining Grammar)
• Développé par L. Danlos dans les années 90
• Première implémentation en 94-97 : Flaubert
• Deuxième implémentation en 2008 : TextElaborator
• Intégration dans système opérationnel en 2009 : EasyText
18/11/11
EasyText : génération automatique de commentaires
2
TAG : DEUX OPÉRATIONS SUR LES ARBRES ÉLÉMENTAIRES
• Substitution
P
N
N0↓
Luc
α-Luc
• Adjonction
P
N0
V
mange
Luc
mange
N
N
α-pomme
Det
une
une
18/11/11
N
N*
β-petite
α-Luc
α-mange
Det
petite
1
V
N
Adj
α-mange
N
Adj
0
N
β-une
1
β-petite
pomme
une-pomme
petite pomme
EasyText : génération automatique de commentaires
3
DOMAINE DU GÉNÉRATEUR
• Inspiré des logiques typées du 1er ordre
-
Proche des langages de programmation objet
• Domaine est un ensemble de concepts
-
Hiérarchie du type « is-a »
CHAT est un ANIMAL
• Un concept est accompagné d'attributs typés
-
BLANC, NOIR et GRIS sont des concepts dérivant de COULEUR
PETIT et GRAND sont des concepts dérivant de TAILLE
ANIMAL possède deux attributs taille et robe typés respectivement par TAILLE et
COULEUR
MANGER < EVENT [
mangeur => ANIMAL
mangé
=> COMESTIBLE
]
18/11/11
EasyText : génération automatique de commentaires
4
ENTRÉE DU GÉNÉRATEUR
• Les concepts sont instanciés pour former une entrée
• Instancier un concept revient à instancier ses attributs
E1:= MANGER [
mangeur => CHAT [ taille => PETIT ]
mangé
=> SOURIS [ robe => BLANC ]
]
Ou encore
E1:= MANGER [ mangeur => C1, mangé => S1 ]
C1 := CHAT [ taille => PETIT ]
S1 := SOURIS [ robe => BLANC ]
-
E1 est une étiquette pouvant constituer une entrée du générateur
• Une entrée est transformée en un ou plusieurs textes
18/11/11
Le petit chat mange la souris blanche
La souris blanche est dévorée par le petit chat
EasyText : génération automatique de commentaires
5
LES BASES LINGUISTIQUES
• Base lexicale associée à chaque concept
-
Elle donne les différentes réalisations lexicales du concept en précisant les
positions argumentales des attributs
BL(MANGER) = {
$mangeur manger $mangé
$mangeur dévorer $mangé
$mangé faire le repas de $mangeur
}
-
18/11/11
$mangeur et $mangé correspondent aux attributs du concept MANGER
manger, dévorer et faire le repas de sont des entrées lexicales
EasyText : génération automatique de commentaires
6
LEXIQUE-GRAMMAIRE
• Famille d'arbres élémentaires associée à chaque entrée
lexicale
-
Elle donne toutes les réalisations syntaxiques autorisées pour l'entrée lexicale
Famille(manger) = f-N0VN1
f-N0VN1(ancre) = {
N0VN1-actif : N0 ancre N1
N0VN1-passif : N1 être ancre par N0
N0VN1-passif-sans-agent : N1 être ancre
N0VN1-relative-sujet : qui ancre N0
N0VN1-relative-objet : que N0 ancre
...
}
-
ancre est remplacé par un lemme (ici le verbe manger)
être, par, qui et que sont des lemmes
On peut préciser les constructions interdites
Famille(coûter) = f-N0VN1\{*passif*}
18/11/11
EasyText : génération automatique de commentaires
7
LEXIQUE MORPHOSYNTAXIQUE
• Le lexique donne les flexions des lemmes
manger:pers=3,nombre=sing,mode=ind,temp=pres;mange
manger:pers=3,nombre=plu,mode=ind,temps=prés;mangent
manger:genre=masc,nombre=sing,mode=p-part;mangé
...
18/11/11
EasyText : génération automatique de commentaires
8
RÔLE DES BASES LINGUISTIQUES
• Domaine
-
Consistance de l'entrée du générateur
*La mobylette est amoureuse d'une clef à mollette
• Dictionnaire morphosyntaxique
-
Flexion des mots
• Arbres élémentaires
-
Syntaxe
Propagation des traits (entre autres) d'accord
• Famille d'arbres élémentaires
-
Choix d'une construction syntaxique
Les attributs occupent la bonne position syntaxique
• Base lexicale
18/11/11
Assure la correspondance entre les concepts et les entrées lexicales
EasyText : génération automatique de commentaires
9
PROCESSUS DE GÉNÉRATION
• Choix lexicaux pour le concept de l'entrée
-
$mangeur manger $mangé
• Remplacement des attributs
-
C1 manger S1
• Choix lexicaux récursifs
-
le petit chat manger le souris blanc
• Choix des constructions syntaxiques
-
le souris blanc être manger (mode=p-part) par le petit chat
• Propagation des traits et post-traitement
-
18/11/11
la souris blanche est mangée par le petit chat
La souris blanche est mangée par le petit chat.
EasyText : génération automatique de commentaires
10
TEXTELABORATOR : UNE IMPLÉMENTATION DE G-TAG
• Technologies Microsoft
-
C#
SQLServer 2005 et 2008
.Net 2.0
• Déploiement
-
Librairie DLL
WebService IIS
• Un IDE et un Runtime
-
18/11/11
Interface utilisateur interactive
Outil de test et de debug
EasyText : génération automatique de commentaires
11
TEXTELABORATOR : UNE IMPLÉMENTATION DE G-TAG
Interface utilisateur
Édite
Tests/Debugs
Utilise
Base SQLServer
18/11/11
Composant Tactique
Runtime
EasyText : génération automatique de commentaires
12
EASYTEXT : UN DÉPLOIEMENT DE TEXTELABORATOR
• Objectifs
-
Client : Kantar Media (TNS MediaIntelligence)
Génération automatique de commentaires de tableaux de chiffres
Plusieurs milliers de textes de 5 à 7 paragraphes générés chaque mois
Focus sur les variations
Performances et intégration
• Composant spécifique
-
18/11/11
Composant stratégique « Quoi dire ? », extraction des faits saillants
Règles métier formalisées avec les chargé(e)s d'étude du client
Planification des faits saillants et construction de l'entrée du générateur
Invocation du Runtime TextElaborator
Restitution des commentaires
Persistance des traces des appels
EasyText : génération automatique de commentaires
13
EASYTEXT : UN DÉPLOIEMENT DE TEXTELABORATOR
Runtime TextElaborator
Utilise
Base SQLServer
Composant Tactique
Invoque
Trace/Rejoue
EasyAdex
Invoque
Génère
EasyText
Construit
18/11/11
EasyText : génération automatique de commentaires
14
PERSPECTIVES DE DÉVELOPPEMENTS
• Court terme
-
Remonter le maximum de contraintes dans les bases lexicales (éviter les échecs
de dérivation)
Multilinguisme (un seul domaine, plusieurs langues)
• Moyen terme
-
18/11/11
Détermination
Anaphores
Aspect
EasyText : génération automatique de commentaires
15