De la linguistique descriptive au TAL

Transcription

De la linguistique descriptive au TAL
De la linguistique descriptive au TAL
Matthieu Constant
Université de Marne­la­Vallée
Séminaire SIGNES ­ INRIA
8 avril 2005
Cursus
●
●
Ingénieur en informatique, électronique et automatique
École Polytechnique Universitaire de Lille, juillet 1999
Docteur en informatique linguistique Université de Marne­la­Vallée, sept. 2003
●
Recherche post­doctorale en entreprise Teragram Corporation, Boston, sept. 2003­août 2004
●
ATER en informatique
Université de Marne­la­Vallée, sept. 2004 ­ ...
Approche
●
pluridisciplinaire
●
pragmatique
●
fondement linguistique
Thèmes de recherche
●
●
Ressources lexicales
–
Constitution de lexiques
–
Gestion des ressources
Intégration des ressources
–
Analyse superficielle de textes
–
Analyse profonde de textes
Partie I
Ressources lexicales
Partie I.1
Constitution de lexiques
Méthodologie : lexique­grammaire
●
Référence : M. Gross (1975)
●
Étude systématique de prédicats
verbes, noms, adverbes, adjectifs, figés, ...
–
Cadre : phrase simple (libre et figée)
–
Entrée lexicale = un emploi
–
Classification sur critères syntaxiques
–
Étude systématique des propriétés syntaxiques
–
Codage formel systématique
Ressources lexicales
●
●
●
Dictionnaires syntaxiques –
entrées lexicales = prédicats
–
tables de lexique­grammaire
Grammaires locales
–
phénomènes locaux lexicalisés
–
sous la forme de graphes et équivalentes à des RTNs Dictionnaires morphosyntaxiques
–
listes d'entrées lexicales (mots simples et composés)
–
compressés en FST
Ma contribution
●
●
Sujets d'étude :
–
expressions de mesure
–
compléments prépositionnels locatifs géographiques
Représentations formelles :
–
tables de lexique­grammaire
–
grammaires locales Ma contribution (2)
●
●
travail linguistique –
nouvelle pierre à l'édifice –
méthode classique avec un peu plus de sémantique
travail informatique
–
représentation relationnelle
–
compilation
Phrase simple
●
Expressions de mesure (J. Giry­Schneider, 1991)
ex. N0 avoir un Ng de n Unité
=: Max a une taille de 1,80 m
●
Compléments prépositionnels locatifs géographiques
N0 être Loc X
=: Luc se trouve à l' île de Crète
=: Luc se trouve en Crète
Entrées lexicales
●
●
Noms de grandeur
–
taille, vitesse, distance, angle, ...
–
poids (kg), poids (Newton)
–
tension artérielle, tension électrique
Noms propres géographiques
–
Paris, ville de Paris
–
Méditerranée, mer Méditerranée
–
département du Nord, mer du Nord
Classification sur critères formels
●
Mesures :
–
mesures absolues
L'immeuble a une hauteur de 100 m
–
mesures relatives
Marie est à une distance de 10 m de Lea –
mesures comparatives
Luc est 10 kg plus lourd que Max (Ng =: poids)
●
Noms propres géographiques par classifieur
mer, ville, pic, ...
Propriétés syntaxiques (1)
exemples
●
Permutation
La corde (a + fait) 10 m de (longueur + long)
Le mur (a + fait) 10 cm d' (épaisseur + *épais)
* La voiture (fait + a) 10 km/h de vitesse
●
Variations lexico­syntaxiques
Le livre (a + forme + fait) un angle de 10 degrés avec le stylo
Max est à une hauteur de 10 m au-dessus de Léa
L'evade est dans un périmètre de 2 km autour de la prison
Propriétés syntaxiques (2)
●
Distribution prépositionnelle avec formes longues
La croisière est (dans la + en + *E) mer du Nord
Luc est (dans la + *en + E) rue Daubenton
Luc est (dans la + *en + *E) ville de Tours
●
Distribution prépositionnelle avec forme courte
Marie est (en + *à) Crète
Marie est (*en + à) Guernesey
Marie est (en + à la) Guadeloupe
Marie est (*en + à la) Réunion
Tables de lexique­grammaire
●
●
mesures (absolues, relatives, comparatives)
noms propres géographiques «composés» + distribution prépositionnelle
Grammaires locales
●
●
Mesures : Dnum Unité, etc.
Locatifs : Prépositions composées (localisation spatiale), etc.
Partie I.2
Gestion des ressources
Introduction
●
●
●
Besoin de gestion des ressources
Outils de gestion d'une bibliothèque de grammaires locales
Membre du groupe de travail sur les dictionnaires DELA
Bibliothèque de grammaires locales
●
Thèse + en cours (avec J. Sastre, doctorant)
●
genre de «CVS» pour grammaires locales
●
Outils implantés :
●
–
modification de la base
–
recherche d'information dans la base
Problèmes
–
dépendance des grammaires locales
–
informations dans des objets complexes Outils
●
●
Modification (créer, ajouter, supprimer, ...)
–
pas toujours trivial (dépendance)
–
suppression = CFC + tri topologique
Recherche de grammaires locales
–
moteur de recherche dans grammaires et documentation associée
–
indexation (lemmatisation, suppression des mots vides)
–
recherche booléenne par mot contenu (OR, AND)
–
recherche par séquences (reconnues ou «incluses»)
Partie II
Analyse de textes
Partie II.1
Analyse superficielle
Analyse superficielle de textes
●
●
Principe :
–
repérage de séquences pertinentes candidates
–
calcul du degré de pertinence d'une séquence –
regroupement sémantique des séquences
Applications :
–
catégorisation de documents
–
question­réponse
–
indexation
Repérage de séquences linguistiques
●
Utilisation de grammaires locales pondérées
–
patrons syntaxiques (chunks)
–
grammaires lexicalisées (informations précises)
–
graphie (entités nommées)
Patrons syntaxiques
Grammaire lexicalisée
Calcul du degré de pertinence
●
●
Recherche d'informations générales
–
apprentissage statistique (ex. cooccurrences)
–
calculs matriciels (ex. Latent Semantic Indexing)
Recherche d'informations spécifiques et précises
–
poids manuels dans grammaires locales
Regroupement sémantique ●
●
Recherche d'informations générales
–
thèmes abordés : word clustering
–
constitution automatique de classes sémantiques
Recherche d'informations précises et spécifiques
–
redondance : word clustering
–
assignation manuelle de catégories sémantiques dans grammaires locales
Applications testées
●
Catégorisation de documents
–
●
construction automatique de «dictionnaires thématiques»
Question­réponse :
–
Who is X ?
–
réponse biographique
Partie II.2
Analyse profonde
Analyse de textes spécialisés
●
Textes spécialisés :
–
lexique limité
–
constructions syntaxiques limitées
●
Formalisable par grammaires locales
●
Problème : résolution de pronoms et d'inférences
●
Expérience sur des Curriculum Vitae détaillés
Exemple de grammaire locale
Analyse syntaxique
●
●
●
Construction d'un analyseur syntaxique alimenté par une grammaire lexicalisée
But :
–
grammaire à large couverture
–
application sur textes réels (dépêches AFP, etc.)
Collaboration avec O. Blanc (doctorant, UMLV)
Formalisme
●
●
formalisme et parseur par Olivier Blanc
système de règles de réécriture avec RTN (graphes), décorées de contraintes d'unification
●
ressemblance avec LFG
●
pondération
Exemple (aimer)
Exemple (SN)
Lexicalisation de la grammaire
●
Utilisation des informations syntaxiques dans les tables de lexique­grammaire
verbes, noms, adjectifs, ...
●
●
Méthode étendue d' E. Roche (1993)
Les propriétés propres à chaque entrée lexicale (sous­catégorisation, ...) sont directement codées dans la grammaire
Table (36DT)
Graphe paramétré
Graphe lexicalisé
Remarques
●
●
Avantages :
–
intégration des grammaires locales
–
met simplement en relation des transformations
–
identification des prédicats sémantiques et leurs arguments
–
tout type de prédicat (noms, adjectifs, etc.)
Inconvénients :
–
explosion de la taille de la grammaire
–
problème de souplesse (adjonction ?)
–
maintenance ? (=> meta­grammaires)
Conclusion et perspectives
●
●
●
Activités de recherche très variées
Combinaison entre techniques linguistiques et statistiques
perspectives :
–
vers une linguistique un peu plus sémantique –
vers un troisième axe : «logique»
–
finir grammaire lexicalisée du français

Documents pareils