De la linguistique descriptive au TAL
Transcription
De la linguistique descriptive au TAL
De la linguistique descriptive au TAL Matthieu Constant Université de MarnelaVallée Séminaire SIGNES INRIA 8 avril 2005 Cursus ● ● Ingénieur en informatique, électronique et automatique École Polytechnique Universitaire de Lille, juillet 1999 Docteur en informatique linguistique Université de MarnelaVallée, sept. 2003 ● Recherche postdoctorale en entreprise Teragram Corporation, Boston, sept. 2003août 2004 ● ATER en informatique Université de MarnelaVallée, sept. 2004 ... Approche ● pluridisciplinaire ● pragmatique ● fondement linguistique Thèmes de recherche ● ● Ressources lexicales – Constitution de lexiques – Gestion des ressources Intégration des ressources – Analyse superficielle de textes – Analyse profonde de textes Partie I Ressources lexicales Partie I.1 Constitution de lexiques Méthodologie : lexiquegrammaire ● Référence : M. Gross (1975) ● Étude systématique de prédicats verbes, noms, adverbes, adjectifs, figés, ... – Cadre : phrase simple (libre et figée) – Entrée lexicale = un emploi – Classification sur critères syntaxiques – Étude systématique des propriétés syntaxiques – Codage formel systématique Ressources lexicales ● ● ● Dictionnaires syntaxiques – entrées lexicales = prédicats – tables de lexiquegrammaire Grammaires locales – phénomènes locaux lexicalisés – sous la forme de graphes et équivalentes à des RTNs Dictionnaires morphosyntaxiques – listes d'entrées lexicales (mots simples et composés) – compressés en FST Ma contribution ● ● Sujets d'étude : – expressions de mesure – compléments prépositionnels locatifs géographiques Représentations formelles : – tables de lexiquegrammaire – grammaires locales Ma contribution (2) ● ● travail linguistique – nouvelle pierre à l'édifice – méthode classique avec un peu plus de sémantique travail informatique – représentation relationnelle – compilation Phrase simple ● Expressions de mesure (J. GirySchneider, 1991) ex. N0 avoir un Ng de n Unité =: Max a une taille de 1,80 m ● Compléments prépositionnels locatifs géographiques N0 être Loc X =: Luc se trouve à l' île de Crète =: Luc se trouve en Crète Entrées lexicales ● ● Noms de grandeur – taille, vitesse, distance, angle, ... – poids (kg), poids (Newton) – tension artérielle, tension électrique Noms propres géographiques – Paris, ville de Paris – Méditerranée, mer Méditerranée – département du Nord, mer du Nord Classification sur critères formels ● Mesures : – mesures absolues L'immeuble a une hauteur de 100 m – mesures relatives Marie est à une distance de 10 m de Lea – mesures comparatives Luc est 10 kg plus lourd que Max (Ng =: poids) ● Noms propres géographiques par classifieur mer, ville, pic, ... Propriétés syntaxiques (1) exemples ● Permutation La corde (a + fait) 10 m de (longueur + long) Le mur (a + fait) 10 cm d' (épaisseur + *épais) * La voiture (fait + a) 10 km/h de vitesse ● Variations lexicosyntaxiques Le livre (a + forme + fait) un angle de 10 degrés avec le stylo Max est à une hauteur de 10 m au-dessus de Léa L'evade est dans un périmètre de 2 km autour de la prison Propriétés syntaxiques (2) ● Distribution prépositionnelle avec formes longues La croisière est (dans la + en + *E) mer du Nord Luc est (dans la + *en + E) rue Daubenton Luc est (dans la + *en + *E) ville de Tours ● Distribution prépositionnelle avec forme courte Marie est (en + *à) Crète Marie est (*en + à) Guernesey Marie est (en + à la) Guadeloupe Marie est (*en + à la) Réunion Tables de lexiquegrammaire ● ● mesures (absolues, relatives, comparatives) noms propres géographiques «composés» + distribution prépositionnelle Grammaires locales ● ● Mesures : Dnum Unité, etc. Locatifs : Prépositions composées (localisation spatiale), etc. Partie I.2 Gestion des ressources Introduction ● ● ● Besoin de gestion des ressources Outils de gestion d'une bibliothèque de grammaires locales Membre du groupe de travail sur les dictionnaires DELA Bibliothèque de grammaires locales ● Thèse + en cours (avec J. Sastre, doctorant) ● genre de «CVS» pour grammaires locales ● Outils implantés : ● – modification de la base – recherche d'information dans la base Problèmes – dépendance des grammaires locales – informations dans des objets complexes Outils ● ● Modification (créer, ajouter, supprimer, ...) – pas toujours trivial (dépendance) – suppression = CFC + tri topologique Recherche de grammaires locales – moteur de recherche dans grammaires et documentation associée – indexation (lemmatisation, suppression des mots vides) – recherche booléenne par mot contenu (OR, AND) – recherche par séquences (reconnues ou «incluses») Partie II Analyse de textes Partie II.1 Analyse superficielle Analyse superficielle de textes ● ● Principe : – repérage de séquences pertinentes candidates – calcul du degré de pertinence d'une séquence – regroupement sémantique des séquences Applications : – catégorisation de documents – questionréponse – indexation Repérage de séquences linguistiques ● Utilisation de grammaires locales pondérées – patrons syntaxiques (chunks) – grammaires lexicalisées (informations précises) – graphie (entités nommées) Patrons syntaxiques Grammaire lexicalisée Calcul du degré de pertinence ● ● Recherche d'informations générales – apprentissage statistique (ex. cooccurrences) – calculs matriciels (ex. Latent Semantic Indexing) Recherche d'informations spécifiques et précises – poids manuels dans grammaires locales Regroupement sémantique ● ● Recherche d'informations générales – thèmes abordés : word clustering – constitution automatique de classes sémantiques Recherche d'informations précises et spécifiques – redondance : word clustering – assignation manuelle de catégories sémantiques dans grammaires locales Applications testées ● Catégorisation de documents – ● construction automatique de «dictionnaires thématiques» Questionréponse : – Who is X ? – réponse biographique Partie II.2 Analyse profonde Analyse de textes spécialisés ● Textes spécialisés : – lexique limité – constructions syntaxiques limitées ● Formalisable par grammaires locales ● Problème : résolution de pronoms et d'inférences ● Expérience sur des Curriculum Vitae détaillés Exemple de grammaire locale Analyse syntaxique ● ● ● Construction d'un analyseur syntaxique alimenté par une grammaire lexicalisée But : – grammaire à large couverture – application sur textes réels (dépêches AFP, etc.) Collaboration avec O. Blanc (doctorant, UMLV) Formalisme ● ● formalisme et parseur par Olivier Blanc système de règles de réécriture avec RTN (graphes), décorées de contraintes d'unification ● ressemblance avec LFG ● pondération Exemple (aimer) Exemple (SN) Lexicalisation de la grammaire ● Utilisation des informations syntaxiques dans les tables de lexiquegrammaire verbes, noms, adjectifs, ... ● ● Méthode étendue d' E. Roche (1993) Les propriétés propres à chaque entrée lexicale (souscatégorisation, ...) sont directement codées dans la grammaire Table (36DT) Graphe paramétré Graphe lexicalisé Remarques ● ● Avantages : – intégration des grammaires locales – met simplement en relation des transformations – identification des prédicats sémantiques et leurs arguments – tout type de prédicat (noms, adjectifs, etc.) Inconvénients : – explosion de la taille de la grammaire – problème de souplesse (adjonction ?) – maintenance ? (=> metagrammaires) Conclusion et perspectives ● ● ● Activités de recherche très variées Combinaison entre techniques linguistiques et statistiques perspectives : – vers une linguistique un peu plus sémantique – vers un troisième axe : «logique» – finir grammaire lexicalisée du français