Présentation du cours Ingénierie linguistique 1 - Université Paris
Transcription
Présentation du cours Ingénierie linguistique 1 - Université Paris
Présentation du cours Ingénierie linguistique 1 Matthieu Constant Université Paris-Est Marne-la-Vallée, LIGM Ingénierie linguistique 1 Administratif I CM (6 x 2h = 12h) : Matthieu Constant I TP (6 x 2h = 12h) : André Bittar (2 groupes) Evaluation I Examen I TP à rendre Textes Un texte est une séquence de caractères I lettres : abABéàûï I chiffres : 1479 I séparateurs : espace, tabulation, retour à la ligne I symboles de ponctuation :., ? I autres symboles <()> Différents encodages I ASCII, ISO-8859, Latin1 I unicode UTF-8, UTF-16 Little Endian, UTF-16 Big Endian Analyse linguistique de textes Différents niveaux d’analyse 1. Segmentation 2. Analyse lexicale 3. Etiquetage morphosyntaxique 4. Analyse syntaxico-sémantique 5. Analyse sémantico-pragmatique Exemple Le cours de l’or a baissé de 10 euros lundi dernier. M. Bunton précise que c’est son plus bas niveau depuis 1998. Segmentation en phrases Principe I Une phrase est délimitée par un symbole de fin de phrases (ex. symbole de ponctuation, retour à la ligne) I Attention : c’est pas si simple ! M. Bunton précise que c’est son plus bas niveau depuis 1998. Exemple Le cours de l’or a baissé de 10 euros lundi dernier. M. Bunton précise que c’est son plus bas niveau depuis 1998. Segmentation en tokens Tokenisation I Découpage d’un texte en tokens I Un token = un mot (séquence de lettres), un nombre, un symbole de ponctuation, ... Exemple Le cours de l’or a baissé de 10 euros lundi dernier. => [Le|cours|de|l|or|a|baissé|de|10|euros|lundi|dernier] Analyse morphosyntaxique Analyse lexicale I Assigner à chaque token, l’ensemble de ses catégories grammaticales possibles I Catégories grammaticales : nom (N), verbe (V), adjectif (A), adverbe (Adv), déterminant (D), préposition (P), conjonction de coordination (CC), pronom (Pro),... Exemple Le D Pro cours N V de D P l’ D Pro or N CC a V N baissé V de D P 10 Num euros N lundi N dernier N A Analyse morphosyntaxique (suite) Etiquetage grammatical I Assigner à chaque token sa catégorie grammaticale dans le contexte de la phrase Exemple Le D le cours N cours de P de l’ D le or N or a V avoir baissé V baisser de P de 10 Num 10 euros N euro lundi N lundi dernier A dernier Analyse syntaxico-sémantique Analyse syntaxique de surface I Identification des constituants syntaxiques simples (ou chunks) I Types de chunks : groupes nominaux (XN), groupes prépositionnels (XP), complexes verbaux (XV), groupes adverbiaux (XADV), ... Exemple Le cours XN cours de l’ or XP or a baissé XV baisser de 10 euros XP euro lundi dernier XADV+date lundi_dernier Analyse syntaxico-sémantique (suite) Analyse syntaxique en profondeur I Construction de l’arbre syntaxique de la phrase I i.e. reconnaissance des constituants syntaxiques et leurs attachements Exemple (P (XN Le cours (XP de l’ or XP) XN) (XV a baissé XV) (XP de 10 euros XP) (XADV lundi dernier XADV) P) Analyse syntaxico-sémantique (suite) Analyse syntaxico-sémantique I Analyse du sens I ex. Représentation prédicat-argument des phrases Exemple BAISSER(COURS,"10 euros") COURS("or") SE_DEROULER(BAISSER,"lundi dernier") Analyse avancée Différentes analyses I Comprendre les phrases dans leur contexte (ex. résolution d’anaphores) I Comprendre le sens caché (Tu as l’heure ?) I ... Exemple Le cours de l’or a baissé de 10 euros lundi dernier. M. Bunton précise que c’est son plus bas niveau depuis 1998. Plan du cours 1. Langages rationnels et ingénierie linguistique 2. Espaces vectoriels et recherche d’informations 3. Classification de documents 4. n-grammes, modèles de Markov et étiquetage grammatical 5. Analyse syntaxique par grammaires 6. Introduction à la traduction automatique, alignement de textes parallèles