TRAITEMENT AUTOMATIQUE DES LANGUES Licence d
Transcription
TRAITEMENT AUTOMATIQUE DES LANGUES Licence d
TRAITEMENT AUTOMATIQUE DES LANGUES Licence d'Informatique 2ème Année – Semestre 1 Département d'Informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/tal.html Session 2: Analyse Lexicale Plan Les mots Apprentissage des mots Morphologie Reconnaître les mots Automates finis Tranducteurs finis Analyse de Surface Distribution Lexicale Résumé Session 2: Analyse Lexicale Les Mots La créativité des mots chat vs. chats manger vs. mange, manges, mangeons, mangez, mangent constitution vs. constitutionnel vs. anticonstitutionnel vs. anticonstitutionnelle aller vs. aille vs. allant vs. va Muvaffakiyetsizleştiricileştiriveremeyebilecekl erimizdenmişsinizcesine (Turque) facebookeurs Session 2: Analyse Lexicale Apprentissage des Mots Il y a-t-il des règles? La courbe en U (Rumelhart & McClelland, 1986) Session 2: Analyse Lexicale Morphologie Partie de la grammaire qui étudie les problèmes relatifs à la formation des mots Lexème ou morphème radical Unité de sens morphologique chat, chats, chatons Désinence ou flexion Suffixe grammatical servant à la flexion mange, manges, mangeons Dérivation Lexicale Nouveaux mots à partir de lexèmes et affixes personnel, impersonnel, personnellement Session 2: Analyse Lexicale Reconnaître les mots Créer un analyseur chats → chat +N +Sg mangeons → manger +V +1G +2P +Pl +Pr Ressources Dictionnaire ou base de données lexicales chat | N | Sg ; chats | N | Pl chat | N | Régulier Ensemble de règles lexème_N → lexème_N +s lexème_V_1G → lexème_V_1G -r +s Session 2: Analyse Lexicale Automates finis Comment coder le lexique? Lexique flexionnel nominal Session 2: Analyse Lexicale Automates finis Comment coder le lexique? Lexique flexionnel verbal Session 2: Analyse Lexicale Automates finis Comment coder le lexique? Lexique dérivationnel Session 2: Analyse Lexicale Automates finis Représenter les mots Utiliser un automate fini pour coder les entrées du lexique Session 2: Analyse Lexicale Tranducteurs finis Qu'est-ce qu'un transducteur fini? Un transducteur fini est un type d'automate fini qui, à la fois, reconnaît une chaîne de symboles et en génère une autre Session 2: Analyse Lexicale Tranducteurs finis Reconnaître les mots d'une langue Chaque catégorie de mots est représentée par un Transducteur fini Session 2: Analyse Lexicale Tranducteurs finis La sortie du transducteur est intermédiaie ● c:c a:a t:t +N:ε +Pl:^s# cat+N+Pl (niveau lexical) catε^s# (niveau intermédiaire) cats (niveau surface) Session 2: Analyse Lexicale Tranducteurs finis Intégrer les règles orthographiques f:f o:o x:x +N:ε +Pl:^s# fox+N+Pl (lexicale) foxε^s# (intermédiaire) foxes (et non foxs) (surface) En effet, fox est un mot régulier mais certaines règles orthographiques doivent s'appliquer journal vs. journaux ● Session 2: Analyse Lexicale Tranducteurs finis Intégrer les règles orthographiques Niveau intermédiaire → Niveau surface fox^s# → foxes Session 2: Analyse Lexicale Tranducteurs finis Architecture finale Génération Reconnaissance Session 2: Analyse Lexicale Analyse de Surface Analyse simplifiée du lexique Racinisation (Stemming) A-t-on besoin d'une connaissance complète des mots? mange vs. mangeable, manges, manger, immangeable Algorithme de Porter (1980) Règles simples de réécriture en cascade Problèmes organ vs. organe/organisation Session 2: Analyse Lexicale Analyse de Surface Distance de Levenshtein (1966) Déterminer la distance lexicale entre deux mots Nombre minimal de caractères à substituer, ajouter ou supprimer pour intervertir 2 chaînes Programmation dynamique Session 2: Analyse Lexicale Distribution Lexicale Les mots suivent certaines distributions La plus connue est la loi de Zipf (1945) Session 2: Analyse Lexicale Distribution Lexicale Les mots suivent certaines distributions La loi Mandelbrot (1954) généralise Zipf Session 2: Analyse Lexicale Résumé Les mots Apprentissage des mots Morphologie Reconnaître les mots Automates finis Tranducteurs finis Analyse de Surface Distribution Lexicale Session 2: Analyse Lexicale Prochains Cours CM: Analyse Grammaticale TP: Introduction à la librairie NLTK https://dias.users.greyc.fr/?op=paginas/tal.html Session 2: Analyse Lexicale