TRAITEMENT AUTOMATIQUE DES LANGUES Licence d

Transcription

TRAITEMENT AUTOMATIQUE DES LANGUES Licence d
TRAITEMENT AUTOMATIQUE DES LANGUES
Licence d'Informatique
2ème Année – Semestre 1
Département d'Informatique
Université de Caen Basse-Normandie
https://dias.users.greyc.fr/?op=paginas/tal.html
Session 2: Analyse Lexicale
Plan
Les mots
 Apprentissage des mots
 Morphologie
 Reconnaître les mots
 Automates finis
 Tranducteurs finis
 Analyse de Surface
 Distribution Lexicale
 Résumé

Session 2: Analyse Lexicale
Les Mots

La créativité des mots
 chat vs. chats
 manger vs. mange, manges, mangeons,
mangez, mangent
 constitution vs. constitutionnel vs.
anticonstitutionnel vs. anticonstitutionnelle
 aller vs. aille vs. allant vs. va
 Muvaffakiyetsizleştiricileştiriveremeyebilecekl
erimizdenmişsinizcesine (Turque)
 facebookeurs
Session 2: Analyse Lexicale
Apprentissage des Mots

Il y a-t-il des règles?
 La courbe en U (Rumelhart & McClelland,
1986)
Session 2: Analyse Lexicale
Morphologie
Partie de la grammaire qui étudie les problèmes
relatifs à la formation des mots
 Lexème ou morphème radical
 Unité de sens morphologique
 chat, chats, chatons
 Désinence ou flexion
 Suffixe grammatical servant à la flexion
 mange, manges, mangeons
 Dérivation Lexicale
 Nouveaux mots à partir de lexèmes et affixes
 personnel, impersonnel, personnellement

Session 2: Analyse Lexicale
Reconnaître les mots
Créer un analyseur
 chats → chat +N +Sg
 mangeons → manger +V +1G +2P +Pl +Pr
 Ressources
 Dictionnaire ou base de données lexicales
 chat | N | Sg ; chats | N | Pl
 chat | N | Régulier
 Ensemble de règles
 lexème_N → lexème_N +s
 lexème_V_1G → lexème_V_1G -r +s

Session 2: Analyse Lexicale
Automates finis

Comment coder le lexique?
 Lexique flexionnel nominal
Session 2: Analyse Lexicale
Automates finis

Comment coder le lexique?
 Lexique flexionnel verbal
Session 2: Analyse Lexicale
Automates finis

Comment coder le lexique?
 Lexique dérivationnel
Session 2: Analyse Lexicale
Automates finis

Représenter les mots
 Utiliser un automate fini pour coder les
entrées du lexique
Session 2: Analyse Lexicale
Tranducteurs finis

Qu'est-ce qu'un transducteur fini?
 Un transducteur fini est un type d'automate fini
qui, à la fois, reconnaît une chaîne de
symboles et en génère une autre
Session 2: Analyse Lexicale
Tranducteurs finis

Reconnaître les mots d'une langue
 Chaque catégorie de mots est représentée par
un Transducteur fini
Session 2: Analyse Lexicale
Tranducteurs finis

La sortie du transducteur est intermédiaie
● c:c a:a t:t +N:ε +Pl:^s#
 cat+N+Pl (niveau lexical)
 catε^s# (niveau intermédiaire)
 cats (niveau surface)
Session 2: Analyse Lexicale
Tranducteurs finis
Intégrer les règles orthographiques
 f:f o:o x:x +N:ε +Pl:^s#
 fox+N+Pl (lexicale)
 foxε^s# (intermédiaire)
 foxes (et non foxs) (surface)
 En effet, fox est un mot régulier mais certaines
règles orthographiques doivent s'appliquer
 journal vs. journaux
●
Session 2: Analyse Lexicale
Tranducteurs finis

Intégrer les règles orthographiques
 Niveau intermédiaire → Niveau surface
 fox^s# → foxes
Session 2: Analyse Lexicale
Tranducteurs finis

Architecture finale
Génération
Reconnaissance
Session 2: Analyse Lexicale
Analyse de Surface
Analyse simplifiée du lexique
 Racinisation (Stemming)
 A-t-on besoin d'une connaissance complète
des mots?
 mange vs. mangeable, manges, manger,
immangeable
 Algorithme de Porter (1980)
 Règles simples de réécriture en cascade
 Problèmes
 organ vs. organe/organisation

Session 2: Analyse Lexicale
Analyse de Surface
Distance de Levenshtein (1966)
 Déterminer la distance lexicale entre deux mots
 Nombre minimal de caractères à substituer,
ajouter ou supprimer pour intervertir 2 chaînes
 Programmation dynamique

Session 2: Analyse Lexicale
Distribution Lexicale
Les mots suivent certaines distributions
 La plus connue est la loi de Zipf (1945)

Session 2: Analyse Lexicale
Distribution Lexicale
Les mots suivent certaines distributions
 La loi Mandelbrot (1954) généralise Zipf

Session 2: Analyse Lexicale
Résumé
Les mots
 Apprentissage des mots
 Morphologie
 Reconnaître les mots
 Automates finis
 Tranducteurs finis
 Analyse de Surface
 Distribution Lexicale

Session 2: Analyse Lexicale
Prochains Cours
CM: Analyse Grammaticale
TP: Introduction à la librairie NLTK
https://dias.users.greyc.fr/?op=paginas/tal.html
Session 2: Analyse Lexicale