Présentation de la Pompamo - Centre National de Ressources

Transcription

Présentation de la Pompamo - Centre National de Ressources
Unité mixte de recherche 7118
Titre de la diapositive
POMPAMO :
Détection automatique de
candidats à la néologie
http://www.atilf.fr
Sandrine Ollinger
[email protected]
[email protected]
Contexte : la veille lexicale
•
•
•
http://www.atilf.fr
Projet initié par S.Salmon-Alt, M.Valette et
E.Petitjean
Objectifs
– Exploitation et enrichissement des ressources de
l’ATILF
– Constitution de nouvelles ressources
– Observation de la créativité lexicale
Adaptabilité
– Modularité (JAVA)
– Normalisation :
• Text Encoding Initiative (TEI)
• Lexical Markup Framework (LMF)
– Diffusion (Interne - Externe : CNRTL)
[email protected]
La néologie
• Néologie = Ensemble des unités lexicales
nouvelles dans un état de langue donné
• Segmentation fiable en unités lexicales
– Étiquetage morphosyntaxique préalable des corpus
• Comparaison à un état de langue antérieur
– Utilisation de lexiques d’exclusion
• Appartenance à l’état de langue actuelle
– Multiplication des corpus d’observation
• Prise en compte des spécificités des
corpus
– Typologie, date, auteur
http://www.atilf.fr
[email protected]
Méthodologie
Corpus
Lexiques
Archives de pratiques
linguistiques
Simulations d’usages
lexicaux
Néologie
Néologie
formelle
http://www.atilf.fr
Néologie
catégorielle
Néologie
d’emprunt
Néologie
sémantique
[email protected]
Les néologies (1)
• Néologie formelle : formée par dérivation,
composition, abréviation ou variation graphique
– Formes inconnues des lexiques
– négationnisme, médiatisation
• Néologie catégorielle : Formes connues,
mais sous une autre catégorie syntaxique
– 2 types de dérivations détectés : Nom Commun →
Adjectif (ennemi) et Adjectif → Nom Commun
(documentaire)
– Sensible à l’étiquetage
http://www.atilf.fr
[email protected]
Les néologies (2)
• Néologie d’emprunt : unités lexicales
empruntées à d’autres langues
– Formes inconnues des lexiques (snipers)
– Repérée, mais non distinguée de la néologie
formelle
• Néologie sémantique : unités lexicales
ayant subi une extension, une restriction ou un
changement complet de sens
– Formes connues, sans changements
morphosyntaxiques
– Non détectée (souris)
– Travaux en cours : DIXEM (E.Jacquey et M.Valette)
http://www.atilf.fr
[email protected]
Plateforme de veille lexicale
POMPADOC
POADOC
POMPAMO
POAMO
Constitution de corpus
Observation de la néologie
•Aspirateur Web
•Détecteur de candidats
•Base de données relationnelle
•Base de données relationnelle
http://www.atilf.fr
[email protected]
POMPADOC
•
•
•
http://www.atilf.fr
Aspirateur de page Web
– Requête par mots-clefs
– Interrogation de moteurs de recherche
État actuel
– Prototype de Jérémy Ceintrey et Yorik Petey
– Moteur de recherche : Google
– Paramétrage par nb de mots, position des motsclefs, nom de domaine, nb de pages aspirées
– Formats de sortie : HTML + XML / TEI P5
A venir
– Résoudre problème encodage UTF-8
– Enrichissement du format XML
– Générer sortie TXT
– Coupler avec POADOC
[email protected]
POADOC
• Base de données de pages Web
– Base de donnée relationnelle
– Interrogation croisée par méta-données (date,
type de texte, domaine, genre, auteur)
– Sortie : corpus
• Réflexion ouverte sur les spécifications
–
–
–
–
Calcul des fréquences ? (nb de mots, Adj, N,…)
Domanialisation ?
Annotation morphosyntaxique ?
Traitement sur textes en entrée ou corpus en
sortie?
– Ajout d’un module de traitement supplémentaire
pour ces enrichissements?
http://www.atilf.fr
[email protected]
POMPAMO
•Lexiques d’exclusion
Corpus étiquetés morphosyntaxiquement
•Table de correspondance
Préparation du corpus et des lexiques d’exclusion
Comparaison de chaque unité lexicale au lexique Morphalou
Traitement des formes connues :
détection des candidats à la
néologie catégorielle
Traitement des formes nouvelles :
détection des candidats à la
néologie formelle
Classification de chacun des 2 types de candidats
Création d’un fichier
HTML par type de
candidats
http://www.atilf.fr
Création d’un
fichier XML par
type de candidats
Ajout du corpus, des
candidats et des
attestations au
POAMO
[email protected]
Données en entrée
• Corpus
– Segmenté et étiqueté
– Format : sortie étiqueteur ou XML TEI-P5
• Options
– Taille des contextes d’attestation (max. 15 phrases
ou 300 mots)
– Filtres pour candidats à la néologie formelle
• Choix des lexiques
• Suppression des formes composées
• Suppression des formes étiquetées NP
• Table de correspondance
– Étiquettes propriétaires/ éléments et attributs
standards LMF-ISO TC 37 SC4
http://www.atilf.fr
[email protected]
Lexiques d’exclusions
• Lexique principal de formes fléchies du
français : MORPHALOU 2.0
• Validité linguistique (Nomenclature TLF)
– Large couverture (524 725 formes fléchies 95 810
lemmes)
– Accès libre au format XML - LMF
• Lexiques supplémentaires inclus
– 70 438 Noms propres (ABU, Prolex, Tagen)
– 6 903 Adjectifs toponymiques et gentilés (Prolex)
(le vin français, les Français)
– 140 nombres composés
• Lexiques supplémentaires utilisateur
http://www.atilf.fr
[email protected]
Préparation et Comparaison (1)
• Préparation
– Analyse du Corpus : récupération des unités
lexicales
– Optimisation de l’accès aux ressources par la
création de sous-lexiques
• Comparaison des unités lexicales du
corpus au lexique principal
– Distinction de types :
• formes connues : potentielle néologie catégorielle
• formes nouvelles : potentielle néologie formelle
http://www.atilf.fr
[email protected]
Préparation et Comparaison (2)
Corpus :
Le négationnisme , une barbarie banalisée (Le
Figaro, 25.05.2000) Kosovo
Unités lexicales :
Le Da-ms-d w_1633 le
négationnisme Ncms w_1634 négationnisme
, Ypw w_1635 ,
(…)
barbarie Ncfs w_1637 barbarie
(…)
Figaro Npms w_1641 Figaro
, Ypw w_1642 ,
25.05.2000 Ncm. w_1643 25.05.2000
) Ypc w_1644 )
Kosovo Npms w_1645 Kosovo
Formes connues :
Le Da-ms-d w_1633 le
barbarie Ncfs w_1637 barbarie
Figaro Npms w_1641 Figaro
http://www.atilf.fr
Formes nouvelles :
négationnisme Ncms w_1634 négationnisme
25.05.2000 Ncm. w_1643 25.05.2000
Kosovo Npms w_1645 Kosovo
[email protected]
Traitement des formes connues
• Traitement des formes étiquetées Adj. et Nc
• La forme est-elle répertoriée sous cette cat.
grammaticale dans le lexique principal?
– OUI
– NON
→ pas de néologie
→ poursuite du traitement
• La forme est-elle répertoriée sous la 2nd cat.
grammaticale dans le lexique principal?
– OUI
– NON
→ néologie catégorielle
→ pas de néologie
• Exemple
– « documentaire, Ncms, documentaire »
– Répertorié comme Nc dans Morphalou → NON
– Répertorié comme Adj. dans Morphalou → OUI
→ Candidat à la néologie catégorielle
http://www.atilf.fr
[email protected]
Traitement des formes nouvelles
une unité lexicale : une forme nouvelle + son étiquette + son lemme + identifiants dans corpus
la forme a une longueur supérieure à 1
et ne contient pas de chiffre
OUI
négationnisme Ncms w_1634 négationnisme
25.05.2000 Ncm. w_1643 25.05.2000
NON
Kosovo Npms w_1645 Kosovo
la forme est un nombre
composé
NON
OUI
l’utilisateur a choisi
d’utiliser un lexique
OUI
la forme est reconnue
OUI
NON
NON
l’utilisateur a choisi de filtrer
les formes étiquetées NP
NON
la forme est une forme
composée
/^.+(-| |’).+$/
NON
OUI
OUI
la forme l’est
la forme contient
des caractères non
alphanumériques ou
est entièrement
majuscule
OUI
NON
l’utilisateur a choisi de conserver
les formes composées
OUI
NON
OUI
Occurrence de
candidat
http://www.atilf.fr
NON
Occurrence de
candidat
[email protected]
Regroupement en candidats
• Création d’un tableau de candidats :
• Forme + étiquette + lemme
– Ensemble d’attestations (localisation)
négationnisme Ncms négationnisme
w_914 sentence_30 paragraph_22 908 918 913
w_1411 sentence_42 paragraph_25 1405 1415 1410
w_1634 sentence_60 paragraph_31 1628 1638 1633
w_2348 sentence_83 paragraph_40 2342 2352 2347
Limite gauche du contexte d’attestation
Limite droite du contexte d’attestation
Localisation du candidat en nb d’unités lexicales
http://www.atilf.fr
[email protected]
Création d’un fichier HTML par type de
candidats
http://www.atilf.fr
[email protected]
Export XML TEI-LMF
http://www.atilf.fr
[email protected]
Implémentation
•
•
•
•
•
http://www.atilf.fr
Langage de programmation
– JavaTM 2 Platform Standard Edition 5.0
Algorithmique
– Algorithmes de tri dichotomique
– API SAX
– Accès base de données
Bases de données
– MySQL
Documents semi-structurés / Standards
– XML, XSLT, HTML
– TEI, LMF
Etiqueteur morpho-syntaxique
– Cordial Analyseur
[email protected]
Perspectives Ressources
• Lexiques
– Acquisitions nouvelles (NP,Sigles et acronymes)
– Format standard
– Choix du lexique principal
• Corpus en entrée
– Diversification des formats
– Diversification des étiqueteurs
• Diffusion
– Création d’une interface graphique
– Mise en ligne sur le site du CNRTL (www.cnrtl.fr)
http://www.atilf.fr
[email protected]
Évaluation
• Données textuelles :
– « Le Monde diplomatique »
– Année 1998
– Auteurs multiples
• Type de texte :
– Discours journalistique
– Genre majoritaire : article
– Domaine majoritaire : géopolitique
• 501 691 unités lexicales, 19527 phrases
– 2119 candidats à la néologie formelle
– 312 candidats à la néologie catégorielle
• Temps d’exécution : 125 secondes
http://www.atilf.fr
[email protected]
Candidats à la néologie formelle
•
264 candidats commençant par la lettre A, pour
477 occurrences
1%
8%
6%
13%
10%
8%
erreurs
termes étrangers
composition
dérivation
autres
NP
toponymiques
54%
http://www.atilf.fr
[email protected]
Erreurs
20%
27%
•
Formes appartenant à des adresses de sites
Internet (3 formes, 3 occurrences) : acdi-cida
•
Formes issues d’un mauvais traitement de
l’encodage de caractères (1 forme, 4 occurrences):
amp
•
Fautes de frappes (7 formes, 7 occurrences):
annnés
•
Erreurs de segmentation (4 formes, 8
occurrences): au-boutistes pour jusqu’auboutistes
7%
46%
URL
encodage
fautes de
frappes
segmentation
http://www.atilf.fr
[email protected]
Termes étrangers
•
2%
33%
En contexte de citation (13 formes, 26
occurrences) : « ce que l'ancien ministre (…)
désigne, en portugais, par une aculturaçao
europeia. »
63%
2%
•
En contexte étymologique (1 forme, 1
occurrence) : « Que signifie autonome ? Cela veut
dire autosnomos, qui se donne à soi -même sa loi. »
•
En contexte d’emprunt (16 formes, 41
occurrences) : « sur fond de discorde entre juifs et
Arabes, ashkénazes et orientaux, laïcs et religieux,
citation
étymologie
emprunt
locution latine
riches et pauvres... »
•
http://www.atilf.fr
Locution latine (1 forme, 1 occurrence) : ad vitam
aeternam
[email protected]
Locutions, Formes Composées et
Composition Morphologique
23%
•
Locutions et formes composées présentes dans
le TLF mais absentes de Morphalou (17 formes, 99
occurrences): à l’encontre
•
Nouvelles formes composées, figement à partir de
combinaisons syntaxiques (9 formes, 12
occurrences): assurance-chômage
•
Composition morphologique standard (8 formes,
8 occurrences): anarcho-syndicalisme
•
Composition savante (10 formes, 14
occurrences): agrofournisseurs
39%
18%
20%
présentes
dans le TLF
nouvelles
formes
composées
composition
morpho
standard
composition
savante
http://www.atilf.fr
[email protected]
Dérivation
20%
•
Candidats formés à l’aide du préfixe anti- (65
formes, 86 occurrences): anti-étatique
•
Candidats formés à l’aide du préfixe auto- (32
formes, 35 occurrences): autocensure
•
Candidats formés à l’aide du préfixe après- (4
formes, 7 occurrences): après-Lomé
•
Candidats formés à l’aide du préfixe archi- (2
formes, 2 occurrences): archiminoritaires
•
Candidats formés à l’aide d’autres affixes (26
formes, 33 occurrences) : autonomiser
50%
25%
2%
3%
antiaprèsarchiautoautres
http://www.atilf.fr
[email protected]
NP, toponymiques et autres
•
2%2% 4%
13%
27%
30%
•
•
22%
NP
•
toponymiques
simples
toponymiques
composés
flexions
•
variations
abréviation
non-construit
http://www.atilf.fr
•
•
Noms Propres non reconnus par l’étiqueteur (2
formes, 2 occurrences): arrap Moi
Noms et adjectifs toponymiques simples (6
formes, 6 occurrences): alavaise
Noms et adjectifs toponymiques composés (13
formes, 18 occurrences): argentino-brésiliens
Formes fléchies de lemmes répertoriés dans
Morphalou ( 10 formes, 14 occurrences): arrièrepensées
Variations graphiques de formes répertoriées
dans Morphalou ( 11 formes, 33 occurrences):
autodéfense
Abréviation (1 forme, 1 occurrence): amphi
Unité lexicale non construite (1 forme, 1
occurrence): auteure
[email protected]
Bilan néologie formelle
•
•
•
175 bons candidats, associés à 241 contextes
d’attestation,dont l’observation dans le POAMO
permettra d’évaluer la « vitalité » en fonction des
genres, types, domaines, auteurs et périodes.
38 candidats à la complétion directe de Morphalou,
associés à 146 attestations
50 mauvais candidats, associés à 75 contextes
d’attestation, dont l’observation peut permettre une
diminution du bruit
19%
14%
67%
http://www.atilf.fr
bons candidats à
la néologie
candidats à la
complétion
mauvais
candidats
[email protected]
Candidats à la néologie catégorielle
•
•
•
26 candidats commençant par la lettre A, pour 51
occurrences
1) consultation du TLF
2) vérification de l’étiquetage, en contexte
15%
8%
Adj employés comme
N, connus du TLF
27%
Adj employés comme
N, nouveaux
N employés comme
Adj, connus du TLF
50%
http://www.atilf.fr
N employés comme
Adj, nouveaux
[email protected]
Adjectifs étiquetés Substantif
11%
Emploi répertorié
dans le TLF
Emploi non
répertorié dans le
TLF
1 forme,1
occurrence
« les Alsaciens
3 formes, 15
occurrences
11%
45%
33%
Étiquetage
correct
bon étiquetage
+ emploi
répertorié
erreur
d'étiquetage +
emploi
répertorié
bon étiquetage
+ non répertorié
erreur
d'étiquetage+
non répertorié
http://www.atilf.fr
Étiquetage
incorrect
« les 600 000
autochtones
expriment l'espoir
de (…)»
licenciés en 1997 »
1 forme,1
occurrence
4 formes, 4
occurrences
« les différents
appels à
connotation
antijuive »
« la périphérie,
atomisée,
désordonnée »
[email protected]
Substantifs étiquetés adjectifs
12%
Emploi répertorié
dans le TLF
Emploi non
répertorié dans le
TLF
9 formes, 28
occurrences
3 formes, 5
occurrences
« qui a été habituée
à la variété anglosaxonne »
« tous les noms de
citoyens américains
ou amis des EtatsUnis »
3 formes,4
occurrences
« argent gaspillé
2 formes, 6
occurrences
18%
52%
18%
Étiquetage
correct
bon étiquetage
+ emploi
répertorié
erreur
d'étiquetage +
emploi
répertorié
bon étiquetage
+ non répertorié
erreur
d'étiquetage+
non répertorié
Étiquetage
incorrect
http://www.atilf.fr
en éléphants blancs
»
«qui n'ont cessé,
avant comme
après la
colonisation »
[email protected]
Bilan néologie catégorielle
•
•
•
5 bons candidats, associés à 19 contextes
d’attestation,dont l’observation dans le POAMO
permettra d’évaluer la « vitalité » en fonction des
genres, types, domaines, auteurs et périodes.
11 candidats à la complétion directe de Morphalou,
associés à 30 attestations
10 erreurs d’étiquetage, associés à 15 contextes
d’attestation, dont l’observation peut permettre une
diminution du bruit
19%
bons candidats à
la néologie
candidats à la
complétion
erreurs
d'étiquetage
38%
43%
http://www.atilf.fr
[email protected]
Perspective veille : POAMO
• Observatoire de créativité lexicale
– Base de données relationnelle
– Entrée : sortie de POMPAMO
• Interrogations croisées
– Requêtes sur méta-données
– Requêtes sur formes et expressions régulières
– Calculs de fréquences
• Caractérisation des candidats et sélection
– Enrichissement lexicométrique
– Évolution diachronique
– Répartition entre types de corpus
http://www.atilf.fr
[email protected]

Documents pareils