Des corpus aux dictionnaires

Transcription

Des corpus aux dictionnaires
Des corpus aux dictionnaires : présentation de l’usage des corpus dans la rédaction des dictionnaires
Training School COST-­‐Medioevo europeo Création et utilisation de corpus de textes médiévaux 16-­‐24 Septembre 2014 Minorque La création de corpora
•
Un corpus linguistique = collection de textes qui ont été sélectionnés et mis ensemble afin d’étudier la langue à travers l’ordinateur. •
Travail préliminaire qui implique de dessiner un plan d’attaque, avec des critères précis, et nettoyer / annoter le texte. •
Les objectifs peuvent être multiples: recherches linguistiques, études d’autorité, statistiques, de visualisation, etc. Cela implique certains besoins:
•
Bibliothèque de textes médiévaux numérisés •
Partage des textes pour les exploiter (formats standards: .txt, .xml, …) •
Outils qui permettent de constituer un corpus •
Outils qui permettent d’exploiter les corpus depuis différents points de vue: statistique, stylistique, grammatical et syntaxique, … Plan d’action
•
Construction d’un corpus •
Annotation morphosyntaxique automatique •
Annotation morphosyntaxique manuelle •
Exploitation et exportation d’un corpus
Plusieurs initiatives sont en cours pour le latin médiéval PALM Web Platform to enable the Linguistic Analysis of Medieval texts -­‐ Plateforme d’analyse linguistique médiévale. •
“par l'intermédiaire d'une annotation souple des textes, la semi-­‐automatisation de la normalisation orthographique et de la lemmatisation des textes médiévaux en anglais, en français et en latin” •
textes « politiques » (discours ; lettres ; traités ; poèmes ; sermons ; chroniques) , textes gouvernementaux (proclamations, ordonnances) et des textes adressés au roi par ses sujets (cahiers de doléances ; requêtes ; lettres de rémission) (ss. XII-­‐XVI) •
la bibliothèque regroupe des textes d'origine anglaise (en anglais, français et latin) et d'origine française (en français et en latin). TXM
Enjeux : -­‐ Documentaires ou qualitatifs : listes de fréquences (formes, lemmes), concordances, graphique de progression. -­‐ contrastifs ou quantitatifs (analyse factorielle des correspondances, classification, spécificités, coocurrences). -­‐ Configuration de corpus : sous-­‐corpus, partitions (groupes de textes avec des structures internes) -­‐ Export les résultats.
HYPERBASE
Traitement documentaire et statistique des
corpus textuels
Concordancier; calcul des spécificités; analyse arborée. • À l’origine Hyperbase fut créé pour exploiter les bases de données latines de LASLA (Laboratoire d’Analyse Statistique des Langues Anciennes) •Hyperbase fonctionne seulement sous Windows. •Il y a une nouvelle version Hyperbase Web Edition, pas encore en ligne.
•
Lexicon
•
Plate-forme pour l’analyse de textes
•
Offre une bibliothèque de textes médiévaux
italiens.
•
Permet de créer une bibliothèque et d’analyser les
textes par fréquence, collocations, concordances.
L’importance de…
•
utiliser des standards •
partager les fichiers sources •
travailler directement avec les textes, sans restriction d’interfaces graphiques ou des enjeux de certains portails. Maintenant un exemple concret:
Corpus Documentale Latinum Cataloniae
1
Numérisation des sources documentaires
Numérisation
des textes:
Scanner + OCR
Correction des
textes avec
critères unifiés
Revision du
texte
CODOLCAT
2
Introduction des données dans le CODOLCAT (I)
(Les trois parties de l’intranet)
3
Introduction des données dans le CODOLCAT (II)
(Liste des éditions)
4
Introduction des données dans le CODOLCAT (III)
(La liste des documents d’une édition)
5
Introduction des données dans le CODOLCAT (IV)
(Informations de chaque document)
6
Introduction des données dans le CODOLCAT (V)
(Le texte du document)
7
Introduction des données dans le CODOLCAT (VI)
(La liste des archives)
8
Introduction des données dans le CODOLCAT (VII)
(Les documents présents dans une archive)
9
Introduction des données dans le CODOLCAT (VIII)
(Les bibliographies)
10
Introduction des données dans le CODOLCAT (VIII)
(Les données des items bibliographiques)
11
Glossarium Mediae
Latinitatis Cataloniae
(1961-)
14
La rédaction des articles (I)
Les fiches
15
La rédaction des articles (I)
(La consultation dans le CODOLCAT)
16
La rédaction des articles (I)
(La rédaction format papier)
17
Interoperabilité entre le CODOLCAT et le GMLC
Récupération du texte de
la source
18
Interoperabilité entre le CODOLCAT et le GMLC
Récupération de la citation
bibliographique complète
19
Interoperabilité entre le CODOLCAT et le GMLC
Lancement d’une
recherche dans le corpus
20

Documents pareils