Des corpus aux dictionnaires
Transcription
Des corpus aux dictionnaires
Des corpus aux dictionnaires : présentation de l’usage des corpus dans la rédaction des dictionnaires Training School COST-‐Medioevo europeo Création et utilisation de corpus de textes médiévaux 16-‐24 Septembre 2014 Minorque La création de corpora • Un corpus linguistique = collection de textes qui ont été sélectionnés et mis ensemble afin d’étudier la langue à travers l’ordinateur. • Travail préliminaire qui implique de dessiner un plan d’attaque, avec des critères précis, et nettoyer / annoter le texte. • Les objectifs peuvent être multiples: recherches linguistiques, études d’autorité, statistiques, de visualisation, etc. Cela implique certains besoins: • Bibliothèque de textes médiévaux numérisés • Partage des textes pour les exploiter (formats standards: .txt, .xml, …) • Outils qui permettent de constituer un corpus • Outils qui permettent d’exploiter les corpus depuis différents points de vue: statistique, stylistique, grammatical et syntaxique, … Plan d’action • Construction d’un corpus • Annotation morphosyntaxique automatique • Annotation morphosyntaxique manuelle • Exploitation et exportation d’un corpus Plusieurs initiatives sont en cours pour le latin médiéval PALM Web Platform to enable the Linguistic Analysis of Medieval texts -‐ Plateforme d’analyse linguistique médiévale. • “par l'intermédiaire d'une annotation souple des textes, la semi-‐automatisation de la normalisation orthographique et de la lemmatisation des textes médiévaux en anglais, en français et en latin” • textes « politiques » (discours ; lettres ; traités ; poèmes ; sermons ; chroniques) , textes gouvernementaux (proclamations, ordonnances) et des textes adressés au roi par ses sujets (cahiers de doléances ; requêtes ; lettres de rémission) (ss. XII-‐XVI) • la bibliothèque regroupe des textes d'origine anglaise (en anglais, français et latin) et d'origine française (en français et en latin). TXM Enjeux : -‐ Documentaires ou qualitatifs : listes de fréquences (formes, lemmes), concordances, graphique de progression. -‐ contrastifs ou quantitatifs (analyse factorielle des correspondances, classification, spécificités, coocurrences). -‐ Configuration de corpus : sous-‐corpus, partitions (groupes de textes avec des structures internes) -‐ Export les résultats. HYPERBASE Traitement documentaire et statistique des corpus textuels Concordancier; calcul des spécificités; analyse arborée. • À l’origine Hyperbase fut créé pour exploiter les bases de données latines de LASLA (Laboratoire d’Analyse Statistique des Langues Anciennes) •Hyperbase fonctionne seulement sous Windows. •Il y a une nouvelle version Hyperbase Web Edition, pas encore en ligne. • Lexicon • Plate-forme pour l’analyse de textes • Offre une bibliothèque de textes médiévaux italiens. • Permet de créer une bibliothèque et d’analyser les textes par fréquence, collocations, concordances. L’importance de… • utiliser des standards • partager les fichiers sources • travailler directement avec les textes, sans restriction d’interfaces graphiques ou des enjeux de certains portails. Maintenant un exemple concret: Corpus Documentale Latinum Cataloniae 1 Numérisation des sources documentaires Numérisation des textes: Scanner + OCR Correction des textes avec critères unifiés Revision du texte CODOLCAT 2 Introduction des données dans le CODOLCAT (I) (Les trois parties de l’intranet) 3 Introduction des données dans le CODOLCAT (II) (Liste des éditions) 4 Introduction des données dans le CODOLCAT (III) (La liste des documents d’une édition) 5 Introduction des données dans le CODOLCAT (IV) (Informations de chaque document) 6 Introduction des données dans le CODOLCAT (V) (Le texte du document) 7 Introduction des données dans le CODOLCAT (VI) (La liste des archives) 8 Introduction des données dans le CODOLCAT (VII) (Les documents présents dans une archive) 9 Introduction des données dans le CODOLCAT (VIII) (Les bibliographies) 10 Introduction des données dans le CODOLCAT (VIII) (Les données des items bibliographiques) 11 Glossarium Mediae Latinitatis Cataloniae (1961-) 14 La rédaction des articles (I) Les fiches 15 La rédaction des articles (I) (La consultation dans le CODOLCAT) 16 La rédaction des articles (I) (La rédaction format papier) 17 Interoperabilité entre le CODOLCAT et le GMLC Récupération du texte de la source 18 Interoperabilité entre le CODOLCAT et le GMLC Récupération de la citation bibliographique complète 19 Interoperabilité entre le CODOLCAT et le GMLC Lancement d’une recherche dans le corpus 20