Construire des champs lexicaux et des champs sémantiques
Transcription
Construire des champs lexicaux et des champs sémantiques
Construire des champs lexicaux et des champs sémantiques Utlisation avancée du TLFi http://atilf.atilf.fr/tlf.htm Outils du CNRTL (Centre National de Ressources Textuelles et Lexicales) http://www.cnrtl.fr 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Motivations Un couple champ sémantique – champ lexical correspond souvent à un thème d'un texte Exploitation textuelle − − Créer des corpus thématiques en fonction d'un champ lexical Constraster les textes dans un corpus thématique en observant l'environnement des éléments d'un champ lexical Exemple : dans un corpus thématique sur les OGM, classer les textes du corpus selon qu'ils sont pour les OGM ou contre leur développement Exploitation lexicologique ou lexicographique − Accéder à une vue d'ensemble pour décrire les sens des éléments d'un champ lexical et pouvoir s'appuyer sur un corpus approprié Par opposition à la description des mots d'une langue par ordre alphabétique 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Vocabulaire utilisé dans ce cours Champ sémantique : Ensemble de sens réunis autour d'un noyau sémantique commun Champ lexical : Réalisation lexicale d'un champ sémantique => ensemble de lexies Lexie Couple signifiant/signifié ; forme/sens ; lexème/sémème ; vocable/acception − Avocat1 (le métier) ; avocat2 (le fruit) Une lexie a toujours une catégorie grammaticale − Parler_N ≠ Parler_V 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Vocabulaire utilisé dans ce cours Noyau sémantique Représenté à l'aide de "traits sémantiques" Pratiquement dans ce cours : − − Les traits sémantiques sont issus manuellement des définitions du TLFi Sont sélectionnés Les adjectifs, les adverbes, les noms et les verbes Mais en tenant compte des groupes qui signifient quelque chose de précis − − Ex 1 : prise en compte ≠ /prise_N/, /compte_N/ mais = /prise_en_compte/ Ex 2 : fruit comestible ≠ /fruit_N/, /comestible_Adj/ mais = /fruit_comestible/ => 1 champ sémantique est construit autour d'un ou plusieurs traits sémantiques communs 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Construire un champ sémantique ? Pratiquement, seuls les mots sont directement accessibles => on part souvent d'une ébauche de champ lexical => on analyse les contenus sémantiques des sens des mots qui semblent appartenir à un même champ sémantique => on approfondit l'analyse et on étend le champ lexical de manière contrôlée Difficulté de cette méthodologie Une ébauche de champ lexical peut être associé à plusieurs champs sémantiques différents Causes possibles : ambiguïté lexicale sémantique et homonymie 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Un champ lexical ébauché ; des champs sémantiques associables Vêtem ents Naviga tion Bateau Coque Voile Rame Pont Fruit Voie de communica tion => méthodologie fondée sur l'essai – erreur => travail coûteux en temps et en énergie => nécessité de se faciliter la tâche en exploitant les outils disponibles 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Méthodologie : prise en main Choisir un domaine dans lequel le champ sémantique et son champ lexical associé vont s'insérer Choisir un angle plus précis dans ce domaine Ex : alimentation, communication, économie, environnement, etc. Ex : les fruits comestibles, la manière dont on s'exprime par la parole, les transactions financières, les énergies renouvelables Faire un première ébauche du champ lexical que l'on pourrait associer 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Première ébauche de champ lexical Plusieurs solutions Choisir un élément dont on suppose qu'il doit y figurer et chercher ses synonymes Établir manuellement une première liste Partir d'une liste trouvée sur le web ou autrement À partir d'un hyperonyme que l'on recherche dans le TLFi Dans le cours Synonymes Recherche directe dans le TLFi Articulation des deux méthodes 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Première ébauche de champ lexical : des synonymes Domaine = alimentation Angle = les fruits comestibles Élément choisi = "fruit" Accès à ses synonymes Portail lexical du CNRTL, onglet "synonymie" (base des synonymes de Caen, DicoSyn) 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Synonymes suite Difficulté Fruit est ambigu => on retrouve cette ambiguïté dans l'ensemble des synonymes proposés 3 sens principaux se dégagent − − − Les conséquences : ex. "être le fruit d'une décision", "porter ses fruits" La descendance et la filiation : ex. "le fruit" Le fruit comestible Dans l'ensemble des lexèmes renvoyés par la base de synonymes, choisir ceux qui sont pertinents 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Ébauche de champ lexical : compléter les synonymes Imaginer les sortes de fruit que l'on connaît Datte, mangue, kiwi etc. Chercher sur le net Ex : chercher "sorte / espèce / type de fruit" ou même plus simplement "fruits" − − http://tous-les-fruits.com/ http://fr.wikipedia.org/wiki/Liste_de_fruits_comestibles Etc. 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Compléter les synonymes avec le TLFi À l'aide la liste de synonymes de "fruit", complétée ou non, examiner les emplois associés dans le TLFi Isoler les éléments communs aux différents emplois appropriés dans − − − − − Les crochets Les indicateurs d'emploi Les domaines généraux et techniques Les textes de définition Les expressions typiques non définies (en italique après les définitions, appelés "syntita enchaînés" dans la nommenclature des objets du TLFi) 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Compléter les synonymes avec le TLFi Une méthode possible, pratiquement Créer une liste dans l'interface du TLFi avec la liste de synonymes de "fruit", complétée ou non − ATTENTION : ne pas indiquer de lexèmes en plusieurs mots car l'interface les divise Ex : pomme de terre = 1. pomme, 2. de, 3. terre => explosion des résultats et du bruit Utiliser ensuite l'affichage détaillé et colorier pour relever les éléments communs Les stocker dans un tableau excel pour : − − Y accéder facilement et de manière organisée Évaluer la proportion d'emplois que touche chaque élément relevé 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Compléter les synonymes avec le TLFi Un exemple intermédiaire du résultat de cette méthode Type d'objet Eléments contenus réguliers Couverture Expression dans l'interface Catégorie grammaticale NOM 100,00% subst | &n adj Début de définition Baie ou drupe ou 100,00% fruit Appel de liste : debutdeffruit &d2 &ldebutdeffruit Domaine Botanique Une partie botanique Indicateur Métonymie ou extension Une partie Appel de liste : indicateurfruit &lindicateurfruit 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Compléter les synonymes avec le TLFi Utilisation de ce résultat intermédiaire dans les recherches complexes Sélectionner uniquement les éléments communs valides à 100% et les éléments que l'on peut exclure − − Par exemple, rechercher des noms qui ne sont pas ambigus avec la catégorie adjectif = subst | &n adj Mais pas une contrainte qui dirait "ne dépend pas du domaine botanique" car ce type d'information ne peut pas être exprimé dans l'interface. Ok : dépend du domaine botanique ou dépend d'un domaine qui n'est pas botanique Rendre interdépendantes l'ensemble des contraintes − Sinon explosion des résultats inappropriés du fait de l'héritage 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Compléter les synonymes avec le TLFi Problème de l'interdépendance Dom = botanique Définition 1 : fruit qui... Indicateur = métonymie Définition 2 : petit fruit qui... Recherche complexe 1. Code grammatical < nom 2. définition < "liste des débuts de définition de fruit" 3. domaine < botanique 4. indicateur < méton. ET 4 et 3 dépendent de 2 2 dépend de 1 => 2 résultats alors qu'un seul (définition 2) réunit l'ensemble des contraintes Recherche complexe DONC 2 dépend de 1, de 3 et de 4 3 dépend de 2 et de 4 4 dépend de 3 et de 2 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Compléter les synonymes avec le TLFi Approfondir l'analyse Les informations fournies par le dictionnaire sont multiples et peuvent donner lieu à différents sous-champs sémantiques et donc différents sous-champs lexicaux Éliminer les emplois inappropriés (ex. anse en géographie) Classer les emplois et leur lexème associé selon qu'ils réfèrent à − − Des classes de fruits : ex. les agrumes Des fruits consommables − Relever manuellement dans l'affichage détaillé les éléments qui réfèrent à l'usage (par exemple médecine, pâtisserie) ou à la saveur, la cueillette, etc. Des fruits issus de plantes, d'arbres, etc. 6 – 8 octobre 2011 Séminaire de linguistique de Corpus Partir directement du TLFi Domaine = alimentation Angle = fruits comestibles Éléments choisis "fruit" en début de définition Catégorie grammaticale = nom (subst | &n adj) Résultats similaires à la méthode précédente mais très bruités au départ => l'idéal est d'articuler ressources lexicales (synonymie, terminologies etc) et descriptions lexicographiques (TLFi) 6 – 8 octobre 2011 Séminaire de linguistique de Corpus TP Démarrer avec un champ lexical et le champ sémantique associé "simple" Concret, même catégorie grammaticale Avancer suffisamment dans l'analyse pour se faire une idée des difficultés Poursuivre avec un champ lexical approprié à vos recherches Probablement plus abstrait, mélangeant différentes catégories grammaticales Procéder progressivement et de manière organisée (par exemple, catégorie par catégorie) Ne pas construire entièrement le champ lexical mais le contrôler régulièrement par des sondages dans le TLFi 6 – 8 octobre 2011 Séminaire de linguistique de Corpus