Représentation des connaissances Travaux pratiques n°1
Transcription
Représentation des connaissances Travaux pratiques n°1
Master IO MER 2016-2017 Farah Benamara Zitoune Représentation des connaissances Travaux pratiques n°1 Pour chaque exercice, veuillez répondre aux questions dans un fichier texte (Word, NotePad, ou autre) puis envoyez le fichier à la fin du TP à l'adresse [email protected] Exercice 1: Vocabulaires contrôlés • Qu'est ce qu'un vocabulaire contrôlé ? • Recherchez sur Internet des vocabulaires contrôlés dans les domaines suivants : ◦ Electricité ◦ Cosmétique ◦ Ressources humaines ◦ Militaire • Consultez le site de la société française de terminologie. Que contient ce site ? Exercice 2: Thésaurus • Qu'est ce qu'un thésaurus ? Que contient-il ? • Allez sur le Thésaurus de l'UNESCO : http://databases.unesco.org/thesfr/ • Identifiez les descripteurs du micro-domaine Religion associé au domaine de la Culture • Repérez les descripteurs Institution religieuse et Théologie • Pour chacun de ces deux descripteurs précédents, identifiez les relations : ◦ Hiérarchiques ◦ Associatives ◦ Equivalences intra-linguistique ◦ Equivalences inter-linguistique • Nous allons à présent découvrir le formalisme de représentation informatique du thésaurus de l'UNESCO. ◦ Allez sur le site : http://skos.um.es/unescothes/ ◦ Recherchez le descripteur Théologie ◦ Cliquez sur le lien RDF/XML et analysez le formalise SKOS (identifiez les balises, leurs significations, etc.). Vous pouvez vous référer au site suivant pour une description des principales balises SKOS : www.sparna.fr/skos/SKOS-traduction-francais.html Exercice 3: WordNet, le célèbre réseau sémantique Wordnet est un réseau lexical qui couvre la grande majorité des noms, verbes, adjectifs et adverbes de la langue anglaise. Son développement (manuel) a commencé en 1985 à l'université de Princeton. WordNet définit le sens des mots par deux moyens : • Les synsets (synonym set) : ensemble de mots quasi-synonymes, sorte de « classe d'équivalence » sémantique, représentant un sens (un concept) particulier. Chaque synset est accompagné d'un gloss (sa définition) + exemples d'usage. Les mots ayant plusieurs sens appartiennent à plusieurs synsets (les sens sont ordonnés par ordre de fréquence). • Les relations entre synsets : elles sont de plusieurs types ◦ hyperonymie- hyponymie (is-a), ◦ Méronymie (partie-de), Master IO MER 2016-2017 Farah Benamara Zitoune ◦ Implication, ◦ Dérivation morphologique .… WordNet est actuellement composé de 150 000 mots organisés en 115 000 synsets. Il est accessible en ligne à l'adresse : http://wordnet.princeton.edu/. Il existe pour d'autres langues : EuroWordNet, BalkaNet, Wolf (WordNet français), ArabicWordNet, etc. WordNet est extrêmement utilisé en recherche d'informations : • pour représenter les documents • pour étendre la requête de l'utilisateur (ajout de synonymes, par exemple, pour augmenter le rappel, c'est-à-dire la proportion de documents pertinents rapportés) • acquisition de relations sémantiques • désambiguïsation sémantique • pour l’étiquetage sémantique de corpus • pour la structuration et catégorisation des documents Nous allons à présent découvrir ce réseau. • Allez sur le site : wordnetweb.princeton.edu/perl/webwn • Recherchez le mot « chocolate » puis identifiez ses différents sens. • Pour chaque sens, identifiez : ◦ Son gloss ◦ Ses hyponymes, hyperonymes ◦ Ses meronymes ◦ Que veut dire Sister term, Inherited hypernym ? Exercice 4: Réseaux sémantiques (suite) Nous allons découvrir un autre réseau sémantique nommé ConceptNet. • Allez sur le site http://conceptnet5.media.mit.edu/ et essayez de comprendre ce que contient ce réseau sémantique. • Rechercher dans le réseau le concept Water et analyser le résultat en terme de relations. • Comparer le résultat obtenu avec celui que vous obtenez en recherchant le même concept sur WordNet. • En déduire les principales différences entre ConceptNet et WordNet. Exercice 5: Représentation des connaissances gouvernementales Aller sur le site https://www.data.gouv.fr/fr/ • Etudier l’objectif de cette initiative en cliquant sur Découvrez l’Open Data. • Choisir un domaine et explorer les ressources disponibles. Exercice 6: Représentation de connaissances géographiques Nous allons découvrir GeoName, une base de connaissances libre de droit qui contient plus de 11 million de lieu géographique. • Allez sur le site http://www.geonames.org/ • Recherchez des informations sur un pays donné, en utilisant l'outil Browse the names. • Observez comment les informations sont encodées en XML, en utilisant l'outil Web Services → Overview.