Représentation des connaissances Travaux pratiques n°1

Transcription

Représentation des connaissances Travaux pratiques n°1
Master IO MER 2016-2017
Farah Benamara Zitoune
Représentation des connaissances
Travaux pratiques n°1
Pour chaque exercice, veuillez répondre aux questions dans un fichier texte (Word, NotePad, ou
autre) puis envoyez le fichier à la fin du TP à l'adresse [email protected]
Exercice 1: Vocabulaires contrôlés
• Qu'est ce qu'un vocabulaire contrôlé ?
• Recherchez sur Internet des vocabulaires contrôlés dans les domaines suivants :
◦ Electricité
◦ Cosmétique
◦ Ressources humaines
◦ Militaire
• Consultez le site de la société française de terminologie. Que contient ce site ?
Exercice 2: Thésaurus
• Qu'est ce qu'un thésaurus ? Que contient-il ?
• Allez sur le Thésaurus de l'UNESCO : http://databases.unesco.org/thesfr/
• Identifiez les descripteurs du micro-domaine Religion associé au domaine de la Culture
• Repérez les descripteurs Institution religieuse et Théologie
• Pour chacun de ces deux descripteurs précédents, identifiez les relations :
◦ Hiérarchiques
◦ Associatives
◦ Equivalences intra-linguistique
◦ Equivalences inter-linguistique
• Nous allons à présent découvrir le formalisme de représentation informatique du thésaurus de
l'UNESCO.
◦ Allez sur le site : http://skos.um.es/unescothes/
◦ Recherchez le descripteur Théologie
◦ Cliquez sur le lien RDF/XML et analysez le formalise SKOS (identifiez les balises, leurs
significations, etc.). Vous pouvez vous référer au site suivant pour une description des
principales balises SKOS : www.sparna.fr/skos/SKOS-traduction-francais.html
Exercice 3: WordNet, le célèbre réseau sémantique
Wordnet est un réseau lexical qui couvre la grande majorité des noms, verbes, adjectifs et adverbes de la
langue anglaise. Son développement (manuel) a commencé en 1985 à l'université de Princeton. WordNet
définit le sens des mots par deux moyens :
•
Les synsets (synonym set) : ensemble de mots quasi-synonymes, sorte de « classe d'équivalence »
sémantique, représentant un sens (un concept) particulier. Chaque synset est accompagné d'un gloss
(sa définition) + exemples d'usage. Les mots ayant plusieurs sens appartiennent à plusieurs synsets
(les sens sont ordonnés par ordre de fréquence).
•
Les relations entre synsets : elles sont de plusieurs types
◦ hyperonymie- hyponymie (is-a),
◦ Méronymie (partie-de),
Master IO MER 2016-2017
Farah Benamara Zitoune
◦ Implication,
◦ Dérivation morphologique .…
WordNet est actuellement composé de 150 000 mots organisés en 115 000 synsets. Il est accessible en ligne à
l'adresse : http://wordnet.princeton.edu/. Il existe pour d'autres langues : EuroWordNet, BalkaNet, Wolf
(WordNet français), ArabicWordNet, etc.
WordNet est extrêmement utilisé en recherche d'informations :
• pour représenter les documents
• pour étendre la requête de l'utilisateur (ajout de synonymes, par exemple, pour augmenter le rappel,
c'est-à-dire la proportion de documents pertinents rapportés)
• acquisition de relations sémantiques
• désambiguïsation sémantique
• pour l’étiquetage sémantique de corpus
• pour la structuration et catégorisation des documents
Nous allons à présent découvrir ce réseau.
• Allez sur le site : wordnetweb.princeton.edu/perl/webwn
• Recherchez le mot « chocolate » puis identifiez ses différents sens.
• Pour chaque sens, identifiez :
◦ Son gloss
◦ Ses hyponymes, hyperonymes
◦ Ses meronymes
◦ Que veut dire Sister term, Inherited hypernym ?
Exercice 4: Réseaux sémantiques (suite)
Nous allons découvrir un autre réseau sémantique nommé ConceptNet.
• Allez sur le site http://conceptnet5.media.mit.edu/ et essayez de comprendre ce que contient ce
réseau sémantique.
• Rechercher dans le réseau le concept Water et analyser le résultat en terme de relations.
• Comparer le résultat obtenu avec celui que vous obtenez en recherchant le même concept sur
WordNet.
• En déduire les principales différences entre ConceptNet et WordNet.
Exercice 5: Représentation des connaissances gouvernementales
Aller sur le site https://www.data.gouv.fr/fr/
• Etudier l’objectif de cette initiative en cliquant sur Découvrez l’Open Data.
• Choisir un domaine et explorer les ressources disponibles.
Exercice 6: Représentation de connaissances géographiques
Nous allons découvrir GeoName, une base de connaissances libre de droit qui contient plus de 11 million de
lieu géographique.
• Allez sur le site http://www.geonames.org/
• Recherchez des informations sur un pays donné, en utilisant l'outil Browse the names.
• Observez comment les informations sont encodées en XML, en utilisant l'outil Web Services →
Overview.