Initiation à l`informatique et à la programmation

Transcription

Initiation à l’informatique et à la programmation
par un projet concret
-Construction d’un prototype de base documentaire(Notion de base documentaire)
Marie-Noëlle Terrasse, Joël Savelli, Eric Leclercq, Marinette Savonnet
Département IEM, Université de Bourgogne
21 janvier 2005
1
Les fonds documentaires informatisés
Les bases de données stockent de grosses quantités d’information (il y a beaucoup d’informations différentes
et chaque information est volumineuse). Par exemple, dans un hôpital, les images produites par les examens
faits aux patients, les commentaires de visites et d’examens, la gestion au jour le jour des patients . . .produisent
chaque jour des volumes impressionnants d’information.
Exercice 1- Volume des images numériques
Une image est stockée sur un ordinateur sous la forme de valeurs numériques codées en binaire (chacune de
ces valeurs étant associée à un point –pixel– de l’image : couleur, brillance, etc.). Le volume d’une image est le
nombre de bits de son code binaire.
Les unités utilisées en informatique sont le bit (valeur 0 ou 1), l’octet (1 octet c’est 8 bits), le kilo-octet (1 Ko
c’est 1024 octets), le mega-octet (1 Mo c’est 1024 Ko soit 1024 2 = 1024 × 1024 octets), le giga-octet (1 Go c’est
1024 Mo soit 10243 octets), le tera-octet (1 To c’est 1024 Go soit 10244 Go)1 .
Le nombre de bits est calculé en multipliant le nombre de pixels par le nombre de bits pour représenter un
pixel. L’image étant vue comme une matrice de points, le nombre de pixels d’une image est le nombre de lignes
multiplié par le nombre de colonnes. Le nombre de bits pour représenter un pixel est variable :
- il faut par exemple 8 bits par pixel dans une image en 256 niveaux de gris,
- 24 bits par pixel dans une image couleur RVB à 256 valeurs par composante 2 ,
- 1 bit par pixel pour une image binaire, etc.
i) Soit une image couleur au format CIF (format de la TV numérique) dans lequel le nombre de pixels est de
576 lignes et 720 colonnes, il y a pour chaque pixel 3 composantes de volume 8 bits chacune.
Quel est le volume d’une image dans ce format ?
ii) Quel est le volume d’une vidéo couleur d’une heure au format CIF à raison de 25 images par seconde.
Il faut pouvoir stocker de tels volumes d’information : ceci est surtout un problème de performance des ordinateurs. Il faut aussi pouvoir retrouver facilement l’image dont on a besoin au moment où on en a besoin, ceci
suppose la mise en place d’un mécanisme sophistiqué :
1 Vous pouvez trouver les définitions à l’adresse http://www.teaser.fr/~spineau/acrodict/index.php et un convertisseur à
l’adresse http://www.alaide.com/outils_convertoctet.php.
2 On appelle composante chacune des couleurs primaires utilisées pour définir la couleur (ici, rouge, vert, bleu). Chaque composante peut prendre 256 valeurs : on a donc par combinaison 2563 couleurs différentes soit de l’ordre 16 millions de couleurs. Pour
stocker 256 valeurs, il faut un octet (8 bits). Au total il faut donc bien 3 × 8 bits pour stocker la couleur d’un pixel.
1
2
château, jardin, bassin
renaissance
Chambord, Loire
Palais des ducs
mairie
Dijon, Bourgogne
Fig. 1 – Exemples de photos avec des mots-clés
– On choisit pour chaque information complexe un identifiant. Un identifiant est une information synthétique
(généralement plus simple) qui suffit à distinguer cette information complexe de toutes les autres. Dans
certains cas, il est facile de choisir un identifiant (par exemple le nom du patient, le numéro de sécurité sociale
pour les personnes en France, l’ISBN pour les livres). Dans certains cas (comme pour les images ou le son
par exemple), il plus difficile de choisir un identifiant qui convient.
– On doit ensuite choisir comment “ranger les identifiants” (par exemple par ordre alphabétique ou alphanumérique). On appelle indexation le mécanisme de rangement qui permet de retrouver facilement une information à partir d’un identifiant de cette information ou d’une partie de cette information. On peut par
exemple rechercher des personnes par leur numéro de sécurité sociale3 (qui est unique) ou par leur nom-prénom
(qui n’est pas nécessairement unique).
Pour pouvoir retrouver plus facilement des images (ou des textes) dans une base de données on associe à
chaque image (ou à chaque texte) une liste de mots-clés qui constituent une sorte de résumé du texte (sa carte
d’identité). Par exemple château et Chambord ou bien Palais des ducs et Dijon.
Lorsque l’on recherche des informations, on donne une liste de mots-clés qui décrivent ce que l’on cherche. On
extrait alors de la base de données les images (ou les textes) qui contiennent un ou plusieurs des mots-clés
cherchés.
La qualité des réponses à une telle question est satisfaisante si celui qui donne la liste de mots-clés utilise le
même vocabulaire que celui qui a défini les mots-clés associés aux images ou aux textes. Par exemple, pour
rechercher des informations sur une pierre semi-précieuse, un spécialiste de minéralogie parlera de quartz à
système critallin hexagonal et de composition chimique SiO2 alors qu’un amateur de bijoux parlera d’oeil de
tigre. Un amateur d’archéologie parlera de mur de fortification alors qu’un spécialiste d’Alésia parlera de mur
de circumvallation ou de mur de contravallation. On peut trouver le même genre d’exemple avec les appelations
techniques en informatique : ADSL, haut débit à 512 ou 1024 kbit/s, Asymmetric Digital Subscriber Line
transmission technology, . . ..
Exercice 2- Les recherches sur internet
i) Comment recherche-t-on des informations sur internet ?
ii) Qu’est-ce qu’un moteur de recherche ?
iii) Pouvez-vous citer des moteurs de recherche accessibles sur internet ?
iv) Vous cherchez sur internet des informations sur la destruction de Pompéi par le Vésuve. Comment faitesvous ?
Exercice 3- Pompéi et le Vésuve
3 A noter : on peut techniquement choisir le numéro de sécurité comme identifiant mais légalement ceci est interdit (par la loi
informatique et liberté).
3
Que pensez-vous des listes de mots-clés ci-dessous pour trouver des informations sur la destruction de Pompéi
par le Vésuve :
i) "Destruction de Pompéi par le Vésuve"
ii) "Pompéi"
iii) "Vésuve"
iv) "éruption du Vésuve"
v) "24 août 79"
vi) "Vesuvio"
Pour éviter ce genre de problème (ou en limiter les effets négatifs), on associe parfois à une base de données un
thesaurus qui permet de préciser le vocabulaire utilisable pour interroger la base de données.
Remarque Le problème est parfois encore plus complexe. Par exemple si on veut parmi tous les clichés
aériens du site d’Alésia faits entre 1970 et 2000, retrouver ceux qui présentent une trace de mur de fortification.
Il faut soit être certain que toutes les traces visibles dans chaque cliché ont bien été annotées (par fortification,
circumvallation ou contravallation), soit aller chercher directement dans l’image les segments ou courbes qui
peuvent correspondre à une telle trace de mur de fortification. On parle alors de recherche par le contenu, et
non plus de recherche basée sur des mots-clés.
Exercice 4- Vocabulaire à connaître
Donnez les définitions de :
i) indexation
ii) mot-clé
iii) thesaurus
iv) synonyne, hyponyme, hyperonyme.
2
Exemple de construction de fond documentaire informatisé
Il est assez courant de constituer un fond documentaire informatisé à partir de documents papier (par exemple
des documents notariaux archivés sur plusieurs décennies, des textes anciens, des fiches papier associées à des
collections dans les musées). Ces documents doivent être numérisés : on appelle “acquisition” le passage du
document papier à un fichier utilisable. Nous allons voir un exemple d’acquisition pour des fiches descriptives
de vues aériennes de sites archéologiques.
2.1
Les fiches descriptives
Un exemple de fiches (accompagnant les vues aériennes du site d’Alésia) est donné en Figure 2. Ces fiches
contiennent les informations suivantes :
Le numéro de la photographie Ces numéros sont séquentiels de 001 à 139 pour notre échantillon.
La date de prise de vue Les dates sont données sous la forme jour-mois-année. Elles sont toutes du même
format et ne sont jamais omises.
La localisation du lieu photographié Cette localisation combine trois informations :
– la commune qui est indiquée soit par son nom (e.g., Alise ou Favigny), soit par une liste de noms propres
(pour les photographies à grand champ, e.g., Alise/Darcey/Flavigny/Grésigny),
– le lieu-dit qui est indiquée par son nom (e.g., Mont-Auxois),
– les coordonnées en Lambert IV qui sont données sous la forme
x :— / y :— / z :—.
Le commentaire qui est un texte donnant les informations nécessaires à l’utilisation de la photographie,
essentiellement une analyse du lieu photographié. Cette analyse peut contenir des éléments :
4
Fig. 2 – Exemples de fiche descriptive des sites archéologiques
– géologiques (e.g., plaine, plateau, escarpement),
– toponymiques (e.g., Mont-Auxois, col de Pennevelle),
– archéologiques (e.g., oppidum, camp "B", voie romaine),
– d’infra-structures modernes (e.g., gazoduc).
On trouve aussi –parfois– dans l’analyse, des informations sur la technique photographique utilisée (e.g.,
infra-rouge) ou sur les conditions climatiques ou de couvert végétal qui modifient la perception (e.g.,
“colza en fleurs”, “blé vert de mai”, “blé mûr”, “recherche sur neige fondante”, “traces spectaculaires liées à
la sécheresse de 1976”). La composition du commentaire varie sensiblement d’une photographie à l’autre
(le commentaire pouvant parfois être vide).
2.2
Etat des fiches à l’issue de la phase scanner-OCR
ALESIA - Photographie aérienne R. Goguey
2/24
PHOTOGRAPHIE nř007
(06-08-1993)
Commentaire
Com m une Alise / Flavigny / Grésigny /
Ménétreux / Vénarey
Lieu-dit Mont-Auxois
Coordonnées x : 763 / y : 2284,3 / z : 407
m
Perspective vers l’Ouest sur le Mont-Auxois et
la
plaine des Laumes.
PHOTOGRAPHIEnř008
(27-09-1981 )
Commentaire
Com m une Alise / Darcey / Flavigny / Grésigny
vers l’Est.
Coordonnées x : 763 / y : 2284,3 / z : 407
Le plateau du Mont-Auxois et la vallée de l’Ozerain
5
m
PHOTOGRAPHIE nř009
(28-04-1984)
Commentaire
Coordonnées x : 763 / y : 2284,3 / z : 407
m
Cadrage sur l’oppidum du Mont-Auxois de l’Est
à
l’Ouest.
PHOTOGRAPHIE nř 010
(08-07-1975)
Commentaire
Coordonnées x : 763 / y : 2284,3 / z : 407
m
L’oppidum avec ses falaises au Sud, la plaine
de
Grésigny au Nord.
Erre
ur!
Argu
ment
de
com
muta
teur
inco
nnu.
PHOTOGRAPHIEn-OH
(21-09-1988)
Commentaire
Commune Alise / Bussy /
Grésigny
Coordonnées x : 763 / y : 2284,3 / z : 407
m
L’oppidum du Mont-Auxois et le déplacement
de
l’habitat du plateau vers la pente.
2.3
Les fiches après première mise en forme
---------------------------------------------------------FICHE 2
---------------------------------------------------------numero : 007
date : 06-08-1993
commune : Alise / Flavigny / Grésigny /Ménétreux / Vénarey
lieu-dit : Mont-Auxois
6
coordonnees : x : 763 / y : 2284,3 / z : 407 m
commentaire : Perspective vers l’Ouest sur le Mont-Auxois et la plaine des Laumes.
FIN
numero : 008
date : 27-09-1981
commune : Alise / Darcey / Flavigny / Grésigny
commentaire : Le plateau du Mont-Auxois et la vallée de l’Ozerain vers l’Est.
FIN
numero : 009
date : 28-04-1984
commune : Alise / Flavigny / Grésigny / Ménétreux / Vénarey
commentaire : Cadrage sur l’oppidum du Mont-Auxois de l’Est à l’Ouest.
FIN
numero : 010
date : 08-07-1975
commune : Alise / Flavigny / Grésigny / Ménétreux / Vénarey
commentaire : L’oppidum avec ses falaises au Sud, la plaine de Grésigny au Nord.
FIN
numero : 010
date : 21-09-1988
commune : Alise / Bussy / Grésigny
commentaire : L’oppidum du Mont-Auxois et le déplacement de l’habitat du plateau vers la pente.
FIN
3
Notion de thesaurus
Un thesaurus est un vocabulaire de termes, structuré de manière à mettre en évidence les relations connues
entre concepts. On parle aussi de vocabulaire contrôlé. Un thesaurus n’est pas restreint aux besoins des outils
informatiques. Le thesaurus permet de standardiser la terminologie utilisée dans un domaine (i.e., le vocabulaire)
afin de rendre plus facile la tâche des documentalistes et scientifiques travaillant dans ce domaine. Le thesaurus
permet aussi de guider les constructeurs et les utilisateurs d’un fond documentaire informatisé, afin d’améliorer
la qualité des recherches.
Un thesaurus est généralement construit sur un sujet particulier (e.g., archéologie, architecture, pétrologie,
informatique). Il existe cependant des thesaurus plus ambitieux qui couvrent plusieurs domaines 4 . Un thesaurus
décrit des concepts et non des objets particuliers. Il ne contient donc pas de noms propres 5.
4 Par exemple le thesaurus de l’UNESCO [1] est présenté comme un vocabulaire contrôlé qui couvre les domaines de l’éducation,
des sciences, de la culture, du social et des sciences humaines, de l’information et de la communication, de la politique, du droit et
de l’économie.
5 Le thesaurus de l’UNESCO fait exception à cette règle : il comprend aussi des noms propres (pays, régions, groupes politiques,
ethniques, linguistiques et religieux).
7
3.1
Les bases de l’organisation d’un thesaurus
Le principe de fonctionnement du thesaurus est de regrouper les termes en familles d’équivalence. Chaque
famille d’équivalence regroupe les termes décrivant un même concept du monde réel. Ces termes peuvent être
équivalents soit par qu’ils correspondent à deux orthographes du même terme (en particulier en anglais avec les
variations "british english" et "american english"), parce qu’ils sont synonymes (par exemple oxygène et O2),
parce qu’ils sont considérés comme synonymes dans le domaine d’application du thesaurus même si de façon
générale ils sont différents (on parle alors de quasi-synonymes), parce que l’un est un cas particulier de l’autre
(par exemple acier et métal), etc.
A partir de ces familles d’équivalence, le thesaurus propose un terme préféré par famille. Les termes préférés
sont choisis car ils sont représentatifs d’un concept dans son entier. Les autres termes de la famille sont appelés
termes non préférés. Les termes non-préférés proposent un point de vue particulier sur le concept. Les termes
non préférés peuvent être des termes soit moins précis que le terme préféré, soit plus savant que le terme préféré.
Ils peuvent être des termes qui ne sont plus utilisés, des termes venant d’autres langues.
Exercice 5- Famille de termes
On considère les termes “réfrigérateur”, “frigidaire”, “frigo”, “armoire réfrigérée”, “salle froide” comme des quasiéquivalents.
i) Pour un thesaurus sur la vie quotidienne, proposer un terme préféré et indiquer le statut des termes non
préférés.
ii) Pour un thesaurus sur les métiers de l’agro-alimentaire, proposer un terme préféré et indiquer le statut des
termes non préférés.
4
Travail d’expert sur un thesaurus
En utilisant un des fonds documentaires donnés en exemple, vous devez construire (à la main) un thesaurus. L’objectif final est de donner, pour chacun des mots que vous choisissez d’inclure dans le thesaurus, les
informations suivantes :
– Le mot lui-même qui doit être un terme préféré.
– La liste des termes non préférés correspondants.
– Une liste de termes plus généraux.
– Une liste de termes plus particuliers.
– Eventuellement sa traduction en anglais (ou dans plusieurs autres langues).
– Une définition succinte.
– Le domaine général de connaissance auquel il appartient (à priori ici géologie).
– La liste des domaines d’intérêt auxquels il peut être lié (par exemple risques naturels).
– Des liens avec d’autres mots du thesaurus : est une partie de, est une cause de, est une conséquence de, etc.
Exercice 6- Choix des termes spécialisés
Il s’agit dans cet exercice de construire l’ensemble des termes qui vont être inclus dans le thesaurus.
i) Choisissez dans les textes suivants (sans utiliser nécessairement toutes les fiches) un ensemble de mots qui
vous semblent importants et pourraient devenir des termes du thesaurus.
ii) Regrouper ces mots en familles de mots ayant un sens similaires (ceci signifie que vous ne ferez pas de
différence entre les sens de ces mots : par exemple tsunami et vague sismique). Vous pouvez aussi ajouter à la
famille les “traductions” dans d’autres langues.
iii) Pour chaque famille de mots, choisir un représentant (le mot le plus courant dans le domaine spécialisé).
Ce sera le mot préféré. Les autres mots de la famille seront mis dans la liste des mots non préférés (ou dans les
traductions).
iv) Choisir une définition pour la famille de mots.
v) Fixer l’orthographe des mots (minuscules, majuscules, tirets, . . .).
8
Exercice 7- Les liens entre termes
i) Construire la liste des termes plus généraux que chacun des termes du thesaurus. Cette liste peut être vide.
ii) Construire la liste des termes plus particuliers que chacun des termes du thesaurus. Cette liste peut être
vide.
iii) Déterminer les liens de cause et de conséquence.
iv) Définir les domaines liés à ce terme.
Exercice 8- Réflexion
Sur les exemples que vous avez choisis (ou en utilisant d’autres exemples), proposez :
i) certains traitements qui pourraient être automatisés (calcul automatique de liens réciproques par exemple).
ii) certains calculs permettant d’évaluer la qualité du thesaurus que vous avez construit.
Références
[1] Unesco. Thesaurus de l’unesco. Available at URL : http ://www.ulcc.ac.uk/unesco/.

Initiation à l`informatique et à la programmation

Transcription

Documents pareils

patriboost - Thesaurus

Construction d`un prototype de base documentaire

THESAURUS lance les journées Consultations sans RDV

Point (Le) NÂ° 1798 - 01/03/2007 - 19

le bulletin d`adhésion

THESAURUS - v 1.2 - fr - Accueil

Travaux Pratiques II -15.09.09- Initiation `a Scratch

Belinea Belinea 10 17 15

FRANKREICH-ZENTRUM Cours de langue française Dr. Sophie

Manuels - Librairie Olivieri

Un exemple de paragraphe structuré - Site de Thierry Leterre

EAF - Le commentaire comparé

General bibliography of the GREgORI Project