Initiation à l`informatique et à la programmation
Transcription
Initiation à l`informatique et à la programmation
Initiation à l’informatique et à la programmation par un projet concret -Construction d’un prototype de base documentaire(Notion de base documentaire) Marie-Noëlle Terrasse, Joël Savelli, Eric Leclercq, Marinette Savonnet Département IEM, Université de Bourgogne 21 janvier 2005 1 Les fonds documentaires informatisés Les bases de données stockent de grosses quantités d’information (il y a beaucoup d’informations différentes et chaque information est volumineuse). Par exemple, dans un hôpital, les images produites par les examens faits aux patients, les commentaires de visites et d’examens, la gestion au jour le jour des patients . . .produisent chaque jour des volumes impressionnants d’information. Exercice 1- Volume des images numériques Une image est stockée sur un ordinateur sous la forme de valeurs numériques codées en binaire (chacune de ces valeurs étant associée à un point –pixel– de l’image : couleur, brillance, etc.). Le volume d’une image est le nombre de bits de son code binaire. Les unités utilisées en informatique sont le bit (valeur 0 ou 1), l’octet (1 octet c’est 8 bits), le kilo-octet (1 Ko c’est 1024 octets), le mega-octet (1 Mo c’est 1024 Ko soit 1024 2 = 1024 × 1024 octets), le giga-octet (1 Go c’est 1024 Mo soit 10243 octets), le tera-octet (1 To c’est 1024 Go soit 10244 Go)1 . Le nombre de bits est calculé en multipliant le nombre de pixels par le nombre de bits pour représenter un pixel. L’image étant vue comme une matrice de points, le nombre de pixels d’une image est le nombre de lignes multiplié par le nombre de colonnes. Le nombre de bits pour représenter un pixel est variable : - il faut par exemple 8 bits par pixel dans une image en 256 niveaux de gris, - 24 bits par pixel dans une image couleur RVB à 256 valeurs par composante 2 , - 1 bit par pixel pour une image binaire, etc. i) Soit une image couleur au format CIF (format de la TV numérique) dans lequel le nombre de pixels est de 576 lignes et 720 colonnes, il y a pour chaque pixel 3 composantes de volume 8 bits chacune. Quel est le volume d’une image dans ce format ? ii) Quel est le volume d’une vidéo couleur d’une heure au format CIF à raison de 25 images par seconde. Il faut pouvoir stocker de tels volumes d’information : ceci est surtout un problème de performance des ordinateurs. Il faut aussi pouvoir retrouver facilement l’image dont on a besoin au moment où on en a besoin, ceci suppose la mise en place d’un mécanisme sophistiqué : 1 Vous pouvez trouver les définitions à l’adresse http://www.teaser.fr/~spineau/acrodict/index.php et un convertisseur à l’adresse http://www.alaide.com/outils_convertoctet.php. 2 On appelle composante chacune des couleurs primaires utilisées pour définir la couleur (ici, rouge, vert, bleu). Chaque composante peut prendre 256 valeurs : on a donc par combinaison 2563 couleurs différentes soit de l’ordre 16 millions de couleurs. Pour stocker 256 valeurs, il faut un octet (8 bits). Au total il faut donc bien 3 × 8 bits pour stocker la couleur d’un pixel. 1 2 château, jardin, bassin renaissance Chambord, Loire Palais des ducs mairie Dijon, Bourgogne Fig. 1 – Exemples de photos avec des mots-clés – On choisit pour chaque information complexe un identifiant. Un identifiant est une information synthétique (généralement plus simple) qui suffit à distinguer cette information complexe de toutes les autres. Dans certains cas, il est facile de choisir un identifiant (par exemple le nom du patient, le numéro de sécurité sociale pour les personnes en France, l’ISBN pour les livres). Dans certains cas (comme pour les images ou le son par exemple), il plus difficile de choisir un identifiant qui convient. – On doit ensuite choisir comment “ranger les identifiants” (par exemple par ordre alphabétique ou alphanumérique). On appelle indexation le mécanisme de rangement qui permet de retrouver facilement une information à partir d’un identifiant de cette information ou d’une partie de cette information. On peut par exemple rechercher des personnes par leur numéro de sécurité sociale3 (qui est unique) ou par leur nom-prénom (qui n’est pas nécessairement unique). Pour pouvoir retrouver plus facilement des images (ou des textes) dans une base de données on associe à chaque image (ou à chaque texte) une liste de mots-clés qui constituent une sorte de résumé du texte (sa carte d’identité). Par exemple château et Chambord ou bien Palais des ducs et Dijon. Lorsque l’on recherche des informations, on donne une liste de mots-clés qui décrivent ce que l’on cherche. On extrait alors de la base de données les images (ou les textes) qui contiennent un ou plusieurs des mots-clés cherchés. La qualité des réponses à une telle question est satisfaisante si celui qui donne la liste de mots-clés utilise le même vocabulaire que celui qui a défini les mots-clés associés aux images ou aux textes. Par exemple, pour rechercher des informations sur une pierre semi-précieuse, un spécialiste de minéralogie parlera de quartz à système critallin hexagonal et de composition chimique SiO2 alors qu’un amateur de bijoux parlera d’oeil de tigre. Un amateur d’archéologie parlera de mur de fortification alors qu’un spécialiste d’Alésia parlera de mur de circumvallation ou de mur de contravallation. On peut trouver le même genre d’exemple avec les appelations techniques en informatique : ADSL, haut débit à 512 ou 1024 kbit/s, Asymmetric Digital Subscriber Line transmission technology, . . .. Exercice 2- Les recherches sur internet i) Comment recherche-t-on des informations sur internet ? ii) Qu’est-ce qu’un moteur de recherche ? iii) Pouvez-vous citer des moteurs de recherche accessibles sur internet ? iv) Vous cherchez sur internet des informations sur la destruction de Pompéi par le Vésuve. Comment faitesvous ? Exercice 3- Pompéi et le Vésuve 3 A noter : on peut techniquement choisir le numéro de sécurité comme identifiant mais légalement ceci est interdit (par la loi informatique et liberté). 3 Que pensez-vous des listes de mots-clés ci-dessous pour trouver des informations sur la destruction de Pompéi par le Vésuve : i) "Destruction de Pompéi par le Vésuve" ii) "Pompéi" iii) "Vésuve" iv) "éruption du Vésuve" v) "24 août 79" vi) "Vesuvio" Pour éviter ce genre de problème (ou en limiter les effets négatifs), on associe parfois à une base de données un thesaurus qui permet de préciser le vocabulaire utilisable pour interroger la base de données. Remarque Le problème est parfois encore plus complexe. Par exemple si on veut parmi tous les clichés aériens du site d’Alésia faits entre 1970 et 2000, retrouver ceux qui présentent une trace de mur de fortification. Il faut soit être certain que toutes les traces visibles dans chaque cliché ont bien été annotées (par fortification, circumvallation ou contravallation), soit aller chercher directement dans l’image les segments ou courbes qui peuvent correspondre à une telle trace de mur de fortification. On parle alors de recherche par le contenu, et non plus de recherche basée sur des mots-clés. Exercice 4- Vocabulaire à connaître Donnez les définitions de : i) indexation ii) mot-clé iii) thesaurus iv) synonyne, hyponyme, hyperonyme. 2 Exemple de construction de fond documentaire informatisé Il est assez courant de constituer un fond documentaire informatisé à partir de documents papier (par exemple des documents notariaux archivés sur plusieurs décennies, des textes anciens, des fiches papier associées à des collections dans les musées). Ces documents doivent être numérisés : on appelle “acquisition” le passage du document papier à un fichier utilisable. Nous allons voir un exemple d’acquisition pour des fiches descriptives de vues aériennes de sites archéologiques. 2.1 Les fiches descriptives Un exemple de fiches (accompagnant les vues aériennes du site d’Alésia) est donné en Figure 2. Ces fiches contiennent les informations suivantes : Le numéro de la photographie Ces numéros sont séquentiels de 001 à 139 pour notre échantillon. La date de prise de vue Les dates sont données sous la forme jour-mois-année. Elles sont toutes du même format et ne sont jamais omises. La localisation du lieu photographié Cette localisation combine trois informations : – la commune qui est indiquée soit par son nom (e.g., Alise ou Favigny), soit par une liste de noms propres (pour les photographies à grand champ, e.g., Alise/Darcey/Flavigny/Grésigny), – le lieu-dit qui est indiquée par son nom (e.g., Mont-Auxois), – les coordonnées en Lambert IV qui sont données sous la forme x :— / y :— / z :—. Le commentaire qui est un texte donnant les informations nécessaires à l’utilisation de la photographie, essentiellement une analyse du lieu photographié. Cette analyse peut contenir des éléments : 4 Fig. 2 – Exemples de fiche descriptive des sites archéologiques – géologiques (e.g., plaine, plateau, escarpement), – toponymiques (e.g., Mont-Auxois, col de Pennevelle), – archéologiques (e.g., oppidum, camp "B", voie romaine), – d’infra-structures modernes (e.g., gazoduc). On trouve aussi –parfois– dans l’analyse, des informations sur la technique photographique utilisée (e.g., infra-rouge) ou sur les conditions climatiques ou de couvert végétal qui modifient la perception (e.g., “colza en fleurs”, “blé vert de mai”, “blé mûr”, “recherche sur neige fondante”, “traces spectaculaires liées à la sécheresse de 1976”). La composition du commentaire varie sensiblement d’une photographie à l’autre (le commentaire pouvant parfois être vide). 2.2 Etat des fiches à l’issue de la phase scanner-OCR ALESIA - Photographie aérienne R. Goguey 2/24 PHOTOGRAPHIE nř007 (06-08-1993) Commentaire Com m une Alise / Flavigny / Grésigny / Ménétreux / Vénarey Lieu-dit Mont-Auxois Coordonnées x : 763 / y : 2284,3 / z : 407 m Perspective vers l’Ouest sur le Mont-Auxois et la plaine des Laumes. PHOTOGRAPHIEnř008 (27-09-1981 ) Commentaire Com m une Alise / Darcey / Flavigny / Grésigny vers l’Est. Lieu-dit Mont-Auxois Coordonnées x : 763 / y : 2284,3 / z : 407 Le plateau du Mont-Auxois et la vallée de l’Ozerain 5 m PHOTOGRAPHIE nř009 (28-04-1984) Commentaire Com m une Alise / Flavigny / Grésigny / Ménétreux / Vénarey Lieu-dit Mont-Auxois Coordonnées x : 763 / y : 2284,3 / z : 407 m Cadrage sur l’oppidum du Mont-Auxois de l’Est à l’Ouest. PHOTOGRAPHIE nř 010 (08-07-1975) Commentaire Com m une Alise / Flavigny / Grésigny / Ménétreux / Vénarey Lieu-dit Mont-Auxois Coordonnées x : 763 / y : 2284,3 / z : 407 m L’oppidum avec ses falaises au Sud, la plaine de Grésigny au Nord. Erre ur! Argu ment de com muta teur inco nnu. PHOTOGRAPHIEn-OH (21-09-1988) Commentaire Commune Alise / Bussy / Grésigny Lieu-dit Mont-Auxois Coordonnées x : 763 / y : 2284,3 / z : 407 m L’oppidum du Mont-Auxois et le déplacement de l’habitat du plateau vers la pente. 2.3 Les fiches après première mise en forme ---------------------------------------------------------FICHE 2 ---------------------------------------------------------numero : 007 date : 06-08-1993 commune : Alise / Flavigny / Grésigny /Ménétreux / Vénarey lieu-dit : Mont-Auxois 6 coordonnees : x : 763 / y : 2284,3 / z : 407 m commentaire : Perspective vers l’Ouest sur le Mont-Auxois et la plaine des Laumes. FIN numero : 008 date : 27-09-1981 commune : Alise / Darcey / Flavigny / Grésigny lieu-dit : Mont-Auxois coordonnees : x : 763 / y : 2284,3 / z : 407 m commentaire : Le plateau du Mont-Auxois et la vallée de l’Ozerain vers l’Est. FIN numero : 009 date : 28-04-1984 commune : Alise / Flavigny / Grésigny / Ménétreux / Vénarey lieu-dit : Mont-Auxois coordonnees : x : 763 / y : 2284,3 / z : 407 m commentaire : Cadrage sur l’oppidum du Mont-Auxois de l’Est à l’Ouest. FIN numero : 010 date : 08-07-1975 commune : Alise / Flavigny / Grésigny / Ménétreux / Vénarey lieu-dit : Mont-Auxois coordonnees : x : 763 / y : 2284,3 / z : 407 m commentaire : L’oppidum avec ses falaises au Sud, la plaine de Grésigny au Nord. FIN numero : 010 date : 21-09-1988 commune : Alise / Bussy / Grésigny lieu-dit : Mont-Auxois coordonnees : x : 763 / y : 2284,3 / z : 407 m commentaire : L’oppidum du Mont-Auxois et le déplacement de l’habitat du plateau vers la pente. FIN 3 Notion de thesaurus Un thesaurus est un vocabulaire de termes, structuré de manière à mettre en évidence les relations connues entre concepts. On parle aussi de vocabulaire contrôlé. Un thesaurus n’est pas restreint aux besoins des outils informatiques. Le thesaurus permet de standardiser la terminologie utilisée dans un domaine (i.e., le vocabulaire) afin de rendre plus facile la tâche des documentalistes et scientifiques travaillant dans ce domaine. Le thesaurus permet aussi de guider les constructeurs et les utilisateurs d’un fond documentaire informatisé, afin d’améliorer la qualité des recherches. Un thesaurus est généralement construit sur un sujet particulier (e.g., archéologie, architecture, pétrologie, informatique). Il existe cependant des thesaurus plus ambitieux qui couvrent plusieurs domaines 4 . Un thesaurus décrit des concepts et non des objets particuliers. Il ne contient donc pas de noms propres 5. 4 Par exemple le thesaurus de l’UNESCO [1] est présenté comme un vocabulaire contrôlé qui couvre les domaines de l’éducation, des sciences, de la culture, du social et des sciences humaines, de l’information et de la communication, de la politique, du droit et de l’économie. 5 Le thesaurus de l’UNESCO fait exception à cette règle : il comprend aussi des noms propres (pays, régions, groupes politiques, ethniques, linguistiques et religieux). 7 3.1 Les bases de l’organisation d’un thesaurus Le principe de fonctionnement du thesaurus est de regrouper les termes en familles d’équivalence. Chaque famille d’équivalence regroupe les termes décrivant un même concept du monde réel. Ces termes peuvent être équivalents soit par qu’ils correspondent à deux orthographes du même terme (en particulier en anglais avec les variations "british english" et "american english"), parce qu’ils sont synonymes (par exemple oxygène et O2), parce qu’ils sont considérés comme synonymes dans le domaine d’application du thesaurus même si de façon générale ils sont différents (on parle alors de quasi-synonymes), parce que l’un est un cas particulier de l’autre (par exemple acier et métal), etc. A partir de ces familles d’équivalence, le thesaurus propose un terme préféré par famille. Les termes préférés sont choisis car ils sont représentatifs d’un concept dans son entier. Les autres termes de la famille sont appelés termes non préférés. Les termes non-préférés proposent un point de vue particulier sur le concept. Les termes non préférés peuvent être des termes soit moins précis que le terme préféré, soit plus savant que le terme préféré. Ils peuvent être des termes qui ne sont plus utilisés, des termes venant d’autres langues. Exercice 5- Famille de termes On considère les termes “réfrigérateur”, “frigidaire”, “frigo”, “armoire réfrigérée”, “salle froide” comme des quasiéquivalents. i) Pour un thesaurus sur la vie quotidienne, proposer un terme préféré et indiquer le statut des termes non préférés. ii) Pour un thesaurus sur les métiers de l’agro-alimentaire, proposer un terme préféré et indiquer le statut des termes non préférés. 4 Travail d’expert sur un thesaurus En utilisant un des fonds documentaires donnés en exemple, vous devez construire (à la main) un thesaurus. L’objectif final est de donner, pour chacun des mots que vous choisissez d’inclure dans le thesaurus, les informations suivantes : – Le mot lui-même qui doit être un terme préféré. – La liste des termes non préférés correspondants. – Une liste de termes plus généraux. – Une liste de termes plus particuliers. – Eventuellement sa traduction en anglais (ou dans plusieurs autres langues). – Une définition succinte. – Le domaine général de connaissance auquel il appartient (à priori ici géologie). – La liste des domaines d’intérêt auxquels il peut être lié (par exemple risques naturels). – Des liens avec d’autres mots du thesaurus : est une partie de, est une cause de, est une conséquence de, etc. Exercice 6- Choix des termes spécialisés Il s’agit dans cet exercice de construire l’ensemble des termes qui vont être inclus dans le thesaurus. i) Choisissez dans les textes suivants (sans utiliser nécessairement toutes les fiches) un ensemble de mots qui vous semblent importants et pourraient devenir des termes du thesaurus. ii) Regrouper ces mots en familles de mots ayant un sens similaires (ceci signifie que vous ne ferez pas de différence entre les sens de ces mots : par exemple tsunami et vague sismique). Vous pouvez aussi ajouter à la famille les “traductions” dans d’autres langues. iii) Pour chaque famille de mots, choisir un représentant (le mot le plus courant dans le domaine spécialisé). Ce sera le mot préféré. Les autres mots de la famille seront mis dans la liste des mots non préférés (ou dans les traductions). iv) Choisir une définition pour la famille de mots. v) Fixer l’orthographe des mots (minuscules, majuscules, tirets, . . .). 8 Exercice 7- Les liens entre termes i) Construire la liste des termes plus généraux que chacun des termes du thesaurus. Cette liste peut être vide. ii) Construire la liste des termes plus particuliers que chacun des termes du thesaurus. Cette liste peut être vide. iii) Déterminer les liens de cause et de conséquence. iv) Définir les domaines liés à ce terme. Exercice 8- Réflexion Sur les exemples que vous avez choisis (ou en utilisant d’autres exemples), proposez : i) certains traitements qui pourraient être automatisés (calcul automatique de liens réciproques par exemple). ii) certains calculs permettant d’évaluer la qualité du thesaurus que vous avez construit. Références [1] Unesco. Thesaurus de l’unesco. Available at URL : http ://www.ulcc.ac.uk/unesco/.