Introduction aux BD
Transcription
Introduction aux BD
Introduction aux BD Introduction aux BD enjeux de la matière objectifs de la partie I histoire définition 1 definion 2 : par les objectifs d'un Système d'Information Le champ d'application Les méthodologies de conception de BD retour aux modèles enjeux de la matière Information: ressource de l'entreprise Histoire - Actualité - Devenir Analyse et contrôle des informations Diminuer l'incertitude des processus de décision La place du gestionnaire Décider avec l'information Contrôler avec l'information Modifier l'organisation - communication des informations - capture de l'information - traitement de l'information Intervenir dans la spécification du SI - fixant objectifs - schéma directeur informatique - validant les systèmes mis en place objectifs de la partie BD La BD <-> Entreprise introduction aux BD champ d'application spécification Lecture de schéma de BD rappel mathématique définition de la relation modélisation des données Interrogation des données Algèbre relationnelle langage SQL histoire: trier, compter Recencement américain 1890 (63 mio) 1 personnes = plusieurs cartes perforées 1 critères = plusieurs colonnes (1mia de trous) => machine électro-mécanique trier + compter répondre à des questions - enfants nés, vivants, famille parlant anglais => utiliser jusqu'en 1960 (mécanographie) Lien Histoire des techniques de l'information Histoire des techniques de gestion histoire: les imprimantes, les bandes premières machines EDVAC, ENIAC, ...(1944, ) peu de données, beaucoup de calcul, peu de résultats => machine scientifique première machine commercialisée UNIVAC 1 (1951, ..) peu de données, beaucoup de calcul, peu de résultats => machine de gestion imprimante à haut débit lecteur de bande magnétique Univac 1 = 12000 char centrale + 10 dérouleurs bandes (200 dérouleurs bandes- BIZMAC de RCA année 50) Langage de programation Flow-matic (1955) -> Cobol (1960) description des données séparée des instructions histoire: approche par les fichiers création de fichiers spécifiques à des programmes: définition du fichier dans le programme interprétation du fichier exige le programme maintenance coûteuse car il s'agit d'un programme structure des données dépend de l'analyse des traitements partage difficile entre applications duplification de l'information (plusieurs vues des mêmes données) assembleur fichiers ------------------------indépend. physique-------------langage prog histoire des standarts caractères = EBCDIC & ASCII langage de prog = COBOL Base de données = SQL B.D concept de base de données: par une définition une définition "Une base de données est un ensemble structuré de données enregistrées sur des supports accessibles par l'ordinateur pour satisfaire simultanément plusieurs utilisateurs de façon sélective et en un temps opportun" Dans: Bases de données et systèmes relationnels, C. Delobel et M. Adiba, Dunod 1982. Les données Les données de la BD représentent des faits, des activités ou des événements de l'entreprise. La BD doit être considérée comme la mémoire de l'entreprise. De ce fait, le contenu de la BD doit être: - pertinent (données utiles) - fiable (données cohérentes et justes) - utilisable (accessible aux traitements) La structure Les objets mémorisés dans la BD possèdent des propriétés communes, permettant ainsi de les regrouper par type d'objet. La structure de la BD est le "plan" qui permettra d'interpréter les données stockées. La gestion de la base de données se fait par rapport à cette structure. Les supports La base de données peut comporter quelques milliers de caractères pour une petite base sur microordinateur, donc elle peut être stockée sur disquette ou elle est constituée de plusieurs milliards de caractères et elle doit être stockée sur des unités de disques d'un "gros" ordinateur. Malgré les différences de tailles, les techniques et les concepts utilisés sont similaires. Les utilisateurs Les données mémorisées sont appelées à être utilisées par différents services de l'entreprise, avec des utilisateurs appartenant principalement à trois catégories: - Les informaticiens; gérant la BD, concevant les nouvelles applications. - Les utilisateurs "avertis"; sachant faire des requêtes d'interrogation pour leurs propres besoins qui ne sont pas spécifiables (les gestionnaires). - Les utilisateurs "naïfs"; dont la tâche est entièrement spécifiable (répétitive),saisie de l'information. La sélectivité La BD est surtout utilisée en interrogation, le langage d'interrogation est donc un élément essentiel du système, il doit être: - facile à apprendre (pour les utilisateurs avertis) - masquer la structure physique de la base de données (Index, paramètres, ...) - avoir une sémantique claire (comprendre le sens de la question et de la réponse) L'opportunité On entend par là que si l'information existe dans la BD, alors on peut l'obtenir dans un délai raisonnable (court si l'on travaille de manière interactive (guichet de banque) ou à temps (pour prendre une décision)) definion 2 : par les objectifs d'un Système d'Information Les objectifs de l'organisation La conception d'une application BD est une opération demandant des ressources financières (achat des ordinateurs, logiciel de gestion de BD, ...) ainsi que des ressources humaines (concepteur, programmeur, opératrices de saisie, ...), il est donc important que l'organisation examine les avantages qu'elle doit en retirer. Les arguments suivants peuvent motiver l'organisation: - simplifier une tâche de l'entreprise (gestion du stock) - augmenter la qualité d'un service (réservation pour un hôtel) - permettre une meilleure prise de décision (gestion de portefeuilles) - rentabiliser les ressources matérielles et humaines (entreprise de déménagement) En résumé, la BD doit conserver les données stratégiques de l'entreprise pour que l'on puisse les utiliser d'une manière optimale. Les objectifs de l'entreprise peuvent s'échelonner en plusieurs étapes ou bien évoluer dans le temps, d'où l'importance d'une conception et d'un système de gestion de base de données (SGBD) autorisant les évolutions et les modifications. Le champ d'application Les objectifs de l'organisation délimitent un champ d'application dans la réalité dont la BD est le reflet (méthode: Schéma directeur). Ses éléments sont: - les traitements à effectuer - les requêtes d'interrogation à exécuter - les données nécessaires à mémoriser - les règles d'intégrité à respecter réalité frontière du champ d'application HOTEL SERVICE ETAGE COMPTA BILITTE RESERVATION CUISINE PERSONNEL MENU,QTE, ... Les traitements Les traitements de l'application sont définis par toutes les modifications envisagées sur les données de la BD. Trois types d'actions sont possibles: - La création; un "objet" nouveau apparaît dans la réalité et celui-ci est dans le champ d'application, donc il doit être enregistré dans la base de données (un nouveau client) - La mise à jour; un "objet" déjà enregistré dans la BD se modifie et ceci doit être reporté dans la BD (changement dans la quantité stockée d'un article) - La destruction; un "objet" enregistré dans la BD sort du champ d'application et doit donc être éliminé de la BD (changement d'année comptable, un salarié quitte l'entreprise) réalité destruction mise à jour création champ d'application En résumé, les traitements permettent de modifier la BD pour tenir compte des changements intervenant dans la réalité du champ d'application. Les interrogations Il s'agit d'identifier les besoins de chaque utilisateur devant utiliser la BD, en se posant les questions suivantes: - Quelles sont les informations de la BD nécessaires à l'accomplissement de la tâche de cet utilisateur (le magasinier, la réceptionniste de l'hôtel)? - Quelle est la fréquence de ces questions, le temps de réponse exigé? Le couple (100 req/jour, 15 secondes) sera examiné différemment de celui (1 req/mois, dans la matinée). - Qui peut examiner et modifier les informations? Ce point concerne le degré de confidentialité et de sécurité de chaque information. Les données Les données à mémoriser dans la BD sont celles définies par le champ d'application. Les traitements les créent, les mettent à jour et les détruisent. Les requêtes d'interrogation les utilisent en lecture pour répondre aux utilisateurs. La sélection des données Nous avons vu que c'est dans le cadre de la définition du champ d'application qu'elle s'effectue. Le choix des propriétés à enregistrer dans la BD doit être nécessaire et suffisant pour exécuter les traitements et répondre aux requêtes d'interrogation: nécessaire: à court terme, pour être aussi efficace que le système remplacé et à moyen terme, pour répondre à de nouvelles questions (que l'on évite de se poser car dans un système manuel, elles sont trop onéreuses). suffisant: pour éviter de mémoriser des informations qui seront peu ou pas utilisées. Pour une personne, nous pouvons la définir par exemple: nom, prénom, taille, profession, adresse, numéro de téléphone, revenu, poids, appartenance politique, sports pratiqués, état civil, nombre d'enfants, .... Chacune de ces propriétés a un sens dans un contexte bien défini, par contre elles sont inutiles dans un autre. Chaque information (comptée en caractères) a un prix calculé avec les coûts suivants: coût de saisie (opératrice, poste de saisie) coût de stockage (disques, bandes d'archivage) coût de manipulation (taille ordinateur ...) Les règles d'intégrité Les règles d'intégrité reflètent les règlements de l'organisation, le "bon sens" de la réalité. On peut les exprimer: sur les données; le fait que la BD respecte les règles d'intégrité permet d'assurer une certaine cohérence des données, donc assure aux utilisateur des informations de qualité (Une chambre n'est réservée qu'une fois, les quantités du stock sont positives, les clients ont plus de 18 ans, ...) sur les traitements; ici ils s'agit d'exprimer l'ordre dans lequel doivent s'effectuer les modifications de la BD. Les méthodologies de conception de BD Nous pouvons constater que les principaux éléments cités sont interdépendants. De plus, dans un approche classique, chaque élément doit traverser plusieurs étapes dans le processus de conception. 1) Analyse des besoins: par rapport aux objectifs de l'organisation (Vers Où ?) 2) Spécification: une description précise de chaque élément (Quoi ? Comment organisationnel ?) 3) Conception Informatique: une description de l'ensemble du système en termes informatiques 4) Codage: chaque élément est "codé" dans le langage supportant la gestion de la BD 5) Test 6) Maintenance Pour assister l'équipe de conception, il existe des méthodologies et des outils informatiques (UML, MERISE, IDA, USE, MTG, ...). Ceux-ci permettent de guider la conception et de construire des prototypes. retour aux modèles: les fichiers Le fichier (1950-..); c'est l'organisation la plus simple (et encore la plus utilisée). Les données d'un même objet sont définies par un enregistrement physique, l'ensemble des enregistrements physiques constitue le fichier. La description de l'enregistrement est implicite et elle est codée dans les programmes qui utilisent le fichier. Si l'on modifie la structure du fichier, on est donc obligé de modifier les programmes. Les systèmes de base de données contournent cet inconvénient majeur en rendant explicite la structure des données, rendant ainsi indépendants les programmes de la représentation physique. Les SGBD possèdent donc tous une description explicite de la structure de donnée, mais il existe plusieurs façon de décrire les liens existant entre les objets du champ d'application; on parle alors de modèle de données. modèle hiérarchique modèle hiérarchique (1965-..); dans ce modèle les liens existant entre les objets sont strictement arborescent. DEPARTEMENT NODPT, NOMDPT EMPLOYE NOEMP, NOMEMP, DATE-EMB PROJET NOPJ, NOMPJ,RESP-PJ SALAIRE ANNEE, SAL Dans l'exemple, on remarquera que si une feuille de l'arbre doit être utilisée dans une autre arborescence il faudra la duplifier. IMS est un SGBD hiérarchique. modèle réseau modèle réseau (1965-..); ce modèle est une extension du modèle précédent, les liens entre objets peuvent exister sans restriction. DEPARTEMENT NODPT, NOMDPT EMPLOYE NOEMP, NOMEMP, DATE-EMB SALAIRE ANNEE, SAL PROJET NOPJ, NOMPJ,RESP-PJ EMP-PROJET NOPJ, NOEMP, DUREE Pour retrouver une donnée dans une telle modélisation, il faut connaître le chemin d'accès (les liens), ceci rend encore les programmes dépendants de la structure de données. IDMS, TOTAL, MDBS-III sont des SGBD de ce type. modèle relationnel le modèle relationnel (1970-..); Ce modèle est basé sur la notion de relation. Une relation est un ensemble de nuplet (n est fixe) qui correspondent chacun à une propriété de l'objet à décrire. DEPARTEMENT NODPT NOMDPT 45 PROJET NOPJ NOMPJ RESP-PJ NODPT gestion EMPLOYE NOEMP NOMEMP DATE-EMB NO DPT EMP-PROJET NOPJ NOEMP DUREE DEPARTEMENT, PROJET, EMPLOYE, EMP-PROJET sont des relations. Les lignes dessinées en pointillé sont les liens entre les relations, mais ici il n'est plus nécessaire de décrire explicitement les liens, les chemins d'accès sont indépendants de la modélisation. INGRES, ORACLE, RDB, DB2, SYBASE sont des SGBD relationnels. C'est dans ce modèle que nous allons travailler. Système d'exécution et d'interconnexion CO AX FI BR ES PC M AC ... SU N HP IB M DE C x /n et IP P/ ec D TC ... M SDO S O SM AC M VS VM S ni U 2 es as ph ur ite on M ... it m m co s an Tr se ba Sy e cl ra O es gr In n de n io at Système d'exploitation et de communication Noyau SGBD et intégrité transactionnelle u) en (m g tin ip cr -S ... E D gr té in D ra s n pp s or ta ts bl ea u gr x de ap hi bor qu d es ra éc io at ér én G m an k SD SS EI de s ur at Pr ion od uc tio Ac n Ad ha m ts in is tra tio n Fi na nc e ... s ct Fa om C oc St Em eu ul at rs M o X- tif W in W dow in do w 3. Fi nd .. er te rm in al 24 X8 ... 0 Niveaux conceptuels Niveaux conceptuels du SI Interface utilisateur Applications Outils de développement Distribution des BD DONNEES Serveur Finances DONNEES Serveur Production - Achat DONNEES PTT Serveur Serveur DONNEES DONNEES PTT PTT Serveur DONNEES PTT Serveur unités de vente - stockage délocalisée