Introduction aux BD

Transcription

Introduction aux BD
Introduction aux BD
Introduction aux BD
enjeux de la matière
objectifs de la partie I
histoire
définition 1
definion 2 : par les objectifs d'un Système
d'Information
Le champ d'application
Les méthodologies de conception de BD
retour aux modèles
enjeux de la matière
Information: ressource de l'entreprise
Histoire - Actualité - Devenir
Analyse et contrôle des informations
Diminuer l'incertitude des processus de décision
La place du gestionnaire
Décider avec l'information
Contrôler avec l'information
Modifier l'organisation
- communication des informations
- capture de l'information
- traitement de l'information
Intervenir dans la spécification du SI
- fixant objectifs
- schéma directeur informatique
- validant les systèmes mis en place
objectifs de la partie BD
La BD <-> Entreprise
introduction aux BD
champ d'application
spécification
Lecture de schéma de BD
rappel mathématique
définition de la relation
modélisation des données
Interrogation des données
Algèbre relationnelle
langage SQL
histoire: trier, compter
Recencement américain 1890 (63 mio)
1 personnes = plusieurs cartes perforées
1 critères = plusieurs colonnes (1mia de trous)
=> machine électro-mécanique
trier + compter
répondre à des questions
- enfants nés, vivants, famille parlant anglais
=> utiliser jusqu'en 1960 (mécanographie)
Lien
Histoire des techniques de l'information
Histoire des techniques de gestion
histoire: les imprimantes, les bandes
premières machines EDVAC, ENIAC, ...(1944, )
peu de données,
beaucoup de calcul,
peu de résultats
=> machine scientifique
première machine commercialisée UNIVAC 1 (1951, ..)
peu de données,
beaucoup de calcul,
peu de résultats
=> machine de gestion
imprimante à haut débit
lecteur de bande magnétique
Univac 1 = 12000 char centrale + 10 dérouleurs
bandes
(200 dérouleurs bandes- BIZMAC de RCA
année 50)
Langage de programation
Flow-matic (1955) -> Cobol (1960)
description des données séparée des instructions
histoire: approche par les fichiers
création de fichiers spécifiques à des programmes:
définition du fichier dans le programme
interprétation du fichier exige le programme
maintenance coûteuse car il s'agit d'un programme
structure des données dépend de l'analyse des
traitements
partage difficile entre applications
duplification de l'information (plusieurs vues des mêmes
données)
assembleur
fichiers
------------------------indépend. physique-------------langage prog
histoire des standarts
caractères = EBCDIC & ASCII
langage de prog = COBOL
Base de données = SQL
B.D
concept de base de données: par
une définition
une définition
"Une base de données est un ensemble structuré de données enregistrées sur des supports accessibles par
l'ordinateur pour satisfaire simultanément plusieurs
utilisateurs de façon sélective et en un temps opportun"
Dans: Bases de données et systèmes relationnels, C.
Delobel et M. Adiba, Dunod 1982.
Les données
Les données de la BD représentent des faits, des activités ou des événements de l'entreprise. La BD doit être
considérée comme la mémoire de l'entreprise. De ce fait,
le contenu de la BD doit être:
- pertinent (données utiles)
- fiable (données cohérentes et justes)
- utilisable (accessible aux traitements)
La structure
Les objets mémorisés dans la BD possèdent des propriétés communes, permettant ainsi de les regrouper par
type d'objet. La structure de la BD est le "plan" qui permettra d'interpréter les données stockées. La gestion de
la base de données se fait par rapport à cette structure.
Les supports
La base de données peut comporter quelques
milliers de caractères pour une petite base sur microordinateur, donc elle peut être stockée sur disquette ou
elle est constituée de plusieurs milliards de caractères et
elle doit être stockée sur des unités de disques d'un
"gros" ordinateur. Malgré les différences de tailles, les
techniques et les concepts utilisés sont similaires.
Les utilisateurs
Les données mémorisées sont appelées à être utilisées
par différents services de l'entreprise, avec des
utilisateurs appartenant principalement à trois catégories:
- Les informaticiens; gérant la BD, concevant les
nouvelles applications.
- Les utilisateurs "avertis"; sachant faire des requêtes
d'interrogation pour leurs propres besoins qui ne
sont pas spécifiables (les gestionnaires).
- Les utilisateurs "naïfs"; dont la tâche est entièrement
spécifiable (répétitive),saisie de l'information.
La sélectivité
La BD est surtout utilisée en interrogation, le langage
d'interrogation est donc un élément essentiel du système,
il doit être:
- facile à apprendre (pour les utilisateurs avertis)
- masquer la structure physique de la base de
données (Index, paramètres, ...)
- avoir une sémantique claire (comprendre le sens de
la question et de la réponse)
L'opportunité
On entend par là que si l'information existe dans la BD,
alors on peut l'obtenir dans un délai raisonnable (court si
l'on travaille de manière interactive (guichet de banque)
ou à temps (pour prendre une décision))
definion 2 : par les objectifs d'un
Système d'Information
Les objectifs de l'organisation
La conception d'une application BD est une opération
demandant des ressources financières (achat des ordinateurs, logiciel de gestion de BD, ...) ainsi que des
ressources humaines (concepteur, programmeur, opératrices de saisie, ...), il est donc important que
l'organisation examine les avantages qu'elle doit en retirer. Les arguments suivants peuvent motiver
l'organisation:
- simplifier une tâche de l'entreprise (gestion du stock)
- augmenter la qualité d'un service (réservation pour
un hôtel)
- permettre une meilleure prise de décision (gestion
de portefeuilles)
- rentabiliser les ressources matérielles et humaines
(entreprise de déménagement)
En résumé, la BD doit conserver les données
stratégiques de l'entreprise pour que l'on puisse les
utiliser d'une manière optimale. Les objectifs de
l'entreprise peuvent s'échelonner en plusieurs étapes ou
bien évoluer dans le temps, d'où l'importance d'une
conception et d'un système de gestion de base de
données (SGBD) autorisant les évolutions et les
modifications.
Le champ d'application
Les objectifs de l'organisation délimitent un champ
d'application dans la réalité dont la BD est le reflet
(méthode: Schéma directeur). Ses éléments sont:
- les traitements à effectuer
- les requêtes d'interrogation à exécuter
- les données nécessaires à mémoriser
- les règles d'intégrité à respecter
réalité
frontière du champ
d'application
HOTEL
SERVICE
ETAGE
COMPTA
BILITTE
RESERVATION
CUISINE
PERSONNEL
MENU,QTE, ...
Les traitements
Les traitements de l'application sont définis par toutes les
modifications envisagées sur les données de la BD. Trois
types d'actions sont possibles:
- La création; un "objet" nouveau apparaît dans la
réalité et celui-ci est dans le champ d'application,
donc il doit être enregistré dans la base de données
(un nouveau client)
- La mise à jour; un "objet" déjà enregistré dans la
BD se modifie et ceci doit être reporté dans la BD
(changement dans la quantité stockée d'un article)
- La destruction; un "objet" enregistré dans la BD
sort du champ d'application et doit donc être éliminé
de la BD (changement d'année comptable, un
salarié quitte l'entreprise)
réalité
destruction
mise à jour
création
champ
d'application
En résumé, les traitements permettent de modifier la BD
pour tenir compte des changements intervenant dans la
réalité du champ d'application.
Les interrogations
Il s'agit d'identifier les besoins de chaque utilisateur devant utiliser la BD, en se posant les questions suivantes:
- Quelles sont les informations de la BD nécessaires
à l'accomplissement de la tâche de cet utilisateur (le
magasinier, la réceptionniste de l'hôtel)?
- Quelle est la fréquence de ces questions, le temps
de réponse exigé? Le couple (100 req/jour, 15 secondes) sera examiné différemment de celui (1
req/mois, dans la matinée).
- Qui peut examiner et modifier les informations? Ce
point concerne le degré de confidentialité et de sécurité de chaque information.
Les données
Les données à mémoriser dans la BD sont celles définies
par le champ d'application. Les traitements les créent, les
mettent à jour et les détruisent. Les requêtes
d'interrogation les utilisent en lecture pour répondre aux
utilisateurs.
La sélection des données
Nous avons vu que c'est dans le cadre de la définition du
champ d'application qu'elle s'effectue. Le choix des propriétés à enregistrer dans la BD doit être nécessaire et
suffisant pour exécuter les traitements et répondre aux requêtes d'interrogation:
nécessaire: à court terme, pour être aussi efficace que le
système remplacé et à moyen terme, pour répondre à de
nouvelles questions (que l'on évite de se poser car dans
un système manuel, elles sont trop onéreuses).
suffisant: pour éviter de mémoriser des informations qui
seront peu ou pas utilisées.
Pour une personne, nous pouvons la définir par exemple:
nom, prénom, taille, profession, adresse, numéro de téléphone, revenu, poids, appartenance politique, sports pratiqués, état civil, nombre d'enfants, ....
Chacune de ces propriétés a un sens dans un contexte
bien défini, par contre elles sont inutiles dans un autre.
Chaque information (comptée en caractères) a un prix
calculé avec les coûts suivants:
coût de saisie (opératrice, poste de saisie)
coût de stockage (disques, bandes d'archivage)
coût de manipulation (taille ordinateur ...)
Les règles d'intégrité
Les règles d'intégrité reflètent les règlements de
l'organisation, le "bon sens" de la réalité. On peut les
exprimer:
sur les données; le fait que la BD respecte les
règles d'intégrité permet d'assurer une certaine
cohérence des données, donc assure aux utilisateur
des informations de qualité (Une chambre n'est
réservée qu'une fois, les quantités du stock sont
positives, les clients ont plus de 18 ans, ...)
sur les traitements; ici ils s'agit d'exprimer l'ordre
dans lequel doivent s'effectuer les modifications de
la BD.
Les méthodologies de conception de
BD
Nous pouvons constater que les principaux éléments
cités sont interdépendants. De plus, dans un approche
classique, chaque élément doit traverser plusieurs étapes
dans le processus de conception.
1) Analyse des besoins: par rapport aux objectifs
de l'organisation (Vers Où ?)
2) Spécification: une description précise de chaque
élément (Quoi ? Comment organisationnel ?)
3) Conception Informatique: une description de
l'ensemble du système en termes informatiques
4) Codage: chaque élément est "codé" dans le
langage supportant la gestion de la BD
5) Test
6) Maintenance
Pour assister l'équipe de conception, il existe des
méthodologies et des outils informatiques (UML,
MERISE, IDA, USE, MTG, ...). Ceux-ci permettent de
guider la conception et de construire des prototypes.
retour aux modèles: les fichiers
Le fichier (1950-..); c'est l'organisation la plus simple (et
encore la plus utilisée). Les données d'un même objet
sont définies par un enregistrement physique, l'ensemble
des enregistrements physiques constitue le fichier.
La description de l'enregistrement est implicite et elle est
codée dans les programmes qui utilisent le fichier. Si l'on
modifie la structure du fichier, on est donc obligé de
modifier les programmes.
Les systèmes de base de données contournent cet
inconvénient majeur en rendant explicite la structure
des données, rendant ainsi indépendants les
programmes de la représentation physique.
Les SGBD possèdent donc tous une description explicite
de la structure de donnée, mais il existe plusieurs façon
de décrire les liens existant entre les objets du champ
d'application; on parle alors de modèle de données.
modèle hiérarchique
modèle hiérarchique (1965-..);
dans ce modèle les liens existant entre les objets sont
strictement arborescent.
DEPARTEMENT
NODPT, NOMDPT
EMPLOYE
NOEMP, NOMEMP, DATE-EMB
PROJET
NOPJ, NOMPJ,RESP-PJ
SALAIRE
ANNEE, SAL
Dans l'exemple, on remarquera que si une feuille de
l'arbre doit être utilisée dans une autre arborescence il
faudra la duplifier.
IMS est un SGBD hiérarchique.
modèle réseau
modèle réseau (1965-..); ce modèle est une extension
du modèle précédent, les liens entre objets peuvent
exister sans restriction.
DEPARTEMENT
NODPT, NOMDPT
EMPLOYE
NOEMP, NOMEMP, DATE-EMB
SALAIRE
ANNEE, SAL
PROJET
NOPJ, NOMPJ,RESP-PJ
EMP-PROJET
NOPJ, NOEMP, DUREE
Pour retrouver une donnée dans une telle modélisation, il
faut connaître le chemin d'accès (les liens), ceci rend
encore les programmes dépendants de la structure de
données.
IDMS, TOTAL, MDBS-III sont des SGBD de ce type.
modèle relationnel
le modèle relationnel (1970-..); Ce modèle est basé sur
la notion de relation. Une relation est un ensemble de nuplet (n est fixe) qui correspondent chacun à une
propriété de l'objet à décrire.
DEPARTEMENT
NODPT NOMDPT
45
PROJET
NOPJ NOMPJ RESP-PJ NODPT
gestion
EMPLOYE
NOEMP NOMEMP DATE-EMB NO DPT
EMP-PROJET
NOPJ NOEMP DUREE
DEPARTEMENT, PROJET, EMPLOYE, EMP-PROJET
sont des relations. Les lignes dessinées en pointillé sont
les liens entre les relations, mais ici il n'est plus
nécessaire de décrire explicitement les liens, les chemins
d'accès sont indépendants de la modélisation.
INGRES, ORACLE, RDB, DB2, SYBASE sont des SGBD
relationnels.
C'est dans ce modèle que nous allons travailler.
Système d'exécution et d'interconnexion
CO
AX
FI
BR
ES
PC
M
AC
...
SU
N
HP
IB
M
DE
C
x
/n
et
IP
P/
ec
D
TC
...
M
SDO
S
O
SM
AC
M
VS
VM
S
ni
U
2
es
as
ph
ur
ite
on
M
...
it
m
m
co
s
an
Tr
se
ba
Sy
e
cl
ra
O
es
gr
In
n
de
n
io
at
Système d'exploitation et de communication
Noyau SGBD et intégrité transactionnelle
u)
en
(m
g
tin
ip
cr
-S
...
E
D
gr
té
in
D
ra
s
n
pp s
or
ta
ts
bl
ea
u
gr x de
ap
hi bor
qu d
es
ra
éc
io
at
ér
én
G
m
an
k
SD
SS
EI
de
s
ur
at
Pr ion
od
uc
tio
Ac
n
Ad ha
m ts
in
is
tra
tio
n
Fi
na
nc
e
... s
ct
Fa
om
C
oc
St
Em
eu
ul
at
rs
M
o
X- tif
W
in
W dow
in
do
w
3.
Fi
nd ..
er
te
rm
in
al
24
X8
... 0
Niveaux conceptuels
Niveaux conceptuels du SI
Interface utilisateur
Applications
Outils de développement
Distribution des BD
DONNEES
Serveur
Finances
DONNEES
Serveur
Production - Achat
DONNEES
PTT
Serveur
Serveur
DONNEES
DONNEES
PTT
PTT
Serveur
DONNEES
PTT
Serveur
unités de vente - stockage
délocalisée