Data Warehouse

Transcription

Data Warehouse
Data Warehouse
Data Warehouse | Information Warehouse
About the analytical environment and the structuring of data in that environment
Operational / informational databases
Les bases de données opérationnelles sont utilisées pour les opérations du jour. Elles
représentent globalement les données physiques d’un objet. Le temps acceptable de réponse
est de l’ordre des ms.
Les bases de données informationnelles sont utilisées pour toutes les activités de management
et permet l’aide à la prise de décision. Les données ne peuvent être que lues. Le temps
acceptable de réponse est plus long (de l’ordre des minutes / heures)
primitive / derivative data
Données primitive  donnée opérationnelle. Elles sont utilisé pour les opérations journalière.
Elles peuvent être updaté.
Données dérivées  Décision Support System (DSS) data. Données utilisée pour les
décisions. Elles ne peuvent être modifiées. Les algorithmes de création ne sont pas répétitif
definition of extraction program
Il cherche dans les fichiers et les bases de données en utilisant des critères pour la sélection
des données. Il trouve des données spécifiques. Il transporte ensuite les données trouvées dans
un autre emplacement de stockage. Il est très utile car il transporte les données avant de les
analyser.
the three main issues in evolving architextures
-
Crédibilité des données (des sources de données différentes peuvent donner lieu à des
tendances différentes, problème de temps)
Productivité (temps de réponse trop long pour une simple requête)
Impossible de transformer les données
definition of integration
Les données passant du système opérationnel au système décisionnel sont intégré.
dw monitoring requirements
On doit pouvoir s’occuper du datawarehouse à n’importe quel moment.
L’architecte des données doit être sûr que chaque donnée dans le datawarehouse est
effectivement utilisée. Sinon cela peut poser des problèmes de stockage. Si on a la possibilité
de pouvoir monitorer les données et repéré ainsi celle non utilisée, on peut essayer de
réorganiser le datawarehouse et de transporter les données non utilisées dans un autre endroit.
three main properties of a DW architexture
-
Définition de la granularité des données
Définition des partitions à faire
subject-oriented / applicaion-oriented
Un datawarehouse est orienté sujets (clients, ...) et non orienté application.
granularity / partitionning
La granularité d’une donnée représente le niveau de détail de cette donnée. Plus le niveau de
granularité est élevé, moins la donnée contient de détail. Le niveau de granularité affecte la
taille des données. Établir les niveaux de granularité est un des aspect les plus important dans
le développement d’un datawarehouse.
Avec un niveau de granularité élevé, on ne pourra pas répondre à toutes les questions. D’un
autre côté, il y aura moins de données donc moins d’espace de stockage utilisé. Recherche
plus rapide.
Avec un niveau de granularité faible. On peut répondre à toutes questions, gros volume de
données sur les disques. Recherches plus lentes.
La partition des données permet de séparer plusieurs ensemble de données et les rendre
indépendant. En général on utilise la date pour effectuer les partitions.
Synthetic description of the five scan techniques
-
Ne scanner que les données qui ont été datées.
Scan d’un fichier delta qui ne contient que les changements effectués (certaines
données ne sont alors jamais touchées)
Scan des fichier d’audit ou de log.
Modification brutale d’un code application
Comparer un fichier ancien avec un nouveau
definition of the DW data model
Un data modèle s’applique aux bases de données opérationnelle et décisionnelle.
Avant de développer le datawarehouse, on commence à faire un data model avec des données
primaires.
Quand on veux appliquer le datamodel au datawarehouse, on retire toutes les données qui ne
s’applique qu’a l’opérationnel. On rajoute un élément de temps dans toutes les structures. On
ajoute des données dérivées quand cela est nécessaire.
Trois niveau de modélisation d’un data model
- High level (Entity relationship level ERD)
On définie les limites du data model. On identifie les grosses entités et leurs relations
(lesquelles ont appartiennent au data model, lesquelles n’appartiennent pas)
- Mid level (data Item set)
Pour chaque entité identifié lors de la précedente phase, on crée un mid level model. Groupe
les données qui n’ont qu’une relation avec le modèle supérieur. Groupe ensuite les données à
plusieurs relations.
- Low level (physical model)
A partir des mid level model on défini un groupe de table et leurs relations. Décision sur la
granularité et le partionement des données
what is meant with "stability analysis"
stability analysis c’est définir des groupes de données en fonction de leur possibilité de
changement.
- données changeant peu
- données pouvant changer
- données changeant fréquemment.
What is meant with iterative delevopment
On propose plusieurs itérations (avec un rendu) du DW. Permet à l’utilisateur d’avoir un
aperçu rapidement et permet à chaque itération de rectifier le tir par rapport au demandes des
utilisateurs.
basic components of the Snapshot structure
-
une clé
une unité de temps
donnée primaire relié à la clé uniquement
données externe complétant les informations
Describe one technique of normalization
On place dans des endroits différents chaque séquence de données (Ex : On crée un array par
mois). Si on veux accéder à une séquence on a qu’une connexion. Cette technique n’a de sens
que quand :
- nombre d’occurrence stable
- données on besoin d’être accéder en séquence
- les données sont crée statiquement en séquence régulier
Why is needed to put cyclicity between the DW and the operational environments updates
Afin de prendre son temps. Attendre au moins 24h avant de transférer les changement de la
table opérationnelle sur le DW. Plus les données opérationnelles sont reliées au DW, plus les
changements sont compliqués.
Location and utility of staging area in distributed data warehouse
Disadvantages in distributed architecture for the data warehouse
Plus il y a de distribution du DW, plus les données deviennent dures à contrôler. Le traffic sur
le réseau augmente. Risque de problème lorsqu’une requête à besoin d’accéder à plusieurs
location.
charactÈristics of external data
-
pas généré par l’organisation
donnée non structurées
impossibilité de prévoir de quelle source elle provient,
Ex(image et fichier audio)
Describe two issues related to distributed data warehouse
what is the relationship between the data model and the external data
le data model est structuré comparé aux données externes qui ne sont pas du tout structurées.
Relation très faible entre le DW et les données externe. Essayer d’utiliser le data model pour
reformer les données externe est une grave erreur.
Resume in 500 words the phases of the migration plan
Phase du plan de migration
1. Data model
Représente toutes les informations de l’organisation en ne prenant pas en compte la
technologie. Il doit identifié les sujets majeurs, les relations entre ces sujets et leurs attributs.
C’est le plan qui va permettre l’intégration du DW.
2. Définition du system of record
On regarde les systèmes que l’organisation a déjà. On utilise le data model afin de tester ces
systèmes.
Quelles données sont les plus complètes, en rapport avec une notion de temps, les plus
précise.
3. Conception du DW
On ne doit que peux de chose au data model
- rajout d’une unité de temps si elle n’existe pas déjà
- on élimine les données opérationnelles
- stability analysis
4. On défini les sujets du DW (client, produit, vente, compte, ...)
5. Implémentation de l’interface entre le DW et les BDD opérationnelles
- extraction de données
-
changement de point de vue. (orienté application  orienté sujet)
condensation des données
6. On rempli un sujet avec des données
Permet de vérifier et effectuer des changements si nécessaire. C’est un test.
7. On rempli le reste du DW
Is there a difference between the expression "drill-down" and "event mapping" relating to
EIS?" Explain
Drill down consiste à zoomer sur une tendance générale et ainsi voir quelle partie à pu
largement impacter sur cette tendance.
Event mapping permet de comparer une tendance par rapport à certains évenemment clé de
l’entreprise. On peux ainsi voir si un évenement à eu un effet quelconque.
What the DW enables the EIS analyst to deal with
Management’s need for very quick information
Need to change their mind
Management’s need to look at integrated data
Management’s need to look at data over a spectrum of time
Management’s need to be able to trill down