Data Warehouse
Transcription
Data Warehouse
Data Warehouse Data Warehouse | Information Warehouse About the analytical environment and the structuring of data in that environment Operational / informational databases Les bases de données opérationnelles sont utilisées pour les opérations du jour. Elles représentent globalement les données physiques d’un objet. Le temps acceptable de réponse est de l’ordre des ms. Les bases de données informationnelles sont utilisées pour toutes les activités de management et permet l’aide à la prise de décision. Les données ne peuvent être que lues. Le temps acceptable de réponse est plus long (de l’ordre des minutes / heures) primitive / derivative data Données primitive donnée opérationnelle. Elles sont utilisé pour les opérations journalière. Elles peuvent être updaté. Données dérivées Décision Support System (DSS) data. Données utilisée pour les décisions. Elles ne peuvent être modifiées. Les algorithmes de création ne sont pas répétitif definition of extraction program Il cherche dans les fichiers et les bases de données en utilisant des critères pour la sélection des données. Il trouve des données spécifiques. Il transporte ensuite les données trouvées dans un autre emplacement de stockage. Il est très utile car il transporte les données avant de les analyser. the three main issues in evolving architextures - Crédibilité des données (des sources de données différentes peuvent donner lieu à des tendances différentes, problème de temps) Productivité (temps de réponse trop long pour une simple requête) Impossible de transformer les données definition of integration Les données passant du système opérationnel au système décisionnel sont intégré. dw monitoring requirements On doit pouvoir s’occuper du datawarehouse à n’importe quel moment. L’architecte des données doit être sûr que chaque donnée dans le datawarehouse est effectivement utilisée. Sinon cela peut poser des problèmes de stockage. Si on a la possibilité de pouvoir monitorer les données et repéré ainsi celle non utilisée, on peut essayer de réorganiser le datawarehouse et de transporter les données non utilisées dans un autre endroit. three main properties of a DW architexture - Définition de la granularité des données Définition des partitions à faire subject-oriented / applicaion-oriented Un datawarehouse est orienté sujets (clients, ...) et non orienté application. granularity / partitionning La granularité d’une donnée représente le niveau de détail de cette donnée. Plus le niveau de granularité est élevé, moins la donnée contient de détail. Le niveau de granularité affecte la taille des données. Établir les niveaux de granularité est un des aspect les plus important dans le développement d’un datawarehouse. Avec un niveau de granularité élevé, on ne pourra pas répondre à toutes les questions. D’un autre côté, il y aura moins de données donc moins d’espace de stockage utilisé. Recherche plus rapide. Avec un niveau de granularité faible. On peut répondre à toutes questions, gros volume de données sur les disques. Recherches plus lentes. La partition des données permet de séparer plusieurs ensemble de données et les rendre indépendant. En général on utilise la date pour effectuer les partitions. Synthetic description of the five scan techniques - Ne scanner que les données qui ont été datées. Scan d’un fichier delta qui ne contient que les changements effectués (certaines données ne sont alors jamais touchées) Scan des fichier d’audit ou de log. Modification brutale d’un code application Comparer un fichier ancien avec un nouveau definition of the DW data model Un data modèle s’applique aux bases de données opérationnelle et décisionnelle. Avant de développer le datawarehouse, on commence à faire un data model avec des données primaires. Quand on veux appliquer le datamodel au datawarehouse, on retire toutes les données qui ne s’applique qu’a l’opérationnel. On rajoute un élément de temps dans toutes les structures. On ajoute des données dérivées quand cela est nécessaire. Trois niveau de modélisation d’un data model - High level (Entity relationship level ERD) On définie les limites du data model. On identifie les grosses entités et leurs relations (lesquelles ont appartiennent au data model, lesquelles n’appartiennent pas) - Mid level (data Item set) Pour chaque entité identifié lors de la précedente phase, on crée un mid level model. Groupe les données qui n’ont qu’une relation avec le modèle supérieur. Groupe ensuite les données à plusieurs relations. - Low level (physical model) A partir des mid level model on défini un groupe de table et leurs relations. Décision sur la granularité et le partionement des données what is meant with "stability analysis" stability analysis c’est définir des groupes de données en fonction de leur possibilité de changement. - données changeant peu - données pouvant changer - données changeant fréquemment. What is meant with iterative delevopment On propose plusieurs itérations (avec un rendu) du DW. Permet à l’utilisateur d’avoir un aperçu rapidement et permet à chaque itération de rectifier le tir par rapport au demandes des utilisateurs. basic components of the Snapshot structure - une clé une unité de temps donnée primaire relié à la clé uniquement données externe complétant les informations Describe one technique of normalization On place dans des endroits différents chaque séquence de données (Ex : On crée un array par mois). Si on veux accéder à une séquence on a qu’une connexion. Cette technique n’a de sens que quand : - nombre d’occurrence stable - données on besoin d’être accéder en séquence - les données sont crée statiquement en séquence régulier Why is needed to put cyclicity between the DW and the operational environments updates Afin de prendre son temps. Attendre au moins 24h avant de transférer les changement de la table opérationnelle sur le DW. Plus les données opérationnelles sont reliées au DW, plus les changements sont compliqués. Location and utility of staging area in distributed data warehouse Disadvantages in distributed architecture for the data warehouse Plus il y a de distribution du DW, plus les données deviennent dures à contrôler. Le traffic sur le réseau augmente. Risque de problème lorsqu’une requête à besoin d’accéder à plusieurs location. charactÈristics of external data - pas généré par l’organisation donnée non structurées impossibilité de prévoir de quelle source elle provient, Ex(image et fichier audio) Describe two issues related to distributed data warehouse what is the relationship between the data model and the external data le data model est structuré comparé aux données externes qui ne sont pas du tout structurées. Relation très faible entre le DW et les données externe. Essayer d’utiliser le data model pour reformer les données externe est une grave erreur. Resume in 500 words the phases of the migration plan Phase du plan de migration 1. Data model Représente toutes les informations de l’organisation en ne prenant pas en compte la technologie. Il doit identifié les sujets majeurs, les relations entre ces sujets et leurs attributs. C’est le plan qui va permettre l’intégration du DW. 2. Définition du system of record On regarde les systèmes que l’organisation a déjà. On utilise le data model afin de tester ces systèmes. Quelles données sont les plus complètes, en rapport avec une notion de temps, les plus précise. 3. Conception du DW On ne doit que peux de chose au data model - rajout d’une unité de temps si elle n’existe pas déjà - on élimine les données opérationnelles - stability analysis 4. On défini les sujets du DW (client, produit, vente, compte, ...) 5. Implémentation de l’interface entre le DW et les BDD opérationnelles - extraction de données - changement de point de vue. (orienté application orienté sujet) condensation des données 6. On rempli un sujet avec des données Permet de vérifier et effectuer des changements si nécessaire. C’est un test. 7. On rempli le reste du DW Is there a difference between the expression "drill-down" and "event mapping" relating to EIS?" Explain Drill down consiste à zoomer sur une tendance générale et ainsi voir quelle partie à pu largement impacter sur cette tendance. Event mapping permet de comparer une tendance par rapport à certains évenemment clé de l’entreprise. On peux ainsi voir si un évenement à eu un effet quelconque. What the DW enables the EIS analyst to deal with Management’s need for very quick information Need to change their mind Management’s need to look at integrated data Management’s need to look at data over a spectrum of time Management’s need to be able to trill down