Conception des Entrepôts de Données
Transcription
Conception des Entrepôts de Données
École Nationale Supérieure de Mécanique et d’Aérotechnique / Université de Poitiers Laboratoire d’Informatique Scientifique et Industrielle (www.lisi.ensma.fr) ENSMA - Téléport 2-1 Avenue Clément Ader - BP 40109 - 86961 FUTUROSCOPE CHASSENEUIL Cedex - France Conception des Entrepôts de Données Contexte : Informatique Décisionnelle Techniques d’Optimisation Entrepôt de données Analyse Métadonnées O Données Données externes externes U Data mining S A Reporting A P Autres L Données fortement résumées G E Données légèrement résumées R S Données de détail Données de production Données de production (SGBD, systèmes légués, (SGBD, systèmes légués, réseau, autres) réseau, autres) Problème de Sélection d’une technique d’optimisation: NP-Complet Données Historiques Sources de données Outils de front end Entrepôt de données • Processus de Sélection des Techniques d’Optimisation Représentation d’un Entrepôt de Données : Cube TEMPS Table de dimensions DBA Code temps Table de dimensions m ps Date Charge des requêtes Année PRODUIT Te Mois Code produit Jour Table des faits Product 1094 n-uplets Table de dimensions CLIENT VENTES Code temps Code produit Code client Code client Sexe Ville Analyse de la charge Prix unitaire Taille Poids gamme Type_paquet Quantité vendue Coût_dollars Age Sélection des Vues matérialisées Sélection des index 300 000 n-uplets Modèle de coût Coût_unitaire Etat Client Préférences Nom produit • Algorithmes génétiques • Recuit simulé • Hill climbing • Data mining •… 100 000 000 n-uplets 3 000 000 n-uplets Indexer les vues matérialisées Sélection des schémas de fragmentation horizontale SELECT CODECLIENT, SUM(Cout_Dollars) FROM VENTES V, CLIENT C, PRODUIT P, TEMPS T WHERE V.CODECLIENT = C.CODECLIENT AND V.CODEPRODUIT = P.CODEPRODUIT • Trois Jointures Coûteuses AND V.CODETEMPS= T.CODETEMPS AND VILLE = « Poitiers » • Deux Sélections AND MOIS = « Juin » GROUP BY CODECLIENT; Configuration Finale CREATE MATERIALIZED VIEW … CREATE BITMAP INDEX IDX … CREATE TABLE … PARTITION … • Validation des algorithmes de Sélection 1. Approche dirigée par modèle mathématique → Nécessité de Techniques d’Optimisation 2. Validation réelle sous Oracle 11G Validation de nos Algorithmes de Sélection: ExpertSelect Charge de Requêtes • Banc d’essai TPC-H: www.tpc.org • 22 requêtes décisionnelles (SQL92) • 02 fonctions de rafraichissement Environnement • Oracle 11G avec option de Partitionnement De Test • Windows 2003 Server Tests Critères de comparaison • • • • Test Test Test Test 1: 2: 3: 4: Configuration Initiale (Sans Optimisation) ORACLE 11G SQL ACCESS ADVISOR (SAA) EXPERTSELECT EXPERTSELEC avec Compression • Temps d’exécution de requêtes • Espace de Stockage • Temps de rafraichissement Participants • Ladjel BELLATRECHE • Taher BIDI – Etudiant INI, Algérie, [email protected] • Kamel BOUKHALFA – Doctorant, Algérie • Mukesh MOHANIA – IBM India – [email protected] • Rokia MISSAOUI – Univ. Québec – [email protected]