Conception des Entrepôts de Données

Transcription

Conception des Entrepôts de Données
École Nationale Supérieure de Mécanique et d’Aérotechnique / Université de Poitiers
Laboratoire d’Informatique Scientifique et Industrielle (www.lisi.ensma.fr)
ENSMA - Téléport 2-1 Avenue Clément Ader - BP 40109 - 86961 FUTUROSCOPE CHASSENEUIL Cedex - France
Conception des Entrepôts de Données
Contexte : Informatique Décisionnelle
Techniques d’Optimisation
Entrepôt de données
Analyse
Métadonnées
O
Données
Données externes
externes
U
Data mining
S
A
Reporting
A
P
Autres
L
Données fortement résumées
G
E
Données légèrement résumées
R
S
Données de détail
Données de production Données de production (SGBD, systèmes légués, (SGBD, systèmes légués, réseau, autres)
réseau, autres)
Problème de Sélection d’une technique d’optimisation: NP-Complet
Données Historiques
Sources de données
Outils de front end
Entrepôt de données
• Processus de Sélection des Techniques d’Optimisation
Représentation d’un Entrepôt de Données : Cube
TEMPS
Table de dimensions
DBA
Code temps
Table de dimensions
m
ps
Date
Charge des requêtes
Année
PRODUIT
Te
Mois
Code produit
Jour
Table des faits
Product
1094 n-uplets
Table de dimensions
CLIENT
VENTES
Code temps
Code produit
Code client
Code client
Sexe
Ville
Analyse de la charge
Prix unitaire
Taille
Poids
gamme
Type_paquet
Quantité vendue
Coût_dollars
Age
Sélection des Vues matérialisées
Sélection des index
300 000 n-uplets
Modèle de coût
Coût_unitaire
Etat
Client
Préférences Nom produit
• Algorithmes génétiques
• Recuit simulé
• Hill climbing
• Data mining
•…
100 000 000 n-uplets
3 000 000 n-uplets
Indexer les vues matérialisées
Sélection des schémas de fragmentation horizontale
SELECT CODECLIENT, SUM(Cout_Dollars)
FROM VENTES V, CLIENT C, PRODUIT P, TEMPS T
WHERE V.CODECLIENT = C.CODECLIENT
AND V.CODEPRODUIT = P.CODEPRODUIT
• Trois Jointures Coûteuses
AND V.CODETEMPS= T.CODETEMPS
AND VILLE = « Poitiers »
• Deux Sélections
AND MOIS = « Juin »
GROUP BY CODECLIENT;
Configuration Finale
CREATE MATERIALIZED VIEW …
CREATE BITMAP INDEX IDX …
CREATE TABLE …
PARTITION …
•
Validation des algorithmes de Sélection
1. Approche dirigée par modèle mathématique
→ Nécessité de Techniques d’Optimisation
2. Validation réelle sous Oracle 11G
Validation de nos Algorithmes de Sélection: ExpertSelect
Charge de
Requêtes
• Banc d’essai TPC-H: www.tpc.org
• 22 requêtes décisionnelles (SQL92)
• 02 fonctions de rafraichissement
Environnement • Oracle 11G avec option de Partitionnement
De Test
• Windows 2003 Server
Tests
Critères de
comparaison
•
•
•
•
Test
Test
Test
Test
1:
2:
3:
4:
Configuration Initiale (Sans Optimisation)
ORACLE 11G SQL ACCESS ADVISOR (SAA)
EXPERTSELECT
EXPERTSELEC avec Compression
• Temps d’exécution de requêtes
• Espace de Stockage
• Temps de rafraichissement
Participants
• Ladjel BELLATRECHE
• Taher BIDI – Etudiant INI, Algérie, [email protected]
• Kamel BOUKHALFA – Doctorant, Algérie
• Mukesh MOHANIA – IBM India – [email protected]
• Rokia MISSAOUI – Univ. Québec – [email protected]