Professional Documents
Culture Documents
étoile
Jalel Eddine Hajlaoui, Jamel Feki, Yasser Hachaichi
Laboratoire Mir@cl, Faculté des Sciences Economiques et de Gestion,
Univeristé de Sfax
B.P. 1088, 3018 - Sfax – TUNISIE
h.jaleleddine@yahoo.fr; {jamel.feki; yasser.hachaichi}@fsegs.rnu.tn
Résumé. Le développement d'un entrepôt de données passe par les trois étapes
conceptuelle, logique et physique. Ces étapes sont généralement manuelles. L'outil logiciel
CAME couvre la première étape ; il génère quasi-automatiquement des schémas conceptuels
de magasins de données (MD) en étoile à partir d'une source de données relationnelle. Ce
travail étend CAME afin d'assister l'étape logique. Ainsi, les nouvelles fonctionnalités
permettent la dérivation d’un schéma logique à partir d’un schéma conceptuel en étoile. Plus
précisément, il aide les concepteurs d’entrepôt dans i) la mise en œuvre de MD en étoile
selon la technologie M-OLAP, ii) l’établissement des correspondances nécessaires aux
mappings, et iii) la génération des procédures ETL d'alimentation de ces magasins avec les
données de la source relationnelle. Cet article présente l'outil DM-Creator, intégré à CAME,
qui implante ces fonctionnalités.
Introduction
La construction d’un système d’information décisionnel (SID) représente un challenge
technologique pour les entreprises qui souhaitent baser leurs décisions sur des indicateurs
économiques mesurant leurs activités. Un SID réalise la collecte, la transformation et le
stockage des données afin de faciliter le processus de prise de décisions. L’architecture d’un
SID complet est basée sur un modèle à trois couches où l’entrepôt de données (ED) est placé
dans la première couche, les magasins de données (MD) dans la seconde, et les outils
d'interrogation et de visualisation des résultats dans la troisième couche.
L’entrepôt est une collection de données rafraîchie périodiquement à partir du système de
production (base opérationnelle) de l’entreprise et/ou de sources externes (base des tiers).
L’information stockée ne peut pas être directement exploitée dans les analyses OLAP (« On-
Line Analytical Processing »).
Dans la deuxième couche, chaque MD est orienté sujet d'analyses, c'est-à-dire contenant
un sous-ensemble des données de l'entrepôt, traitant d'un métier particulier de l'entreprise.
Les MD sont les mieux adaptés pour les traitements analytiques OLAP. En effet, leur
modélisation appropriée, dite multidimensionnelle, les rend plus proches du décideur
puisqu'elle a le mérite de mettre clairement en exergue les éléments analysables (indicateurs
ou mesures) et leurs axes d'analyses.
DM-Creator : Un outil de mise en œuvre assistée de MD en étoile
Le coût de développement d'un tel SID complet est généralement onéreux. Une petite ou
moyenne entreprise souhaitant réduire le coût et le délai de réalisation de son projet
décisionnel peut adopter une architecture simplifiée de SID, c'est-à-dire réduite à un nombre
limité de MD directement alimentés à partir de son système opérationnel. Ainsi, pour ce
faire, nous avons proposé dans des travaux antérieurs une démarche ascendante de
construction semi-automatique de schémas de MD Feki et Hachaichi (2007). Cette démarche
génère quasi-automatiquement, à partir de la source opérationnelle de l'entreprise décrite par
son modèle relationnel, une collection de schémas de MD candidats. La mise en œuvre de
ces schémas exige trois étapes connues sous le nom de processus ETL (Extract-Transform-
Load) ou data pumping Chaudhuri et Dayal (1997). Notons que la modélisation d’un
ED/MD s’effectue habituellement à trois niveaux d'abstraction Calvanese et al. (2006) :
- Le niveau conceptuel qui correspond à une représentation conceptuelle des données
à incorporer dans l'ED ;
- Le niveau logique qui fournit une représentation en termes de modèle logique des
données stockées dans l'ED ;
- Le niveau physique qui détaille les spécifications des données stockées et les
médiateurs pour charger les MD.
Cet article est organisé comme suit. La section 2 décrit le contexte et les motivations de
ce travail. La section 3 est un tour d'horizon des travaux antérieurs. La section 4 précise notre
démarche de mise en œuvre assistée de MD. La section 5 présente les fonctionnalités de
l'outil DM-Creator (Data Mart Creator). Finalement, la section 6 conclue l'article et
énumère quelques perspectives de nos travaux futurs.
Contexte et motivations
Nombreux travaux ont abordé la modélisation conceptuelle des ED/MD Golfarelli et al.
(1998), Feki et Hachaichi (2007), Feki et al. (2008), Mazón et Trujillo (2008), Ben-Abdallah
et al. (2009) et Hachaichi et al. (2009). Cependant, ces travaux n'ont pas abouti à des produits
logiciels complets, c'est-à-dire allant jusqu'à la mise en œuvre du résultat conceptuel sur une
plateforme logicielle. Par conséquent, deux problèmes majeurs se posent au concepteur
décisionnel : Le premier est la traduction des schémas conceptuels en structures conformes à
une plateforme particulière retenue pour la réalisation, c'est-à-dire à un Système de Gestion
de Base de Données (SGBD). Le second problème est l'automatisation, même partielle, des
procédures de chargement du MD implanté sur cette plateforme.
L’accent est particulièrement mis sur les outils ETL gérant les flux de données qui
alimentent les ED/MD Noirault (2006). Cependant, les environnements décisionnels actuels,
comme par exemple Oracle Warehouse Builder, Pentaho Business Intelligence, ou
Microsoft Analysis Service, ont besoin de la définition des métadonnées décrivant la source
d’un ED/MD. Avec ces outils, le concepteur se charge de créer manuellement le MD et
d’associer à chacun des attributs son homologue dans la source. Cette tâche manuelle exige
d'une part, une bonne connaissance des structures des sources d’alimentation et, d'autre part,
des compétences élevées pour générer le code de chargement des schémas des MD.
Rappelons que dans cet article, nous nous intéressons à la modélisation logique et
particulièrement à l’automatisation du passage du niveau conceptuel vers le niveau logique
d’un MD. Notre travail a de multiples motivations : Premièrement, il assiste les développeurs
de SID en leur fournissant un outil logiciel approprié au passage conceptuel-logique, ce qui
RNTI - X -
Hajlaoui et al.
Travaux antérieurs
Nous présentons dans cette section un aperçu des principaux travaux de recherche
proposant des solutions de modélisation logique des ED/MD fondées sur l’approche
ascendante en se focalisant sur la description des environnements proposés.
Dans Golfarelli et al. (1998), les auteurs présentent une approche semi-automatique pour
la construction des MD à partir des digrammes E/A. Le formalisme DFM (« Dimensional
Fact Model ») est proposé par ces auteurs pour la représentation graphique d’un schéma
multidimensionnel. Egalement, dans Golfarelli et Rizzi (1998) les auteurs se sont intéressés
au problème de transition du niveau conceptuel au niveau logique où ils développent une
nouvelle approche dont l’objectif principal est d’automatiser la dérivation des schémas
logique et physique d’un MD à partir d’un schéma conceptuel après son raffinement
moyennant des opérateurs spécifiques comme le « pruning » et le « grafting ».
Un prototype logiciel nommé WArehouse INtegrated Designer (WAND) est mis au point
pour montrer la faisabilité de la méthode proposée Golfarelli et al. (2002). WAND génère
automatiquement les scripts SQL qui définissent les tables de faits et de dimensions du
schéma en étoile et utilise la technique des vues matérialisées pour extraire/stocker les
données à partir de la source opérationnelle accédé via ODBC (« Open DataBase
Connectivity »). Cet outil s’appuie sur une architecture basée sur les trois niveaux de
modélisation multidimensionnelle : Conceptuel, logique et physique. Cependant, il n’offre
pas des mécanismes pour le nettoyage des données avant leur chargement.
Les auteurs de Marotta et Ruggia (2002) proposent une approche semi-automatique
orientée transformations ; elle construit un schéma logique de MD à partir du schéma
opérationnel d’une source relationnelle. Cette approche suppose que le schéma conceptuel du
MD candidat est déjà connu par le concepteur décisionnel. Elle repose sur un ensemble de
transformations prédéfinies pour la génération du schéma logique de MD. En outre, elle
suggère une boîte à outils de 14 transformations possibles. Cependant, le concepteur
décisionnel doit choisir manuellement les transformations appropriées afin de convertir le
diagramme E/A en un modèle multidimensionnel relationnel.
Pour y remédier, Peralta (2003) développe une approche complètement automatisable et
définit un algorithme pour ordonnancer l’application des règles de transformation définies
dans Marotta et Ruggia (2002). Cet algorithme gère alors l’ordre d’exécution de ces règles
qui permettent une succession de transformations sur le schéma conceptuel désiré (i.e.,
schéma en étoile ou en flocon) pour obtenir le schéma logique final du MD par raffinement
du schéma conceptuel, puis sa projection sur la BD source.
Un outil logiciel nommé Data Warehouse Designer (DW Designer) est développé sous
Jbuilder pour supporter l’approche de Marotta et Ruggia (2002). Les détails de son
implantation sont décrits dans Gutiérrez et Marotta (2001). Cet outil est constitué d’un
éditeur graphique pour la visualisation du schéma conceptuel source, d’une interface
RNTI - X -
DM-Creator : Un outil de mise en œuvre assistée de MD en étoile
RNTI - X -
Hajlaoui et al.
continuité. Ensuite, nous décrivons les étapes de notre proposition de passage semi-
automatique du niveau conceptuel vers le niveau logique d’un MD.
Dans Feki et Hachaichi (2007), les auteurs proposent une démarche de conception assistée
de schémas conceptuels de MD en étoile basée sur les liens inter et intra-relations (i.e., les clés
primaires et les contraintes référentielles) d’une source relationnelle en troisième forme
normale. Cette démarche extrait des faits, des dimensions et des hiérarchies à partir de la
source, moyennant un ensemble d’heuristiques appropriées, puis les classe par niveau de
pertinence. Elle est composée de trois étapes (cf. figure 1) :
1. La pré-construction attribue à chaque relation extraite à partir du référentiel du SGBD sa
classe conceptuelle (entité ou association) afin d’optimiser le processus d’identification
des faits et des dimensions.
2. La construction des schémas de MD définit un ensemble de règles pour extraire les
concepts multidimensionnels et construire des schémas de MD candidats. Ces règles
associent à chaque concept extrait sa relation source et tiennent compte de la granularité
des mesures candidates par rapport aux dimensions. L'association concept-source prépare
le passage vers le niveau logique en garantissant la faisabilité des opérations ultérieures de
mapping et de chargement qui nous préoccupent dans ce travail.
3. La validation permet au concepteur d’adapter ces schémas candidats aux besoins
analytiques du système de pilotage (e.g., supprimer ou renommer des schémas ou des
éléments de schémas, tout en préservant l’origine de l’élément dans la source). Un outil
logiciel baptisé CAME (Construction Assistée de schémas de Magasins de données en
Etoile) est développé pour supporter la démarche.
Fonctionnalités de CAME
Fonctionnalités de DM-Creator
Générationde
(5)
Métabase de schémaslod
ge
iqM
ueD
s
CAME
Schémasconceptuelsen
étoile SchémasgénérésdeMD
Validation (6)
Définitiondes
(3) mappingsETL
Constructiondes
schémasdeMD MappingsdeMD
(7)
Concepteurdécisionnel
(2)
Chargement des MD
Pré-construction
MDalimentés
(1)
(4) sourcesDeétfin
deitio
scnibdle
es
Source dedonnées Référentiel
relationnelle OWB
RNTI - X -
DM-Creator : Un outil de mise en œuvre assistée de MD en étoile
Nous envisageons étendre cette démarche au niveau logique et ceci afin de renforcer
d’avantage l’automatisation du processus d'entreposage de données. Nous proposons donc une
démarche qui assure la jonction de l’outil CAME avec le système ETL Oracle Warehouse
Builder (OWB) pour garantir une mise en œuvre de MD de façon quasi-automatique. Cette
démarche se compose des quatre étapes, numérotées 4 à 7 dans la figure 1, et ci-dessous
détaillées.
4. Définition des sources et des cibles de données : Cette étape définit les paramètres de
configuration nécessaires pour extraire les données à partir de la source. Il s’agit
essentiellement d’importer le schéma de la BD source (i.e., les structures des tables) à
partir du dictionnaire du SGBD vers le référentiel OWB.
5. Génération des schémas logiques de MD : Cette étape transforme automatiquement un
schéma conceptuel en étoile en un schéma logique en respectant le modèle logique de la
plateforme cible et en appliquant un ensemble d’opérations de transformation où chaque
dimension devient une vue matérialisée dont la clé est l’identifiant de la dimension. Les
attributs d’une dimension sont organisés en niveaux au sein d’une ou plusieurs
hiérarchies. Chaque fait devient un cube de données dont les indicateurs sont les mesures
du fait et la clé est la concaténation des clés des tables de dimensions. Le schéma logique
est stocké dans le référentiel de l’outil OWB.
6. Définition des mappings ETL : Cette étape établie la correspondance entre chaque concept
du schéma en étoile construit (les cubes ainsi que les dimensions et leurs attributs
organisés en hiérarchies) avec son élément bijectif dans la source. D’une perspective
logique, ces correspondances sont matérialisées par des connexions entre d'une part, les
métadonnées relationnelles de la base source et, d'autre part, les métadonnées des objets
OWB impliqués dans un mapping.
7. Chargement des MD à partir de la source : une fois la génération des mappings est
terminée avec succès, le déploiement des objets multidimensionnels aura lieu pour assurer
le chargement des MD générés (les dimensions puis leur fait).
L'outil DM-Creator
Pour tester nos propos visant à réduire les difficultés de l'utilisation manuelle de OWB
(nécessité de compétences de manipulation) en automatisant le passage vers le niveau
logique, nous avons développé un outil logiciel appelé DM-Creator (« Data Mart Creator »).
Cet outil est implanté en JBuilderX, il repose sur une méta-base créée sous Oracle 10g et
alimenté par l’outil CAME avec les métadonnées des schémas conceptuels extraits d’une
source relationnelle. Pour l’implantation de DM-Creator :
- Nous avons choisi l’outil OWB pour héberger les cubes de données issus de la
transformation des schémas conceptuels. OWB est un outil ETL caractérisé par sa
grande capacité d’intégration aux composants technologiques d’Oracle ; de plus,
son référentiel est conforme à la norme CWM (« Common Warehouse
Metamodel »). En complément, il fournit une API Java que nous avons exploitée
pour créer et établir le mapping des objets OWB quasi-automatiquement.
RNTI - X -
Hajlaoui et al.
RNTI - X -
DM-Creator : Un outil de mise en œuvre assistée de MD en étoile
CLIENT (NUM_CLI, NOM_CLI, PRE_CLI, ADR_CLI, VILLE_CLI, NUM_TEL, COD_PTT, NUM_TYP : TYPE_CL,
NUM_SEC_ACT: SECTEUR)
FIG. 4 – Schéma en étoile CREDIT construit automatiquement avec CAME et visualisé avec
MPI-Editor.
Rappelons que les métadonnées du schéma conceptuel en étoile centré sur le fait
CREDIT sont stockées dans le référentiel des schémas de MD de l’outil CAME. A partir de
ce référentiel, DM-Creator récupère les MD extraits et les affiche via l'interface graphique de
la figure 5. Cette interface permet à l'utilisateur de :
- Visualiser tous les faits extraits à partir d'une même source.
- Visualiser pour chaque fait pointé ses mesures ainsi que ses dimensions organisées
en hiérarchies.
- Sélectionner/désélectionner le ou les MD à créer. Le menu Edition assiste le
concepteur à maintenir tout ou partie des MD.
- Lancer le processus de création des MD sélectionnés.
RNTI - X -
Hajlaoui et al.
RNTI - X -
DM-Creator : Un outil de mise en œuvre assistée de MD en étoile
RNTI - X -
Hajlaoui et al.
Selon le même principe les mappings des autres dimensions et du cube CREDIT sont
générés et exécutés. Le mapping d’un cube construit pour un MD est aussi visualisable à
travers l’éditeur de mapping OWB. La figure 8 montre la représentation graphique du
mapping généré pour la table de fait CREDIT à partir des deux tables COMPTE et CREDIT
de la source. Finalement, le déploiement et l'exécution de l'ensemble des mappings générés
alimentent le MD créé avec les données issues de la BD relationnelle initiale.
Conclusion et perspectives
Conscients d'une part, de l'importance et de la lenteur de l'étape logique du processus de
mise en œuvre d'un système d'information décisionnel, et d'autre part de l'absence d'outils
logiciels spécifique à l'automatisation de cette étape, nous avons présenté dans cet article
notre prototype logiciel nommé DM-Creator (Data Mart Creator) qui assiste le concepteur
dans l'implantation de MD sur une plateforme cible OWB (Oracle Warehouse Builder). DM-
Creator travaille sur un schéma conceptuel en étoile produit par CAME (l’outil de conception
quasi-automatique de schémas en étoile à partir d'une BD relationnelle) et étroitement ancré
à la source OLTP sur laquelle il est construit. Cet ancrage garantit trois fonctionnalités
importantes de DM-Creator : i) Le mapping automatique de la quasi-totalité des éléments du
schéma en étoile avec la source OLTP, ii) La génération du code d'implantation des schémas
logiques, et iii) la génération des procédures de chargement. DM-Creator communique avec
le SGBD Oracle pour stocker le résultat de ces étapes dans le référentiel OWB.
Beaucoup d'améliorations de DM-Creator sont envisageables. Nous citons à titre
d'exemple, la prise en compte de certains aspects du processus de nettoyage des données
avant chargement, le mapping et la génération du code pour le chargement des données
calculées (i.e., paramètres ou mesures).
RNTI - X -
DM-Creator : Un outil de mise en œuvre assistée de MD en étoile
Références
Ben-Abdallah, H., J. Feki, et M. Ben Abdallah (2009). A Multidimensional Pattern based
Approach for the Design of Data Marts. Progressive Methods in Data Warehousing and
Business Intelligence: Concepts and Competitive Analytics, Volume 3 of the Advances in
Data Warehousing and Mining Series, IGI Global, David Taniar Edition, pp. 172-192.
Ben Abdallah, M., J. Feki, et H., Ben-Abdallah (2006). MPI-EDITOR : Un outil de
spécification de besoins OLAP par réutilisation logique de patrons multidimensionnels.
Atelier des Systèmes décisionnels (ASD’06).
Chaudhuri, S. et U. Dayal (1997). An Overview of Data Warehousing and OLAP
Technology. ACM SIGMOD, vol. 26, n° 1, pp. 65-74.
Calvanese, D., L. Dragone, D. Nardi, R. Rosati, et S. Trisolini (2006). Enterprise modeling
and Data Warehousing in Telecom Italia. Information Systems. 31 (1), pp. 1-31.
Feki, J. et Y. Hachaichi (2007). Conception assistée de MD : Une démarche et un outil.
Journal of Decision Systems (JDS), Ed. Lavoisier, vol. 16 – No.3, pp. 303-333.
Feki, J., A. Nabli, H. Ben-Abdallah, et F. Gargouri (2008). An Automatic Data Warehouse
Conceptual Design Approach. In Second edition of Encyclopedia of Data Warehousing
and Mining, John Wang Edition, pp. 110-119.
Golfarelli, M., D. Maio, et S. Rizzi (1998). The dimensional fact model: a conceptual model
for data warehouses. International Journal of Cooperative Information Systems, pp. 215-
247.
Golfarelli, M. et S. Rizzi (1998). Methodological Framework for Data Warehouse Design. In
Proc. DOLAP, (Bethesda, Maryland, USA), pp. 3-9.
Golfarelli, M., S. Rizzi, et E. Saltarelli (2002). WAND: A CASE tool for workload-based
design of a data mart. In Proc. SEBD, pp. 422-426.
Gutiérrez, A. et A. Marotta (2001). Designing relational data warehouses through schema-
transformation primitives-A Prototype.
Hachaichi, Y., J. Feki, et H. Ben-Abdallah (2009). Designing Data Marts from XML and
Relational Data Sources. Chapter in Data Warehousing Design and Advanced
Engineering Applications: Methods for Complex Construction, Part of the Advances in
Data Warehousing and Mining (ADWM) Book Series, pp. 55-80.
IBM (2010). Cognos PowerPlay : http://www.ibm.com/software/data/cognos/
Muñoz, L., J. Mazón, et J. Trujillo (2009). Automatic generation of ETL processes from
conceptual models. In Proceeding of the ACM Twelfth international Workshop on Data
Warehousing and OLAP, pp. 43-40.
Marotta A. et R. Ruggia (2002). Data Warehouse Design: A schema-transformation
Approach. In Proc., 12th SCCC, pp. 153-162.
Mazón, J.-N. et J. Trujillo (2008). An MDA approach for the development of data
warehouses. Decision. Support Syst., pp. 41-58.
RNTI - X -
Hajlaoui et al.
Noirault, C. (2006). Business Intelligence avec Oracle 10g (ETL, Data warehouse, Data
mining, rapports...). Editions ENI.
Oracle (2010). Oracle Warehouse Builder 10g :
http://www.oracle.com/technology/products/warehouse/
Peralta, V. (2003). Data Warehouse Logical Design from Multidimensional Conceptual
Schemas.
Summary
The data warehouse development process follows three steps namely conceptual, logical and
physical. Generally, these steps are manually performed. The software prototype CAME
performs the first step ; it generates data mart conceptual star schemas according to a bottom-
up approach starting from a relational DB. This work expands CAME toward the logical step
in order to derive a logical schema for a conceptual one. More accurately, it assists data
warehouse designers in i) implementing the data-mart star schema in M-OLAP technology,
ii) establishing the necessary mappings, and iii) generating the ETL procedures to feed the
data mart with data from the relational data source. This paper describes these functionalities
supported by a tool called DM-Creator and integrated to CAME.
RNTI - X -