You are on page 1of 33

DATA WAREHOUSE

TEMARIO

1. ¿Qué es Data Warehouse?


2. Conceptos básicos:
a. Características
b. Aplicaciones
c. Alternativas de Diseño
d. Herramientas Utilizadas
e. Datamining
f. Base de Datos Multidimensional
g. Metadatos
h. Procesos de Construcción
i. Técnicas Explotación
Un Datawarehouse es una base de
datos corporativa que se caracteriza
por integrar y depurar información de Data Warehouse
una o más fuentes distintas, para
luego procesarla permitiendo su
análisis desde infinidad de
pespectivas y con grandes
velocidades de respuesta.
La creación de un datawarehouse
representa en la mayoría de las
Data Warehouse ocasiones el primer paso, desde el
punto de vista técnico, para implantar
una solución completa y fiable de
Business Intelligence.
La ventaja principal de este tipo de bases de datos radica en las
estructuras en las que se almacena la información (modelos de
tablas en estrella, en copo de nieve, cubos relacionales... etc).
Este tipo de persistencia de la información es homogénea y fiable,
y permite la consulta y el tratamiento jerarquizado de la misma
(siempre en un entorno diferente a los sistemas operacionales).

El término Datawarehouse fue acuñado por primera vez por Bill


Inmon, y se traduce literalmente como almacén de datos.
Características

Entre las principales se tiene:


· Orientado al tema
· Integrado
· Variante en el Tiempo
· No volátil
Integrado: los datos almacenados
en el datawarehouse deben
integrarse en una estructura
consistente, por lo que las
inconsistencias existentes entre los
diversos sistemas operacionales
deben ser eliminadas. La información
suele estructurarse también en
distintos niveles de detalle para
adecuarse a las distintas necesidades
de los usuarios.
Temático: sólo los datos necesarios para
el proceso de generación del conocimiento
del negocio se integran desde el entorno
operacional. Los datos se organizan por
temas para facilitar su acceso y
entendimiento por parte de los usuarios
finales. Por ejemplo, todos los datos sobre
clientes pueden ser consolidados en una
única tabla del datawarehouse. De esta
forma, las peticiones de información sobre
clientes serán más fáciles de responder
dado que toda la información reside en el
mismo lugar.
Histórico: el tiempo es parte implícita de
la información contenida en un
datawarehouse. En los sistemas
operacionales, los datos siempre reflejan
el estado de la actividad del negocio en el
momento presente. Por el contrario, la
información almacenada en el
datawarehouse sirve, entre otras cosas,
para realizar análisis de tendencias. Por lo
tanto, el datawarehouse se carga con los
distintos valores que toma una variable en
el tiempo para permitir comparaciones.
No volátil: el almacén de información de
un datawarehouse existe para ser leído,
pero no modificado. La información es por
tanto permanente, significando la
actualización del datawarehouse la
incorporación de los últimos valores que
tomaron las distintas variables contenidas
en él sin ningún tipo de acción sobre lo
que ya existía.
Diferencias
Base de Datos Operacional Data Warehouse
Datos Operacionales Datos del negocio para Información
Orientado a la aplicación Orientado al sujeto
Actual Actual + histórico
Detallada Detallada + más resumida
Cambia continuamente Estable
Otra característica del
datawarehouse es que contiene
metadatos, es decir, datos sobre
los datos.

Los metadatos permiten saber la


procedencia de la información, su
periodicidad de refresco, su
fiabilidad, forma de cálculo... etc.

Los metadatos serán los que


permiten simplificar y automatizar
la obtención de la información
desde los sistemas operacionales a
los sistemas informacionales.
Los objetivos que deben cumplir los metadatos, según el colectivo al que va
dirigido, son:

Dar soporte al usuario final, ayudándole a acceder al datawarehouse con


su propio lenguaje de negocio, indicando qué información hay y qué
significado tiene. Ayudar a construir consultas, informes y análisis, mediante
herramientas de Business Intelligence como DSS, EIS o CMI.

Dar soporte a los responsables técnicos del datawarehouse en


aspectos de auditoría, gestión de la información histórica, administración
del datawarehouse, elaboración de programas de extracción de la
información, especificación de las interfaces para la realimentación a los
sistemas operacionales de los resultados obtenidos... etc.
• Se debe destacar que para comprender íntegramente el
concepto de datawarehouse, es importante entender cual es
el proceso de construcción del mismo, denominado ETL
(Extracción, Transformación y Carga), a partir de los sistemas
operaciones de una compañía:
Extracción: obtención de información de las
distintas fuentes tanto internas como externas.
Transformación: filtrado, limpieza, depuración,
homogeneización y agrupación de la
información.
Carga: organización y actualización de los datos
y los metadatos en la base de datos.
Principales aportaciones de un datawarehouse

- Proporciona una herramienta para la toma de decisiones en cualquier


área funcional, basándose en información integrada y global del negocio.

- Facilita la aplicación de técnicas estadísticas de análisis y modelización


para encontrar relaciones ocultas entre los datos del almacén; obteniendo
un valor añadido para el negocio de dicha información.

- Proporciona la capacidad de aprender de los datos del pasado y de


predecir situaciones futuras en diversos escenarios.

- Simplifica dentro de la empresa la implantación de sistemas de gestión


integral de la relación con el cliente.

- Supone una optimización tecnológica y económica en entornos de


Centro de Información, estadística o de generación de informes con
retornos de la inversión espectaculares.
Alternativas de Diseño

1. Creación de varios Datamarts independientes, uno por cada


dominio o fuente de información, y definición de una Capa Usuario
por cada uno de estos Datamarts.

a. Un Datamart es una base de datos departamental, especializada en el


almacenamiento de los datos de un área de negocio específica. Se caracteriza por disponer la
estructura óptima de datos para analizar la información al detalle desde todas las perspectivas
que afecten a los procesos de dicho departamento.
Un datamart puede ser alimentado desde los datos de un datawarehouse, o integrar por si
mismo un compendio de distintas fuentes de información.
Alternativas de Diseño

2. Creación de un único Datawarehouse que englobe todos los datos,


del que se extraigan diferentes Datamarts, uno por cada dominio o
fuente de información y definición de una Capa Usuario por cada
Datamart.
3. Creación de un único Datawarehouse con definición de una única
Capa Usuario.

4. Creación de un único Datawarehouse con definición de varias Capas


Usuario.
Datamarts

Por tanto, para crear el datamart de un área funcional de la


empresa es preciso encontrar la estructura óptima para el
análisis de su información, estructura que puede estar montada
sobre una base de datos OLTP, como el propio datawarehouse,
o sobre una base de datos OLAP. La designación de una u otra
dependerá de los datos, los requisitos y las características
específicas de cada departamento. De esta forma se pueden
plantear dos tipos de datamarts:
Datamart OLAP

Se basan en los populares cubos OLAP, que se construyen


agregando, según los requisitos de cada área o departamento,
las dimensiones y los indicadores necesarios de cada cubo
relacional.

El modo de creación, explotación y mantenimiento de los cubos


OLAP es muy heterogéneo, en función de la herramienta final
que se utilice.
Datamart OLTP

Pueden basarse en un simple extracto del datawarehouse, no


obstante, lo común es introducir mejoras en su rendimiento (las
agregaciones y los filtrados suelen ser las operaciones más
usuales) aprovechando las características particulares de cada
área de la empresa.

Las estructuras más comunes en este sentido son las tablas


report, que vienen a ser fact-tables reducidas (que agregan las
dimensiones oportunas), y las vistas materializadas, que se
construyen con la misma estructura que las anteriores, pero con
el objetivo de explotar la reescritura de queries (aunque sólo es
posibles en algunos SGBD avanzados, como Oracle).
Los datamarts que están dotados con estas estructuras óptimas
de análisis presentan las siguientes ventajas:

a. Poco volumen de datos

b. Mayor rapidez de consulta

c. Consultas SQL y/o MDX sencillas

d. Validación directa de la información

e. Facilidad para la historización de los datos


Bases de datos OLTP y OLAP

OLTP - On-Line Transactional Processing


Herramientas Utilizadas
Los sistemas OLTP son bases de datos orientadas al procesamiento de
transacciones.
Una transacción genera un proceso atómico (que debe ser validado con
un commit, o invalidado con un rollback), y que puede involucrar operaciones de
inserción, modificación y borrado de datos. El proceso transaccional es típico de
las bases de datos operacionales.

a. El acceso a los datos está optimizado para tareas frecuentes de lectura y


escritura. (Por ejemplo, la enorme cantidad de transacciones que tienen que
soportar las BD de bancos o hipermercados diariamente).
b. Los datos se estructuran según el nivel aplicación (programa de gestión a
medida, ERP o CRM implantado, sistema de información departamental...).
c. Los formatos de los datos no son necesariamente uniformes en los diferentes
departamentos (es común la falta de compatibilidad y la existencia de islas de
datos).
d. El historial de datos suele limitarse a los datos actuales o recientes.
Bases de datos OLTP y OLAP

OLAP - On-Line Analytical Processing


Herramientas Utilizadas
Los sistemas OLAP son bases de datos orientadas al procesamiento analítico.

Este análisis suele implicar, generalmente, la lectura de grandes cantidades de


datos para llegar a extraer algún tipo de información útil: tendencias de ventas,
patrones de comportamiento de los consumidores, elaboración de informes
complejos… etc. Este sistema es típico de los datamarts.

a. El acceso a los datos suele ser de sólo lectura. La acción más común es la
consulta, con muy pocas inserciones, actualizaciones o eliminaciones.
b. Los datos se estructuran según las áreas de negocio, y los formatos de los
datos están integrados de manera uniforme en toda la organización.
c. El historial de datos es a largo plazo, normalmente de dos a cinco años.
d. Las bases de datos OLAP se suelen alimentar de información procedente de
los sistemas operacionales existentes, mediante un proceso de extracción,
transformación y carga (ETL).
Persistencia MOLAP, ROLAP, HOLAP

Los cubos, las dimensiones y las jerarquías son la esencia de la navegación


Herramientas
multidimensional del OLAP. Al describir y representar la información en estaUtilizadas
forma,
los usuarios pueden navegar intuitivamente en un conjunto complejo de datos.

Sin embargo, el solo describir el modelo de datos en una forma más intuitiva, hace
muy poco para ayudar a entregar la información al usuario más rápidamente.
Datamining (Minería de Datos)

Es el conjunto de técnicas y tecnologías que


permiten explorar grandes bases de datos, de
manera automática o semiautomática, con el
objetivo de encontrar patrones repetitivos,
tendencias o reglas que expliquen el
comportamiento de los datos en un determinado
contexto. Hace uso de prácticas estadísticas y, en
algunos casos, de algoritmos de búsqueda
próximos a la Inteligencia Artificial y a las redes
neuronales.
Base de Datos Multidimensionales

Se utilizan principalmente para crear aplicaciones OLAP y pueden


verse como bases de datos de una sola tabla, su peculiaridad es que
por cada dimensión tienen un campo (o columna), y otro campo por
cada métrica o hecho, es decir estas tablas almacenan registros cuyos
campos son de la forma:
(d1,d2,d3,...,f1,f2,f3,...)
Donde los campos 'di' hacen referencia a las dimensiones de la tabla, y
los campos 'fi' a las métricas o hechos que se quiere almacenar,
estudiar o analizar.
Técnicas de Explotación

La explotación del Data Warehouse mediante información de gestión,


se fundamenta básicamente en los niveles agrupados o calculados de
información.

Carga de Base de datos

Extracción, Depuración, Filtro, Elaboración


Base de Datos operativa vs
Data Warehouse
Una base de datos operativa:
Almacena la información de un sector del negocio.
Se actualiza a medida que llegan datos que deban ser almacenados.
Se opera mediante los cuatro mecanismos clásicos “añadir-eliminar-modificar-consulta”.
Normalmente se orienta hacia la elaboración de informes periódicos.
Suele manejar “pequeños” volúmenes de datos.
Entorno optimizado para muchas transacciones (con gran cantidad de actualizaciones).
Sirve de infraestructura al día a día de las funciones de explotación de una empresa.
Un Data Warehouse:
Almacena información integrada de los distintos sectores del negocio.
Su actualización se realiza a intervalos regulares (típicamente una al día) dentro de un
proceso controlado, y tras realizar un preprocesado de los datos que se van a almacenar.
Su orientación es hacia la consulta del estado del negocio y obtención de información
para ayuda en la toma de decisiones estratégicas.
Se ofrece información bajo demanda (análisis mediante el uso de herramientas de
generación de informes que consultan el data warehouse).
Refleja el modelo de negocio, frente al modelo de proceso.
Proceso de Extracción, Transformación
y Carga (ETL) de datos en el DW
Modelado de datos:
El modelo de datos multidimensional
Características del Modelo Dimensional (o Multidimensional)
Un modelo dimensional está compuesto de:
Una tabla con una clave primaria compuesta, denominada tabla de
hechos y un conjunto de tablas más pequeñas denominadas tablas de
dimensiones.
Cada una de las tablas de dimensión tiene una clave primaria que
corresponde exactamente con uno de los componentes de la clave
compuesta de la tabla de hechos.
La tabla de hechos, debido a su clave primaria compuesta de dos o más
claves ajenas, siempre expresa una relación 'n' a 'n'. Las tablas de hechos,
además de sus campos clave, contienen una o más medidas numéricas o
"hechos", que se "dan" para la combinación de las claves que definen
cada registro.
Modelado de datos:
El modelo de datos multidimensional
Características del Modelo Dimensional (o Multidimensional)
Tiene estructura que asemeja una estrella (o un copo de nieve):
Una gran tabla central o tabla de hechos está conectada con un conjunto de tablas
(una por dimensión) dispuestas de manera radial alrededor de esta tabla central.
Recibe a menudo el nombre de "star join" o modelado en estrella.
El modelado en estrella es altamente desnormalizado. Con ello se logra minimizar el
número de uniones y, por consiguiente, incrementar el rendimiento de las consultas
Una variante del modelo en estrella es el modelo en copo de nieve o snowflake. En
este modelado se normalizan las dimensiones (más de una tabla por dimensión)
creando así jerarquías en las mismas y conservando lo esencial del modelo en
estrella: las tablas de hechos

– Permite el empleo de diferentes bases de datos:


Denominado ROLAP, cuando se aplica el modelo dimensional a una base de datos
relacional.
Denominado MOLAP, cuando se aplica el modelo dimensional sobre base de datos
dimensional.
Glosario

• Data Warehouse: Es un repositorio estructurado, a nivel Empresa,


de datos orientados hacia áreas de negocio, que contiene datos
históricos y que está preparado para facilitar la toma de decisiones.
• Datamart: Es una base de datos orientada a un tema específico. En
otras palabras es un subconjunto del Data Warehouse Corporativo.
• Capa Usuario: Es una vista usuario de la base de datos que permite
su aislamiento respecto de la complejidad física de la misma. No
incluye ningún dato físico. Es una agrupación lógica de los datos
adaptada a los conocimientos y filosofía del Usuario
• OLAP: Tecnología que permite la explotación de datos en diferentes
niveles organizacionales y periodos de tiempo.
GRACIAS POR SU
ATENCION