You are on page 1of 14

OLAP

(OnLine Analytical Processing)


I.S.C. Zoraya Catalina Flores Jurez
Bases de Datos
Otoo, 2012.

OLAP(OnLine Analytical Processing)

Introduccin.
Las empresas han comenzado a aprovechar los cada vez ms numerosos datos en lnea para tomar
mejores decisiones sobre sus actividades, como por ejemplo los artculos que deben tener en
inventario y el modo de dirigirse mejor a los clientes para aumentar las ventas.
Las grandes empresas tienen varios orgenes de datos que necesitan utilizar para adoptar
decisiones empresariales. Los orgenes pueden almacenar los datos segn diferentes esquemas.
Por motivos de rendimiento (as como por motivos de control de la organizacin) los orgenes de
datos no suelen permitir que otras partes de la empresa recuperen datos a peticin. Para ejecutar
de manera eficiente las consultas sobre datos tan diferentes las empresas han creado almacenes
de datos (Date Warehouse). Los almacenes de datos renen los datos de varios orgenes bajo un
esquema unificado en un solo sitio. Por tanto, ofrecen al usuario una sola interfaz uniforme para
los datos.
El rea de procesamiento analtico en lnea (Online Analytical Processing, OLAP) trata de las
herramientas y de las tcnicas para el anlisis de los datos que pueden dar respuestas casi
instantneas a las consultas que soliciten datos resumidos, aunque la cantidad de datos sea
extremadamente grande.

Antecedentes.
El trmino OLAP fue introducido en Agosto de 1993 por el Dr. E.F. Codd y apoyado por Arbor
Software Corporation, compaa que cre ESSBASE que fue una de las primeras herramientas
OLAP que aparecen en el mercado, adquirida luego por Hyperion Software.
Segn la definicin que le dio Codd, OLAP es un tipo de procesamiento de datos que se
caracteriza, entre otras cosas, por permitir el anlisis multidimensional.

ISC. Zoraya C. Flores Jurez

Pgina 2

OLAP(OnLine Analytical Processing)

OLAP (On Line Analytical Processing)


Es una solucin utilizada en el campo de la llamada Inteligencia empresarial (o Business
Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza
estructuras multidimensionales (o Cubos OLAP) que contienen datos resumidos de grandes Bases
de datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing,
informes de direccin, minera de datos y reas similares.

Tipos de OLAP
MOLAP (Multidimensional OnLine Analytical Processing)
Dedicado a implementaciones de procesamiento analtico en lnea que no dependen de bases de
datos relacionales. Aunque los sistemas MOLAP no escalan con el tamao que los sistemas de
bases de datos relacionales pueden, por lo general ofrecen un mejor rendimiento y ms
estrechamente herramientas integradas que sus contrapartes relacionales. Imagen 1.
Ventajas

Permite generar consultas rpidas debido a la optimizacin del rendimiento de


almacenamiento, la indexacin multidimensional y la memoria cach.
Ocupa menor tamao en disco en comparacin con los datos almacenados en base de datos
relacional debido a tcnicas de compresin.
Automatizacin del procesamiento de los datos agregados de mayor nivel.
Muy compacto para conjuntos de datos de pocas dimensiones.
Eficaz extraccin de datos lograda gracias a la pre-estructuracin de los datos agregados.

Desventajas

La etapa de procesamiento (carga de datos) puede ser bastante larga, sobre todo para
grandes volmenes de datos.
Algunas herramientas MOLAP tienen dificultades para actualizar y consultar los modelos con
hasta cierto nmero de dimensiones. Este lmite vara en funcin de la complejidad y la
cardinalidad de las dimensiones de que se trate. Tambin depende de la cantidad de hechos o
medidas almacenados. Otras herramientas MOLAP (por ejemplo, Microsoft Anlisis
Services o Applix TM1) puede manejar cientos de dimensiones.
El enfoque MOLAP introduce redundancia en los datos.

ISC. Zoraya C. Flores Jurez

Pgina 3

OLAP(OnLine Analytical Processing)


ROLAP (Procesamiento Analtico OnLine Relacional).
Es una forma de procesamiento analtico en lnea (OLAP) que realiza un anlisis dinmico
multidimensional de los datos almacenados en una base de datos relacional en lugar de en una
base de datos multidimensional, como se muestra en la imagen 1.
En este tipo de procesamiento el usuario enva una solicitud de anlisis multidimensional y el
motor ROLAP convierte la solicitud a SQL para su presentacin a la base de datos. A continuacin,
la operacin se realiza a la inversa: el motor convierte los datos resultantes de SQL a un formato
multidimensional antes de que se devuelve al cliente para su visualizacin.
Ventajas.
La construccin de herramientas OLAP sobre sistemas relacionales presenta algunas ventajas
frente a los sistemas multidimensionales:

ROLAP se considera ms escalable para manejar grandes volmenes de datos, especialmente


modelos con dimensiones de gran cardinalidad (por ejemplo, con millones de miembros).

Hay disponible una gran variedad de herramientas de carga de datos para sistemas
relacionales; adems, existe la posibilidad de ajustar el cdigo ETL(Extract, Transform, Load) a
un modelo de datos particular. Con todo esto se consigue que los tiempos de carga sean
generalmente mucho menores que con las cargas MOLAP automatizadas.

Los datos se almacenan en una base de datos relacional estndar que puede ser accedida por
cualquier herramienta de generacin de informes SQL. Estas herramientas no tienen que ser
necesariamente de tipo OLAP.

Desventajas.

Hay un consenso general en la industria de que las herramientas ROLAP tienen menor rendimiento
que las herramientas MOLAP.

El proceso de carga de tablas agregadas debe ser gestionado por cdigo ETL personalizado.
Las herramientas ROLAP no disponen de mecanismos automticos para realizar esta tarea, lo
que significa que se necesita ms tiempo de desarrollo de cdigo.

Muchos desarrolladores de modelos dimensionales ROLAP ignoran el paso de crear tablas


agregadas. En este caso el rendimiento de una consulta se ve afectado porque entonces se
necesita consultar las tablas con datos ms detallados.

ISC. Zoraya C. Flores Jurez

Pgina 4

OLAP(OnLine Analytical Processing)

Los sistemas ROLAP se construyen sobre bases de datos de propsito general, por lo que hay
algunas funcionalidades especiales propias de las herramientas MOLAP que no estn
disponibles en los sistemas ROLAP (tales como el indexado jerrquico especial).

HOLAP (Hybrid OnLine Analytical Process)


Es la forma de Procesamiento Analtico que combina los atributos de MOLAP y ROLAP. En el caso
de HOLAP las agregaciones se almacenen en una estructura multidimensional y los datos a nivel
detalle se realiza el almacenamiento en una base de datos relacional (no tan rpido comparado
con MOLAP) como se muestra en la magen1.
Se recomienda este tipo de procesamiento en los siguientes casos:

Cubos que requieren rpida respuesta


Cuando existen sumarizaciones basadas en una gran cantidad de datos de origen.

Fig 1. Integracin de un servidor OLAP y un SGBD relacional.


ISC. Zoraya C. Flores Jurez

Pgina 5

OLAP(OnLine Analytical Processing)

Esquemas de los almacenes de datos


Los almacenes de datos suelen tener esquemas diseados para el anlisis de los datos y emplean
herramientas como las herramientas OLAP. Por tanto, los datos suelen ser datos
multidimensionales, con atributos de dimensin y atributos de medida.

Tabla de Hechos.
Una tabla de hecho es la tabla principal en un modelo dimensional donde se almacena las medidas
de rendimiento numricos de la empresa, como se ilustra en la figura. 2.
Usamos el trmino hecho para representar una medida de negocio. Podemos imaginarnos en un
plaza viendo los productos vendidos y anotando la cantidad de vendida y el monto de la venta en
dlares en cada da de cada producto de la tienda. La medida se toma de la interseccin de todas
las dimensiones (da, producto y tienda). Esta lista de dimensiones define la granularidad de la
tabla de hechos y el alcance de la medida que tiene.

Figura 2. Tabla de Hechos

Tabla de Dimensiones
Las tablas de dimensiones son compaeros integrales de una tabla de hechos. Las tablas de
dimensiones contienen las descripciones textuales de los negocios, como se ilustra en la figura 3.
En un modelo dimensional bien diseado, las tablas de dimensiones tienen muchas columnas o
atributos. Estos atributos describen las columnas en la tabla de dimensiones. Nos esforzamos por
incluir tantas descripciones significativas como sea posible. No es raro para una tabla de
dimensiones para tener de 50 a 100 atributos. Las tablas de dimensiones tienden a ser
relativamente poco profunda en trminos del nmero de filas (a menudo mucho menos de 1
milln de filas), pero son anchas con muchas columnas grandes. Cada dimensin es definida por su
sola clave primaria, designado por la notacin PK en la Figura 3 que sirve como la base para la
integridad referencial con cualquier tabla de hechos dada a la que est unida.

Los atributos de dimensin juegan un papel vital en el almacn de datos. Ya que son la fuente de
prcticamente todas las restricciones interesantes y etiquetas de informes, que son clave para que
el almacn de datos sea utilizable y comprensible. En muchos sentidos, el almacn de datos es
ISC. Zoraya C. Flores Jurez

Pgina 6

OLAP(OnLine Analytical Processing)


slo tan bueno como los atributos de dimensin. El poder del almacn de datos es directamente
proporcional a la calidad y la profundidad de los atributos de dimensin.

Figura 2. Tabla de Dimensin


Ejemplo de las tablas dimensionales y hechos en un informe sencillo

Fig. 4. Ejemplo de las tablas dimensionales y hechos en un informe sencillo


ISC. Zoraya C. Flores Jurez

Pgina 7

OLAP(OnLine Analytical Processing)

Modelos de un Data Warehouse


Modelo Estrella

Consta de una tabla de hechos central y de varias tablas de dimensiones relacionadas a esta, a
travs de sus respectivas claves.
Este modelo debe estar totalmente desnormalizado, es por ello que por ejemplo, la tabla de
dimensin PRODUCTOS contiene los campos Rubro, Tipo y NombreProducto. Si se
normaliza esta tabla, se obtendr el siguiente resultado.

Cuando se normaliza, se pretende eliminar la redundancia, la repeticin de datos y que las claves
sean independientes de las columnas, pero en este tipo de modelos se requiere no evitar
precisamente esto.
Las ventajas que trae el proceso de desnormalizar, son las de obviar uniones (Join) entre las tablas
cuando se realizan consultas, procurando as un mejor tiempo de respuesta y una mayor sencillez
con respecto a su utilizacin. El punto en contra, es que se genera un cierto grado de redundancia,
pero el ahorro de espacio no es significativo.
El esquema en estrella es el ms simple de interpretar y optimiza los tiempos de respuesta ante las
consultas de los usuarios. Este modelo es soportado por casi todas las herramientas de consulta y
ISC. Zoraya C. Flores Jurez

Pgina 8

OLAP(OnLine Analytical Processing)


anlisis, y los metadatos son fciles de documentar y mantener, sin embargo es el menos robusto
para la carga y es el ms lento de construir.
Ventajas:

Posee los mejores tiempos de respuesta.


Su diseo es fcilmente modificable.
Existe paralelismo entre su diseo y la forma en que los usuarios visualizan y manipulan
los datos.
Simplifica el anlisis.
Facilita la interaccin con herramientas de consulta y anlisis.

Modelo Copo de Nieve

Este modelo consta una tabla de hechos central que est relacionada con una o ms tablas de
dimensiones, quienes a su vez pueden estar relacionadas o no con una o ms tablas de
dimensiones.
Este modelo es ms cercano a un modelo de entidad relacin, que al modelo en estrella, debido a
que sus tablas de dimensiones estn normalizadas.
Una de los motivos principales de utilizar este tipo de modelo, es la posibilidad de segregar los
datos de las tablas de dimensiones y proveer un esquema que sustente los requerimientos de
diseo. Otra razn es que es muy flexible y puede implementarse despus de que se haya
desarrollado un esquema en estrella.

Ventajas.

Posee mayor complejidad en su estructura.

Hace una mejor utilizacin del espacio.

Es muy til en tablas de dimensiones de muchas tuplas.

Las tablas de dimensiones estn normalizadas, por lo que requiere menos esfuerzo de
diseo.

ISC. Zoraya C. Flores Jurez

Pgina 9

OLAP(OnLine Analytical Processing)


Desventajas.

Si se poseen mltiples tablas de dimensiones, cada una de ellas con varias jerarquas, se
crear un nmero de tablas bastante considerable, que pueden llegar al punto de ser
inmanejables.

Al existir muchas uniones y relaciones entre tablas, el desempeo puede verse reducido.

La existencia de las diferentes jerarquas de dimensiones debe estar bien fundamentada, ya que
de otro modo las consultas demorarn ms tiempo en devolver los resultados, debido a que se
deben realizar las uniones entre las tablas.

Modelo Constelacin

Este modelo est compuesto por una serie de esquemas en estrella, est formado por una tabla
de hechos principal (HECHOS_A) y por una o ms tablas de hechos auxiliares (HECHOS_B), las
cuales pueden ser sumarizaciones de la principal. Dichas tablas yacen en el centro del modelo y
estn relacionadas con sus respectivas tablas de dimensiones.
No es necesario que las diferentes tablas de hechos compartan las mismas tablas de dimensiones,
ya que, las tablas de hechos auxiliares pueden vincularse con solo algunas de las tablas de
dimensiones asignadas a la tabla de hechos principal, y tambin pueden hacerlo con nuevas tablas
de dimensiones.

Caractersticas

Permite tener ms de una tabla de hechos, por lo cual se podrn analizar ms aspectos
claves del negocio con un mnimo esfuerzo adicional de diseo.

Contribuye a la reutilizacin de las tablas de dimensiones, ya que una misma tabla de


dimensin puede utilizarse para varias tablas de hechos.

ISC. Zoraya C. Flores Jurez

Pgina 10

OLAP(OnLine Analytical Processing)

No es soportado por todas las herramientas de consulta y anlisis

Jerarquas
Representa una relacin lgica entre dos o ms atributos pertenecientes a un cubo
multidimensional; siempre y cuando posean su correspondiente relacin padre-ho.
Las jerarquas poseen las siguientes caractersticas:

Pueden existir varias en un mismo cubo.

Estn compuestas por dos o ms niveles.

Se tiene una relacin 1-n o padre-ho entre atributos consecutivos de un nivel


superior y uno inferior.

La principal ventaja de manejar jerarquas, reside en poder analizar los datos desde su nivel ms
general al ms detallado y viceversa, al desplazarse por los diferentes niveles.

Operaciones

El manejo de jerarquas en los cubos de datos permite realizar operaciones que facilitan el anlisis
de la informacin. Las operaciones que pueden realizarse son:

Slice(Corte). Es el acto de elegir un subconjunto de un cubo rectangular eligiendo un nico


valor para una de sus dimensiones, la creacin de un nuevo cubo con una dimensin
menos. Ejemplo:

ISC. Zoraya C. Flores Jurez

Pgina 11

OLAP(OnLine Analytical Processing)


Las cifras de ventas de todas las regiones de ventas y todas las categoras de productos de la
empresa en el ao 2004 se han "cortado" del cubo de datos.

Dice. Esta operacin produce un subcubo que permite al analista tomar valores especficos de
mltiples dimensiones. Ejemplo de un corte en anillos:

El nuevo cubo muestra las cifras de venta de un nmero limitado de categoras de productos,
las dimensiones de tiempo y regin cubrir el mismo rango que antes.

Drill Down / Up. Permite al usuario navegar entre los niveles de datos que van desde el ms
resumido (arriba) hasta los ms detallados (abajo).

El analista pasa de la categora de resumen "Outdoor-Schutzausrstung" para ver las cifras de


ventas de los productos individuales.

ISC. Zoraya C. Flores Jurez

Pgina 12

OLAP(OnLine Analytical Processing)

Roll-up. Resume los datos a lo largo de una dimensin. La regla sumarizacin podra calcular
los totales a lo largo de una jerarqua o una aplicacin de un conjunto de frmulas como
"ganancia = ventas - gastos".

Pivot. Permite al analista rotar el cubo en el espacio para ver sus caras distintas. Por ejemplo,
las ciudades podran estar dispuestas verticalmente y horizontalmente productos mientras ve
los datos de un trimestre determinado. Pivoteando podra reemplazar productos con perodos
de tiempo para ver los datos a travs del tiempo para un solo producto.

ISC. Zoraya C. Flores Jurez

Pgina 13

OLAP(OnLine Analytical Processing)

Bibliografa.
Kimball Ralph, Ross Margy, The Data Warehouse Toolkit 2da. Edicin, The Complete Guide to
Dimensional Modeling, John Wiley & Sons, Inc., 2002.
Thomsen Erik, OLAP Solutions Building Multidimensional Information Systems 2da. Edicin, The
Complete Guide to Dimensional Modeling, John Wiley & Sons, Inc., 2002.
Silberschatz Abraham, F. Korth Henry, Sudarshan S., Fundamentos de Bases de Datos 4ta. Edicin,
Mc. Graw. Hill, 2002.
Date, C. J., Introduccin a los sistemas de bases de datos., Prentice Hall, 2001.
http://www.dssresources.com/glossary/olaptrms.html
http://searchsqlserver.techtarget.com/definition/MOLAP
http://www.dataprix.com/datawarehouse-manager
http://en.wikipedia.org/wiki/OLAP_cube#Hierarchy
http://es.wikipedia.org/wiki/Cubo_OLAP

ISC. Zoraya C. Flores Jurez

Pgina 14

You might also like