Professional Documents
Culture Documents
Introduccin.
Las empresas han comenzado a aprovechar los cada vez ms numerosos datos en lnea para tomar
mejores decisiones sobre sus actividades, como por ejemplo los artculos que deben tener en
inventario y el modo de dirigirse mejor a los clientes para aumentar las ventas.
Las grandes empresas tienen varios orgenes de datos que necesitan utilizar para adoptar
decisiones empresariales. Los orgenes pueden almacenar los datos segn diferentes esquemas.
Por motivos de rendimiento (as como por motivos de control de la organizacin) los orgenes de
datos no suelen permitir que otras partes de la empresa recuperen datos a peticin. Para ejecutar
de manera eficiente las consultas sobre datos tan diferentes las empresas han creado almacenes
de datos (Date Warehouse). Los almacenes de datos renen los datos de varios orgenes bajo un
esquema unificado en un solo sitio. Por tanto, ofrecen al usuario una sola interfaz uniforme para
los datos.
El rea de procesamiento analtico en lnea (Online Analytical Processing, OLAP) trata de las
herramientas y de las tcnicas para el anlisis de los datos que pueden dar respuestas casi
instantneas a las consultas que soliciten datos resumidos, aunque la cantidad de datos sea
extremadamente grande.
Antecedentes.
El trmino OLAP fue introducido en Agosto de 1993 por el Dr. E.F. Codd y apoyado por Arbor
Software Corporation, compaa que cre ESSBASE que fue una de las primeras herramientas
OLAP que aparecen en el mercado, adquirida luego por Hyperion Software.
Segn la definicin que le dio Codd, OLAP es un tipo de procesamiento de datos que se
caracteriza, entre otras cosas, por permitir el anlisis multidimensional.
Pgina 2
Tipos de OLAP
MOLAP (Multidimensional OnLine Analytical Processing)
Dedicado a implementaciones de procesamiento analtico en lnea que no dependen de bases de
datos relacionales. Aunque los sistemas MOLAP no escalan con el tamao que los sistemas de
bases de datos relacionales pueden, por lo general ofrecen un mejor rendimiento y ms
estrechamente herramientas integradas que sus contrapartes relacionales. Imagen 1.
Ventajas
Desventajas
La etapa de procesamiento (carga de datos) puede ser bastante larga, sobre todo para
grandes volmenes de datos.
Algunas herramientas MOLAP tienen dificultades para actualizar y consultar los modelos con
hasta cierto nmero de dimensiones. Este lmite vara en funcin de la complejidad y la
cardinalidad de las dimensiones de que se trate. Tambin depende de la cantidad de hechos o
medidas almacenados. Otras herramientas MOLAP (por ejemplo, Microsoft Anlisis
Services o Applix TM1) puede manejar cientos de dimensiones.
El enfoque MOLAP introduce redundancia en los datos.
Pgina 3
Hay disponible una gran variedad de herramientas de carga de datos para sistemas
relacionales; adems, existe la posibilidad de ajustar el cdigo ETL(Extract, Transform, Load) a
un modelo de datos particular. Con todo esto se consigue que los tiempos de carga sean
generalmente mucho menores que con las cargas MOLAP automatizadas.
Los datos se almacenan en una base de datos relacional estndar que puede ser accedida por
cualquier herramienta de generacin de informes SQL. Estas herramientas no tienen que ser
necesariamente de tipo OLAP.
Desventajas.
Hay un consenso general en la industria de que las herramientas ROLAP tienen menor rendimiento
que las herramientas MOLAP.
El proceso de carga de tablas agregadas debe ser gestionado por cdigo ETL personalizado.
Las herramientas ROLAP no disponen de mecanismos automticos para realizar esta tarea, lo
que significa que se necesita ms tiempo de desarrollo de cdigo.
Pgina 4
Los sistemas ROLAP se construyen sobre bases de datos de propsito general, por lo que hay
algunas funcionalidades especiales propias de las herramientas MOLAP que no estn
disponibles en los sistemas ROLAP (tales como el indexado jerrquico especial).
Pgina 5
Tabla de Hechos.
Una tabla de hecho es la tabla principal en un modelo dimensional donde se almacena las medidas
de rendimiento numricos de la empresa, como se ilustra en la figura. 2.
Usamos el trmino hecho para representar una medida de negocio. Podemos imaginarnos en un
plaza viendo los productos vendidos y anotando la cantidad de vendida y el monto de la venta en
dlares en cada da de cada producto de la tienda. La medida se toma de la interseccin de todas
las dimensiones (da, producto y tienda). Esta lista de dimensiones define la granularidad de la
tabla de hechos y el alcance de la medida que tiene.
Tabla de Dimensiones
Las tablas de dimensiones son compaeros integrales de una tabla de hechos. Las tablas de
dimensiones contienen las descripciones textuales de los negocios, como se ilustra en la figura 3.
En un modelo dimensional bien diseado, las tablas de dimensiones tienen muchas columnas o
atributos. Estos atributos describen las columnas en la tabla de dimensiones. Nos esforzamos por
incluir tantas descripciones significativas como sea posible. No es raro para una tabla de
dimensiones para tener de 50 a 100 atributos. Las tablas de dimensiones tienden a ser
relativamente poco profunda en trminos del nmero de filas (a menudo mucho menos de 1
milln de filas), pero son anchas con muchas columnas grandes. Cada dimensin es definida por su
sola clave primaria, designado por la notacin PK en la Figura 3 que sirve como la base para la
integridad referencial con cualquier tabla de hechos dada a la que est unida.
Los atributos de dimensin juegan un papel vital en el almacn de datos. Ya que son la fuente de
prcticamente todas las restricciones interesantes y etiquetas de informes, que son clave para que
el almacn de datos sea utilizable y comprensible. En muchos sentidos, el almacn de datos es
ISC. Zoraya C. Flores Jurez
Pgina 6
Pgina 7
Consta de una tabla de hechos central y de varias tablas de dimensiones relacionadas a esta, a
travs de sus respectivas claves.
Este modelo debe estar totalmente desnormalizado, es por ello que por ejemplo, la tabla de
dimensin PRODUCTOS contiene los campos Rubro, Tipo y NombreProducto. Si se
normaliza esta tabla, se obtendr el siguiente resultado.
Cuando se normaliza, se pretende eliminar la redundancia, la repeticin de datos y que las claves
sean independientes de las columnas, pero en este tipo de modelos se requiere no evitar
precisamente esto.
Las ventajas que trae el proceso de desnormalizar, son las de obviar uniones (Join) entre las tablas
cuando se realizan consultas, procurando as un mejor tiempo de respuesta y una mayor sencillez
con respecto a su utilizacin. El punto en contra, es que se genera un cierto grado de redundancia,
pero el ahorro de espacio no es significativo.
El esquema en estrella es el ms simple de interpretar y optimiza los tiempos de respuesta ante las
consultas de los usuarios. Este modelo es soportado por casi todas las herramientas de consulta y
ISC. Zoraya C. Flores Jurez
Pgina 8
Este modelo consta una tabla de hechos central que est relacionada con una o ms tablas de
dimensiones, quienes a su vez pueden estar relacionadas o no con una o ms tablas de
dimensiones.
Este modelo es ms cercano a un modelo de entidad relacin, que al modelo en estrella, debido a
que sus tablas de dimensiones estn normalizadas.
Una de los motivos principales de utilizar este tipo de modelo, es la posibilidad de segregar los
datos de las tablas de dimensiones y proveer un esquema que sustente los requerimientos de
diseo. Otra razn es que es muy flexible y puede implementarse despus de que se haya
desarrollado un esquema en estrella.
Ventajas.
Las tablas de dimensiones estn normalizadas, por lo que requiere menos esfuerzo de
diseo.
Pgina 9
Si se poseen mltiples tablas de dimensiones, cada una de ellas con varias jerarquas, se
crear un nmero de tablas bastante considerable, que pueden llegar al punto de ser
inmanejables.
Al existir muchas uniones y relaciones entre tablas, el desempeo puede verse reducido.
La existencia de las diferentes jerarquas de dimensiones debe estar bien fundamentada, ya que
de otro modo las consultas demorarn ms tiempo en devolver los resultados, debido a que se
deben realizar las uniones entre las tablas.
Modelo Constelacin
Este modelo est compuesto por una serie de esquemas en estrella, est formado por una tabla
de hechos principal (HECHOS_A) y por una o ms tablas de hechos auxiliares (HECHOS_B), las
cuales pueden ser sumarizaciones de la principal. Dichas tablas yacen en el centro del modelo y
estn relacionadas con sus respectivas tablas de dimensiones.
No es necesario que las diferentes tablas de hechos compartan las mismas tablas de dimensiones,
ya que, las tablas de hechos auxiliares pueden vincularse con solo algunas de las tablas de
dimensiones asignadas a la tabla de hechos principal, y tambin pueden hacerlo con nuevas tablas
de dimensiones.
Caractersticas
Permite tener ms de una tabla de hechos, por lo cual se podrn analizar ms aspectos
claves del negocio con un mnimo esfuerzo adicional de diseo.
Pgina 10
Jerarquas
Representa una relacin lgica entre dos o ms atributos pertenecientes a un cubo
multidimensional; siempre y cuando posean su correspondiente relacin padre-ho.
Las jerarquas poseen las siguientes caractersticas:
La principal ventaja de manejar jerarquas, reside en poder analizar los datos desde su nivel ms
general al ms detallado y viceversa, al desplazarse por los diferentes niveles.
Operaciones
El manejo de jerarquas en los cubos de datos permite realizar operaciones que facilitan el anlisis
de la informacin. Las operaciones que pueden realizarse son:
Pgina 11
Dice. Esta operacin produce un subcubo que permite al analista tomar valores especficos de
mltiples dimensiones. Ejemplo de un corte en anillos:
El nuevo cubo muestra las cifras de venta de un nmero limitado de categoras de productos,
las dimensiones de tiempo y regin cubrir el mismo rango que antes.
Drill Down / Up. Permite al usuario navegar entre los niveles de datos que van desde el ms
resumido (arriba) hasta los ms detallados (abajo).
Pgina 12
Roll-up. Resume los datos a lo largo de una dimensin. La regla sumarizacin podra calcular
los totales a lo largo de una jerarqua o una aplicacin de un conjunto de frmulas como
"ganancia = ventas - gastos".
Pivot. Permite al analista rotar el cubo en el espacio para ver sus caras distintas. Por ejemplo,
las ciudades podran estar dispuestas verticalmente y horizontalmente productos mientras ve
los datos de un trimestre determinado. Pivoteando podra reemplazar productos con perodos
de tiempo para ver los datos a travs del tiempo para un solo producto.
Pgina 13
Bibliografa.
Kimball Ralph, Ross Margy, The Data Warehouse Toolkit 2da. Edicin, The Complete Guide to
Dimensional Modeling, John Wiley & Sons, Inc., 2002.
Thomsen Erik, OLAP Solutions Building Multidimensional Information Systems 2da. Edicin, The
Complete Guide to Dimensional Modeling, John Wiley & Sons, Inc., 2002.
Silberschatz Abraham, F. Korth Henry, Sudarshan S., Fundamentos de Bases de Datos 4ta. Edicin,
Mc. Graw. Hill, 2002.
Date, C. J., Introduccin a los sistemas de bases de datos., Prentice Hall, 2001.
http://www.dssresources.com/glossary/olaptrms.html
http://searchsqlserver.techtarget.com/definition/MOLAP
http://www.dataprix.com/datawarehouse-manager
http://en.wikipedia.org/wiki/OLAP_cube#Hierarchy
http://es.wikipedia.org/wiki/Cubo_OLAP
Pgina 14