You are on page 1of 21

Temario

1. Introduccin

PARTE II: ALMACENES DE DATOS


* Transparencias basadas parcialmente en el tutorial DW de Matilde Celma

1.1. Finalidades y Evolucin de los Sistemas de Informacin. 1.2. Herramientas para la Toma de Decisiones: diferencias e interrelacin. 1.3. Almacenes de Datos, OLAP y Minera de Datos: definicin e interrelacin.

2. Almacenes de Datos
2.1. Introduccin a los Almacenes de Datos. 2.2. Arquitectura de un Sistema de Almacn de Datos. 2.3. Explotacin de un Almacn de Datos: Herramientas OLAP. 2.4. Sistemas ROLAP y MOLAP. 2.5. Carga y Mantenimiento de un Almacn de Datos. 2.6. Diseo de un almacn de Datos. 2.7. Lneas de Investigacin Abiertas.

Jos Hernndez Orallo


jorallo@dsic.upv.es

3. Minera de Datos
3.1. Introduccin a la Minera de Datos (DM) 3.2. El proceso de KDD 3.3. Tcnicas de Minera de Datos 3.4. Web Mining 3.5. Lneas de Investigacin Abiertas

Departamento de Sistemas Informticos y Computacin Universidad Politcnica de Valencia

Objetivos Parte II
Conocer las ventajas y casos donde es aconsejable recopilar informacin interna y externa en un Almacn de Datos. Conocer el modelo multidimensional de los almacenes de datos y los operadores de refinamiento asociados: drill, roll, slice & dice, pivot. Conocer la arquitectura y diferentes implementaciones (ROLAP, MOLAP) de Almacenes de Datos. Reconocer pautas para el diseo y mantenimiento de ADs.
3

Introduccin a los Almacenes de Datos


OBJETIVO: Anlisis de Datos para el Soporte en la Toma de Decisiones. Generalmente, la informacin que se quiere investigar sobre un cierto dominio de la organizacin se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas. Muchas de estas fuentes son las que se utilizan para el trabajo diario (bases de datos operacionales).
4

Introduccin a los Almacenes de Datos


Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento (visin tradicional). Uso de la base de datos transaccional para varios cometidos:
Se mantiene el trabajo transaccional diario de los sistemas de informacin originales (conocido como OLTP, On-Line Transactional Processing). Se hace anlisis de los datos en tiempo real sobre la misma base de datos (conocido como OLAP, On-Line Analytical Processing).

Introduccin a los Almacenes de Datos


Uso de la base de datos transaccional para varios cometidos:

PROBLEMAS:
perturba el trabajo transaccional diario de los sistemas de informacin originales (killer queries). Se debe hacer por la noche o en fines de semana. la base de datos est diseada para el trabajo transaccional, no para el anlisis de los datos. Generalmente no puede ser en tiempo real (era AP pero no OLAP).
6

Introduccin a los Almacenes de Datos


Se desea operar eficientemente con esos datos...
los costes de almacenamiento masivo y conectividad se han reducido drsticamente en los ltimos aos,

Introduccin a los Almacenes de Datos


Almacenes de Datos (AD)
motivaci n (data warehouse)

parece razonable recoger los datos (informacin histrica) en un sistema separado y especfico. NACE EL DATA-WAREHOUSING Data warehouses (Almacenes o Bodegas de Datos)
7

disponer de Sistemas de Informacin de apoyo a la toma de decisiones*

disponer de bases de datos que permitan extraer conocimiento de la informacin histrica almacenada en la organizacin
objetivos

anlisis de la organizacin

previsiones de evolucin

diseo de estrategias
8

* DSS: Decision Support Systems

Introduccin a los Almacenes de Datos


Almacenes de datos
Base de Datos diseada con un objetivo de explotacin distinto que el de las bases de datos de los sistemas operacionales.

Introduccin a los Almacenes de Datos Almacenes de Datos


definicin

coleccin de datos diseada para dar apoyo a los procesos de toma de decisiones
caracterstic as

Sistema Operacional (OLTP) Sistema de Almacn de Datos (DW)

BD orientada al proceso

BD orientada al anlisis
9

orientada hacia la informacin* relevante de la organizacin

integrada

variable en el tiempo

no voltil

* subject oriented, not process oriented

10

Introduccin a los Almacenes de Datos


AD: Orientado hacia la informacin relevante de la organizacin
se disea para consultar eficientemente informacin relativa a las actividades (ventas, compras, produccin, ...) bsicas de la organizacin, no para soportar los procesos que se realizan en ella (gestin de pedidos, facturacin, etc).

Introduccin a los Almacenes de Datos


integra datos recogidos de diferentes sistemas operacionales de la organizacin (y/o fuentes externas).

AD: Integrado

Base de Datos Transaccional


CURSO ... REUNION ... PAS ... VENTA ... PROTOTIPO ... PRODUCTO ... GAMA ...

Fuente de Datos 1
texto

Fuente de Datos 3
HTML

Fuente de Datos 2

Base de Datos Transaccional 1 Fuentes Internas Base de Datos Transaccional 2

Fuentes Externas

Informacin Necesaria

11

Almacn de Datos

12

Introduccin a los Almacenes de Datos


AD: Variable en el tiempo
los datos son relativos a un periodo de tiempo y deben ser incrementados peridicamente.

Introduccin a los Almacenes de Datos


los datos almacenados no son actualizados, slo son incrementados. Carga Bases de datos operacionales Almacn de Datos

AD: No voltil

Los datos son almacenados como fotos (snapshots) correspondientes a periodos de tiempo.

Tiempo

Datos INSERT UPDATE DELETE


13

01/2003 Datos de Enero 02/2003 Datos de Febrero 03/2003 Datos de Marzo

READ

READ

El periodo de tiempo cubierto por un AD vara entre 2 y 10 aos.

14

Introduccin a los Almacenes de Datos


Almacenes de Datos
ventajas para las organizaciones

Introduccin a los Almacenes de Datos


Almacenes de Datos
problemas

rentabilidad de las inversiones realizadas para su creacin

aumento de la competitividad en el mercado

aumento de la productividad de los tcnicos de direccin

infravaloracin del esfuerzo necesario para su diseo y creacin

privacidad de los datos incremento continuo de los requisitos de los usuarios

infravaloracin de los recursos necesarios para la captura, carga y almacenamiento de los datos

15

16

Introduccin a los Almacenes de Datos


Sistema Operacional (OLTP)
- almacena datos actuales - almacena datos de detalle -bases de datos medianas (100Mb-1Gb) - los datos son dinmicos (actualizables) - los procesos (transacciones) son repetitivos - el nmero de transacciones es elevado - tiempo de respuesta pequeo (segundos) - dedicado al procesamiento de transacciones - orientado a los procesos de la organizacin - soporta decisiones diarias - sirve a muchos usuarios (administrativos)

Arquitectura de un Almacn de Datos


La Arquitectura de un AD viene determinada por su situacin central como fuente de informacin para las herramientas de anlisis.
Fuentes Internas Base de Datos Transaccional
Herramientas EIS Herramientas de consultas e informes

Almacn de datos (DW)


- almacena datos histricos - almacena datos de detalle y datos agregados a distintos niveles - bases de datos grandes (100Gb-1Tb) - los datos son estticos - los procesos no son previsibles - el nmero de transacciones es bajo o medio - tiempo de respuesta variable (segundos-horas) - dedicado al anlisis de datos - orientado a la informacin relevante - soporta decisiones estratgicas - sirve a tcnicos de direccin 17

ETL
Fuente de Datos 1
texto

Almacn de Datos

Interfaz y Operadores
Herramientas OLAP

Fuente de Datos 3
HTML

Copias de Seguridad

Fuente de Datos

Fuentes Externas

Herramientas de Minera de Datos

18

Arquitectura de un Almacn de Datos


Componentes:
Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extraccin de las fuentes de datos (transaccionales o externas), transformacin (limpieza, consolidacin, ...) y la carga del AD, realizando:
extraccin de los datos. filtrado de los datos: limpieza, consolidacin, etc. carga inicial del almacn: ordenacin, agregaciones, etc. refresco del almacn: operacin peridica que propaga los cambios de las fuentes externas al almacn de datos

Arquitectura de un Almacn de Datos


Organizacin (Externa) de Los Datos
Las herramientas de explotacin de los almacenes de datos han adoptado un modelo multidimensional de datos.

Repositorio Propio de Datos: informacin relevante, metadatos. Interfaces y Gestores de Consulta: permiten acceder a los datos ys sobre ellos se conectan herramientas ms sofisticadas (OLAP, EIS, minera de datos). Sistemas de Integridad y Seguridad: se encargan de un 19 mantenimiento global, copias de seguridad, ...

Se ofrece al usuario una visin multidimensional de los datos que son objeto de anlisis.

20

Arquitectura de un Almacn de Datos


EJEMPLO
Organizacin: Cadena de supermercados. Actividad objeto de anlisis: ventas de productos. Informacin registrada sobre una venta: del producto Tauritn
33cl se han vendido en el almacn Almacn nro.1 el da 17/7/2003, 5 unidades por un importe de 103,19 euros.

Arquitectura de un Almacn de Datos

Producto

Marca Descripcin Categora Departamento Mes Nro_producto Tipo Da Semana

Ve nta s

Ao

importe unidades
Almacn Tipo

Regin

21

Almacn

Para hacer el anlisis no interesa la venta individual (ticket) realizada a un cliente sino las ventas diarias de productos en los distintos almacenes de la cadena.

Ciudad

Tiempo
Trimestre

22

Arquitectura de un Almacn de Datos


Dimensiones (puntos de vista) desde los que se puede analizar la actividad.
Producto
Marca Descripcin Categora Departamento Nro_producto Tipo Mes Da Ao Semana

Arquitectura de un Almacn de Datos


Modelo multidimensional:

Tiempo

en un esquema multidimensional se representa una actividad que es objeto de anlisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones). la informacin relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho). la informacin descriptiva de cada dimensin se representa por un conjunto de atributos (atributos de dimensin).

Trimestre

Ve nta s
importe unidades

Almacn

Actividad que es objeto de anlisis con los indicadores que interesa analizar

Ciudad

Tipo

Regin

Almacn

23

24

Arquitectura de un Almacn de Datos

Arquitectura de un Almacn de Datos


Entre los atributos de una dimensin se definen jerarquas

Producto

Marca Descripcin Categora Departamento

Tiempo

hecho
Semana Mes

Producto nro. producto categora departamento

Ve nta s

Nro_producto Tipo

Da

Trimestre Ao

Almacn ciudad almacn tipo regin

importe unidades

Ciudad

Tipo

Almacn

medidas

Almacn

dimensin
Tiempo da mes semana trimestre ao

atributos

Regin

25

26

Arquitectura de un Almacn de Datos


Este esquema multidimensional recibe varios nombres: estrella: si la jerarqua de dimensiones es lineal
tiempo proyecto

Arquitectura de un Almacn de Datos


Se pueden obtener hechos a diferentes niveles de agregacin:
obtencin de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones HECHO: El primer trimestre de 2004 la empresa vendi en Valencia por un importe de 22.000 euros del producto tauritn 33 cl.
Ventas en miles de Euros

PERSONAL
equipo

LUGAR: Murcia Alicante ciudad Zaragoza


Madrid Barcelona Valencia

Jerarqua de dimensiones: PRODUCTO


Categora | Gama \ Prov. /

LUGAR
Pas | Ciudad | Supermercado

TIEMPO
Ao / \

estrella jerrquica o copo de nieve: si la jerarqua no es lineal.


tiempo producto lugar

PRODUCTO: artculo

Zumo Pia 1l. 17 Cola 33cl. 57 Jabn Salitre 93 Tauritn 33cl 22

Trimestre \ / \

Cerveza Kiel 20 cl 5 Leche Entera Cabra 1l 12

1 2 3 4 1 2 2005 2004

Artculo

Mes Semana \ Da | Hora /

VENTAS

TIEMPO: trimestre

27

Un nivel de agregacin para un conjunto de dimensiones se denomina cubo.

28

Arquitectura de un Almacn de Datos


Se puede recopilar toda la informacin necesaria en un nico esquema estrella o copo de nieve? NO : necesidad de varios esquemas. Cada uno de estos esquemas se denomina datamart.
tiempo producto proveedor producto

Arquitectura de un Almacn de Datos


El almacn de datos puede estar formado por varios datamarts y, opcionalmente, por tablas adicionales.
Data mart subconjunto de un almacn de datos, generalmente en forma de estrella o copo de nieve.

VENTAS
lugar tiempo

lugar

PRODUCCIN

tiempo

equipo

PERSONAL

proyecto

lugar tiempo

Almacn formado por 4 datamarts.

se definen para satisfacer las necesidades de un departamento o seccin de la organizacin. contiene menos informacin de detalle y ms informacin agregada.
30

producto

CAMPAA

29

Herramientas OLAP
Las herramientas de OLAP presentan al usuario una visin multidimensional de los datos (esquema multidimensional) para cada actividad que es objeto de anlisis. El usuario formula consultas a la herramienta OLAP seleccionando atributos de este esquema multidimensional sin conocer la estructura interna (esquema fsico) del almacn de datos. La herramienta OLAP genera la correspondiente consulta y la enva al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT).
31

Herramientas OLAP
una consulta a un almacn de datos consiste generalmente en la obtencin de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones
medida hecho

Importe total de las ventas durante este ao de los productos del departamento Bebidas, por trimestre y por categora ?.
Restricciones: productos del departamento Bebidas, ventas durante este ao Parmetros de la consulta: por categora de producto y por trimestre
32

Herramientas OLAP
Bebidas
Da de la semana Mes Nro_producto Da Ao Trimestre

Herramientas OLAP
trimestre categora importe

Producto

Marca Categora Departamento

Ve nta s

Tipo

importe unidades

2002
Almacn

Tiempo

Importe total de ventas en este ao, del departamento de Bebidas, por categora y trimestre

Tipo

Regin

Almacn

Ciudad

ME OR INF

33

34

Herramientas OLAP
Categora Trimestre Ventas

Herramientas OLAP
trimestre categora

Refrescos Refrescos Refrescos Refrescos Zumos Zumos Zumos Zumos

T1 T2 T3 T4 T1 T2 T3 T4

2000000 1000000 3000000 2000000 1000000 1500000 8000000 2400000

Presentacin tabular (relacional) de los datos seleccionados

T1

T2

T3

T4

Presentacin matricial (multidimensional) de los datos seleccionados

Refrescos Zumos

2000000 1000000

3000000 2000000

1000000 1500000 8000000 2400000

Se asumen dos categoras en el departamento de Bebidas: Refrescos y Zumos.


35

Los parmetros de la consulta (por trimestre y por categora) determinan los criterios de agrupacin de los datos seleccionados (ventas de productos del departamento Bebidas durante este ao). La agrupacin se realiza sobre dos dimensiones (Producto, Tiempo).
36

Herramientas OLAP
Lo interesante no es poder realizar consultas que, en cierto modo, se pueden hacer con selecciones, proyecciones, concatenaciones y agrupamientos tradicionales. Lo realmente interesante de las herramientas OLAP son sus operadores de refinamiento o manipulacin de consultas.
DRILL ROLL SLICE & DICE PIVOT
37

Herramientas OLAP
El carcter agregado de las consultas en el Anlisis de Datos, aconseja la definicin de nuevos operadores que faciliten la agregacin (consolidacin) y la disgregacin (divisin) de los datos:
agregacin (roll): permite eliminar un criterio de agrupacin en el anlisis, agregando los grupos actuales. disgregacin (drill): permite introducir un nuevo criterio de agrupacin en el anlisis, disgregando los grupos actuales.

38

Herramientas OLAP
Si se desea introducir la dimensin Almacn en el anlisis anterior e incluir un nuevo criterio de agrupacin sobre la ciudad del almacn:

Herramientas OLAP
sita Da de la semana ce me ne infor Mes o Departamento o n uevo Da Ao Nro_producto ri a Tipo su te n el u ar esimporte 2002 e unidades dis
Marca Categora

Producto

Bebidas

Importe total de las ventas durante este ao de los productos del departamento Bebidas, por trimestre, por categoras y por ciudad del almacn ?.

Ve nta s

Trimestre

Almacn

Parmetros de la consulta: por categora de producto, por trimestre y por ciudad del almacn.
39

Importe total de ventas en este ao, del departamento de Bebidas, por categora, trimestre y ciudad

Tipo

Regin

Almacn

Restricciones: productos del departamento Bebidas, ventas durante este ao

Ciudad

Tiempo

40

Herramientas OLAP
trimestre categora importe
Categora Refrescos Trimestre

Herramientas OLAP
Ventas 2000000 1000000 3000000 2000000 1000000 1500000 8000000 2400000 * Se asumen dos ciudades: Valencia y Len. 42
Categora Trimestre Ciudad Ventas

T1 T2 T3 T4 T1 T2 T3 T4

Refrescos Refrescos Refrescos

T1 T1 T2 T2

Valencia Len Valencia Len

1000000 1000000 400000 700000

drill-across

SS ) RO AC dad ILL n (Ciu DR ac Alm

la operacin de DRILL se realiza sobre el informe original !

Refrescos Refrescos Refrescos Zumos

Refrescos

rme Info

o llad eta sd ma
41

Zumos Zumos Zumos

Cada grupo (categora-trimestre) de la consulta original se disgrega en dos nuevos grupos (categora-trimestreciudad) para las ciudades de Len y Valencia.

Herramientas OLAP
n Le
ncia Vale

Herramientas OLAP

Si se desea eliminar el criterio de agrupacin sobre la dimensin Tiempo en la consulta original:

Zumos

300000

500000

200000

2000000

Importe total de las ventas durante este ao de los productos del departamento Bebidas, por categoras ?

Refrescos

1000000

400000

100000

500000

T1

T2

T3

T4

Presentacin matricial de los datos seleccionados.


43 44

Herramientas OLAP
trimestre

Herramientas OLAP
categora importe

sita Da de la semana ce me ne infor Mes o Departamento o n uevo Da Ao Nro_producto ri a Tipo su te n el u ar esimporte 2002 e unidades dis
Marca Categora

Producto

Bebidas

Tiempo

Trimestre

SS RO e) AC estr im LL RO po (Tr m Tie

Ve nta s

la operacin de ROLL se realiza sobre el informe original !

Almacn

Importe total de ventas en este ao, del departamento de Bebidas, por categoras

Tipo

Almacn

Ciudad

Regin

45

do ega agr as em rm Info

46

Herramientas OLAP
Categora Refrescos Refrescos Refrescos Refrescos Zumos Zumos Zumos Zumos Trimestre Ventas

Herramientas OLAP
Las operaciones de agregacin (DRILL) y disgregacin (ROLL) se pueden hacer sobre: atributos de una dimensin sobre los que se ha definido una jerarqua: DRILL-DOWN, ROLL-UP

T1 T2 T3 T4 T1 T2 T3 T4

2000000 1000000

roll-across

3000000 2000000 1000000 1500000 8000000 2400000

Categora

Ventas

departamento categora - producto (Producto) ao - trimestre mes - da (Tiempo) sobre dimensiones independientes: DRILL-ACROSS, ROLL-ACROSS Producto Almacn -Tiempo

Refrescos 8000000 Zumos 12900000

47

48

Herramientas OLAP
trimestre categora importe
Categora

Herramientas OLAP
Trimestre Ventas
Categora Trimestre Mes Ventas

Refrescos

T1 T2 T3 T4 T1 T2 T3 T4

2000000

Refrescos

T1 T1 T1

Enero Febrero Marzo

1000000 500000 500000

WN DO s) ILL me DR mpo ( Tie

la operacin de DRILL se realiza sobre el informe original !

drill-down

Refrescos Refrescos

Refrescos Refrescos Refrescos

1000000 3000000 2000000 1000000 1500000 8000000 2400000

n se o nta nt ve me a y de parta egor al t tot l de r ca e o rte po o, d , p Im te a bidas es Be de s me

Zumos Zumos Zumos 49 Zumos

Cada grupo (categora-trimestre) de la consulta original se disgrega en dos nuevos grupos (categora-trimestre-mes).

50

Herramientas OLAP

Herramientas OLAP

Otras operaciones de OLAP:

Ventas
Productos Store1 Store2
Electronics Toys Clothing Cosmetics Electronics Toys Clothing Cosmetics $5,2 $1,9 $2,3 $1,1 $8,9 $0,75 $4,6 $1,5 $5,6 $1,4 $2,6 $1,1 $7,2 $0,4 $4,6 $0,5

Ventas
Productos
Electronics Toys Clothing Cosmetics Electronics Toys Clothing Cosmetics Store 1 Q1 $5,2 $1,9 $2,3 $1,1 $5,6 $1,4 $2,6 $1,1 Q2 $8,9 $0,75 $4,6 $1,5 $7,2 $0,4 $4,6 $0,5

SLICE & DICE: seleccionar y proyectar datos en el informe.

Q1

PIVOT

PIVOT: reorientacin de las dimensiones en el informe.


51

Store 2

Q2

52

Herramientas OLAP

Herramientas OLAP
Las herramientas de OLAP se caracterizan* por:
ofrecer una visin multidimensional de los datos (matricial).

Ventas
Productos Store1 Store2
Electronics Toys Clothing Cosmetics Electronics Toys Clothing Cosmetics $5,2 $1,9 $2,3 $1,1 $8,9 $0,75 $4,6 $1,5 $5,6 $1,4 $2,6 $1,1 $7,2 $0,4 $4,6 $0,5 Q1

Ventas
Productos Store1
Electronics Toys Electronics Toys $5,2 $1,9 $8,9 $0,75 Q1

no imponer restricciones sobre el nmero de dimensiones. ofrecer simetra para las dimensiones. permitir definir de forma flexible (sin limitaciones) sobre las dimensiones: restricciones, agregaciones y jerarquas entre ellas. ofrecer operadores intuitivos de manipulacin: drill-down, rollup, slice-and-dice, pivot. ser transparentes al tipo de tecnologa que soporta el almacn de datos (ROLAP o MOLAP). *Subconjunto de las 12 reglas propuestas por E.F. Codd para A.D.

Q2

SLICE & DICE


53

Q2

54

ROLAP y MOLAP
El Almacn de Datos y las herramientas OLAP se pueden basar fsicamente en varias organizaciones:
Sistemas ROLAP
se implementan sobre tecnologa relacional, pero disponen de algunas facilidades para mejorar el rendimiento (ndices de mapas de bits, ndices de JOIN).

ROLAP y MOLAP
Sistemas ROLAP:
El almacn de datos se construye sobre un SGBD Relacional. Los fabricantes de SGBD relacionales ofrecen extensiones y herramientas para poder utilizar el SGBDR como un Sistema Gestor de Almacenes de Datos.
55 56

Sistemas MOLAP
disponen de estructuras de almacenamiento especficas (arrays) y tcnicas de compactacin de datos que favorecen el rendimiento del almacn.

Sistemas HOLAP
sistemas hbridos entre ambos.

ROLAP y MOLAP
Sistemas ROLAP:
Extensiones de los SGBD relacionales: ndices de mapa de bits ndices de JOIN tcnicas de particionamiento de los datos optimizadores de consultas extensiones del SQL (operador CUBE, roll-up)
57

ROLAP y MOLAP
Sistemas MOLAP.
Sistema de propsito especfico: estructuras de datos (arrays) tcnicas de compactacin.
El objetivo de los sistemas MOLAP es almacenar fsicamente los datos en estructuras multidimensionales de forma que la representacin externa y la representacin interna coincidan.
58

ROLAP y MOLAP
Estructuras multidimensionales Herramienta OLAP

ROLAP y MOLAP
MOLAP: Datos
Arrays Extrados del almacn de datos
Estructuras multidimensionales Herramienta OLAP

El servidor MOLAP construye y almacena datos en estructuras multidimensionales. La herramienta de OLAP presenta estas estructuras multidimensionales.

almacenamiento y procesos eficientes


Servidor MOLAP

Servidor MOLAP

la complejidad de la BD se oculta a los usuarios el anlisis se hace sobre datos agregados y mtricas o indicadores precalculados.

Warehouse
59

Warehouse
60

10

ROLAP y MOLAP
ROLAP MOLAP

ROLAP y MOLAP
ROLAP/MOLAP: Ventajas e Inconvenientes: ROLAP
pueden aprovechar la tecnologa relacional.

Desktop Herramienta OLAP


Servidor Multidimensional

Cliente

pueden utilizarse sistemas relacionales genricos (ms baratos o incluso gratuitos). el diseo lgico corresponde al fsico si se utiliza el diseo de Kimball.

Herramienta OLAP Servidor Relacional

MOLAP:
Servidor

generalmente ms eficientes que los ROLAP. el coste de los cambios en la visin de los datos.
61

Warehouse

la construccin de las estructuras multidimensionales.

62

Carga y Mantenimiento de un A.D.


El sistema encargado del mantenimiento del almacn de datos es el Sistema E.T.T* (Extraccin - Transformacin -Transporte)
La construccin del Sistema E.T.T es responsabilidad del equipo de desarrollo del almacn de datos. El Sistema E.T.T es construido especficamente para cada almacn de datos. Aproximadamente 50% del esfuerzo. En la construccin del E.T.T se pueden utilizar herramientas del mercado o programas diseados especficamente.

Carga y Mantenimiento de un A.D.


E.T.T.
Extraccin

Correspondencia

Transporte

Bases de datos operacionales Fuentes Externas

Transformacin

Funciones del Sistema E.T.T:


Carga inicial. (initial load) Mantenimiento o refresco peridico: inmediato, diario, semanal, mensual,... (refreshment)
* Conocido tambin por E.T.L: Extraccin Transformacin Load (carga)
63

Almacenamiento intermedio

Almacn de datos

El Almacenamiento intermedio permite: Realizar transformaciones sin paralizar las bases de datos operacionales y el almacn de datos. Almacenar metadatos. 64 Facilitar la integracin de fuentes externas.

Carga y Mantenimiento de un A.D.


E.T.T.
Correspondencia

Carga y Mantenimiento de un A.D.


La calidad de los datos es la clave del xito de un almacn de datos.

Extraccin

Transporte

Transformacin

Identificacin de los datos que han cambiado Extraccin (lectura) de datos. Obtencin de agregados Mantenimiento de metadata Limpieza y transformacin de datos Integracin de datos (clculo de datos derivados) Creacin de claves Obtencin de agregados Mantenimiento de metadata

Carga Indizacin Obtencin de datos agregados. Realizacin de pruebas de calidad de la carga. Gestin de errores. Mantenimiento de metadata 65

Definir una estrategia de calidad: actuacin sobre los sistemas operacionales: modificar las reglas de integridad, los disparadores y las aplicaciones de los sistemas operacionales. documentacin de las fuentes de datos. definicin de un proceso de transformacin. nombramiento de un responsable de calidad del sistema (Data Quality Manager).

66

11

Carga y Mantenimiento de un A.D.


Extraccin.
Correspondencia

Carga y Mantenimiento de un A.D.


Extraccin: lectura de datos del sistema operacional.
a) durante la carga inicial . b) mantenimiento del AD Ejecucin de la extraccin: a) si los datos operacionales estn mantenidos en un SGBDR, la extraccin de datos se puede reducir a consultas en SQL o rutinas programadas. b) si los datos operacionales estn en un sistema propietario (no se conoce el formato de los datos) o en fuentes externas textuales, hipertextuales u hojas de clculo, la extraccin puede ser muy difcil y puede tener que realizarse a partir de informes o volcados de datos proporcionados por los propietarios que 68 debern ser procesados posteriormente.

Extraccin

Bases de datos operacionales

Almacenamiento intermedio

Almacn de datos

Programas diseados para extraer los datos de las fuentes. Herramientas: data migration tools, wrappers, ...
67

Carga y Mantenimiento de un A.D.


Extraccin: en el mantenimiento/refresco del AD. Antes de
realizar la extraccin es preciso Identificar los Cambios.

Carga y Mantenimiento de un A.D.


Transformacin.
Correspondencia

Identificacin de Cambios.
Identificar los datos operacionales (relevantes) que han sufrido una modificacin desde la fecha del ltimo mantenimiento. Mtodos
Carga total: cada vez se empieza de cero. Comparacin de instancias de la base de datos operacional. Uso de marcas de tiempo (time stamping) en los registros del sistema operacional. Uso de disparadores en el sistema operacional. Uso del fichero de log (gestin de transacciones) del sistema operacional. Uso de tcnicas mixtas.
Transformacin

Bases de datos operacionales

Almacenamiento intermedio

Almacn de datos

69

- Transformar los datos extrados de las fuentes operacionales: limpieza, estandarizacin. (cleansing) - Calcular los datos derivados: aplicar las leyes de derivacin. 70 (integration)

Carga y Mantenimiento de un A.D.


Transformacin.
12M65431 12-m-65421 12m65421 12m65421 12M65431 12-m-65421 12m65421 12m65421 12M65431 12 12 12 M m m 65431 65421 65421 12 12 M M 65431 65421

Carga y Mantenimiento de un A.D.


Transformacin.
Claves con estructura: descomponer en valores atmicos

12M65431

En los datos operacionales existen anomalas: desarrollos independientes a lo largo del tiempo, fuentes heterogneas, .. Eliminar anomalas:
Limpieza de datos: eliminar datos, corregir y completar datos, eliminar duplicados, ... Estandarizacin: codificacin, formatos, unidades de medida, ...

Cdigo de producto = 12M65431345

cdigo zona de del pas ventas


71

nmero de producto

cdigo de vendedor
72

12

Carga y Mantenimiento de un A.D.


Transformacin.
Unificar codificaciones: existencia de codificaciones mltiples.
v,h 1,0 varn, hembra v, h

Carga y Mantenimiento de un A.D.


Transformacin.
Unificar estndares:unidades de medida, unidades de tiempo,moneda,...
cm cm inches DD/MM/YY DD-Mon-YY MM/DD/YY

Deben detectarse los valores errneos.


73

1,000 GBP USD 600 FF 9,990


74

Carga y Mantenimiento de un A.D.


Transformacin.
Valores duplicados: deben ser eliminados.
SQL restricciones en el SGBDR

Carga y Mantenimiento de un A.D.


Transformacin.
Integridad referencial: debe reconstruirse.

ACME Inc ACME Inc ACME Inc ACME Inc

Departamento 10 20 30 40

Emp 1099 1289 1234 6786

Nombre Smith Jones Doe Harris

Departamento 10 20 50 60

75

76

Carga y Mantenimiento de un A.D.


Transformacin. Creacin de claves.
#1 #2 #3 #4 #5 Venta Venta Venta 1/2/98 1/2/98 1/2/98 12:00:01 Ham Pizza 12:00:02 Cheese Pizza 12:00:02 Anchovy Pizza 12:00:03 Anchovy Pizza 12:00:04 Sausage Pizza $10.00 $15.00 $12.00 - $12.00 $11.00

Carga y Mantenimiento de un A.D.


Transporte. (carga)
La fase de Transporte consiste en mover los datos desde las fuentes operacionales o el almacenamiento intermedio hasta el almacn de datos y cargar los datos en las correspondientes estructuras de datos. La carga puede consumir mucho tiempo. En la carga inicial del AD se mueven grandes volmenes de datos. En los mantenimientos peridicos del AD se mueven pequeos volmenes de datos. La frecuencia del mantenimiento peridico est determinada por el grnulo del AD y los requisitos de los usuarios.
77 78

Devolucin 1/2/98 Venta 1/2/98

Claves sin significado


#dw1 Venta #dw2 Venta #dw3 Venta 1/2/98 1/2/98 1/2/98 12:00:01 Ham Pizza 12:00:02 Cheese Pizza $10.00 $15.00

12:00:04 Sausage Pizza $11.00

13

Carga y Mantenimiento de un A.D.


Transporte. Creacin y mantenimiento de un AD.

Carga y Mantenimiento de un A.D.


Procesos posteriores a la carga: indizacin.
Durante la carga: carga con el ndice habilitado proceso tupla a tupla. (lento) Despus de la carga: carga con el ndice deshabilitado creacin del ndice (total o parcial). (rpido)
Index

Base de datos operacional

T1

T2

T3

Crear el AD (base de datos) En intervalos de tiempo fijos aadir cambios al AD. Se deben determinar las ventanas de carga ms convenientes para no saturar la base de datos operacional. Ocasionalmente archivar o eliminar datos obsoletos que ya no interesan para el anlisis. 79

Base de datos operacional

Almacn 80 de datos

Carga y Mantenimiento de un A.D.


Procesos posteriores a la carga: obtencin de agregados.
Durante la extraccin. Despus de la carga (transporte).

Diseo de un Almacn de Datos


Recogida y anlisis de requisitos

Diseo conceptual Diseo lgico especfico

Extraccin

Transporte

Diseo fsico Implementacin


81 82

Base de datos operacional

Almacenamiento intermedio

Almacn de datos

Diseo de un Almacn de Datos


Recogida y anlisis de requisitos

Diseo de un Almacn de Datos


Recogida y anlisis de requisitos

Anlisis

Diseo Lgico

Diseo conceptual Diseo lgico

Discernimiento de las fuentes necesarias del sistema de informacin de la organizacin (OLTP) y externas

Diseo fsico Implementacin

Requisitos de usuario (consultas de anlisis necesarias, nivel de agregacin, )

Diseo conceptual Diseo lgico Modelado multidimensional (MR)

Diseo fsico Implementacin

Esquemas estrella

Diseo Conceptual
p.ej. Entidad-Relacin

83

84

14

Diseo de un Almacn de Datos


Recogida y anlisis de requisitos

Diseo de un Almacn de Datos


Recogida y anlisis de requisitos

Diseo conceptual Diseo lgico

Diseo Fsico

Implementacin
Diseo conceptual Diseo lgico

Definicin del esquema ROLAP o MOLAP

Carga del AD (ETL)

Diseo fsico Diseo del ETL Implementacin


85

Diseo fsico Implementacin

Preparacin de las vistas de usuario (herramienta OLAP)

86

Diseo de un Almacn de Datos


Detallemos ms ahora el Diseo Lgico...
Recogida y anlisis de requisitos

Diseo de un Almacn de Datos


Modelado multidimensional:
en un esquema multidimensional se representa una actividad que es objeto de anlisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones). la informacin relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho).

Diseo conceptual Diseo lgico

La visin multidimensional seguida por las herramientas de explotacin de almacenes de datos (OLAP) ha inspirado los modelos y metodologas de diseo de este tipo de sistemas.

Diseo fsico Implementacin

En la literatura se habla de Bases de Datos Multidimensionales y de Diseo Multidimensional


87

la informacin descriptiva de cada dimensin se representa por un conjunto de atributos (atributos de dimensin).
88

Diseo de un Almacn de Datos


Modelado multidimensional:
el modelado multidimensional se puede aplicar utilizando distintos modelos de datos (conceptuales o lgicos). la representacin grfica del esquema multidimensional depender del modelo de datos utilizado (relacional, ER, UML, OO, ...).

Diseo de un Almacn de Datos


El desarrollo de la tecnologa de almacenes de datos se ha caracterizado por:
- un temprano desarrollo industrial provocado por las demandas de los usuarios. - el uso de metodologas de diseo centradas principalmente en los niveles lgico e interno. (la
atencin se ha centrado en mejorar la eficiencia en la ejecucin de consultas)

Metodologa de diseo basada en el modelo relacional: Modelo multidimensional de Kimball


89

No es muy congruente usar modelos para diseo conceptual.

90

15

Diseo de un Almacn de Datos


Pasos en el diseo del almacn de datos:
Paso 1. Elegir un proceso de la organizacin para modelar. Paso 2. Decidir el grnulo (nivel de detalle) de representacin del proceso. Paso 3. Identificar las dimensiones que caracterizan el proceso. Paso 4. Decidir la informacin a almacenar sobre el proceso.

Diseo de un Almacn de Datos


Paso 1. Elegir un proceso de la organizacin para modelar.
Proceso: actividad de la organizacin soportada por un OLTP del cual se puede extraer informacin con el propsito de construir el almacn de datos.
Pedidos (de clientes) Compras (a suministradores) Facturacin Envos Ventas Inventario
91 92

Diseo de un Almacn de Datos


Ejemplo: Cadena de supermercados.
Cadena de supermercados con 300 almacenes en la que se expenden unos 30.000 productos distintos.

Diseo de un Almacn de Datos


Paso 2. Decidir el grnulo (nivel de detalle) de representacin.
Grnulo: es el nivel de detalle al que se desea almacenar informacin sobre la actividad a modelar.
El grnulo define el nivel atmico de datos en el almacn de datos. El grnulo determina el significado de las tuplas de la tabla de hechos. El grnulo determina las dimensiones bsicas del esquema transaccin en el OLTP informacin diaria informacin semanal
93

Actividad: Ventas.
La actividad a modelar son las ventas de productos en los almacenes de la cadena.

informacin mensual. ....

94

Diseo de un Almacn de Datos


tabla de hechos
1 Dim

Diseo de un Almacn de Datos


Ejemplo: Cadena de supermercados.
Grnulo: se desea almacenar informacin sobre las ventas diarias de cada producto en cada almacn de la cadena. Grnulo: define el significado de las tuplas de la tabla de hechos. determina las dimensiones bsicas del esquema.

tabla Dimensin 1

id_dim1 id_dim2 id_dim3

3 Dim

tabla Dimensin 3

tabla Dimensin 2

2 Dim

... id_dim n .... (hechos)


n Dim

tabla Dimensin n
cto du pro po tiem

producto da almacn

95

n ac alm

ventas
96

16

Diseo de un Almacn de Datos


Grnulo inferior: no se almacena informacin a nivel de lnea de ticket porque no se puede identificar siempre al cliente de la venta lo que permitira hacer anlisis del comportamiento (hbitos de compra) del cliente. Grnulo superior: no se almacena informacin a nivel semanal o mensual porque se perderan opciones de anlisis interesantes: ventas en das previos a vacaciones, ventas en fin de semana, ventas en fin de mes, .... En un almacn de datos se almacena informacin a un nivel de detalle (grnulo) fino no porque se vaya a interrogar el almacn a ese nivel sino porque ello permite clasificar y estudiar (analizar) la informacin desde muchos puntos de vista.

Diseo de un Almacn de Datos


cto du pro

producto da almacn

po tiem

n ac alm

ventas

tabla de id_producto hechos


id_fecha ..... ..... ......
97

id_almacn

la clave primaria* est formada por los identificadores de las dimensiones bsicas. datos (medidas) sobre las ventas diarias de un producto en un almacn. 98

* pueden existir excepciones a esta regla general

Diseo de un Almacn de Datos


Paso 3. Identificar las dimensiones que caracterizan el proceso.
Dimensiones: dimensiones que caracterizan la actividad al nivel de detalle (grnulo) que se ha elegido.
Tiempo (dimensin temporal: cundo se produce la actividad?) Producto (dimensin cul es el objeto de la actividad?) Almacn (dimensin geogrfica: dnde se produce la actividad?) Cliente (dimensin quin es el destinatario de la actividad?)

Diseo de un Almacn de Datos


tabla Dimensin 1 id_dim1 ....

De cada dimensin se debe decidir los atributos (propiedades) relevantes para el anlisis de la actividad. Entre los atributos de una dimensin existen jerarquas naturales que deben ser identificadas (da-mes-ao)
99

s) uto trib (a

100

Diseo de un Almacn de Datos


Ejemplo: Cadena de supermercados.
tiempo definicin de grnulo dimensiones bsicas producto establecimiento

Diseo de un Almacn de Datos


Dimensin Tiempo:
dimensin presente en todo AD porque el AD contiene informacin histrica sobre la organizacin. aunque el lenguaje SQL ofrece funciones de tipo DATE, una dimensin Tiempo permite representar otros atributos temporales no calculables en SQL. se puede calcular de antemano atributos frecuentes:
nro. de da, nro. de semana, nro. de ao: valores absolutos del calendario juliano que permiten hacer ciertos clculos aritmticos. da de la semana (lunes, martes, mircoles,...): permite hacer anlisis sobre das de la semana concretos (ej. ventas en sbado, ventas en lunes,..).
101 102

Nota: En las aplicaciones reales el nmero de dimensiones suele variar entre 3 y 15 dimensiones.

17

Diseo de un Almacn de Datos


Dimensin Tiempo:
atributos frecuentes:
- da del mes (1..31): permite hacer comparaciones sobre el mismo da en meses distintos (ventas el 1 de mes). - marca de fin de mes, marca de fin de semana : permite hacer comparaciones sobre el ltimo da del mes o das de fin de semana en distintos meses. - trimestre del ao (1..4): permite hacer anlisis sobre un trimestre concreto en distintos aos. - marca de da festivo: permite hacer anlisis sobre los das contiguos a un da festivo. - estacin (primavera, verano..) - evento especial: permite marcar das de eventos especiales (final de futbol, elecciones...)

Diseo de un Almacn de Datos


Dimensin Producto:
la dimensin Producto se define a partir del fichero maestro de productos del sistema OLTP. las actualizaciones del fichero maestro de productos deben reflejarse en la dimensin Producto (cmo?). la dimensin Producto debe contener el mayor nmero posible de atributos descriptivos que permitan un anlisis flexible. Un nmero frecuente es de 50 atributos. atributos frecuentes: identificador (cdigo estndar), descripcin, tamao del envase, marca, categora, departamento, tipo de envase, producto diettico, peso, unidades de peso, unidades por envase, frmula, ... jerarquas: producto-categora-departamento
104

jerarqua natural:
da - mes - trimestre -ao
103

Diseo de un Almacn de Datos


Dimensin Establecimiento (store) :
la dimensin Almacn representa la informacin geogrfica bsica. esta dimensin suele ser creada explcitamente recopilando informacin externa que slo tiene sentido en el A.D y que no la tiene en un OLTP (nmero de habitantes de la ciudad del establecimiento, caracterizacin del tipo de poblacin del distrito, ...) atributos frecuentes: identificador (cdigo interno), nombre, direccin, distrito, regin, ciudad, pas, director, telfono, fax, tipo de almacn, superficie, fecha de apertura, fecha de la ltima remodelacin, superficie para congelados, superficie para productos frescos, datos de la poblacin del distrito, zona de ventas, ... jerarquas: establecimiento - distrito - ciudad - regin - pas (jerarqua geogrfica) establecimiento - zona_ventas - regin_ventas (jerarqua de ventas)
105

Diseo de un Almacn de Datos


Tiempo
id_fecha da semana mes ao da_semana da_mes trimestre festivo ....

Establecimiento
id_establec nro_establec nombre direccin distrito ciudad pas tlfno fax superficie tipo_almacn ...

Producto
id_producto nro_producto descripcin marca subcategora categora departamento peso unidades_peso tipo_envase diettico ...

106

Diseo de un Almacn de Datos


Tiempo
id_fecha da semana mes ao da_semana da_mes trimestre festivo ....

Diseo de un Almacn de Datos


Paso 4. Decidir la informacin a almacenar sobre el proceso.
Hechos: informacin (sobre la actividad) que se desea almacenar en cada tupla de la tabla de hechos y que ser el objeto del anlisis.
Precio Unidades Importe .... Nota: algunos datos que en el OLTP coincidiran con valores de atributos de dimensiones, en el almacn de datos pueden representar hechos. (Ejemplo: el precio de venta de un producto).

Establecimiento
id_establec nro_establec nombre direccin distrito ciudad pas tlfno fax superficie tipo_almacn ...

Producto
id_producto nro_producto descripcin marca subcategora categora departamento peso unidades_peso tipo_envase diettico ...

Ventas
id_fecha id_producto id_establec ... ... ...

107

108

18

Diseo de un Almacn de Datos


Ejemplo: Cadena de supermercados.

Diseo de un Almacn de Datos


Tiempo
id_fecha da semana mes ao da_semana da_mes trimestre festivo ....

Establecimiento
id_establec nro_establec nombre direccin distrito ciudad pas tlfno fax superficie tipo_almacn ...

Producto

Grnulo: se desea almacenar informacin sobre las ventas diarias de cada producto en cada establecimiento de la cadena.
importe total de las ventas del producto en el da nmero total de unidades vendidas del producto en el da nmero total de clientes distintos que han comprado el producto en el da.

id_producto nro_producto descripcin marca subcategora categora departamento peso unidades_peso tipo_envase 109 diettico ...

Ventas
id_fecha id_producto id_establec importe unidades nro_clientes

110

Diseo de un Almacn de Datos


Otras orientaciones de diseo:
usar claves sin significado: evitar normalizar. incluir la dimensin Tiempo. dimensiones que cambian. definicin de agregados.

Diseo de un Almacn de Datos


Otras orientaciones de diseo:
uso de claves sin significado.
en un almacn de datos debe evitarse el uso de las claves del sistema operacional. las claves de las dimensiones deben ser generadas artificialmente: claves de tipo entero (4 bytes) son suficiente para dimensiones de cualquier tamao (232 valores distintos). la dimensin TIEMPO debe tener tambin una clave artificial. Inconvenientes del uso de las claves del sistema operacional: en el OLTP se puede decidir reutilizar valores de la clave no utilizados actualmente.
111

en el OLTP se puede decidir cambiar la codificacin de las claves.

112

Diseo de un Almacn de Datos


Otras Orientaciones de diseo:
evitar normalizar.
Si se define una tabla de dimensin para cada dimensin identificada en el anlisis, es frecuente que entre el conjunto de atributos de la tabla aparezcan dependencias funcionales que hacen que la tabla no est en 3 F.N.

Diseo de un Almacn de Datos

Otras Orientaciones de diseo:


siempre introducir la dimensin Tiempo.

En un almacn de Datos muchas consultas son restringidas y parametrizadas por criterios relativos a periodos de tiempo (ltimo mes, este ao, ...).

Evitar normalizar: el ahorro de espacio no es significativo se multiplican los JOIN durante las consultas.
113 114

19

Diseo de un Almacn de Datos


Otras orientaciones de diseo:
dimensiones que cambian.
Se considera relevante el caso en que, en el mundo real, para un valor de una dimensin, cambia el valor de un atributo que es significativo para el anlisis sin cambiar el valor de su clave.
Ejemplo: En un A.D existe la dimensin CLIENTE. En la tabla correspondiente un registro representa la informacin sobre el cliente Mara Garca cuyo estado civil cambia el 15-01-1994 de soltera a casada. El estado civil del cliente es utilizado con frecuencia en el anlisis de la informacin.

Diseo de un Almacn de Datos


Otras orientaciones de diseo:
definicin de agregados. En un almacn de datos es usual consultar informacin agregada!
El almacenamiento de datos agregados por distintos criterios de agregacin en la tabla de hechos mejora la eficiencia del AD.

Estrategias de almacenamiento de datos agregados:


Estrategia 1: definir nuevas tablas de hechos (resp. de dimensiones) para almacenar la informacin agregada (resp. la descripcin de los niveles de agregacin). Estrategia 2: insertar en la tabla de hechos (resp. dimensiones) tuplas que representan la informacin agregada (resp. los 116 niveles de agregacin).

Existen tres estrategias para el tratamiento de los cambios en las dimensiones: Tipo 1: Realizar la modificacin. Tipo 2: Crear un nuevo registro. Tipo 3: Crear un nuevo atributo.
115

Lneas de Investigacin Abiertas


Resmenes:
Widom, J. Research problems in data warehousing Actas de la International Conference on Information and Knowledge Management (CIKM95), ACM Press. 1995 Chaudhuri, S., Dayal, U. An overview of data warehousing and OLAP technology. SIGMOD Records. 26(1), pp. 65-74, 1997. Wu, Ch., Buchmann, P. Research issues in data warehousing Datebanksysteme in Bro, Technik und Wissenchaft (BTW), Informatik Aktuell, pp. 61-62. Springer, 1997
117

Lneas de Investigacin Abiertas


Resmenes:
Samtani, S., Kumar, V., Kambayashi, Y. Recent advances and research problems in data warehousing. Actas de la International Conference on Conceptual Modeling (ER) LNCS 1507,Springer, 1998 Gardner, S.R. Building the data warehouse. Communications of the ACM 41(9), pp. 52-60, 1998. Dinter, B., Sapia, C. Hlfing, G., Blaschka, M. OLAP market and research: initiating the cooperation. Journal of Computer Science and Information Management, 2(3), 1999
118

Lneas de Investigacin Abiertas


Conferencias especializadas en DW:
International Worshop on Data Warehousing and OLAP. (DOLAP) International Workshop on Data Warehouse and Data Mining. (DWDM) Interantional Workshop on Design and Management of Data Warehouses. (DMDW) International Conference on Data Warehousing and Knowledege Discovery. (DaWaK)

Lneas de Investigacin Abiertas


Conferencias especializadas en BD:
International Conference of Very Large Databases. (VLDB) International Conference on Data Engineering. (ICDE) Interantional Conference on Conceptual Modeling. (ER) International Conference on Extending Database Technology (EDBT). International Conference on Database Theory (ICDT).

119

120

20

Lneas de Investigacin Abiertas


Direcciones de inters:
http://www.cs.toronto.edu/~mendel/dwbib.html http://www.olapcouncil.org/research/ http://www.ceur-ws.org/ http://www.cis.drexel.edu/faculty/song/dolap.html http://www-db.stanford.edu/warehousing/

Lneas de Investigacin Abiertas


Diseo de Almacenes de Datos: modelos conceptuales, metodogas de diseo. Carga y ETL: recuperacin de fallos durante la carga. Planificacin de cargas y refrescos. Limpieza y Transformacin Mantenimiento de Almacenes de Datos: mantenimiento de vistas materializadas. Implementacin de Almacenes de Datos. Diseo Fsico, optimizaciones para ROLAP, estructuras para MOLAP. Reparticin de tareas OLAP entre el cliente y el servidor.
121 122

21