Professional Documents
Culture Documents
1. Introduccin
El Data Warehouse es una tecnologa para el manejo
de la informacin construido sobre la base de
optimizar el uso y anlisis de la misma utilizado por
las organizaciones para adaptarse a los vertiginosos
cambios en los mercados. Su funcin esencial es ser
la base de un sistema de informacin gerencial, es
decir, debe cumplir el rol de integrador de
informacin proveniente de fuentes funcionalmente
distintas (Bases Corporativas, Bases propias, de
Sistemas Externos, etc.) y brindar una visin
integrada de dicha informacin, especialmente
enfocada hacia la toma de decisiones por parte del
personal jerrquico de la organizacin.
Es un sitio donde se almacena de manera integrada
toda la informacin resultante de la operatoria diaria
de la organizacin. Adems, se almacenan datos
estratgicos y tcticos con el objetivo de obtener
informacin estratgica y tctica que pueden ser de
gran ayuda para aplicar sobre los mismos tcnicas de
anlisis de datos encaminadas a obtener informacin
oculta (Data Mining).
Esta informacin incluye movimientos que
modifican el estado del negocio, cualquier
interaccin que se tenga con los clientes y
proveedores, y cualquier dato adicional que ayude a
comprender la evolucin del negocio.
Esta tecnologa ayuda a la organizacin a responder
preguntas esenciales para la toma de decisiones que
le permitan obtener ventajas competitivas y mejorar
su posicin en el mercado en el que operan. Algunas
de las preguntas podran ser:
-
Reportes Tcnicos en Ingeniera del Software. Vol. 5(1). Pg.. 19-26. 2003
ISSN: 1667-5002. CAPIS-EPG-ITBA (http:// http://www.itba.edu.ar/capis/rtis)
Mecanismos de Consolidacin
- Refresco de datos: Volcado completo de los
datos procedentes del sistema operacional
entre el Cliente y el Servidor. Acta como traductor
entre distintas tecnologas. Permite que dos o ms
sistemas trabajen juntos aunque no estn preparados
para ello. (Figura 1).
Algunas de sus caractersticas ms relevantes son:
-
Factores tcnicos
- Mecanismo de transporte
- Tiempos de carga
- Reformateo de datos
2.3. Middleware
Es un software que reside fsicamente en un Cliente
y en un Servidor de Comunicaciones, localizado
2.4. OLAP (On-Line Analytical Process)
Son aplicaciones que se encargan de analizar datos
del negocio para generar informacin tctica y
estratgica que sirve de soporte para la toma de
decisiones. Mientras que las transacciones OLTP
utilizan Bases de Datos Relacionales u otro tipo de
archivos, OLAP logra su mxima eficiencia y
flexibilidad operando sobre Bases de datos
Multidimensionales.
Podemos nombrar las siguientes caractersticas
como las ms sobresalientes de estas aplicaciones:
-
Ejemplos:
-
Monitores de procesamiento de
transacciones
Convertidores de datos
Replicacin de datos
Controladores de comunicacin
A P L IC A C I N
A P L IC A C I N
P R O G R A M A S D E IN T E R F A S E D E A P L IC A C IO N E S ( A P Is )
M ID D L E W A R E
BASE D E DATO S A
BASE DE DATOS B
F i g u r a 1 M id d le w a r e
20
3. Aplicaciones
EIS
OLTP
OLTP
(Executive Information
System)
CONSOLIDACIN
OLAP
MIDDLEWARE
DDS
(Decision Support
System)
OLTP
Sistemas de presentacin
Sistemas Interrogativos
Sistemas de Simulacin
Sistemas funcionales
Sistemas Expertos
21
OLTP
Atomizado
Datos Histricos
Un registro a la vez
OLAP
Sumarizado
Datos Actuales
Muchos registros a la vez
Orientado a la
informacin operativa
Datos relacionales
Orientado a la
informacin estratgica
Datos Multidimensionales
Consultas simples
predefinidas
Volumen de datos
acotados
Consultas ad-hoc
Grandes volmenes de
datos
6. Implementacin de un Data
Warehouse
La estructura adoptada para el almacn de datos se
debe realizar de tal modo que satisfaga las
necesidades de la empresa, dicha eleccin es clave
en la efectividad del Data Warehouse. Existen tres
formas bsicas de estructura del almacn:
22
S E L E C C I N Y
PR E PR O C ES O
S E L E C C I N Y
PR E PR O C ES O
C o n o c im ie n to
P a tro n e s y m o d e lo s
C O N S O L ID A C I N
DE DATOS
D a to s p re p a ra d o s
D a ta
W a re h o u s e
Base de
d a to s
A rc h iv o
d e te xto
D a to s c o n s o lid a d o s
Base de
D a to s
F u e n te s d e d a to s
h e te ro g n e a s
F ig ur a 7 D a ta W a r e h ou se y la r e la c in c on e l D a ta M ining
24
competitivas.
Las herramientas de Data Mining pueden responder
a preguntas de negocios que tradicionalmente
consumen demasiado tiempo para poder ser
resueltas por consultas en un sistema tradicional de
soporte operacional. La potencialidad de estas
herramientas reside en la capacidad de explorar las
bases de datos en busca de patrones ocultos,
encontrando informacin predecible que para un
experto sera casi imposible debido al gran volumen
de informacin.
Usuarios
finales
Toma de
decisiones
Presentacin de datos
Tcnicas de visualizacin
Data Mining
Exploracin de datos y
descubrimiento de informacin
Analista de
negocios
Analista de
Datos
Fuentes de Datos
Papel, ficheros, fuentes externas, SGBDS, OLTP
Figura 8 Evolucin desde los datos operacionales hasta la informacin para la toma de
decisiones
Una vez que las herramientas de Data Mining fueron
implementadas en computadoras cliente servidor de
alto performance o de procesamiento paralelo,
pueden analizar bases de datos masivas para brindar
respuesta a preguntas tales como, "Cules clientes
tienen ms probabilidad de responder al prximo
mailing promocional, y por qu? y presentar los
resultados en formas de tablas, con grficos,
reportes, texto, hipertexto, etc.
El origen de la informacin que utilizan los
algoritmos de Data Mining, por lo general, son datos
histricos que se encuentran almacenados en un
Data Warehouse. El partir de un Data Warehouse
simplifica la etapa previa a la etapa de preparacin
de los datos ya que se construye en base a la
integracin de fuentes de datos mltiples y
REPORTES TCNICOS EN INGENIERA DEL SOFTWARE 5 (1)
9. Referencias
1- Rubinstein Jacobo, 2000. The Data Warehouse.
Cambridge Technology Partners.
2- David Friend, 1995. Introduccin al
procesamiento analtico on-line (OLAP). Chairman
Pilot Software Inc.
3- Gabriel Buades, 1990. Data Warehouse.
4- Ernestina Mensalvas Ruiz, Jos Mara Pea
Sanchez, 2000. Data Mining: Tcnicas y
herramientas. Universidad Politcnica de Madrid,
departamento de Lenguajes y sistemas informticos
e Ingeniera del Software.
5- Jos Martn Arevalillo, 2000. Data Mining, una
herramienta para la toma de decisions. U.N.E.D.
Departamento de estadstica e investigacin
operativa.
6- Areas de Investigacin, Data Warehousing y
Tecnologa OLAP en
http://gplsi.dlsi.ua.es/gplsi/areas.htm
7- Javier Cantoral Justo, 2002. Data Mining
Conceptos y Tcnicas. Universidad de Alicante,
Grupo de investigacin de sistemas de informacin
en la empresa.
8- Data Mining y
www.kdnuggets.com
Data
Warehousing
en
26
Processing
en