You are on page 1of 6

Introducción a la Minería de Datos y el Data Warehousing

Sergio R. Coria
E-mail: sergio@mineriadedatos.com.mx

Resumen. Para hallar patrones significativos en grandes volúmenes de datos se ha usado


inicialmente la estadística y, más recientemente, el aprendizaje automático, un área de la
inteligencia artificial. La conjunción de estas disciplinas con la teoría y práctica de las
bases de datos ha dado origen a la minería de datos, conocida también como
descubrimiento de conocimiento en bases de datos. Los patrones hallados constituyen
modelos descriptivos, predictivos o clasificadores que posteriormente pueden servir para
implementar software de aplicación especializada o para guiar la revisión de políticas o
procedimientos de las organizaciones. La necesidad de preservar y organizar datos para
facilitar su consulta y análisis ha dado origen a los data warehouses y data marts. Un data
warehouse es una base de datos sumarizados, organizados en tablas de hechos y
dimensiones que facilita el procesamiento analítico en línea (OLAP), favoreciendo el
desempeño en consultas masivas.

Palabras clave: minería de datos, descubrimiento de conocimiento en bases de datos, data


warehouse, data mart.

Introducción estadística y aprendizaje automático (ML,


por machine learning).
La motivación principal de la MD y el DW
es la necesidad de organizar grandes El ML es de especial utilidad para la MD. Es
volúmenes de datos y descubrir patrones una disciplina de la inteligencia artificial en
significativos no triviales que sirvan a la que se crean algoritmos y modelos que
investigadores y administradores para lograr intentan imitar la capacidad que tienen los
un mayor entendimiento de los fenómenos y sistemas nerviosos de los seres vivos para
procesos de su interés. abstraer patrones. La noción de patrón es de
gran importancia en la MD; se entiende
En este documento se presentan algunos de como la combinación de características o de
los conceptos fundamentales de la minería eventos que presentan alguna regularidad
de datos (MD) y el data warehousing (DW), para la percepción por tener algún tipo de
así como las metodologías más comúnmente orden o de estructura.
usadas en estas disciplinas.
En el ML las capacidades de abstracción se
emulan al buscar y modelar las interacciones
que existan entre los campos (atributos,
1. Minería de datos variables, features). Es frecuente que los
diversos algoritmos de ML se basen en
La minería de datos (data mining), conocida estadística y en teorías de las probabilidades
también como descubrimiento de y de la información.
conocimiento en bases de datos (knowledge
discovery in databases), es una disciplina de Existen dos grandes grupos de algoritmos de
las ciencias e ingenierías de la computación ML: aprendizaje supervisado y no
que intenta hallar patrones significativos en supervisado. En ambos casos, el algoritmo
conjuntos de datos para producir modelos recibe como entrada un conjunto de datos
descriptivos, predictivos y clasificadores (data set) y produce como salida un modelo
apoyándose en técnicas de manejo y descriptivo, clasificador o predictivo. El data
programación de bases de datos, en set es una tabla bidimensional, organizada
en renglones y columnas. Cada renglón

www.mineriadedatos.com.mx 1 de 6
constituye una instancia, ejemplo, registro o automático, 6) reporte y evaluación de
tupla que describe un caso real del proceso o hallazgos con el experto de dominio, 7)
fenómeno analizado. Cada columna explotación de los hallazgos. A continuación
constituye un atributo. se describe cada uno de los pasos.

En el aprendizaje supervisado, el data set 1.2.1 Definición del objetivo del modelo. El
contiene un atributo denominado atributo de modelo puede ser descriptivo, clasificador o
clase, que especifica a cuál clase o categoría predictivo. En una situación inicial, si el
clasificatoria pertenece cada instancia del conjunto de datos no ha sido sometido
data set. El atributo de clase se usa como previamente a modelación con MD, el
target (objetivo) para crear modelos. modelo debe ser descriptivo y
particularmente con un propósito
En el aprendizaje no supervisado, el data set exploratorio, intentándose obtener una
no incluye atributo de clase debido a que en visión general del proceso o fenómeno
el proceso o fenómeno analizado no se modelado. Si ya se tiene conocimiento
dispone de este dato. El principal propósito previo de los patrones generales presentes en
de esta modalidad de aprendizaje es hallar los datos, se puede optar por la generación
las clases o categorías que pudieran existir de modelos predictivos o clasificadores, en
en el data set. Los modelos construidos cuyo caso se requiere la colaboración de
intentan representar las similitudes que usuarios expertos del dominio
existen entre las instancias de las clases correspondiente.
halladas. Una vez descubiertas las clases, se
puede agregar al data set un atributo de clase 1.2.2 Selección de datos y sus fuentes. Una
cuyos valores serán asignados con base en vez definido el objetivo, se tiene que
los patrones hallados. Después, el atributo determinar cuáles datos se usarán para
de clase puede usarse como target en la construir los modelos. Se identifican los
aplicación de algoritmos de aprendizaje nombres y tipos de datos disponibles, así
supervisado. como su ubicación en los diversos sistemas
de la empresa o institución y,
1.1 Qué se produce en un proyecto de MD eventualmente, en fuentes externas. Las
fuentes de datos de la empresa o institución
El principal producto en un proyecto de MD son generalmente sus sistemas de
es uno o más modelos descriptivos, Procesamiento de Transacciones en Línea
clasificadores o predictivos, basados en (On Line Transaction Processing, OLTP),
estadística y/o en aprendizaje automático. sus data marts o su data warehouse. Los
datos se seleccionan con base en el objetivo
del análisis, apoyándose en los
1.2 Método general de la MD conocimientos del experto de dominio.

Todo proyecto de MD requiere la 1.2.3 Recolección, limpieza y pre-


colaboración entre el analista de MD y el procesamiento. Los datos seleccionados
usuario experto del dominio de deben ser copiados desde sus fuentes
conocimiento al cual se refieran los datos a originales. Se verifican sus características de
analizar. La generación de un modelo formato, errores tipográficos y valores
basado en MD consiste en los siguientes faltantes, principalmente. Eventualmente se
pasos: 1) definición del objetivo del modelo, puede requerir la corrección o eliminación
2) selección de datos para análisis y de valores erróneos o de campos con valores
modelación y de sus fuentes, 3) recolección, faltantes. El pre-procesamiento consiste en
limpieza y pre-procesamiento de datos, 4) organizar los datos generalmente en una
análisis estadísticos básicos, 5) selección y única tabla para alimentar a los algoritmos
aplicación de algoritmos de aprendizaje de aprendizaje automático. En algunos casos

www.mineriadedatos.com.mx 2 de 6
es necesario generar datos derivados a partir
de los datos originales aplicando procesos 1.2.6 Reporte y evaluación de hallazgos con
aritméticos o textuales. el experto de dominio. Los análisis
estadísticos y los modelos de aprendizaje
1.2.4 Análisis estadísticos. Éstos consisten automático se presentan a los usuarios
en la búsqueda de patrones generales en los expertos de dominio en un reporte detallado
datos mediante el uso de herramientas y claramente explicado. El usuario
estadísticas básicas, tales como el análisis de determina si los hallazgos son consistentes
Pareto, los histogramas y los diagramas de con su conocimiento experto del proceso o
barras. Si el análisis estadístico sugiere la fenómeno estudiado y decide si éstos son
existencia de patrones significativos, se útiles para ser explotados.
tendrán mayores posibilidades de producir
modelos útiles; si no, la aplicación de 1.2.7 Explotación de los hallazgos. Con los
aprendizaje automático podría ser usuarios expertos de dominio se pueden
infructuosa. El análisis también contribuye explotar los hallazgos en una o varias de las
en la selección de un algoritmo de siguientes modalidades: a) implementando
aprendizaje automático adecuado en función los modelos sobre los sistemas OLTP de la
del objetivo del proyecto y de las organización para realizar clasificación o
características del data set. Además, ofrece pronóstico automáticamente. b)
una referencia para la prueba estadística de implementando Sistemas de Soporte a las
los modelos. Decisiones (Decision Support Systems,
DSS), tales como sistemas expertos o
1.2.5 Selección y aplicación de algoritmos software para elaboración de presupuestos,
de aprendizaje automático. Con base en el planes, etc. c) revisando las políticas y
objetivo del modelo, en las características de procedimientos de la empresa o institución.
los datos y en los patrones generales
hallados, se eligen los algoritmos de
aprendizaje automático. Los criterios de
selección incluyen, entre otros aspectos, el 2. Data warehousing
hecho de que las instancias se encuentren o
no etiquetadas y que los datos constituyan o El data warehousing es el conjunto de
no series de tiempo. Instancias etiquetadas técnicas para diseñar, construir y mantener
son aquellas en las cuales cada instancia de datotecas. Una datoteca es una colección de
los datos analizados tiene especificada la datos organizados de modo que se optimice
clase o categoría clasificatoria a la cual el desempeño de las consultas de grandes
pertenece. Serie de tiempo es un conjunto de volúmenes de información. Las datotecas se
valores de un atributo numérico que se van diferencian de las bases de datos localizadas
produciendo a lo largo de un período en los sistemas OLTP porque el propósito
determinado. La selección del algoritmo o principal de las datotecas es facilitar y
tipo de modelo más adecuado requiere que eficientar las operaciones de consulta de
el analista de MD tenga los conocimientos grandes volúmenes de datos para hacer
mínimos elementales de ML. La mayoría de Procesamiento Analítico en Línea (On Line
los algoritmos de ML se encuentran ya Analytical Processing, OLAP). En cambio,
implementados en herramientas con las bases de datos de los sistemas OLTP
interfaces gráficas de fácil utilización. La intentan favorecer el desempeño de
precisión y confiabilidad de los modelos operaciones de actualización con volúmenes
deben ser evaluadas estadísticamente, pequeños de datos. Generalmente las
calculando, entre otros, los siguientes datotecas se ubican en servidores separados
indicadores: accuracy, estadístico Kappa, de los sistemas OLTP para evitar que el
precision (es distinto de accuracy), recall, procesamiento de consultas voluminosas
medida F, etc. disminuya el desempeño del OLTP. Otra

www.mineriadedatos.com.mx 3 de 6
diferencia importante es tipo de usuarios
típicos de cada uno: los de las datotecas son 2.1.1 Construcción de un repositorio
mayoritariamente de nivel gerencial o
directivo, realizando tareas nivel táctico o Un repositorio se construye usando las
estratégico; los de OLTP realizan funcionalidades de copia simple o de
actividades a nivel operativo. replicación de tablas y de bases de datos
disponibles en los sistemas manejadores de
En la mayoría de las datotecas se realiza un bases de datos. Para la corrección o
proceso denominado Extracción- eliminación de campos con valores erróneos
Transformación-Carga (Extract-Transform- o faltantes se usan scripts en lenguaje SQL y
Load, ETL). Una datoteca puede construirse también se puede recurrir a herramientas
en alguna de tres modalidades: 1) especializadas de higienización de bases de
repositorio, 2) data mart o 3) data datos. La higienización consiste
warehouse. A continuación se describe cada principalmente en corrección semi-
modalidad y se explican los métodos automática de: ortografía, errores
comúnmente aplicados para su construcción. tipográficos, inconsistencias en datos de
domicilios.

2.1 Repositorio La implementación del repositorio tiene dos


etapas: la carga inicial y el refrescamiento.
Un repositorio es una copia (réplica) de una La carga inicial consiste en introducir datos
base de datos proveniente de un sistema al repositorio cuando éste se encuentra
OLTP. Es la forma más sencilla de datoteca completamente vacío. El refrescamiento se
porque los datos generalmente se mantienen aplica después de la carga inicial y consiste
organizados en estructuras de tablas que son en incorporar para propósitos de
iguales a las de la base original. Los datos actualización los datos más recientemente
preservan sus valores originales y en caso de generados por el OLTP.
que algunos campos contengan valores
erróneos o faltantes se les aplican procesos 2.2 Data mart
de corrección o eliminación (eliminando
campos y/o tuplas), que se establecen a Un data mart (mercado de datos) es una
conveniencia de los usuarios. En el base de datos multidimensional
repositorio se van añadiendo datos (Multidimensional Database, MDD) que
periódicamente conforme se acumulan en el contiene información de un área,
sistema OLTP. En general, en un repositorio departamento o proceso determinado de la
no se hacen transformaciones de los datos empresa o institución. Por ejemplo,
ni se generan datos derivados, aunque esto información de ventas, de compras, de
no está impedido. producción, etc. Una MDD es aquella que se
organiza en tablas de hechos (facts),
El repositorio se coloca generalmente en un llamados también métricas (measures), y
servidor separado del correspondiente al tablas de dimensiones (dimensions).
sistema OLTP. El motivo es evitar que los
accesos al repositorio para consultar grandes Un hecho es un valor numérico sumarizado;
volúmenes de datos reduzcan el desempeño p. ej. un monto de ventas expresado en una
del sistema OLTP. También se intenta que unidad monetaria. La sumarización puede
las altas cargas de trabajo originadas por las consistir en una suma simple, o bien, en un
transacciones realizadas por los usuarios del conteo de frecuencias, un promedio, un
sistema OLTP no reduzcan el desempeño en porcentaje, un valor máximo o mínimo, etc.
las consultas realizadas por los usuarios del Una dimensión es un dato que determina el
repositorio. contexto a partir del cual se sumariza un
hecho; p. ej. un determinado período de

www.mineriadedatos.com.mx 4 de 6
tiempo, un alcance territorial, un tipo de 2.3 Data warehouse
producto, etc. Cada dimensión puede
organizarse en jerarquías. Una jerarquía es Un data warehouse (bodega de datos) es una
un nivel de agregación para contextualizar MDD similar al data mart y se caracteriza
hechos; p. ej. una dimensión territorial por contener datos sumarizados de todas las
puede jerarquizarse en: sucursal, ciudad, áreas, departamentos y procesos de una
Estado y país. Un hecho puede estar empresa o institución. Su diferencia
contextualizado por una o varias principal con el data mart es el tamaño y el
dimensiones; p. ej. las ventas generadas por alcance.
un conjunto específico de sucursales en un
mes determinado.
2.3.1 Construcción de un data warehouse
Las MDD se implementan en esquema de
estrella (star) o de copo de nieve (snow Un data warehouse se construye siguiendo
flake). Ambos presentan cierta semejanza los mismos pasos generales que al construir
con el esquema relacional, el más utilizado un data mart. El warehouse puede
en sistemas OLTP; pero existen diferencias construirse sin tener otra fuente que los
significativas. Tanto en el de estrella como sistemas OLTP de los usuarios, o bien, a
en el de copo de nieve existen tablas de partir de uno o más data marts que ya
hechos y de dimensiones. Sin embargo, en el existan. Una forma conveniente es crear
de copo de nieve cada dimensión puede primero uno o varios marts y después el
tener relacionada una serie de tablas de warehouse.
subdimensiones; mientras que en el de
estrella cada dimensión está restringida y no
puede tener subdimensiones. Estas 3. Comentarios finales
diferencias son significativas para la
velocidad de procesamiento y para la La necesidad del data warehousing y la
facilidad de modificación de la base de minería de datos en los ámbitos científico,
datos, ya que cada uno de los dos esquemas gubernamental y de negocios ha venido
favorece una u otra. creciendo durante los últimos años y es
evidente que esta tendencia prevalecerá. Por
ello, es pertinente profundizar en la
2.2.1 Construcción de un data mart investigación básica y aplicada de estas
disciplinas y ampliar sus aplicaciones
Un data mart se construye siguiendo los prácticas.
siguientes pasos generales: a) identificar los
datos disponibles para los usuarios en sus
sistemas OLTP, b) identificar los datos
numéricos sumarizables, c) determinar los REFERENCIAS
hechos que pueden calcularse a partir de
éstos, d) determinar las dimensiones que
Sobre minería de datos
pueden producirse para dar contexto a los
hechos, e) diseñar las tablas de hechos y BERRY, M. and LINOFF, G.S. Data Mining
dimensiones para la MDD, f) implementar Techniques for Marketing, Sales, and Customer
la MDD sobre una plataforma de base de Support. Edit. John Wiley & Sons, Inc., 2004.
datos, g) realizar la carga inicial y h)
refrescar el data mart con la periodicidad DILLY, R. (Based on S.S. Anand). Data Mining:
adecuada. an Introduction, Version 2.0, Feb 1996:
www.pcc.qub.ac.uk/tec/courses/datamining/ohp/
dm-OHP-final_1.html

www.mineriadedatos.com.mx 5 de 6
HERNÁNDEZ ORALLO, J., RAMÍREZ Toolkit: With SQL Server 2005 and the
QUINTANA, M. J., FERRI RAMÍREZ, C. Microsoft Business Intelligence Toolset
Introducción a la Minería de Datos. Pearson / (Paperback - Feb 13, 2006). John Wiley & Sons,
Prentice-Hall. España. Inc. New York, USA

MIERSWA, I., Wurst, M. and Klinkenberg, R. RAFANELLI, M. Multidimensional Databases:


and Scholz, M. and Euler, T., Yale (now: Problems and Solutions. Idea Group Publishing.
RapidMiner): Rapid Prototyping for Complex USA, 2003
Data Mining Tasks. In: Proceedings of the ACM
SIGKDD International Conference on STACKOWIAK, R., RAYMAN, J. and
Knowledge Discovery and Data Mining (KDD GREENWALD, R. Oracle Data Warehousing
2006), 2006. and Business Intelligence Solutions (paperback -
Software disponible en: http://rapid-i.com Jan 10, 2007). John Wiley & Sons, Inc. New
York, USA
WITTEN, I.H., and FRANK, E. Data Mining:
Practical Machine Learning Tools and
Techniques, Second Edition. Morgan Kaufmann
Series in Data Management Systems (paperback
- Jun 10, 2005). Elsevier, 2005.
Software disponible en:
http://www.cs.waikato.ac.nz/~ml/weka

Sobre data warehousing

CHAUDHURI, Surajit, y UMESHWAR, Dayal.


An Overview of Data Warehousing and OLAP
Technology. VLDB Conference, 1996.

HOBBS, L., HILLSON, S., LAWANDE, S and


SMITH, P. Oracle 10g Data Warehousing
(paperback). Elsevier, 2005.

KAISER, B.U. Corporate Information with SAP-


EIS: Building a Data Warehouse and a MIS-
Application with inSight (Efficient Business-
computing) (Hardcover). Originally published in
German, 1998.

KIMBALL, R. and CASERTA, J. The Data


Warehouse ETL Toolkit: Practical Techniques
for Extracting, Cleaning (paperback - Sep 13,
2004). John Wiley & Sons, Inc. New York, USA

KIMBALL, R. and ROSS, Margy. The Data


Warehouse Toolkit: The Complete Guide to
Dimensional Modeling (second edition, April 26,
2002). John Wiley & Sons, Inc. New York, USA

KIMBALL, R., ROSS, M., THORNTHWAITE,


W., MUNDY, J. and BECKER, B. The Data
Warehouse Lifecycle Toolkit (second edition,
2008). John Wiley & Sons, Inc. New York, USA

MUNDY, J., THORNTHWAITE, W. and


KIMBALL, R. The Microsoft Data Warehouse

www.mineriadedatos.com.mx 6 de 6

You might also like