Professional Documents
Culture Documents
Sergio R. Coria
E-mail: sergio@mineriadedatos.com.mx
www.mineriadedatos.com.mx 1 de 6
constituye una instancia, ejemplo, registro o automático, 6) reporte y evaluación de
tupla que describe un caso real del proceso o hallazgos con el experto de dominio, 7)
fenómeno analizado. Cada columna explotación de los hallazgos. A continuación
constituye un atributo. se describe cada uno de los pasos.
En el aprendizaje supervisado, el data set 1.2.1 Definición del objetivo del modelo. El
contiene un atributo denominado atributo de modelo puede ser descriptivo, clasificador o
clase, que especifica a cuál clase o categoría predictivo. En una situación inicial, si el
clasificatoria pertenece cada instancia del conjunto de datos no ha sido sometido
data set. El atributo de clase se usa como previamente a modelación con MD, el
target (objetivo) para crear modelos. modelo debe ser descriptivo y
particularmente con un propósito
En el aprendizaje no supervisado, el data set exploratorio, intentándose obtener una
no incluye atributo de clase debido a que en visión general del proceso o fenómeno
el proceso o fenómeno analizado no se modelado. Si ya se tiene conocimiento
dispone de este dato. El principal propósito previo de los patrones generales presentes en
de esta modalidad de aprendizaje es hallar los datos, se puede optar por la generación
las clases o categorías que pudieran existir de modelos predictivos o clasificadores, en
en el data set. Los modelos construidos cuyo caso se requiere la colaboración de
intentan representar las similitudes que usuarios expertos del dominio
existen entre las instancias de las clases correspondiente.
halladas. Una vez descubiertas las clases, se
puede agregar al data set un atributo de clase 1.2.2 Selección de datos y sus fuentes. Una
cuyos valores serán asignados con base en vez definido el objetivo, se tiene que
los patrones hallados. Después, el atributo determinar cuáles datos se usarán para
de clase puede usarse como target en la construir los modelos. Se identifican los
aplicación de algoritmos de aprendizaje nombres y tipos de datos disponibles, así
supervisado. como su ubicación en los diversos sistemas
de la empresa o institución y,
1.1 Qué se produce en un proyecto de MD eventualmente, en fuentes externas. Las
fuentes de datos de la empresa o institución
El principal producto en un proyecto de MD son generalmente sus sistemas de
es uno o más modelos descriptivos, Procesamiento de Transacciones en Línea
clasificadores o predictivos, basados en (On Line Transaction Processing, OLTP),
estadística y/o en aprendizaje automático. sus data marts o su data warehouse. Los
datos se seleccionan con base en el objetivo
del análisis, apoyándose en los
1.2 Método general de la MD conocimientos del experto de dominio.
www.mineriadedatos.com.mx 2 de 6
es necesario generar datos derivados a partir
de los datos originales aplicando procesos 1.2.6 Reporte y evaluación de hallazgos con
aritméticos o textuales. el experto de dominio. Los análisis
estadísticos y los modelos de aprendizaje
1.2.4 Análisis estadísticos. Éstos consisten automático se presentan a los usuarios
en la búsqueda de patrones generales en los expertos de dominio en un reporte detallado
datos mediante el uso de herramientas y claramente explicado. El usuario
estadísticas básicas, tales como el análisis de determina si los hallazgos son consistentes
Pareto, los histogramas y los diagramas de con su conocimiento experto del proceso o
barras. Si el análisis estadístico sugiere la fenómeno estudiado y decide si éstos son
existencia de patrones significativos, se útiles para ser explotados.
tendrán mayores posibilidades de producir
modelos útiles; si no, la aplicación de 1.2.7 Explotación de los hallazgos. Con los
aprendizaje automático podría ser usuarios expertos de dominio se pueden
infructuosa. El análisis también contribuye explotar los hallazgos en una o varias de las
en la selección de un algoritmo de siguientes modalidades: a) implementando
aprendizaje automático adecuado en función los modelos sobre los sistemas OLTP de la
del objetivo del proyecto y de las organización para realizar clasificación o
características del data set. Además, ofrece pronóstico automáticamente. b)
una referencia para la prueba estadística de implementando Sistemas de Soporte a las
los modelos. Decisiones (Decision Support Systems,
DSS), tales como sistemas expertos o
1.2.5 Selección y aplicación de algoritmos software para elaboración de presupuestos,
de aprendizaje automático. Con base en el planes, etc. c) revisando las políticas y
objetivo del modelo, en las características de procedimientos de la empresa o institución.
los datos y en los patrones generales
hallados, se eligen los algoritmos de
aprendizaje automático. Los criterios de
selección incluyen, entre otros aspectos, el 2. Data warehousing
hecho de que las instancias se encuentren o
no etiquetadas y que los datos constituyan o El data warehousing es el conjunto de
no series de tiempo. Instancias etiquetadas técnicas para diseñar, construir y mantener
son aquellas en las cuales cada instancia de datotecas. Una datoteca es una colección de
los datos analizados tiene especificada la datos organizados de modo que se optimice
clase o categoría clasificatoria a la cual el desempeño de las consultas de grandes
pertenece. Serie de tiempo es un conjunto de volúmenes de información. Las datotecas se
valores de un atributo numérico que se van diferencian de las bases de datos localizadas
produciendo a lo largo de un período en los sistemas OLTP porque el propósito
determinado. La selección del algoritmo o principal de las datotecas es facilitar y
tipo de modelo más adecuado requiere que eficientar las operaciones de consulta de
el analista de MD tenga los conocimientos grandes volúmenes de datos para hacer
mínimos elementales de ML. La mayoría de Procesamiento Analítico en Línea (On Line
los algoritmos de ML se encuentran ya Analytical Processing, OLAP). En cambio,
implementados en herramientas con las bases de datos de los sistemas OLTP
interfaces gráficas de fácil utilización. La intentan favorecer el desempeño de
precisión y confiabilidad de los modelos operaciones de actualización con volúmenes
deben ser evaluadas estadísticamente, pequeños de datos. Generalmente las
calculando, entre otros, los siguientes datotecas se ubican en servidores separados
indicadores: accuracy, estadístico Kappa, de los sistemas OLTP para evitar que el
precision (es distinto de accuracy), recall, procesamiento de consultas voluminosas
medida F, etc. disminuya el desempeño del OLTP. Otra
www.mineriadedatos.com.mx 3 de 6
diferencia importante es tipo de usuarios
típicos de cada uno: los de las datotecas son 2.1.1 Construcción de un repositorio
mayoritariamente de nivel gerencial o
directivo, realizando tareas nivel táctico o Un repositorio se construye usando las
estratégico; los de OLTP realizan funcionalidades de copia simple o de
actividades a nivel operativo. replicación de tablas y de bases de datos
disponibles en los sistemas manejadores de
En la mayoría de las datotecas se realiza un bases de datos. Para la corrección o
proceso denominado Extracción- eliminación de campos con valores erróneos
Transformación-Carga (Extract-Transform- o faltantes se usan scripts en lenguaje SQL y
Load, ETL). Una datoteca puede construirse también se puede recurrir a herramientas
en alguna de tres modalidades: 1) especializadas de higienización de bases de
repositorio, 2) data mart o 3) data datos. La higienización consiste
warehouse. A continuación se describe cada principalmente en corrección semi-
modalidad y se explican los métodos automática de: ortografía, errores
comúnmente aplicados para su construcción. tipográficos, inconsistencias en datos de
domicilios.
www.mineriadedatos.com.mx 4 de 6
tiempo, un alcance territorial, un tipo de 2.3 Data warehouse
producto, etc. Cada dimensión puede
organizarse en jerarquías. Una jerarquía es Un data warehouse (bodega de datos) es una
un nivel de agregación para contextualizar MDD similar al data mart y se caracteriza
hechos; p. ej. una dimensión territorial por contener datos sumarizados de todas las
puede jerarquizarse en: sucursal, ciudad, áreas, departamentos y procesos de una
Estado y país. Un hecho puede estar empresa o institución. Su diferencia
contextualizado por una o varias principal con el data mart es el tamaño y el
dimensiones; p. ej. las ventas generadas por alcance.
un conjunto específico de sucursales en un
mes determinado.
2.3.1 Construcción de un data warehouse
Las MDD se implementan en esquema de
estrella (star) o de copo de nieve (snow Un data warehouse se construye siguiendo
flake). Ambos presentan cierta semejanza los mismos pasos generales que al construir
con el esquema relacional, el más utilizado un data mart. El warehouse puede
en sistemas OLTP; pero existen diferencias construirse sin tener otra fuente que los
significativas. Tanto en el de estrella como sistemas OLTP de los usuarios, o bien, a
en el de copo de nieve existen tablas de partir de uno o más data marts que ya
hechos y de dimensiones. Sin embargo, en el existan. Una forma conveniente es crear
de copo de nieve cada dimensión puede primero uno o varios marts y después el
tener relacionada una serie de tablas de warehouse.
subdimensiones; mientras que en el de
estrella cada dimensión está restringida y no
puede tener subdimensiones. Estas 3. Comentarios finales
diferencias son significativas para la
velocidad de procesamiento y para la La necesidad del data warehousing y la
facilidad de modificación de la base de minería de datos en los ámbitos científico,
datos, ya que cada uno de los dos esquemas gubernamental y de negocios ha venido
favorece una u otra. creciendo durante los últimos años y es
evidente que esta tendencia prevalecerá. Por
ello, es pertinente profundizar en la
2.2.1 Construcción de un data mart investigación básica y aplicada de estas
disciplinas y ampliar sus aplicaciones
Un data mart se construye siguiendo los prácticas.
siguientes pasos generales: a) identificar los
datos disponibles para los usuarios en sus
sistemas OLTP, b) identificar los datos
numéricos sumarizables, c) determinar los REFERENCIAS
hechos que pueden calcularse a partir de
éstos, d) determinar las dimensiones que
Sobre minería de datos
pueden producirse para dar contexto a los
hechos, e) diseñar las tablas de hechos y BERRY, M. and LINOFF, G.S. Data Mining
dimensiones para la MDD, f) implementar Techniques for Marketing, Sales, and Customer
la MDD sobre una plataforma de base de Support. Edit. John Wiley & Sons, Inc., 2004.
datos, g) realizar la carga inicial y h)
refrescar el data mart con la periodicidad DILLY, R. (Based on S.S. Anand). Data Mining:
adecuada. an Introduction, Version 2.0, Feb 1996:
www.pcc.qub.ac.uk/tec/courses/datamining/ohp/
dm-OHP-final_1.html
www.mineriadedatos.com.mx 5 de 6
HERNÁNDEZ ORALLO, J., RAMÍREZ Toolkit: With SQL Server 2005 and the
QUINTANA, M. J., FERRI RAMÍREZ, C. Microsoft Business Intelligence Toolset
Introducción a la Minería de Datos. Pearson / (Paperback - Feb 13, 2006). John Wiley & Sons,
Prentice-Hall. España. Inc. New York, USA
www.mineriadedatos.com.mx 6 de 6