You are on page 1of 21

Proceso de la MD CRISP-DM

Referencias: C. Shearer, The CRISP-DM Model: The New Blueprint for Data Mining, Journal of Data Warehousing 5(4):2000 P. Chapman (NCR), J. Clinton (SPSS), R. Kerber (NCR), T. Khabaza (SPSS), T. Reinartz (DaimlerChrysler), C. Shearer (SPSS) & R. Wirth (DaimlerChrysler), CRISP-DM 1.0: Step-by-step data mining guide, 2000.

Alicia Prez UCB La Paz

Proceso de MD

Cross-Industry Standard Process for Data Mining (CRISP-DM) Financiado por la UE: desarrollo de un framework par tareas de MD Objetivos:

Animar a que haya herramientas interoperables a lo largo del proceso completo de la MD Facilitar las tareas de MD en tareas sencillas no hace falta ser un gran experto

Por qu un proceso estndar?

Framework para recordar la experiencia

para poder replicar proyectos

El proceso de MD debera ser confiable y repetible por personas con poca experiencia en la MD

Ayuda a la planificacin y gestin de los proyectos Para los novatos, Comfort factor

Demuestra la madurez de la MD Reduce la dependencia en expertos estrella


3

Historia del estndar

CRoss Industry Standard Process for Data Mining Iniciativa lanzada en Septiembre 1996

SPSS/ISL, NCR, Daimler-Benz, OHRA

Financiada por la Comisin Europea Ms de 200 miembros del SIG CRISP-DM SIG en el mundo

Fabricantes de herramientas DM - SPSS, NCR, IBM, SAS, SGI, Data Distilleries, Syllogic, Magnify, .. Consultores, desarrolladores - Cap Gemini, ICL Retail, Deloitte & Touche, Usuarios finales - BT, ABB, Lloyds Bank, AirTouch, Experian, ...

Prcticamente los mismos resultados que en 2004


5

CRISP-DM

Non-proprietary Neutral respecto a aplicacin/industria herramienta Enfocado en aspectos del negocio adems del anlisis tcnico Framework para guiar el proceso Base de experiencias Plantillas para el anlisis
6

CRISP-DM

Fases de CRISP-DM

Comprensin del negocio

Comprender objetivos y requisitos del proyecto/negocio Definicin del problema de MD Recoleccin inicial de datos, familiarizacin Identificar problemas con la calidad de los datos Resultados iniciales, obvios Seleccin de registros y de atributos Limpieza de los datos Ejecutar las herramientas de MD

Comprensin de los datos


Preparacin de los datos


Modelado

Evaluacin

Determinar si los resultados cumplen los objetivos de negocio Identificar aspectos del negocio que deberan haberse considerado antes
Llevar los modelos obtenidos a la prctica Preparar para hacer MD repetida/continua

Implantacin

8

Fases y Tareas
Comprensin del negocio Comprensin de los datos Preparacin de los datos Modelado Evaluacin

Implantacin

Determinar Objetivos de negocio

Recoger Datos Iniciales

Conocimiento previo Objetivos de negocio Criterios de xito segn el negocio


Evaluacin de la situacin

Informe sobre la recoleccin inicial de datos


Describir Datos

Conjunto de Datos Descripcin del Conjunto de Datos


Seleccionar Datos

Seleccionar Tcnica de Modelado

Evaluar Resultados

Inventario de recursos Requisitos, suposiciones y restricciones Riesgos y contingencias Terminologa Costos y beneficios
Determinar meta de la MD

Informe de Descripcin de los Datos


Explorar Datos

Razones para Inclusin/ Exclusin


Limpiar Datos

Tcnica de Modelado Suposiciones del Modelado


Generar Diseo de Prueba

Evaluacin de resultados de MD respecto a criterios de xito del negocio Modelos aprobados


Revisar el Proceso

Planificar Implantacin

Plan de Implantacin Plan de Monitoreo y Mantenimiento Informe Final Presentacin Final

Planificar Monitoreo y Mantenimiento

Informe de Exploracin de los Datos


Verificar la Calidad de los Datos

Informe de Limpieza de Datos


Construir Datos

Diseo de Prueba

Revisin del Proceso


Determinar Prximos Pasos

Producir Informe Final

Construir el Modelo

Informe sobre la Calidad de los Datos

Atributos Derivados Registros Generados


Integrar Datos

Valores iniciales de Parmetros Modelos Descripcin de los Modelos


Evaluar Modelo

Lista de Acciones Posibles Decisin

Revisar el Proyecto

Documentacin de la Experiencia

Metas de la MD Criterios de xito de la MD


Producir Plan del Proyecto

Datos Combinados
Formatear Datos

Datos Reformateados

Evaluacin del Modelo Revisar valores de parmetros

Plan del proyecto Evaluacin inicial de herramientas y tcnicas

Fases del Proceso de MD (1 & 2)

Comprensin del negocio:

Indicar el Objetivo de negocio Indicar el objetivo de la MD Indicar los criterios de xito

Comprensin de los datos

Explorar los datos y verificar su calidad Encontrar outliers


10

Fases del Proceso de MD (3)


Preparacin de los datos: Normalmente ocupa 90% del tiempo

Recoleccin Evaluacin Consolidacin y Limpieza

vnculos ente tablas, nivel de agregacin, valores faltantes, etc ignorar activamente datos que no aportan nada? outliers? Muestreo Herramientas de visualizacin

Seleccin de los datos


Transformaciones crear nuevas variables


11

Fases del Proceso de MD (4)

Construccin de modelos

Seleccin de las tcnicas de modelado basada en el objetivo de la MD El modelado es un proceso iterativo diferente para aprendizaje supervisado y no supervisado

Puede modelarse para descripcin o para prediccin

12

Fases del Proceso de MD (5)

Evaluacin del modelo resultados sobre conjunto de datos de prueba Mtodos y criterios dependen del tipo de modelo:

eg. matriz de coincidencia para clasificadores, error medio para modelos de regresin

Interpretacin del modelo: importante o no, fcil o difcil segn el algoritmo Evaluacin segn los criterios del negocio

14

Fases del Proceso de MD (6)

Implantacin

Determinar cmo han de utilizarse los resultados Quin los necesita? Con qu frecuencia van a usarse?

Implantacin de los resultados mediante:

Marcar una BD con resultados de clasificacin Utilizar los resultados como reglas de negocio Marcado interactivo

15

Por qu CRISP-DM?

El proceso de MD debe ser confiable y replicable por personas con poca experiencia en MD CRISP-DM proporciona un marco unificado

pautas documentacin de la experiencia

CRISP-DM es flexible

Diferentes problemas de negocio Diferentes datos

16

Microsoft Data Mining Lifecycle


CRISP-DM
Comprensin del negocio Comprensin de los datos SSAS (DSV) Query Excel

Datos
SSIS SSAS SSRS Excel Your Apps
Implantacin

Preparacin de los datos

SSIS SSAS Excel

Modelado Evaluacin

SSAS (Data Mining) Excel

17

Microsoft: SSAS 2008 Data Mining (SSAS = SQL Server Analysis Services)

Cmo elegir un sistema de MD?

Sistemas comerciales

Diferente funcionalidad o metodologa de MD Tal vez funcionen con tipos de datos completamente diferentes

Seleccionar desde varios puntos de vista Tipos de datos: relacionales, transaccionales, texto, secuencias temporales, espaciales? Sobre sistemas corren en uno o varios sistemas operativos? arquitectura servidor cliente? proporcionan interfaces basadas en web, permiten datos en XML como entrada/salida?
18

Cmo elegir un sistema de MD?

Fuentes de datos
archivos de texto ASCII, mltiples fuentes de datos relacionales soporte de conexiones ODBC (OLE DB, JDBC)? Funciones y metodologas de MD Una vs. varias funciones de MD Uno vs. varios mtodos para cada funcin

Ms funciones y mtodos por funcin de MD dan ms flexibilidad y poder de anlisis al usuario

Acoplamiento con BD y/o almacn de datos Idealmente el sistema de MD debera estar bien acoplado con el de BD

19

Cmo elegir un sistema de MD?

Escalabilidad

En filas (o tamao de la BD) En columnas (o dimensiones) Maldicin de la dimensionalidad: es ms difcil hacerlo escalable por columnas que por filas Una imagen vale mil palabras Categoras de visualizacin: de datos, de resultados de MD, del proceso de MD, MD visual Interfaz grfica fcil de usar y de calidad Esencial para la MD guiada por el usuario, interactiva
20

Herramientas de visualizacin

Lenguaje de consultas de MD y GUI

Herramientas ms utilizadas
Ver encuesta anual en KDNuggets http://www.kdnuggets.com/polls/2009/datamining-tools-used.htm

23

Mtodos ms utilizados (Mar 2007)

24

http://www.kdnuggets.com/polls/2007/data_mining_methods.htm

You might also like