Professional Documents
Culture Documents
Metodologas y
Tcnicas de Minera de datos
Jose Aguilar
CEMISID, Escuela de Sistemas
Facultad de Ingeniera
Universidad de Los Andes
Mrida, Venezuela
Definiciones iniciales
Datos: hechos o medidas que describen caractersticas de
objetos, eventos o personas, es la materia prima de la que se
obtendr la informacin.
Significado (semntica):
Qu quiere decir?
Del significado extrado de una informacin, cada individuo evala
las consecuencias posibles y adeca sus actitudes y acciones de
manera acorde a las consecuencias previsibles que se deducen del
significado de la informacin.
.
Principales caractersticas de la informacin
Valor (receptor):
Cun til resulta para el destinatario la informacin?
.
.
Situacin actual
La revolucin digital ha permitido que la captura de datos sea
fcil, y su almacenamiento tenga un costo casi nulo.
documentales, Clustering:
multimedia, etc) Modelos predictivos: estiman
valores de variables de inters
World Wide Web
(a predecir) a partir de valores
de otras variables
Regresin
Clasificacin
Situacin actual
Los datos por s solos no producen beneficio
directo.
Su verdadero valor consiste en poder extraer
informacin til para la toma de decisiones
Bases de
Datos Minera de datos Ciencias de
la informacin
Graficacin y Otras
visualizacin disciplinas
Estadstica vs Minera de datos
Test de la razn de la
Bsqueda Metaheursticos
verosimilitud
Validacin No S
Minera de Datos vs. Estadstica
Mtodos Descriptivos
Encontrar patrones interpretable que describen
los datos.
Mtodos de Prediccin
Utilizar algunas variables para predecir los
valores desconocidos o futuros de otras
variables.
Qu es la Minera de Datos?
La minera de datos se puede dividir en:
Pronstico (Prediccin)
Asociacin
Ejemplos:
Clasificar aplicaciones a crdito como bajo, medio
y alto riesgo
Detectar reclamos fraudulentos de seguros
Pronstico
Predecir un valor futuro con base a valores
pasados
Ejemplos:
Predecir cunto efectivo requerir un cajero
automtico en un fin de semana
Asociacin
Determinar cosas u objetos que van juntos
Ejemplo:
Determinar que productos se adquieren
conjuntamente en un supermercado
Agrupacin o segmentacin
Dividir una poblacin en un nmero de grupos
ms homogneos
Ejemplo:
Dividir la base de clientes de acuerdo con los
hbitos de consumo
ALGORITMOS DE APRENDIZAJE
Clasificacin, Prediccin
x2 x2
x1 x1
Aprendizaje no supervisado
Clasificacin de Secuencia
36
Minera de Grfos y Redes
Minera de Patrn de Grfo
Modelado estadstico de Redes
Agrupacin y clasificacin de grafos y redes
homogneas
Agrupacin, clasificacin de las Redes heterogneos
Descubrimiento, clases, y Prediccin de Enlace en
Redes de Informacin
Bsqueda de Similitud en Redes de Informacin:
Evolucin de las redes de informacin social
37
Mineria en otras clases de Datos
Minera de Datos Espaciales
Identificar
un problema
Actuar basndonos
en la informacin
Esquema bsico: Minera de datos
Datos Iniciales
.log
KDD Knowledge Discovery in
Databases
La minera de datos se encuadra dentro de un proceso
mucho mayor conocido como KDD (Knowledge Discovery from
Databases)
Fases del proceso iterativo e interactivo
1. Integracin y recopilacin de datos
2. Seleccin, limpieza y transformacin
3. Minera de datos
4. Evaluacin e interpretacin
5. Difusin y uso
El Proceso de KDD
INTERPRETACIN Y EVALUACIN
CODIFICACIN Modelos
Datos objetivo
Datos
KDD
Fase 1
Integracin y recopilacin de datos
Decisiones estratgicas basadas en el anlisis, la planificacin y
la prediccin: datos en varios departamentos
Cada fuente de datos distintos formatos de registro, diferentes
grados de agregacin, diferentes claves primarias, ....
Integracin de mltiples bases de datos: almacenes de datos
(data warehousing)
Almacn de datos aconsejable cuando el volumen de
informacin es grande. No estrictamente necesario (archivos de
texto, hojas de clculo, ...)
Fase 2
Seleccin, limpieza y transformacin
Calidad del conocimiento descubierto depende (adems del algoritmo de
minera) de la calidad de los datos analizados
Presencia de datos que no se ajustan al comportamiento general de los datos
(outliers)
Presencia de datos perdidos (missing values)
Seleccin de variables relevantes (feature subset selection)
Seleccin de casos aleatoria en bases de datos de tamao ingente
Construccin de nuevas variables que faciliten el proceso de minera de datos
Discretizacin de variables continuas
Fase 3
Minera de datos
Modelos descriptivos
Reglas de asociacin
Clustering
Modelos predictivos
Regresin: regresin lineal, regresin logstica
Clasificacin supervisada: clasificadores Bayesianos,
redes neuronales, rboles de clasificacin, induccin de
reglas, K-NN, combinacin de clasificadores
Fase 4
Evaluacin e interpretacin
Tcnicas de evaluacin: validacin simple (training + test),
validacin cruzada con k-fold, bootstrap
Reglas de asociacin: cobertura (soporte), confianza
Clustering: variabilidad intra y entre
Regresin: error cuadrtico medio
Clasificacin supervisada: porcentaje de bien clasificados, matriz
de confusin, anlisis ROC
Modelos precisos, comprensibles (inteligibles) e interesantes
(tiles y novedosos)
Fase 5
Difusin y uso
Difusin: necesario distribuir, comunicar a los posibles
usuarios, integrarlo en el know-how de la organizacin
Medir la evolucin del modelo a lo largo del tiempo
(patrones tipo pueden cambiar)
Modelo debe cada cierto tiempo de ser:
Reevaluado
Reentrenado
Reconstruido
CRISP-DM
1. Conocimiento de la Organizacin
2. Descripcin general de la
problemtica organizacional
2. Protocolo de la Fase:
2. Protocolo de la Fase:
Familiarizacin con los procesos sobre los cuales se puede realizar la ingeniera
de conocimiento
2. Protocolo de la Fase:
2. Protocolo de la Fase:
Fase 4: Anlisis para caracterizar las posibles tareas de Minera de Datos (MD)
Descripcin del escenario actual
Vista Minable conceptual (VMC): describe en detalle cada una de las variables
a ser tomadas en cuenta para la tarea de MD, para cada escenario futuro
seleccionado. La misma est compuesta por todas las variables de inters, y
algunos campos adicionales de importancia para realizar el proceso de
tratamiento de datos.
Productos principales
Caractersticas de los repositorios donde se encuentran los datos
VMC
VMO
Descripcin de la(s) variable(s) objetivo(s)
Construccin de la VMC:
Realizar un primer filtrado..
Establecer las relaciones entre las variables
seleccionadas (dependencia entre variables,
redundancia, variables que son producto de frmulas).
Extender la VMC
Caracterizacin de los datos del
Dominio de la aplicacin
Protocolo de la etapa
Construccin de la VMO:
Si se encuentran en diferentes repositorios, ubicarlos
Observar la organizacin en la que estn dispuestos los datos en cada
repositorio, y como se almacenan
Definir una estrategia para unificar los datos en un solo repositorio (escoger
una herramienta, puede ser un lenguaje de procesamiento matemtico).
Integrar los formatos.
Crear la VMO resultante de la integracin de los datos asociados a las
variables escogidas en la VMC (fusin de tablas, integracin de bases de
datos, entre otros).
Definir las variables objetivo:
Identificar a qu conclusiones puede llegar el experto humano teniendo en
cuenta las entradas
Observar el objetivo en el escenario futuro seleccionado e identificar Cul
de las variables llevan a dicho objetivo?
Escoger la(s) variable(s) objetivo(s)
Tratamiento de datos
Objetivos
Esta etapa se centra en generar datos de
calidad, es decir datos sin anomalas, sin
inconsistencias de formato, sin capturas
errneas, sin campos vacos; aplicando
mtodos de limpieza, transformacin y
reduccin sobre la vista minable operativa.
Productos principales
VMO
Tratamiento de datos
Limpieza:
Estudiar la representacin de cada una de las
variables.
Buscar anomalas de representacin.
Definir alguna estrategia de limpieza para
erradicar dichas anomalas y obtener data
consistente.
Escoger las herramientas tecnolgicas para
realizar las operaciones de limpieza de datos
definidas.
Tratamiento de datos
Transformacin:
rboles de decisin,
Reglas de asociacin,
Es la forma ms
simple y ms
rudimentaria para
representar la
salida de la
mquina de
aprendizaje.
Ejemplos
Criterios
Ejemplos Qu aprendo?
Ej Alt Bar Dia EdM Patr Prec EdD Tipo RES T ---> Espera
X1 S N N S Alg $$$ N Franc S 0-10 S
X2 S N N S llen $ N Jap S 10-15 N
X3 N S N N Alg $ N Hamb N 0 S
...
Jose Aguilar 82
RBOLES DE DECISION
Los rboles de decisin suelen ser empleados en tareas de clasificacin, y
tambin, aunque en menor medida, en tareas de prediccin
Es una estrategia de
aprendizaje inductivo
J. Aguilar
Arboles de decisin
transformaciones
rbol de Decisin
Para nuestro ejemplo inicial:
Patrn?
SN TiempoEspera?
S Alternativa? Hambre N
Reservacin? Viernes/Sbado? S Alternat
Bar S N S S Llueve?
SN N S
Jose Aguilar
86
rbol de Decisin
Idea: escoger atributo "ms significativo" como raz del (sub)-rbol
Cmo?
Si hay + y - ejemplos escoger atributo que mejor los divida (mayor discriminante)
Si hay particiones con + y -, buscar un 2do atributo para seguir partiendo
Patrn? Tipo?
Lleno Francs
Nada Algo China Italiana
Patrn? Tipo?
Donde:
I es entropa de los ejemplos:
p n
y IG ( A) I ( , ) restov:( A)
posibles valores de A
pn pn p y n ? ver siguiente lamina
i i
p n p p n n
I( , ) log 2 log 2
pn pn pn pn pn pn
v
p i n i p ni
resto(A) I( i , )
i 1 p n pi n i p i n i
Arbol de Decisin y Lgica de Predicado
Ei
Donde Ei es el porcentaje
Quin es pi? pi puede ser pi
Ei Ei de ejemplos clasificados
como + por el valor
v del atributo A
Una Formula general para escoger a los atributos:
Como hay que elegir el atributo con mayor informacin (menor entropa),
otra posibilidad es calcular una funcin de merito (FM)
Patrn?
NS Hambre?
Nada Algo
lleno Uso de operadores:
Tipo? N Para unir ramas O
No Si Para seguir una rama Y
S N Viernes/Sbado? S
Frances Hamburgesa
Italiano N Japones S
No Si
91
Construccin de rboles de decisin
Se completa el rbol completando cada rama hasta cumplir un cierto compromiso:
probabilidades
Modelizacin estadstica
para un dia dado
Probabilidad de que sea si: 2/9 x 3/9 x 3/9 x 3/9 x 9/14 = 0.0053
Probabilidad de que sea no: 3/5 x 1/5 x 4/5 x 3/5 x 5/14 = 0.0206
Normalizacin
REGLAS DE ASOCIACION
Nos permite predecir patrones de comportamientos futuros
sobre ocurrencias simultaneas de valores de variables. Tcnica
no supervisada
Reglas de Asociacin
Preparacin Data
Generacin de Matriz
Algoritmo Apriori
Reglas de Asociacin
Reglas de Asociacin
XY
[/public/about.jsp ]---->/public/team.jsp
Soporte:
Soporte (X Y) = Probabilidad (X U Y)
Confianza:
Confianza (X Y) = Probabilidad (X / Y)
Reglas de Asociacin
Reglas de Asociacin
Preparacin de Data
Registro_Log
Registro_Paginas_Site
Registro_Sesion
Reglas de Asociacin
Generacin Matriz
Sesin / #
Pgina 1 2 3 4 5 .. pginas
1 0 1 0 1 0 .. 0
2 1 0 1 1 0 .. 0
3 1 1 0 1 0 .. 0
4 0 1 1 1 0 .. 0
5 1 0 0 0 0 .. 0
6 0 1 0 0 1 .. 0
: : : : : : .. 0
: : : : : : .. 0
# sesiones 0 1 0 1 0 .. 0
1 1 0 1 0 1 0 .. 0
Candidatos antecedentes 2
3
1
1
0
1
1
0
1
1
0
0
..
..
0
5 1 0 0 0 0 .. 0
6 0 1 0 0 1 .. 0
: : : : : : .. 0
: : : : : : .. 0
# sesiones 0 1 0 1 0 .. 0
3 S1 S2 S5 Sn
12 Solo si conf(12) > confianza confianza=Prob (X / Y)
Por ejemplo:
Utilidad de una categora
J. AGUILAR 115
MODELO BIOLOGICO
SISTEMA NEURONAL
J. AGUILAR 116
MODELO BIOLOGICO
NEURONAS: CELULAS VIVAS
CARACTERISTICAS:
ELEMENTOS SIMPLES INTERCONECTADOS
FUNCIONAMIENTO EN PARALELO, ASINCRNICA Y
NO ALGORTMICAMENTE
INTERACCIONES COMPLEJAS
J. AGUILAR 117
NEURONA
UNIDAD FUNDAMENTAL DEL SISTEMA
NERVIOSO ESPECIALIZADAS EN CIERTAS
TAREAS
J. AGUILAR 118
NEURONA
J. AGUILAR 119
SINAPSIS
UNIDAD FUNCIONAL QUE
INTERRELACIONA LAS NEURONAS
NEUROTRANSMISOR: GENERA
POLARIZACIN PARA LA MEMBRANA
POSTSINPTICA
POTENCIAL POSTSINPTICO:
PUEDE SER POSITIVO (EXCITACIN)
O NEGATIVO (INHIBICIN)
J. AGUILAR 120
REDES NEURONALES
MUCHAS CONEXIONES PARALELAS ENTRE
NEURONAS
MUCHAS CONEXIONES PROVEEN
MECANISMOS DE RETROALIMENTACIN
PARA LAS NEURONAS
ALGUNAS NEURONAS PUEDEN EXCITAR UNAS
NEURONAS MIENTRAS INHIBEN A OTRAS
J. AGUILAR 121
REDES NEURONALES
J. AGUILAR 122
CAPACIDADES RED NEURONAL
Procesamiento paralelo
Adaptativa
Asociativa
Auto-organizacin
Generalizacin, clasificacin, extraccin y
optimizacin
J. AGUILAR 123
COMPARACION RED NEURONAL
Neurona Biolgica Neurona Artificial
Seales que llegan a la
sinapsis Entradas a la neurona
Carcter excitador o
inhibidor de la sinapsis de
entrada Pesos de entrada
Estimulo total de la Sumatoria de pesos por
neurona entradas
Activacin o no de la
neurona Funcin de activacin
Respuesta de la neurona Funcin de salida
J. AGUILAR 124
COMPARACION RED NEURONAL
Aspectos Computador Cerebro Humano
J. AGUILAR 126
COMO TRABAJA UNA NEURONA ARTIFICIAL
X1, X2,.., Xn son las seales de entrada y cada una pasa a travs de un
peso W, llamado peso sinptico de la conexin, cuya funcin es anloga
a la de la funcin sinptica de la neurona biolgica
J. AGUILAR 128
COMO TRABAJA UNA NEURONA
5. La regla de propagacin hi(t)= g(wij, xj(t))
Ej. hi(t)= j wijxj(t)
6. La funcin de activacin
ai(t)= fi(ai(t-1), hi(t))
J. AGUILAR 129
APLICACIN DE TCNICAS COMPUTACIONALES EN EL ESTUDIO DE EFECTOS INTERPLACAS
Funcin de activacin
Funcin identidad o funcin lineal: Funcin lineal por tramos
J. AGUILAR 131
Topologas de las RNA
Redes monocapa:
Redes con una sola capa.
Para unirse las neuronas crean conexiones laterales para conectar
con otras neuronas de la nica capa.
Redes multicapas:
Generalizacin de las anteriores donde existe un conjunto de capas
intermedias entre la entrada y la salida llamadas capas ocultas.
Pueden ser:
Propagacin hacia adelante
Propagacin hacia atrs
Redes recurrentes
Redes de alimentacin lateral
Redes Multicapas
Capa de Entrada: est constituida por los nodos de entrada, que reciben
directamente la informacin de las fuentes externas a la red.
Capas Ocultas: no tienen contacto con el exterior ya que se encuentran
ubicadas entre la capa de entrada y la capa de salida. La cantidad de capas
ocultas depender del problema en estudio y deben especificarse en la
arquitectura.
Capa de Salida: est constituida por los nodos que transfieren la
informacin a la salida de la red y de acuerdo al tipo de problema en
estudio se determinar el nmero de neuronas de salida.
Redes Multicapas
Redes recurrentes
en las RNs
J. AGUILAR 135
APRENDIZAJE
El aprendizaje de una RNA se basa en un proceso que permite que la
red aprenda a comportarse segn unos objetivos especficos.
ASOCIACIN ENTRADA/SALIDA
J. AGUILAR 138
APRENDIZAJE
wij(t+1)=wij(t) + Dwij(t)
J. AGUILAR 139
APRENDIZAJE
J. AGUILAR 141
APRENDIZAJE
En los agentes se pueden usar todas
En el caso de mltiples agentes, los mtodos
supervisados no son fciles de aplicar
Mas usado los mtodos de recompensa.
Aprendizaje basado en recompensas puede ser
dividido en dos subconjuntos:
Mtodos de aprendizaje por refuerzo: estiman funciones
de valor
Mtodos estocsticos ,dtales como la computacin
evolutiva, recocido simulado.
J. AGUILAR 142
APRENDIZAJE
J. AGUILAR 143
SUPERVISADO
Respuesta correcta para cada ejemplo dada
J. AGUILAR 144
SUPERVISADO
Entrada Salida
Red
Supervisor
Algoritmo
J. AGUILAR 145
CORRECCIN DE ERROR
CONOCIDO TAMBIEN COMO DESCENSO DE
GRADIENTE
J. AGUILAR 146
CORRECCIN DE ERROR
ALGORITMO
wij(t+1)=wij(t) + Dwij(t)
J. AGUILAR 147
J(0,1)
1
0
J(0,1)
1
0
Algoritmo de un RNA
1. Inicializacin de los pesos y umbral
2. Fase de entrenamiento
1. Presentacin de las entradas y salida deseada
2. Adaptacin de los pesos
3. Fase de Reconocimiento
1. Presentacin de una entrada dada
2. Salida reconocida
J. AGUILAR 150
NO SUPERVISADO
(AUTOORGANIZADO)
MAPAS AUTOORGANIZADOS
J. AGUILAR 151
NO SUPERVISADO
(AUTOORGANIZADO)
Entrada Salida
Red
Algoritmo
J. AGUILAR 152
HEBBIANO
MS VIEJO
DWij = a Yi Yj
J. AGUILAR 153
REFORZADO
Recompensa ocasional
EstadoJ. sAGUILAR
i+1
154
REFORZADO
J. AGUILAR 155
REFORZADO
Particularmente tiles en los mbitos en los que exista
informacin de reforzamiento (expresado como
penalizaciones o recompensas) proporcionada despus
de una secuencia de acciones realizadas en el
ambiente.
Mtodos comunes: Q-Learning y diferencia temporal-
(TD )
Q-Learning: aprende la utilidad de llevar a cabo acciones que
me lleven a ciertos estados,
TD aprender la utilidad de estar en ciertos estados.
J. AGUILAR 156
REFORZADO
Todos los mtodos de aprendizaje por refuerzo estn
inspirados en
frmulas de actualizacin de la utilidades esperadas
exploracin del espacio de estados.
La actualizacin es a menudo una suma ponderada de:
valor actual utilidad,
refuerzo obtenido al realizar una accin y
utilidad esperada por el siguiente estado alcanzado,
despus se realiza la accin.
J. AGUILAR 157
Algoritmo de un RNA
J. AGUILAR 158
Tareas de Aprendizaje
Aproximacin
Asociacin
Autoasociativa
Heteroasociativa
Clasificacin
Prediccin
Control planta:u(t),y(t) modelo:r(t),d(t) lim|d(t)-y(t)|=0
Filtraje
J. AGUILAR 159
Modelos Neuronales
Clasificacin por tipo de aprendizaje y arquitectura
Supervisados
Realimentados : feed-propagation
Unidireccionales PERCEPTRON, M RN, BOLTZMAN, backpropagation
No supervisados
Realimentados: ART, HOPFIELD
Unidireccionales: KOHONEN
Reforzados 160
PERCEPTRN
1ER MODELO DE RED DE NEURONAS ARTIFICIALES (ROSEMBLATT
1958)
APRENDE PATRONES SENCILLOS (2 CLASES)
1 NEURONA
X1 W1
Wn
Xn
F(x)
1 Y=F(WiXi-)
-1
PERCEPTRN
NO RESUELVE OR-EXCLUSIVO
J. AGUILAR 162
PERCEPTRN
APRENDIZAJE: SUPERVISADO
ALGORTMO:
1. INICIAR PESO Y UMBRAL
2. PRESENTAR PAR ENTRADA-SALIDA
3. CALCULAR SALIDA ACTUAL
Y(t)
4. ADAPTAR LOS PESOS
Wi(t)=Wi(t)+a[d(t)-Y(t)]Xi(t)
HASTA QUE d(t)-y(t)2 valor pequeo
5. REGRESAR AL PASO 2
J. AGUILAR 163
Modelo de Redes Neuronales
Unidad
0 Bias 0
0 1
1 0
Ejemplo de clasificacin no lineal: XOR/XNOR
x2
x2
x1
x1
AND 1.0
0 0 0
0 1 0
1 0 0
1 1 1
OR
-10
20 0 0 0
20 0 1 1
1 0 1
1 1 1
-30 10 -10
20 -20 20
20 -20 20
-30 -10
20
0 0 0 1 1
20 20
0 1 0 0 0
10
-20
20
1 0 0 0 0
-20 1 1 1 0 1
Clasificacin multi-clase
Ser , , , etc.
Caso juego: Segn la funcin MUE la mejor accin ser aquella en la cual la
razn dada entre la utilidad y la probabilidad de que el oponente obtenga
una mala jugada sea mxima.
Modelo Matemtico de Aprendizaje
Se tiene el siguiente rbol con 13 nodos
Segn accin del adversario sea buena o no, la rama debe ser premiada (o penalizada) y las
del resto de hermanos inversamente modificadas (aprendizaje reforzado)
Nodos raices
Resto Nodos
Aprendizaje Estructural
Aprendizaje de Arboles
Aprendizaje NaiveBayes
Aprendizaje NaiveBayes