You are on page 1of 36

Aprendizaje Automtico y Data Mining

Bloque II

APRENDIZAJE INDUCTIVO

ndice
n n

Conceptos bsicos.
n

rboles de decisin.
n n

Concepto, instancia, atributo, clase. Estructura. Generacin automtica.

n n

Otros modelos. Criterios de seleccin de modelos.


n n n

Seleccin de modelos. Seleccin de algoritmos. Resumen.

CONCEPTOS BSICOS

Objetivo
n

El objetivo es general un modelo (general) a partir de ejemplos (especficos). El conjunto de ejemplos usado se llama conjunto de entrenamiento. Cuatro elementos fundamentales: conceptos, instancias, atributos y clases.
4

Definiciones
n

Concepto: el modelo a inferir a partir de los ejemplos (tambin llamado hiptesis). n Instancia: cada uno de los ejemplos. n Atributo: cada una de las medidas de un ejemplo. n Clase: el atributo que debe ser deducido a partir de los dems.
5

Ejemplo
Ejemplo: modelado de la probabilidad de fallo de una mquina. n Clases: la mquina fallar / la mquina no fallar. n Atributos: conjunto de medidas:
n n n n

Temperatura. Nivel de vibraciones. Horas de funcionamiento. Meses desde la ltima revisin.

n n

Instancias: ejemplos pasados (situaciones conocidas). Concepto: relacin entre las medidas y la probabilidad de fallo:
n

SI nivel_vibraciones = alto Y temperatura = alta ENTONCES fallar.

Atributos
n n

Mltiples tipos de atributos: Real: puede tomar cualquier valor dentro de un cierto rango.
n

ej. temperatura como un nmero real (grados).

Discreto: toma valores discretos ordenados.


n

ej. temperatura como {alta, media, baja}.

Categrico: toma valores discretos no ordenados.


n

ej. color como {azul, rojo, amarillo}.


7

Conceptos
n

Los conceptos se pueden expresar de diversas formas:


n n n n n

rboles de decisin Listas de reglas Redes neuronales Modelos bayesianos o probabilsticos Etc.

Los rboles de decisin son uno de los modelos ms usados en aprendizaje automtico.
8

RBOLES DE DECISIN

rboles de decisin (I)


n

Ejemplo: modelado de la probabilidad de fallo de una mquina.


nivel vibracin
ALTO BAJO

temperatura
ALTA BAJA

no fallar

fallar
<1000

horas funcionam.
>1000

no fallar
< 1 MES

meses revisin
> 1 MES

no fallar

fallar

10

rboles de decisin (II)


n n n n n n

Representan funciones lgicas (if-then). Compuestos de nodos y ramas. Nodos internos = atributos (medidas). Nodos hoja = clases. Nodo raz = nodo superior del rbol. Objetivo en aprendizaje automtico: inferir un rbol de decisin a partir de un conjunto de instancias o ejemplos.
11

rboles de decisin (III)


n

Ejemplo de conjunto de entrenamiento:


Nivel de vibraciones ALTO BAJO BAJO BAJO ALTO ALTO ALTO Horas de funcionamiento < 1000 < 1000 >1000 < 1000 < 1000 >1000 < 1000 Meses desde revisin > 1 MES < 1 MES > 1 MES > 1 MES > 1 MES > 1 MES < 1 MES Probabilidad de fallo fallar no fallar no fallar no fallar no fallar fallar fallar

Temperatura ALTA BAJA ALTA ALTA BAJA BAJA ALTA

12

rboles de decisin (IV)


n

Mltiples formas de inferir el rbol:


n

Trivial: se crea una ruta del rbol por cada instancia de entrenamiento.
rboles excesivamente grandes. No funcionan bien con instancias nuevas.

Optimo: el rbol ms pequeo posible compatible con todas las instancias.


Inviable computacionalmente.

Pseudo-optimo (heurstico): seleccin del atributo en cada nivel del rbol en funcin de la calidad de la divisin que produce.
Los principales programas de generacin de rboles utilizan procedimientos similares (C4.5, CART, etc).
13

rboles de decisin (V)


Crearemos un rbol a partir de los ejemplos de entrenamiento anteriores.
n

Qu atributo elegir para el primer nodo?


ATRIBUTO VALORES fallar Alto Bajo Nivel de vibraciones Alto Bajo < 1000 >1000 > 1 mes < 1 mes 2 1 3 0 2 1 2 1 CLASE no fallar 2 2 1 3 3 1 3 1
14

Temperatura

Horas defuncionamien to Meses desde revisin

rboles de decisin (VI)


n

rbol construido hasta el momento:


nivel vibracin
ALTO BAJO

? No fallar (1 instancia) fallar (3 instancias) n

no fallar

no fallar (3 instancias) fallar (0 instancias)

Qu atributo se debe usar en el siguiente nivel del rbol (rama izquierda)?

15

rboles de decisin (VII)


Slo aquellos ejemplos de entrenamiento que llegan al nodo se utilizan para elegir el nuevo atributo:
ATRIBUTO VALORES fallar Temperatura Alta BAja Horas de funcionamiento Meses desde revisin < 1000 >1000 > 1 mes < 1 mes 2 1 2 1 2 1 CLASE No fallar 0 1 1 0 1 0

16

rboles de decisin (VIII)


n

rbol construido hasta el momento:


nivel vibracin
ALTO BAJO

temperatura
ALTA BAJA

no fallar

(3,0)

fallar

? (1,1)

(0,2) n

Qu atributo se debe usar en el siguiente nivel del rbol (rama dereecha)?


17

rboles de decisin (IX)


De nuevo, slo aquellos ejemplos de entrenamiento que llegan al nodo se utilizan para elegir el nuevo atributo:
ATRIBUTO VALORES fails Horas de funcionamiento Meses desde revisin < 1000 >1000 > 1 mes < 1 mes 0 1 1 0 CLASE works 1 0 1 0

18

rboles de decisin (X)


n

rbol obtenido finalmente:


nivel vibracin
ALTO BAJO

temperatura
ALTA BAJA

no fallar

(3,0)

fallar

horas funcion.
<1000 >1000

(0,2)

no fallar

fallar

(1,0)

(0,1)

muy similar al rbol original, utilizando slo 7 ejemplos de entrenamiento!

19

OTROS MODELOS

20

Otros modelos
n

Los rboles de decisin son slo uno de los posibles modelos. En los prximos apartados se explican otras posibilidades. Dependiendo de la aplicacin, se deber elegir un modelo u otro. A continuacin se indican algunos criterios para elegir modelos.

21

CRITERIOS DE SELECCIN

22

Criterios para elegir un modelo


n

Dos decisiones fundamentales:


n

El tipo de modelo (rboles de decisin, redes neuronales, modelos probabilsticos, etc). El algoritmo usado para construir o ajustar el modelo a partir de las instancias de entrenamiento.
Por ejemplo, hay mltiples formas de construir un rbol de decisin a partir de ejemplos; algo similar sucede con las redes neuronales o el resto de modelos.

23

Seleccin del modelo (I)


1. Capacidad de representacin
n

Capacidad de expresar mltiples conceptos diferentes. Relacionado con el tipo de fronteras de decisin que se pueden crear. Frontera de decisin: frontera entre clases distintas de acuerdo con el modelo. Las fronteras de decisin que crea cada modelo (rboles de deisin, redes neuronales, etc.) son diferentes.
24

Seleccin del modelo (II)


n

Ejemplo con slo dos atributos:


rboles de decisin: fronteras perpendiculares a los ejes.
fallar 95 fallar 50 no fall. no fall.
no NF vibr. > 120 ? no si F si F si temp. > 50 ? no NF si F

temp.

fallar
no

temp. > 95 ?

vibr. > 70 ?

70

120

vibracin

25

Seleccin del modelo (III)


n

Ejemplo con slo dos atributos :

temp. fallar

Redes neuronales (NN): fronteras no lineales:


Mayor capacidad de representacin. Permiten representar conceptos ms complejos que los rboles de decisin. Se estudiarn ms adelante.

95 no fall.

fallar

fallar

50

no fall.

70

120

vibracin

26

Seleccin del modelo (IV)


2. Legibilidad:
n n n

Capacidad de ser leido e interpretado por un humano. rboles de decisin: fciles de entender e intepretar: los niveles altos del rbol indican los atributos ms importantes. Redes neuronales: difciles (o imposibles) de interpretar: mltiples conexiones entre neuronas con pesos diferentes. Un modelo legible puede ofrecer informacin sobre el problema que se estudia (ej. indicar qu atributos afectan a la probabilidad de fallo de una mquina, y cmo). Un modelo no legible slo puede ser usado como un clasifcador (ej. Permite predecir si una mquina fallar o no aplicando el modelo).

27

Seleccin del modelo (V)


3. Tiempo de cmputo on-line:
n

Tiempo necesario para clasificar una nueva instancia:

rboles de decisin: tiempo necesario para recorrer el rbol, evaluando las funciones lgicas de cada nodo. Mtodos probabilsticos: tiempo necesario para calcular probabilidades o funciones de densidad de probabilidad. Redes neuronales: tiempo necesario para realizar las operaciones (sumas, productos, sigmoides) incluidas en la red. Etc.

28

Seleccin del modelo (VI)


Importancia del tiempo de cmputo online:
n n

Este tiempo se consume cada vez que se debe clasificar una nueva instancia. Algunas aplicaciones requieren clasificar miles de instancias.
Ejemplo: clasificacin de cada uno de los pixels de una imagen aerea como tierra de cultivo, ro, carretera, edificios, etc. Es necesario clasificar millones de pixels. El tiempo de cmputo es muy importante.

29

Seleccin del algoritmo (I)


1. Tiempo de cmputo off-line.
n

Tiempo necesario para construir o ajustar el modelo a partir de los ejemplos de entrenamiento.
rboles de decisin: tiempo necesario para elegr la estructura del rbol y los atributos a situar en cada uno de los nodos. Redes neuronales: tiempo necesario para ajustar los pesos de las conexiones (se estudiar ms adelante). Etc.

Ejemplo: un rbol de decisin se puede generar utilizando diferentes algoritmos. El tiempo empleado por cada algoritmo puede ser diferente.

30

Seleccin del algoritmo (II)


Importancia del tiempo de cmputo off-line.
n

Slo se consume una vez, cuando se han recopilado todos los ejemplos de entrenamiento y se genera el modelo con ellos. Dependiendo de la aplicacin, no es un problema que el tiempo de cmputo on-line sea elevado (es aceptable tener un ordenador procesando durante un da entero para obtener el resultado).
31

Seleccin del algoritmo (III)


2. Dificultad de ajuste de parmetros.
n

Algoritmo ideal: no dispone de parmetros para ajustar o es muy poco sensible a la modificacin de los parmetros: es fcil generar el modelo (ejemplo: algoritmos de generacin de rboles de decisin). Mal algoritmo: muchos prmetros para ajustar y gran sensibilidad a sus modificaciones: es difcil ajustar el modelo para obtener resultados ptimos (ejemplo: entrenamiento de redes neuronales).

32

Seleccin del algoritmo (IV)


3. Robustez ante instancias de entrenamiento ruidosas.
n

Instancia de entrenamiento ruidosa: etiquetada incorrectamente (ejemplo: una mquina que no fall etiquetada incorrectamente como mquina que s fall). Algunos algoritmos pueden funcionar adecuadamente aunque haya instancias ruidosas en el conjunto de entrenamiento (ejemplo: rboles de decisin, redes neuronales). Otros algoritmos no ofrecen buenos resultados (ejemplo: vecino ms cercano).

33

Seleccin del algoritmo (V)


4. Sobreajuste (overfitting).
n n

Problema muy comn. El modelo est demasiado ajustado a las instancias de entrenamiento, y no funciona adecuadamente con nuevas instancias. El modelo no es capaz de generalizar. Normalmente, fronteras de decisin muy complejas producen sobreajuste.

n n

34

Seleccin del algoritmo (VI)


Ejemplo con dos atributos:
temp. temp.

fallar no fallar

vibracin

vibracin

Frontera de decisin correcta:


No consigue el 100% de clasificaciones correctas con los ejemplos de entrenamiento. Pero las clases estn correctamente separadas.

Frontera de decisin sobreajustada:


Consigue el 100% de clasificaciones correctas con los ejemplos de entrenamiento. Pero la frontera es artificial.

35

Resumen
Seleccin del modelo:
1. 2. 3.

Seleccin del algoritmo:


1. 2. 3.

Capacidad de representacin. Legibilidad. Tiempo de cmputo on-line.

4.

Tiempo de cmputo offline. Dificultad de ajuste de parmetros. Robustez ante ejemplos de entrenamiento ruidosos. Sobreajuste.

Algunos de los criterios anteriores estn relacionados (ej. sobreajuste, robustez ante ejemplos de entrenamiento ruidosos).

36

You might also like