Professional Documents
Culture Documents
2. Validacin de algoritmos de regresin 3. Tcnicas de clasicacin vlidas para regresin 4. Anlisis de regresin 5. rboles de regresin 6. rboles de modelos 7. Sistemas basados en reglas difusas (repaso)
Coeciente de correlacin rv v =
n (vi v)(vi v) i=1 (n1)v v
v=
Mtodos basados en redes neuronales: La capa de salida sera una nica neurona. Como los pesos se adaptan en funcin del error cometido, es suciente con medir de forma adecuada el error.
Anlisis de regresin
Sin duda el mtodo ms utilizado para realizar la tarea de prediccin numrica. La idea es estimar la variable objetivo (y) como una ecuacin que contiene como incgnitas al resto de las variables (x1 , . . . , xn ). El modelo ms simple es la Regresin lineal que reducida a una sola variable predictora tiene la forma:
1000
1000
800
800
600
600
400
400
200
200
1NN
1400 1NN 1400
5NN
1NN
y = a+bx Estos coecientes pueden obtenerse fcilmente mediante el mtodo de los mnimos cuadrados: b= s (xi x)(yi y) i=1 s 2 i=1 (xi x) a = ybx
1200
1200
1000
1000
800
800
600
600
400
400
200
200
5NN-1/d
M. Julia Flores - EPSA/UCLM
Red Neuronal
M. Julia Flores - EPSA/UCLM Minera de Datos p.7/15 Minera de Datos p.8/15
Cuando hay ms de una variable predictora, la ecuacin de prediccin se transforma en: y = a + b1 x1 + b2 x2 + + bn xn Este problema es conocido como Regresin Lineal Mltiple. La estimacin de los coecientes es algo ms compleja y requiere operar con matrices (y sus inversas).
50
100
150
200
250
30
Por ejemplo, continuando con nuestro chero CPU.arff tendramos: class = 0.066 * MYCT + 0.0143 * MMIN + 0.0066 * MMAX + 0.4945 * CACH - 0.1723 * CHMIN + 1.2012 * CHMAX -66.4814 34.31 39.26%
Bastante apropiado
No tan apropiado
Para estimar curvas es necesario usar otra regresin, por ejemplo, regresin exponencial: y = a ebx cmo estimamos ahora a y b?. Tomando logaritmos: ln(y) = ln(a e ) ln(y) = ln(a) + ln(e ) y = a + bx
bx bx
EAM EAR
= =
Es decir, tenemos un problema de regresin lineal entre y = ln(y) y x. Una vez estimados a y b podemos calcular a = ea
M. Julia Flores - EPSA/UCLM Minera de Datos p.9/15
Existen tcnicas ms complejas de regresin que evidentemente aproximan mucho mejor los datos de entrada.
M. Julia Flores - EPSA/UCLM Minera de Datos p.10/15
rboles de regresin
La estructura es idntica a un rbol de decisin, pero ahora las hojas contienen un valor numrico. Ese valor numrico se calcula como la media del valor para la variable clase de todos los ejemplos que han llegado a esa hoja durante el proceso de construccin del rbol. La evaluacin de un nuevo ejemplo es idntico a los rboles de decisin. Durante el proceso de prediccin es posible usar un suavizado de los valores del ejemplo a tratar, con el n de salvar las posibles discontinuidades presentes en los datos (en WEKA lo controla el parmetro useUnsmoothed). El criterio de seleccin de una variable en la construccin del rbol est basado en una reduccin del error esperado: reduccin de la desviacin/varianza en la variable objetivo: SDR = sd(T )
i
LM1: LM2: LM3: LM4: LM5: LM6: LM7: LM8: LM9: LM10: LM11: LM12: LM13: LM14: LM15: EAM EAR
class = 24.3 class = 45.3 class = 62.7 class = 39.6 class = 63.6 class = 43.9 class = 55 class = 104 class = 75.4 class = 94.4 class = 128 class = 262 class = 174 class = 355 class = 971 18.1275 20.7449%
|Ti | sd(Ti ) |T |
SDR = Standard Deviation Reduction Finalmente, el rbol es podado para evitar el sobreajuste.
M. Julia Flores - EPSA/UCLM
rboles de Modelos
Son rboles de regresin en los que la poda se realiza en mayor medida y en las hojas en lugar de un valor numrico contienen una ecuacin de regresin local a esa particin del espacio.
8 .5 7 .5 6 .5 datos 0.4091*x+4.3056 3*x+1 0.6551*x + 3.0533
class = 15.9 - 0.00453MYCT + 0.00327MMAX class = -0.609 + 0.004MMAX + 0.59CACH + 1.57CHMIN class = 1.64 - 0.0266MYCT + 0.00485MMIN + 0.00346MMAX + 0.627CACH + 1.43CHMIN + 0.127CHMAX class = -350 - 0.843MYCT + 0.0183MMAX + 1.62CACH
5 .5 4 .5 1 2 3 4 5 6 7
Conjuntos difusos
La idea es aprender un SBR difusas a partir de los datos, y aplicarlo para predecir el valor de los nuevos casos. Podemos aplicar algoritmos como Wang y Mendel, Bardossy y Duckstein, evolutivos, ... P.e. para el segundo caso visto de regresin (en el que iba mejor la exponencial), si usamos 5 etiquetas difusas [NM,NS,ZR,PS,PM] para ambas variables y el algoritmo de Wang y Mendel (que no es el mejor) obtenemos el siguiente conjunto de reglas: PS NS NM PM ZR NS NS NS PM NM En este problema se obtienen las siguientes correlaciones (valor real, valor predicho): Regresin lineal: 0.77 Conjunto difuso: 0.86
M. Julia Flores - EPSA/UCLM Minera de Datos p.15/15