Árboles de clasificación y regresión: guía práctica

RBOLES DE CLASIFICACIN Y REGRESIN
Jos Manuel Rojo Abun Laboratorio de Estadstica Instituto de Economa y Geografa Consejo Superior de Investigaciones Cientficas Madrid, Mayo 2006
ndice
1 2 INTRODUCCIN CUESTIONES PREVIAS Grafos, rboles y rboles binarios Cuartiles, deciles y centiles ndices de asociacin y medidas de impureza Algoritmos para desarrollar rboles 3 INTRODUCCIN A LA HERRAMIENTA ANSWER TREE Creacin de un rbol Evaluacin del modelo Guardar un proyecto 4 DESCRIPCIN DE LA VENTANA PRINCIPAL Y VISORES Ventana principal Visores de la ventana principal Vistas de la ventana principal Otros controles de la ventana principal 5 BARRA DE HERRAMIENTAS Y BARRA DE MENS Mens Barra de herramientas 6 7 DESARROLLO MANUAL DE UN RBOL VALIDACIN DEL RBOL Dividir datos en submuestras Validacin cruzada Ejemplo de validacin por submuestras 8 8.1 8.2 8.3 EJERCICIOS EJERCICIO DE CLASIFICACIN DE LIRIOS EJERCICIO DE VALORACIN DE CRDITO EJERCICIO DE VALORACIN DEL PRECIO DE VIVIENDAS 4 6 6 9 11 20 22 22 23 24 24 24 25 26 33 34 34 37 38 44 44 45 46 50 50 55 61
Laboratorio de Estadstica
Pgina n 3
1- INTRODUCCIN AnswerTree es una herramienta de software, que reemplaza al antiguo CHAID de S.P.S.S., para realizar clasificaciones basadas en rboles de decisin. Los anlisis de clasificacin basados en rboles de decisin son tcnicas de explotacin de datos (data mining) que consisten en estudiar grandes masas de datos con el fin de descubrir patrones no triviales. Los patrones no triviales que se estudiarn habitualmente sern los predictivos y los explicativos. Un rbol de decisin representa una serie de pautas basadas en ciertas variables explicativas que se muestran segn recorremos el rbol. Ejemplo
RIESGO Nodo 0 Categora % n Sin riesgo 50 .0021 Con riesgo 50 .0021 Total (100 .00) 42 HORAST Mejora=0.1605
<=11.5 Nodo 1 Categora % n Sin riesgo 31 .03 9 Con riesgo 68 .9720 Total (69 .05) 29 CARRERA Mejora=0.0261
>11.5 Nodo 2 Categora % n Sin riesgo 92 .3112 Con riesgo 7 .69 1 Total (30 .95) 13 SEXO Mejora=0.0023
ciencias Nodo 13 Categora % n Sin riesgo 50 .00 5 Con riesgo 50 .00 5 Total (23 .81) 10
humanidades Nodo 14 Categora % n Sin riesgo 21 .05 4 Con riesgo 78 .9515 Total (45 .24) 19
mujer Nodo 15 Categora % Sin riesgo 87 .50 Con riesgo 12 .50 Total (19 .05)
varon Nodo 16 Categora % Sin riesgo 100 .00 Con riesgo 0 .00 Total (11 .90)
n 7 1 8
n 5 0 5
Estos rboles se construyen mediante un algoritmo que va dividiendo los registros de la base de datos (casos u observaciones) en nodos de forma recursiva, de manera que con cada subdivisin las frecuencias relativas de las categoras de la variable dependiente vayan tendiendo a 0 o a 1.
AnswerTree dispone de cuatro algoritmos para realizar rboles de clasificacin: CHAID CHAID Exhaustivo C&RT o CART QUEST Aunque AnswerTree permite la construccin de rboles de forma totalmente automatizada, los mejores resultados se obtienen con la colaboracin del usuario, al aplicar el conocimiento que tiene de los datos, tomando decisiones racionales al decidir si se va o no a dividir un nodo determinado.
Pgina n 4
Ventajas de estos modelos: Transparencia: a diferencia de otros modelos de clasificacin, la forma de un rbol es intuitiva y fcil de interpretar. Portabilidad: las pautas que se extraen del camino a una hoja del rbol se pueden expresar fcilmente en distintos formatos, como SQL o sintaxis de S.P.S.S. Modelizacin: los modelos de clasificacin basados en rboles de clasificacin pueden utilizar tanto variables continuas como categricas; en concreto, si las variables independientes son categricas y tienen gran nmero de categoras, entonces estos modelos darn mejores resultados que los modelos de clasificacin clsicos. No es preciso una habilidad analtica excepcional para afinar un rbol de decisin.
Desventajas: En estos modelos se deber de emplear un gran volumen de datos para asegurarnos que la cantidad de casos en un nodo terminal es significativa.
Algunas aplicaciones habituales de estas tcnicas pueden ser: Investigacin de mercados: identificacin de los perfiles de los posibles clientes. Evaluacin de crditos: descripcin de los grupos de alto riesgo. Medicina: determinacin del tratamiento que dar el mejor resultado con un determinado paciente. Enseanza: desarrollo de perfiles de estudiantes con / sin xito.
Pgina n 5
2- CUESTIONES PREVIAS Antes de empezar a examinar el modulo AT, vamos a definir una serie de conceptos ampliamente utilizados en la construccin y anlisis de rboles de clasificacin y regresin.
2.1. Grafos, rboles y rboles binarios a) Grafo: Un grafo G es un par de conjuntos (V, E), donde V representa un conjunto cualesquiera y E es un subconjunto de pares de V. A los elementos del conjunto V habitualmente se le denomina Nodos y a los elementos del conjunto E Aristas. Ejemplo Sea el grafo G = (V, E) donde: V = {A, B, C, D} E = {{A, B}, {A, C}, {A, D}, {B, D}}
Los grafos se pueden representar de la siguiente forma:
Un ejemplo de grafo es el plano del metro, donde los nodos representan las distintas estaciones y las aristas representan las vas entre dos estaciones.
b) Camino Denominamos camino a una sucesin de nodos unidos por aristas de forma que no se repite ninguna arista.
Pgina n 6
Ejemplo
c) Grafo conexo Decimos que un grafo G= (V, E) es conexo si para cualquier par de nodos pertenecientes al grafo existe un camino que los une.
Ejemplo
GRAFO NO CONEXO
GRAFO CONEXO
d) Circuito Es un camino que empieza y termina en el mismo nodo sin repetir ninguna arista.
Pgina n 7
Ejemplo
EJEMPLO DE CIRCUITO
e) Grado de incidencia de un nodo Es el nmero de aristas que inciden en dicho nodo.
f) rbol Existe un tipo de grafos especiales denominados rboles, que suelen ser utilizados para representar esquemas de toma de decisiones. Dado un grafo G = (V, E) se dice que es un rbol si verifica las siguientes condiciones: Es conexo No tiene circuitos.
Ejemplo de rbol
Pgina n 8
Al nodo situado en el extremo superior se le denomina Nodo Raz y a los nodos situados en la parte inferior se le denomina Nodos Terminales. Un ejemplo de rbol es la estructura del disco de un ordenador.
g) rbol binario Se dice que el rbol T = (V, E) es un rbol binario si existe un nodo que esta conectado por dos aristas y el resto de los nodos estn conexionados exactamente por una o por tres aristas. Al nodo que tiene nicamente dos aristas se le denomina NODO RAZ y a los nodos a los que llega una sola arista se le denomina nodos terminales. Ejemplo de rbol binario
2.2. Cuartiles, deciles y centiles Si bien en teora el Answer Tree puede utilizar variables con cualquier nivel de medida, en realidad solamente trabaja con variables categricas. La forma de pasar una variable con un nivel de medida de escala o proporcin a un nivel de medida ordinal o nominal es categorizando o discretizando la variable. En el proceso de categorizacin o discretizacin se utilizan conceptos tales como mediana, cuartiles y percentiles. a) Mediana Si los datos de una muestra se colocan de manera ordenada por su magnitud, el valor medio que divide al conjunto en dos grupos de igual tamao se le denomina MEDIANA.
1 2 3 4 5 Mediana 6 7 8 9 10 11 1.21 1.23 1.23 1.34 1.45 1.45 1.56 1.56 1.56 1.78 1.89
Pgina n 9
b) Cuartiles Por extensin de esta idea, los tres valores que la dividen en cuatro partes iguales, reciben el nombre de CUARTILES, evidentemente el segundo cuartil corresponde con la mediana.
c) Deciles Anlogamente los nueve valores que dividen a la muestra en diez partes iguales reciben el nombre de deciles. d) Centiles Los valores que dividen a la muestra en 100 partes iguales se denominan centiles. e) Categorizar variables Cuando se desea pasar una variable medida en escala de intervalo u ordinal, a una escala nominal, se crea una nueva variable, de forma que a cada uno de los valores que toma la variable lo sustituye por el intervalo en el que esta dicho valor, como se puede apreciar en el siguiente ejemplo:
VARIABLE VARIABLE CATEGORI ORIGINAL ZADA 1 1.21 1.21 A 2 1.23 1.23 A 3 1.23 1.23 A 4 1.23 1.23 A Q1 1.23 1.23 A 6 1.31 1.31 B 7 1.34 1.34 B 8 1.34 1.34 B 9 1.45 1.45 B Q2 1.45 1.45 B 11 1.45 1.45 C 12 1.45 1.45 C 13 1.56 1.56 C 14 1.56 1.56 C Q3 1.56 1.56 C 16 1.56 1.56 D 17 1.67 1.67 D 18 1.78 1.78 D 19 1.89 1.89 D 20 1.91 1.91 D
Q1
Q2
Q3
A esta operacin se la suele denominar categorizar variables.

Laboratorio de Estadstica Pgina n 10
2.3. ndices de asociacin y medidas de impureza La creacin de rboles de clasificacin y regresin consiste, bsicamente, en ir creando sucesivas subdivisiones del conjunto de datos de acuerdo con un algoritmo determinado, de forma tal que, con cada nueva subdivisin que se realice, mejore la clasificacin de la variable criterio. Las medidas que habitualmente se suelen utilizar para comparar la mejora de cada nueva subdivisin son las siguientes:
2
ndice de Gini ndice Binario.
a) Coeficiente
2
2
El coeficiente trata de medir la asociacin entre dos variables nominales u ordinales y se define como:
=
2
(n
i, j
ni' , j ni' , j
Notacin:
ni , j Es la frecuencia observada de la celda {i,j}

ni,, j Es la frecuencia esperada de la celda (i, j)
Si los sucesos A y B son independientes, deber de ocurrir:
p( A I B) = p( A) * p( B)
Adems si un suceso A tiene una probabilidad de ocurrencia P y realizamos n repeticiones del experimento aleatorio, entonces el nmero esperado de ocurrencias de dicho suceso ser de: n* p Si las categoras de la variable fila y las categoras de la variable columna son independientes, se debera de cumplir la siguiente condicin:
P ( I I J ) = P (I ) P ( J )
Pgina n 11
Por lo tanto la frecuencia esperada en cada celda de la tabla si las variables fueran independientes ser de:
ni, j = n * p (i I j ) = n * p(i ) * p ( j ) = n *
ni * n* j * n n
Por lo tanto comparando las frecuencias observadas con las frecuencias esperadas si las variables fueran independientes tendremos una idea del grado de asociacin existente entre las variables tal y como hace este coeficiente:
=
2
(n
i, j
ni' , j ni' , j
Valores cercanos a cero de este coeficiente indicaran que no hay asociacin entre la variable fila y la variable columna. Valores grandes de este coeficiente indicaran la existencia de asociacin entre las variables fila y columna de la tabla. Ejemplo
Veamos un ejemplo tal y como nos ser presentado en el anlisis de rboles de clasificacin y regresin: Sea la variable objetivo RIESGO, que indica si un prstamo ha sido devuelto; esta variable tiene las siguientes categoras: Sin riesgo y Con riesgo para indicar si han existido dificultades para recuperar el prstamo. Se desea medir la asociacin con la variable SEXO que indica el genero del beneficiario del prstamo. Primero calculamos la tabla de frecuencias observadas y esperadas:
Tabla de contingencia SEXO * RIESGO RIESGO Sin riesgo Con risego 10 8 9.0 9.0 11 13 12.0 12.0 21 21 21.0 21.0
Total 18 18.0 24 24.0 42 42.0
SEXO
varon mujer
Total
Recuento Frecuencia esperada Recuento Frecuencia esperada Recuento Frecuencia esperada
Pgina n 12
Para calcular la frecuencia esperada bajo la hiptesis de que son independientes operamos de la siguiente forma:
P (V I S ) = P(V ) P( S )
Casilla Frecuencia relativa (18/42)*(21/42)=0.214 (18/42)*(21/42)=0.214 (24/42)*(21/42)=0.286 (24/42)*(21/42)=0.286 Frecuencia absoluta esperada 42*0.214=9 42*0,214=9 42*0.286=12 42*0.286=12
P (V I S ) P(V I C ) P( M I S ) P(M I C )
Ahora podemos calcular el coeficiente:
=
2
(P
i, j
Pi ,' j )
Pi ,' j
(10 9) 2 (8 9) 2 (11 12) 2 (13 12) 2 1 1 + + + = 2 + = 0.3888 9 9 12 12 9 12
Como es un valor cercano a cero, indica que existe poca relacin entre las variables, por lo tanto el conocimiento previo del gnero del posible cliente no nos aportar ninguna informacin sobre su riesgo. En el siguiente recuadro vemos cmo nos lo mostrar la aplicacin:
Pgina n 13
En el siguiente ejemplo vamos a estudiar la asociacin con la variable Trabajo, que indica si el receptor del prstamo trabaja ms o menos de cinco horas a la semana.
Tabla de contingencia TRABAJO * RIESGO RIESGO Sin riesgo Con risego 4 14 9.0 9.0 17 7 12.0 12.0 21 21 21.0 21.0
Total 18 18.0 24 24.0 42 42.0
TRABAJO
Menos de 5 Mas de 5
Total
Recuento Frecuencia esperada Recuento Frecuencia esperada Recuento Frecuencia esperada
2 = 9.722
En este caso, existe una clara asociacin entre estas dos variables, dividiendo el conjunto de datos en dos grupos obtendremos:
Podemos observar cmo el coeficiente est indicando una clara asociacin entre las dos variables; el 77,78% de los clientes que trabajan menos de cinco horas a la semana son de riesgo, en cambio los clientes que trabajan ms de cinco horas, el 70,83% no han presentado ningn riesgo para devolver el prstamo.
Pgina n 14
b) ndice de Gini El ndice de Gini en el nodo t se define como:

g (t ) = 1 p (i / t ) 2
Donde i representa las distintas categoras de la clase criterio. Cuando todos los casos del nodo t pertenecen a la misma categora, el ndice de Gini toma el valor cero, se dice entonces que el nodo se vuelve puro. Este ndice es una medida de impureza en la clasificacin de los datos, a medida que vamos clasificando correctamente los datos, el ndice de Gini va tomando valores cercanos a 0. Para medir la mejora de una clasificacin debida a la divisin de los datos en dos grupos, se utiliza el siguiente criterio:
( s, t ) = g (t ) piz g (tiz ) pde g (tde )

Donde g(t) es el valor del ndice de Gini en el nodo t, Piz es la proporcin de casos enviados al nodo izquierdo, Pde es la proporcin de los casos enviados al nodo derecho, g(t iz) es el valor del ndice de Gini en el nodo izquierdo y g(tde) es el valor en el nodo derecho y s es la divisin propuesta. Valores altos de esta funcin sern indicios de una buena clasificacin y valores bajos indicaran una mala clasificacin. Ejemplo: Vamos a calcular el ndice de Gini para medir la mejora en la clasificacin al utilizar las dos variables del ejemplo anterior: Variable Gnero En primer lugar calculamos la tabla de contingencia como en los casos anteriores. Realizamos los clculos: En primer lugar calculamos el ndice de Gini en el nodo raz:
riesgo Evaluacion del riesgo Frecuencia 21 21 42 Porcentaje 50,0 50,0 100,0 Porcentaje vlido 50,0 50,0 100,0 Porcentaje acumulado 50,0 100,0
Vlidos
0 Sin riesgo 1 Con risego Total
Pgina n 15
2 21 21 1 P(i / 0) 2 = 1 = 0.5 g(0) = 42 42 i =1
A continuacin calculamos el ndice en los dos nodos que resultaran de realizar la clasificacin por sexo:
11 13 g(1) = 1 P(i / 1) = 1 = 0.496 24 24 i =1

2 2
2 10 8 g(2) = 1 P(i / 2) 2 = 1 = 0.494 18 18 i =1 2 2
Por lo tanto la mejora conseguida ser de:
( s, t ) = g (t ) piz g (tiz ) pde g (tde ) =

0.5 24 18 0.496 0.494 = 0.0046 42 42
Vemos que la disminucin de la impureza es mnima, mostramos cmo quedara representado en el rbol:
Pgina n 16
RIESGO Nodo 0 Categora % Sin riesgo 50.00 Con risego 50.00 Total (100.00) SEXO Mejora=0.0046
n 21 21 42
mujer Nodo 1 Categora % Sin riesgo 45.83 Con risego 54.17 Total (57.14)
varon Nodo 2 Categora % Sin riesgo 55.56 Con risego 44.44 Total (42.86)
n 11 13 24
n 10 8 18
Variable Trabajo Hacemos lo mismo con la variable Trabajo: Primero calculamos la tabla:
Tabla de contingencia riesgo Evaluacion del riesgo * trabajo trabajo 1,00 Menos 2,00 Mas de 5 de 5 4 17 22,2% 70,8% 14 7 77,8% 29,2% 18 24 100,0% 100,0%
riesgo Evaluacion del riesgo
0 1
Sin riesgo Con risego
Total
Recuento % de trabajo Recuento % de trabajo Recuento % de trabajo
Total 21 50,0% 21 50,0% 42 100,0%
A continuacin calculamos el ndice de Gini:
4 14 1 P(i / 1) = 1 = 0.34 18 18 i =1 g(1) = 2 2 2 17 7 1 P(i / 2) 2 = 1 = 0.41 24 24 i =1 g(2) =

2 2
Por lo tanto la mejora conseguida ser de:
( s, t ) = g (t ) piz g (tiz ) pde g (tde ) = 0.5 18 24 0.34 0.41 = 0.1157 42 42
Pgina n 17
Vemos que la disminucin de la impureza es bastante mayor a cuando utilizamos la variable genero como variable de clasificacin. Mostramos como quedara representada en el rbol esta nueva divisin:
c) ndice Binario La funcin del criterio binario para la divisin S en el nodo T se define como:
K ( s, t ) = Pde Piz P(i / t iz ) P(i / t de ) i =1
2
El ndice binario al igual que el ndice de Gini se basa en encontrar la divisin S que maximice este valor, pues valores altos de esta funcin indicaran buenas particiones. Ejemplo Utilizamos el ejemplo anterior para ilustrar el uso del ndice binario
Tabla de contingencia riesgo Evaluacion del riesgo * sexo Sexo sexo Sexo 1,00 varon 2,00 mujer 10 11 55,6% 45,8% 8 13 44,4% 54,2% 18 24 100,0% 100,0%
0 1
Total
Recuento % de sexo Sexo Recuento % de sexo Sexo Recuento % de sexo Sexo
Total 21 50,0% 21 50,0% 42 100,0%
Calculamos el ndice binario para la divisin basada en el gnero.
24 18 11 10 13 8 K ( s, t ) = Pde Piz P (i / t iz ) P(i / t de ) = + = 0.009259 42 42 i =1 24 18 24 18

Laboratorio de Estadstica Pgina n 18
Podemos observar que la mejora es mnima

RIESGO Nodo 0 Categora % Sin riesgo 50.00 Con risego 50.00 Total (100.00) SEXO Mejora=0.0093
n 21 21 42
mujer Nodo 1 Categora % Sin riesgo 45.83 Con risego 54.17 Total (57.14)
varon Nodo 2 Categora % Sin riesgo 55.56 Con risego 44.44 Total (42.86)
n 11 13 24
n 10 8 18
Ejemplo Calculamos el ndice binario pero esta vez vamos a utilizar Trabajo como variable de segmentacin.
Tabla de contingencia riesgo Evaluacion del riesgo * trabajo trabajo 1,00 Menos 2,00 Mas de 5 de 5 4 17 22,2% 70,8% 14 7 77,8% 29,2% 18 24 100,0% 100,0%
0 1
Total
Recuento % de trabajo Recuento % de trabajo Recuento % de trabajo
Total 21 50,0% 21 50,0% 42 100,0%
18 24 4 17 14 7 K ( s, t ) = Pde Piz P(i / t iz ) P(i / t de ) = + = 0.23148 42 42 i =1 18 24 18 24
Pgina n 19
RIESGO Nodo 0 Categora % Sin riesgo 50.00 Con risego 50.00 Total (100.00) TRABAJO Mejora=0.2315
n 21 21 42
Menos de 5 Nodo 1 Categora % Sin riesgo 22.22 Con risego 77.78 Total (42.86)
Mas de 5 Nodo 2 Categora % Sin riesgo 70.83 Con risego 29.17 Total (57.14)
n 4 14 18
n 17 7 24
En este caso podemos observar que la mejora es notable respecto a la variable anterior.
2.4 Algoritmos para desarrollar rboles AnswerTree dispone de cuatro algoritmos para realizar rboles de clasificacin:
CHAID CHAID Exhaustivo C&RT o CART QUEST
a) Chaid Es, posiblemente, el algoritmo ms utilizado en la creacin de rboles, puede trabajar con variables en cualquier nivel de medida. Dada una variable predictora, funde aquellas categoras consideradas estadsticamente homogneas y deja las categoras heterogneas inalteradas. A continuacin de todas las variables predictoras potenciales elige la que tenga el mayor valor del coeficiente para formar la primera rama del rbol. Si la variable criterio es continua, de utiliza la prueba F. Si la variable criterio es categrica se utiliza la prueba . No es binario y por lo tanto tiende a crear un rbol ms ancho que con los algoritmos que producen rboles binarios. b) Chaid exhaustivo Este algoritmo funciona bsicamente igual que el anterior, la nica diferencia es que realiza un examen ms minucioso para realizar la fusin de categoras y por lo tanto utilizando ms tiempo de clculo que el anterior.
Pgina n 20
c) C&RT Es un algoritmo que produce rboles binarios. El C&RT divide los datos en dos conjuntos de forma que los datos comprendidos dentro de cada subconjunto sean ms homogneos que en el conjunto anterior. Las medidas de asociacin que utiliza son:
Para variables categricas: o ndice de impureza de Gini o ndice binario, Para variables continuas: o Test de homogeneidad de varianzas
d) QUEST Es un algoritmo que produce rboles binarios; est creado con vistas a la eficiencia en los clculos, siendo el tiempo de procesamiento ms corto que en el C&RT. La variable dependiente debe de tener nivel de medida nominal.
Para variables categricas: o Estadstico basado en 2 Para variables continuas: o Prueba F
Pgina n 21
3.- INTRODUCCIN A LA HERRAMIENTA ANSWERTREE 3.1. Creacin de un rbol Para crear nuestro primer rbol de clasificacin, vamos a utilizar un fichero en formato S.P.S.S. que contiene medidas de los ptalos y spalos de tres variedades distintas de lirios. El objetivo del anlisis es encontrar una regla de clasificacin que nos permita identificar a qu variedad pertenece una determinada planta basndonos en sus caractersticas fsicas.
Iniciamos la aplicacin Inicio/ Programas/ AnswerTree/ AnswerTree 3.0
AnswerTree organiza el trabajo por proyectos, un proyecto es bsicamente una asociacin con un fichero de datos o una vista de una base de datos. Tambin se van guardando los distintos rboles que vayamos construyendo. La extensin de un fichero de proyecto es ATP. Es importante destacar que no podremos crear nuevas variables, realizar transformaciones o seleccionar casos desde la aplicacin. En este cuadro de dialogo, seleccionamos la opcin:
Crear un nuevo proyecto.
En el cuadro Seleccionar fuente de datos, elegimos la opcin:
Archivo de datos de S.P.S.S.
Indicamos el fichero que contiene los datos que deseamos analizar: Lirios.sav En este momento se abre automticamente un asistente que nos ayudar a definir los parmetros para crear el rbol de clasificacin. El proceso consta de cuatro pasos:
1. Seleccin del mtodo de desarrollo: deberemos especificar un
mtodo de los cuatro disponibles. Para este primer ejemplo vamos a seleccionar el mtodo C&RT, que crea rboles binarios. 2. Definicin del modelo: en este punto deberemos especificar qu variables sern predictoras y cul ser la variable criterio. Elegimos la variable Especie como variable criterio y como predictoras todas las dems. 3. Validacin: es en este cuadro donde se indican las opciones de validacin del rbol, en principio no indicamos ninguna.
Pgina n 22
4. Opciones avanzadas: en este cuadro deberemos ajustar algunos
parmetros del rbol: Profundidad mxima del rbol: 5 Nodo parental: 5 Nodo filial: 2
Pulsamos aceptar para terminar con el asistente y finalizar para ver el rbol mnimo creado. El nodo que estamos viendo es el nodo raz, para desarrollar el resto del rbol pulsamos el botn , inmediatamente dar comienzo el algoritmo C&RT para desarrollar el rbol hasta encontrar un criterio de parada. En este punto deberemos examinar el rbol obtenido para identificar las reglas de clasificacin. En nuestro ejemplo obtenemos las siguientes conclusiones:
Si el lirio tiene ptalos cortos (menores de 2,45) pertenece a la variedad SETOSA. Si consideramos las plantas con una longitud de los ptalos mayor de 2,45 entonces: Aquellas que tienen una anchura de ptalo menor de 1,75 probablemente sern de la variedad VERSICOLOR. Las que tienen una anchura mayor de 1,57 pertenecern a la variedad VIRGINICA.
Las sucesivas subdivisiones no aportan informacin, de manera que habra que eliminarlas.
3.2. Evaluacin del modelo Pulsando la pestaa Riesgo se nos presenta una tabla que resume la capacidad del rbol para clasificar los datos de nuestra muestra. Los elementos de la diagonal de la Matriz de Clasificacin errnea representan los elementos correctamente clasificados. La Estimacin de riesgo es la proporcin de elementos errneamente clasificados.
3.3. Guardar el proyecto

Para guardar el proyecto, que en este momento consta de un solo rbol y una
asociacin con el fichero lirios.sav pulsamos las siguientes opciones:
Archivo/ Guardar proyecto.
Pgina n 23
4- DESCRIPCIN DE LA VENTANA PRINCIPAL Y VISORES DE ANSWERTREE Para examinar la ventana principal de la aplicacin abrimos el proyecto Merz and Murphy (1996), para determinar si los datos histricos pueden proporcionar informacin sobre quin pudiera incurrir en algn tipo de incumplimiento en la devolucin de crditos bancarios. 4.1. Ventana principal Cuando se abre un proyecto ya creado se despliega la ventana principal de la aplicacin. Esta ventana contiene la ventana donde se representa el rbol y los visores auxiliares para facilitar su examen: Proyecto, rbol, Tabla, Grafico y datos. Esta ventana contiene el proyecto abierto y los rboles, que pueden ser ms de uno. Si no hay ningn proyecto abierto, esta ventana permanece vaca. Los rboles creados se muestran de forma jerrquica. El nombre de cada rbol puede ser editado y cambiado, as mismo podemos eliminar los rboles que no nos interesen. Se activa o desactiva pulsando el correspondiente botn de la barra de herramientas. As mismo tambin contiene la barra de mens y la barra de herramientas:
Pgina n 24
4.2. Visores de la ventana principal Los visores son ventanas que pueden estar abiertas o no y sirven para ver detalles concretos tanto del proyecto o del rbol que tenemos en la ventana principal. Se encuentran en la esquina superior izquierda:
VISOR MAPA DEL RBOL
Esta ventana contiene una visin a escala del rbol que estamos analizando. Usando esta ventana nos podemos desplazar rpidamente por el rbol sin ms que pulsar en el nodo deseado.
VISOR NODO: TABLA
Muestra la tabla de frecuencias de la variable criterio en el nodo seleccionado, la informacin se actualiza automticamente al seleccionar un nuevo nodo. Si la variable criterio es continua se muestra la media y su desviacin tpica en el nodo seleccionado.
VISOR NODO: GRFICO
Muestra un grfico de distribucin de la variable criterio del nodo seleccionado. Si la variable criterio est medida en escala nominal u ordinal se muestra un diagrama de barras; si, por el contrario, es continua se muestra el histograma. La informacin se actualiza automticamente al seleccionar un nuevo nodo.
Pgina n 25
VISOR DE DATOS
Muestra una tabla conteniendo un listado con los casos incluidos en el nodo seleccionado. 4.3. Vistas de la ventana principal En esta ventana se muestra el rbol con las reglas de decisin que definen las divisiones. Si no es posible mostrar el rbol completo se muestra una porcin del mismo. Para facilitar su anlisis dispone de cinco vistas distintas del rbol, a las cuales podemos acceder pulsando la pestaa correspondiente. Las pestaas para cambiar la vista del rbol se encuentran en la parte inferior de la tabla:
Breve descripcin de las distintas vistas del rbol 1. Vista rbol: muestra el rbol o una porcin del mismo; nos podemos mover por el rbol a travs de las barras de scrolling. Si seleccionamos un nodo, automticamente se actualizan los visores para mostrar la informacin correspondiente. 2. Vista Ganancias: muestra los estadsticos asociados a los nodos finales; las ganancias pueden ser vistas por nodos o por percentiles. Si la variable es continua se muestra la ganancia media de los nodos. Si seleccionamos un nodo automticamente se actualiza la informacin en los visores.
Pgina n 26
3. Riesgo: muestra la tabla de clasificaciones errneas; sirve para estimar el riesgo de clasificaciones errneas. 4. Reglas: muestra las reglas utilizadas para seleccionar los casos de un nodo del rbol. 5. Resumen: muestra un informe del rbol, fichero utilizado y parmetros del rbol. 1. Vista Ganancias
En el caso de una variable criterio categrica, la tabla de ganancias muestra los estadsticos de los nodos finales, que describen el rbol respecto a la categora criterio de la variable dependiente. En nuestro ejemplo la categora criterio es CUENTA CRITICA. Si la variable criterio es continua se muestran los valores relativos a la media y desviacin tpica de los casos incluidos en cada nodo. Como alternativa se puede mostrar la tabla ordena por los percentiles de la variable ganancias. Descripcin de las columnas.
Nodos: Nmero de nodo, sirve para identificar un nodo determinado. Nodo n: Nmero de casos atrapados en el nodo. Nodo %: Porcentaje de los casos totales atrapados en el nodo. Ganancia: Nmero de casos que pertenecen a la categora criterio en el nodo. Ganancia % Porcentaje del total de casos que pertenecen a la categora criterio atrapados en el nodo. Resp %: Porcentaje de casos que pertenecen a la categora criterio. ndice % Razn de frecuencias.
Pgina n 27
PARA ACLARAR EL SIGNIFICADO DE ESTAS COLUMNAS COMENTAMOS EL RENGLN CORRESPONDIENTE AL NODO 6
Nodo 6:
Nmero de casos: 318. Porcentaje de casos: 318/1000= 0.318. Ganancia: 207. Ganancia %: 207/293= 0.706, el n total de casos que pertenecen a la categora criterio es de 293. Resp %: 207/318 = 0.6509, densidad de casos de la categora criterio.
318 = 2.22165, densidad de casos de la categora criterio en el 293 1000 nodo / densidad de casos de la categora criterio en el nodo raz.
ndice%:
207
Opciones de la vista ganancias Para acceder al cuadro de dialogo que contiene las opciones de la tabla de ganancias pulsamos: Formato/ ganancias.
Pgina n 28
Las filas representan. Opciones sobre las unidades representadas en las filas de la tabla. Nodos: En la tabla hay una fila por cada nodo del rbol. Percentiles: Cada fila de la tabla representa una determinada porcin de los casos. Columnas de ganancias. Es posible seleccionar los valores que aparecen en la columna de ganancias de la tabla y controlar el orden de las filas. Contenido: si se selecciona Porcentaje de casos de la categora criterio, en la columna de ganancias aparece el porcentaje de casos que pertenecen a la categora criterio especificada. Si se selecciona Beneficio promedio, en la columna de ganancias aparece el beneficio o la prdida para cada nodo, esta opcin se define en el cuadro de dialogo Beneficios. Orden: se puede solicitar que las filas este en orden ascendente o descendente, basndose en los valores de la Ganancia. Categora: seleccin de la categora criterio, automticamente se actualiza la vista de ganancias. Comentario de la tabla de Ganancias En el resumen de ganancias para la variable criterio ESTADO DE CUENTAS, respecto a la categora criterio CUENTA CRITICA. Podemos leer en la primera fila los estadsticos para el Nodo 6 recorriendo su fila. Nodo n y Nodo %, indican el nmero de casos y el porcentaje del total de casos que hay en el nodo 6, 318 casos es decir el 38.8% de los casos de la muestra est en este nodo. Ganancia n y Ganancia % indican el nmero de casos que pertenecen a la categora criterio, 207 casos son cuentas crticas, lo cual indica que el 70.6% de las cuentas crticas se encuentran en este nodo. La columna Resp % indica que la densidad de CUENTAS CRITICAS en este nodo es de 65.1%, teniendo en cuenta que la densidad de CUENTAS CRITICAS en el nodo raz es del 29.30% el incremento obtenido es de 65.1 = 2.22 , como lo indica la columna ndice. 29.3 2 Vista de Riesgos La vista de riesgo muestra una tabla para evaluar la capacidad del modelo desde el punto de vista de error en la clasificacin. Cuando la estimacin del riesgo se calcula ignorando los costes, coincide con el porcentaje de casos incorrectamente clasificados.
Pgina n 29
A diferencia de la Vista Ganancias, se consideran todas las categoras. Matriz de clasificacin La matriz de clasificacin errnea coteja en una tabla el valor pronosticado por el modelo y el valor real. En las casillas de la diagonal principal se encuentran las coincidencias entre las estimaciones y las observaciones, que se denominan aciertos. Fuera de la diagonal principal, se encuentran los errores. Esta tabla es til para identificar qu categoras son las mejor o peor representadas. En esta tabla podemos observar que 220 de las 293 CUENTAS CRITICAS han sido correctamente clasificadas, 49 cuentas del tipo DEVUELTO han sido clasificadas errneamente como CUENTA CRITICA, etc. Las categoras CUENTA CRTICA y DEVUELTO quedan bien identificadas por el modelo, en cambio para el resto de las categoras el modelo es muy malo. La Estimacin de riesgo y el Error tpico de la estimacin de riesgo son valores que indican la capacidad del clasificador de una forma global. En este caso, la estimacin de riesgo para un caso es de 0.289, que quiere decir que el 28.9% de los casos ha sido incorrectamente clasificados.
N aciertos N = 1000 (220 + 478 + 5 + 8) 1000 = 289 1000 = 0.289
3. Vista Reglas Las reglas indican las sucesivas selecciones que se han realizado para crear un nodo determinado.
Pgina n 30
Por ejemplo, el nodo 3 est constituido por aquellos que tienen un solo crdito y ninguna otra deuda a plazo. Esta es la informacin que nos permitir comprender el modelo de clasificacin y posteriormente aplicarlo a nuevos casos. Las reglas de seleccin se pueden generar en tres formatos: 1. Reglas de decisin. 2. Sintaxis de S.P.S.S. 3. Consulta de S.Q.L. Para acceder al formato deseado seleccionamos desde la barra de mens:
Formato/ Reglas
S.P.S.S.
Las reglas del tipo sintaxis de S.P.S.S. pueden ser utilizadas en una ventana de sintaxis de S.P.S.S. para clasificar nuevos datos basndose en el modelo o asignar valores a casos ya existentes. Por ejemplo, asignando valores: * Nodo 3. DO IF (SYSMIS(NUMCRED) OR (VALUE(NUMCRED) LE 1)) (MISSING(OTRASDEU) OR OTRASDEU NE 1 AND OTRASDEU NE 2). COMPUTE nod_001 = 3. COMPUTE pre_001 = 3. COMPUTE prb_001 = 0.795019. END IF. EXECUTE. Nota: SYSMIS(arg) True or 1 if the value is system-missing; false or 0 otherwise.
AND
Pgina n 31
Mediante estas instrucciones se generaran tres nuevas variables en el fichero de datos conteniendo las correspondientes asignaciones. * Nodo 3. SELECT IF ((SYSMIS(NUMCRED) OR (VALUE(NUMCRED) LE 1)) (MISSING(OTRASDEU) OR OTRASDEU NE 1 AND OTRASDEU NE 2)). EXECUTE. En cambio en modo seleccin, correspondientes al nodo. S.Q.L. Las reglas de SQL pueden ser utilizadas para seleccionar y etiquetar casos a partir de un procesador de base de datos de S.Q.L. En modo asignacin: /* Nodo 3*/ UPDATE <TABLE> SET nod_001 = 3, pre_001 = 3, prb_001 = 0.795019 WHERE ((NUMCRED IS NULL) OR (NUMCRED <= 1)) AND ((OTRASDEU IS NULL) OR OTRASDEU <> 1 AND OTRASDEU <> 2); seleccionaremos nicamente los
AND
casos
En modo seleccin: /* Nodo 3*/ SELECT * FROM <TABLE> WHERE ((NUMCRED IS NULL) OR (NUMCRED <= 1)) AND ((OTRASDEU IS NULL) OR OTRASDEU <> 1 AND OTRASDEU <> 2);
Decisin Las reglas de Decisin son descripciones de las caractersticas de los nodos en lenguaje formal, adecuadas para incluirlas en informes o presentaciones. /* Nodo 3*/ IF (N DE CRDITOS EXISTENTES EN EL BANCO IS MISSING OR (N DE CRDITOS EXISTENTES EN EL BANCO <= 1)) AND (OTRAS DEUDAS A PLAZO != "BANCO" AND OTRAS DEUDAS A PLAZO != "T. COMERCIO") THEN Node = 3 Prediction = 3 Probability = 0.795019
Pgina n 32
La variable Prediction hace referencia a la categora estimada, y la variable Probability hace referencia a la densidad de la categora estimada en dicho nodo. En este caso la categora 3 es DEVUELTO, y porcentaje (en tantos por uno) de casos de dicha categora en el nodo 3 es de 0.79050. VISTA RESUMEN DEL ANLISIS La vista resumen del anlisis de la ventana rbol contiene la siguiente informacin en formato de texto: 1. Informacin del proyecto: Nombre del proyecto, nombre del rbol, archivo de datos empleado, nmero de casos y ponderacin. 2. Informacin de la particin: Referente al tipo de validacin mediante muestra de entrenamiento. 3. Informacin de la validacin cruzada. 4. Criterios de desarrollo del rbol: Mtodo de desarrollo, especificaciones del algoritmo, reglas de parada y poda. 5. Modelo: Variable criterio, predictores, costes etc. El resumen del anlisis se puede utilizar como parte de un informe o para ajustar dicho anlisis cambiando el modelo o los criterios.
4.4. Otros controles de la vista del rbol
La ventana rbol dispone de una barra de herramientas que permite modificar la apariencia del rbol: Muestra los nodos en forma tabla. Muestra los nodos en forma grfica Muestra los nodos en forma de tabla y grfica simultneamente. Muestra el rbol en forma vertical. Muestra el rbol en forma horizontal a la derecha. Muestra el rbol en forma horizontal a la izquierda. Zoom del rbol.
Pgina n 33
5- BARRA DE HERRAMIENTAS Y BARRA DE MENS Abrimos proyecto Merz and Murphy. La ventana principal de AnswerTree contiene ocho mens, desde los cuales accedemos a todas las funciones de la aplicacin. 5.1. Mens
Men Archivo
Nuevo proyecto: cierra el proyecto activo y crea uno nuevo. Abrir proyecto: Cierra el proyecto activo y abre uno existente. Guardar proyecto: Guarda el proyecto activo. Guardar proyecto como: Guarda el proyecto activo con un nuevo nombre. Nuevo rbol: Invoca al asistente para crear un nuevo rbol. Exportar. Preparar pgina: Permite cambiar las preferencias de la impresora: tamao del papel y orientacin. Presentacin preliminar: Muestra cmo quedar impreso el rbol. Imprimir: Imprime el rbol. Cambiar de servidor: Permite especificar un servidor de datos. Cerrar: Cierra la aplicacin.
Men Edicin Los comandos de este men afectan al proyecto y a la ventana rbol.
Restaurar copia anterior guardada: Restaura la versin guardada del proyecto. Copiar: Copia la ventana seleccionada al portapapeles. Dependiendo del S.O. puede dar problemas. Copiar rbol: Cuando tenemos en la ventana rbol, la vista rbol, copia el rbol al portapapeles como una imagen con formato de mapa de bits *.bmp. Seleccionar nodos terminales: Selecciona los nodos terminales del rbol, tenemos distintas posibilidades de seleccin
Pgina n 34
Men Ver En este men estn las pociones que afectan a los visores y a la ventana rbol.
Nodo: Cambia la forma en que son presentados los nodos de la vista rbol de la ventana rbol. Podemos escoger entre: tabla, grafico y ambos. Proyecto: Muestra el visor del proyecto. Mapa del rbol: Muestra el visor del mapa del rbol. Grfico: Muestra el visor de grfico de nodo. Tabla: Muestra el visor de tabla del nodo. Datos: Muestra el visor de datos. Muestra: Cambia entre la muestra de entrenamiento y la muestra de comprobacin. Orientacin: Permite seleccionar la orientacin del rbol. Muestra el cuadro de inicio: Muestra u oculta el cuadro de dialogo de inicio de aplicacin.
Pgina n 35
Barra de herramientas: Muestra la barra de herramientas en la ventana principal y en la ventana rbol. Barra de estado: Muestra la barra de estado en el fondo de la ventana principal.
Men Formato
Ganancias: Define el formato de la tabla resumen de ganancias en la vista ganancias de la ventana rbol, aqu podemos definir todas las opciones, como la categora de referencia, el tipo de listado etc. Reglas: Permite especificar el formato de las reglas que describen los nodos.
Men Anlisis Desde este men podemos acceder a los distintos parmetros del algoritmo con que hemos desarrollado el rbol, no podemos cambiar ni las variables predictoras, ni el algoritmo.
Definir variable: Permite cambiar la escala de medida de las variables que han intervenido en el desarrollo del rbol. Opciones avanzadas: Permite modificar las especificaciones de las reglas de parada, los modelos CHAID, C&RT y QUEST, la poda, las puntuaciones, los costes y las probabilidades a priori.
Men rbol El men rbol proporciona opciones para trabajar con el rbol activo.
Desarrollar rbol: Desarrolla todo el rbol. Si el rbol ya se ha desarrollado parcialmente, ste comienza a desarrollarse a partir de la formacin existente. Desarrollar rbol un nivel: Agrega un nivel a la estructura del rbol, siempre que no encuentre una regla de parada. Desarrollar rbol y podar: Desarrolla todo el rbol y lo poda automticamente de acuerdo con las especificaciones de poda. Esta funcin no se encuentra disponible si el mtodo de desarrollo es CHAID o CHAID exhaustivo. Desarrollar rama: Desarrolla el rbol desde el nodo seleccionado hasta obtener los nodos terminales. No se puede seleccionar esta opcin si se han seleccionado varios nodos. Desarrollar rama un nivel: Agrega un nivel bajo el nodo seleccionado. No se puede seleccionar esta opcin si se han seleccionado varios nodos. Seleccionar predictor: Permite especificar el predictor que se utilizar para dividir el nodo activo y el modo en que se agruparn los valores del predictor para la divisin.
Pgina n 36
Seleccionar substitutos: Permite especificar una variable substituta para utilizarla al dividir el nodo activo. Si una variable predictora tiene valores perdidos en un nodo particular, se puede seleccionar una variable predictora substituta que substituya a la variable predictora original. Los substitutos se encuentran disponibles slo para los modelos desarrollados mediante los mtodos C&RT o QUEST. Definir divisin: Permite volver a definir la divisin del nodo activo. Se puede utilizar esta opcin para fundir o separar nodos. Eliminar rama: Elimina la rama bajo el nodo seleccionado. Eliminar un nivel: Elimina el nivel ms bajo de los nodos del rbol
5.2. Barra de herramientas de la ventana rbol
Desarrollar el rbol. Desarrolla el rbol y a continuacin lo poda; slo est disponible en los rboles creados con los algoritmos C&RT y QUEST. Desarrolla la rama del nodo seleccionado. Elimina la rama bajo el nodo seleccionado. Selecciona un predictor para dividir el nodo seleccionado. Permite volver a definir la divisin del nodo activo. Permite cambiar entre muestra de entrenamiento y muestra de comprobacin.
Pgina n 37
6. DESARROLLO MANUAL DEL RBOL Aunque AnswerTree permite el desarrollo automtico del rbol de decisin, es frecuente que el analista desee intervenir en el desarrollo del mismo para que, con el conocimiento previo que tenga de los datos, permitir que dicho desarrollo se adapte mejor a sus exigencias. Las opciones disponibles de desarrollo manual en AnswerTree son las siguientes:
Desarrollar rbol un nivel. Desarrollar rama. Desarrollar rama un nivel. Seleccionar predictor. Definir divisin. Eliminar rama. Eliminar un nivel.
Para ilustrar estas capacidades vamos a utilizar el fichero de datos en formato S.P.S.S. Creditos.sav para crear un proyecto con las siguientes caractersticas:
Variable Criterio: RIESGO. Variables predictoras: Todas las dems. Mtodo de desarrollo: CR&T. Nmero de niveles: 5. Nodo parental: 2. Nodo filial: 1.
Desarrollar rbol un nivel Desde la barra de mens: Anlisis / Desarrollar rbol un nivel. O bien desde el men contextual, seleccionando cualquier nodo del rbol. Hay que tener en cuenta que las reglas de parada tienen preferencia sobre la orden de desarrollo, de ah que se hayan definido unas reglas tan generosas en los parmetros del rbol. Es habitual que el proceso de desarrollo del rbol lo hagamos nivel por nivel, para ir comprendiendo su estructura a medida que se desarrolla.
Ejercicio: Desarrollar paso a paso todo el rbol, decidir en dnde parar.
Pgina n 38
Evaluacion del riesgo Nodo 0 Categora % Sin riesgo 50.00 Con risego 50.00 Total (100.00)
n 21 21 42
Horas trabajadas a la semana Mejora=0.1605
<=11.5 Nodo 41 Categora % Sin riesgo 31.03 Con risego 68.97 Total (69.05)
>11.5 Nodo 42 Categora % Sin riesgo 92.31 Con risego 7.69 Total (30.95) OBS Mejora=0.0440
n 9 20 29
n 12 1 13
Horas trabajadas a la semana Mejora=0.0502
<=4 Nodo 43 Categora % Sin riesgo 8.33 Con risego 91.67 Total (28.57)
>4 Nodo 44 Categora % Sin riesgo 47.06 Con risego 52.94 Total (40.48)
<=41 Nodo 45 Categora % Sin riesgo 100.00 Con risego 0.00 Total (28.57)
>41 Nodo 46 Categora % Sin riesgo 0.00 Con risego 100.00 Total (2.38)
n 1 11 12
n 8 9 17
n 12 0 12
n 0 1 1
Seguir aadiendo niveles, no va a aportar nada.
Desarrollar rama Esta opcin permite que se desarrolle la rama bajo el nodo seleccionado hasta que se encuentra una regla de parada. Tambin est disponible desde la barra de herramientas de la ventana rbol
Desarrollar rama un nivel Desarrolla la rama bajo el nodo seleccionando un nivel. Es la opcin ms utilizada cuando deseamos comprender el patrn de la clasificacin.
Ejercicio: partiendo del nodo Raz, ir desarrollando rama a rama hasta encontrar un rbol optimo.
Pgina n 39
Evaluacion del riesgo Nodo 0 Categora % n Sin riesgo 50.00 21 Con risego 50.00 21 Total (100.00) 42 Horas trabajadas a la semana Mejora=0.1605
<=11.5 Nodo 51 Categora % n Sin riesgo 31.03 9 Con risego 68.97 20 Total (69.05) 29 Horas trabajadas a la semana Mejora=0.0502
>11.5 Nodo 52 Categora % n Sin riesgo 92.31 12 Con risego 7.69 1 Total (30.95) 13
<=4 Nodo 53 Categora % n Sin riesgo 8.33 1 Con risego 91.67 11 Total (28.57) 12
>4 Nodo 54 Categora % n Sin riesgo 47.06 8 Con risego 52.94 9 Total (40.48) 17 Tipo de carrera cursada Mejora=0.0581
ciencias Nodo 55 Categora % Sin riesgo 83.33 Con risego 16.67 Total (14.29)
humanidades Nodo 56 Categora % n Sin riesgo 27.27 3 Con risego 72.73 8 Total (26.19) 11
n 5 1 6
Eliminar Rama Elimina todos los nodos bajo el nodo seleccionado. Esta opcin tambin est disponible desde la barra de herramientas
Seleccionar un predictor El cuadro de dilogo Seleccionar predictor muestra una lista de los predictores que se pueden utilizar para dividir (o volver a dividir) un nodo seleccionado. En la tabla aparece informacin sobre cada variable, dependiendo del mtodo de desarrollo utilizado. (No todos los elementos indicados aparecen para todos los mtodos de desarrollo.).
Pgina n 40
Si estamos utilizando medidas de impureza (C&RT), la tabla nos mostrar cunto disminuye la impureza por cada variable disponible. Tipo de divisin: Es el tipo de divisin, predeterminada para una divisin basada en el algoritmo, personalizada para una divisin especificada por el usuario o arbitraria para predictores que no son competidores.
En cambio si estamos utilizando la medida de asociacin, la tabla nos muestra el

2 valor del coeficiente , los grados de libertad y el p-value corregido.
Como el algoritmo no es binario, hay una columna denominada Nodos que nos informa del nmero de nodos que se van a crear.
Definir divisin El cuadro de dilogo Definir divisin para los predictores continuos, continuos categorizados y ordinales permite especificar los puntos de corte que definen la divisin. La lista muestra el nmero de nodos y el rango de cada uno. En la lista slo se muestran dos filas para los rboles C&RT y QUEST. Es posible que la lista contenga ms de dos filas para los rboles CHAID. Los valores del punto de corte se cambian al arrastrar el control deslizante o al introducir un valor para el punto de corte. El rango de valores del predictor se muestra sobre el control deslizante y el valor ms bajo que aparece se representa como el borde izquierdo de la barra deslizante. Para variables predictoras continuas, el control deslizante establece el punto de corte para la divisin. Para los rboles C&RT y QUEST se utiliza un solo control deslizante. Para las variables continuas categorizadas y ordinales, el control deslizante tiene dos fichas que representan los lmites superior e inferior del nodo seleccionado
Pgina n 41
Definir divisiones para variables nominales: El cuadro de dilogo Definir divisin para los predictores nominales permite mover categoras de la variable predictora de un nodo a otro. Cada columna del cuadro de dilogo representa un nodo y las categoras de la variable presente en dicho nodo. Las categoras se mueven a otros nodos arrastrando categoras hacia la columna deseada, o bien utilizando el men contextual. En el cuadro de dilogo slo se muestran dos columnas para los rboles C&RT y QUEST. Para rboles CHAID aparece una columna adicional vaca llamada Nuevo nodo. Las categoras se mueven a esta columna para agregar nuevos nodos. Inicialmente el encabezado de la columna de nuevo nodo est en gris. Si mueve una categora a la columna de nuevo nodo, el encabezado cambia a negro y aparece otra columna de nuevo nodo en gris a la derecha de la ltima columna. No es posible agregar nuevos nodos si solamente hay una categora por nodo.
Especificar puntos de corte para variables predictoras continuas y ordinales: 1. 2. 3. 4. Seleccionar un nodo de la lista. Invocar el men contextual Seleccionar predictor. Seleccionar una variable continua u ordinal. Pulsar el botn definir divisin, aparecer el cuadro de dialogo para definir los puntos de corte. 5. Arrastrar el control deslizante hasta el valor deseado. 6. Pulsar Continuar.
Pgina n 42
PARA MOVER CATEGORAS DE UN NODO A OTRO:
Seleccionar la categora que se desea mover. Elegir la opcin deseada en el men contextual. o Mover a la derecha. Mueve la categora seleccionada a la derecha una columna. o Mover a la izquierda. Mueve la categora seleccionada a la izquierda una columna.
Pgina n 43
7- VALIDACIN DEL RBOL Para evaluar cmo se comporta el modelo creado para generalizar los resultados a muestras ms grandes, hay disponibles tres opciones de validacin.
7.1. No validar el rbol Esta opcin no considera ningn procedimiento de validacin. El rbol se crea y comprueba con todo el conjunto de datos. 7.2 Dividir datos en submuestras La particin divide los datos en dos grupos: una muestra de entrenamiento, desde la cual se genera el modelo, y una muestra de comprobacin, en la cual se prueba el modelo generado. Si el modelo generado en una parte de los datos coincide con la otra parte, la estructura debera poder generalizar los datos correctamente con conjuntos de datos ms grandes y similares a los datos actuales. Si se opta por la particin, utilice el control deslizante para determinar la proporcin de casos que se considerar en las muestras de entrenamiento y comprobacin. Nota: la proporcin que se selecciona es aproximada.
Pgina n 44
Despus de definir las particiones, seleccionamos la muestra de entrenamiento (Men Ver / muestra) y desarrollamos el rbol. Cuando terminemos con la etapa de desarrollo, seleccionamos la muestra de comprobacin en el men Ver. Los resultados mostrados en la ventana rbol cambiarn para mostrar aquellos obtenidos al aplicar el rbol a la muestra de comprobacin. Si se analizan las estimaciones de riesgo, el resumen de ganancias y el resumen de anlisis, se podr determinar el grado de generalizacin del rbol. 7.3. Validacin cruzada La validacin cruzada implica dividir la muestra en una serie de muestras ms pequeas. A continuacin, se generan los rboles, que no incluyen los datos de cada submuestra. Por ejemplo, con una validacin cruzada de diez veces, los datos se dividen en 10 submuestras (nmero de submuestras) y luego se generan 10 rboles. El primer rbol se basa en todos los casos excepto los correspondientes a la primera submuestra; el segundo rbol se basa en todos los casos excepto los de la segunda submuestra, y as sucesivamente. Para cada rbol se calcula el riesgo de clasificacin errnea aplicando el rbol a la submuestra que se excluy al generarse este. La estimacin de riesgo mediante validacin cruzada para todo el rbol se calcula como el promedio de los riesgos de todos los rboles. Si selecciona la estimacin de riesgo mediante validacin cruzada, deber especificar el nmero de submuestras en el cuadro de dilogo. Nota: la estimacin de riesgo mediante validacin cruzada slo se encuentra disponible cuando el rbol se desarrolla de forma automtica. Slo se debe especificar la validacin cruzada para conjuntos de datos pequeos. Semilla aleatoria: Cuando se utiliza una validacin, los casos se asignan de forma aleatoria a particiones o nmeros de submuestras. La configuracin de la semilla permite especificar el valor inicial que utiliza el generador de nmero aleatorio para asignar casos. Esta funcin es til si se desea poder duplicar de forma exacta la particin en otra sesin, ya que los conjuntos definidos con el mismo nmero de semilla aleatoria siempre asignarn los mismos casos a las mismas particiones. Por tanto, si desea duplicar la particin ms adelante, defina un valor especfico para la semilla. El valor predeterminado es 2.000.000.
Pgina n 45
7.3.1. Ejemplo de validacin dividiendo los datos en submuestras Para ilustrar las opciones de validacin vamos a utilizar el fichero en formatos S.P.S.S. Lirios.sav. Abrimos un nuevo proyecto indicando que la fuente de datos es un archivo de S.P.S.S. En la ventana correspondiente, indicamos el archivo a cargar: Lirios.sav Elegimos como mtodo de desarrollo el algoritmo C&RT. Indicamos que la variable criterio es ESPECIE, y las variables predictoras sern todas las dems. Nos aseguramos que la escala de mediada de la variable ESPECIE es nominal y el resto esta medido en escala continua. En el Cuadro de comprobacin seleccionamos la opcin: Dividir datos en Submuestras A continuacin indicamos que la muestra de entrenamiento (la muestra con la que se deducirn los parmetros del rbol) tendr un tamao del 50% del total de la muestra. Nuestra muestra tiene un tamao de 150 casos, por lo tanto se dividir en dos grupos, cada uno de ellos con 75 casos aproximadamente. De tener un tamao mayor, podramos elegir un porcentaje para la muestra de entrenamiento algo menor. En el cuadro de opciones avanzadas, realizamos las siguientes opciones:
Niveles bajo raz: Nodo parental: Nodo filial:
6. 2. 1.
Elegimos unos criterios as de generosos porque vamos a realizar un desarrollo guiado, eligiendo manualmente cuando paramos. Vamos guiando el desarrollo hasta obtener el siguiente rbol.
Pgina n 46
ESPECIE (Muestra de entrenamiento) Nodo 0 Categora % n Iris-setosa 35.53 27 Iris-versicolor 28.95 22 Iris-virginica 35.53 27 Total (100.00) 76 ptalo - longitud Mejora=0.3448
<=2.7000000000000002 Nodo 1 Categora % Iris-setosa 100.00 Iris-versicolor 0.00 Iris-virginica 0.00 Total (35.53)
>2.7000000000000002 Nodo 2 Categora % Iris-setosa 0.00 Iris-versicolor 44.90 Iris-virginica 55.10 Total (64.47) ptalo - longitud Mejora=0.2700
n 27 0 0 27
n 0 22 27 49
<=4.75 Nodo 3 Categora % n Iris-setosa 0.00 0 Iris-versicolor 100.00 20 Iris-virginica 0.00 0 Total (26.32) 20
>4.75 Nodo 4 Categora % n Iris-setosa 0.00 0 Iris-versicolor 6.90 2 Iris-virginica 93.10 27 Total (38.16) 29
A continuacin examinamos las vistas riesgos y ganancias. Vista Riesgos La Estimacin de riesgo es de 0.026, es decir un 2.6% de la observaciones estn mal clasificadas, por lo tanto el 97.4% estn bien clasificadas. Dos plantas estimadas como Virginica, pertenecen realmente a la especie Versicolor. Cotejamos este resultado con la muestra de comprobacin. Cambiamos a muestra de comprobacin:
Ver / Muestra / comprobacin o bien desde la barra de herramientas:
Ahora la Estimacin de riesgo con la muestra de comprobacin, la cual no ha intervenido en la estimacin de los parmetros del modelo es de 0.067, por lo tanto hay un 6.7% de estimaciones errneas. El incremento de riesgo ha sido de 0.067 = 2.57 . 0.026
Pgina n 47
Esta vez se han clasificado errneamente cuatro plantas de la especie Versicolor como Virginica, y adems una planta perteneciente a la especie Versicolor perteneca realmente a la espacie Virginica. La especie Setosa ha sido correctamente clasificada en su totalidad.
Vista Ganancias Para interpretar esta vista hay que tener en cuenta la muestra que estamos considerando y la categora criterio de la variable criterio. Empezamos con la muestra de entrenamiento, y la especie Virginica como categora criterio. Muestra de entrenamiento.
El nodo n 4 contiene 29 casos, que representan el 38% de los casos de esta muestra, de los cuales 27 pertenecen a la categora criterio (Virginica). El porcentaje de casos en este nodo que pertenecen a la categora criterio es del 93.1%. El resto de los nodos no contienen ningn caso de la categora criterio. Cambiamos a muestra de comprobacin.
Pgina n 48
Ahora el nodo n 4 contiene 26 casos, de los cuales 22 pertenecen a la categora criterio. El porcentaje de casos en este nodo que pertenecen a la categora criterio es del 86.6%. Este nodo contiene el 95% de los casos de la muestra que pertenecen a la categora criterio. El Nodo nmero 3, contiene 25 casos, de los cuales 1 pertenece a la categora criterio, que significa el 4.3% de todas la plantas de la especie Virginica. El porcentaje de casos que pertenecen a la categora criterio en este nodo es del 4.0%.
Pgina n 49
8. EJERCICIOS
8.1- Ejercicio de clasificacin de lirios Introduccin El problema de buscar reglas de clasificacin, para determinar a que tipo de especie, pertenece un lirio determinado es un clsico en la materia y llevo a Fisher en 1936 a desarrollar el anlisis discriminante. En esta prctica repetiremos la experiencia de Fisher, si bien aplicando la tcnica AnswerTree en vez del anlisis discriminante. Objetivo del anlisis Determinar el conjunto de predictores y comprender las reglas de clasificacin para tres especies de lirios, basndonos en cuatro medidas fsicas. Los algoritmos empleados son: C&RT QUEST Datos Los datos se encuentran en el fichero en formato S.P.S.S. Lirios.sav. En este archivo se encuentran cuatro variables continuas y la variable de clasificacin ESPECIES. Variables continuas:
Estadsticos descriptivos N spalo - longitud spalo - ancho ptalo - longitud ptalo - ancho 150 150 150 150 Mnimo 4.30 2.00 1.00 .10 Mximo 7.90 4.40 6.90 2.50 Media 5.8433 3.0540 3.7587 1.1987 Desv. tp. .82807 .43359 1.76442 .76316
Variable de clasificacin La variable de clasificacin es ESPECIE, est medida en escala nominal y tiene tres categoras distintas: Valor 1 2 3 Etiqueta Iris-setosa Iris_versicolor Iris-virginica
Pgina n 50
Desarrollo de los rboles de decisin. Creamos dos rboles de decisin, los parmetros para ambos rboles sern los siguientes: Nmero de niveles bajo el nodo raz: 5. Nmero mnimo de casos en el nodo parental: 5. Nmero mnimo de casos en el nodo filial: 2. Primero creamos el rbol mediante el algoritmo C&RT y a continuacin mediante el algoritmo QUEST. Despus de crear los dos rboles de decisin por separado, desarrollamos los nodos raz de forma automtica mediante la opcin desarrollo y poda del rbol automtica del rbol. Para facilitar la localizacin, en la ventana proyecto, editamos los nombres de los rboles y lo cambiamos por el nombre del algoritmo con que han sido creados.
En los mapas del rbol, se observa la estructura general de los rboles. Por lo general, si el anlisis es bueno, los rboles generados con mtodos de desarrollo distintos, tienden a producir rboles parecidos, pero no totalmente idnticos. Interpretacin de resultados La especie SETOSA se caracteriza bsicamente en tener una longitud del ptalo ms pequeo que las dems especies. Para el rbol construido mediante el algoritmo C&RT los lirios con una longitud de los ptalos menor de 2.45 pertenecen a la especie SETOSA. F (ptalo - longitud NOT MISSING AND (ptalo - longitud <= 2.45)) THEN Node = 1 Prediction = 1 Probability = 1.000000 Segn el rbol construido mediante el algoritmo QUEST, la especie SETOSA se caracteriza por tener la longitud de los ptalos menor de 2.09.
Pgina n 51
/* Nodo 1*/ IF (PET_LON NOT MISSING AND (PET_LON <= 2.09701836576332)) THEN Node = 1 Prediction = 1 Probability = 1.000000 Las otras dos especies requieren informacin complementaria en ambos rboles. En el rbol C&RT la clasificacin para la especie Versicolor es: * Nodo 3*/ IF (ptalo - longitud IS MISSING OR (ptalo - longitud > 2.45)) AND (ptalo - ancho IS MISSING OR (ptalo - ancho <= 1.75)) THEN Node = 3 Prediction = 2 Probability = 0.907407
En cambio, para el rbol QUEST la regla de clasificacin es: * Nodo 3*/ IF (PET_LON IS MISSING OR (PET_LON > 2.09701836576332)) AND (PET_ANCH IS MISSING OR (PET_ANCH <= 1.64421096848612)) THEN Node = 3 Prediction = 2 Probability = 0.923077
Desarrollo del rbol controlado guiado por el usuario Como los dos algoritmos generan rboles similares, vamos a desarrollar un tercer rbol mediante el algoritmo C&RT. Los parmetros sern los mismos:
Nmero de niveles bajo el nodo raz: 5. Nmero mnimo de casos en el nodo parental: 5. Nmero mnimo de casos en el nodo filial: 2.
Esta vez, vamos a desarrollar el rbol paso a paso. En vez de elegir la opcin Desarrollar el rbol del men rbol, seleccionamos la opcin aadir un nivel al rbol. Podemos observar que la variable elegida para realizar la divisin ha sido longitud del ptalo. Todos los casos que el largo del ptalo sean inferior a 2.45 se envan al nodo 1, los que son mayores se envan al nodo 2. El algoritmo C&RT muestra la importancia relativa de la divisin de un nodo, utilizando la disminucin en la impureza, o mejora, como criterio de evaluacin. En este ejemplo, utilizamos la medida de impureza predeterminada de Gini. En la
Pgina n 52
primera divisin del rbol, la mejora corresponde a 0,3333. Esto significa que la impureza de los dos nodos filiales resultante de la divisin era 0,3333 menor que la impureza del nodo raz. El nodo 1 est compuesto por una sola especie (SETOSA) y contiene todos los casos de dicha especie. En el nodo 2 se encuentran las 100 observaciones restantes, entre las que se observan todos los lirios VERSICOLOR y VIRGINICA. Podemos observar que no es posible mejorar el rendimiento del rbol desarrollando el nodo 1. Seleccionamos el nodo 2 y desarrollamos dicha rama mediante la opcin del men contextual: Desarrollar rama un nivel. Ahora observamos que la mejora ha sido de 0.2598. El nodo 2 se ha dividido utilizando la variable ancho del ptalo y la mejora corresponde a 0,2598. Los dos nodos filiales del nodo 2 describen a grandes rasgos los dos tipos restantes de lirios. En este punto debemos de plantearnos la posibilidad de seguir desarrollando el rbol por el nodo 5. Probamos como en el caso anterior y obtenemos una mejora de 0.029. Como no nos aporta informacin importante eliminamos la rama creada. Probabilidades a priori Supongamos que nuestra muestra no represente fielmente la frecuencia en que aparece la especie de lirio en la naturaleza. En este caso, podemos corregir la distribucin de la probabilidad a priori de los datos indicando especficamente las probabilidades a priori. El conjunto de probabilidades a priori indica a AnswerTree que el valor de las clases debe corresponder al de las probabilidades asignadas. Las probabilidades a priori explcitas se pueden definir a travs del cuadro de dilogo Opciones avanzadas o bien en opciones avanzadas del asistente para creacin de rboles. Vamos a crear un nuevo rbol de clasificacin corrigiendo las probabilidades a priori de forma que concuerden con la frecuencia observada en la naturaleza: Especie frecuencia setosa 20% Versicolor 40% Virginica 40% Creamos un nuevo rbol mediante el algoritmo C&RT con los mismos parmetros que los anteriores, pero en opciones avanzadas, corregimos las probabilidades a priori de forma que coincidan con la tabla anterior y desarrollamos el rbol. Podemos observar que el rbol de clasificacin creado no coincide con los anteriores.
Pgina n 53
Anlisis de riesgos La estimacin de riesgos indica la capacidad del rbol para realizar clasificaciones correctas, en el primer rbol la probabilidad de realizar una clasificacin errnea es de 0.026, frente a 0.66 que tendramos en el nodo raz. un lirio de la especie virginica ha sido errneamente clasificado como versicolor, y 3 lirios que pertenecan a la especie versicolor han sido errneamente clasificados como virginica. todos los lirios de la especie setosa han sido correctamente clasificados.
Pgina n 54
8.2- Ejemplo de valoracin de crdito Objetivo del anlisis Nuestro objetivo es poder clasificar a los solicitantes de un crdito conforme a si representan o no un riesgo, basndonos en la informacin disponible. Datos El archivo de datos para este ejemplo es CREDIT.SAV. El archivo contiene una variable criterio, Valoracin de crdito (bueno o malo), y cuatro variables predictoras: Edad categrica (joven, adulto o mayor), Tiene tarjeta AMEX (s o no), Pago semanal/mensual (pago semanal o pago mensual) y Categora profesional (directivo, profesional, administrativo, con experiencia o sin experiencia). Se han recopilado datos de 323 casos. La codificacin de las variables del archivo es la siguiente: CREDIT_V Valoracin Crdito (1=defecto) Value Label 0 Malo 1 Bueno
CAT_PROF Categora profesional
Value Label 1 Directivo 2 Profesional 3 Administrativo 4 Operario cualificado 5 No cualificado

PAGO_MES Pago Semanal/Mensual
Value Label 1.00 Paga semanal 2.00 Sueldo mensual

EDAD Edad Categrica
Value Label 1 Joven (< 25) 2 Adulto (25-35) 3 Mayor ( > 35)
AMEX
Tiene tarjeta Amex
Value Label 0 No 1 S
Pgina n 55
Creacin del rbol Dado que todas las variables son categricas, elegiremos el mtodo CHAID para desarrollar el rbol. La variable criterio ser Valoracin del crdito y el resto sern variables predictoras. Hay que observar que si bien todas las variables son categricas, algunas podran ser definidas como ORDINALES. Los parmetros del rbol van a ser los siguientes:
rbol sin validacin Nmero de niveles: 6. Nodo parental: 5. Nodo filial: 1.
Elegimos unos parmetros tan generosos para tener ms libertad al realizar el desarrollo guiado del rbol. Desarrollo del nodo raz Antes de desarrollar el nodo raz podemos observar en el nodo raz, que la proporcin de crditos malos es del 52.01%. Si observamos la vista Riesgos, la estimacin del riesgo a priori, es del 47%. Primer nivel
Elegimos la opcin Desarrollar el rbol un nivel.

Valoracin Crdito (1=defecto) Nodo 0 Categora % n Bueno 47.99 155 Malo 52.01 168 Total (100.00) 323 Pago Semanal/Mensual Nivel crtico ajustado=0.0000, Chi-cuadrado=162.2958, gl=1
Sueldo mensual Nodo 1 Categora % Bueno 84.18 Malo 15.82 Total (48.92)
Paga semanal Nodo 2 Categora % Bueno 13.33 Malo 86.67 Total (51.08)
n 133 25 158
n 22 143 165
La variable elegida para separar los nodos ha sido: Pago Semanal/Mensual. En el nodo de la izquierda, la densidad de crditos buenos es del 84%, en el nodo de la
Pgina n 56
derecha la densidad de crditos malos es del 86.67. La vista Riesgo nos indica que la estimacin del riesgo es ahora del 14%. En la rama izquierda, esta los que perciben el sueldo mensual, de estaos clientes el 84% pertenecen a la categora Buena, en la rama de la derecha se encuentran los que perciben la paga semanal, de los cuales el 86% pertenecen a la categora Mala. Con esta sencilla regla hemos conseguido clasificar correctamente el
323 25 22 = 0.854 85% de los casos. 323

Segundo nivel Para tratar de mejorar el rbol aadimos otro nivel. En ambos nodos, la variable elegida ha sido EDAD CATEGORIZADA, el riesgo estimado es ahora del 12%, lo cual es una significativa mejora. De los 323 casos, solo hay 40 clasificados errneamente.
Entre los que perciben una paga mensual, los mayores de 25 aos son ms solventes que los menores de 25 aos. Para los que reciben una paga semanal, solo los mayores de 35 aos son solventes. El grupo ms insolvente son los que reciben una paga semanal y tienen menos de 35 aos. Para tratar de mejorar el rendimiento del rbol, vamos a desarrollar los nodos con alto nivel de confusin. Nodo nmero 4
Pgina n 57
La clasificacin de este nodo no es definitiva, para intentar aclararla elegimos la opcin Desarrollar rama un nivel. Vemos que ocho casos han quedado bien clasificados. De los 24 mal clasificados hemos pasado a tener solo 17 casos mal clasificados. Nodo nmero 5. Aunque la densidad de crditos altos es muy alta, aun hay 15 casos mal clasificados. Desarrollamos la rama correspondiente a este nodo un nivel. La variable elegida es CATEGORA PROFESIONAL, pero seguimos teniendo 15 casos mal clasificados, por lo tanto, al no mejorar el rendimiento podemos eliminamos la rama creada.
RBOL FINAL
Es interesante observar la coincidencia de las variables de divisin en el segundo nivel.
Pgina n 58
Anlisis de resultados
RIESGOS,
Matriz de clasificacin errnea Categora real Bueno Malo Categora estimada Bueno Malo Total 123 32 155 1 167 168
Total 124 199 323
Estimacin de riesgo ET de la estimacin de riesgo
Estadsticos de riesgo 0.102167 0.016852
El riesgo de realizar una clasificacin errnea mediante el modelo actual es del 10.2%, hay un crdito pronosticado como bueno que realmente es malo, y hay 32 crditos malos clasificados como buenos. Prcticamente ningn crdito Malo ha sido clasificado como Bueno.
Ganancias
MEDIANTE LA OPCIN FORMATO/ GANANCIAS, ELEGIMOS LA CATEGORA CRDITO BUENO COMO CATEGORA DE REFERENCIA. PARA FACILITAR LA COMPRENSIN DE LA TABLA DE GANANCIAS NOS ASEGURAMOS QUE TENEMOS EL VISOR TABLA DE NODO ABIERTO.
El resumen de ganancias en este ejemplo concreto, muestra cual son los nodos que tienen la mayor y menor proporcin de crditos buenos.
Pgina n 59
La primera columna indica el nmero de nodo, el cual corresponde al nodo final en la tabla, si pulsamos sobre dicho nodo en la tabla, el visor Tabla de nodo automticamente actualiza la informacin de dicho nodo. El nodo nmero 8, corresponde a los solicitantes del crdito que reciben un sueldo mensual y son jvenes y la categora profesional que tienen es Administrativo O directivo. Hay en total 8 solicitantes (Nodo:n), que representa el 2.5% del total de solicitantes. El nmero de crditos buenos en este nodo es de 8 (Ganancia:n) que representa el 5.16% de todos los crditos buenos de la muestra. El porcentaje de crditos buenos en este nodo es del 100% (Resp: %) y representa un incremento del 208.4 sobre el nodo raz (ndice %). El nodo ms interesante es el nodo 3, pues contiene el 69.7% de los crditos Buenos, y su porcentaje de crditos buenos es del 99.1. Los clientes de dicho nodo se caracterizan por:
Nodo 3*/ IF (Pago Semanal/Mensual = "Sueldo mensual") AND (Edad Categrica != "Joven (< 25)") THEN Node = 3 Prediction = 1 Probability = 0.990826
El peor nodo de todo el rbol es el 5, pues representa al 48.9 de la muestra y contiene una proporcin de crditos buenos del 9.5%.
Pgina n 60
8.3- EJERCICIO DE VALORACIN DEL PRECIO DE VIVIENDAS Algoritmo C&RT para crear un rbol de regresin con el fin de estimar el precio de una vivienda.
Datos El fichero de datos corresponde al estudio realizado por Harrison y Rubinfeld en 1978 para evaluar los efectos de varios factores de tipo ambiental, econmico y social sobre los valores de las viviendas en la zona de Boston. Las variables observadas han sido las siguientes: El archivo de datos para este ejemplo es HOUSING.SAV. El archivo contiene una variable criterio, Mediana de hogares ocupados por propietarios (definida como continua) y 13 variables predictoras:

Crim: Tasa de crimen per cpita (continua) Zn: Proporcin de terreno residencial en de zonas 2322,5 m2 (continua) Indus: Proporcin de acres de negocios no comerciales por pueblo (continua) Chas: Variable ficticia de conexin al ro Charles (nominal, 0 adyacente al ro, 1 = no adyacente al ro) Nox: Concentracin de xidos ntricos pp cada 10 millones (continua) Cuartos: Nmero promedio de habitaciones por vivienda (continua) Edad: Proporcin de viviendas ocupadas por propietarios antes de 1940 (continua) Dis: Distancia ponderada a 5 centros de empleo de Boston (continua) Circ: ndice de accesibilidad a autopistas radiales (continua) Impuesto: Tasa del valor total de los impuestos de propiedad por 10.000$ (continua) Paratio: Razn de alumnos/profesores por pueblo (continua) N: Proporcin de poblacin de raza negra por pueblo transformada (continua) EstaInf: % estatus inferior de la poblacin (continua) Medh: Mediana del precio de los hogares ocupados por Zona.
Pgina n 61
Creacin del rbol con el algoritmo C&RT Cuando la variable criterio esta mediada en escala continua, l a medida utilizada para evaluar la impureza de un nodo mediante el algoritmo C&RT es LSD que se define de la siguiente manera:
R (t ) = 1 N (t ) ( y i y (t )) 2 N (t ) i =1
Es por tanto la varianza respecto a la media en el nodo t. La divisin de dos nodos se realiza de forma que se maximice la siguiente expresin:
( s, t ) = R(t ) Pi R(ti ) Pd R(t d )

Por lo tanto en cada nueva divisin, la mejora indica la disminucin de la varianza del nodo padre, es por lo tanto fundamental conocer la varianza original de la variable para poder ajustar los parmetros del rbol. En nuestro caso la varianza de la variable criterio es 84.45 y su media es 22.530K dlares. Para la creacin del rbol elegimos el algoritmo C&RT, y como variable criterio elegimos MEDH (Mediana del precio de los hogares ocupados por Zona), como variables predictoras utilizamos el resto de variables en el fichero. En opciones avanzadas seleccionamos los siguientes parmetros:
Niveles bajo raz: Nodo parental: Nodo filial: Cambio mnimo en la impureza:
6. 5. 1. 2.
Desarrollo del rbol de regresin
El nodo raz simplemente muestra la media de la variable criterio para todos los datos de la muestra. En este ejemplo la media vale 22.5328, la desviacin tpica es de 9.19 y el nmero de casos contenidos en este nodo es de 506.
Pgina n 62
Elegimos la opcin Desarrollar el rbol un nivel. La variable elegida ha sido Promedio de habitaciones por vivienda. El punto de corte se ha dado en el valor 6.94. La mejora de la impureza de calcula de la siguiente manera:
R(0) = 9.197122 R(1) = 6.353522 R(3) = 8.988522 Pi = 0.8498 Pd = 0.1502
( s,0) = 9.19712 0.8498 6.3535 2 0.1502 8.9885 2 = 38.22

Es decir, de la varianza total del nodo 0 que es 84.58, mediante la divisin en 2 nodos, hemos explicado 38.22 unidades, la varianza que no hemos explicado es de 46.19 unidades, que se corresponde con la siguiente expresin:
Varianza Total = Varianza Explicada + Varianza no explicada O lo que es lo mismo: Varianza Total Varianza Explicada = Varianza No Explicada 84.41-38.22= 46.19. Esto se corresponde con el valor Estimacin de riesgo en la vista Riesgos, que es la varianza no explicada, de hay la importancia de conocer la varianza de la variable criterio antes de desarrollar el rbol.
Pgina n 63
Para desarrollar el resto del rbol de regresin elegimos la opcin Desarrollar el rbol y podar.
Examen del rbol de regresin
Esta claro que la rama de la derecha hace referencia al tamao de la casa, todas las divisiones se realizan por la variable nmero de habitaciones de la casa. Si tienen ms de 7 habitaciones, el precio medio es de 45.0967$. Si ests solo tienen 7 habitaciones el precio medio es de 32.113$. El nmero de viviendas con ms de 6 habitaciones es del 15% de la muestra.
La primera divisin de la rama izquierda, se corresponde con la variable % estatus inferior de la poblacin, las reas ocupadas por residentes con un estatus inferior de menos 14.39% tienen un valor superior a aquellas donde el porcentaje es mayor del 14.39, la mejora es de 14.45 respecto a 40.32 unidades del nodo l.
Pgina n 64
El desarrollo del nodo nmero 4, hace referencia a la preocupacin por la inseguridad ciudadana. Mientras que el desarrollo del nodo 3 hace referencia por la comunicacin con los centros de empleo.
Pgina n 65

Árboles de clasificación y regresión: guía práctica

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Árboles de clasificación y regresión: guía práctica

Uploaded by

Copyright:

Available Formats

RBOLES DE CLASIFICACIN Y REGRESIN

Los grafos se pueden representar de la siguiente forma:

e) Grado de incidencia de un nodo Es el nmero de aristas que inciden en dicho nodo.

A esta operacin se la suele denominar categorizar variables.

ni , j Es la frecuencia observada de la celda {i,j}

Si los sucesos A y B son independientes, deber de ocurrir:

Total 18 18.0 24 24.0 42 42.0

Recuento Frecuencia esperada Recuento Frecuencia esperada Recuento Frecuencia esperada

Ahora podemos calcular el coeficiente:

(10 9) 2 (8 9) 2 (11 12) 2 (13 12) 2 1 1 + + + = 2 + = 0.3888 9 9 12 12 9 12

Total 18 18.0 24 24.0 42 42.0

Recuento Frecuencia esperada Recuento Frecuencia esperada Recuento Frecuencia esperada

b) ndice de Gini El ndice de Gini en el nodo t se define como:

( s, t ) = g (t ) piz g (tiz ) pde g (tde )

0 Sin riesgo 1 Con risego Total

2 21 21 1 P(i / 0) 2 = 1 = 0.5 g(0) = 42 42 i =1

11 13 g(1) = 1 P(i / 1) = 1 = 0.496 24 24 i =1

Por lo tanto la mejora conseguida ser de:

( s, t ) = g (t ) piz g (tiz ) pde g (tde ) =

riesgo Evaluacion del riesgo

Sin riesgo Con risego

Recuento % de trabajo Recuento % de trabajo Recuento % de trabajo

Total 21 50,0% 21 50,0% 42 100,0%

A continuacin calculamos el ndice de Gini:

4 14 1 P(i / 1) = 1 = 0.34 18 18 i =1 g(1) = 2 2 2 17 7 1 P(i / 2) 2 = 1 = 0.41 24 24 i =1 g(2) =

Por lo tanto la mejora conseguida ser de:

( s, t ) = g (t ) piz g (tiz ) pde g (tde ) = 0.5 18 24 0.34 0.41 = 0.1157 42 42

riesgo Evaluacion del riesgo

Sin riesgo Con risego

Recuento % de sexo Sexo Recuento % de sexo Sexo Recuento % de sexo Sexo

Total 21 50,0% 21 50,0% 42 100,0%

Calculamos el ndice binario para la divisin basada en el gnero.

24 18 11 10 13 8 K ( s, t ) = Pde Piz P (i / t iz ) P(i / t de ) = + = 0.009259 42 42 i =1 24 18 24 18

Podemos observar que la mejora es mnima

riesgo Evaluacion del riesgo

Sin riesgo Con risego

Recuento % de trabajo Recuento % de trabajo Recuento % de trabajo

Total 21 50,0% 21 50,0% 42 100,0%

18 24 4 17 14 7 K ( s, t ) = Pde Piz P(i / t iz ) P(i / t de ) = + = 0.23148 42 42 i =1 18 24 18 24

CHAID CHAID Exhaustivo C&RT o CART QUEST

Para variables categricas: o Estadstico basado en 2 Para variables continuas: o Prueba F

Iniciamos la aplicacin Inicio/ Programas/ AnswerTree/ AnswerTree 3.0

Crear un nuevo proyecto.

En el cuadro Seleccionar fuente de datos, elegimos la opcin:

Archivo de datos de S.P.S.S.

4. Opciones avanzadas: en este cuadro deberemos ajustar algunos

3.3. Guardar el proyecto

asociacin con el fichero lirios.sav pulsamos las siguientes opciones:

Archivo/ Guardar proyecto.

VISOR MAPA DEL RBOL

PARA ACLARAR EL SIGNIFICADO DE ESTAS COLUMNAS COMENTAMOS EL RENGLN CORRESPONDIENTE AL NODO 6

4.4. Otros controles de la vista del rbol

5.2. Barra de herramientas de la ventana rbol

Ejercicio: Desarrollar paso a paso todo el rbol, decidir en dnde parar.

Horas trabajadas a la semana Mejora=0.1605

Horas trabajadas a la semana Mejora=0.0502

Seguir aadiendo niveles, no va a aportar nada.

En cambio si estamos utilizando la medida de asociacin, la tabla nos muestra el

PARA MOVER CATEGORAS DE UN NODO A OTRO:

Niveles bajo raz: Nodo parental: Nodo filial:

Ver / Muestra / comprobacin o bien desde la barra de herramientas:

Value Label 1 Directivo 2 Profesional 3 Administrativo 4 Operario cualificado 5 No cualificado

Value Label 1.00 Paga semanal 2.00 Sueldo mensual