You are on page 1of 14

Laboratorio 6 parte 1

En primer lugar, tenemos que luego de haber realizado los pasos de la


primera parte del laboratorio de rboles de decisin, la ruta se ve de la
siguiente manera:

1. Calcule las medidas de Precisin y Exhaustividad (class precisin y el call


recall) de acuerdo a las siguientes frmulas para los resultados entregados
por los algoritmos y luego compare. Qu conclusiones puede inferir a
partir de ello?

Anlisis CRT

En entrenamiento
Del anlisis CRT en entrenamiento, podemos ver que tenemos 120 datos
correctamente clasificados, lo que representa un porcentaje clasificados de
87,59% y 17 datos que son clasificados de manera errnea, lo que representa
un porcentaje de clasificacin del 12,41%.
Antes de sealar si resulta un buen modelo o no, debemos ver qu tan bien se
clasifican los distintos estados del Account Status.

A continuacin se presenta una tabla con el Recall (Exhaustividad) y la


Precisin de CRT en Entrenamiento:
30 days 60 days Balanc Total Correct Recall:
CRT en Entrenamiento late late ed Fila os Correctos (%)
30 days late 8 2 3 13 8 62%
60 days late 1 14 7 22 14 64%
Balanced 1 3 98 102 98 96%
Total columna 10 19 108
Correctas 8 14 98
Precisin (%
correctas/total pred) 80% 74% 91%

Analizando el Recall (porcentaje de verdaderos positivos en relacin a la suma


de los falsos negativos con los verdaderos positivos) para 30 days late es de
62%, para 60 days late es de 64% y para los Balanced es de 96%.
Por otra parte la Precisin (porcentaje de verdaderos positivos en relacin a la
suma de los falsos positivos con los verdaderos positivos) para 30 days late es
de 80%, para 60 days late es de 74% y para Balanced es de 91%.
De esto, podemos ver que el modelo tiene una mayor precisin que
exhaustividad para la mayora de los estados, es decir, el modelo dentro de sus
predicciones es preciso pero no es tan bueno prediciendo en relacin a los que
realmente resultaron ser de ese estado.

En comprobacin
Del anlisis CRT en
comprobacin, podemos ver
que tenemos 115 datos
correctamente clasificados, lo
que representa un porcentaje
clasificados de 79,31% y 30
datos que son clasificados de
manera errnea, lo que
representa un porcentaje de
clasificacin del 20,69%.
Antes de sealar si resulta un
buen modelo o no, debemos ver
qu tan bien se clasifican los
distintos estados del Account Status.

A continuacin se presenta una tabla con el Recall (Exhaustividad) y la


Precisin de CRT en Comprobacin:
30 days 60 days Balanc Total Correct Recall:
CRT comprobacin late late ed Fila os Correctos (%)
30 days late 9 3 9 21 9 43%
60 days late 0 6 11 17 6 35%
Balanced 0 7 100 107 100 93%
Total columna 9 16 120
Correctas 9 6 100
Precisin (%
correctas/total pred) 100% 38% 83%

Analizando el Recall tenemos que para 30 days late es de 43%, para 60 days
late es de 35% y para los Balanced es de 93%.
Por otra parte la Precisin tenemos que para 30 days late es de 100%, para 60
days late es de 38% y para Balanced es de 83%.
De esto, podemos ver que el modelo tiene una mayor precisin que
exhaustividad para la mayora de los estados, es decir, el modelo dentro de sus
predicciones es preciso pero no es tan bueno prediciendo en relacin a los que
realmente resultaron ser de ese estado. Por ejemplo, tiene 100% de precisin
para el estado 30 days late, pero el total que resultaron ser de ese estado es
mucho mayor que el que se predijo, por eso tenemos solo un 43% de Recall.

Anlisis C5
En entrenamiento
Del anlisis C5 en entrenamiento, podemos ver que tenemos 121 datos
correctamente clasificados, lo que representa un porcentaje clasificados de
88,32% y 16 datos que son clasificados de manera errnea, lo que representa
un porcentaje de clasificacin del 11,68%.
Antes de sealar si resulta un buen modelo o no, debemos ver qu tan bien se
clasifican los distintos estados del Account Status.

A continuacin se presenta una tabla con el Recall (Exhaustividad) y la


Precisin de C5 en entrenamiento:
30 days 60 days Balanc Total Correct Recall:
C5 Entrenamiento late late ed Fila os Correctos (%)
30 days late 6 5 2 13 6 46%
60 days late 0 16 6 22 16 73%
Balanced 0 3 99 102 99 97%
Total columna 6 24 107
Correctas 6 16 99
Precisin (%
correctas/total pred) 100% 67% 93%

Analizando el Recall tenemos que para 30 days late es de 46%, para 60 days
late es de 73% y para los Balanced es de 97%.
Por otra parte la Precisin
tenemos que para 30 days
late es de 100%, para 60 days
late es de 67% y para
Balanced es de 93%.
De esto, podemos ver que el
modelo tiene una mayor
precisin que exhaustividad
para la mayora de los
estados, es decir, el modelo
dentro de sus predicciones es
preciso pero no es tan bueno
prediciendo en relacin a los
que realmente resultaron ser
de ese estado. Por ejemplo, tiene 100% de precisin para el estado 30 days
late, pero el total que resultaron ser de ese estado es mucho mayor que el que
se predijo, por eso tenemos solo un 46% de Recall.
En comprobacin
Del anlisis C5 en comprobacin, podemos ver que tenemos 118 datos
correctamente clasificados, lo que representa un porcentaje clasificados de
81,38% y 27 datos que son clasificados de manera errnea, lo que representa
un porcentaje de clasificacin del 18,62%.
Antes de sealar si resulta un buen modelo o no, debemos ver qu tan bien se
clasifican los distintos estados del Account Status.

A continuacin se presenta una tabla con el Recall (Exhaustividad) y la


Precisin de C5 en comprobacin:
30 days 60 days Balanc Total Correct Recall:
C5 Comprobacin late late ed Fila os Correctos (%)
30 days late 7 7 7 21 7 33%
60 days late 0 5 12 17 5 29%
Balanced 0 1 106 107 106 99%
Total columna 7 13 125
Correctas 7 5 106
Precisin (%
correctas/total pred) 100% 38% 85%

Analizando el Recall tenemos


que para 30 days late es de
33%, para 60 days late es de
29% y para los Balanced es
de 99%.
Por otra parte la Precisin
tenemos que para 30 days
late es de 100%, para 60 days
late es de 38% y para
Balanced es de 85%.
De esto, podemos ver que el
modelo tiene una mayor
precisin que exhaustividad
para la mayora de los
estados, es decir, el modelo
dentro de sus predicciones es preciso pero no es tan bueno prediciendo en
relacin a los que realmente resultaron ser de ese estado. Por ejemplo, tiene
100% de precisin para el estado 30 days late, pero el total que resultaron ser
de ese estado es mucho mayor que el que se predijo, por eso tenemos solo un
33% de Recall. Adems, por otro lado tambin vemos que para el estado
Balanced tenemos un 99% de Recall, es decir, predijo casi en su totalidad los
que resultaron ser de ese estado, pero la precisin fue de 85%, es decir, predijo
que seran de ese estado ms personas de las que finalmente resultaron serlo.

Anlisis Logstico
En entrenamiento
Del anlisis Logstico en entrenamiento, podemos ver que tenemos 118 datos
correctamente clasificados, lo que representa un porcentaje clasificados de
86,13% y 19 datos que son clasificados de manera errnea, lo que representa
un porcentaje de clasificacin del 13,87%.
Antes de sealar si resulta un buen modelo o no, debemos ver qu tan bien se
clasifican los distintos estados del Account Status.

A continuacin se presenta
una tabla con el Recall
(Exhaustividad) y la Precisin
del modelo Logstico en
entrenamiento:
Anlisis Logstico 30 days 60 days Bal
Entrenamiento late late ed
30 days late 6 3 4
60 days late 2 16 4
Balanced 1 5 9
Total columna 9 24 10
Correctas 6 16 9
Precisin (%
correctas/total pred) 67% 67% 92

Analizando el Recall tenemos que para 30 days late es de 46%, para 60 days
late es de 73% y para los Balanced es de 94%. De esto podemos ver que es
mejor prediciendo los Balanced que los 60 days late y que es mejor prediciendo
estos ltimos que los de 30 days late.
Por otra parte la Precisin tenemos que para 30 days late es de 67%, para 60
days late es de 67% y para Balanced es de 92%. De lo que vemos que es un
modelo similar en precisin para la prediccin de cada uno de los estados.
En comprobacin
Del anlisis Logstico en comprobacin, podemos ver que tenemos 113 datos
correctamente clasificados, lo que representa un porcentaje clasificados de
77,93% y 32 datos que son clasificados de manera errnea, lo que representa
un porcentaje de clasificacin del 22,07%.
Antes de sealar si resulta un buen modelo o no, debemos ver qu tan bien se
clasifican los distintos estados del Account Status.

A continuacin se presenta una tabla con el Recall (Exhaustividad) y la


Precisin del modelo Logstico en entrenamiento:

Anlisis Logstico 30 days 60 days Balanc Total Correct Recall:


Comprobacin late late ed Fila os Correctos (%)
30 days late 11 3 7 21 11 52%
60 days late 2 3 12 17 3 18%
Balanced 2 6 99 107 99 93%
Total columna 15 12 118
Correctas 11 3 99
Precisin (%
correctas/total pred) 73% 25% 84%

Analizando el Recall tenemos que para 30 days late es de 52%, para 60 days
late es de 18% y para los Balanced es de 93%. De esto podemos ver que es un
muy mal modelo en cuanto al recall de la prediccin de 60 days late, pero
podra ser un buen modelo prediciendo los Balanced.
Por otra parte la Precisin tenemos que para 30 days late es de 73%, para 60
days late es de 25% y para Balanced es de 84%. De lo que vemos que es un
modelo con una baja precisin en los 60 days late.
Conclusin del anlisis para los modelos
En primer lugar, analizando el Recall de los modelos en Entrenamiento el mejor
modelo es C5, ya que cuenta con un Recall ms alto en 2 de las 3 categoras.
Sin embargo, en la particin de Comprobacin el modelo que tiene un Recall
mayor en dos de las tres categoras es el CRT, por lo que en ese caso este sera
un mejor modelo en cuanto a Exhaustividad.
Ahora, viendo la Precisin de los modelos en la particin de Entrenamiento, el
modelo que tiene un mayor nivel es el C5, ya que tiene un mayor valor en dos
de las tres categoras.
Con respeto a la particin de Comprobacin, el mejor modelo sigue siendo C5
que tiene una Precisin ms alta slo en Balanced, ya que en las otras dos
tanto C5 como CRT tienen los mismos valores. Ms abajo se encuentra en
cuanto a precisin y exhaustividad el modelo Logstico.
Luego de haber analizado la precisin y la exhaustividad de todos los modelos,
podemos concluir que el mejor de los tres result ser C5, ya que en la mayora
result ser mejor que los dems y por lo tanto, este modelo podra predecir
mejor a qu categora perteneceran los clientes.

2. Utilizando el rbol creado Cul es el account status ms


probable para un cliente con un hijo? Cul es la probabilidad
asociada a esta prediccin? Por qu?

En primer lugar, lo que hacemos para poder analizar el rbol es ver el


modelo C5, que result ser el mejor modelo luego de analizar todos los
factores en la primera pregunta de la tarea. Se analiz el rbol en la parte
de comprobacin, el resultado del rbol se muestra a continuacin:

Podemos ver que los clientes que tienen un hijo entran en Nbr_Children
de >= que 1 y por lo tanto, se puede observar que la categora ms
probable en este caso sera de 60 days late, con una probabilidad del
47,059% y son 20 personas las que entran dentro de esta categora.

Si comparamos, el segundo estado ms probable sera Balanced con un


35,249% de probabilidad y 12 personas y finalmente, la menos probable es
de pertenecer a la categora 30 days late, con una probabilidad de 17,647%
y una cantidad de 6 personas que
entraran dentro de esta categora.

Se podra intuir que los padres de


un hijo podran ser padres
primerizos y por lo tanto incurrir en
ms gastos asociados al
cuidado de los nios pequeos y
no cuenten con los medios. Por
otra parte, podramos pensar
que las personas
que tienen ms de
un hijo tenderan a
estar ms estables
econmicamente
y ser una decisin
el ser padres por segunda o
tercera vez.

3. Realice otro modelo en


que no se haya
descartado la variable
Gender y en la que s se
incluya la variable
Mo_Expenses. Compare
los resultados y el rbol
de decisin creado con el
creado anteriormente.
Nota alguna diferencia
significativa? Qu
modelo es mejor?
En primer lugar, lo que
hicimos para incluir la
variable Gender y tambin la
variable Mo_Expenses dentro
del anlisis fue partir del
primer nodo tipo. El nodo se
ve por lo tanto, de la
siguiente manera:
Desde ese nodo se
realiz un modelo
C5, para poder
comprarlo con el
modelo
seleccionado y
analizado en la
pregunta anterior.
La imagen anterior
muestra cmo se ve
la ruta luego de
agregarle el nuevo
modelo C5:

El rbol, por lo
tanto, qued como
se ve en la figura a
continuacin:

Podemos ver en
primer lugar que las variables que incluye este rbol son Home,
Mo_Expenses, Mo_Balance y Mo_Income.
Por otro lado, vemos que dentro de este rbol existen 7 rutas que se
pueden analizar.
El rbol comienza con el tipo de casa que tienen los clientes, si es que se
trata de una casa que es propia, ser diferente la distribucin del estado de
la cuenta que de las personas cuya casa es arrendada. Donde en promedio
las personas que tienen una casa propia tendern a estar balanceados y las
personas que tienen una casa arrendada tendern a estar ms atrasados
con las cuentas.
Esto tiene sentido ya que las personas que arriendan destinan un monto
considerable de su sueldo para este fin, y por lo tanto para comprar otras
cosas no les alcanzar y se tendrn que endeudar, y al contar con tan poco
margen disponible se podrn atrasar en pagar con ms probabilidad que las
personas que tienen una
casa propia. Por otro lado,
las personas que tienen
casa propia en general
sern personas
ms estables

econmicamente.
Volviendo a analizar el rbol de la pregunta dos, podemos ver que cuenta
con siete rutas al igual que el nuevo generado, pero las variables que se
incluyen son Mo_Expenses, Mo_Balance, Nbr_Children y Credit
limit.

Para analizar de mejor manera ambos modelos se agreg un nodo Anlisis


para poder analizar qu tan buenos modelos son ambos, adems se
calcular tanto la precisin como la exhaustividad de los modelos.

Antiguo modelo C5
Tal como sealamos anteriormente en el laboratorio, nuestro primer Modelo
C5 de prueba (sin considerar ni la variable Gender ni Mo_Expenses) tiene
una precisin de 88,32%
A continuacin se presenta una tabla con el Recall (Exhaustividad) y la
Precisin de C5 en entrenamiento:
30 days 60 days Balanc Total Correct Recall:
C5 Entrenamiento late late ed Fila os Correctos (%)
30 days late 6 5 2 13 6 46%
60 days late 0 16 6 22 16 73%
Balanced 0 3 99 102 99 97%
Total columna 6 24 107
Correctas 6 16 99
Precisin (%
correctas/total pred) 100% 67% 93%

Analizando el recall y la precisin obtuvimos los siguientes resultados:

Nuevo modelo C5
Ahora realizaremos el mismo procedimiento para poder analizar el nuevo
modelo C5 con las nuevas variables incluidas. Y obtenemos que este nuevo
modelo tiene un porcentaje de correctamente clasificados de un 89,05%
Analizando tanto el Recall como la precisin, tenemos la siguiente tabla:

30 days 60 days Balanc Total Correct Recall:


Nuevo modelo C5 late late ed Fila os Correctos (%)
30 days late 7 3 3 13 7 54%
60 days late 0 13 9 22 13 59%
Balanced 0 0 102 102 102 100%
Total columna 7 16 114
Correctas 7 13 102
Precisin (%
correctas/total pred) 100% 81% 89%

Analizando el Recall tenemos que para 30 days late es de 54%, para 60 days
late es de 59% y para los Balanced es de 100%.
Por otra parte la Precisin tenemos que para 30 days late es de 100%, para 60
days late es de 81% y para Balanced es de 89%. De lo que tenemos que este
resulta ser un buen modelo en cuanto a la precisin.
De lo anterior tenemos que este modelo es mejor en cuanto a precisin y a
recall en la mayora de los estados, el ltimo resulta ser un mejor modelo. Sin
embargo, cabe sealar que en cuanto al recall para 60 days late, resulta ser
mejor en el primer modelo, por lo tanto, si una empresa busca predecir de
mejor manera los clientes que estn ms atrasados en sus pagos ser mejor
que utilicen el modelo anterior y no el nuevo modelo realizado.

4. Explique con sus palabras que significa que los rboles de


decisin puedan modelar relaciones no-lineales. De ejemplos que
se puedan aplicar en problemas financieros.

Los rboles de decisin pueden modelar relaciones no lineales porque


permiten agregar una cantidad alta de variables y permite describir el
camino que sigue la variable explicada o dependiente, hasta llegar a su
resultado final. (Dupouy Berrios, 2014) En cambio, hay ciertos mtodos que
solamente permiten capturar de mejor manera aquellas relaciones que son
lineales, como por ejemplo el mtodo de regresin logstica, que funciona
muy bien solo si se tienen variables independientes que se muevan de
manera lineal con la variable dependiente, en el caso de no ser una relacin
lineal el modelo no arrojar una muy buena estimacin.
Este ltimo y los dems modelos como por ejemplo Probit o logit, no
pueden describir el camino que sigue para llegar finalmente al resultado
final.
Se pueden aplicar los rboles de decisin en problemas financieros se puede
utilizar para el anlisis de riesgo crediticio, decisiones de inversin o decisiones
de gestin financiera. (Calancha Zuniga, Carrin Barcena, Cori Vargas, & Villa
Torres, 2010). Por otro lado, tambin se podra estimar el precio de las acciones
en base a rboles de decisin con distintos criterios que pueden ir aumentando
o disminuyendo el monto esperado y la respectiva probabilidad.

5. Discuta 3 ventajas y 3 desventajas de los rboles de decisin


comparados con otros modelos de prediccin que usted conozca o
haya utilizado antes. De ejemplos.

Ventajas
1. Es una tcnica valiosa cuando deseamos construir modelos
con gran cantidad de variables independientes o con poca teora
previa que sirva de gua. En comparacin con modelos como logit,
probit o regresin lineal, no es necesario de un marco terico o de un
modelo previamente establecido y respaldado para la incorporacin de
variables, lo que se debe hacer en este caso solo consiste en seleccionar
las variables que queremos aadir y el programa realizar los rboles de
decisin y luego se interpretan los resultados. En los modelos descritos
esto no se puede hacer, ya que hay relaciones que son simplemente
casualidad y no tienen una relacin de causalidad.

2.- Toma las ventajas de la estructura consecutiva de las ramas


del rbol de decisin, de tal forma que se identifican de manera
inmediata el orden de verificacin de las condiciones y las
acciones que se deben llevar a cabo. En comparacin con los otros
mtodos vistos, como regresin lineal o logstica, esto resulta ser
favorable en cierto sentido, ya que en estos ltimos se tiene como
resultado un modelo y no es posible identificar una estructura
consecutiva, no hay un orden establecido.

3.- Son ms simples de entender y de explicar y facilita la


interpretacin de la decisin adoptada. Esto resulta importante en
el caso de los negocios donde la decisin adoptada debe ser entendida
por todos los miembros de la organizacin o quizs por miembros que no
tienen conocimiento sobre el uso de Software ni de econometra. En el
caso de los otros mtodos que se describieron en las ventajas
anteriores, no es muy simple de entender ni de explicar, ni tampoco de
darle interpretacin a la decisin adoptada si se carecen de los
conocimientos necesarios.
Desventajas:
1. No genera una ecuacin general que exprese el modelo. En el
caso por ejemplo de una regresin lineal, tenemos un modelo
establecido luego de realizar la regresin y por lo tanto, si yo tengo
ciertos valores de las variables los puedo reemplazar y obtener la
cantidad que se espera de la variable dependiente, es decir, se sabe con
anterioridad que tanto afectan las variables independientes a la variable
dependiente. En cambio con los rboles de decisin ya que no se tiene
una ecuacin, no se podr realizar este proceso.
2.- Existe una dificultad de escoger un modelo adecuado. Se
tienen una serie de modelos que se pueden realizar para poder hacer un
rbol de decisin y los criterios no estn claros. En el caso de por
ejemplo el mtodo logstico o regresin lineal, tenemos claro que cuando
la variable dependiente es la probabilidad, entonces se utilizar el
modelo logstico probablemente y cuando es un monto se utilizar una
regresin o algn otro mtodo en base a ciertos requerimientos
especficos que se deben cumplir.
3.- Requiere de una gran cantidad de datos con los que en la
mayora de las ocasiones no contamos. En el caso de los otros
mtodos descritos en todos los ejemplos anteriores, no es necesario una
gran cantidad de datos como en el caso de los rboles, por ejemplo,
podramos realizar una encuesta a 400 personas y poder estimar un
modelo, sin embargo en el caso de los rboles, debido a que se requiere
de una gran cantidad de informacin, esta cantidad de datos sera
insuficiente y se requeriran ms.

You might also like