You are on page 1of 4

XXVI Simposio Internacional de Estadstica 2016

Sincelejo, Sucre, Colombia, 8 al 12 de Agosto de 2016

Aprendizaje basado en rboles de decisin: un estudio crtico

desde Weka, RapidMiner y SPSS Modeler

1;2, a a 2;3, b
lex Moreno-Salazar , M Purificacin Vicente-Galindo ,
a 2;3;4, c
M Purificacin Galindo-Villardn

1 Escuela Superior Politcnica del Litoral (ESPOL), Facultad de Ciencias Naturales y Matemticas,
Guayaquil, Ecuador
2 Dpto. de Estadstica, Facultad de Medicina, Universidad de Salamanca, Salamanca, Espaa
3 Instituto de Investigacin Biomdica (IBSAL), Salamanca, Espaa
4 ESPOL, Facultad de Ciencias de la Vida, Guayaquil, Ecuador

Resumen
Los rboles de decisin son tcnicas comnmente utilizadas en minera de datos, y entre ellos
destacan C4.5(C5.0), CART y CHAID. El presente trabajo analiza las implementaciones de estos
algoritmos en tres programas de minera de datos de relevancia: SPSS Modeler, RapidMiner y Weka.
Constatamos que las caractersticas de los algoritmos dieren en cada programa, lo que puede incidir
en los resultados que se presentan an cuando se trabaja con los mismos datos.
Palabras clave : Mining, Weka, RapidMiner, SPSS Modeler, Arboles de Decisin.
INTRODUCCIN
Data Mining engloba un conjunto de tcnicas, que buscan descubrir las relaciones existentes en una
gran cantidad de datos. En los ltimos aos se ha producido un inters generalizado y creciente, moti-
vado por la mayor competitividad en el mercado y por la explosin de datos (Big Data). El predecir el
comportamiento humano permite mejorar las ventas, la sanidad, combatir el riesgo nanciero, etc. Las
tcnicas proceden del aprendizaje automtico y la estadstica, y se clasican en tcnicas de clasicacin,
segmentacin y asociacin. Las de clasicacin sirven para pronosticar un resultado conocido, por ejem-
plo si un cliente comprar o no un producto. Las de asociacin son ms tiles cuando se desea pronosticar
varios resultados conocidos, por ejemplo, los clientes que adquirieron el producto X tambin adquirieron
Y y Z . Y las de segmentacin se usan cuando se desconoce el resultado especco (por ejemplo identicar
nuevos patrones de fraude) por lo que se enfocan en crear grupos similares y describirlos.
El proyecto WEKA http://bit.ly/IzNJ0R tiene como objetivo proporcionar una amplia coleccin
de algoritmos de aprendizaje automtico y herramientas de pre-procesamiento de datos tanto para los
investigadores como para los profesionales. RapidMiner, http://bit.ly/1VMqYoY cuenta tambin con
un gran nmero de tcnicas, y adems puede integrarse con Weka y R para ampliar su potencial, lo que
lo convierte en un referente importante en programas de minera de datos de cdigo abierto. IBM SPSS
Modeler con un mayor enfoque comercial y de marketing, es una herramienta diseada para aportar
inteligencia a la toma de decisiones http://ibm.co/29QQqsG.
TCNICAS DE CLASIFICACIN
En las tcnicas de clasicacin, el objetivo es predecir un evento (valor especco de una variable
categrica) o estimar valores de una variable continua. Se trabaja sobre datos histricos donde se tiene
a . E-mail: amorenos@espol.edu.ec
b . E-mail: purivic@yahoo.com
c . E-mail: pgalindo@usal.es

1
2 lex Moreno-Salazar, Ma Puricacin Vicente-Galindo & Ma Puricacin Galindo-Villardn

un resultado conocido, donde las las las se corresponden a los individuos-instancias a clasicar, y las
columnas son los atributos y la etiqueta (variables predictoras y variable objetivo). Los modelos se
construyen sobre datos de entrenamiento, y se validan sobre datos de prueba.
Dentro de las tcnicas de clasicacin tenemos a los rboles de decisin, que son comnmente utilizados
en la minera de datos. Los algoritmos generan reglas de decisin que son presentadas como un rbol,
donde la poblacin total (nodo raz) es sucesivamente dividida (ramas-nodos intermedios) hasta obtener
segmentos de similar comportamiento (nodos hojas) en relacin a la variable objetivo. Las hojas contienen
la prediccin. En cada divisin se selecciona al predictor que mejor separa a la poblacin con respecto
a la variable objetivo. Si la variable objetivo es categrica se llaman rboles de clasicacin, en cambio,
si es continua se llaman rboles de regresin. Los diversos algoritmos se diferencian por razones como:
naturaleza de los datos a clasicar, nmero de ramas que pueden dividir, criterios utilizadas para la
divisin, administracin de los valores faltantes y mtodos de poda (simplicacin del rbol).
Aunque entre los estadsticos es ms conocido el mtodo CART (Breiman et al. 1984), el mtodo
CHAID propuesto por (Kass 1980) es ms utilizado en estudios de marketing, sin embargo tiene impor-
tantes limitaciones ya que puede no capturar todas las interacciones entre las variables predictoras y la
objetivo. Hay propuestas en la literatura que superan estas limitaciones, algoritmo DAVILA (Avila 1996),
algoritmo DDORADO (Dorado 1998) y TAID (Castro 2005), cuyo uso no se ha extendido por la falta
de un software especco. Adems de los ya citados, hay otros algoritmos como el QUEST, propuesto
por Loh & Shih (1997) y el ID3 (iterative dichotomising 3rd algorithm) publicado por Quinlan (1993),
utilizado dentro de la inteligencia articial y que dio lugar ms tarde a los algoritmos C4.5 y su sucesor
C5.0, todos ellos mucho menos conocidos en el contexto del anlisis estadstico de datos (Quinlan 1993).
RBOLES DE DECISIN IMPLEMENTADOS EN WEKA, RAPIDMINER Y SPSS
MODELER: ANLISIS COMPARATIVO
La Tabla 1 muestra los algoritmos para construir rboles de decisin implementados en los tres
programas. Weka lidera con 15 algoritmos denotando claramente su alineamiento a sus objetivos de
accesibilidad. RapidMiner cuenta con 8 algoritmos, sin embargo, gracias a la extensin con Weka es capaz
de integrar los algoritmos de Weka en su plataforma. SPSS Modeler cuenta con 6 algoritmos. Entre los
algoritmos ms utilizados en la minera de datos segn Wu et al. (2008) estn dos que construyen rboles
de decisin que son C4.5 y CART. Notese que ambos estan implementados en SPSS Modeler; en Weka
est C4.5 bajo el nombre de J48 y una implementacin bsica de CART (SimpleCART). RapidMiner
tiene una implementacin de C4.5 llamada DecisionTree, y adems puede integrar J48 y SimpleCART
de Weka. Por otro lado, el algoritmo CHAID solo est en SPSS Modeler y RapidMiner.

Tabla 1: Arboles de decisin implementados en Weka, RapidMiner y SPSS Modeler


Weka RapidMiner SPSS Modeler
J48(C4.5), J48graft, SimpleCART, ID3 Decision Tree(C4.5) y variantes C5.0, CART, CHAID
REPTree, M5P, DecisionStump, ADTree CHAID, Decision Stump, QUEST, TreeAS
RandomTree, BFTree, FT, LADTree RandomTree, RandomForest, ID3 RandomTree
RandomForest, LMT, NBTree

La Tabla 2 muestra las caractersticas de los algoritmos ms usados: C4.5-C5.0, CART y CHAID
con relacin a los tres programas. Ntese que los algoritmos tienen distintas implementaciones en cada
programa, tanto en sus capacidades respecto a los datos con los que puede trabajar, as como en los
criterios para la construccin del rbol. A continuacin, revisaremos con detalle cada uno de ellos:
Nmero de divisiones: CART genera solo rboles binarios, es decir de cada nodo se desprende
exactamente dos ramas. Mientras que CHAID y C5.0 pueden generar ms de dos ramas. Si el predictor
es de tipo nominal, CART agrupa las categoras en dos y genera solo dos ramas. C5.0 por defecto
genera una rama por cada categora, pero adems presenta la opcin de agrupar categoras para generar
menos ramas. SPSS Modeler tiene esta opcin adicional, en Weka la opcin solo permite agrupar en
dos y en RapidMiner solo se tiene la opcin por defecto. Por otro lado, CHAID en SPSS Modeler inicia

XXVI Simposio de Estadstica (2016)


Aprendizaje basado en rboles de decisin: un estudio crtico desde Weka, RapidMiner y SPSS Modeler 3

automticamente por agrupar las categoras y genera ramas por cada agrupacin, pero en RapidMiner
CHAID genera ramas por cada categora. Si el predictor es de tipo continuo, CART y C5.0 buscan un
valor de divisin y generan solo dos ramas. CHAID en SPSS Modeler agrupa los valores en categoras
(discretizacin) y pueden generarse ramas por cada agrupacin. CHAID en RapidMiner solo trabaja con
predictores nominales. Si el predictor es ordinal, podemos ingresarlos a los algoritmos CART y C5.0 como
si fuera continuo. CHAID en SPSS Modeler agrupa categoras contiguas y genera ramas por estos grupos.
CHAID en RapidMiner solo trabaja con predictores nominales.
Criterios de divisin(en rboles de clasicacin): Se utilizan medidas de pureza para seleccionar
los atributos que mejor dividen a las instancias. C4.5-C5.0 utiliza la medida de Razn de Ganancia por
defecto (basado en entropa). En SPSS Modeler y Weka solo se dispone de esta medida, mientras que
RapidMiner provee de otras cuatro. CART utiliza el ndice de Gini por defecto, en SPSS Modeler se
dispone de esta medida ms dos adicionales, en cambio SimpleCART de Weka trabaja con Razn de
Ganancia. CHAID establece un nivel de asociacin entre las predictoras y la variable objetivo, mediante
el estadstico Chi-Cuadrado disponible tanto en SPSS Modeler como en RapidMiner. Si la variable objetivo
es ordinal, CART cuenta con la medida Ordered Twoing y CHAID con el modelo de efectos la para medir
las asociaciones, ambas disponibles solo en SPSS Modeler.
Criterios de divisin (en rboles de regresin): CART utiliza como criterio la minimizacin del
error cuadrtico medio, el cual est disponible en SPSS Modeler. CHAID utiliza el estadstico F.
Administracin de valores faltantes: Se identican tres momentos:(1) durante la construccin
del rbol para seleccionar a los mejores divisores, (2) para enviar las instancias a los nodos tanto con los
datos de entrenamiento, como (3) con los datos de prueba. Para seleccionar los divisores, C4.5-C5.0 y
CART penalizan a un predictor con valores faltantes, reduciendo su Razn de Ganancia-Indice Gini al
multiplicarlo por el porcentaje de valores faltantes. CHAID en cambio, los considera como otra categora
ms y genera una rama para ellos. En todos los programas se sigue el mecanismo indicado. Para enviar
las instancias a los nodos hijos con los datos de entrenamiento, C4.5-C5.0 utiliza el fraccionamiento y
enva una parte proporcional de la instancia a cada hijo de acuerdo a su tamao. Este mecanismo se
aplica en los tres programas. CART en cambio, utiliza predictores sustitutos para enviar instancias a un
nodo hijo cuando hay valores faltantes con el divisor principal, y si se agotan los sustitutos se enva al
hijo ms grande. En SPSS Modeler se sigue este mecanismo, pero en cambio en Weka el SimpleCART
utiliza el fraccionamiento. CHAID al haber generado ramas para los valores faltantes, enva las instancias
al nodo hijo correspondiente. Por ltimo, con los datos de prueba, C4.5-C5.0 y CART usan los mismos
mecanismos descritos en el paso anterior. En cambio CHAID puede fallar si aparecen valores faltantes en
atributos que en los datos de entrenamiento no los tenan.
Mtodos de Poda: C4.5-C5.0 tiene por defecto el mtodo de Error Pesimista y dos etapas de
poda:local y global. SPSS Modeler y RapidMiner proveen este mtodo, y Weka adicionalmente ofrece el
mtodo de Error Reducido. En SPSS Modeler y en Weka se tiene la opcin de ejecutar ambas etapas,
mientras que en RapidMiner solo est la etapa local. CART tiene por defecto el mtodo de Costo-
Complejidad. En Weka y SPSS Modeler est disponible. SPSS Modeler ofrece adicionalmente el mtodo
de Diferencia en Riesgo. CHAID en RapidMiner puede implementar la poda de error pesimista.
Criterios de Parada: Para C4.5-C5.0 se dispone en SPSS Modeler de mnimo tamao de nodos
hijos (MinHijo), en Weka de mnimo tamao de nodos hoja (MinHoja) y en RapidMiner de MinHijo,
mxima profundidad de rbol(MaxProf), mnimo tamao nodo padre(MinPadre) y cambio en medida
impureza(CambImp). Para CART se utiliza el parmetro de costo-complejidad pero solo est disponible
en SPSS Modeler que adems tiene MaxProf, MinPadre, MinHijo, CambImp. En Weka SimpleCART tiene
MinHoja. Para CHAID se dispone de MaxProf, MinPadre, MinHijo y adems un nivel de signicancia
mnimo para dividir, todos ellos disponibles en SPSS Modeler y RapidMiner.
Otros: C5.0 tiene una funcionalidad especial llamada Winnow, la cual hace una preseleccin auto-
mtica de los predictores ms importantes, y elabora un rbol sobre ellos. Otra funcionalidad de C5.0
es el Boosting, que genera varios rboles y luego los combina para hacer una mejor prediccin. Ambas
funciones estn disponibles en SPSS Modeler, pero no en Weka ni RapidMiner. En CART se pueden
denir Probabilidades Previas, tiles cuando la clase de inters est muy poca representada en los datos
y se requiere administrar ese desbalance; esta funcin est disponible de SPSS Modeler y no en Weka.

XXVI Simposio de Estadstica (2016)


4 lex Moreno-Salazar, Ma Puricacin Vicente-Galindo & Ma Puricacin Galindo-Villardn

Cada programa diere en las opciones de parametrizacin de los algoritmos. En algunos casos es
exible, en otros se puede elegir ciertos criterios y en otros casos es automtica. As, se manejan variaciones
en la implementacin respecto a los algoritmos descritos. Desde luego estos ltimos cambios tienen mayor
relevancia y pueden incidir en los resultados que cada programa presenta, aun cuando se trabaje con los
mismos datos. Es recomendable, en todos los casos, referirse a la documentacin de cada programa, as
como a la documentacin especca de cada algoritmo.

Tabla 2: Caractersticas Bsicas de C4.5-C5.0, CART y CHAID en (W)Weka, (R)RapidMiner, (M)SPSS Modeler
C4.5-C5.0 CART CHAID
Arbol de Clasicacin Si (W,R,M) Si (W,M) Si (R,M)
Arbol de Regresin No Si (M) Si (M)
Tipos de Variable Objetivo:
Binaria-Nominal Si (W,R,M) Si (W,M) Si (R,M)
Ordinal No (*) Si (M) Si (M)
Continua No Si (M) Si (M)
Tipos de Variables Predictoras (Divisores):
Binaria-Nominal Si (W,R,M) Si (W,M) Si (R,M)
Ordinal Si* (W,R,M) Si* (W,M) Si (M)
Continua Si (W,R,M) Si (W,M) Si (M)
Construccin del rbol:
Nmero de divisiones Ms de 2 Solo 2 Ms de 2
Criterio de Divisin Razn de Ganancia Indice Gini Chi-Cuadrado
Manejo de Valores Faltantes (VF):
Seleccin de divisores Con Penalizacin Con Penalizacin VF es otra categora
Envo instancias a nodos Fraccionamiento Sustitutos al nodo con VF si existe
Mtodos de Poda Error Pesimista Costo-Complejidad No
(*)Puede tratarse como continuo

Referencias

Avila, C. A. (1996), Una Alternativa al Anlisis de Segmentacin Basada en el Anlisis de Hiptesis de


Independencia Condicionada, PhD thesis, Universidad de Salamanca.
Breiman, L., Friedman, J., Olsen, R. & Stone, C. (1984), Classication and Regression Trees, Chapman
and Hall.
Castro, C. R. (2005), Contribuciones a la deteccin y anlisis de variables relevantes en tablas de contin-
gencia multivariante, PhD thesis, Universidad de Salamanca.
Dorado, A. (1998), Mtodos de Bsqueda de Variables Relevantes en Anlisis de Segmentacin: Aporta-
ciones desde una Perspectiva Multivariante, PhD thesis, Universidad de Salamanca.
Kass, G. V. (1980), `An exploratory technique for investigating large quantities of categorical data',
Applied Statistics 29(2), 119127.
Loh, W. Y. & Shih, Y. S. (1997), `Split selection methods for classication trees', Statistica Sinica 7, 815
840.
Quinlan, R. (1993), C 4.5: Programs for Machine Learning, Morgan Kaufman.
Wu, X., Kumar, V., Ross, Q. J., Ghosh, J., Yang, Q., Motoda, H. & Steinberg, D. (2008), `Top 10
algorithms in data mining', Knowledge and Information Systems 14, 137.

XXVI Simposio de Estadstica (2016)

You might also like