Utilidad Del Data Mining para El Análisis de Grandes Bases de Datos

Utilidad del Data Mining para el análisis de grandes bases de datos
Sebastián Andrés Simón Bastías Arancibia – sebastianb.hunter@gmail.com – Joaquín

Enrique Landskron Orellana – joacolandskron@yahoo.es – Maximiliano Alberto Larraín
Flores – netelarra@hotmail.com – Domus Mater, Coronel Santiago Bueras #401 – Fono:
63 2 260000
Resumen
El Data Mining es un proceso realizado por un software especializado en la

extracción de información a partir de amplias bases de datos y a su vez, es parte de un
proceso más extenso conocido como KDD (Knowlegde Discovery in Databases).
En este artículo se explicará que es el proceso de KDD y de Data Mining, y cómo

estos funcionan. De igual manera se comparará el Data Mining con los métodos clásicos
que poseen la misma finalidad que este, demostrando por qué el primero es más eficiente
para trabajar con grandes cantidades de información, describiendo también el proceso y
relacionándolo con los conceptos de estadística descriptiva e inferencial. Para todo esto
se seleccionó un destacado software de Data Mining, el cual fue analizado y descrito.
Además para comprobar la utilidad de este, se realizó una encuesta, y los resultados
obtenidos fueron comparados y evaluados mediante el ya mencionado programa.
Palabras Clave: Data Mining, KDD, base de datos, estadística descriptiva, estadística
inferencial, encuesta, software de Data Mining
Abstract
Data Mining is a process carried out by a software that extracts information from
wide data bases and is also a part of an even longer process known as KDD (Knowlegde
Discovery in Databases)
This paper will explain what the processes of KDD and Data Mining are, and how
they work. In the same way, the classic methods for extracting information from data
bases will be compared with the Data Mining, showing why the last one is more efficient
when working with large quantities of information, describing and relating it with the
concepts of descriptive and inferential statistics. For all this, an outstanding Data Mining
software was selected, which was analyzed and described. To prove the usefulness a poll
1
was made, and the results extracted from it were compared and evaluated using the
application.
Keywords: Data Mining, KDD, Data bases, descriptive statistics, inferential statistics, poll,
Data Mining software
Índice
1. Introducción 2
2. Antecedentes 3
3. Materiales y métodos 5
4. Resultados y análisis 6
4.1. Proceso de KDD 6
4.2. Software de Data Mining 8
4.3. Encuesta 9
5. Conclusiones 13
6. Referencias bibliográficas 14
7. Anexos 15
7.1. Anexo 1: Preguntas de la encuesta 15
7.2. Anexo 2: Gráficos obtenido de encuesta 16
7.3. Anexo 3: Software 27
1. Introducción
Una sociedad tan diversa y heterogénea como lo es la población humana, está

constantemente generando distintos datos -cantidades importantes de información- los
cuales pueden ir desde características físicas, psicológicas y sociales, hasta ideas,
preferencias o gustos personales, y además pueden tener múltiples usos para cualquier
institución interesada en la opinión de cierto grupo de personas. Sin embargo el
crecimiento exponencial que ha experimentado la población en las últimas décadas,
acompañado del aumento de la capacidad de almacenamiento por parte de los
dispositivos electrónicos, ha causado también, un significativo aumento de la información,
inutilizando los métodos clásicos para organizarla, ya que estos están pensados para
2
actuar sobre bases de datos menores en comparación con las que se obtienen hoy en
día.
Por otro lado, los múltiples avances obtenidos en el área de la informática en el

último tiempo, entregan las herramientas para poder desarrollar nuevos métodos de
organización de datos y extracción de información.
Es así como nace el sistema Data Mining o Minería de Datos, un método

perteneciente al proceso KDD (Knowledge Discovery in Databases) que consiste en
procesar los datos recopilados previamente, para ser organizados, cuantificados y
graficados por un software, y luego extraer la información útil a partir de estos resultados.
Dadas las anteriores observaciones, se puede plantear la siguiente pregunta de

investigación: ¿Cuál es la utilidad del Data Mining para analizar y organizar los grandes
volúmenes de información que lo hace superior a los antiguos métodos de estadística?
A modo de investigación se plantea el siguiente objetivo general, que será

demostrar la utilidad de la minería de datos en el análisis de grandes cantidades de
información. Para ello se investigará e identificará el funcionamiento y las utilidades del
sistema KDD en general, y de Data Mining en específico. Una vez realizado esto se
seleccionará y estudiará un software de data mining; luego se elaborará y llevará a cabo
una encuesta; finalmente los datos obtenidos mediante esta se analizarán y organizarán a
través de un programa especializado en data mining.
2. Antecedentes
Para llevar a cabo la investigación, primero se necesita comprender el significado

del concepto “base de datos”. Una base de datos es básicamente una recopilación o
colección de datos extraídos de un universo en estudio, mediante diversos métodos como
lo pueden ser encuestas, observaciones o técnicas estadísticas. En estos conjuntos de
datos existe cierta cantidad de información bruta, a la cual se puede acceder formando un
Sistema de Gestión de Bases de Datos (SGBD), lo que según Silberschatz, A et al. (2002)
consiste en “una colección de datos interrelacionados y un conjunto de programas para
acceder a dichos datos”. Entre estos programas se encontrarían por ejemplo, los ya
mencionados softwares de data mining.
Además, es necesario entender lo que son las estadísticas, y cómo funcionan.

Estadística se define como “Estudio de los datos cuantitativos de la población, de los
3
recursos naturales e industriales, del tráfico o de cualquier otra manifestación de las
sociedades humanas”. Otra definición que entrega es “Rama de la matemática que utiliza
grandes conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de
probabilidades”. Ambas definiciones serán acogidas para llevar a cabo la investigación.
(Diccionario RAE, 2014).
La estadística a su vez se divide en dos categorías: Estadística descriptiva y

estadística inferencial. La primera, surge en la Edad Media por la necesidad de mantener
registros gubernamentales y corresponde a un método para representar los datos
numéricos obtenidos previamente estudiando una población, como pueden ser los
obtenidos en un censo. En la Tabla 1 se observa un ejemplo de estadística descriptiva, y
en la Figura 1, una representación gráfica.
Tabla 1: Datos extraídos de los alumnos del electivo matemático 3º medio Domus-Mater 2016 (5 de mayo de
2016)
Estudiantes Electivo Matemático Edad

Sebastián Bastías 17
Daniel Díaz 17
Joaquín Landskron 15
Maximiliano Larraín 16
Lucas Matus 16
Ítalo Ramírez 16
Emilia Soto 16
Edades Alumnos Electivo Matemático

18
17 17
17
16 16 16 16
16
15
15
14
Sebastián Bastías Daniel Díaz Joaquín Maximiliano Lucas Matus Italo Ramírez Emilia Soto
Landskron Larraín
Figura 1: Representación gráfica de los datos de la Tabla 1 4

El segundo tipo de estadística, conocido como estadística inferencial, surge
cuando no es posible tener un registro de todos los datos de la población en estudio,
usualmente dado el tamaño de esta y el tiempo del que se dispone, por lo que se vuelve
necesario estudiar solamente un grupo representativo del total de datos, conocido como
muestra y a partir de los resultados obtenidos, realizar predicciones de cómo serán las
características de la población en su totalidad.
Cuando se da el caso de una base de datos demasiado grande y con múltiples

variables, se vuelve difícil representarlos mediante estadísticas tanto descriptivas como
inferenciales por medio de métodos estadísticos tradicionales, por lo cual es necesario
llevar a cabo los mismos procesos, organizando la información mediante métodos más
eficientes.
El modelo KDD, (Knowledge Discovery in Databases) es uno de estos métodos

mencionados, y es el primer modelo aceptado en la comunidad científica que estableció
las principales etapas de un proyecto de explotación de información. El modelo establece
que la minería de datos es la etapa dentro del proceso en el cual se realiza la extracción
de patrones a partir de datos, cabe destacar que este no es un proceso automático, es un
proceso iterativo que explora volúmenes muy grandes de datos para determinar
relaciones, el cual se divide en cinco fases que son: selección de datos, pre
procesamiento, transformación, Data mining e interpretación y evaluación.
Finalmente, el Data mining en sí, es un concepto tan extenso que no existe una
única definición de este, pero se puede decir que, como señala el autor J. M. Marín (2007-
2008) “se refiere a un conjunto de métodos estadísticos que proporcionan información
(correlaciones o patrones) cuando se dispone de muchos datos”. Su función es analizar
datos de diferentes perspectivas, la finalidad de todo esto es resumir estas cifras
obtenidas en segmentos de información útil. Con la minería de datos los usuarios pueden
analizar los resultados desde diferentes ángulos o dimensiones, categorizando y
resumiendo las relaciones identificadas.
3. Materiales y métodos
La metodología escogida para llevar a cabo la investigación será la búsqueda

bibliográfica, en conjunto con la experimentación, que se llevará a cabo mediante una
encuesta realizada al alumnado del colegio Domus-Mater, y luego un análisis de los datos
obtenidos aplicando el Data Mining.
5
Para llevar a cabo esto los materiales escogidos son el software “Orange Data
Mining” y los ensayos indicados en la bibliografía. Además se ocupó una herramienta
suministrada por Google, llamada Google Docs, que permite poder realizar la encuesta a
la muestra escogida, y se utilizaron los computadores de la sala de informática del colegio
Domus-Mater para que los encuestados puedan responder el cuestionario.
4. Resultados y Análisis
Gracias a la investigación y experimentación previamente realizada, se obtuvieron

diversos resultados con los cuales se puede alcanzar un mayor conocimiento del proceso
de KDD y el Data Mining en específico, además de un entendimiento más claro del uso de
este sobre bases de datos. A continuación, se exponen estos resultados y su respectivo
análisis.
4.1 Proceso de KDD
Luego de una investigación bibliográfica se determinó que, tal como fue

brevemente mencionado en la introducción y los antecedentes, la minería de datos no es
más que uno de los pasos para un proceso más grande conocido por sus siglas en ingles
como KDD (Knowledge Discovery in Databases), en español Descubrimiento de
Conocimiento en Base de datos, el cual surge para satisfacer la necesidad de poder
extraer información útil de las inmensas bases de datos existentes en la actualidad,
producto del crecimiento exponencial del número “N”, de objetos o individuos estudiados y
el número “d” de campos o atributos que puede poseer “N”. La importancia de realizar el
proceso completo es que, al trabajar directamente con un software de Data Mining sobre
cualquier base de datos, este puede encontrar relaciones que resultan insignificantes y,
en la mayoría de los casos, pueden perjudicar a la información que se obtenga finalmente.
Es por esta razón que antes de llevar a cabo cualquier minería de datos primero se debe
preparar la información, realizando previamente los primeros pasos del proceso de KDD,
los cuales son seleccionar apropiadamente la información requerida, luego procesarla y
finalmente transformarla. Es solo entonces, luego de haber realizado todos estos pasos,
que se puede utilizar el data mining, que aplica algoritmos sobre datos para establecer
vínculos y extraer posteriormente la información deseada interpretando las relaciones
existentes. En la Figura 2 se observa una representación del proceso completo.
6
Figura 2: Representación del proceso de KDD. Extraída el 11 de Junio de 2016 desde
http://mineriadatos1.blogspot.cl/2013/06/descubrimiento-del-conocimiento-kdd-el.htm
La etapa de selección es la fase del proceso en la que se decide cuál será la

información buscada y cuáles serán las fuentes utilizadas, para luego extraer de estas los
datos. Una vez realizado esto se pasa a la etapa de pre procesamiento, en la que se
preparan, limpian y ordenan los datos, para poder ser utilizados. Finalmente, antes de
poder comenzar con la minería de datos, se debe pasar por la fase de transformación, la
cual consiste en añadir variables a partir de las ya existentes, además de someter a la
base de datos a procesos de agregación (promover las relaciones a entidades), y
normalización (aplicación de ciertas reglas con el fin de evitar conflictos a la hora de
analizar los datos).
Una vez realizados todos estos procesos es cuando por fin se puede comenzar a
utilizar la minería de datos como tal sobre la base de datos estudiada. Este proceso en
general se encarga de buscar relaciones existentes entre los diversos datos recopilados,
todo esto con dos posibles fines relacionados directamente con la estadística: Describir
las entidades estudiadas y predecir ciertas características desconocidas en individuos
estudiados similares. Para poder establecer las mencionadas relaciones, los softwares de
data mining entregan diversas herramientas, las cuales pueden tener distintas utilidades
específicas, pero finalmente poseen tres objetivos generales: Representar la información
mediante modelos, evaluar los ya mencionados modelos y buscar relaciones entre los
datos.
7
4.2 Software Data Mining
Investigando más a fondo sobre la minería de datos se escogió un software

dedicado a esta, llamado “Orange Data Mining”, y se estudió su funcionamiento, el
programa ofrece sesenta y ocho herramientas o utilidades, estas se dividen en seis
categorías las cuales son: “Data”, “Visualize”, “Classify”, “Regression”, “Evaluate” y
“Unsupervised”.
La primera categoría, “Data”, es un medio para transcribir los datos desde la base
hasta el programa, ordenarlos y agruparlos de diferentes formas.
La segunda categoría es “Visualize”, sirve para representar gráficamente la

información extraída, facilitando así su organización y comprensión.
La tercera categoría es “Classify”, la cual se encarga de clasificar los algoritmos

que serán utilizados por el programa, para ordenar e interpretar los datos, y luego sacar
conjeturas a partir de estos. Algunos de los algoritmos ofrecidos son por ejemplo
determinar cuál es la moda o cuales son los puntos más cercanos en un gráfico. Esta está
ligada con las variables cualitativas, que el programa como discretas (representadas por
el programa con la letra “d”).
La cuarta categoría es “Regression”, la que define distintos métodos para predecir

valores numéricos. Esta está ligada a la interpretación de los datos que poseen variables
cuantitativas, que el programa interpreta como continúas (representadas por el programa
con la letra “c”).
La quinta categoría es “Evaluate”, sirve para evaluar e interpretar los datos una
vez ha sido sometido a los algoritmos escogidos gracias a las herramientas de las ya
mencionadas categorías Classify o Regression.
La sexta y última categoría es “Unsupervised”, es encargada de todos los

procesos relacionados con el aprendizaje no supervisado, en el que el software recibe los
datos, sin ningún conocimiento a priori, y también permite obtener datos para la categoría
Evaluate.
En general el software presenta una interfaz amigable a la vista, simple pero

eficaz, con variadas herramientas para poder desarrollar la minería en la base de datos de
forma más simple y didáctica, con apariencia personalizable. Si bien en un principio
8
cuesta dominarlo, una vez que se familiariza con el programa y sus herramientas, el data
mining puede ser realizado sin ningún problema.
Una vez la minería es llevada a cabo se puede proceder a realizar el último paso
del proceso KDD, el cual es la interpretación/evaluación de datos. Gracias a él se pueden
obtener descripciones o predicciones, dependiendo de cuál sea la finalidad de la
investigación.
El software escogido para realizar la investigación, no solamente se centra en el

data mining en sí, si no que entre todas las posibles herramientas, encontramos algunas
que permiten pre procesar, transformar e incluso evaluar los datos obtenidos.
4.3 Encuesta
Para poner a prueba el mencionado software se realizó una encuesta, eligiendo

como muestra a los alumnos de enseñanza media (7º Básico a 4º Medio) del colegio
Domus-Mater, Valdivia, para así obtener una base de datos lo suficientemente amplia
como para probarla con el software. Dicha encuesta se enfocó en la posición del
alumnado respecto a su colegio, realizando un total de veintidós preguntas, a una muestra
“N” de doscientos cuarenta y un individuos. Las preguntas realizadas se pueden ver en el
Anexo 1.
Todas las preguntas eran de opción múltiple y las que referían a calificar con nota,
eran de uno a diez, siendo uno la nota mínima y diez la nota máxima. Las preguntas
fueron diseñadas de forma que arrojarían variables cualitativas (que no pueden ser
clasificadas como valores numéricos) y variables cuantitativas (que puede tomar diversos
valores numéricos). Como fue mencionado con anterioridad, el programa interpretará las
variables cualitativas como discretas (que solo acepta valores dentro del conjunto
específico), y a las cuantitativas como continuas (que pueden tomar cualquier valor fijo
dentro de un determinado intervalo). Elegir las preguntas, y la muestra para la encuesta,
corresponde al primer paso de KDD, seleccionar.
Finalmente la encuesta fue aplicada a doscientas cuarenta y un personas, cada

una de las cuales contestó las veintidós preguntas, generando un total de cinco mil
trescientas dos respuestas que, en su totalidad, constituyen a la información bruta
extraída de la base de datos, y al analizarlos mediante la estadística descriptiva se
obtienen variados resultados acorde a lo solicitado por cada pregunta, como por ejemplo:
9
La asignatura con el profesor mejor evaluado es inglés, con un 95% de aprobación
(entendiendo aprobación como notas de seis a diez), seguido por la asignatura de Física,
cuya aprobación es de 91,3% sin considerar a los alumnos quienes no tienen este ramo;
la asignatura con el profesor peor evaluado es Música con un 43,8% de aprobación,
seguido por el ramo de química con 66,6% de aprobación, restando en ambos casos a los
alumnos que no tienen esta asignatura; la aprobación con respecto a la medida de
privatización del establecimiento es de 18,3%, mientras que la desaprobación alcanza
61,4%, el porcentaje restante corresponde a los alumnos desinformados o sin interés en
el tema; la infraestructura obtuvo una aprobación de 59,3%; la dirección del colegio
(equipo administrativo) fue aprobado por un 51,7% del total de los participantes; el 79,7%
de los encuestados respondió con nota sobre cinco a la pregunta “¿Qué tan a gusto te
sientes en tu colegio?”; y el área con más adeptos es el área científica, con un 42,3% de
la muestra, seguido por el 30,7% obtenido por el área humanista. El total de las
respuestas, en forma de gráficos puede ser encontrado en el anexo 2.
Una vez realizada la encuesta, graficados y ordenados los datos mediante la

herramienta de Google, “Google Docs”, se procedió a realizar una limpieza de los datos,
para que no generen conflicto una vez ingresado al programa. Esto correspondería a la
segunda fase de KDD, pre procesamiento.
El tercer paso del KDD, la transformación, fue realizado una vez se ingresaron los
datos en el software, utilizando algunas de las herramientas que este brinda en su
apartado “Data”.
Una vez comenzado el data mining, se intentó utilizar el mayor número de

herramientas posibles, probando con todas las categorías, para obtener una mejor
apreciación de las utilidades de la minería de datos y del programa en general. En el
anexo 3 se observa una captura de pantalla que muestra las herramientas utilizadas en el
software Orange Data Mining.
En la imagen se observa que todo parte desde la base de datos, para luego
ramificarse en distintas herramientas. Una de estas es “Data Table” que pertenece a la
categoría mencionada con anterioridad “Data”. La función de esta herramienta es mostrar
de manera organizada los datos entregados por la Base. Otra ramificación de la Base de
Datos es “Distributions” esta pertenece al conjunto “Visualize” y representa gráficamente
la información otorgada, comparando distintas variables. La siguiente herramienta es
10
“Distances” perteneciente a la categoría “Unsupervised” y su utilidad es medir las
distancias grafica entre dos o más puntos de información. El tipo de distancia escogida
para este trabajo es la distancia Euclidiana, la cual está dada por la siguiente ecuación:
𝐷𝑒 = √∑𝑛𝑖=1(𝑝𝑖 − 𝑞𝑖 )2
En base a esto, se agrupan jerárquicamente los datos y estos pueden ser

visualizados a través de la herramienta “Hierarchical Clustering” perteneciente a la misma
categoría del anterior, y en la que se pueden seleccionar los datos según su grupo, para
luego ser representados gráficamente mediante “Scatter Plot”, que pertenece a la
categoría “Visualize”.
Las dos ramificaciones restantes corresponden a la herramienta “Select Columns”,

que pertenecen al conjunto “Data” y ayudan a pre procesar la información, permitiendo
definir cuál será la variable objetivo de la investigación, entonces se decidió que una iba a
tener por variable objetivo la variable discreta “opinión respecto a la privatización del
establecimiento” y otra tendría la variable continua “Bienestar”. La primera se conectó a
cuatro herramientas de la categoría “Classify” y la segunda se conectó con cuatro
herramientas igualmente, pero pertenecientes a “Regression”. La más destacable de la
primera ramificación es “Classification Tree”, la cual genera un mapa conceptual con los
datos entregados por la variable discreta, luego este se puede visualizar a través de
“Classification Tree Viewer”. Así mismo con las variables continuas se puede generar un
árbol de conceptos con la utilidad “Regression Tree” y de forma similar al caso anterior,
este se podrá visualizar a través de “Regression Tree Viewer”. Finalmente, todas estas
ramificaciones (tanto las de Classify como las de Regression) convergen en una
herramienta llamada “Predictions”, perteneciente a “Evaluate”, esta es la que finalmente
generara predicciones a través de distintos algoritmos entregados por las utilidades
mencionadas con anterioridad. Para estudiar apropiadamente cómo funciona la
herramienta de predicciones, se crearon dos bases de datos con información aleatoria,
omitiendo los datos de las variables objetivo (bienestar y privatización) y conectándolas a
esta para ver qué información logra inferir el programa a partir de los datos que ya se
tienen, observando las discrepancias existentes entre los distintos algoritmos.
Gracias a las herramientas utilizadas se pudo extraer más información de la que

se obtuvo directamente de la encuesta. “Distribution” fue en general la que resultó más
útil, ya que además de ser la de uso más simple, genera relaciones entre distintas
11
variables y a su vez las gráfica, permitiendo de esta manera llegar a la fase de evaluación
del KDD de una manera sencilla, aunque en este caso es necesario que el individuo
utilizando el programa realice por su cuenta este último proceso, en lugar de permitir que
lo haga el software.
La herramienta “Predictions” al juntarla con los algoritmos arrojó diversos

resultados, por ejemplo, la privatización del establecimiento: Al juntar esta con “Majority”,
señaló que la mayoría de la gente estaría en desacuerdo con esta medida, sin embargo,
al juntarla con “Classification tree”, que demostró mayor exactitud, predijo que de hecho,
habría un 10% de la muestra que estaría de acuerdo con la medida, un 40% que estaría
en contra y un 50% que no estaría informado, o no le interesa el tema. Esta discrepancia
se sigue repitiendo con los algoritmos ocupados, y ninguno coincide totalmente con los
otros en sus predicciones.
Un caso similar se dio al juntar los algoritmos de la categoría “Regression” con las
predicciones que toman como variable objetiva el bienestar dentro del establecimiento
(variable continua), con la diferencia de que en estos, al tratarse de valores numéricos, no
se dio virtualmente ninguna similitud entre los resultados.
Mediante todos estos métodos suministrados por el software, se descubrieron

ciertas relaciones que van más allá de lo entregado previamente por la estadística
descriptiva y, además, dado que sería muy complicado aplicar la estadística inferencial a
una base de datos tan grande, este también permitió extraer predicciones.
Algunas de las relaciones finalmente encontradas son por ejemplo: La mayoría de

los profesores tienen mayor aceptación por parte de las personas que señalan como su
área preferida las ciencias (el área más popular), salvo por historia y religión/psicología,
donde predominan los humanistas; los estudiantes que señalaron que no tienen confianza
con los docentes tienden a ser los que poseen un peor grado de bienestar en el colegio,
además de ser los que peor califican a estos; en la mayoría de los casos, los alumnos con
promedio general de notas entre 6,0 y 6,5 son los que mejor califican a sus profesores,
mientras que los con promedio entre 5,5 y 6,0, seguidos por los con promedio entre 5,0 y
5,5 y los que desconocen sus notas, son los que tienden a calificar peor; una gran
mayoría de los alumnos que desaprueban la privatización del instituto estudian en el
colegio desde 1º Básico; los que están de acuerdo o están desinformados al respecto de
la medida, tienden a calificar mejor a la infraestructura y a la dirección del establecimiento.
12
Las demás herramientas no fueron de mayor utilidad, ya que en general gracias a
estas se pueden obtener datos similares a los obtenidos mediante las ya utilizadas, y solo
ayudan más bien a clasificar y representar estos datos de distintas formas a las ya vistas.
Uno de los principales problemas con el programa fue conectar las herramientas
algorítmicas con las predicciones, ya que existieron muchos conflictos no especificados
por el sistema, que evitaron que se pueda utilizar esta utilidad de la manera requerida.
Para solucionar esto se procedió a realizar nuevamente el pre procesamiento y las
transformaciones de los datos. Otras dificultades menores se presentaron dados los
problemas de compatibilidad existentes entre ciertas herramientas con las variables.
5. Conclusiones
A raíz de lo anteriormente expuesto, tanto la minería de datos como el KDD,

resultan útiles para trabajar con grandes bases de datos, ya que entregan relaciones no
tan evidentes entre la información que se tiene, y en general sirve para aplicar los
métodos de estadística, tanto descriptiva como inferencial, permitiendo que diferentes
instituciones que tienen interés en grandes conjuntos de información, como empresas,
gobiernos o colegios, puedan estudiar los comportamientos de grandes grupos
poblacionales. Esto es porque con métodos tradicionales de estadística, llevar a cabo los
mismos procedimientos resultaría menos preciso y en general sería mucho más lento,
mientras que gracias a las herramientas suministradas por los distintos softwares de Data
Mining y KDD, es posible optimizar el tiempo y facilitar el trabajo.
Hoy en día existen un sin número de softwares destinados a la minería de datos,

algunos de pago y otros completamente gratuitos, que en general han estado trabajando
para mejorar la eficiencia de sus programas, además de tratar de simplificar su utilización
para que un mayor número de personas puedan acceder fácilmente a esta herramienta.
Es por esto mismo que las distribuidoras de softwares han buscado distintos métodos
para explicar el funcionamiento de sus productos a los usuarios, como por ejemplo
publicando tutoriales o instructivos mediante los medios de difusión masiva.
Sin embargo, el data mining es aún un proceso bastante nuevo, que no ha sido
mejorado y explorado en su totalidad, y que en un futuro podría ser una herramienta más
versátil, y más accesible para un público mayoritario.
13
Otro detalle a mencionar es el hecho de que, la variedad de herramientas
existentes en los softwares de minería de datos entregan un gran abanico de
posibilidades para que distintos tipos de relaciones sean encontradas, sin embargo, es
poco probable que en una sola base de datos se vayan a requerir todas las utilidades, por
lo que es importante antes de comenzar tener claros los objetivos a conseguir, y tener
cierto dominio sobre el programa.
En respuesta a la pregunta de investigación planteada en este artículo, que

convierte a la minería de datos en un método superior a los métodos estadísticos clásicos,
es en particular que al ser parte del proceso de KDD, permite extraer información más
completa y además, de manera más rápida y eficaz, ya que al trabajar con métodos
estadísticos tradicionales en bases de datos de gran envergadura, esto se convierte en
una tarea tediosa, y en muchos casos, imposible de llevar a cabo en el tiempo requerido.
En general se puede decir que, la tecnología del mundo digital, no solo ha permitido
almacenar mayor cantidad de datos, sino que, gracias al Data Mining, también ha
permitido procesar estos para encontrar nuevas relaciones que de otra forma
permanecerían desapercibidas.
Finalmente, los softwares de data mining, junto con la tecnología, han mejorado a
través de los años, incorporando además los otros pasos del proceso de KDD, sin
embargo aún hace falta perfeccionar el proceso, para que todo el mundo pueda tener
acceso a esta herramienta que, de ser utilizada apropiadamente, puede abrir nuevas
posibilidades a muchas personas o instituciones a la hora de tomar decisiones dadas las
grandes bases de datos existentes en el mundo de hoy.
6. Referencias bibliográficas
De la Horra, J. (s/f) “Estadística descriptiva: Una variable” Departamento de matemáticas
U.A.M
Fayyad, U. Et al. (1997) “From Data Mining to Knowledge Discovery in Databases”.

Providence, Rhode Island, Estados Unidos: AI Magazine
García, H.; Matus, J (s/f) “Estadística descriptiva e inferencial I” Colegio de Bachilleres.

Grahramani, Z. (2004) “Unsupervied Learning” Londres, GB: Gatsby Computational
Neuroscience Unit
14
Marín, J (2007-2008) “Introducción al Data Mining” Extraído el 09 de Mayo de 2016 desde
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/DM/introduccion-DM.pdf
Mendehall, Beaver, Beaver (2010) “Introducción a la probabilidad y estadística” Cencage

Learning.
Moine, J; Haedo, A; Gordillo, S (s/f) “Estudio comparativo de metodologías para minería
de datos” UTN Rosario; Universidad Nacional de Buenos Aires; Universidad Nacional de
la Plata
Real Academia Española (2014) “Diccionario de la lengua española”. Madrid, España;
Extraído el 04 de Mayo de 2016 desde http://dle.rae.es/?id=GjpDTiC)
Silberschatz A. Et al. (2002) “Fundamentos de Bases de Datos. Cuarta Edición”. Madrid,
España: McGraw-Hill/ Interamericana de España, S.A.U.
WebMining Consultores (2011) “KDD: Proceso de Extracción de Conocimiento”

Recuperado de http://www.webmining.cl/2011/01/proceso-de-extraccion-de-conocimiento/
7. Anexos
7.1 Anexo 1: Preguntas de la encuesta
¿En qué curso estás?
¿Qué nota le pones a tu profesor/a de matemáticas?
¿Qué nota le pones a tu profesor/a de lenguaje y comunicación?
¿Qué nota le pones a tu profesor/a de biología o ciencias naturales?
¿Qué nota le pones a tu profesor/a de historia, geografía y ciencias sociales?
¿Qué nota le pones a tu profesor/a de inglés?
¿Qué nota le pones a tu profesor/a de física?
¿Qué nota le pones a tu profesor/a de química?
¿Qué nota le pones a tu profesor/a de música?
¿Qué nota le pones a tu profesor/a de artes visuales?
¿Qué nota le pones a tu profesor/a de educación física?
¿Qué nota le pones a tu profesor/a de religión/psicología/filosofía?
15
¿Siente usted que tiene confianza con sus profesores en general?
¿Qué área de estudios te gusta más?
¿Cuál es tu promedio general al momento de contestar esta encuesta?
¿En qué área de estudios te va mejor?
¿En qué curso llegaste al colegio?
¿Has repetido alguna vez?
¿Qué nota le pones a la infraestructura del colegio?
¿Estás de acuerdo con la privatización del colegio?
¿Qué nota le pones a la dirección (Equipo administrativo) del colegio?
¿Del uno al diez, qué tan a gusto te sientes en tu colegio?
7.2 Anexo 2: Gráficos obtenidos de encuesta
Encuestados por curso
4º Medio 7º Básico A
14% 11%
7º Básico A
7º Básico B 7º Básico B
11%
3º Medio 8º Básico A
13%
8º Básico B
8º Básico A 1º Medio
11%
2º Medio
2º Medio
13% 3º Medio
8º Básico B 4º Medio
13%
1º Medio
14%
16
Notas Profesor de Matemáticas
1
6% 2 1
9 2% 3
19% 4% 4 2
5%
3
5 4
11% 5
6
7
8
6
25% 8
12%
9
7 10
16%
Notas profesor/a de Lenguaje

1 23 4
3%1%
0%
2% 5 1
10 6%
2
24% 6
3
4
7 5
13% 6
7
8
9
23% 9
8
21% 10
17
¿Qué nota le pones a tu profesor/a de Biología o
Ciencias Naturales?
2 3
1% 3%
1
1
4% 4 2
5%
10 5 3
33% 7%
4
6 5
7%
6
7
7% 7
8
9 8
18% 15% 9
10
¿Qué nota le pones a tu profesor/a de Inglés?

1 24 3
1% 1%0% 0%
5 1
6
3%
4% 7 2
8% 3
4
10 8
50% 11% 5
6
7
8
9
22% 9
10
18
¿Qué nota le pones a tu profesor/a de Historia,
Geografía y Ciencias Sociales?
1 2 3
3% 3% 2% 4
2% 5 1
4% 2
6 3
10
5%
32%
4
7 5
9%
6
7
8 8
9 20%
20% 9
10
19
¿Qué nota le pones a tu profesor/a de Artes Visuales?
No tengo
10 1
17% No tengo 1
2
21% 0%
2 3
3
0% 2% 4
9 4
15% 5
5 2%
4% 6
6 7
9%
8
8 7
20% 10% 9
10
¿Qué nota le pones a tu profesor/a de Física?
No Tengo
10 1
16%
9 2
5% 3
4
8 5
10%
No Tengo 6
57%
7 7
7%
6 8
2%
9
5
0% 4 10
3 2 1
1% 0% 1% 1%
20
¿Qué nota le pones a tu profesor/a de Química?
No tengo
10
7% 1
9
10% 2
8 3
6%
No tengo 4
44% 5
7
10% 6
6 7
5% 8
5
10% 4 9
3%
10
3 2 1
1% 2% 2%
¿Qué nota le pones a tu profesor/a de Música?
No tengo
9 10
1
8 4% 4%
No tengo 2
8%
19%
3
7
10% 4
1 5
15% 6
6
9% 7
2
5 8
3 5%
12% 4 9
7%
7%
10
21
¿Qué nota le pones a tu profesor/a de Educación
Física?
1 2 3
4
3%0% 0% 5
2% 1
4%
2
6
5% 3
10 7 4
41% 10%
5
6
8 7
18%
8
9 9
17%
10
¿Qué nota le pones a tu profesor/a de

Religión/Psicología/Filosofía?
No tengo
9 1
10
2%
12% 2
8 3
7%
4
7 5
7%
No tengo 6
6 58%
5
5% 7
2%
4 8
3% 3
9
1% 2 1
1% 10
2%
22
¿Siente usted que tiene confianza con sus profesores
en general?
No
26%
Si
No
Si
74%
¿Qué área de estudios te gusta más?
Humanista
(Lenguaje
Matemático Matemático (Matemáticas y Física)
eHistoria,
(Matemáticas y
Geografía y
Física)
Ciencias Sociales)
27% Científico (Biología/ Ciencias
31%
Naturales y Química)
Científico (Biología/ Humanista (Lenguaje eHistoria,

Ciencias Geografía y Ciencias Sociales)
42%
23
¿Cuál es tu promedio general a momento de
contestar esta encuesta?
Menos de 4,0
1%
Entre 4,0 y 5,0
No lo sé
Sobre 6,5 5% No lo sé
9%
13%
Menos de 4,0
Entre 4,0 y 5,0
Entre 6,0 y 6,5 Entre 5,0 y 5,5 Entre 5,0 y 5,5

27% 20%
Entre 5,5 y 6,0
Entre 6,0 y 6,5
Sobre 6,5
Entre 5,5 y 6,0
25%
¿En qué área de estudios te va mejor?
Humanista Matemático
(Lenguaje e (Matemáticas y Matemático (Matemáticas y Física)
Historia, Física)
Geografía y 31% Científico (Biología/Ciencias
Ciencias Sociales) Naturales y Química)
35%
Humanista (Lenguaje e Historia,
Científico Geografía y Ciencias Sociales)
(Biología/Ciencias
34%
24
¿En qué curso llegaste al colegio?
3ºMedio
1º Medio 2º Medio 4º Medio
6% 1%
4% 1% 1º Básico
2º Básico
8º Básico
6% 3º Básico
4º Básico
7º Básico 5º Básico
1º Básico
6%
39% 6º Básico
7º Básico
6º Básico
11% 8º Básico
1º Medio
5º Básico
8% 2º Básico 2º Medio
10% 3º Medio
4º Básico 3º Básico 4º Medio
4% 4%
¿Has repetido alguna vez?
No
10%
Si
No
Si
90%
25
¿Qué nota le pones a la infraestructura del colegio?
2
2%
10 1 1
9
5% 4% 5% 3 2
7%
8 3
15% 4
4
11%
5
6
7 5 7
16% 16% 8
9
6
19% 10
¿Estas de acuerdo con la privatización del colegio?
Si
No me importa / No 18%
estoy informado
Si
20%
No
No me importa / No estoy
informado
No
62%
26
¿Qué nota le pones a la dirección del colegio?
No me importa / No No me importa / No estoy

10 estoy informado informado
9 15%
5% 1
6%
8
8%
2
1
10%
7 3
14% 2
4% 4
3
5%
6 4 5
11% 7%
5
15% 6
7.3 Anexo 3: Software
27

Utilidad Del Data Mining para El Análisis de Grandes Bases de Datos

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Utilidad Del Data Mining para El Análisis de Grandes Bases de Datos

Uploaded by

Copyright:

Available Formats

Utilidad del Data Mining para el análisis de grandes bases de datos

Sebastián Andrés Simón Bastías Arancibia – sebastianb.hunter@gmail.com – Joaquín

El Data Mining es un proceso realizado por un software especializado en la

En este artículo se explicará que es el proceso de KDD y de Data Mining, y cómo

Una sociedad tan diversa y heterogénea como lo es la población humana, está

Por otro lado, los múltiples avances obtenidos en el área de la informática en el

Es así como nace el sistema Data Mining o Minería de Datos, un método

Dadas las anteriores observaciones, se puede plantear la siguiente pregunta de

A modo de investigación se plantea el siguiente objetivo general, que será

Para llevar a cabo la investigación, primero se necesita comprender el significado

Además, es necesario entender lo que son las estadísticas, y cómo funcionan.

La estadística a su vez se divide en dos categorías: Estadística descriptiva y

Estudiantes Electivo Matemático Edad

Edades Alumnos Electivo Matemático

Figura 1: Representación gráfica de los datos de la Tabla 1 4

Cuando se da el caso de una base de datos demasiado grande y con múltiples

El modelo KDD, (Knowledge Discovery in Databases) es uno de estos métodos

La metodología escogida para llevar a cabo la investigación será la búsqueda

Gracias a la investigación y experimentación previamente realizada, se obtuvieron

4.1 Proceso de KDD

Luego de una investigación bibliográfica se determinó que, tal como fue

La etapa de selección es la fase del proceso en la que se decide cuál será la

Investigando más a fondo sobre la minería de datos se escogió un software

La segunda categoría es “Visualize”, sirve para representar gráficamente la

La tercera categoría es “Classify”, la cual se encarga de clasificar los algoritmos

La cuarta categoría es “Regression”, la que define distintos métodos para predecir

La sexta y última categoría es “Unsupervised”, es encargada de todos los

En general el software presenta una interfaz amigable a la vista, simple pero

El software escogido para realizar la investigación, no solamente se centra en el

Para poner a prueba el mencionado software se realizó una encuesta, eligiendo

Finalmente la encuesta fue aplicada a doscientas cuarenta y un personas, cada

Una vez realizada la encuesta, graficados y ordenados los datos mediante la

Una vez comenzado el data mining, se intentó utilizar el mayor número de

En base a esto, se agrupan jerárquicamente los datos y estos pueden ser

Las dos ramificaciones restantes corresponden a la herramienta “Select Columns”,

Gracias a las herramientas utilizadas se pudo extraer más información de la que

La herramienta “Predictions” al juntarla con los algoritmos arrojó diversos

Mediante todos estos métodos suministrados por el software, se descubrieron

Algunas de las relaciones finalmente encontradas son por ejemplo: La mayoría de

A raíz de lo anteriormente expuesto, tanto la minería de datos como el KDD,

Hoy en día existen un sin número de softwares destinados a la minería de datos,

En respuesta a la pregunta de investigación planteada en este artículo, que

Fayyad, U. Et al. (1997) “From Data Mining to Knowledge Discovery in Databases”.

García, H.; Matus, J (s/f) “Estadística descriptiva e inferencial I” Colegio de Bachilleres.

Mendehall, Beaver, Beaver (2010) “Introducción a la probabilidad y estadística” Cencage

WebMining Consultores (2011) “KDD: Proceso de Extracción de Conocimiento”

7.1 Anexo 1: Preguntas de la encuesta

¿En qué curso estás?

¿Qué nota le pones a tu profesor/a de matemáticas?

¿Qué nota le pones a tu profesor/a de lenguaje y comunicación?

¿Qué nota le pones a tu profesor/a de biología o ciencias naturales?

¿Qué nota le pones a tu profesor/a de historia, geografía y ciencias sociales?

¿Qué nota le pones a tu profesor/a de inglés?

¿Qué nota le pones a tu profesor/a de física?

¿Qué nota le pones a tu profesor/a de química?

¿Qué nota le pones a tu profesor/a de música?

¿Qué nota le pones a tu profesor/a de artes visuales?

¿Qué nota le pones a tu profesor/a de educación física?

¿Qué nota le pones a tu profesor/a de religión/psicología/filosofía?

¿Qué área de estudios te gusta más?

¿Cuál es tu promedio general al momento de contestar esta encuesta?

¿En qué área de estudios te va mejor?

¿En qué curso llegaste al colegio?