Professional Documents
Culture Documents
Resumen
Palabras Clave: Data Mining, KDD, base de datos, estadística descriptiva, estadística
inferencial, encuesta, software de Data Mining
Abstract
Data Mining is a process carried out by a software that extracts information from
wide data bases and is also a part of an even longer process known as KDD (Knowlegde
Discovery in Databases)
This paper will explain what the processes of KDD and Data Mining are, and how
they work. In the same way, the classic methods for extracting information from data
bases will be compared with the Data Mining, showing why the last one is more efficient
when working with large quantities of information, describing and relating it with the
concepts of descriptive and inferential statistics. For all this, an outstanding Data Mining
software was selected, which was analyzed and described. To prove the usefulness a poll
1
was made, and the results extracted from it were compared and evaluated using the
application.
Keywords: Data Mining, KDD, Data bases, descriptive statistics, inferential statistics, poll,
Data Mining software
Índice
1. Introducción 2
2. Antecedentes 3
3. Materiales y métodos 5
4. Resultados y análisis 6
4.1. Proceso de KDD 6
4.2. Software de Data Mining 8
4.3. Encuesta 9
5. Conclusiones 13
6. Referencias bibliográficas 14
7. Anexos 15
7.1. Anexo 1: Preguntas de la encuesta 15
7.2. Anexo 2: Gráficos obtenido de encuesta 16
7.3. Anexo 3: Software 27
1. Introducción
2
actuar sobre bases de datos menores en comparación con las que se obtienen hoy en
día.
2. Antecedentes
3
recursos naturales e industriales, del tráfico o de cualquier otra manifestación de las
sociedades humanas”. Otra definición que entrega es “Rama de la matemática que utiliza
grandes conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de
probabilidades”. Ambas definiciones serán acogidas para llevar a cabo la investigación.
(Diccionario RAE, 2014).
Tabla 1: Datos extraídos de los alumnos del electivo matemático 3º medio Domus-Mater 2016 (5 de mayo de
2016)
17 17
17
16 16 16 16
16
15
15
14
Sebastián Bastías Daniel Díaz Joaquín Maximiliano Lucas Matus Italo Ramírez Emilia Soto
Landskron Larraín
Finalmente, el Data mining en sí, es un concepto tan extenso que no existe una
única definición de este, pero se puede decir que, como señala el autor J. M. Marín (2007-
2008) “se refiere a un conjunto de métodos estadísticos que proporcionan información
(correlaciones o patrones) cuando se dispone de muchos datos”. Su función es analizar
datos de diferentes perspectivas, la finalidad de todo esto es resumir estas cifras
obtenidas en segmentos de información útil. Con la minería de datos los usuarios pueden
analizar los resultados desde diferentes ángulos o dimensiones, categorizando y
resumiendo las relaciones identificadas.
3. Materiales y métodos
5
Para llevar a cabo esto los materiales escogidos son el software “Orange Data
Mining” y los ensayos indicados en la bibliografía. Además se ocupó una herramienta
suministrada por Google, llamada Google Docs, que permite poder realizar la encuesta a
la muestra escogida, y se utilizaron los computadores de la sala de informática del colegio
Domus-Mater para que los encuestados puedan responder el cuestionario.
4. Resultados y Análisis
6
Figura 2: Representación del proceso de KDD. Extraída el 11 de Junio de 2016 desde
http://mineriadatos1.blogspot.cl/2013/06/descubrimiento-del-conocimiento-kdd-el.htm
Una vez realizados todos estos procesos es cuando por fin se puede comenzar a
utilizar la minería de datos como tal sobre la base de datos estudiada. Este proceso en
general se encarga de buscar relaciones existentes entre los diversos datos recopilados,
todo esto con dos posibles fines relacionados directamente con la estadística: Describir
las entidades estudiadas y predecir ciertas características desconocidas en individuos
estudiados similares. Para poder establecer las mencionadas relaciones, los softwares de
data mining entregan diversas herramientas, las cuales pueden tener distintas utilidades
específicas, pero finalmente poseen tres objetivos generales: Representar la información
mediante modelos, evaluar los ya mencionados modelos y buscar relaciones entre los
datos.
7
4.2 Software Data Mining
La primera categoría, “Data”, es un medio para transcribir los datos desde la base
hasta el programa, ordenarlos y agruparlos de diferentes formas.
La quinta categoría es “Evaluate”, sirve para evaluar e interpretar los datos una
vez ha sido sometido a los algoritmos escogidos gracias a las herramientas de las ya
mencionadas categorías Classify o Regression.
8
cuesta dominarlo, una vez que se familiariza con el programa y sus herramientas, el data
mining puede ser realizado sin ningún problema.
Una vez la minería es llevada a cabo se puede proceder a realizar el último paso
del proceso KDD, el cual es la interpretación/evaluación de datos. Gracias a él se pueden
obtener descripciones o predicciones, dependiendo de cuál sea la finalidad de la
investigación.
4.3 Encuesta
Todas las preguntas eran de opción múltiple y las que referían a calificar con nota,
eran de uno a diez, siendo uno la nota mínima y diez la nota máxima. Las preguntas
fueron diseñadas de forma que arrojarían variables cualitativas (que no pueden ser
clasificadas como valores numéricos) y variables cuantitativas (que puede tomar diversos
valores numéricos). Como fue mencionado con anterioridad, el programa interpretará las
variables cualitativas como discretas (que solo acepta valores dentro del conjunto
específico), y a las cuantitativas como continuas (que pueden tomar cualquier valor fijo
dentro de un determinado intervalo). Elegir las preguntas, y la muestra para la encuesta,
corresponde al primer paso de KDD, seleccionar.
9
La asignatura con el profesor mejor evaluado es inglés, con un 95% de aprobación
(entendiendo aprobación como notas de seis a diez), seguido por la asignatura de Física,
cuya aprobación es de 91,3% sin considerar a los alumnos quienes no tienen este ramo;
la asignatura con el profesor peor evaluado es Música con un 43,8% de aprobación,
seguido por el ramo de química con 66,6% de aprobación, restando en ambos casos a los
alumnos que no tienen esta asignatura; la aprobación con respecto a la medida de
privatización del establecimiento es de 18,3%, mientras que la desaprobación alcanza
61,4%, el porcentaje restante corresponde a los alumnos desinformados o sin interés en
el tema; la infraestructura obtuvo una aprobación de 59,3%; la dirección del colegio
(equipo administrativo) fue aprobado por un 51,7% del total de los participantes; el 79,7%
de los encuestados respondió con nota sobre cinco a la pregunta “¿Qué tan a gusto te
sientes en tu colegio?”; y el área con más adeptos es el área científica, con un 42,3% de
la muestra, seguido por el 30,7% obtenido por el área humanista. El total de las
respuestas, en forma de gráficos puede ser encontrado en el anexo 2.
El tercer paso del KDD, la transformación, fue realizado una vez se ingresaron los
datos en el software, utilizando algunas de las herramientas que este brinda en su
apartado “Data”.
En la imagen se observa que todo parte desde la base de datos, para luego
ramificarse en distintas herramientas. Una de estas es “Data Table” que pertenece a la
categoría mencionada con anterioridad “Data”. La función de esta herramienta es mostrar
de manera organizada los datos entregados por la Base. Otra ramificación de la Base de
Datos es “Distributions” esta pertenece al conjunto “Visualize” y representa gráficamente
la información otorgada, comparando distintas variables. La siguiente herramienta es
10
“Distances” perteneciente a la categoría “Unsupervised” y su utilidad es medir las
distancias grafica entre dos o más puntos de información. El tipo de distancia escogida
para este trabajo es la distancia Euclidiana, la cual está dada por la siguiente ecuación:
𝐷𝑒 = √∑𝑛𝑖=1(𝑝𝑖 − 𝑞𝑖 )2
11
variables y a su vez las gráfica, permitiendo de esta manera llegar a la fase de evaluación
del KDD de una manera sencilla, aunque en este caso es necesario que el individuo
utilizando el programa realice por su cuenta este último proceso, en lugar de permitir que
lo haga el software.
Un caso similar se dio al juntar los algoritmos de la categoría “Regression” con las
predicciones que toman como variable objetiva el bienestar dentro del establecimiento
(variable continua), con la diferencia de que en estos, al tratarse de valores numéricos, no
se dio virtualmente ninguna similitud entre los resultados.
12
Las demás herramientas no fueron de mayor utilidad, ya que en general gracias a
estas se pueden obtener datos similares a los obtenidos mediante las ya utilizadas, y solo
ayudan más bien a clasificar y representar estos datos de distintas formas a las ya vistas.
Uno de los principales problemas con el programa fue conectar las herramientas
algorítmicas con las predicciones, ya que existieron muchos conflictos no especificados
por el sistema, que evitaron que se pueda utilizar esta utilidad de la manera requerida.
Para solucionar esto se procedió a realizar nuevamente el pre procesamiento y las
transformaciones de los datos. Otras dificultades menores se presentaron dados los
problemas de compatibilidad existentes entre ciertas herramientas con las variables.
5. Conclusiones
Sin embargo, el data mining es aún un proceso bastante nuevo, que no ha sido
mejorado y explorado en su totalidad, y que en un futuro podría ser una herramienta más
versátil, y más accesible para un público mayoritario.
13
Otro detalle a mencionar es el hecho de que, la variedad de herramientas
existentes en los softwares de minería de datos entregan un gran abanico de
posibilidades para que distintos tipos de relaciones sean encontradas, sin embargo, es
poco probable que en una sola base de datos se vayan a requerir todas las utilidades, por
lo que es importante antes de comenzar tener claros los objetivos a conseguir, y tener
cierto dominio sobre el programa.
Finalmente, los softwares de data mining, junto con la tecnología, han mejorado a
través de los años, incorporando además los otros pasos del proceso de KDD, sin
embargo aún hace falta perfeccionar el proceso, para que todo el mundo pueda tener
acceso a esta herramienta que, de ser utilizada apropiadamente, puede abrir nuevas
posibilidades a muchas personas o instituciones a la hora de tomar decisiones dadas las
grandes bases de datos existentes en el mundo de hoy.
6. Referencias bibliográficas
De la Horra, J. (s/f) “Estadística descriptiva: Una variable” Departamento de matemáticas
U.A.M
14
Marín, J (2007-2008) “Introducción al Data Mining” Extraído el 09 de Mayo de 2016 desde
http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/DM/introduccion-DM.pdf
7. Anexos
15
¿Siente usted que tiene confianza con sus profesores en general?
4º Medio 7º Básico A
14% 11%
7º Básico A
7º Básico B 7º Básico B
11%
3º Medio 8º Básico A
13%
8º Básico B
8º Básico A 1º Medio
11%
2º Medio
2º Medio
13% 3º Medio
8º Básico B 4º Medio
13%
1º Medio
14%
16
Notas Profesor de Matemáticas
1
6% 2 1
9 2% 3
19% 4% 4 2
5%
3
5 4
11% 5
6
7
8
6
25% 8
12%
9
7 10
16%
7 5
13% 6
7
8
9
23% 9
8
21% 10
17
¿Qué nota le pones a tu profesor/a de Biología o
Ciencias Naturales?
2 3
1% 3%
1
1
4% 4 2
5%
10 5 3
33% 7%
4
6 5
7%
6
7
7% 7
8
9 8
18% 15% 9
10
5 1
6
3%
4% 7 2
8% 3
4
10 8
50% 11% 5
6
7
8
9
22% 9
10
18
¿Qué nota le pones a tu profesor/a de Historia,
Geografía y Ciencias Sociales?
1 2 3
3% 3% 2% 4
2% 5 1
4% 2
6 3
10
5%
32%
4
7 5
9%
6
7
8 8
9 20%
20% 9
10
19
¿Qué nota le pones a tu profesor/a de Artes Visuales?
No tengo
10 1
17% No tengo 1
2
21% 0%
2 3
3
0% 2% 4
9 4
15% 5
5 2%
4% 6
6 7
9%
8
8 7
20% 10% 9
10
No Tengo
10 1
16%
9 2
5% 3
4
8 5
10%
No Tengo 6
57%
7 7
7%
6 8
2%
9
5
0% 4 10
3 2 1
1% 0% 1% 1%
20
¿Qué nota le pones a tu profesor/a de Química?
No tengo
10
7% 1
9
10% 2
8 3
6%
No tengo 4
44% 5
7
10% 6
6 7
5% 8
5
10% 4 9
3%
10
3 2 1
1% 2% 2%
No tengo
9 10
1
8 4% 4%
No tengo 2
8%
19%
3
7
10% 4
1 5
15% 6
6
9% 7
2
5 8
3 5%
12% 4 9
7%
7%
10
21
¿Qué nota le pones a tu profesor/a de Educación
Física?
1 2 3
4
3%0% 0% 5
2% 1
4%
2
6
5% 3
10 7 4
41% 10%
5
6
8 7
18%
8
9 9
17%
10
22
¿Siente usted que tiene confianza con sus profesores
en general?
No
26%
Si
No
Si
74%
Humanista
(Lenguaje
Matemático Matemático (Matemáticas y Física)
eHistoria,
(Matemáticas y
Geografía y
Física)
Ciencias Sociales)
27% Científico (Biología/ Ciencias
31%
Naturales y Química)
23
¿Cuál es tu promedio general a momento de
contestar esta encuesta?
Menos de 4,0
1%
Entre 4,0 y 5,0
No lo sé
Sobre 6,5 5% No lo sé
9%
13%
Menos de 4,0
Entre 4,0 y 5,0
Humanista Matemático
(Lenguaje e (Matemáticas y Matemático (Matemáticas y Física)
Historia, Física)
Geografía y 31% Científico (Biología/Ciencias
Ciencias Sociales) Naturales y Química)
35%
Humanista (Lenguaje e Historia,
Científico Geografía y Ciencias Sociales)
(Biología/Ciencias
Naturales y Química)
34%
24
¿En qué curso llegaste al colegio?
3ºMedio
1º Medio 2º Medio 4º Medio
6% 1%
4% 1% 1º Básico
2º Básico
8º Básico
6% 3º Básico
4º Básico
7º Básico 5º Básico
1º Básico
6%
39% 6º Básico
7º Básico
6º Básico
11% 8º Básico
1º Medio
5º Básico
8% 2º Básico 2º Medio
10% 3º Medio
4º Básico 3º Básico 4º Medio
4% 4%
No
10%
Si
No
Si
90%
25
¿Qué nota le pones a la infraestructura del colegio?
2
2%
10 1 1
9
5% 4% 5% 3 2
7%
8 3
15% 4
4
11%
5
6
7 5 7
16% 16% 8
9
6
19% 10
Si
No me importa / No 18%
estoy informado
Si
20%
No
No me importa / No estoy
informado
No
62%
26
¿Qué nota le pones a la dirección del colegio?
27