Professional Documents
Culture Documents
FACULTAD DE INGENIERÍA
PROGRAMA DE TITULACIÓN POR TESIS
ESCUELA PROFESIONAL DE INGENIERÍA
INFORMATICA
TESIS
PARA OBTENER EL TÍTULO PROFESIONAL DE
INGENIERA INFORMATICA
PRESENTADO POR:
LIMA – PERÚ
AÑO: 2015
DEDICATORIA
IV
ABSTRACT
It was applied the models of decision trees and clustering to analyze the behavior
of the students, evaluating factors such as student performance, social status and
socio-economic aspects. The accuracy of the models is calculated from the
information provided the Central Office of Information and Computation at the
Ricardo Palma University, in which it was applied a transformation and simulation
of some variables for greater effectiveness and performance of the model.
V
Índice Temático
RESUMEN ............................................................................................................. IV
ABSTRACT ............................................................................................................ V
INTRODUCCIÓN .................................................................................................... 1
Introducción 14
Revisión de la literatura 14
Conclusiones 45
CAPITULO II: DESARROLLO DEL PROYECTO ................................................ 46
VI
3. Requerimientos del Producto/Software ..................................................... 59
1. Vista de Despliegue........................................................................... 62
VII
Índice de Ilustraciones
VIII
Ilustración 28: Diagrama de secuencia CUS, Consultar Información Cargada 84
Ilustración 29: Interfaz “Consultar información cargada” 86
Ilustración 30: Información consolidado del alumno 87
Ilustración 31: Diagrama de clases CUS, Ejecutar Modelo 92
Ilustración 32: Diagrama de secuencia CUS, Ejecutar Modelo 93
Ilustración 33: Interfaz “Ejecución del Modelo Predictivo” 95
Ilustración 34: Consulta de resultados del modelo 96
Ilustración 35: Diagrama de Clases CUS, Consultar Reporte Predefinido 99
Ilustración 36: Diagrama de Secuencia CUS, Consultar Reporte Predefinido 100
Ilustración 37: Reporte Consolidado por año de ingreso 101
Ilustración 38: Reporte Detallado 102
Ilustración 39: Carga ETL, Integracion Services 104
Ilustración 40: Modelos de Predicción Evaluados 106
Ilustración 41: Leyenda del Gráfico de Elevación 107
Ilustración 42: Gráfico de elevación de minería de datos 108
Ilustración 43: Árbol de decisión de la deserción universitaria en la escuela
informática informática 110
Ilustración 44: Error en la ejecución del Agente SQL 120
Ilustración 45: Agente SQL Server detenido 121
Ilustración 46: Agente SQL Server Iniciado 122
Ilustración 47: Error en el inicio de Servicio SQL 123
Ilustración 48: Servicio SQL Server Iniciado 123
Ilustración 49: Estrategia de Ejecución del modelo predictivo 127
Ilustración 50: Ingreso estimado por NSE en Lima Metropolitana 132
Ilustración 51: Distribución del Gasto por NSE en Lima Metropolitana 133
Ilustración 52: Variables del Modelo de Predicción 135
Ilustración 53: Correo electrónico de confirmación de ejecución del CUS: Transfor
Transformar Transformar y Cargar datos 136
IX
Índice de Tablas
X
INTRODUCCIÓN
1
recursos humanos para la familia, la comunidad y el país; conlleva, asimismo, a
sentimientos de frustración que todo ser humano sufre al no lograr un objetivo.
Otro estudio del 2013 la consultora Flanqueo señala que las universidades
orientadas al segmento socioeconómico C registran la mayor deserción con 28%,
seguidas de las universidades del segmento B con 21% de deserción y las
2
universidades del segmento A con 15% de deserción. Los institutos muestran un
panorama similar en el segmento socioeconómico C, donde la deserción
estudiantil es del orden del 31%; en el B es de 20% y en el A, 13%. La deserción,
además, puede implicar suspensión definitiva o temporal, voluntaria o forzada, lo
cual depende de las razones: si es abandono de la carrera, abandono de la
institución o abandono de la educación superior.
3
Ilustración 1: Diagrama de Ishikawa Causas de la deserción universitaria
4
En resumen, 46% de estudiantes inicia sus estudios sin estar suficientemente
informado sobre la carrera, esto se debe a múltiples factores, tales como escoger
la carrera de moda, falta de madurez, muchos estudiantes terminan la secundaria
a los 15 o 16 años, falta de apoyo vocacional en el colegio porque pocas
instituciones cuentan con un profesional orientado a este tema, y la elección de
carreras universitarias no requeridas por el mercado. La facultad de ingeniería
informática de la Universidad Ricardo Palma, no es ajena a esta realidad y en la
siguiente tabla 1, presentamos el número de alumnos que se han matriculado por
semestre y la cantidad de desertores por semestre.
5
Como podemos apreciar en la ilustración 2, la cantidad de desertores es alta lo
cual nos da una vista del efecto de la deserción en la escuela informática, que en
los últimos 4 años tiene una tasa promedio de 34%.
25
17 18
20
15 12
10 7 7
4
5 0 0
0
20101 20102 20111 20112 20121 20122 20131 20132 20141 20142 20151
Periodo de ingreso
Problema Central:
6
Problema específico:
Objetivo General
Objetivos Específicos
7
información obtenida a los responsables de la gestión académica y
administrativa.
8
Importancia del Proyecto
Con una buena gestión sobre la información proporcionada se podrían reducir los
porcentajes de deserción en la escuela informática y por lo tanto aumentar el
índice de egresados.
1. Formación de alumnos
2. Pasividad de los cursos
3. Dedicación de los docentes
4. Condiciones de estudio
9
Basándonos en programas contra la deserción universitaria realizados en
Colombia por el Ministerio de Educación y en Honduras por la Universidad
Autónoma de Honduras se tiene precedente de poder disminuir la deserción hasta
en un 5%.
Definición de Términos
1. Deserción Universitaria
2. Programa Académico
10
3. Indicadores
Es una medida del nivel del desempeño de un proceso; el valor del indicador
está directamente relacionado con un objetivo fijado de antemano.
Normalmente se expresa en porcentaje.
4. Estadística Descriptiva
5. Probabilidad
6. Modelo Predictivo
7. ETL
11
8. Data Mart
Subconjunto del Data Warehouse que está orientado a un área específica del
negocio.
9. Data Mining
10. EDT
12
Resumen
13
CAPITULO I: MARCO TEORICO
Introducción
Revisión de la literatura
1. Tesis revisadas
14
Se realizó la Prueba de Independencia Chi Cuadrado la cual permitió
determinar si existe una relación entre dos variables categóricas.
15
1.3 Deserción universitaria en estudiantes de una universidad privada de
Iquitos. [Bibliografía Nro 5]
16
Entre las categorías de variables se destacan el género, la edad, el
estado laboral, el ingreso económico, la vivienda propia, el número de
hermanos, el nivel educativo de la madre, así como también algunas
relacionadas con el entorno socioeconómico, como la tasa de
desempleo, el tipo de la institución y de programa, los apoyos
financieros y académicos.
2. Deserción Universitaria
17
2008 Rodríguez Disolución del vínculo estipulado a través de la
y matrícula académica, ya sea por parte del
Hernández estudiante o la universidad. Ésta tiene graves
efectos financieros, académicos y sociales para
ambos.
2008 Rojas y Tipo de conducta con la cual el estudiante decide o
Gonzales se ve forzado a abandonar sus estudios.
18
2.2 Tipología
19
Tabla 4: Factores que impactan en la Deserción
Intensidad Factores
Alta Factores económicos que impiden la continuidad del
desertor en la Universidad.
Bajos niveles de comprensión, unidos a la falta de
interés y apatía por programas curriculares.
Cursos no asociados ni aplicables con el ejercicio
profesional.
Orientación profesional.
Media Ambientes educativos universitarios en los cuales está
inmerso el estudiante.
Proceso educativo y acompañamiento al estudiante en
su formación.
Adaptación social del estudiante desertor con sus pares
u homólogos.
Programas micro curriculares universitarios rígidos con
respecto a los de su formación secundaria, de alta
intensidad temática, dispuestos en corto tiempo.
Modelos pedagógicos universitarios diferentes a los
modelos de bachillerato, que imprime un alto nivel de
exigencia.
Evaluaciones extenuantes y avasalladoras. Las
evaluaciones y trabajos universitarios tienen mucho
nivel de complejidad que las de secundaria.
Baja Ambientes familiares.
Edad. La mayoría de los estudiantes universitarios son
muy jóvenes.
Cantidad de oferentes.
Masificación de la educación.
20
2.4 Perfil del desertor
1. Problemas de disciplina
Normalmente los estudiantes que dejan sus estudios son los que
faltan o han faltado a las normas del centro educativo en particular.
Estos alumnos son los que generan más costos, en función de
tiempo, para la organización.
3. Ausentismo de clases
21
4. Problemas de salud psicosomática
22
2.5 Actores que intervienen en la deserción estudiantil universitaria
1. Desertores
23
4. Profesores, Directivos y administradores académicos, quienes
acompañaron al desertor en el proceso educativo hasta el semestre
de retiro.
3. Metodologías
24
para describir un "plano" del sistema (modelo), incluyendo aspectos
conceptuales tales como procesos de negocio y funciones del sistema,
y aspectos concretos como expresiones de lenguajes de programación,
esquemas de bases de datos y componentes reutilizables.
3. Es iterativo e incremental.
25
Ilustración 4: Encuesta realizada por la KDnuggets en el año 2007
1. Metodología CRISP-DM
26
Ilustración 5: Cuatro niveles de detalle de la metodología CRISP-DM
27
Se evalúa la situación, es decir los recursos, requerimientos y
supuestos del negocio. Se establecen los objetivos de la minería
de datos y el plan del proyecto.
3. Preparación de datos
28
reunieron, muchos de ellos están fuera de rango, no válidos o
faltan valores.
29
Ilustración 6: Categoría de las variables
4. Modelado
30
características semejantes que puedan ser descriptos
apropiadamente.
5. Evaluación
1. Evaluación de la clasificación
2. Evaluación de regresión
31
6. Despliegue del modelo
32
Ilustración 7: El proceso CRISP DM
33
“La minería de datos es un término relativamente moderno que integra
numerosas técnicas de análisis de datos y extracción de modelos. Es capaz
de extraer patrones, de describir tendencias y regularidades, de predecir
comportamientos y, en general, de sacar partido de la información
computarizada que nos rodea hoy en día, generalmente heterogénea y en
grandes cantidades. Permite a los individuos y a las organizaciones
comprender y modelar de una manera más eficiente y precisa el contexto
en que deben actuar y tomar decisiones.” [Hernández Orallo et al., 2004]
34
fundamentales para mejorar el comportamiento en relación a un
fenómeno, como el caso de la deserción universitaria. Si bien las
técnicas de minería de datos ocupan un lugar relevante en la empresa y
la toma de decisiones del sector privado, también son aplicables a la
educación superior, considerando las grandes cantidades de datos que
conforman el expediente de los estudiantes.
a) Árbol de decisión
35
Algoritmo ID3
36
Algoritmo C4.5
37
b) Clustering
38
3. Genera Modelos descriptivos: permite a empresas, explorar y
comprender los datos e identificar patrones, relaciones y
dependencias que impactan en los resultados finales.
39
Ilustración 8: Mapa de la Minería de Datos [Bibliografía Nro 10]
40
5. Tecnologías
2. Base de datos
41
La mayoría de las cajas de herramientas de minería de datos se
conectan a las bases de datos a través de ODBC (Open Database
Connectivity) o JDBC (Java Database Connectivity) interfaces.
42
CREATE TABLE: crea una nueva tabla
ALTER TABLE: altera una tabla
DROP TABLE: elimina una tabla
CREATE INDEX: crea un índice
DROP INDEX: elimina un índice
43
Transformación de datos
Carga de datos
44
Conclusiones
Se realizó una revisión sobre el tema a nivel internación, nacional y por último se
realizará a nivel institucional con el fin de conocer los índices, factores, causas y
métodos de análisis de la deserción. Producto de dicha revisión se elaboró un
estado del arte sobre el tema y el marco conceptual que delimita el alcance de
esta investigación.
La recolección de los datos de los alumnos retirados durante los años 2010 hasta
2015 se obtendrá de la OFICIC de la Universidad Ricardo Palma.
45
CAPITULO II: DESARROLLO DEL PROYECTO
3. SQL Server como base de datos del proyecto y C# (.NET) como lenguaje
de programación.
4. Se elegirá el modelo cuyo resultado sea más cercano al modelo ideal que
propone la herramienta Analysis Services.
46
4. Interfaz de usuario para la ejecución del proceso de carga de información
depurada a la base de datos del proyecto.
47
Estructura de Desglose del Trabajo y Entregables (EDT)
48
La Estructura de Desglose del Trabajo y Entregables (EDT), está conformada
por los entregables correspondientes a las dos metodologías usadas en la
investigación, CRISP-DM para el Modelo Predictivo y RUP para el desarrollo
de la aplicación y para ambos se comparten los entregables que recogen la
definición de los requerimientos y plan de proyecto.
49
y limpia, apta para ser Server
cargada y explotada.
Modelo construido Modelo construido con la Proyecto Solución en
base de datos depurada Análisis Services
Modelo Analítico Modelo resultante. Proyecto Solución en
Analysis Services
Informe de Resumen de resultados Capitulo Resultados
Resultados obtenidos luego de la
minería de datos.
Informe Final Informe Final, Tesis. Tesis
Diagrama CUS Diagrama general de los Diseño de la Solución -
casos de uso del sistema UML
Diagrama Lógico y Modelo lógico y físico de Diagrama de Clases
Físico de datos datos Modelo Conceptual -
UML
Documento de Diagrama de despliegue Arquitectura del
Arquitectura y diagrama de Producto/Software
arquitectura de la
aplicación
Prototipos Prototipos de la Diseño de la Solución
aplicación
Versión beta del Primera Versión de la Aplicación Beta
producto aplicación
Producto Final Versión final de la Aplicación Final
aplicación
50
Exclusiones del proyecto
51
Restricciones del proyecto
52
Supuestos del proyecto
53
2. Modelado de Negocio
Realiza
Evaluación_Deserción_Universitaria
Escuela Informatica
54
2. Diagrama del proceso To Be, de evaluación de deserción universitaria
55
3. Detalle del proceso To Be, de evaluación de deserción universitaria
Realiza la
acción de
56
ejecutar la
carga de
información.
Extracción de El sistema se Archivo Excel con Tabla temporal en
datos encarga de el formato Integration
realizar la establecido por el Services (Tabla
lectura del proyecto. Stage).
archivo Excel y
lo carga en
una tabla
temporal.
Transformación El sistema Tabla temporal Tablas del
de datos depura la en Integration proyecto con
información de Services(Tabla información
la tabla Stage). depurada y datos
temporal calculados de los
Stage y realiza alumnos.
lógicas de
algunos
campos para
guardarlos
finalmente en
las tablas del
proyecto.
Carga de datos El sistema Tablas del Información de
carga la proyecto con los alumnos
información información cargada en las
transformada depurada y datos tablas de la Base
de los alumnos calculados de los de datos
57
a las tablas del alumnos. BD_DESERCION
proyecto.
Ejecutar modelo El encargado Información de Información de
predictivo de la escuela los alumnos los alumnos
realiza la cargada en las cargada en las
ejecución del tablas de la Base tablas de la Base
modelo de datos de datos
predictivo BD_DESERCION BD_DESERCION
58
Predefinido arma los posibilidad de la información del
reportes con la desertar que alumno desertor.
información arroja el modelo
que arrojo el predictivo.
modelo
predictivo
59
RF8: Procesar modelo predictivo de desertores
60
3.3 Requerimientos No Funcionales
RNF4: Usabilidad
61
RNF5: Confiabilidad
1. Vista de Despliegue
62
Ilustración 15 Diagrama de despliegue
2. Vista de implementación
63
SQL Server
.Net
BD_Desercion
Modulo Consultas
Ejecutar
Modelo
Transformar y
Carga datos
Consultar información Consultar
cargada Reportes
1. Capa de presentación
64
2. Capa Lógica de negocio
65
4. Vista lógica
1. Carga de Datos
2. Seguridad
3. Consultas
Consultas
66
5. Vista de datos
67
INGRESOS_OTROS_PADRE
INGRESO_NETOS_OTROS...
GRADO_INSTRUCCION_...
PROFESION_MADRE
INGRESO_NETO_MADRE
INGRESOS_OTROS_MADRE
INGRESO_NETOS_OTROS...
3.3 Modelo Físico
ESCA_NOMBRE
ESCA_MONTO
ABECA_CODIGO
continuación en la ilustración 20, se aprecia el modelo físico de las
BECA_MOTIVO
tablas de nuestra base de datos BD_DESERCION.
PORCENTAJE
FECHANACIMIENTO PERIODOMATRICULADO
PAIS CREDITOSOBLIGATORIOS
DISTRITO ESCALA
DIRECCION PENSION
TELEFONO1 FLAGBECA
FACT_TABLE
TELEFONO2
IDALUMNO
EMAIL
IDCARRERA ResulModeloPredictivo
IDACADEMICO Expression
IDECONOMICO ESTADO
IDSOCIAL IDALUMNO
DIM_CARRERA PROMEDIONOTAS SEXO
IDCARRERA
TOTALCREDITOAPROBADOS DISTRITO
NOMBRE
TOTALCURSOSAPROBADOS AINGRESO
ESCUELA
TOTALCREDITOSDESAPROBA... CREDPENDIENTES
DIRECTORESCUELA
TOTALCURSOSDESAPROBAD... PERIODOMATRICULADO
CURRICULA
ESTADO NIVELSOCIOECONOMICO
ESCALA
68
6. Vista de casos de uso
Los diagramas de casos de uso sirven para facilitar la comunicación con los
futuros usuarios del sistema, y resultan especialmente útiles para
determinar las características necesarias que tendrá el sistema.
Transformacion_Cargar_Datos
(from Realización de casos de uso)
Consultar_Información_Cargada
Encargado de la Escuela
(from Realización de casos de uso)
Ejecutar_Modelo
Consultar_Reporte_Predefinifo
(from Realización de casos de uso)
(from Realización de casos de uso)
69
5. Diseño de la solución
En la tabla 7, de muestran los actores que intervienen en este CUS con una
breve descripción de la acción que realizan.
70
Actores Asociados
Precondición
71
“Ejecutar Carga de Información”
5 S El Sistema se conecta al servidor del SQL Server y
ejecuta el trabajo “Ejecución_TransformarCargarDatos”
creado en el Agente SQL Server.
72
DIM_ECONOMICA.
73
Flujo alternativo
74
Error Tipo: No se encuentra variable
Post condición
75
Diagrama de clases CUS
76
: Encargado de : Controlador
la Escuela : Interfaz Prediccion de Deserción Transformación : Archivo Excel : TablaTemporal : Controlador Cargar : BD Informática
Diagrama de secuencia
carga la información
transformada a las tablas
de la base de datos,
BD_DESERCION
77
Prototipo
78
Ejecutar Carga: Interfaz “Ejecución del proceso”
79
Al terminar de ejecutarse el proceso ETL en el Integration Services, el
sistema muestra el mensaje del resultado del trabajo ejecutado como se
muestra en la ilustración 26.
80
2. CUS: Consultar información cargada
Actores Asociados
Precondición
81
Flujo principal de eventos
Flujo alternativo
Post Condición
82
Diagrama de clases CUS
83
interfaz
Interfaz "Predicción de
Deserción estudiantil -
Escuela Ing. Informática" Re direcciona a la interfaz
"Consultar información
cargada"
Solicita información de
los alumnos
Devuelve información
de los alumnos
84
Prototipo
85
Ilustración 29: Interfaz “Consultar información cargada”
86
Ilustración 30: Información consolidado del alumno
87
3. CUS: Ejecutar Modelo
En la tabla 11, de muestran los actores que intervienen en este CUS con
una breve descripción de la acción que realizan.
Actores Asociados
88
Ejecuta la consulta de los resultados del
modelo predictivo.
Pre condición
89
herramienta SQL Server Data Tools en la opción
“Analysis Services”.
Analysis Services realiza el procesamiento del modelo
predictivo y guarda la información de los resultados en
la tabla “ResulModeloPredictivo”.
90
Flujos alternativos
Post Condición
91
Diagrama de clases CUS
92
: Encargado de la : BD Informática : Interfaz Principal : Interfaz Ejecución del Modelo : Interfaz Consulta de resultados : Ejecutar Modelo : Resultado del Modelo : Predicciòn
Escuela Predictivo del modelo Predictivo Predictivo
Solicita Información de
Devuelve información
Muestra información de los alumnos con alta probabilidad de desertar
del resultado del
modelo predictivo
entre los objetos. Se observa como el actor principal, interactúa con la
A continuación, en la ilustración 32 se muestra el intercambio de mensajes
93
Prototipos
94
Ilustración 33: Interfaz “Ejecución del Modelo Predictivo”
95
Ilustración 34: Consulta de resultados del modelo
96
4. CUS: Consultar Reporte Predefinido
En la tabla 13, de muestran los actores que intervienen en este CUS con
una breve descripción de la acción que realizan.
Actores Asociados
Pre condición
97
2 A El encargado de la Escuela dará clic en la opción del
menú, “Reporte”
3 S El sistema muestra las siguientes opciones de reporte
a generar: Consolidado, Detallado.
4 A El encargado de la Escuela dará clic en el botón sobre
una de las opciones.
5 S El sistema obtiene la información transformada de la
base de datos y que arrojo el modelo de deserción y
arma el reporte.
El sistema muestra el reporte generado
Flujo alternativo
Post condición
98
Diagrama de clases CUS
99
: Encargado de
la Escuela : Interfaz Reportes : Controlador Reporte : BD Informática : Reporte
Diagrama de secuencia
da click en el boton
generar reporte
100
Prototipos
2. Reportes
101
Ilustración 38: Reporte Detallado
102
6. Evaluación de Resultados
6.1 Objetivos
103
Se calcularon variables como el nivel socioeconómico a partir del distrito de
residencia, la escala y el ingreso económico de los padres.
Una vez eliminada la información, se cargan los nuevos valores del archivo
Excel a la tabla temporal Stage, luego prosigue a cargar todas las tablas de
proyecto. Durante el transcurso de carga se realiza la transformación de
los datos y cálculos de algunas variables.
104
6.3 Modelos evaluados
1. Árboles de Decisión
2. Clustering
3. Bayes Naive
4. Redes neuronales
5. Regresión logística
6. Reglas de Asociación
105
Ilustración 40: Modelos de Predicción Evaluados
106
En la ilustración 41, podemos observar que luego del procesamiento la
herramienta Analysis Services califica la precisión de predicción de los
modelos.
107
Ilustración 42: Gráfico de elevación de minería de datos
108
6.4 Resultados del Árbol de decisiones
109
Ilustración 43: Árbol de decisión de la deserción universitaria en la escuela informática
110
Podemos concluir que los factores que determinan la deserción son los
siguientes.
1. Económico
2. Académico
111
6.6 Producto
112
CONCLUSIONES
113
8. El personal administrativo podrá usar la información que arroje el modelo para
identificar y tomar acciones sobre los alumnos que serán posibles desertores y
mejor el índice de retención.
114
RECOMENDACIONES
2. Para obtener un mejor resultado se deberá de trabajar con datos reales de los
alumnos, para poder lograr los niveles de predicción necesarios para la
validación positiva de los modelos.
115
BIBLIOGRAFIA
116
(Accesado 16 Julio 2015)
[8] José Hernández, María José Ramírez, and César Ferri, Introducción a la
Minería de Datos. Madrid: Pearson Educación S. A., 2004.
[9] Pete Chapman et al. (1999) CRISP-DM 1.0 Step-by-step data mining.
Disponible en:
ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/
14/UserManual/CRISP-DM.pdf
(Accesado 16 Julio 2015)
Disponible en:http://www.saedsayad.com/data_mining_map.htm
117
[11] Asociacion Peruana de Empresas de investigación de Mercado (2014).
Estudio Niveles Socioeconómicos 2014
Disponible en http://www.apeim.com.pe/wp-
content/themes/apeim/docs/nse/APEIM-NSE-2014.pdf
http://www.iesalc.unesco.org.ve/
Disponible en:
http://www.mineducacion.gov.co/sistemasdeinformacion/1735/articles-
254702_libro_desercion.pdf
118
[15] Flanqueo (2013). Deserción de Alumnos
Disponible en:
http://www.academia.edu/5891092/Repitencia_y_Deserci%C3%B3n_Universitaria
_en_Am%C3%A9rica_Latina
Disponible en:
http://www.unesco.org/new/fileadmin/MULTIMEDIA/FIELD/Santiago/pdf/Informe-
Regional-EFA2015.pdf
119
ANEXO 1: Flujo alternativo de CUS Transformar y cargar datos
120
Ingresamos al SQL server y como se aprecia en la ilustración 45, observamos
que el Agente SQL Server se encuentra detenido.
Clic derecho sobre el Agente SQL server y damos clic en la opción “iniciar”
121
Como podemos apreciar en la ilustración 46, el Agente SQL Server se encuentra
iniciado.
122
2. Error: Conectar al Servidor SQL Server
123
ANEXO 2: Informe de Variables
1. Análisis de datos
124
ANEXO 3: Cronograma del Proyecto
Trabajo Duración
MODELO DE DESERCIÓN DE ESTUDIANTES 420 HORAS 140 DÌAS
Identificación con la empresa 45 horas 15 dias
Definición del tema
Identificación de Problemática y Objetivos
Metodología a emplear
Comprensión del negocio 45 horas 15 dias
Objetivos del Negocio
Requerimientos
Restricciones
Riesgos y Costos
Beneficios
Objetivos de la minería de datos
Plan de proyecto
Comprensión de los datos 45 horas 15 dias
Informe de colección de datos iniciales
Descripción de los datos
Informe de calidad de datos
Preparación de los datos 60 horas 20 días
Informe de selección de datos
Limpieza de datos
Modelado 150 horas 50 días
Selección de técnica de modelado
Pruebas de diseño
Evaluación de modelos
125
Evaluación 30 horas 10 días
Revisión del proceso
Depliegue 45 horas 15 días
Plan de Desarrollo
Informe final
126
ANEXO 4: Estrategia de Ejecución
127
ANEXO 5: Informe de Colección de Datos
Fuente: OFICIC
Cantidad de Registros: 4,763
Fecha de Registros: 2011-1 al 2015-1
ALEATORIO CRED_ELEC_APROB
PERIODO SITUACION
CARR-SEMESTRE SEXO
CURSOSAPROBADOS FECHA NACIMIENTO
CURSOSDESAPROBADOS LUGAR NACIMIENTO
CURSOSNSP DISTRITO NACIMIENTO
CREDAPROBADOS ESTADO_CIVIL
CREDDESAPROBADOS DISTRITO DOMICILIO
CREDNSP PROV COLEGIO
PROMEDIOSINNSP SEMESTRE DISTR COLEGIO
SITUACION_ACTUAL_CARRERA COLEGIO
SEM INGRESO GRADO_INSTRUCCION_PADRE
SEM_NOTAS_HIST_INICIAL PROFESION_PADRE,
PERIODOS_NOTAS_HIST INGRESO_NETO_PADRE
PERIODOS_NOTAS_HIST_SIN_VERANO INGRESOS_OTROS_PADRE
CRED_CURS_HIST_SIN_NSP INGRESO_NETOS_OTROS_PADRE
SEM_MAT_HIST_INICIAL GRADO_INSTRUCCION_MADRE
PERIODOS_MAT_HIST PROFESION_MADRE
PERIODOS_MAT_HIST_SIN_VERANO INGRESO_NETO_MADRE
CARR_ACTUAL INGRESOS_OTROS_MADRE
PLAN_ACTUAL INGRESO_NETOS_OTROS_MADRE
PROM_HIST ESCA_NOMBRE
CREDAPROBADOS ESCA_MONTO
CREDITOSCONVALIDADOS BECA_CODIGO
CREDTOTALAPROBADOS BECA_MOTIVO
CRED_CONV_OBLIG_APROB PORCENTAJE
CRED_CONV_ELEC_APROB NMRO_APLCDAS
CRED_OBLIG_APROB RESTIRO_SEM
128
ANEXO 6: Informe de Calidad de Datos
Variable Total
LUGAR NACIMIENTO 58%
DISTRITO NACIMIENTO 90%
ESTADO_CIVIL 32%
DISTRITO DOMICILIO 96%
PROV COLEGIO 88%
DISTR COLEGIO 88%
COLEGIO 90%
GRADO_INSTRUCCION_PADRE 8%
PROFESION_PADRE, 99%
INGRESO_NETO_PADRE 8%
INGRESOS_OTROS_PADRE 56%
INGRESO_NETOS_OTROS_PADRE 8%
BECA_CODIGO 2%
BECA_MOTIVO 2%
129
Se realizó un análisis a las variables numéricas, como se puede observar en la
tabla 19, el cual nos permitió detectar en que variables tenían valores extremos
Tabla 19: Análisis de variables numéricas
Valor Valor
Variable Valor máx. Histograma
min. Prom.
CURSOS
0 14 3.24
APROBADOS
CURSOS
0 8 1.0
DESAPROBADOS
CRED
0 44 11.0
APROBADOS
CRED
0 22 4.0
DESAPROBADOS
PROMEDIO SIN
0 99 11.82
NSP
130
PERIODO MAT
1 33 9.0
HIST
CRED
0 185 5.0
CONVALIDADOS
INGRESO NETO
0 11285 1984.8
PADRE
INGRESO OTROS
0 123123 455.7
PADRE
INGRESO NETO
1200 3200 1534.6
MADRE
INGRESO OTROS
0 0 0
MADRE
131
ANEXO 7: Variable Socio Económica
En la ilustración 50, podemos observar cuanto son los gastos promedios de cada
nivel socio económico.
132
En la ilustración 51, podemos observar la distribución de gastos de diferentes
rubros para cada nivel socio económico.
133
ANEXO 8: Instrucciones de Limpieza de Datos
2. Se sumaron los ingresos netos y otros de los padres en una sola variable.
134
ANEXO 9: Variables usadas en Modelo Predictivo
1. Modelo de Predicción
135
ANEXO 10: Confirmación de Carga de Datos
Ilustración 53: Correo electrónico de confirmación de ejecución del CUS: Transformar y Cargar
datos
136