Professional Documents
Culture Documents
Ramos Velásquez
PRACTICA DE LABORATORIO
TEMA: DATAMINING
TITULO:
OPERACIONES DE REGRESION DE DATOS
USANDO EL STAT GRAPHISCS
I. OBJETIVOS
El estudiante reconocerá la aplicabilidad de las técnicas de regresión de datos en datos
reales.
El estudiante podrá utilizar el método más adecuado de regresión en el análisis de
datos.
El estudiante aplicará sus conocimientos de análisis de datos en el análisis de datos
reales.
II. METODOLOGIA
Se realizará un breve repaso teórico de las técnicas de minería de datos, a
continuación se seleccionará una de ella, y se realizarán ejercicios de regresión.
En primer término el docente realizará el desarrollo de análisis de datos usando el
método de Regresión utilizando el StatGraphics 5.1.
A continuación se solicitará que los alumnos, por grupos, realicen el análisis de datos
1
sobre la muestra de datos que ellos hubieren previamente traído a clase .
A continuación seleccionamos los datos a contrastar, por ejemplo: Y=Autos vendidos, además
de X=Vendedores.
1
Antes de esta clase de práctica, se solicitará que los alumnos, por grupos, traigan a clases archivos con
datos tabulares (en forma de tablas), que pueden estar en formato de Excel, StatGraphics o texto. Se les
indicará los requisitos mínimos respecto a la estructura del contenido del archivo de datos.
1
Sistemas Informaticos: Minería de Datos Ing. Edwin O. Ramos Velásquez
Al pulsar sobre el botón Aceptar se generarán dos ventanas que contienen el análisis de
regresión de la variable seleccionada. Para ver más grande una ventana pinchamos dos veces
con el ratón sobre ella. Ejemplo. Pinchar dos veces en cada una de las 4 ventanas y
observar sus contenidos.
2
Sistemas Informaticos: Minería de Datos Ing. Edwin O. Ramos Velásquez
b.2) En la ventana en que aparecen los “Valores predichos”, podemos escoger los
correspondientes valores de X (Vendedores) para los cuales deseamos predecir los
respectivos valores de la variable dependiente Y (Autos vendidos), pulsando con el botón
derecho del ratón dentro de dicha ventana y seleccionándolos en Opciones de Ventana.
3
Sistemas Informaticos: Minería de Datos Ing. Edwin O. Ramos Velásquez
Ejemplo. Prosiguiendo con en el ejemplo anterior, conseguir que aparezcan los valores
estimados para un X igual a 18 y 19.
Por otra parte, en la misma “Opciones de ventana” es posible modificar el Nivel de confianza
para el análisis aplicado (en lo referente a la estimación de valores)
b.3) En la ventana del “Comparación de Modelos Alternativos”, podemos observar una tabla
comparativa donde se contrastan los diferentes coeficientes de correlación que se obtendrían
al aplicar cualquiera de los Tipos de regresión (lineal, logarítmica, etc.). Allí es posible obtener
directamente una respuesta a cuál de los modelos de regresión es el que mejor se adapta a la
muestra analizada.
Comparación de Modelos Alternativos
--------------------------------------------------
Modelo Correlación R-cuadrado
--------------------------------------------------
Lineal 0.9743 94.92%
Raiz cuadrada-X 0.9677 93.64%
Raiz cuadrada-Y 0.9639 92.90%
Logarítmico-X 0.9526 90.75%
curva-S -0.9514 90.51%
Multiplicativo 0.9412 88.58%
Exponencial 0.9038 81.69%
Inverso-X -0.8962 80.31%
Doble inverso 0.8086 65.38%
Inverso-Y <sin ajuste>
Logístico <sin ajuste>
Log Probit <sin ajuste>
--------------------------------------------------
4
Sistemas Informaticos: Minería de Datos Ing. Edwin O. Ramos Velásquez
c) Opciones Gráficas
Ejemplo. En Opciones Gráficas suprimir los gráficos que aparecen por defecto y señalar
Gráfico del Modelo Ajustado y Observado frente a Predicho. Pinchar dos veces en el
grafico obtenido para observarlo mejor.
Pulsando con el botón derecho sobre las ventanas de las gráficas, podemos cambiar distintos
aspectos de las mismas, de nuevo en Opciones de Ventana.
El problema es el siguiente:
¿Qué monto debo invertir en publicidad para maximizar mis ganancias?
Paso 3: Metodología
Se realizarán dos contrastaciones por regresión:
En una primera oportunidad se contrastarán las variables “Ganancias” y “Mes”, para
identificar en qué meses se producen las mayores ganancias.
5
Sistemas Informaticos: Minería de Datos Ing. Edwin O. Ramos Velásquez
Autos Gastos en
Mes Ganancias Vendedores Pérdidas Capitalización
vendidos Publicidad
1 2 175 10 65 35 2
2 8 189 15 78 79 30
3 15 178 12 90 78 40
4 10 160 17 140 85 0
5 30 180 19 140 85 0
6 35 190 20 130 80 0
7 31 188 23 175 90 75
8 49 201 26 102 99 10
9 45 200 25 89 125 7
10 52 206 28 60 120 5
11 58 235 29 40 138 2
12 75 240 36 21 120 1
13 73 235 34 15 119 0
14 71 220 33 5 110 0
15 76 226 35 2 109 0
16 80 259 36 1 110 0
17 79 227 33 2 110 0
18 75 230 32 1 109 0
19 82 234 37 0 108 2
20 79 229 31 0 109 1
6
Sistemas Informaticos: Minería de Datos Ing. Edwin O. Ramos Velásquez
- Ecuación obtenida
Gastos en publicidad = 1/(0.00734305 + 0.0191237/Mes)
7
Sistemas Informaticos: Minería de Datos Ing. Edwin O. Ramos Velásquez
V. TAREAS:
Hacer el análisis de regresión de las ventas de una empresa (por ejemplo, distribuidora de
gaseosas, bodega, usuario de ZofraTacna) y presentar los resultados en de la siguiente forma