You are on page 1of 8

Sistemas Informaticos: Minería de Datos Ing. Edwin O.

Ramos Velásquez

PRACTICA DE LABORATORIO
TEMA: DATAMINING

TITULO:
OPERACIONES DE REGRESION DE DATOS
USANDO EL STAT GRAPHISCS

I. OBJETIVOS
 El estudiante reconocerá la aplicabilidad de las técnicas de regresión de datos en datos
reales.
 El estudiante podrá utilizar el método más adecuado de regresión en el análisis de
datos.
 El estudiante aplicará sus conocimientos de análisis de datos en el análisis de datos
reales.

II. METODOLOGIA
 Se realizará un breve repaso teórico de las técnicas de minería de datos, a
continuación se seleccionará una de ella, y se realizarán ejercicios de regresión.
 En primer término el docente realizará el desarrollo de análisis de datos usando el
método de Regresión utilizando el StatGraphics 5.1.
 A continuación se solicitará que los alumnos, por grupos, realicen el análisis de datos
1
sobre la muestra de datos que ellos hubieren previamente traído a clase .

 Se utilizará el software StatGraphics Plus 5.1 para las operaciones de regresión de


datos.

 Para mostrar los distintos ejemplos a lo largo de esta práctica, usaremos en


fichero Autos_vendidos.sf3. Para abrir dicho archivo pinchamos en
ArchivoAbrirAbrir Datos y buscamos en la dirección Menú
Inicio\Programas\Statgraphics Plus 5.1\SgWin.

III. DESARROLLO DE LA PRÁCTICA DE LABORATORIO: OPCIONES DE ANALISIS


a) Selección de la muestra
Seleccionamos del menú principal Dependencia  Regresión Simple, y aparece una
ventana en la que seleccionamos los datos a analizar:

A continuación seleccionamos los datos a contrastar, por ejemplo: Y=Autos vendidos, además
de X=Vendedores.

1
Antes de esta clase de práctica, se solicitará que los alumnos, por grupos, traigan a clases archivos con
datos tabulares (en forma de tablas), que pueden estar en formato de Excel, StatGraphics o texto. Se les
indicará los requisitos mínimos respecto a la estructura del contenido del archivo de datos.

1
Sistemas Informaticos: Minería de Datos Ing. Edwin O. Ramos Velásquez

Comentario (Análisis opcional):


Podemos hacer una selección de los datos cumplen cierto criterio que se
introduce en el campo Selección de la ventana anterior. Ejemplo.
Seleccionar los datos que cumplen “ Autos vendidos ≥ 20 “.

Al pulsar sobre el botón Aceptar se generarán dos ventanas que contienen el análisis de
regresión de la variable seleccionada. Para ver más grande una ventana pinchamos dos veces
con el ratón sobre ella. Ejemplo. Pinchar dos veces en cada una de las 4 ventanas y
observar sus contenidos.

2
Sistemas Informaticos: Minería de Datos Ing. Edwin O. Ramos Velásquez

b) Opciones del análisis


Podemos escoger distintas opciones de análisis en la barra de herramientas. Así si queremos,
por ejemplo, Resumen del Procedimiento (coeficiente de correlación, error estándar de
desviación, etc.), Predicciones, comparación de modelos alternativos, lo seleccionaremos en
las Opciones Tabulares.

Ejemplo. Marcar en Opciones Tabulares las casillas correspondientes a Resumen del


proyecto, predicciones, comparación de modelos alternativos observar las dos nuevas
ventanas que aparecen.

b.1) En la ventana del “Resumen del procedimiento” (o Análisis de regresión), podemos


escoger los Tipos de modelo (modelo matemático) a aplicar para la obtención de la ecuación
de regresión deseada, pulsando con el botón derecho del ratón dentro de dicha ventana y
seleccionándolos en Opciones de Análisis.

b.2) En la ventana en que aparecen los “Valores predichos”, podemos escoger los
correspondientes valores de X (Vendedores) para los cuales deseamos predecir los
respectivos valores de la variable dependiente Y (Autos vendidos), pulsando con el botón
derecho del ratón dentro de dicha ventana y seleccionándolos en Opciones de Ventana.

3
Sistemas Informaticos: Minería de Datos Ing. Edwin O. Ramos Velásquez

Ejemplo. Con Opciones de Ventana conseguir que aparezcan en la ventana “valores


predichos” los valores estimados para los valores 15, 20 y 30 (Los valores 10.0 y 37.0,
que aparecen predeterminadamente, son los valores extremos de la muestra).

Ejemplo. Prosiguiendo con en el ejemplo anterior, conseguir que aparezcan los valores
estimados para un X igual a 18 y 19.

Por otra parte, en la misma “Opciones de ventana” es posible modificar el Nivel de confianza
para el análisis aplicado (en lo referente a la estimación de valores)

b.3) En la ventana del “Comparación de Modelos Alternativos”, podemos observar una tabla
comparativa donde se contrastan los diferentes coeficientes de correlación que se obtendrían
al aplicar cualquiera de los Tipos de regresión (lineal, logarítmica, etc.). Allí es posible obtener
directamente una respuesta a cuál de los modelos de regresión es el que mejor se adapta a la
muestra analizada.
Comparación de Modelos Alternativos
--------------------------------------------------
Modelo Correlación R-cuadrado
--------------------------------------------------
Lineal 0.9743 94.92%
Raiz cuadrada-X 0.9677 93.64%
Raiz cuadrada-Y 0.9639 92.90%
Logarítmico-X 0.9526 90.75%
curva-S -0.9514 90.51%
Multiplicativo 0.9412 88.58%
Exponencial 0.9038 81.69%
Inverso-X -0.8962 80.31%
Doble inverso 0.8086 65.38%
Inverso-Y <sin ajuste>
Logístico <sin ajuste>
Log Probit <sin ajuste>
--------------------------------------------------

4
Sistemas Informaticos: Minería de Datos Ing. Edwin O. Ramos Velásquez

c) Opciones Gráficas

También podemos escoger los gráficos deseados en Opciones Graficas en la barra de


herramientas del análisis:

Ejemplo. En Opciones Gráficas suprimir los gráficos que aparecen por defecto y señalar
Gráfico del Modelo Ajustado y Observado frente a Predicho. Pinchar dos veces en el
grafico obtenido para observarlo mejor.

Pulsando con el botón derecho sobre las ventanas de las gráficas, podemos cambiar distintos
aspectos de las mismas, de nuevo en Opciones de Ventana.

IV. DESARROLLO DE LA PRÁCTICA DE LABORATORIO: EJERCICIO DE MINERIA DE


DATOS
Paso 1: Titulo del análisis
Montos óptimos de inversión en publicidad en la empresa “Imports Junior S.A.”

Paso 2: Formulación del problema


El gerente de la empresa “Imports Junior S.A.” desea promover un plan de marketing, y está
profundamente interesado en conocer los montos que debieran invertirse en publicidad.

El problema es el siguiente:
¿Qué monto debo invertir en publicidad para maximizar mis ganancias?

Paso 3: Metodología
Se realizarán dos contrastaciones por regresión:
 En una primera oportunidad se contrastarán las variables “Ganancias” y “Mes”, para
identificar en qué meses se producen las mayores ganancias.

5
Sistemas Informaticos: Minería de Datos Ing. Edwin O. Ramos Velásquez

 A continuación se contrastarán las variables “Gastos en publicidad” y “Mes” y se


obtendrá la media de los meses en los cuales se obtuvieron mayores ganancias. Esta
media obtenida es el valor que dará respuesta a la pregunta inicialmente formulada.

Paso 4: Temática de los datos de la muestra.


Los datos de la muestra son el informe de ventas, ganancias y gastos en publicidad realizados
por la empresa “Imports Junior S.A.” durante los primeros N meses del año 2005.

Paso 5: Presentación de la muestra

Autos Gastos en
Mes Ganancias Vendedores Pérdidas Capitalización
vendidos Publicidad
1 2 175 10 65 35 2
2 8 189 15 78 79 30
3 15 178 12 90 78 40
4 10 160 17 140 85 0
5 30 180 19 140 85 0
6 35 190 20 130 80 0
7 31 188 23 175 90 75
8 49 201 26 102 99 10
9 45 200 25 89 125 7
10 52 206 28 60 120 5
11 58 235 29 40 138 2
12 75 240 36 21 120 1
13 73 235 34 15 119 0
14 71 220 33 5 110 0
15 76 226 35 2 109 0
16 80 259 36 1 110 0
17 79 227 33 2 110 0
18 75 230 32 1 109 0
19 82 234 37 0 108 2
20 79 229 31 0 109 1

Pasos 6, 7, y 8: Tipo de regresión utilizado, y ecuación de la regresión


a) Para la contrastación “Ganancias”(Y) y “Mes” (X) el modelo Exponencial
- Modelo Exponencial:
Y = exp (a + b*X) - Coeficiente de Correlación = 0.861104

- Ecuación obtenida - Error estándar de estimación = 0.068151


Ganancias = exp(5.14022 + 0.0189899*Mes)

6
Sistemas Informaticos: Minería de Datos Ing. Edwin O. Ramos Velásquez

b) Para la contrastación “Gastos en Publicidad” (Y) y “Mes”(X) el modelo Doble Inverso


- Modelo Doble Inverso:
Y = 1/(a + b/X)

- Ecuación obtenida
Gastos en publicidad = 1/(0.00734305 + 0.0191237/Mes)

- Coeficiente de Correlación = 0.948045

- Error estándar de estimación = 0.00147349

Paso 9: Otros resultados


Estimación de datos del análisis “Gastos en publicidad vs. mes”
Valores predichos
------------------------------------------------------------------------------
95.00% 95.00%
Predicho Límites de Predicción Límites de Confianza
X Y Inferior Superior Inferior Superior
------------------------------------------------------------------------------
35.0 126.752 90.1078 213.627 114.518 141.913
138.0 133.661 93.4504 234.61 119.547 151.553
4.0 82.4812 65.3427 111.807 77.814 87.7441
16.0 117.12 85.2349 187.116 107.243 129.0
------------------------------------------------------------------------------

Paso 10: Presentación del nuevo conocimiento


A la luz del primer análisis detectamos que entre los meses 12 y 20 se producen las mayores
ganancias, luego, en el segundo gráfico, observamos que en este intervalo los montos de
gastos en publicidad se han estabilizado. Al parecer se ha entrado a una segunda fase de
marketing y se esta invirtiendo un monto estabilizado en publicidad.

El monto estimado para un período intermedio, es 117.12, sin embargo, debe


considerarse que este monto es óptimo temporalmente es decir, a la larga, según lo
recomendaría un especialista en marketing, el monto puede bajarse aún más hasta un monto
piso, debajo del cual no debería bajar más el monto de lo invertido en publicidad.

Paso 11: Técnicas utilizadas


Regresión

Paso 12: Conclusiones


La técnica de regresión puede ser perfectamente utilizadas en actividades de minería de datos
en las cuales se deseare estimar o predecir valores.

7
Sistemas Informaticos: Minería de Datos Ing. Edwin O. Ramos Velásquez

Paso 13: Bibliografía


Manual de StatGraphics
Otros Libros

V. TAREAS:

Hacer el análisis de regresión de las ventas de una empresa (por ejemplo, distribuidora de
gaseosas, bodega, usuario de ZofraTacna) y presentar los resultados en de la siguiente forma

ITEMS A INCLUIR EN EL INFORME DE LA TAREA DE LABORATORIO

ITEM DEL INFORME DESCRIPCION


1. Título del Análisis Título de su análisis.
2. Formulación del problema Pregunta central a la cual se pretende dar
respuesta con el análisis
3. Metodología Descripción genérica de la estrategia a
aplicar.
4. Temática de los datos seleccionados: Describa el lugar de donde fue extraída la
muestra de datos que utilizará en su ejercicio
de análisis de datos.
5. Presentación de la muestra Especifique los datos utilizados en el presente
trabajo de análisis de datos.
6. Tipo de Regresión: Describa el método de regresión utilizado.
(Lineal, exponencial, multiplicativo, inversa de
X, inversa de Y, etc)
7. Ecuación de regresión La ecuación aplicada para la estimación
(Ejemplo de regresión lineal : y = 12 x + 15 )
8. Resultados generales Presentación de los resultados de
Factor de correlación contrastaciones y/o análisis de datos.
Error estándar de estimación
Tablas comparativas

9. Otros Resultados Tablas y/o gráficos de resultados que serán


utilizadas en la obtención de nuevo
conocimiento
10. Presentación del nuevo conocimiento Describa las conclusiones (nuevo
a) …….. conocimiento) que usted ha podido obtener
b) ……….. del análisis de datos. Realice una adecuada
c) …….. sustentación de descripción de sus razones.
…….
11. Técnicas de análisis aplicadas Mencione las técnicas de minería de datos
a) Regresión que ha utilizado en el presente análisis de
b) Método 1 datos y justifique su utilización.
c) Método 2
d) …….
12. Conclusiones Conclusiones del presente trabajo
13. Bibliografía Descripción de los libros y/o páginas de
Internet utilizadas.

You might also like