You are on page 1of 46

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

(Universidad del Perú, DECANA DE AMERICA)

FACULTAD DE INGENIERÍA INDUSTRIAL

E.A.P. INGENIERÍA INDUSTRIAL

Tema: Segundo informe de laboratorio de estadística industrial

Curso: Laboratorio de Estadística Industrial

Alumnos: - Leon Avellaneda, Andre Felipe 17170120


- Ordoñez Huayllas, Christian Arnold 17170167
- Salinas Revilla, Miguel André 17170041

Profesora: Ing. Rosmery Mayta

Horario: miércoles 4 - 6 pm

Ciudad Universitaria – 2019


Laboratorio de Estadística Industrial

INDICE

ANOVA EN UN SENTIDO: .............................................................................................................. 3


ANOVA EN DOS SENTIDOS: .......................................................................................................... 9
REGRESION LINEAL ..................................................................................................................... 15
REGRESIÓN MÚLTIPLE ................................................................................................................ 32
MODELO CURVILÍNEO ................................................................................................................ 41

2
Laboratorio de Estadística Industrial

ANOVA EN UN SENTIDO

Problema N°1:
Una compañía de desarrollos inmobiliarios considera la inversión en un centro comercial
en las afueras de Atlanta. Se evalúan tres terrenos. El ingreso de los pobladores de la zona
aledaña al centro comercial es de especial importancia. Se selecciona una muestra
aleatoria de cuatro familias que viven cerca de cada terreno. A continuación, se presentan
los resultados muestrales. A un nivel de significancia de 0.05 ¿Se puede concluir la
compañía que hay diferencia en los ingresos promedios?
Southwyck Parque Franklin Old Orchard
Miles de US
64 74 75
68 71 80
70 69 76
60 70 78

Solución:
A) H0: 𝜇1 = 𝜇2 = 𝜇3
Ha: Al menos una es diferente

B) 𝛼 = 0.05
C) Estadístico: F
D) Para el punto F (0.05,2,9):

Gráfica de distribución
F; df1=2; df2=9

1.0

0.8
Densidad

0.6

0.4

0.2

0.05
0.0
0 4.256
X

3
Laboratorio de Estadística Industrial

E) Haciendo los cálculos respectivos:


Southwyck Parque Franklin Old Orchard
64 74 75
68 71 80
70 69 76
60 70 78
Tc 262 284 309 855
X2 17220 20178 23885 61283

De esta tabla hallaremos la tabla de tratamientos:

2622 2842 3092 8552


𝑆𝑆𝑇 = + + − = 276.5
4 4 4 12

8552
𝑆𝑆𝑇𝑜𝑡𝑎𝑙 = 61283 − = 364.25
12

FV SC GL MC F
Tratamiento 276.5 2 138.25 14.1795
Error 87.75 9 9.75
Total 364.25 11

Fk pertenece a RC, por lo que se rechaza la H0 y se acepta la Ha

COMPROBACION EN MINITAB:
ANOVA de un solo factor: Southwyck; Franklin; Old
Orcchard
Método
Hipótesis nula Todas las medias son iguales

Hipótesis alterna No todas las medias son iguales

Nivel de significancia α = 0.05


Se presupuso igualdad de varianzas para el análisis.

Información del factor


Factor Niveles Valores
Factor 3 Southwyck; Franklin; Old Orcchard

4
Laboratorio de Estadística Industrial

Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Factor 2 276.50 138.250 14.18 0.002
Error 9 87.75 9.750
Total 11 364.25
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
3.12250 75.91% 70.56% 57.17%
Medias
Factor N Media Desv.Est. IC de 95%
Southwyck 4 65.50 4.43 (61.97; 69.03)
Franklin 4 71.00 2.16 (67.47; 74.53)
Old Orcchard 4 77.25 2.22 (73.72; 80.78)
Desv.Est. agrupada = 3.12250

Comparaciones en parejas de Fisher


Agrupar información utilizando el método LSD de Fisher y una confianza
de 95%
Factor N Media Agrupación
Old Orcchard 4 77.25 A
Franklin 4 71.00 B
Southwyck 4 65.50 C
Las medias que no comparten una letra son significativamente diferentes.

Pruebas individuales de Fisher para diferencias de las medias


Diferencia
de las EE de Valor p
Diferencia de niveles medias diferencia IC de 95% Valor T ajustado
Franklin - Southwyck 5.50 2.21 (0.51; 10.49) 2.49 0.034
Old Orcchard - Southwyck 11.75 2.21 (6.76; 16.74) 5.32 0.000
Old Orcchard - Franklin 6.25 2.21 (1.26; 11.24) 2.83 0.020
Nivel de confianza simultánea = 88.66%

ICs individuales de 95% de Fisher

5
Laboratorio de Estadística Industrial

INTERPRETACIÓN: Con un nivel de significancia del 0.05 se puede concluir


que hay diferencias entre el nivel promedio de ingresos en cada lugar.

Problema N°2:
Nielsen Research desea incorporar un programa de educación física en las escuelas
públicas, para ayudar a los niños con problemas de obesidad a perder peso. Para comparar
las diferentes rutinas se hace la siguiente prueba: se toman 45 alumnos con problemas de
sobrepeso de distintas escuelas de la ciudad y son sometidos a 3 diferentes tipos de rutina.
Se mandan 15 alumnos para cada rutina.
El numero perdido de kilos al final del experimento se muestra en la siguiente tabla:
Rutina 1 Rutina 2 Rutina 3
2.2 3.5 2.5
3.5 3.6 3.5
2.5 3.5 3.3
2.8 3 1
5 3.7 1.5
2 3.3 1.8
3.3 3.2 2
4 3.4 2.4
1.8 3.3 1.4
1.9 3.9 1
4.5 3.1 1
1.6 3 2
29 3 2.9
3 3 2.8
2.8 3.5 2.5

6
Laboratorio de Estadística Industrial

¿Existe alguna diferencia entre los pesos perdidos promedios de os tres tipos de rutina?
Use un nivel de significancia de 0.05

SOLUCION:

A) H0: 𝜇1 = 𝜇2 = 𝜇3
Ha: Al menos una es diferente

B) 𝛼 = 0.05
C) Estadístico: F
D) Para F (0.05,2,42):

Gráfica de distribución
F; df1=2; df2=42

1.0

0.8
Densidad

0.6

0.4

0.2

0.05
0.0
0 3.220
X

E) Hacemos los cálculos respectivos para obtener la tabla de ANOVA:

FV SC GL MC F
Tratamiento 11.6853 2 5.84266 9.916
Error 24.7466 42 0.5892
Total 36.432 44

Fk pertenece a RC, por lo que se rechaza la H0 y se acepta la Ha

7
Laboratorio de Estadística Industrial

COMPROBACION EN MINITAB:

ANOVA de un solo factor: Rutina 1; Rutina 2; Rutina 3


Método
Hipótesis nula Todas las medias son iguales
Hipótesis alterna No todas las medias son iguales
Nivel de significancia α = 0.05
Se presupuso igualdad de varianzas para el análisis.

Información del factor


Factor Niveles Valores
Factor 3 Rutina 1; Rutina 2; Rutina 3
Análisis de Varianza
Fuente GL SC Ajust. MC Ajust. Valor F Valor p
Factor 2 48.92 24.46 1.56 0.223
Error 42 659.50 15.70
Total 44 708.42
Resumen del modelo
R-cuad. R-cuad.
S R-cuad. (ajustado) (pred)
3.96262 6.91% 2.47% 0.00%
Medias
Factor N Media Desv.Est. IC de 95%
Rutina 1 15 4.66 6.81 (2.60; 6.72)
Rutina 2 15 3.3333 0.2845 (1.2685; 5.3981)
Rutina 3 15 2.107 0.825 (0.042; 4.171)
Desv.Est. agrupada = 3.96262

Comparaciones en parejas de Fisher


Agrupar información utilizando el método LSD de Fisher y una confianza
de 95%
Factor N Media Agrupación
Rutina 1 15 4.66 A
Rutina 2 15 3.3333 A
Rutina 3 15 2.107 A
Las medias que no comparten una letra son significativamente diferentes.

8
Laboratorio de Estadística Industrial

Pruebas individuales de Fisher para diferencias de las medias


Diferencia
de las EE de Valor p
Diferencia de niveles medias diferencia IC de 95% Valor T ajustado
Rutina 2 - Rutina 1 -1.33 1.45 (-4.25; 1.59) -0.92 0.364
Rutina 3 - Rutina 1 -2.55 1.45 (-5.47; 0.37) -1.76 0.085
Rutina 3 - Rutina 2 -1.23 1.45 (-4.15; 1.69) -0.85 0.401
Nivel de confianza simultánea = 87.97%

ICs individuales de 95% de Fisher

INTERPRETACIÓN: Con un nivel de significancia del 0.05 se puede concluir que NO


todos los pesos perdidos promedios de los tres tipos de rutina sometidos a los niños con
obesidad son iguales

ANOVA EN DOS SENTIDOS:


Problema N°1:

Una empresa opera 24 horas al día, cinco días a la semana. Los trabajadores cambian de
turno cada semana. La gerencia esta interesada en saber si hay alguna diferencia en el
número de unidades producidas cuando los empleados laboran en diversos turnos. Se
seleccionó una muestra de cinco obreros y se registró su producción en cada turno. Al
nivel de significancia de 0.05, ¿Se puede concluir que hay diferencia en la producción
media por turno o en la producción media por trabajador?

9
Laboratorio de Estadística Industrial

MAÑANA TARDE NOCHE


Skaff 31 25 35
Lum 33 26 33
Clark 28 24 30
Treece 30 29 28
Morgan 28 26 27

SOLUCION:

1. PRUEBA DE HIPOTESIS PARA LOS TURNOS

A) H0: 𝜇𝑀 = 𝜇𝑇 = 𝜇𝑁
Ha: Al menos una es diferente

B) 𝛼 = 0.05
C) Estadístico: F
D) Para F (0.05,2,8)

Gráfica de distribución
F; df1=2; df2=8

1.0

0.8
Densidad

0.6

0.4

0.2

0.05
0.0
0 4.459
X

2. PRUEBA DE HIPOSESIS PARA TRABAJADORES

A) H0: 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5
Ha: Al menos una es diferente

B) 𝛼 = 0.05
C) Estadístico: F
D) Para F (0.05,4,8)

10
Laboratorio de Estadística Industrial

Gráfica de distribución
F; df1=4; df2=8
0.7

0.6

0.5
Densidad

0.4

0.3

0.2

0.1

0.05
0.0
0 3.838
X

Ahora después de haber realizado los cálculos respectivos, construiremos la siguiente


tabla ANOVA:

FV SC GL MC F
Tratamiento 62.533 2 31.266 Ftrat=5.7546
Bloques 33.73 4 8.433 Fbloque=1.5521
Error 43.466 8 5.433
Total 139.733 14

CALCULOS EN MINITAB:

ANOVA: valores vs. Trabajador; turno


Información del factor
Factor Tipo Niveles Valores
Trabajador Fijo 5 Clark; Lum; Morgan; Skaff; Treece
turno Fijo 3 Mañana; Noche; Tarde
Análisis de varianza de valores
Fuente GL SC MC F P
Trabajador 4 33.73 8.433 1.55 0.276
turno 2 62.53 31.267 5.75 0.028

11
Laboratorio de Estadística Industrial

Error 8 43.47 5.433


Total 14 139.73
Resumen del modelo
R-cuad.
S R-cuad. (ajustado)
2.33095 68.89% 45.56%

INTERPRETACIÓN:

 TRATAMIENTO:
El Ftrat pertenece a la región critica, por lo tanto, se rechaza la H0 y se acepta el
Ha. Entonces se concluye que si existe diferencia significativa en el número de
unidades de promedio producidas cuando los empleados laboran en turnos
distintos.

 BLOQUE:

El Fbloque pertenece a la región de aceptación, por lo tanto, se acepta la H0 y se


rechaza la Ha. Entonces se concluye que no existe diferencia significativa entre la
producción media realizada por cada trabajador.
Problema N°2:

Existen cuatro restaurantes McBurger en el área de Columbus. Las cantidades de


hamburguesas vendidas en los establecimientos respectivos, para cada una de las ultimas
seis semanas, se muestran a continuación. Al nivel de 0.05 de significancia, ¿Existe
diferencia en el numero promedio vendido entre los cuatro restaurantes, cuando se
considera el factor semana?
Restaurante
Semana Metro Interestatal Universidad Rio
1 124 160 320 190
2 234 220 340 230
3 430 290 290 240
4 105 245 310 170
5 240 205 280 180
6 310 260 270 205

SOLUCION

1. PRUEBA DE HIPOTESIS DE LOS RESTAURANTES:

A) H0: 𝜇𝑀 = 𝜇𝑇 = 𝜇𝑁
Ha: Al menos una es diferente

B) 𝛼 = 0.05

12
Laboratorio de Estadística Industrial

C) Estadístico: F
D) Para F (0.05,3,15)

Gráfica de distribución
F; df1=3; df2=15

0.7

0.6

0.5
Densidad

0.4

0.3

0.2

0.1

0.05
0.0
0 3.287
X

2. PRUEBA DE HIPOSESIS PARA SEMANAS(BLOQUE)

A) H0: 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4
Ha: Al menos una es diferente

B) 𝛼 = 0.05
C) Estadístico: F
D) Para F (0.05,5,15)

Gráfica de distribución
F; df1=5; df2=15
0.8

0.7

0.6

0.5
Densidad

0.4

0.3

0.2

0.1
0.05
0.0
0 2.901
X

13
Laboratorio de Estadística Industrial

Ahora después de haber realizado los cálculos respectivos, construiremos la siguiente


tabla ANOVA:

FV SC GL MC F
Tratamiento 31533 3 10511 Ftra=2.865
Bloques 35402.83 5 7080.567 Fblo=1.93
Error 55033.5 15 3668.9
Total 121969.33 23

CALCULOS EN MINITAB:

ANOVA: Ventas vs. Semana; Restaurante


Información del factor
Factor Tipo Niveles Valores
Semana Fijo 6 1; 2; 3; 4; 5; 6
Restaurante Fijo 4 Interestatal; Metro; rio; universidad
Análisis de varianza de Ventas
Fuente GL SC MC F P
Semana 5 35403 7081 1.93 0.149
Restaurante 3 31533 10511 2.86 0.072
Error 15 55033 3669
Total 23 121969
Resumen del modelo
R-cuad.
S R-cuad. (ajustado)
60.5714 54.88% 30.81%

INTERPRETACIÓN:

 TRATAMIENTO:
El Ftra pertenece a la región de aceptación, por lo tanto, se acepta la H0 y se
rechaza la Ha. Entonces se concluye que NO existe diferencia significativa en el
número de hamburguesas vendidas promedio en cada restaurante.

 BLOQUE:

El Fbloque pertenece a la región de aceptación, por lo tanto, se acepta la H0 y se


rechaza la Ha. Entonces se concluye que no existe diferencia significativa entre la
cantidad media vendida de hamburguesas.

14
Laboratorio de Estadística Industrial

REGRESION LINEAL

PROBLEMA 1
Un consultor está interesado en el grado de dispersión con que un nuevo índice de
desempeño laboral mide lo que es importante para una corporación. Una forma de
verificarlo es analizar la relación entre el índice de evaluación del trabajo y el salario de
un empleado. Se tomó una muestra de ocho empleados y se recabó información del salario
(en miles de dólares) y el índice de evaluación del trabajo (1 a 10, donde 10 es la mejor
calificación.
Trabajador Índice de evaluación Salario(Y)
del trabajo (IET) (X)
1 9 36
2 7 25
3 8 33
4 4 15
5 7 28
6 5 19
7 5 20
8 6 22

a. Determine el coeficiente de correlación.

b. Coeficiente de determinación e interprete.

c. Coeficiente de no determinación e interprete.

d. Determine la ecuación de regresión lineal e interprete los coeficientes de

regresión.

e. Determine el error estándar de estimación.

f. Realice la inferencia sobre los coeficientes de regresión de población (𝛼= 0.05).

g. Realice la prueba de hipótesis para el coeficiente de correlación (𝛼= 0.05).

h. Estimado del intervalo de confianza de B1.

i. Intervalo de confianza y predicción para X=6.

j. Realice el análisis de influencia.

15
Laboratorio de Estadística Industrial

SOLUCION:

Construimos la siguiente tabla para el desarrollo de las preguntas.

IET(X) Salario(Y) X2 XY Y2
9 36 81 324 1296
7 25 49 175 625
8 33 64 264 1089
4 15 16 60 225
7 28 49 196 784
5 19 25 95 361
5 20 25 100 400
6 22 36 132 484

∑𝑿 ∑𝑌 ∑ 𝑋2 ∑ 𝑋𝑌 ∑ 𝑌2

51 198 345 1346 5264

a. Coeficiente de correlación

𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑟=
√[𝑛 ∑ 𝑥 2 − (∑ 𝑥)2 ][𝑛 ∑ 𝑦 2 − (𝑦)2 ]

8𝑥345 − 51𝑥198
𝑟=
√[8𝑥1346 − 512 ][8𝑥198 − 1982 ]

𝑟 = 0.9853

Interpretación: Existe una correlación muy fuerte y positiva entre el índice de

evaluación de trabajo y el salario.

b. Coeficiente de determinación (r2)

𝑟 2 = 0.98532 = 0.9709

Interpretación: El 97.09% de la variación del salario(y) será explicado por la

variación del índice de evaluación del trabajo(x).

16
Laboratorio de Estadística Industrial

c. Coeficiente de la no determinación

1 − 𝑟 2 = 1 − 0.9709 = 0.0291

Interpretación: El 2.91% de la variación del salario(y) no será explicado por la

variación del índice de evaluación del trabajo(x).

d. Ecuación de regresión

𝑦 = 𝑎 + 𝑏𝑥

𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑏=
𝑛 ∑ 𝑥 2 − (∑ 𝑥)2

8𝑥1346 − 51𝑥198
𝑏=
8𝑥345 − 512

𝑏 = 4.2138

∑𝑦 𝑏∑𝑥
𝑎= −
𝑛 𝑛

198 4.2138𝑥51
𝑎= −
8 8

𝑎 = −2.1130

Gráfica de línea ajustada


y = - 2,113 + 4,214 x
S 1,32861
35 R-cuad. 97,1%
R-cuad.(ajustado) 96,6%

30

25
y

20

15

4 5 6 7 8 9
x

Gráfica de la línea ajustada

Entonces la ecuación de regresión estimada es:

𝑦 = −2.1130 + 4.2138𝑥

17
Laboratorio de Estadística Industrial

Resultados en el Minitab:

Análisis de regresión

Análisis de varianza de la regresión

Interpretación: Por cada unidad de aumento en el índice de evaluación del


trabajo, el salario en promedio de un empleado aumentara en 4.2138 miles de
dólares. Cuando el índice de evaluación obtenido es cero, el salario promedio de
un empleado siempre disminuirá en 2.1130 miles de dólares.
e. Error estándar de estimación

∑ 𝑦 2 − 𝑎 ∑ 𝑦 − 𝑏 ∑ 𝑥𝑦
𝑆𝑦𝑥 = √
𝑛−2

5264 − (−2.1130)𝑥198 − 4.2138𝑥1346


𝑆𝑦𝑥 = √
8−2

𝑆𝑦𝑥 = 1.3291

Interpretación: Alrededor de la línea de dispersión están dispersos 1.3291.

f. Inferencia sobre los coeficientes de regresión

1) Ho: 𝛽1 = 0 (No hay relación)

Ha: 𝛽1 ≠ 0 (Si hay relación)

2) 𝛼 = 0.05

3) t-student

18
Laboratorio de Estadística Industrial

4) Grafica de la RA y RC

5) Cálculo del estadístico

𝑏 − 𝛽1
𝑡=
𝑆𝑏

𝑆𝑦𝑥
𝑆𝑏1 =
2
√∑ 𝑥 2 − (∑ 𝑥)
𝑛

1.3291
𝑆𝑏1 =
2
√345 − 51
8

𝑆𝑏1 = 0.2981

4.2138 − 0
𝑡=
0.2981

𝑡 = 14.1355

𝑡𝑘 ∈ 𝑅𝐶 → 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 𝐻𝑜 𝑦 𝑎𝑐𝑒𝑝𝑡𝑜 𝑙𝑎 𝐻𝑎

Se concluye que, existe una relación entre los coeficientes de regresión.

g. Prueba de hipótesis para coeficientes de correlación.

1) Ho: 𝜌 = 0 (No hay relación)

Ha: 𝜌 ≠ 0 (Si hay relación)

19
Laboratorio de Estadística Industrial

2) 𝛼 = 0.05

3) t-student

4) Grafica de la RA y RC

5) Cálculo del estadístico

𝑟√𝑛 − 2
𝑡=
√1 − 𝑟 2

0.9853√8 − 2
𝑡=
√1 − 0.98532

𝑡 = 14.1277

𝑡𝑘 ∈ 𝑅𝐶 → 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 𝐻𝑜 𝑦 𝑎𝑐𝑒𝑝𝑡𝑜 𝑙𝑎 𝐻𝑎

Interpretación: Existe una correlación entre el índice de evaluación del trabajo y

el salario.

h. Intervalo de confianza de 𝛽1

𝑏 − 𝑡(0.05,10−2) 𝑆𝑏1 ≤ 𝛽1 ≤ 𝑏 + 𝑡(0.05,10−2) 𝑆𝑏1

4.2138 − 2.447𝑥0.2981 ≤ 𝛽1 ≤ 4.2138 + 2.447𝑥0.2981

3.4843 ≤ 𝛽1 ≤ 4.9432

i. Intervalo de confianza y predicción para X=6

𝑦 = −2.1130 + 4.2138𝑥

𝑦(6) = −2.1130 + 4.2138(6)

20
Laboratorio de Estadística Industrial

𝑦 = 23.1698

Intervalo de confianza

1 (𝑥 − 𝑥̅ )
𝐼𝐶 = 𝑦̂ ± 𝑡(0.05,10−8) 𝑆𝑦𝑥 √ +
𝑛 ∑ 2 (∑ 𝑥)2
𝑥 − 𝑛

1 (6 − 6.375)2
𝐼𝐶 = 23.1698 ± 2.447𝑥1.3291√ +
8 512
345 − 8

𝐼𝐶: [21.9878,24.3518]

Interpretación: El intervalo de confianza del 95% para el valor del salario para
un índice de evaluación de 6 es de 21.9878 hasta 24.3518

Intervalo de predicción

1 (𝑥 − 𝑥̅ )2
𝐼𝑃 = 𝑦̂ ± 𝑡(0.05,10−8) 𝑆𝑦𝑥 √1 + +
𝑛 ∑ 2 (∑ 𝑥)2
𝑥 − 𝑛

1 (6 − 6.375)2
𝐼𝑃 = 23.1698 ± 2.447𝑥1.3291√1 + +
8 512
345 − 8

𝐼𝑃: [19.7094,26.6302]

Interpretación: Un índice de evaluación en el trabajo de 6 hará que los valores


de los salarios estén entre 19.7094,26.6302.

21
Laboratorio de Estadística Industrial

j. Análisis de influencia
X Y RESID-T HI COOK

9 36 0,17893 0,471698 0,017042

7 25 -2,90027 0,144654 0,318205

8 33 1,29188 0,257862 0,260861

4 15 0,23166 0,408805 0,022029

7 28 0,46781 0,144654 0,021276

5 19 0,03426 0,220126 0,000199

5 20 0,87185 0,220126 0,111743

6 22 -0,93517 0,132075 0,067962

1) Elementos de la matriz sombrero hi*

ℎ𝑖∗ > 4/𝑛

ℎ𝑖∗ > 4/8

ℎ𝑖∗ > 0.5

𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 ℎ𝑖∗ > 0.5, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠

2) Para los residuales de t-student

|𝑡𝑖∗ | > 𝑡(0.1,8−3)

|𝑡𝑖∗ | > 2.015

En la tabla

𝑡2= |−2,90027| > 2.015 → 𝑡2 𝑒𝑠 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜

𝑡4= |0.23166| > 2.015 → 𝑡4 𝑒𝑠 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜

3) Estadístico de la distancia de Cook Di*

22
Laboratorio de Estadística Industrial

𝐷𝑖∗ > 𝐹(0.5,2,8−2)

𝐷𝑖∗ > 0.759

𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 𝐷𝑖∗ > 0.759 → 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠

Conclusión: No existe datos eliminados

PROBLEMA 2
El señor james McWhinney, presidente de la empresa Daniel-James Financial Service,
considera que existe relación entre el número de entrevistas con clientes y el importe en
dólares de las ventas. Para documentar este aserto, recopiló la siguiente información
muestral. La columna muestra el valor de las ventas (en miles de dólares) del mes en
cuestión para cada cliente en la muestra.
Numero de contactos Ventas (Y)
(X)
14 24
12 14
20 28
16 30
46 80
23 30
48 90
50 85
55 120
50 110

a. Determine el coeficiente de correlación.

b. Coeficiente de determinación e interprete.

c. Coeficiente de no determinación e interprete.

d. Determine la ecuación de regresión lineal e interprete los coeficientes de

regresión.

e. Determine el error estándar de estimación.

f. Realice la inferencia sobre los coeficientes de regresión de población (𝛼= 0.05).

23
Laboratorio de Estadística Industrial

g. Realice la prueba de hipótesis para el coeficiente de correlación (𝛼= 0.05).

h. Estimado del intervalo de confianza de B1.

i. Intervalo de confianza y predicción para 40 clientes (X=40).

j. Realice el análisis de influencia.

SOLUCIÓN:

Construimos la siguiente tabla para el desarrollo de las preguntas.

Nro. Ventas X2 XY Y2
Contactos(X) (Y)
14 24 196 336 576
12 14 144 168 196
20 28 400 560 784
16 30 256 480 900
46 80 2116 3680 6400
23 30 529 690 900
48 90 2304 4320 8100
50 85 2500 4250 7225
55 120 3025 6600 14400
50 110 2500 5500 12100

∑𝑿 ∑𝑌 ∑ 𝑋2 ∑ 𝑋𝑌 ∑ 𝑌2

334 611 13970 26584 51581

24
Laboratorio de Estadística Industrial

a. Coeficiente de correlación

𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑟=
√[𝑛 ∑ 𝑥 2 − (∑ 𝑥)2 ][𝑛 ∑ 𝑦 2 − (𝑦)2 ]

10𝑥26584 − 334𝑥611
𝑟=
√[10𝑥13970 − 3342 ][10𝑥51581 − 6112 ]

𝑟 =0.9754

Interpretación: Existe una correlación muy fuerte y positiva entre el número de

contactos(x) y las ventas(y).

b. Coeficiente de determinación (r2)

𝑟 2 = 0.97542 = 0.9514

Interpretación: El 95.14% de la variación del número de ventas será explicado por

la variación del número de contactos.

c. Coeficiente de la no determinación

1 − 𝑟 2 = 1 − 0.9514 = 0.0486

Interpretación: El 4.86% de la variación del número de ventas no será explicado

por la variación del número de contactos.

d. Ecuación de regresión

𝑦 = 𝑎 + 𝑏𝑥

𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
𝑏=
𝑛 ∑ 𝑥 2 − (∑ 𝑥)2

10𝑥26584 − 334𝑥611
𝑏=
10𝑥13970 − 3342

𝑏 = 2.1946

∑𝑦 𝑏∑𝑥
𝑎= −
𝑛 𝑛
611 2.1946𝑥334
𝑎= −
10 10

𝑎 = −12.1996

25
Laboratorio de Estadística Industrial

Entonces la ecuación de regresión estimada es:

𝑦 = −12.1996 + 2.1946𝑥

Resultados en el Minitab:

Gráfica de línea ajustada


y = - 12,20 + 2,195 x

120 S 9,31045
R-cuad. 95,1%
R-cuad.(ajustado) 94,5%
100

80

60
y

40

20

0
10 20 30 40 50 60
x

Gráfica de la línea ajustada

Interpretación: Por cada unidad que se incrementa en el número de cliente el valor

de las ventas incrementará en 2.1946.

Análisis de regresión

Análisis de varianza de la regresión

26
Laboratorio de Estadística Industrial

e. Error estándar de estimación

∑ 𝑦 2 − 𝑎 ∑ 𝑦 − 𝑏 ∑ 𝑥𝑦
𝑆𝑦𝑥 = √
𝑛−2

51581 − (−12.1996)𝑥611 − 2.1946𝑥26584


𝑆𝑦𝑥 = √
10 − 2

𝑆𝑦𝑥 = 9.3120

Interpretación: Los valores de las ventas están dispersos alrededor de la línea de


regresión en 9.3120.
f. Inferencia sobre los coeficientes de regresión

1) Ho: 𝛽1 = 0 (No hay relación)

Ha: 𝛽1 ≠ 0 (Si hay relación)

2) 𝛼 = 0.05

3) t-student

4) Grafica de la RA y RC

5) Cálculo del estadístico

𝑏 − 𝛽1
𝑡=
𝑆𝑏

27
Laboratorio de Estadística Industrial

𝑆𝑦𝑥
𝑆𝑏1 =
2
√∑ 𝑥 2 − (∑ 𝑥)
𝑛

9.3120
𝑆𝑏1 =
2
√13970 − 334
10

𝑆𝑏1 = 0.1755

2.1946 − 0
𝑡=
0.1755

𝑡 = 12.5048

𝑡𝑘 ∈ 𝑅𝐶 → 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 𝐻𝑜 𝑦 𝑎𝑐𝑒𝑝𝑡𝑜 𝑙𝑎 𝐻𝑎

Se concluye que, existe una relación entre el número de clientes y la variable

ventas

g. Prueba de hipótesis para coeficientes de correlación.

1) Ho: 𝜌 = 0 (No hay relación)

Ha: 𝜌 ≠ 0 (Si hay relación)

2) 𝛼 = 0.05

3) t-student

4) Grafica de la RA y RC

28
Laboratorio de Estadística Industrial

5) Cálculo del estadístico

𝑟√𝑛 − 2
𝑡=
√1 − 𝑟 2

0.9754√10 − 2
𝑡=
√1 − 0.97542

𝑡 = 12.5151

𝑡𝑘 ∈ 𝑅𝐶 → 𝑅𝑒𝑐ℎ𝑎𝑧𝑜 𝑙𝑎 𝐻𝑜 𝑦 𝑎𝑐𝑒𝑝𝑡𝑜 𝑙𝑎 𝐻𝑎

Interpretación: Si existe correlación entre la variable número de contactos y

ventas.

h. Intervalo de confianza de 𝛽1

𝑏 − 𝑡(0.05,10−2) 𝑆𝑏1 ≤ 𝛽1 ≤ 𝑏 + 𝑡(0.05,10−2) 𝑆𝑏1

2.1946 − 2.306𝑥0.1755 ≤ 𝛽1 ≤ 2.1946 + 2.306𝑥0.1755

1.7899 ≤ 𝛽1 ≤ 2.5993

i. Intervalo de confianza y predicción para X=40

𝑦 = −12.1996 + 2.1946𝑥

𝑦(40) = −12.1996 + 2.1946(40)

𝑦 = 75.5844

Intervalo de confianza

1 (𝑥 − 𝑥̅ )
𝐼𝐶 = 𝑦̂ ± 𝑡(0.05,10−8) 𝑆𝑦𝑥 √ +
𝑛 ∑ 2 (∑ 𝑥)2
𝑥 − 𝑛

1 (40 − 33.4)2
𝐼𝐶 = 75.5844 ± 2.306𝑥9.3120√ +
10 3342
13970 − 10

𝐼𝐶: [68.2873,82.8815]

29
Laboratorio de Estadística Industrial

Interpretación: En el intervalo de confianza del 95% para una cantidad de 40

contactos la cantidad de ventas se encuentra en el intervalo 68.2873 hasta 82.8815.

Intervalo de predicción

1 (𝑥 − 𝑥̅ )2
𝐼𝑃 = 𝑦̂ ± 𝑡(0.05,10−8) 𝑆𝑦𝑥 √1 + +
𝑛 ∑ 2 (∑ 𝑥)2
𝑥 − 𝑛

1 (40 − 33.4)2
𝐼𝑃 = 75.5844 ± 2.306𝑥9.3120√1 + +
10 3342
13970 − 10

𝐼𝑃: [52.9049,98.2639]

Interpretación: Una cantidad de 40 contactos hará que los valores de las ventas

estén entre 52.9049 y 98.2639

j. Análisis de influencia

X Y RES-T HI COOK

14 24 0,64703 0,233727 0,068850

12 14 -0,01576 0,262720 0,000051

20 28 -0,41047 0,163800 0,018416

16 30 0,83910 0,207575 0,095760

46 80 -1,02701 0,156410 0,097117

23 30 -0,95199 0,138431 0,073671

48 90 -0,35072 0,175739 0,014727

50 85 -1,65936 0,197911 0,278630

55 120 1,56642 0,265776 0,375804

50 110 1,64793 0,197911 0,275875

30
Laboratorio de Estadística Industrial

1) Elementos de la matriz sombrero hi*

ℎ𝑖∗ > 4/𝑛

ℎ𝑖∗ > 4/10

ℎ𝑖∗ > 0.4

𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 ℎ𝑖∗ > 0.4, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠

2) Para los residuales de t-student

|𝑡𝑖∗ | > 𝑡(0.1,10−3)

|𝑡𝑖∗ | > 1.895

En la tabla

𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 𝑡𝑖∗ > 1.895 → 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠

3) Estadístico de la distancia de Cook Di*

𝐷𝑖∗ > 𝐹(0.5,2,10−2)

𝐷𝑖∗ > 0.751

𝐸𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 ∄ 𝑢𝑛 𝐷𝑖∗ > 0.751 → 𝑛𝑜 ℎ𝑎𝑦 𝑐𝑎𝑛𝑑𝑖𝑑𝑎𝑡𝑜𝑠 𝑎 𝑠𝑒𝑟 𝑒𝑙𝑖𝑚𝑖𝑛𝑎𝑑𝑜𝑠

Conclusión: No existe datos eliminados.

31
Laboratorio de Estadística Industrial

REGRESIÓN MÚLTIPLE

1. El gerente de una empresa estudia las posibles relaciones entre beneficios anuales,
gastos en publicidad anuales y horas extraordinarias anuales de los empleados. Para
ello utiliza datos, de estas tres variables, proporcionadas por algunas empresas del
sector.

Beneficios Gastos Horas extras


(millones) Publicidad (100 horas)
(millones)
1.3 0.3 4
3.5 1.5 9
2.8 0.7 6
3 1.1 7.5
3.3 1.2 8
4 2 7
3.7 2 8

Resultados resumidos en minitab

a.-Determine el coeficiente de correlación.

El coeficiente de correlación múltiple está dado por:


𝑆𝑆𝑅
𝑟= √
𝑆𝑆𝑇𝑂𝑇𝐴𝐿

4.2606
𝑟= √ = 0.9512
4.7086

32
Laboratorio de Estadística Industrial

Existe una correlación muy fuerte positiva entre la relación de los beneficios
obtenidos, la inversión en publicidad y la cantidad de horas extras trabajadas.

b.- Coeficiente de determinación e interprete.

El coeficiente de determinación está dado por:

𝑆𝑆𝑅
𝑟2 =
𝑆𝑆𝑇𝑂𝑇𝐴𝐿

4.2606
𝑟2 = = 0.9049
4.7086

El 90.49% de la variación en los beneficios obtenidos se debe a la variación de la


inversión en publicidad y la cantidad de horas extras trabajadas.

c.- Coeficiente de no determinación e interprete.

El coeficiente de la no determinación está dado por:

𝑆𝑆𝑅
1 − 𝑟2 =
𝑆𝑆𝑇𝑂𝑇𝐴𝐿

4.2606
1 − 𝑟2 = 1 − = 0.0951
4.7086

El 9.51% de la variación en los beneficios obtenidos no será explicado por la variación


de la inversión en publicidad y la cantidad de horas extras trabajadas.

d.- Determine la ecuación de regresión e interprete los coeficientes.

El valor de la intersección es 0.590. Este es el punto donde la ecuación de regresión


cruza al eje Y.
Por cada millón de soles invertidos en publicidad, los beneficios aumentan en 0.936
millones de soles.
Por cada 100 horas extras trabajadas, se espera que los beneficios aumenten 0.187
millones de soles.

33
Laboratorio de Estadística Industrial

e.- Determine el error estándar de estimación.

El error estándar de estimación está dado por:


𝑆𝑆𝐸
𝑆𝑒 = √
𝑛 − (𝑘 + 1)

0.4479
𝑆𝑒 = √ = 0.3346
7 − (2 + 1)
El grado de dispersión alrededor de la línea de regresión múltiple es de 0.3346.

f.- Realice la inferencia sobre los coeficientes de regresión de la población (prueba


global), con un nivel de significancia de 0.05.

1. − 𝑺𝒆 𝒑𝒍𝒂𝒏𝒕𝒆𝒂 𝒍𝒂 𝑯𝒐 𝒚 𝒍𝒂 𝑯𝒂
𝐻𝑜 𝛽1 = 𝛽2 =0
𝐻𝑎 𝑁𝑜 𝑡𝑜𝑑𝑎𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠 𝑎 𝑐𝑒𝑟𝑜

2. −𝑵𝒊𝒗𝒆𝒍 𝒅𝒆 𝒔𝒊𝒈𝒏𝒊𝒇𝒊𝒄𝒂𝒏𝒄𝒊𝒂: 𝛼 = 0,05

3. − 𝑺𝒆 𝒅𝒆𝒇𝒊𝒏𝒆 𝒆𝒍 𝒆𝒔𝒕𝒂𝒅í𝒔𝒕𝒊𝒄𝒐 𝐹 .

4. −𝑺𝒆 𝒅𝒆𝒇𝒊𝒏𝒆 𝒍𝒂 𝒓𝒆𝒈𝒊ó𝒏 𝒅𝒆 𝒂𝒄𝒆𝒑𝒕𝒂𝒄𝒊ó𝒏 𝒚 𝒅𝒆 𝒓𝒆𝒄𝒉𝒂𝒛𝒐. (𝑅𝑒𝑔𝑖𝑜𝑛


𝑠𝑜𝑚𝑏𝑟𝑒𝑎𝑑𝑎, 𝑟𝑒𝑔𝑖ó𝑛 𝑑𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑜 𝑦 𝑙𝑎 𝑟𝑒𝑠𝑡𝑎𝑛𝑡𝑒, 𝑟𝑒𝑔𝑖ó𝑛 𝑑𝑒 𝑎𝑐𝑒𝑝𝑡𝑎𝑐𝑖ó𝑛).

34
Laboratorio de Estadística Industrial

𝑅. 𝐶 = < 6.944; ∞ >

𝑅. 𝐴 = < 0; 6.944 >

19.02 𝑝𝑒𝑟𝑡𝑒𝑛𝑒𝑐𝑒 𝑎 𝑙𝑎 𝑟𝑒𝑔𝑖ó𝑛 𝑑𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑜, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒


𝑎𝑐𝑒𝑝𝑡𝑎 𝑙𝑎 𝐻𝑎 𝑦 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝑙𝑎 𝐻𝑜.

Se puede afirmar con un nivel de significancia de 0.05, que los coeficientes de

regresión de la población son distintos de cero.

g.- Calcular los intervalos de confianza y predicción con un nivel de confianza del
95% para X1 = 4.3 y X2 = 6.3.

Tenemos: Y = 0.590+0.936*x1+0.187*x2
Y = 0.590+0.936*4.3+0.187*6.3= 5.7929
Cálculo del intervalo de confianza, 𝛼 = 0,05 :

𝑆𝑒
𝐼𝐶 = 𝑦̂ ± 𝑡(𝛼;𝑛−𝐾−1) ∗
√𝑛

0.3346
𝐼𝐶 = 5.7929 ± 2.776 ∗
√7
𝐼𝐶 = [ 5.4478; 6.1439 ]

El intervalo de confianza del 95% si todas las empresas del sector invierten 4.3
millones de soles en publicidad y las horas de trabajo (cada 100) son 6.3, los beneficios
ganados esperados van desde 179.36 a 196.66 millones de soles.

Cálculo del intervalo de predicción, 𝛼 = 0,05 :

𝐼𝑃 = 𝑦̂ ± 𝑡(𝛼;𝑛−𝐾−1) ∗ 𝑆𝑒

𝐼𝑃 = 5.7929 ± 2.776 ∗ 0.3346


𝐼𝑃 = [ 4.8641; 6.7217 ]

Si una empresa del sector invierte 4.3 millones de soles en publicidad 6.3 horas (cada
100) de trabajo, el intervalo de predicción va desde 4.8641 a 6.7217.

35
Laboratorio de Estadística Industrial

h.-Realizar el análisis residual.

 Uso de los elementos de la matriz sombrero Hi


(𝑝 + 1) (2 + 1)
𝐻𝑖 > 2 ∗ → 𝐻𝑖 > 2 ∗ → 𝐻𝑖 > 0.85
𝑛 7

Se puede observar en la tabla que no hay candidatos para este criterio.

 Uso de los residuales de t


|𝑡𝑖| > 𝑡 (0.1 , 𝑛 − 𝑝 − 2) → |𝑡𝑖| > 𝑡 (0.1 ,3)
𝑡 (0.1 ,3) = 2.353

Se puede observar en la tabla que no hay candidatos para este criterio.

 Estadístico de la distancia de Cook


𝐷𝑖 > 𝐹(0.5, 𝑝 + 1 , 𝑛 − 𝑝 − 1) → 𝐷𝑖 > 𝐹 (0.5, 3 , 4)

Finalmente, ningún valor cumplió con los tres criterios y por lo tanto ninguno será
eliminado.

2. El señor Steve Douglas fue contratado como gerente en capacitación por una
importante empresa financiera. Como primer proyecto, se le pidió que estudiara la
utilidad bruta en la industria química. ¿Qué factores afectan las utilidades en esa
industria? Steve selecciona al azar una muestra aleatoria de 16 compañías y obtiene
datos respecto a la cantidad de empleados, el número de dividendos consecutivos
pagados de acciones comunes, el valor total del inventario al inicio del presente año y
ganancia bruta de cada empresa. Sus hallazgos son:
(Mason, 2004, p. 535)

36
Laboratorio de Estadística Industrial

Compañía Ganancia Número de Dividendos Inventario


bruta empleados, consecutivos, Inicial
(miles de X1 X2 (miles de
dólares) Y dólares),
X3
1 2800 140 12 1800
2 1300 65 21 320
3 1230 130 42 820
4 1600 115 80 76
5 4500 390 120 3600
6 5700 670 64 8400
7 3150 205 43 508
8 640 40 14 870
9 3400 480 88 5500
10 6700 810 98 9875
11 3700 120 44 6500
12 6440 590 110 9130
13 1280 440 38 1200
14 4160 280 24 890
15 3870 650 60 1200
16 980 150 24 1300

a.-Determine el coeficiente de correlación.

El coeficiente de correlación múltiple está dado por:


𝑆𝑆𝑅
𝑟= √
𝑆𝑆𝑇𝑂𝑇𝐴𝐿

45510101
𝑟= √ = 0.8879
57725994

Existe una correlación muy fuerte positiva entre la relación de la ganancia bruta,
número de empleados, dividendos consecutivos e inventario inicial.

b.- Coeficiente de determinación e interprete.

El coeficiente de determinación está dado por:

𝑆𝑆𝑅
𝑟2 =
𝑆𝑆𝑇𝑂𝑇𝐴𝐿

45510101
𝑟2 = = 0.7884
57725994

37
Laboratorio de Estadística Industrial

El 78.84% de la variación en los beneficios obtenidos se debe a la variación de número


de empleados, dividendos consecutivos e inventario final.

c.- Coeficiente de no determinación e interprete.

El coeficiente de la no determinación está dado por:

𝑆𝑆𝑅
1 − 𝑟2 =
𝑆𝑆𝑇𝑂𝑇𝐴𝐿

45510101
1 − 𝑟2 = 1 − = 0.2116
57725994

El 21.16% de la variación en los beneficios obtenidos no será explicado por la


variación de número de empleados, dividendos consecutivos e inventario final.

d.- Determine la ecuación de regresión e interprete los coeficientes.

El valor de la intersección es 965. Este es el punto donde la ecuación de regresión


cruza al eje Y.
Por cada número de empleados, la ganancia bruta aumenta en 2.87.
Por cada dividendo consecutivo, la ganancia bruta aumenta en 6.8.
Por cada inventario inicial, la ganancia bruta aumenta en 0.287.

e.- Determine el error estándar de estimación.

El error estándar de estimación está dado por:


𝑆𝑆𝐸
𝑆𝑒 = √
𝑛 − (𝑘 + 1)

12215892
𝑆𝑒 = √ = 1008.9554
16 − (3 + 1)
El grado de dispersión alrededor de la línea de regresión múltiple es de 1008.9554

f.- Realice la inferencia sobre los coeficientes de regresión de la población (prueba


global), con un nivel de significancia de 0.05.

1. − 𝑺𝒆 𝒑𝒍𝒂𝒏𝒕𝒆𝒂 𝒍𝒂 𝑯𝒐 𝒚 𝒍𝒂 𝑯𝒂
𝐻𝑜 𝛽1 = 𝛽2 = 𝛽3

38
Laboratorio de Estadística Industrial

𝐻𝑎 𝑁𝑜 𝑡𝑜𝑑𝑎𝑠 𝑠𝑜𝑛 𝑖𝑔𝑢𝑎𝑙𝑒𝑠 𝑎 𝑐𝑒𝑟𝑜

2. −𝑵𝒊𝒗𝒆𝒍 𝒅𝒆 𝒔𝒊𝒈𝒏𝒊𝒇𝒊𝒄𝒂𝒏𝒄𝒊𝒂: 𝛼 = 0,05

3. − 𝑺𝒆 𝒅𝒆𝒇𝒊𝒏𝒆 𝒆𝒍 𝒆𝒔𝒕𝒂𝒅í𝒔𝒕𝒊𝒄𝒐 𝐹 .

4. −𝑺𝒆 𝒅𝒆𝒇𝒊𝒏𝒆 𝒍𝒂 𝒓𝒆𝒈𝒊ó𝒏 𝒅𝒆 𝒂𝒄𝒆𝒑𝒕𝒂𝒄𝒊ó𝒏 𝒚 𝒅𝒆 𝒓𝒆𝒄𝒉𝒂𝒛𝒐. (𝑅𝑒𝑔𝑖𝑜𝑛


𝑠𝑜𝑚𝑏𝑟𝑒𝑎𝑑𝑎, 𝑟𝑒𝑔𝑖ó𝑛 𝑑𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑜 𝑦 𝑙𝑎 𝑟𝑒𝑠𝑡𝑎𝑛𝑡𝑒, 𝑟𝑒𝑔𝑖ó𝑛 𝑑𝑒 𝑎𝑐𝑒𝑝𝑡𝑎𝑐𝑖ó𝑛).

𝑅. 𝐶 = < 3.490; ∞ >

𝑅. 𝐴 = < 0; 3.490]

14.90 𝑝𝑒𝑟𝑡𝑒𝑛𝑒𝑐𝑒 𝑎 𝑙𝑎 𝑟𝑒𝑔𝑖ó𝑛 𝑑𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑜, 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 𝑠𝑒


𝑎𝑐𝑒𝑝𝑡𝑎 𝑙𝑎 𝐻𝑎 𝑦 𝑠𝑒 𝑟𝑒𝑐ℎ𝑎𝑧𝑎 𝑙𝑎 𝐻𝑜.

Se puede afirmar con un nivel de significancia de 0.05, que los coeficientes de

regresión de las ganancias brutas son diferentes a cero.

g.- Calcular los intervalos de confianza y predicción con un nivel de confianza del
95% para X1 = 4.5, X2 = 6.5 y X3=7.5.

Tenemos: Y = 956+2.87*x1+6.8*x2+0.287*x2
Y = 956+ 2.87*4.5 +6.8*6.5 +0.287*7.5= 1015.2675
Cálculo del intervalo de confianza, 𝛼 = 0,05 :

𝑆𝑒
𝐼𝐶 = 𝑦̂ ± 𝑡(𝛼;𝑛−𝐾−1) ∗
√𝑛

39
Laboratorio de Estadística Industrial

1008.9554
𝐼𝐶 = 1015.2675 ± 2.179 ∗
√16
𝐼𝐶 = [ 465.6390; 1564.8959 ]

El intervalo de confianza del 95% de las ganancias brutas esperados van desde
465.6390 a 1564.8959 millones de dólares.

Cálculo del intervalo de predicción, 𝛼 = 0,05 :

𝐼𝑃 = 𝑦̂ ± 𝑡(𝛼;𝑛−𝐾−1) ∗ 𝑆𝑒

𝐼𝑃 = 1015.2675 ± 2.179 ∗ 1008.9554


𝐼𝑃 = [ −1183.2463; 3213.7813 ]

Si la ganancia bruta de la industria química, el intervalo de predicción va desde 4.8641


a 6.7217.

h.-Realizar el análisis residual.

 Uso de los elementos de la matriz sombrero Hi


(𝑝 + 1) (3 + 1)
𝐻𝑖 > 2 ∗ → 𝐻𝑖 > 2 ∗ → 𝐻𝑖 > 0.5
𝑛 16

Se puede observar en la tabla que no hay candidatos para este criterio.

 Uso de los residuales de t


|𝑡𝑖| > 𝑡 (0.1 , 𝑛 − 𝑝 − 2) → |𝑡𝑖| > 𝑡 (0.1 ,11)
𝑡 (0.1 ,11) = 1.796

40
Laboratorio de Estadística Industrial

Se puede observar en la tabla que el t14 cumple con el criterio, podría ser eliminado.

 Estadístico de la distancia de Cook


𝐷𝑖 > 𝐹(0.5, 𝑝 + 1 , 𝑛 − 𝑝 − 1) → 𝐷𝑖 > 𝐹 (0.5, 4 , 12)
𝐷𝑖 > 0.888
Se puede observar en la tabla que no hay candidato para este criterio.

Finalmente, no todos cumplieron con los criterios y por lo tanto ninguno será
eliminado.

MODELO CURVILÍNEO
1- Los programas de recompra de acciones corporativas, suelen promoverse como un
beneficio para los accionistas. Pero Robert Gabele, director de investigación interna
de First Call/Thomson Financial, hizo notar que muchos de estos programas se realizan
únicamente con el objetivo de la empresa. En todas las empresas, las opciones de
acciones existentes en 1998 representaban el 6.2 por ciento de todas las acciones
comunes en circulación. En los datos siguientes se da la cantidad de opciones
otorgadas y la cantidad de acciones en circulación de 13 empresas (Bloomberg
Personal Finance, enero/febrero, 2000)

Opciones Acciones
otorgadas en comunes en
Compañía circulación (en circulación (en
millones) millones)

Adobe Systems 20.3 61.8


Apple Computer 52.7 160.9
Applied Materials 109.1 375.4

Autodesk 15.7 58.9


Best Buy 44.2 203.8
Fruit of the Loom 14.2 66.9

ITT Industries 18.0 87.9


Merrill Lynch 89.9 365.5
Novell 120.2 335.0
Parametric Technologyl 78.3 269.3

Reebok International 12.8 56.1

Silicon Graphics 52.6 188.8


Toys “R” Us 54.8 247.6

41
Laboratorio de Estadística Industrial

Determine la ecuación de regresión y aplique la prueba de hipótesis para probar el


efecto lineal, use α=0.05

SOLUCIÓN:

Opciones otorgadas Acciones comunes 𝒙𝟐


en circulación (en en circulación (en
millones) (y) millones) (x)

20.3 61.8 3819.24


52.7 160.9 25888.81
109.1 375.4 140925.16
15.7 58.9 3469.21
44.2 203.8 41534.44
14.2 66.9 4475.61
18.0 87.9 7726.41
89.9 365.5 133590.25
120.2 335.0 112225
78.3 269.3 72522.49
12.8 56.1 3147.21
52.6 188.8 35645.44
54.8 247.6 61305.76

Se obtiene la ecuación de regresión usan do Minitab:

Se procede a aplicar la prueba de hipótesis para probar el efecto lineal:

1) Planteamos, en primer lugar, nuestra hipótesis nula y alternativa

𝐻0 : 𝛽1 = 0 (La inclusión del efecto lineal no mejora en forma significativa el


modelo)

𝐻a : 𝛽1 ≠ 0 (La inclusión del efecto lineal mejora en forma significativa el modelo)

2) Ahora elegimos el nivel de significancia, por dato del problema éste debe ser de
0.05

42
Laboratorio de Estadística Industrial

𝛼 = 0.05

3) t_student

4) Hallamos R.A y la R.C.

R.A.= [-2.228,2.228]
R.C.= <-∞,-2.228>∪<2.228, ∞>

5) Hallamos tk :
Sb1=0.132
𝑏1 − 𝛽1 0.238
𝑡𝑘 = = = 1.8
𝑆𝑏1 0.132
Hallando el valor usando Minitab:

43
Laboratorio de Estadística Industrial

En ambos casos t vale 1.8, por lo tanto:


Tk ∈ R.A., por lo tanto, se acepta la hipótesis nula y se rechaza la hipótesis alterna.
Interpretación: Se puede afirmar que a inclusión del efecto lineal no mejora en forma
significativa el modelo.

2- Un hospital grande de una ciudad contrato a un sociólogo para que investigara la


relación entre el número de días por año de ausencia con autorización, y la distancia
(en millas) entre la casa y el trabajo del empleado .Se tomó una muestra de 10
empleados y se obtuvieron los datos siguientes.

Distancia Número
al de días
trabajo de
ausencia
1 8
3 5
4 8
6 7
8 6
10 3
12 5
14 2
14 4
18 2

Determine la ecuación de regresión y aplique la prueba de hipótesis para probar el


efecto curvilíneo, use α=0.05

SOLUCIÓN:
Obtenemos la tabla completa

Distancia X2 Número
al de días
trabajo de
(x) ausencia
(y)
1 1 8
3 9 5
4 16 8

44
Laboratorio de Estadística Industrial

6 36 7
8 64 6
10 100 3
12 144 5
14 196 2
14 196 4
18 324 2

Se obtiene la ecuación de regresión usan do Minitab:

Se procede a aplicar la prueba de hipótesis para probar el efecto curvilíneo:

1) Planteamos, en primer lugar, nuestra hipótesis nula y alternativa

𝐻0 : 𝛽11 = 0 (La inclusión del efecto curvilíneo no mejora en forma significativa


el modelo)

𝐻a : 𝛽11 ≠ 0 (La inclusión del efecto curvilíneo mejora en forma significativa el


modelo)

2) Ahora elegimos el nivel de significancia, por dato del problema éste debe ser de
0.05

𝛼 = 0.05

3) t_student

4) Hallamos R.A y la R.C.

45
Laboratorio de Estadística Industrial

R.A.= [-2.365,2.365]
R.C.= <-∞,-2.365>∪<2.365, ∞>

5) Hallamos tk :
Sb11=0.0173
𝑏11 − 𝛽11 −0.0025
𝑡𝑘 = = = −0.1445
𝑆𝑏11 0.0173
Hallando el valor usando Minitab:

En ambos casos t vale -0.14, por lo tanto:


Tk ∈ R.A., por lo tanto, se acepta la hipótesis nula y se rechaza la hipótesis alterna.
Interpretación: Se puede afirmar que a inclusión del efecto curvilíneo no mejora en
forma significativa el modelo.

46

You might also like