You are on page 1of 63

Estadstica Aplicada a la

Administracin
Unidad 3: La prueba CHI- CUADRADO y
el Anlisis de la Varianza.
Sesiones: 11, 12, 13, 14, 15, 16, 17, 18, 19 y 20

Para que es til el ANOVA?


El anlisis de la varianza (ANOVA) es una potente herramienta estadstica, de
gran utilidad tanto en la industria, para el control de procesos, como en el
laboratorio de anlisis, para el control de mtodos analticos.
La ANOVA es un test estadstico paramtrico que analiza la varianza de tus
muestras.
Se utiliza para comparar las medias de tres o mas grupos (3, 4,5, 6...).
Para comparar 2 grupos se utilizara la el test T.

Tanto ANOVA como t-student son dos mtodos estadsticos buenos para ver si
hay diferencias significativas entre la media de dos grupos. La nica diferencia
que creo que existe es que ANOVA se utiliza cuando hay mas de tres grupos y t
- student cuando solo hay 2 grupos que comparar.

Por qu no evitar hacer t- tests en vez de


hacer un simple ANOVA?

El hacer mltiples t tests es que aumentaramos


nuestro error tpico I ( riesgo ) y eso se evita por lo
tanto utilizando el ANOVA.

ANOVA de Una Va
Esta modalidad de ANOVA puede sintetizarse en un
diseo experimental, en donde se analiza un (1) factor,
en mltiples niveles.
Tpicamente, se llama a los niveles del factor
tratamientos.
De forma estricta, la ANOVA de Una Va es un OFAT.
Su utilidad es de gran valor, tanto en la prctica como
en el ejercicio conceptual.

ANOVA de Dos Vas


Esta modalidad de ANOVA tiene la propiedad de poder
incorporar dos , factores, cada uno con a cantidad de niveles.
La ANOVA de Dos Vas no es un OFAT (one-factor-at-A-Time), y
es un modelo experimental ms complejo.
La ANOVA de dos vas, permite entender el efecto del factor A,
el factor B, adems de su interaccin AB, lo que la convierte en
una herramienta muy poderosa.

Igualmente, es un diseo experimental de amplia utilidad


prctica.

Por ejemplo usaras una ANOVA si compararas tres clases de


alumnos en una escuela (Primero A, B y C) respecto a sus notas
finales (cada alumno tiene una nota final sobre 10).
Imagina que cada clase tiene 25 alumnos, cada uno con su
nota. Se podra hacer una media de los 25 alumnos y obtendras
un valor medio.
La ANOVA comparara las medias de las tres clases. Te da un
valor de significancia, de cuan diferentes son las tres clases. Se
considera que la diferencia es significativa cuando el valor de
significancia (P) es menor a 0.05.

Para utilizar el ANOVA de forma satisfactoria deben cumplirse tres


tipos de
hiptesis, aunque se aceptan ligeras desviaciones de las
condiciones ideales:
1. Cada conjunto de datos debe ser independiente del resto.
2. Los resultados obtenidos para cada conjunto deben seguir una
distribucin
normal.
3. Las varianzas de cada conjunto de datos no deben diferir de
forma
significativa.
La distribucin F tambin se usa para probar la igualdad de ms
de dos medias con la tcnica llamada anlisis de variancia
(ANOVA).

Procedimiento

de

anlisis

de

varianza:

Hiptesis nula: las medias de las poblaciones son


iguales.
Hiptesis alterna: al menos una de las medias es
diferente.
Estadstico de prueba: F = (variancia entre
muestras)/(variancia dentro de muestras).
Regla de decisin: para un nivel de significancia
a, la hiptesis nula se rechaza si F (calculada) es
mayor que F (en tablas) con grados de libertad en
el numerador y en el denominador.r

Caracterstica de la Distribucin F de
Fisher
1. Existe una familia de distribuciones F . La familia queda determinado
por 2 parmetros : Grado de libertad en el numerador y grado de
libertad en el denominador.
2. La distribucin F es continua. Puede tomar una cantidad infinita de
valores entre cero y ms infinito.
3. La distribucin F no puede ser negativa. El menor valor que puede
asumir es cero.
4. La distribucin F es positivamente sesgada: La cola larga de la
distribucin se encuentra a la derecha, conforme el nmero de
grados de libertad aumenta. La distribucin se aproxima a la
distribucin normal.
5. La distribucin F es asntota, conforme a los valores de X aumentan
la curva de la distribucin F se aproxima a X pero nunca la toca.

Modelo de Distribucin F de Fisher

Manejo de la Tabla de Fisher

Supuestos del ANOVA


1. Observaciones Independientes.
2. Varianzas Homogneas de los
residuos.
3. Distribucin Normal de los
residuos.

1.- Independencia de las


Observaciones
Con el fin de obtener inferencias vlidas, resulta
importante determinar si los errores se encuentran
correlacionados.
El supuesto ms importante es la independencia de
las observaciones, pues si no hubo asignacin
aleatoria de tratamientos a unidades experimentales,
entonces los resultados pueden incluir un efecto
persistente de factores no considerados en el
anlisis.

Esto invalida el experimento

Comparacin de 2 Variables Poblacionales


La distribucin F se utiliza para probar la Hiptesis de que la
Varianza de una poblacin normal es igual a la varianza de otra
poblacin normal.
La distribucin F tambin se utiliza para validar los supuestos para
alguna pruebas estadsticas.
Se tiene que demostrar que:
Si se tiene una poblacin P y de ella se sacan dos muestras random
(aleatorio) , se tiene que demostrar que estas dos muestra son
iguales o no son iguales. Este paso es una tarea de investigacin y
de anlisis.

Grados de Libertad

Aplicacin
Comparacin de 2 Varianzas Poblacionales
Supongamos que estamos haciendo un estudio estadstico
acerca de medir dos rutas exactas para ir de un lugar a otro y lo
hacemos por diferentes vas y por lo tanto tambin tendremos
diferentes tiempos. Por la Ruta # 1 tengo valores en minutos y
por la Ruta # 2 tambin tengo valores en minutos . Utilizando un
nivel de significancia de 0.10 existe alguna diferencia en la
variacin de los tiempos de recorrido por ambas rutas? Todo
esto se muestra en la siguiente tabla:
Ruta # 1

Y
Ruta # 2

Todo esto se muestra en la siguiente tabla:


Ruta # 1

Ruta # 2

52

59

67

60

56

61

45

51

70

56

54

63

64

57
65

Asumir un Nivel de Significancia del

0.10

Solucin:
Clculos adicionales:
Ruta # 1

Ruta # 2

52
67

59
60

56
45
70

61
51
56

54

63

64

57
65

408

472

Clculo de la las Medias:

408
X1
58.29
7

472
X2
59.00
8

Clculo de las Desviaciones Standard:


Ruta # 1 (
X1 )

Ruta # 2 (
X2 )

52
67
56
45
70
54
64

59
60
61
51
56
63
57
65

2704
4489
3136
2025
4900
2916
4096

3481
3600
3721
2601
3136
3969
3249
4225

408

472

24.266

27.982

2
1

X 22

Clculo de las Desviaciones Standard:


Frmula :

Para Ruta # 1:

(408) 2
24266
7

8,997
7 1

x 8,997
1

Para Ruta # 2 :

(472) 2
27982
8
x2
4,375
8 1

x 4,375
2

Pasos : los usados en Hiptesis


1er Paso: Formulacin de las Hiptesis Nula y Alternativa
Ho :

H1 :

2 2

2
1

2
2

2do. Paso : Se elige el Nivel de Significancia ; para


nuestro caso:
= 0.10

Continuacin////
3er Paso : Se establece el estadstico de prueba.
Para este caso el la Distribucin de FISHER ( F )
4to. Paso : Calculo del valor crtico o tabla de FISHER (F)
previo clculo de los respectivos grados de libertad.
Como se esta realizando una prueba de dos colas el
nivel de significancia que se busca en la tabla es de
0.05 que se obtiene de :

/2
= 0.10 / 2 = 0.05

Calculando los Grados de Libertad:


gl= n - 1

(grado de libertad)

gl1 = 7 1 = 6

en el numerador (Ruta # 1)

gl2 = 8 1 = 7

en el denominador ( Ruta # 2 )

Se debe revisar la tabla de la Distribucin F y as


podremos encontrar el valor de F(tab=Crtica) = 3.87

As, la regla de decisin es : si la razn de las varianzas


es mayor que 3.87, se rechaza la hiptesis nula.

Segn tabla de Distribucin de Fisher ,


tenemos :
numerador
gl1
d
e
n
o gl2
m
i
n
a
d
o
r

Ftab

5to. Paso : Clculo de Fcal y tomar decisin final


Fisher Calculada (Fcal ) :
2
1
2
2

S
(8,997)
80,946
Fcal

4, 2289 4, 23
2
S
(4,375)
19,141
Pero:

Fcal > Ftab

4,23 > 3,87


Conclusin: Se rechaza la Ho y se acepta la H1
Interpretacin: La ruta # 2 parece haber tenido mayor
congestin por mayor trfico , mayor semforos , etc., que
han dado mayor dificultad para trasladarse de X a Y.

ANOVA

Anlisis de la Varianza
( ANVA ANOVA )
Suposiciones para el ANOVA
Otro uso para la Distribucin de F de Fisher es la tcnica
del anlisis de la Varianza ANOVA con las que se
comparten tres
ms
medias poblacionales para
determinar si son iguales.

Tambin se debe cumplir los siguientes parmetros:


1. Las poblaciones estn distribuidas normalmente.
2. Las poblaciones tienen desviaciones standards iguales.
3. Las muestras se seleccionan independientemente.

Prueba ANOVA
La estrategia es calcular la varianza poblacional
(desviacin standard al cuadrado) en dos formas y despus
encontrar la razn de esas dos estimaciones.

Si esta razn es aproximadamente igual a , entonces las


dos estimaciones son iguales, y se concluye tambin que
las medias poblacionales son iguales, caso contrario se
rechazaran.

Aplicacin:
Un profesor del curso de Mercadotecnia pidi a los alumnos de uno de
sus grupos que evaluarn su desempeo como excelente, bueno,
regular, o deficiente. Un estudiante egresado recopil las evaluaciones y
asegur a los estudiantes que el profesor los recibira hasta que las
calificaciones del curso se hubieran enviado a la oficina de registros. La
evaluacin (es decir, el tratamiento) que cada alumno asign al profesor
se compar con la calificacin, que poda ir de 0 a 100, que obtuvo el
estudiante en el curso. A continuacin se presenta la informacin de la
muestra .Existe diferencias entre los promedios de las calificaciones de
los alumnos en cada una de las cuatro categoras de evaluacin?. Utilice
un = 0.01

Tabla de Valores de la aplicacin :


Calificaciones del Curso

Excelente
94
90
85
80

Bueneo
75
68
77
83
88

Regular
70
73
76
78
80
68
65

Deficiente
68
70
72
65
74
65

Tener presente que si se escoge R B E D , reflejen el mismo


resultado.

Solucin :
1er. Paso : Formulacin de las hiptesis.
Si no se rechaza la hiptesis nula, se concluye que
no hay diferencia en los promedios de las
calificaciones del curso
con base en las
evaluaciones al profesor.
Si se rechaza Ho se concluye que hay diferencia
en al menos un par de promedios de
calificaciones, pero por el momento no se sabe
qu par o cuantos pares difieren.

2do. Paso : Seleccionar el Nivel de Significancia.


Se elige el Nivel de Significancia de = 0.01

3er. Paso : Determinar el Estadstico de Prueba


El estadstico de prueba sigue la distribucin
de F de FISHER

gl1

gl2

Hallando el valor de Ftabla = crtico

F tab = crt

5to. Paso : Seleccionar la muestra, realizar los clculos y


tomar una decisin.

Es conveniente resumir los clculos estadsticos F en una


tabla ANOVA , cuyo formato a utilizar despus de algunos
clculos es:

Formato
Fuente de
Variacin

Suma de
Cuadrados

Grado de
Libertad

Tratamiento

SST

K-1

SST/(k-1)= MST MST/MSE

Error

SSE

n-k

SSE/(n-k)= MSE

SS Total

n-1

Total

Media de
Cuadrados

Construccin de la Tabla de ANOVA


Excelente

Bueno
2

Regular

Deficiente

94

8836

75

5625

70

4900

68

4624

90

8100

68

4624

73

5329

70

4900

85

7225

77

5929

76

5776

72

5184

80

6400

83

6889

78

6084

65

4225

88

7744

80

6400

74

5476

68

4624

65

4225

65

4225

510

37338

414

28634

349

n= 4

30561

391

n= 5

30811

n= 7

n= 6

Hallando las sumatorias totales :

X 349 391 510 414 1.664


n 4 5 7 6 22
x

30561 30811 37338 28634 127.344

Luego desarrollamos la prueba del ANOVA, pero tambin tenemos


que ver que parmetros contiene esta tabla.
Nomenclatura :
1. SStotal : Sumatoria de
Frmulas a utilizar :
cuadrados, total
2
2. MST : Cuadrado medio
(
X
)
Tratamiento
SStotal X 2
n
3. SST : Suma cuadrados
tratamiento.
2
tratamientos 2 ( x)
4. SSE: suma cuadrados error
SST (
)
5. MSE: Cuadrado Medio Error
n
n
6. F : Fisher
SSE= SStotal - SST

SST
MST
(k 1)

MST
F
MSE

SSE
MSE
(n k )

Desarrollando las frmulas :

(1664)2
SStotal 127344
1485.09
22
(349)2 (391)2 (510)2 (414) 2 (1664) 2
SST

890.68

5
7
6
22
4

SSE 1485.09 890.68 594.41

Los grados de libertad son:

gltratamiento = k-1 = 3
gltotal = 3+18= 21

glerror = (n k ) 18

Calculando los cuadrados medios respectivamente:

890.68
MST
296.89
3
594.41
MSE
33.02
18

Calculamos el valor F de Fisher:

MST
ValorF
MSE

296,89
ValorF
8,99
33, 02

Tabla ANOVA
Componentes de la tabla ANOVA :
Fuente de Variacin

Suma de Cuadrados

Grados de Libertad

Cuadrado Medio

Fisher

Fuente de Suma de Grado de


Variacin Cuadrados Libertad

Media de
Cuadrados

Tratamiento

SST

K-1

SST/(k-1)= MST

MST/MSE

Error

SSE

n-k

SSE/(n-k)= MSE

SS Total

n-1

Total

Tabla de la Varianza ANOVA completado.


Pero:

gl tratamiento = K 1 = 4 -1 = 3
gl Error
gl Total

= n K = 22 4 = 18
= n 1 = 22 1 = 21 tambin : gl Total = 3 + 18 = 21

F.V

SStotal

gl

MS

Valor F

Tratamiento

890,68

296,89

8,99

Error

594,41

18

33,02

Total

1485,09

21

Conclusin : se rechaza Ho

(F cal) 8,99 > 5,09 (F tab)

Interpretacin:
Se concluye que las medias poblacionales no son
iguales. Las calificaciones promedio no son iguales en
los cuatro grupos de evaluacin.
Es probable que las calificaciones que obtuvieron los
estudiantes en el curso estn relacionadas con la
opinin que tienen de la capacidad y desempeo del
profesor en el aula. Por ahora slo se puede concluir
que hay diferencias entre las medias de tratamiento.
No se puede determinar cul o cuantos grupos de
tratamiento difieren.

Anlisis de la Varianza en Dos


Direcciones
La organizacin Warren Area Regional Transit Authority (WARTA), en
USA, realiza la ampliacin del servicio de autobuses desde el suburbio de
Starbrick, hasta el distrito central de Warren. Hay cuatro rutas a
considerar: Va U.S. 6; va West End ; va la Calle Hickory y; va la Ruta
59.
Se tiene que WARTA realiz varios recorridos de prueba para determinar
si haba diferencias entre los tiempos en las cuatro rutas. Como habr una
gran cantidad de conductores, la prueba se realiz de manera que cada
uno de los conductores recorriera cada una de las cuatro rutas. A
continuacin se muestra los tiempos del recorrido, en minutos, de cada
combinacin conductor-ruta.

Tiempo del recorrido de Starbrick a Warren


( minutos)
Conductor

U.S. 6

West End

Calle
Hickory

Ruta 59

Deans

18

20

20

22

Snaverly

21

22

24

24

Ormson

20

23

25

23

Zollaco

25

21

28

25

Filbeck

26

24

28

25

Al nivel de significancia de 0,05. Existe alguna


diferencia en el tiempo medio de viaje a lo largo de
las 4 rutas? Si se elimina el efecto de los
conductores, Existir alguna diferencia en el
tiempo promedio de viaje?

Solucin :
Para empezar, se realiza una prueba de hiptesis usando
un ANOVA en una direccin. Es decir, se consideran slo
las cuatro rutas. En estas condiciones la variacin se
debe a los tratamientos o al azar.
La hiptesis nula y la alternativa para comparar el tiempo
medio de recorrido a lo largo de las cuatro rutas son.
1er. Paso : Formulacin de las Hiptesis:

H 0 : 1 2 3 4
H 1 : No todas las medias de tratamiento son
iguales.

2do. Paso : El Nivel de Significancia.


Este es = 0,05.
3er. Paso: Estadgrafo de Prueba.
El estadstico de prueba sigue la
distribucin de F de FISHER

4to. Paso : Establecer la Regla de Decisin.


Hay cuatro rutas, as que los grados d
libertad son:

gl = K 1 = 4-1= 3

para el numerador

gl = n k = 20 4 = 16

para el denominador

Si adems = 0,05
Luego el valor de tabla o crtico es :

(tabla = crtico)

= 3,24

Trabajando con la tabla de Fisher F.

F tab = crit

Hallamos los grados de libertad:


gl1 = K-1 = 4-1 = 3
gl2 = n k = 20 -4 = 16
La regla de decisin es rechazar la hiptesis nula si
el valor F calculado es mayor que F tabla 0 crtica
(3,24)

F cal > F tab


Se rechaza la hiptesis nula

Clculos necesarios para un ANOVA en una


direccin y en dos direcciones
Tiempo de recorrido de Starbrick a Warren (minutos)
Conductor

U.S. 6

West End

Calle
Hickory

Ruta 59

Suma
reglones

Deans

18
21
20
25
26
110

20
22
23
21
24
110

20
24
25
28
28
125

22
24
23
25
25
119

80
91
91
99
103
464

2466

2430

3169

2839

10904

Snaverly

Ormson
Zollaco
Filbeck
Total de
columnas Tc
Suma de
Cuadrados

Los clculos se realizan con las frmulas , como sigue

SStotal X 2

( X ) 2
n

(464)2
10904
139, 2
20

Despus, se calcula la variacin de tratamiento:


2
Tc 2 ( X ) 1102 1102 1252 1192 4642
SST ( )

32.4
nc
n
5
5
5
5
20

Se determina la variacin del error.

SSE SStotal SST 139.2 32.4 106.8


Al introducir estos datos en la tabla ANOVA
tenemos:
F . V.
Tratamiento
Error

Total

SS total
32.4

gl
3

MS
10.8

106.8

16

6.675

139.2

19

F
1.618

Conclusin
Debido a que el valor de F calculado = 1.618; es menor
que el valor crtico 3.24, no se rechaza la hiptesis
nula.

Interpretacin:
WARTA puede concluir que no hay diferencia
en el tiempo medio del recorrido a lo largo de
las 4 rutas. No hay razn para indicar que una
de ellas es ms rpida que las otras.

En el ejemplo anterior se consider la variacin debida


a los tratamientos (rutas) y se supuso que toda la
variacin restante era random. Sin embargo, no se
establecieron pruebas considerando que cada uno de
los 5 conductores recorri cada una de las 4 rutas. Si se
pudiera considerar el efecto de los diversos conductores
,esto permitira reducir el trmino SSE, lo que llevara a
un valor F ms grande. La segunda variable de
tratamiento los conductores en este caso se conoce
como variable de bloqueo

Variable de Bloqueo.Una segunda variable de


tratamiento , que al ser considerada en el ANOVA , tiene el
efecto de reducir al trmino SSE.

En nuestro caso , los conductores son la variable de


Bloqueo.
Suma de Cuadrados en Bloque: ( SSB )
Nomenclatura:

Bt X
SSB

n
K
2

1.- SSB : suma de cuadrados de


bloqueo.
2.- B t : total del bloque
3.- K : es el # de elementos en cada
bloque

Suma de Cuadrados del Error, dos direcciones:


SSE = SS total SST - SSB
Elaboracin de la Tabla de Anova

Fuente
Variacin

SST

gl

MS

Tratamientos

SST

K1

SST/(K-1) = MST

MST/MSE

Bloque

SSB

B1

SSB/(B-1) = MSB

MSB/MSE

Error

SSE

(k-1) (b-1)

SSE/(K-1) (B-1) = MSE

Total

SS total

n-1

Hallando SSB, tenemos:


802 912 912 992 1032 4642
SSB

78.2

4
4
4
4 20
4

Hallando el SSE tenemos.


SSE = 139.20- - 32.4 78.2 = 28.6

F.V

SST

gl

MS

Tratamientos

32.40

10.80

Bloques

78.20

19.55

Error

28.60

12

2.38

Total

139.20

Calculando Fisher ( F ) .-

MST 10.80
F

4.54
MSE 2.38

MSB 19.55
F

8.21
MSE 2.38

Ho se rechaza y se acepta H1

Ho se rechaza y se acepta H1

El tiempo medio de viaje no es el mismo en todas las rutas

E tiempo medio no es igual para todos los conductores

You might also like