Professional Documents
Culture Documents
2 2
2
1
2
1
A esta varianza se le da el nombre de Varianza dentro del grupo.
Sera bueno comentar que esta varianza como es insesgada proporciona
una estimacin vlida de la varianza desconocida de la poblacin sin
importarle si se acepta o rechaza H
0
.
Hay otro Teorema, bajo las mismas condiciones que el anterior que
plantea que otro estimador de
2
es:
( )
( )
( )
( )
( )
2 2
2
2
1 2 2 1
2
2
0
1 1
E
i
k
i
i i
E
k
i
i i
E
S E la entonces
y que caso este en es que ya cierta nula hiptesis la bajo insesgado ser slo y
de sesgado estimador un es que lo por
k
n
S E su donde
k
y y n
S
Este estimador es conocido como varianza entre grupos.
Autores: MSc. Daisy Espallargas MSc. Jorge DEspaux 65
Esta situacin que expresan estos estimadores se pudiera representar
grficamente de la siguiente forma:
Para H
0
cierta: Para H
0
falsa:
x 1 ________ x 1
x x
x 3 x 2 x 3
x 2
1 2 3 1 2 3
En este caso las
x
i no son iguales pero Los elementos de las 3
poblaciones
Si casi iguales sus valores estn cercanos
son muy diferentes y originan
medias
muestrales muy diferentes.
Si estamos en caso de H
0
falsa, y se nos presenta esta situacin se
diferencia en la suma de cuadrado entre grupo esta diferencia, mientras
que si estamos en el caso de H
0
cierta la diferencia entre los grupos es
mnima.
En el caso de la SC, dentro de los grupos lo que hace es comparar cada
elemento de la muestra con la media de su propio grupo, para una u
otra conclusin de la hiptesis nula, su clculo no se refleja, el valor es
el mismo.
Como ya dijimos, el anlisis de varianza consiste en dividir la suma de
cuadrado total en dos fuentes de variacin y proceder al anlisis de las
mismas, estas son la variacin dentro del grupo y la variacin entre
grupos. Como son variaciones la vamos a expresar como sumas de
cuadrados, es decir:
Autores: MSc. Daisy Espallargas MSc. Jorge DEspaux 66
SC
T
= SC
D
+ SC
E
__ __ __ __
(Y
ij
- Y) = (Y
ij
- Y
i
) + (Y
i
Y)
Representando estas la variacin total que es igual a la variacin dentro
del grupo ms la variacin entre grupos, grficamente se representa de
la siguiente forma:
_ .
y
ij -
y
i
.
. _
_ . y
ij
-y
y
1
.
_ _ .
y
i -
y . _
Y
.
_ .
y
2
.
Si elevamos al cuadrado ambos miembros, y sumamos por j e i,
llegamos a la Identidad Fundamental, planteada anteriormente.
( ) ( ) ( )
2
1 1 1
2
1 1
2
+
k
i
i i
k
i
ni
j
i ij
k
i
ni
j
ij
y y n y y y y
donde se considera:
Suma de Suma de Suma de
Cuadrado Cuadrado Cuadrado
Total Dentro del Grupo Entre Grupo
De la misma forma resulta de gran importancia en el Anlisis de
varianza, la relacin entre los grados de libertad (que ya se habl de
ellos en el Tema anterior).
Si se aplica el valor esperado en ambos miembros se obtienen, bajo el
supuesto de H
0
cierto de que, los grados de libertad asociados a estas
sumas de cuadrados sern:
(n 1) = (n k) + (k 1) Esto es,
Para la SC
T
, = para la SC
D
y para la SC
E
Autores: MSc. Daisy Espallargas MSc. Jorge DEspaux 67
Si dividimos las Sumas de Cuadrados entre los grados de libertad, se
obtendrn los estimadores de
2
planteados, es decir la varianza total
2
T
S la varianza dentro del grupo
2
D
S , y la varianza entre grupo
2
E
S .
Tambin estos cocientes se denominan Cuadrados Medios.
1
2 2
k
SC
CM S
k n
SC
CM S
E
E E
D
D D
Debido a que el clculo de varianzas entre y dentro de grupos hay
varios pasos, se acostumbra a dar al grupo completo de resultados en
una tabla conocida como tabla de anlisis de varianza (ANOVA). Esta
tabla incluye las fuentes de variacin, las sumas de los cuadrados(es
decir las variaciones), los grados de libertad, las varianzas(es decir los
cuadrados medios) y el valor del estadstico de prueba que veremos
ms adelante.
ANOVA
F
UENTE DE
VARIACIN
SUMA DE
CUADRADOS
GRADOS DE
LIBERTAD
CUADRADO
MEDIO
ESTADSTIC
O
ENTRE
GRUPO
( )
2
1
K
I
i i
y y n k 1
1 n
SC
E
F
0
=
2
2
D
E
S
S
( )
k
i
ni
j
i ij
y y
1
2
1
n k
k n
SC
D
DENTRO DE
GRUPO
TOTAL
( )
K
i
ni
j
ij
y y
1 1
2
N - 1
Aqu en este caso se utiliza como estadstico de prueba F
0
,
Por qu la
Distribucin F? . La distribucin a utilizar es la F de Fisher, que se basa
en la razn de 2 varianzas.
Con el fin de determinar si las medias de los diversos grupos son todas
iguales, se pueden examinar dos estimadores diferentes de la varianza
de la poblacin. Uno de los estimadores se basa en la suma de los
cuadrados dentro de los grupos (SC
D
); el otro se basa en la suma de los
cuadrados entre los grupos (SC
E
). Si la hiptesis nula es cierta, estos
Autores: MSc. Daisy Espallargas MSc. Jorge DEspaux 68
estimadores deben ser aproximadamente iguales; si es falsa el
estimador basado en la suma de los cuadrados entre grupos debe ser
mayor.
El estimado de la varianza entre los grupos no solo toma en cuenta las
fluctuaciones aleatorias de una observacin a otra, sino tambin mide
las diferencias de un grupo con otro. Si no hay diferencia de un grupo a
otro, cualquier diferencia en la media muestral se explicar por la
variacin aleatoria, y la varianza entre grupos, debe estar cerca de la
varianza dentro de los grupos. Sin embargo si en realidad hay una
diferencia entre los grupos, la varianza entre grupos ser
significativamente mayor que la varianza dentro de los grupos.
Por todo lo anterior, la prueba estadstica se basa en la razn de estas
dos varianzas: CM
E
/CM
D
. Si la hiptesis nula es cierta, esta razn debe
estar cercana a uno; si la hiptesis nula es falsa entonces el numerador
debe ser mayor que el denominador y la razn debe ser mayor que uno
Como se aprecia el problema se reduce a buscar un valor a partir del
cul el estadstico de prueba resulte significativamente mayor que 1, y
as se rechazar la hiptesis de que no hay diferencias entre las medias
de los grupos cuando la razn entre las varianzas CM
E
/CM
D
> F
(1 ) ( k 1;n
k)
De aqu se infiere que las hiptesis nula y alternativa que se plantearn
sern las siguientes:
H
0
:
1
=
2
= . . . =
k
H
1
: alguna
i
diferente
Es bueno sealar que estas hiptesis son equivalentes a decir:
( )
( )
1 :
2
2
0
D
E
S E
S E
H
( )
( )
1 :
2
2
1
D
E
S E
S E
H
Ya que como se vio anteriormente
2
E
S es un estimador sesgado de la
VARIANZA y slo ser insesgado si se cumple que H
0
es cierta, mientras
que
2
D
S es un estimador insesgado.
Adems es la razn por la cul la distribucin a utilizar es la F de Fisher,
que no es ms que la relacin entre 2 varianzas y siempre
considerando, la regin crtica hacia la derecha, ya que nuestro
problema se reduce a buscar un valor a partir del cul es estadstico de
Autores: MSc. Daisy Espallargas MSc. Jorge DEspaux 69
prueba resulte significativamente mayor que 1 y as Rechazaremos H
0
a un nivel de significacin, si
( ) k n k
D
E
F
S
S
; 1
1
2
2
SC
D
=
k
i
i
i
k
i
ni
j
ij
n
T
y
1
2
1 1
2
Aunque se debe sealar que dado el carcter aditivo de estas varianzas,
se acostumbra a obtener la SC
D
por diferencia, es decir como:
SC
T
= SC
E
+ SC
D
se obtendra despejando: SC
D
= SC
T
- SC
E
Para aplicar esta tcnica es necesario que se cumplan ciertas
suposiciones sobre los datos investigados.
1.- Las caractersticas medibles se distribuyen normalmente en cada
poblacin. Esto es ( ) k i donde N Y
i i i
, 2 , 1 ;
2
2.- Las varianzas de las k poblaciones son iguales:
2 2
2
2
1 k
3.- Las caractersticas medibles son estadsticamente independientes,
de una poblacin a otra: Y
1
, Y
2
, ... , Yk.
4.- Las muestras n
1
, n
2
, ... ,n
k
de los k grupos poblacionales deben
seleccionarse a travs del M.A.S.
Vamos a ver un Ejemplo:
Los datos siguientes corresponden al Costo de Produccin de un
producto fabricado bajo tecnologas diferentes. Realice una prueba
estadstica a un = 0.05 para decidir si existen diferencias entre las
tecnologas, que puedan afectar los Costos.
Tecnologa Y
i j
n
i
T
i
T
i
2
T
i
2
/n
i
Y
2
i j
A 7 4 6 4 9 5 30 900 180 49 16 36 16 81 198
Autores: MSc. Daisy Espallargas MSc. Jorge DEspaux 70
B 2 4 5 6 3 5 20 400 80 4 16 25 36 9 90
C 7 8 7 11 7 5 40 1600 320 49 64 49 121 49 332
15 90 580 620
Hay que tener en cuenta que el subndice i, representa las filas, y el j las
columnas.
Se prepara la tabla atendiendo a lo que se necesita a partir de las
formulas abreviadas planteadas, nicamente hay que tener en cuenta
que los niveles se deben planteara en el sentido de fila.
Resumiendo: n = 15; T = 90; k = 3; n
1
= n
2
= n
3
= 5
Luego:
n
T
Y SC
k
i
ni
j
ij T
2
1 1
2
= 620 90
2
/15 = 620 8100/15 = 620 540 = 80
SC
E
=
n
T
n
T
k
i
i
i
2
1
2
= 580 540 = 40
SC
D
=
k
i
i
i
k
i
ni
j
ij
n
T
y
1
2
1 1
2
= 620 580 = 40 o tambin utilizando la identidad
fundamental y en ella se despeja SC
D,
esto es:
SC
T
= SC
D
+ SC
E
SC
D
= SC
T
SC
E
= 80 40 = 40
Y ya estamos en condiciones de plantear la tabla de anlisis de
varianza, para el clculo del estadstico de Prueba.
ANOVA
Fuente de
Variacin
Suma de
Cuadrado
Grados de
Libertad
Cuadrado
medio
Estadstico
de Prueba
Entre grupo
Dentro grupo
40
40
2
12
20
3.33
06 . 6
3 . 3
20
0
F
Total 80 14
H
0
:
3 2 1
H
1
: alguna
i
diferente
= 0.05
Autores: MSc. Daisy Espallargas MSc. Jorge DEspaux 71
2
2
D
E
S
S
= 6.06
W:{
2
2
D
E
S
S
> F
1-
(k 1; n k)
}= {
2
2
D
E
S
S
> F
o.95
(2, 12)
} = {
2
2
D
E
S
S
> 3.89 }
RR
3.89
R:D:/ Rechazo H
0
F
0
> 3.89
No Rechazo H
0
F
0
3.89
D/ F
0
= 6.06 > 3.89 Rechazo H
0
que aceptamos H
1
lo que nos
indica que existen diferencias significativas entre los costos de
produccin para por lo menos una tecnologa a un = 0.05
Si quisiramos saber cual o cuales tecnologas son diferentes se pudiera
completar el anlisis con una prueba TStudent de diferencia de media,
probando dos a dos dichas tecnologas.
Pueden hacer los ejercicios que estn en el laboratorio desde el nmero
182 al 186 en las pginas desde la 119 a la 121.
EL AUTOEXAMEN SE HAR ATENDIENDO A LAS DOS CONFERENCIAS
CORRESPONDIENTES AL TEMA IV ANALISIS DE VARIANZA.
Autores: MSc. Daisy Espallargas MSc. Jorge DEspaux 72
Dcima de Barttlet. Construccin de la prueba.
Bibliografa: Anlisis de Varianza. Colectivo de Autores desde
la pgina 131 a la 137.
Esta prueba de la homogeneidad de las varianzas fue desarrollada por
Barttlet, y se basa en el clculo de un cociente, el cul se denota por
M/C.
se utiliza para comprobar uno de los supuestos del anlisis de varianza,
si se quiere, el ms importante, que es el de varianza
constante(conocido por Homocedasticidad)
As las hiptesis a plantear seran:
H
0:
2 2
2
2
1 k
H
1
: alguna
2
i
diferente
Y el estadstico de prueba ser el cociente M/C que es un estadstico
que mide la variabilidad entre las varianzas muestrales ya que:
( ) ( )
2
1
2
ln 1 ln
i
k
i
i D
S n S k n M
Donde
( )
k n
S n
S
k
i
i i
D
1
2
2
1
y
( )
2
1 2
1
i
k
i
i j i
i
n
Y Y
S
Se puede observar que si las
2
i
S difieren poco entre s el valor de M, ser
pequeo y si suponemos que la
2
i
S son iguales, entonces M tomar el
valor cero.
Demostracin:
( ) ( )
2
1
2
ln 1 ln
i
k
i
i D
S n S k n M
si
2
i
S son iguales, entonces se trata como
una constante y se saca fuera de la sumatoria.
( )
( )
( )
k
i
i i
k
i
i i
n S
k n
n S
k n M
1
2 1
2
1 ln
1
ln
Como
( ) k n n
k
i
i
01
1
Autores: MSc. Daisy Espallargas MSc. Jorge DEspaux 73
M=(n k)
( )
( )
( ) k n S
k n
k n S
i
i
2
2
ln
ln
M= (n- k) ln
2
i
S
- (ln
2
i
S
) n- k
M = 0
Veamos el clculo del estadstico de Prueba: M/C
M = 1 +
( )
;
'
k
i
i
k n n k
1
1
1
1
1 3
1
Barttlet demostr que el estadstico M sigue aproximadamente una
distribucin
2
, con k-1 grados de libertad para (n
i
1) 4, y se divide
entre una cantidad C, como la planteada anteriormente; el cociente
mejora la aproximacin, y es ms preciso que si utilizramos solamente
M.
La expresin de M, puede transformarse para trabajar con logaritmos
comunes.
M = 2.3026
( ) { } ( )
2
10
1
2
10
log 1 log
i
k
i
i D
S n S k n
se debe aclarar que se puede
aplicar tanto logaritmo comunes como naturales.
La regin crtica estar dada por:
( )
{ }
1 2
1
/ :
k
C M W
que grficamente quedar representada de la
siguiente forma:
R no R. RR
) 1 (
2
1
i
k
i
i
n
Yi j Yi
S
5 . 4
4
18
4
9 4 0 4 1
4
) 6 9 ( ) 6 4 ( ) 6 6 ( ) 6 4 ( ) 6 7 (
2 2 2 2 2
2
1
+ + + +
+ + + +
S
5 . 2
4
10
4
1 4 1 0 4
4
) 4 3 ( ) 4 6 ( ) 4 5 ( ) 4 4 ( ) 4 2 (
2 2 2 2 2
2
2
+ + + +
+ + + +
S
3
4
12
4
1 9 1 0 1
4
) 8 7 ( ) 8 11 ( ) 8 7 ( ) 8 8 ( ) 8 7 (
2 2 2 2 2
2
3
+ + + +
+ + + +
S
33 . 3
12
) 10 ( 4
12
) 3 5 . 2 5 . 4 ( 4
) 1 (
1
2
2
+ +
k n
S ni
S
k
i
i
D
Ya estamos en condiciones de plantear los elementos que hacen falta
para determinar M
Poblacin ni
2
i
S ln
2
i
S (ni 1) ln
2
i
S
1 5 4.5 1.50408 6.01632
2 5 2.5 0.91629 3.66516
3 5 3 1.09861 4.39444
14.07592
ln
2
D
S = ln 3.33 = 1.20297
M = (n k) ln
2
D
S -
k
i
i
S ni
1
2
ln ) 1 (
M = 12(1.20297) 14.07592
= 14.43564 14.07592
= 0.35972
C=
( )
11 . 1
72
8
1
2
1
4
3
6
1
1
2
1
4
1
4
1
4
1
6
1
1
1
1
1
1 3
1
1
1
1
+
'
'
,
_
+ + +
'
k
i
k n n k
M/C = 0.35972/1.11 = 0.323
Autores: MSc. Daisy Espallargas MSc. Jorge DEspaux 75
Ya estamos en condiciones de plantear la prueba, ya que calculamos el
estadstico de prueba.
H
0
:
2
3
2
2
2
1
H
1
: alguna
2
i
diferente
= 0.05
M/C
2
(1-)
k-1
W: {M/C >
2
(1-)
k-1
} = {M/C > 5.99 }
R:D:/ Rechazo H
0
M/C > 5.99
No Rechazo H
0
M/C 5.99
D/ . M/C = 0.323 < 5.99 No Rechazo H
0
:
2
3
2
2
2
1
a un = 0.05
Pueden Hacer los ejercicios 189,192 y 194 que estn en el laboratorio
de Estadstica Matemtica II
Autoexamen
1. Se obtienen muestras del peso de llenado de cuatro paquetes de
espinacas congeladas a partir de tres contenedores. La pregunta es
si los pesos promedios de los paquetes son iguales o diferentes entre
los tres contenedores. Utilice un = 0.05
Grupos Y
i j
i
y
1 12.4 13.7 11.5 10.3 12.0
2 11.9 9.3 12.1 10.6 11.0
3 10.3 12.4 11.9 10.2 11.2
2. Se pidi a cuatro personas que beben una marca determinada de
caf que registraran el nmero de tazas consumidas por da. Lo
mismo se hizo con bebedores de otras tres marcas. Los resultados se
muestran en la siguientes. Diga si existen diferencias significativas
entre las cuatro marcas de caf, utilice un = 0.05 y compruebe
tambin a este mismo nivel si existe homocedasticidad entre las
varianzas de las cuatro poblaciones.
Marcas Y
i j
ij
y
A 3 2 5 6 4
B 5 1 4 6 4
Autores: MSc. Daisy Espallargas MSc. Jorge DEspaux 76
C 2 10 5 7 6
D 3 6 4 5 4.5
3. Un analista de la cadena de supermercados del CIMEX quiere
conocer si tres de las ms grandes tiendas de esta especialidad,
tienen el mismo promedio de compras. Se elige una muestra tamao
6 en cada tienda. La tabla se presenta a continuacin.
Tienda
s
Y
i j
ij
y
1 12.05 23.94 14.63 25.78 17.52 18.45 18.73
2 15.17 18.52 19.57 21.40 13.59 20.57 18.14
3 9.48 6.92 10.47 7.63 11.90 5.92 8.72
Utilice para su anlisis un nivel de significacin del 5%. Y compruebe si
existe homogeneidad en las varianzas de las 3 poblaciones.
4. DITA, una empresa fundamentalmente electrnica, ha mandado
cierto nmero de empleados a cuatro instituciones educativas para
recibir formacin tcnica. Esta accin est dada porque la firma
considera que la formacin profesional mejorar la productividad de
los empleados y la calidad del producto.
Programas Y
i j
i
y
A 95 88 90 99 89 93 95 97 85 90 92.1
B 92 88 80 75 67 78 92 80 77 69 79.8
C 85 81 86 91 78 81 86 90 75 83 83.6
D 98 65 74 82 90 62 75 85 70 82 78.3
Compruebe si existen diferencias significativas entre los 4 programas a
un nivel de significacin del 5%.
Diga cuales son los supuestos del anlisis de varianza y cual es el
estadstico de prueba, si se quiere probar la existencia de
Homocedasticidad entre las varianzas de los cuatro programas y cual es
la distribucin de probabilidad de este estadstico.
Autores: MSc. Daisy Espallargas MSc. Jorge DEspaux 77