Professional Documents
Culture Documents
67
de los tratamientos observados y el gran promedio es una medida de las diferencias entre las medias de
los tratamientos, mientras que las diferencias de las observaciones dentro de un tratamiento y el promedio del tratamiento, pueden deberse nicamente al error aleatorio. Por lo tanto, la ecuacin 3-6 puede escribirse simblicamente como
SST
= SSTratamientns +SSE
donde a SSnatamientos se le llama la suma de cuadrados debida a los tratamientos (es decir, entre los tratamientos), y a SSE se le llama la suma de cuadrados debida al error (es decir, dentro de los tratamientos).
Hayan = N observaciones en total; por lo tanto, SST tiene N -1 grados de libertad. Haya niveles del factor (y medias de a tratamientos), de donde SSnatamientos tiene a - 1 grados de libertad. Por ltimo, dentro de
cualquier tratamiento hay n rplicas que proporcionan n - 1 grados de libertad con los cuales estimar el
error experimental. Puesto que haya tratamientos, se tienen a(n - 1) = an - a = N - a grados de libertad
para el error.
Es til examinar explcitamente los dos trminos del lado derecho de la identidad fundamental del
anlisis de varianza (ecuacin 3-6). Considere la suma de cuadrados del error
En esta forma es fcil ver que el trmino entre corchetes, si se divide por n -1, es la varianza muestral del
tratamiento i-simo, o
S~
= ..:..j=_I
n-1
= 1, 2, oo.,
.Ahora pueden combinarse a varianzas muestrales para obtener una sola estimacin de la varianza poblacional comn de la siguiente manera:
[LJ'~_1
L,.
__a
(Yif - Ji. )2]
1
= _---=.'-------=
~
L.J (n-1)
i=l
SSE
(N-a)
Por lo tanto, SSEI(N -a) es una estimacin combinada de la varianza comn dentro de cada uno de los a
tratamientos.
De manera similar, si no hubiera diferencias entre las medias de los a tratamientos, podra usarse la
variacin de los promedios de los tratamientos y el gran promedio para estimar cr. Especficamente
SSTratamientos
a-1
i=l
a-1
es una estimacin de cr si las medias de los tratamientos son iguales. La razn de esto puede verse de manera intuitiva de la siguiente manera. La cantidad k~=l <Yi. -yY/(a -1) estima crin, la varianza de los pro-
68
CAPTULO 3
medios de los tratamientos, de donde nL~=1 (jIi. - --YY/(a - 1) debe estimar cJl si no hay diferencias en las
medias de los tratamientos.
Se observa que la identidad del anlisis de varianza (ecuacin 3-6) nos proporciona dos estimaciones
de cJl: una basada en la variabilidad inherente dentro de los tratamientos y una basada en la variabilidad
entre los tratamientos. Si no hay diferencias en las medias de los tratamientos, estas dos estimaciones debern ser muy similares, y si no lo son, se sospecha que la diferencia observada puede ser causada por diferencias en las medias de los tratamientos. Aun cuando se ha usado un razonamiento intuitivo para
desarrollar este resultado, puede adoptarse un enfoque un tanto ms formal.
A las cantidades
= SS Tratamientos
MS
a-
Tratamientos
SSE
MS = - E
N-a
se les llama cuadrados medios. Se examinarn ahora los valores esperados de estos cuadrados medios.
Considere
LL
j=1
SS) =-_-E
1
[a n (Yij-Yi.)2 ]
E(MSE)=E~
(
N
i=1
1 E[a
n (y~-2y.. y-. +Y~) ]
=""
lj
lj
N - a LJLJ
;=1 j=1
l.
= N_a E
=_1
N-a
l.
[a n
~#
E[!I
;=1 j=1
Entonces, al elevar al cuadrado y tomar el valor esperado de la cantidad entre corchetes, se observa que
los trminos que incluyen ac~ y c~ son reemplazados por cJly ncJl, respectivamente, debido a que E (cij) =
O. Adems, todos los productos cruzados que incluyen a cij tienen valor esperado cero. Por lo tanto, despus de elevar al cuadrado y tomar el valor esperado, la ltima ecuacin se convierte en
1
[a
a]
2
69
( MS
n!
o
';
=I
Tratamientos) = a - + -a--"--l-
Por lo tanto, como se argument heursticamente, MSE = SSE/(N - a) estima dl y, si no hay diferencias en
las medias de los tratamientos (lo cual implica que ' = O), MSnatamientos = SSTratamientoJ(a -1) tambin estima dl. Sin embargo, observe que si las medias de los tratamientos difieren, el valor esperado del cuadrado
medio de los tratamientos es mayor que dl.
Parece claro que es posible realizar una prueba de la hiptesis de que no hay diferencias en las medias
de los tratamientos comparando MSnatamientos y MSE Se considera ahora cmo puede hacerse esta comparacin.
3,3.2
Anlisis estadstico
Se investiga ahora cmo puede llevarse a cabo una prueba formal de la hiptesis de que no hay diferencias en las medias de los tratamientos (HO:f.l1 = f.l2 = = Ila, o de manera equivalente, HO:' 1 = ' 2 = ''a =
O). Puesto que se ha supuesto que los errores Bij siguen una distribucin normal e independiente con media cero y varianza dl, las observaciones Yij tienen una distribucin normal e independiente con media f.l +
' y varianza dl. Por lo tanto, SST es una suma de cuadrados de variables aleatorias con una distribucin
normal; por consiguiente, puede demostrarse que SST/rJ2 tiene una distribucin ji-cuadrada con N -1 grados de libertad. Adems, puede demostrarse que SSE/dl es una variable ji-cuadrada con N -a grados de libertad y que SSnatamientoJdl es una variable ji-cuadrada con a -1 grados de libertad si la hiptesis nula Ho:'
= Oes verdadera. Sin embargo, las tres sumas de cuadrados no son necesariamente independientes, ya
que la suma de SSnatamientos YSSE es SS,!, El siguiente teorema, que es una forma especial de un teorema
atribuido a William Cochran, es til para establecer la independencia de SSE Y SSnatamientos'
o"
TEOREMA 3,1
o.
Teorema de Cochran
Sea Z igual a NID(O, 1) para i
= 1,
2,
o ,
vy
Z2
= QI +Q2 + ... + Q,
;=1
donde s :5 v, YQ tiene Vi grados de libertad (i = 1,2, .", s). Entonces Ql' Q2' oo., Q, son variables aleatorias
ji-cuadrada independientes con VI' V 2, oo., V, grados de libertad, respectivamente, si y slo si
v = VI +V 2 + ... +v,
.........................................................................
Puesto que los grados de libertad de SSnatamientos YSSE suman N -1, el nmero total de grados de libertad, el teorema de Cochran implica que SSnatamiento,/dl Y SSE/dl son variables aleatorias ji-cuadrada con
3
7O
CAPTULO 3
Tabla 3-3
Tabla de anlisis de varianza para el modelo con un solo factor y efectos fijos
Suma de
cuadrados
Fuente de variacin
Grados de
libertad
Cuadrado
medio
a-l
MSTratamicntos
SSTrntamientos
=n
2: (Yi. - Y.J
i=l
SSE = SST -
Total
SST =
~~
SSTrntamicntos
N-a
-y.}
N-l
(Yij
F: =
MSTrntamientos
MSE
i=l 1'=1
una distribucin independiente. Por lo tanto, si la hiptesis nula de que no hay diferencias en las medias
de los tratamientos es verdadera, el cociente
F.
o
= SSTratamientos I (a -
1)
= MS Tratamieotos
SSE I(N-a)
MS E
(3-7)
se distribuye como F con a - 1 y N - a grados de libertad. La ecuacin 3-7 es el estadstico de prueba para
la hiptesis de que no hay diferencias en las medias de los tratamientos.
Por los cuadrados medios esperados se observa que, en general, MS E es un estimador insesgado de el-.
Asimismo, bajo la hiptesis nula, MSTratamientos es un estimador insesgado de el-. Sin embargo, si la hiptesis
nula es falsa, el valor esperado de MSTIatamientos es mayor que el-. Por lo tanto, bajo la hiptesis alternativa, el
valor esperado del numerador del estadstico de prueba (ecuacin 3-7) es mayor que el valor esperado del
denominador, y Ha deber rechazarse para valores del estadstico de prueba que son muy grandes. Esto
implica una regin crtica de una sola cola superior. Por lo tanto, Ha deber rechazarse y concluirse que
hay diferencias en las medias de los tratamientos si
Fa > Fa,a-l,N-a
donde Fa se calcula con la ecuacin 3-7. De manera alternativa, podra usarse el enfoque del valor P para
tomar una decisin.
Es posible obtener frmulas para calcular estas sumas de cuadrados reescribiendo y simplifican~o las
definiciones de SSTratamientos Y SSy en la ecuacin 3-6. Se obtiene as
2
Y.
Yij - N
2
(3-8)
1
SS
Tratamientos
"
=-;; Lo,
Yi.2 - Y.
N
(3-9)
1=1
EJEMPLO 3,1
"
71
Peso
porcentual
del algodn
Totales
Yi
15
20
25
30
35
7
12
14
19
7
7
17
18
25
10
15
12
18
22
11
11
18
19
19
15
9
18
19
23
11
49
77
88
108
54
9.8
15.4
17.6
21.6
10.8
Y.. = 376
Y. = 15.04
Promedios
Yi.
Se usar el anlisis de varianza para probar H o:fl1 = fl2 = fl3 = fl4 = fl5 contra la hiptesis alternativa
H 1: algunas medias son diferentes. Las sumas de cuadrados requeridas se calculan como sigue:
5
SST
= 2:2: Y~ - ~
;=1 j=l
(376)2
1
= -
" Yi.2 - Y.
.LJ
N
;=1
1?
(376)2
= SST - SS Tratamientos
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
475.76
161.20
636.96
4
20
24
118.94
8.06
Fo
Fo=14.76
Valor P
<0.01
72
CAPTULO 3
"O
:Q
:s
0.6
E
E!
c. 0.4
ID
"O
"O
ro
"O
.;
0.2
podra calcularse un valor P para este estadstico de prueba. En la figura 3-3 se muestta la distribucin de
referencia (F4,20) para el estadstico de prueba Fa. Evidentemente, el valor P es muy pequeo en este caso.
Puesto que F0.G1,4,20 = 4.43 YFa> 4.43, puede concluirse que un lmite superior del valor Pes 0.01; es decir,
P < 0.01 (el valor P exacto es P = 9.11 X 10-6)
Clculos manuales
Posiblemente el lector haya notado que la suma de cuadrados se defini en trminos de promedios; es decir, por la ecuacin 3-6,
a
SS Tratamientos
=n
2: (jii. - )1.. )2
i=l
pero las frmulas de clculo se desarrollaron utilizando los totales. Por ejemplo, para calcular SSnatamientoS'
se usara la ecuacin 3-9:
1 a
2
SS
~ 2 Y..
Tratamientos = -;; LJ Yi. - N
i=1
La razn principal de esto es por conveniencia; adems, los totales Yi. y Y.. estn menos sujetos al error de
redondeo que los promedios Yi. y Y..'
En general, no deber prestarse demasiada atencin a los clculos, ya que se cuenta con una amplia
variedad de programas de computadora para realizarlos. Estos programas de computadora son tambin
tiles para realizar muchos otros anlisis asociados con el diseo experimental (como el anlisis residual y
la verificacin de la adecuacin del modelo). En muchos casos, estos programas tambin ayudarn al experimentador a establecer el diseo.
Cuando es necesario realizar los clculos manualmente, en ocasiones es til codificar las observaciones. Esto se ilustra en el ejemplo siguiente.
EJEMPLO 3..2
Codificacin de observaciones
Los clculos del anlisis de varianza pueden hacerse con frecuencia de manera ms precisa o simplificada
codificando las observaciones. Por ejemplo, considere los datos de la resistencia a la tensin del ejemplo
15
20
25
30
35
-8
-3
-1
-8
2
3
-4
-3
3
-6
3
10
-8
-5
-4
4
4
O
8
-4
73
Totales
Yi
-26
2
13
33
-21
3-1. Suponga que se resta 15 de cada observacin. Los datos codificados se muestran en la tabla 3-5. Es
sencillo verificar que
SST = (-8)2 +(_8)2 + .. , +(_4)2 _
SS
.
TratamIentos
(~2
= 636.96
(1)2
25
=4
576
7 .
SSE
= 161.20
Al comparar estas sumas de cuadrados con las que se obtuvieron en el ejemplo 3-1, se observa que al restar una constante de los datos originales las sumas de cuadrados no se modifican.
Suponga ahora que cada una de las observaciones del ejemplo 3-1 se multiplica por 2. Es sencillo verificar que las sumas de cuadrados de los datos transformados son SST = 2547.84, SSnatamientos = 1903.04 Y
SSE = 644.80. Estas sumas de cuadrados parecen diferir considerablemente de las que se obtuvieron en el
ejemplo 3-1. Sin embargo, si se dividen por 4 (es decir, 22), los resultados son idnticos. Por ejemplo, para
la suma de cuadrados de los tratamientos, 1903.04/4 = 475.76. Asimismo, para los datos codificados, el
cociente F es F = (1903.04/4)/(644.80/20) = 14.76, que es idntico al cociente F de los datos originales.
Por lo tanto, los anlisis de varianza son equivalentes.
Pruebas de aleatorizacin y anlisis de varianza
En el desarrollo del anlisis de varianza con la prueba F, se ha utilizado el supuesto de que los errores
aleatorios sij son variables aleatorias que siguen una distribucin normal e independiente. Thmbin es posible justificar la pruebaF como la aproximacin de una prueba de aleatorizaciu. Para ilustrar esto, su~
ponga que se tienen cinco observaciones de cada uno de dos tratamientos y que quiere probarse la
igualdad de las medias de los tratamientos. Los datos apareceran as:
1J:atamiento 1
1J:atamiento 2
Yl1
Y21
Y12
Y22
Y13
Y23
Y14
Y24
Y15
Y25
Podra usarse el anlisis de varianza con la pruebaF para probar HO:#l = #2' De manera alternativa, podra recurrirse a un enfoque un tanto diferente. Suponga que se consideran todas las formas posibles de
74
CAPTULO 3
asignar los 10 nmeros de la muestra anterior a los dos tratamientos. Hay 10!/5151 = 252 arreglos posibles
de las 10 observaciones: Si no hay ninguna diferencia en las medias de los tratamientos, los 252 arreglos
son igualmente posibles. Para cada uno de los 252 arreglos, se calcula el valor del estadstico F usando la
ecuacin 3-7. A la distribucin de estos valores F se le llama distribucin de aleatorizacin, y un valor
grande de F indica que los datos no son consistentes con la hiptesis Ho:fil = fiz. Por ejemplo, si el valor de
F que se observ realmente fue excedido slo por 5 de los valores de la distribucin de aleatorizacin, esto
correspondera con el rechazo de Ho:ll = fiz con un nivel de significacin de a = 5/252 = 0.0198 (o
1.98%). Observe que no es necesario ningn supuesto de normalidad en este enfoque.
La dificultad con este enfoque es que, incluso en problemas relativamente pequeos, los clculos requeridos hacen inviable la enumeracin de la distribucin de aleatorizacin exacta. Sin embargo, numerosos estudios han demostrado que la distribucin F comn de la teora normal es una buena
aproximacin de la distribucin de aleatorizacin exacta. Por lo tanto, incluso sin el supuesto de normalidad, la prueba F puede considerarse como una aproximacin de la prueba de aleatorizacin. Para ms detalles sobre las pruebas de aleatorizacin en el anlisis de varianza, ver Box, Hunter y Hunter [18].
3~3.3
Se presentan ahora los estimadores de los parmetros del modelo con un solo factor
y los intervalos de confianza para las medias de los tratamientos. Ms adelante se demostrar que estimadores razonables de la media global y de los efectos de los tratamientos estn dados por
{t
= Y..
(3-11)
i= 1, 2, ..., a
fi=Yi.-Y..,
Estos estimadores poseen un considerable atractivo intuitivo; observe que la media global se estima con
el gran promedio de las observaciones y que el efecto de cualquier tratamiento no es sino la diferencia entre el promedio del tratamiento y el gran promedio.
Es posible determinar con facilidad una estimacin del intervalo de confianza de la media del tratamiento i-simo. La media del tratamiento i-simo es
Un estimador puntual defi sera{t = {t+f = Y.' Ahora bien, si se supone que los errores siguen una distribucin normal, cadaY. es una NID(u, cJ2/n). Por lo tanto, si cJ2 fuera conocida, podra usarse la distribucin normal para definir el intervalo de confianza. Al utilizar MS E como estimador de cJ2, el intervalo de
confianza se basara en la distribucin t. Por lo tanto, un intervalo de confianza de 100(1- a) por. ciento .
para la media fii del tratamiento i-simo es
-
Y.
t a/Z.N-a
s
n ~
__E_<
fi
<-
Y.
t a/Z.N-a
__E_
~MS
n
(3-12)
Un intervalo de confianza de 100(1- a) por ciento para la diferencia en las medias de dos tratamientos
cualesquiera, por ejemplo fii - fij' sera
J2MS E
~2MSE
(3-13)
75
EJEMPLO 3~3 .
Utilizando los datos del ejemplo 3-1 pueden encontrarse las estimaciones de la media global y de los efectos de los tratamientos como f1, = 376/25 = 15.04 Y
= Yl -Ji.. = 9.80-15.04=-5.24
f 2 = Y2. - Y.. = 15.40-15.04 = +0.36
f 3 = h - Y.. = 17.60-15.04 = -2.56
f 4 = Y4. - Y.. = 21.60-15.04 = +6.56
~ 5 = Ys. -:- Y.. = 10.80-15.04 = -4.24
~1
Un intervalo de confianza de 95% para la media del tratamiento 4 (30% de algodn) se calcula con la
ecuacin 3-12 como
fl4
fl4
$ 24.25.
Las expresiones para los intervalos de confianza dados en las ecuaciones 3-12 y 3-13 son intervalos de confianza uno a la vez. Es decir, el nivel de confianza 1- a slo se aplica a una estimacin particular. Sin embargo, en muchos problemas, el experimentador tal vez quiera calcular varios intervalos de confianza,
uno para cada una de varias medias o diferencias entre medias. Si hay inters en r de estos intervalos de
confianza de 100(1- a) por ciento, la probabilidad de que los r intervalos sean correctos simultneamente es al menos 1- ra. A la probabilidad ra se le llama con frecuencia ndice de error en el modo del experi, mento o coeficiente de confianza global. El nmero de intervalos r no tiene que ser muy grande antes de
que el conjunto de intervalos de confianza se vuelva relativamente falto de informacin. Por ejemplo, si
hay r = 5 intervalos y a = 0.05 (una eleccin tpica), el nivel de confianza simultneo para el conjunto de
los cinco intervalos de confianza es de al menos 0.75, y si r = 10 Ya = 0.05, el nivel de confianza simultneo es de al menos 0.50.
Un enfoque para asegurarse de que el nivel de confianza simultneo no sea demasiado pequeo es
sustituir a/2 con a/(2r) en las ecuaciones 3-12 y 3-13 del intervalo de confianza uno a la vez. A ste se le llama el mtodo de Bonferroni, y le permite al experimentador construir un conjunto de r intervalos de confianza simultneos para las medias de los tratamientos o las diferencias en las medias de los tratamientos
para los que el nivel de confianza global es de al menos 100(1- a) por ciento. Cuando r no es muy grande,
ste es un mtodo muy atinado que produce intervalos de confianza razonablemente cortos. Para ms informacin, referirse al material suplementario del texto del captulo 3.
3~3.4
Datos no balanceados
En algunos experimentos con un solo factor, puede ser diferente el nmero de observaciones que se hacen dentro de cada tratamiento. Se dice entonces que el diseo es no balanceado. Sigue siendo posible
aplicar el anlisis de varianza descrito arriba, pero deben hacerse ligeras modificaciones en las frmulas
76
CAPTULO 3
de las sumas de cuadrados. Sea que se hagan ni observaciones bajo el tratamiento i (i = 1,2, ..., a) y que
N = L~=ln. Las frmulas para calcular manualmente SST y SSTratamientos quedan como
(3-14)
y
a
SS
Tratamientos
.LJ
i=l
2:'L_L
N
(3-15)
3~4
Yij
= jl+i
= Y..- +(-Y. = Yi.
-)
Y..
(3-17)