You are on page 1of 38

97

CAPTULO VIII

ANLISIS DE VARIANZA

VIII.1. INTRODUCCION

Una forma simple de abordar el Anlisis de la Varianza (ANOVA o ANDEVA) sera, como un procedimiento para comprobar si dos o ms medias muestrales pueden haberse obtenido de poblaciones con una misma media paramtrica respecto de una variable dada. Toda vez que se demuestra que dos o ms medias son diferentes, debemos suponer que proceden de poblaciones diferentes. Para comprobar si existen diferencias significativas entre las medias para el caso de dos muestras se utiliza para la comparacin tradicionalmente la distribucin t de Student o en el caso de conocerse las varianzas de las poblaciones que se comparan, la distribucin normal,. Sin embargo la importancia del ANOVA, es que es un mtodo ms general que permite comparar las medias de dos o ms muestras. El ANOVA se podra definir tambin como una tcnica en la que la varianza total de un conjunto de datos se divide en componentes asociados a una fuente especfica de variacin, estimando la magnitud con la que contribuye cada una de esas fuentes a la variacin total. Dicho en otros trminos, consiste esencialmente en descomponer la "varianza total" de un conjunto de observaciones de una variable X, en "varianzas parciales" correspondientes a fuentes de variacin distintas y determinadas, las que luego se comparan entre s por medio de una prueba estadstica llamada prueba F de Fisher. En funcin de lo anterior diremos que el ANOVA se utiliza para dos propsitos: 1) estimar y probar hiptesis respecto a varianzas poblacionales y 2) estimar y probar hiptesis respecto a las medias poblacionales. Para utilizar correctamente el ANOVA como una herramienta de la inferencia estadstica es necesario satisfacer un conjunto de suposiciones fundamentales. Aunque no se puede esperar que los datos experimentales satisfagan todas las suposiciones a la perfeccin, es importante al utilizar este procedimiento, poder discernir que grados de desviacin son aceptables y ser capaz de reconocer cuando estas suposiciones no son plenamente satisfechas. Para comprender la esencia del ANOVA es necesario realizar algunas precisiones respecto de algunos trminos y conceptos. Sea el caso de una variable X (variable dependiente), que deseamos estudiar y sobre la que presumiblemente influyen una serie de causas definidas o identificables y otras que son imposibles de precisar o debidas al azar. La variable X, ser nuestra variable respuesta o variable dependiente, y denominaremos factor a cada una de las causas asignables que pueden incidir sobre ella, constituyendo estas las variables independientes cuya influencia se pretende evaluar. Consideremos tambin que cada una de las causas identificables o

98 factores que influyen sobre la variable X, no lo hacen de manera constante, sino que pueden asumir distintas alternativas o categoras que constituyen los niveles del factor. Si sobre la variable X incide un solo factor, al anlisis de varianza que estudia la variacin de X, se llama ANOVA de un factor o unifactorial y a sus diferentes alternativas, niveles o tratamientos; si inciden dos factores lo llamaremos ANOVA con dos factores y as sucesivamente. A modo de resumen diremos que dadas una variable dependiente cuantitativa y una variable independiente o factor, el anlisis de varianza de un factor, consiste en analizar el comportamiento de la variable dependiente en las K subpoblaciones o grupos establecidos en funcin de los valores de la variable independiente. En esta primera parte consideraremos el caso particular del ANOVA de clasificacin nica, de una va o ANOVA de un factor.
VIII.2. DISTRIBUCIN F

Consideremos el caso de una variable X N( , 2 ) .De esta poblacin extraemos dos muestras de tamao n1 y n2 y calculamos las respectivas varianzas muestrales s21 y s22 y el cociente Fs = s21 / s22 Este cociente ser cercano a 1, porque s21 y s22 paramtrica 2. (75) son estimaciones de una misma varianza

Si tomramos repetidas muestras de tamaos n1 y n2 y calculramos los cocientes Fs, obtendramos un estadstico o estadgrafo que sigue una distribucin F. La forma de esta distribucin est determinada por los valores de n1 y n2 y ms precisamente por los grados de libertad asociados a las muestras 1 y 2 ,es decir 1y 2 iguales a (n1-1) y (n2-1) respectivamente. La distribucin F, se utiliza para comprobar la siguiente hiptesis nula Ho) , 2 1 = 2 2 Es decir, si dos varianzas muestrales s21 y s22 han sido obtenidas de la misma poblacin con varianza paramtrica 2 . La hiptesis alternativa podra ser: Ha) 2 1 2 2 o Ha) 2 1
>

2 2 o

2 1 < 2 2

Que plantea un test de F a dos cola y a una cola respectivamente. El valor de Fs calculado a partir de la expresin (75) se compara con un valor de Tabla F(1,2) donde es la probabilidad de error de tipo I y 1,2 son los grados de libertad de

99 las varianzas que se encuentran en el numerador y en el denominador respectivamente. El valor de F(1,2) que se obtiene de una tabla de distribucin F, determinan las reas de rechazo y aceptacin de Ho. Algunas veces, es necesario obtener valores de F para > 0,5.dado que estos valores raras veces estn tabulados, deben ser obtenidas mediante la relacin: F(1,2) = 1/ F
(1- )(2,1)

La aceptacin de la hiptesis nula de igualdad de las varianzas es un requisito previo para algunos tests donde se trata de decidir si las medias de 2 muestras proceden de una misma poblacin. Esto es, muchas veces, estamos interesados en conocer de dos sistemas experimentales en cual de ellos la lectura de una cierta magnitud es ms variable, o cual de dos procesos o mtodos introduce mayor variabilidad en la magnitud medida.
VIII.3. ANLISIS DE VARIANZA DE UN FACTOR Supongamos que se dispone de muestras de I subpoblaciones, establecidas por los I valores de una variable independiente o factor Y, y que, sobre cada individuo o elemento de la muestra, se mide una variable en escala de intervalo o de razn X, tal que su distribucin en cada una de las subpoblaciones es normal y con la misma varianza en todas ellas. El anlisis de la varianza con un factor, se utiliza para contrastar la hiptesis nula de que las medias de las muestras que proceden de las I subpoblaciones para la variable respuesta X, es la misma:
Ho) 1 = 2 = 3 =.......... = i

(76)

El anlisis de la varianza se basa en que la variabilidad total existente en los datos puede descomponerse en una parte debida al efecto del factor investigado (variabilidad debida a las diferencias entre las medias de los grupos) y otra parte residual que recoge el efecto de todos los factores no controlados (variabilidad debida a las diferencias dentro de los grupos). La tabla de ANOVA se construye a partir de esta descomposicin y proporciona el estadstico Fs que permite contrastar la hiptesis nula de igualdad de medias en los grupos, cuya aceptacin implicara la no influencia de factor analizado. Dicho estadstico compara la variabilidad debida a las diferencias entre grupos con la debida a las diferencias dentro de los grupos. En consecuencia, cuanto mayor sea el valor del estadstico Fs, mayor ser la influencia de factor en consideracin y mayor la diferencia entre las medias de los grupos. Si el p-valor asociado al estadstico Fs es menor que , se rechazar la hiptesis al nivel de significacin .

100

VIII.3.1.Particin de la Suma Total de Cuadrados y de los Grados de Libertad

Recordemos que la varianza es una medida de la dispersin de los valores de las observaciones y que se obtiene dividiendo la suma de cuadrados por el nmero de grados de libertad. Atendiendo a que las varianzas no gozan de propiedades aditivas, es decir, no pueden combinarse por suma ni descomponerse por sustraccin, pero s las suma de cuadrados y los grados de libertad asociados, la tcnica de Anlisis de Varianza se basa esencialmente en la descomposicin de las sumas de cuadrados y de los grados de libertad asociado a la varianza total , que se calcula para la totalidad de los datos sin considerar los distintos grupos o muestras Como se sealara en la introduccin, el ANOVA proporciona una forma de dividir la variacin total de la variable medida en dos partes las cuales pueden ser expresadas como sigue para una observacin cualquiera Xi ( Xi-X) = (Xi-Xi ) + ( Xi - X) (77)

El trmino de la izquierda representa la diferencia entre una observacin cualquiera y la media general X, calculada considerando la totalidad de las observaciones. El primer trmino de la derecha representa la diferencia entre el valor de la observacin y la media del grupo y el segundo trmino la diferencia entre la media del grupo y la media general. Elevando al cuadrado cada uno de los trminos, y generalizando la expresin a la totalidad de las observaciones, la expresin anterior puede ser escrita como ( Xi-X)2 = (Xi-Xi )2 + ni ( Xi - X)2 ( 78)

donde ni el nmero de observaciones en el i-esimo grupo. Es decir, la variacin total queda expresada como la suma de dos fuentes de variacin : 1) la variacin dentro de los grupos expresado como las diferencias de cada observacin y la media de su grupo y 2) la variacin entre grupos, representada por la diferencia entre cada una de las medias de los grupos y la media general . Si las medias de los grupos son muy diferentes entre s, habr una variacin considerable entre estas y la media general comparada con la variacin dentro de cada uno los grupos. En cambio, si las medias de los grupos no difieren entre s, la variacin entre estas y la media general no ser mucho mayor que la variacin de cada observacin respecto a la media de su grupo.

101 Como las varianzas no son aditivas, para descomponer la variacin total, en cada una de las fuentes de variacin antes mencionadas, se procede a descomponer la "suma de cuadrados" y "los grados de libertad" total en las "sumas de cuadrados" y los "grados de libertad" entre los grupos y dentro de los grupos respectivamente. Para comprender el clculo y el significado de esta descomposicin analicemos el siguiente ejemplo: Tanto las aguas superficiales como subterrneas en la Provincia de Misiones presentan niveles muy aceptables de calidad, en todos los parmetros, con excepcin de Fe, para el cual las concentraciones obtenidas superan en un porcentaje importante de las muestras el valor de 0.3 mg/l fijado por las normas para el agua de bebida. Los resultados que se presentan a continuacin corresponden a un relevamiento de la calidad de las aguas de los pozos domiciliarios (freticos) realizado por la COMIP (Comisin Mixta Argentino-Paraguaya del Ro Paran) entre Abril y Mayo de 1986 y que abarc 8 localidades del centro-sur de la Provincia de Misiones. La evaluacin de este tipo de informacin es importante en virtud de que la cobertura de agua potable en la provincia , segn datos del ao 1994 es solo del orden del 54 %.El resto de la poblacin urbana de barrios marginales y los asentamientos rurales que no cuentan con el servicio, se abastecen mayoritariamente por medio de pozos excavados, cuyas profundidades varan entre 6 y 15 m. Dichos pozos, en las reas urbanas se encuentran invariablemente sujetos a contaminacin microbiolgica, provocada por su proximidad a pozos absorbentes, a los que debe agregarse segn los resultados obtenidos en esta evaluacin, concentraciones de Fe total que superan los lmites establecidos para el agua de bebida. En el Cuadro VIII.1 se presentan los datos obtenidos en el relevamiento, y la respuesta que se quiere obtener es si existen diferencias entre los valores medios de las concentraciones de Fe Total (mg/l) de las cuatro localidades seleccionadas.1
Cuadro VIII.1. Relevamiento de Calidad de Aguas de Pozos Excavados (Zona Centro-Sur) Provincia de Misiones (Perodo Abril - Mayo de 1986)

Candelaria 0.23 0.05 1.58 0.25 1.48 0.075 0.22 1.00


1

Santa Ana 0.125 0.025 3.56 0.063 0.025 1.00 0.15 2.80

Localidad San Ignacio 0.075 0.23 0.025 1.58 0.85 0.28 0.76 0.15

Corpus 0.42 0.011 0.037 0.125 0.050 1.62 0.081

Piris da Motta M- Hierro y Manganeso en Aguas Superficiales y Subterrnea en la Provincia de Misiones- Taller Internacional sobre Hierro y Manganeso- Buenos Aires 6 y 7 de Noviembre de 1997

102 0.025 0.025 3.00 0.15 3.02 0.025 0.125 0.62 0.050 0.081

X X X2 N

Candelaria 0.67 8.09 14.88 12

Santa Ana 0.99 10.92 30.69 11

San Ignacio 0.43 4.70 4.35 11

Corpus 0.33 2.34 2.83 7

La comparacin entre estas cuatro series de mediciones se hace ensayando la hiptesis nula, de que las mismas fueron obtenidas de una poblacin nica. Veamos como se efecta la descomposicin de la suma de cuadrados y los grados de libertad . Variabilidad Total: Para el clculo de esta "varianza" necesitamos la "suma de cuadrados" y el "nmero de grados de libertad" correspondiente La suma de cuadrados de las desviaciones de cada una de las observaciones respecto a la media general, puede obtenerse mediante la siguiente expresin SS total = X2 - TC Siendo 1- X2 = Suma del cuadrado de los valores de las observaciones Este valor se calcula sumando los resultados que se presentan en la tercera fila del Cuadro Esto es X2 =14,88 + 30.69 + 4.35 + 2.83 = 52.75 2-TC = suma de las observaciones o "Gran Total" al cuadrado dividido por el nmero total de observaciones TC = (8,09 + 10,92 + 4,70 + 2,34)2 / 41 = (26,05)2 / 41 = 16,55 Obtenindose para la suma de cuadrado total el siguiente valor SS total = 52,75 - 16,55 = 36,20 El nmero total de mediciones es 41 y por lo tanto el nmero de grados de libertad correspondiente es N-1= 40 (79)

103 Variabilidad entre grupos o explicada: Para aislar al estado puro la variacin entre los grupos necesitamos suprimir la variacin dentro de los grupos, es decir entre los valores de las observaciones que constituyen un mismo grupo. Podemos obtener este resultado simplemente, haciendo a todas las observaciones de un mismo grupo iguales entre s e iguales a la media del grupo. Mediante esta operacin, la variacin entre los grupos no se modifica, puesto que los totales y las medias de grupos permanecen invariables, mientras que la variacin dentro del grupo queda anulada. La suma de cuadrados correspondiente se obtiene sumando los totales de grupo elevando al cuadrado y dividiendo por el nmero de observaciones en cada uno de los grupos y sustrayendo a esta cantidad el trmino de correccin. SS entre grupos = [( Tg)2 / ng ] - TC Esto es SS entre grupos = [ (8.09)2 / 12] +[ (10.92)2 / 11] + [ (4.70)2 / 11] + [ (2.34)2 / 7] - TC = (5.45+ 10.84+ 2.01+ 0.78) - TC = 18.72 - 16.55 = 2.17 El nmero de grados de libertad para el caso de a grupos ser = a-1 , es decir igual a 3 para el ejemplo que estamos considerando. Variabilidad dentro de los grupos o no explicada: La variacin dentro de cada grupo se debe a las desviaciones que presentan los valores de las observaciones respecto a la media del grupo. La suma de cuadrados dentro de cada grupo es la suma del cuadrado de las desviaciones mencionadas anteriormente, y en nmero de grados de libertad para cada grupo es igual al nmero de observaciones menos uno (ng1). La varianza dentro de cada grupo se calcula dividiendo la suma de cuadrados por el nmero de grados de libertad correspondiente. Mediante este procedimiento se obtienen tantas estimaciones de la varianza dentro de los grupos como grupos haya. Como plateamos la hiptesis de que las muestras provienen de la misma poblacin, las cuatro estimaciones de la varianza que podramos calcular para nuestro ejemplo, son en realidad cuatro estimaciones de una misma varianza, y pueden combinarse para obtener una estimacin basada en el conjunto de las observaciones. Esta combinacin se hace basndose en las propiedades aditivas de las sumas de cuadrados y de los grados de libertad. (80)

104

La suma de cuadrados dentro de los grupos se calcula por diferencia entre la SS total y la SS entre grupos. Esto es, como la diferencia entre la suma de los cuadrados de las observaciones y los totales de grupos al cuadrado dividido por el nmero de observaciones en el grupo. SS dentro de grupos = X2 - [( Tg)2 / ng ] El valor correspondiente al ejemplo ser SS dentro = 52.75 - 18.72 = 34.03 Siendo 37 el nmero de grados de libertad dentro de los grupos. Los resultados obtenidos se resumen en el siguiente Cuadro VIII.2 En el se presenta el cuadro de anlisis de varianza bajo la forma generalmente adoptada. La primera columna indica las fuentes de variacin analizadas. La presentacin de esta columna vara segn la estructura de la investigacin. Por ejemplo, si los distintos grupos corresponden a diferentes tratamientos, la primera lnea podra titularse "Tratamientos", si se trata de diferentes mtodos, se podr indicar "Mtodos" y as sucesivamente. La variacin dentro de los grupos se denomina frecuentemente "Error", trmino que en estadstica no tiene el significado corriente, esto es, no quiere decir que se haya cometido un error, significa "variaciones debidas a factores no controlados". Cuadro VIII.2.
Fuente de variacin Grados de libertad Suma de Cuadrados Cuadrados Medios G.L. SS MS Fs

(81)

Entre Grupos(Entre Localidades) Dentro de grupos (error) Total

3 37 40

2.17 34.03 36.20

0.72 0.92

0.78 (ns)

En el anlisis que hemos efectuado, las fuentes de variacin que influyen en los valores de las concentraciones de Fe las hemos separado en dos partes. Una de ella constituida por un factor que fue controlado por el investigador y que se identifica con de denominacin "Localidades", la otra que constituye el resto, es decir, el conjunto de todos los factores no controlados, y es lo que se ha denominado error.

105 La cuarta columna indica los cuadrados medios MS (o varianzas)2, para las diferentes fuentes de variacin. Se calculan dividiendo las sumas de cuadrados (columna 3) por los grados de libertad correspondientes (columna 2) .

VIII.3.2.Prueba de Significacin El mismo nos permite aceptar o rechazar la hiptesis nula, y de este modo comprobar si existe efecto del factor analizado, esto es, si las cuatro media puede considerarse muestreados aleatoriamente de la misma poblacin o si los tratamientos a los que han sido sometidos cada grupo han dado como resultado cambios en las medias, de modo tal que las muestras no pueden considerarse proveniente de una misma poblacin. Si esto es as, habr un componente aadido debido al efecto del factor o y podr ser detectado por la prueba de F en el test de significacin del ANOVA. Cuando el ANOVA, se ocupa de efectos de tratamientos como el del ejemplo que acabamos de analizar, en el que las localidades fueron seleccionadas por el investigador, estamos en presencia de un Modelo I de ANOVA o modelo de efecto fijo, para diferenciarlo del Modelo II en el cual los efectos aadidos para cada grupo no son tratamientos fijos, sino efectos aleatorios. Este sera el modelo en el caso en que las cuatro localidades hubieran sido obtenidas aleatoriamente entre varias localidades posibles. La principal diferencia entre ambos modelos, es que en el Modelo II, se consideran efectos aleatorios en cada grupo, y que estos no estn bajo el control de investigador, y por lo tanto son irrepetibles. Dado que los efectos son aleatorios, no es preciso calcular la magnitud de los mismos para cualquiera de los grupos o la diferencia entre un grupo y otro. En este caso el propsito del anlisis es calcular la componente aadida de la varianza entre grupos, comprobar su presencia y calcular su magnitud, as como su % de contribucin a la variacin de los valores de las observaciones y respecto a los otros niveles de rplicas. Volviendo a la prueba de significacin, si la hiptesis nula fuera verdadera, es decir que las cuatro muestras provienen de la misma poblacin, el cuadrado medio "entre grupos" y el cuadrado medio "dentro de los grupos" seran dos estimaciones de la misma varianza paramtrica, de modo que al calcular el cociente

Fs = MS "entre grupos"/ MS "dentro de grupos" = 0.72/0.92= 0.78

En realidad son "cuadrado medio" y no varianzas, los valores obtenidos, atendiendo al hecho que el "cuadrado medio" de un rubro del ANOVA esta compuesto y contiene, adems de la varianza correspondiente a ese rubro, elementos de las varianzas de otros rubros.

106

Su valor sera prximo a la unidad y en la prctica suficientemente pequeo si se lo comparada con el valor crtico obtenido como F (1,2), donde es el nivel de significacin de la prueba, normalmente igual a 0.05 o 0.01 y 1 y 2 son los grados de libertad del numerador y del denominador respectivamente. Para nuestro ejemplo, el valor de Fs calculado es menor que la unidad y menor que el valor critico F 0.05(3,37) = 2.8588, y por lo tanto no existen evidencias para rechazar la Ho y la conclusin es que las cuatro localidades no presentan diferencias estadsticamente significativas en los valores medios de las concentraciones de Fe total en las aguas de los pozos excavados utilizados como fuente de suministro. A continuacin se muestra la estadstica descriptiva y el Cuadro del Anlisis de Varianza correspondiente al ejemplo analizado, obtenido utilizando el paquete estadstico STATA .

Cuadro VIII.3.
Lugar | Mean Std. Dev. Freq.

----------+-----------------------------------Candelaria | Corpus | San Ignacio | Santa Ana | .67375001 .33485714 .42736364 .99254544 .92614579 .58339107 .4838362 1.409148 12 7 11 11

------------+-----------------------------------Total | .63531707 .95137159 41

Analysis of Variance Source SS df MS F Prob > F

-----------------------------------------------------------------------Between groups Within groups 2.52908239 33.675234 3 37 .843027464 .91014146 0.93 0.4377

-----------------------------------------------------------------------Total 36.2043164 40 .905107911

107

Bartlett's test for equal variances:

chi2(3) =11.7684

Prob>chi2 = 0.008

El ultimo resultado corresponde al test de homocedasticidad cuyo p-valor indica que no puede aceptarse la hiptesis nula de igualdad de varianza razn por el cual las conclusiones obtenidas en la comparacin de medias deben ser tomadas con reservas, ya que no se esta cumpliendo una de las hiptesis en el que se sustenta el ANOVA. La no homogeneidad de las varianzas puede ser debida en este caso a la diferencia en el numero de observaciones que tiene cada grupo. La eficiencia o potencia del test de significacin de la F, puede aumentarse: a) reduciendo el error experimental 2, estimado a travs el MS error o dentro de grupo. Esto puede conseguirse por medio de diseos mas elaborados, que permitan el control de algunos de los mltiples factores que influyen en el trmino de error. b) Aumentando el tamao de los tratamientos o grupos. Esto no siempre es posible, porque aumenta el costo del experimento y su tiempo de realizacin. Por otro lado, al aumentar n, suele aumentarla heterogeneidad de la poblacin y por lo tanto 2, con lo que, en ciertos casos, este procedimiento puede ser no conveniente.

VIII.4. HIPTESIS DEL ANOVA En el apartado anterior consideramos el caso en que los grupos que son objeto de comparacin se establecen segn un nico criterio de clasificacin en este caso atendiendo a la localizacin- y en el que la caracterstica o variable respuesta continua observada o medida en cada uno de los elementos (pozos) que conforman las muestras corresponden a la concentracin de Fe total en cada uno de los pozos. Estamos interesados en determinar, si el valor medio de la concentracin de Fe es significativamente diferente entre una localidad y otra o si las medias de los distintos grupos son idnticos , es decir el factor de clasificacin localizacin- no influye y se verifica que Ho) 1= 2 = 3=4

Si esta hiptesis es cierta, la pertenencia a una localidad u otra es irrelevante y podemos considerar todas las observaciones como muestras provenientes de una misma poblacin.

De un modo general, el modelo I (efecto fijo) para un anova de un factor establece que el valor de la observacin j-esima , perteneciente al i-esimo grupo puede ser expresado como:

108

Xij = + i + ij

= i + ij

(82)

Es decir, es la suma de un trmino constante , un trmino i diferente para cada grupo en el caso en que el efecto del factor analizado se significativo y un trmino ij denominado error experimental o residuo que representa el efecto de una serie de factores distintos no controlados, es decir es el resultado de muchos factores distintos ninguno de los cuales es predominante. Estas perturbaciones hiptesis: 1- E ( ij) = 0 i ,j
ij

para que el modelo sea valido deben cumplir con las siguientes

2- Var ( ji) =2 = cte 3- E ( ji rk) = 0 jr y ik 4- ij ( 0, 2 ) Estas cuatro condiciones pueden ser resumidas expresando de que las ji deben cumplir con la hiptesis DIIN (( 0, 2 ), esto es que las perturbaciones se distribuyen idntica e independientemente como variables normales de media cero y varianza constante pero desconocida 2 . La primera condicin exige que la totalidad de las ij tengan media 0.Para que esto ocurra las distintas mediciones de la variable X, tienen que haberse tomado en condiciones homogneas. La condicin 2, exige que la perturbaciones tengan la misma variabilidad en todos los grupos o tratamientos,- y adems que esta variabilidad sea estable- y no tienda a crecer o disminuir durante el experimento. La condicin 3 impone que las perturbaciones ij , se produzcan de manera independiente de una observacin a otra. Esto es, que las observaciones Xij sean independientes, es decir que el valor de una observacin no este condicionada por el valor anterior y no condicione el valor siguiente. Esta hiptesis es difcil de probar en la prctica y uno de los objetivos del diseo experimental es garantizar esta independencia. La hiptesis de normalidad se justifica en virtud del Torema Central del Lmite (TCL), en virtud que las perturbaciones no pueden preverse o asignarse a causas concretas, sino que resultan del efecto agregado de muchos factores distintos, ninguno de los cuales es predominante.

109

La falta de normalidad en los errores o perturbaciones tiene poca influencia en la prueba de significacin y en las comparaciones entre medias, ya que estas tendrn siempre una distribucin prxima a la normal por el TCL. Por lo tanto, los resultados de estas comparaciones son substancialmente vlidos aunque los datos no sean normales, y, en este sentido, podemos afirmar que el ANOVA es una tcnica "robusta" frente a desviaciones de la normalidad . Sin embargo la falta de normalidad afecta mucho la estimacin de la varianza y si los datos son marcadamente no normales tenemos que desconfiar de los intervalos de confianza para el error experimental, calculado como (n-1) sR2 / 2(/2)

(n-1) sR2 / 2(1-/2)

(83)

El efecto de las varianzas desiguales en los grupos depende de la heterogeneidad entre el nmero de observaciones en cada grupo. Si todos los grupos tienen igual n de observaciones, la prueba de significacin F es igualmente exacto, aunque las varianzas sean enormemente distintas. Sin embargo si hay muchas diferencias entre el n de observaciones en los grupos (Ej. la relacin ni mx./nj mn. > 2), el efecto de grandes diferencias entre las varianzas puede ser muy importante. En resumen, podemos despreocuparnos de las varianzas a efectos de la comparacin de medias, siempre que haya aproximadamente el mismo nmero de observaciones en los grupos, pero si existe un gran desequilibrio en este sentido, diferencias importantes entre las varianzas pueden ser grave. La no normalidad, afecta mas el test de igualdad de varianzas, que el test de F. Finalmente, el efecto de dependencia entre las observaciones puede ser muy grave, ya que las formulas para las varianzas de las distribuciones muestrales de las medias de los grupos son invlidas, por lo que todos los clculos sobre la precisin de los estimadores son errneos. Como se sealara anteriormente, el procedimiento mas eficaz para asegurar la independencia de las observaciones es la aleatorizacin. Si las hiptesis DIIN ( 0, 2 ) fuera correcta toda la informacin respecto a 1 , 2 , 3 ......... , i y 2 vendra suministrada por las medias de los tratamientos X1, X2,..., Xi y SR2 =MS error. Si se pudiera confiar en la validez de estas hiptesis, podramos asegurar que despus de haber calculado los estadsticos anteriores no queda mas informacin para extraer de los datos originales, es decir, los residuos calculados son realmente residuos. En la prctica seria imprudente efectuar esta afirmacin sin mas comprobaciones, dado que los datos pueden contener informacin valiosa no recogida por el modelo matemtico de un factor y requiera la consideracin e inclusin de otro u otros factores .

110

La comprobacin de estos supuestos se puede realizar analizado los residuos ji que se calculan como la diferencia entre cada observacin y la media del grupo o tratamiento al cual pertenece. : ij = Xij - Xi (84)

VIII..4.1. Comprobacin de las Hiptesis: Anlisis de los residuos Se pueden descubrir discrepancias de muchas clases estudiando los residuos por medio de grficos adecuados. Si las hiptesis del modelo son ciertas, se debera comprobar que los residuos varan aleatoriamente, es decir que no existe ningn patrn sistemtico, debindose sospechar del modelo propuesto en caso contrario. La importancia prctica de las tcnicas grficas de anlisis de los residuos para detectar anomalas en los datos que pueden comprometer seriamente la validez del modelo, y que constituye un requisito imprescindible previo a cualquier anlisis estadstico se ejemplifica sobre unos datos concretos. Algunos de los grficos utilizados para el anlisis de los residuos son los que se indican a continuacin. VIII.4.1.1. Grfico de distribucin de los residuos Si la hiptesis de DIIN ( 0, 2 ) es cierta, un histograma de los residuos o simplemente un grfico de puntos de los mismos debe mostrar la apariencia de una distribucin normal centrada en 0. Si el nmero de observaciones es muy pequeo aparecern grandes fluctuaciones por lo que apariencia de no normalidad no es necesariamente indicativa en ese caso de una causa subyacente. Este tipo de grficos puede revelar la existencia de valores anmalos, es decir residuos anormalmente altos o bajos, cuyas causas deben ser investigadas y que pueden corresponder por ejemplo a errores de transcripcin o aritmticos. Cuando se presentan valores atpicos, debe buscarse la causa de tal discrepancia y no desechar la observacin hasta estar seguro que corresponde a un error de datos y no a cambios imprevistos en las condiciones experimentales. Si al inspeccionar los datos originales no se detecta este tipo de error, deben considerarse o investigarse todas las circunstancias que rodean a la prueba que dio ese resultado

VIII.4.1.2. Grficos de los residuos en funcin del tiempo

Este tipo de grficos, permite identificar posibles cambios con el tiempo de las condiciones experimentales.

111 EL anlisis este tipo de grficos puede revelar la existencia de tendencias. Su deteccin es importante, dado que su presencia podra poner de manifiesto 1) la existencia de una fuente de variacin no considerada previamente y que podra controlarse en el futuro o 2) puede conducir a que en un anlisis mas preciso la tendencia temporal sea tenida en cuenta y que no aparezca mezclada aleatoriamente en el trmino de error. Cambios con el tiempo en los reactivos qumicos utilizados (contaminacin o deterioro) o modificaciones en la destreza del investigador , que puede aumentar a medida que el experimento progresa son ejemplo de tendencias que pueden descubrirse realizando un grfico cronolgico de los residuos.
VIII.4.1.3. Grfico de los residuos versus valor esperado

Este grfico en el que se representa , Xij - Xi vs Xi, puede revelar si la variabilidad es constante o no en todos los grupos. Si el modelo matemtico propuesto es adecuado, los residuos no deben estar relacionados con el valor de la respuesta (valor medio de la variable medida), esto es, la variabilidad de los mismos no deber depender del nivel medio de la respuesta. Puede suceder que la varianza de las observaciones crezca con el nivel de la respuesta, lo cual nos estara indicando que las muestras no son homocedsticas (no tienen igual varianza) . En este caso los valores absolutos de los residuos tenderan a crecer a medida que aumenta el nivel de las observaciones y el grfico tendra forma de embudo.

VIII.4.1.4. Grfico de residuos en funcin de variables de inters

Cuando se sospecha que un determinado factor (Ej. la temperatura) tiene influencia sobre la variable respuesta y se dispone de los valores de la misma para cada una de las mediciones, es posible representar los residuos en funcin de dicha variable y a partir de este grfico tomar la decisin si su influencia fuera importante, de ejercer un mejor control de dicha variable en la fase siguiente del experimento o incluir dicha variable como un factor a estudiar en un trabajo posterior. Para comprender a cabalidad, la utilidad de los grficos mencionados consideremos el siguiente ejemplo. El Cuadro VIII.4. da los tiempos de coagulacin de la sangre extrada de 24 animales alimentados con cuatro dietas distintas 1,2,3 y 4. Las dietas fueron asignadas a los animales al azar y las muestras fueron extradas en un orden aleatorio. Estas dos condiciones facilitan el cumplimiento de la suposicin de que los datos pueden considerarse como muestras aleatorias de cuatro poblaciones normales que poseen una misma varianza y que si difieren en algo es solo en sus medias. La pregunta que se trata de responder es hay evidencia suficiente que indique que existen diferencias reales entre los valores medios de los tiempos de coagulacin correspondientes a las distintas dietas? La hiptesis nula a contrastar es Ho) 1 = 2 = 3 = 4

112

Ha) algunas de las medias i es diferente

Cuadro VIII.4 Dieta 1 ji 62(20) 1 60(2) -1 63(11) 2 59(10) -2

Dieta 2 63(12) 67(9) 71(15) 64(14) 65(4) 66(8)

ji

Dieta 3 68(16) 66(7) 71(1) 67(17) 68(13) 68(21)

ji

Dieta 4 56(23) 62(3) 60(6) 61(18) 63(22) 64(19) 63(5) 59(24)

ji

X X X2 N

Dieta 1 61

Dieta 2 66

Dieta 3 68

Dieta 4 61

1- Calcular el residuo para cada una de las observaciones 2- Obtener el Cuadro del ANOVA 3- Efectuar una anlisis de los residuos utilizando los grficos que se presentan a a continuacin y que han sido adecuados obtenidos utilizando el paquete STATGRAPHICS Plus. VIII.4.2. Ejemplo de anlisis de los residuos 1- Distribucin de los residuos 1.1. Histograma

113

Histogram for RESIDUALS


10 8

frequency

6 4 2 0 -6 -4 -2 0 2 4 6

RESIDUALS

1.2. Grfico de puntos (univariante)


Scatterplot for RESIDUALS

-5

-3

-1

RESIDUALS

1.3. Grfico en papel probablistico normal

Normal Probability Plot for RESIDUALS


99.9 99 95 80 50 20 5 1 0.1 -5 -3 -1 1 3 5

percentage

RESIDUALS

2- Grfico de residuos en funcin del tiempo

114

Residual Plot for TC


5 3

residual

1 -1 -3 -5 0 4 8 12 16 20 24

row number

3- Grfico de residuos en funcin del valor esperado de la respuesta

Residual Plot for TC


5 3

residual

1 -1 -3 -5 61 63 65 67 69

predicted TC
4. Grfico de residuos en funcin de los tratamientos

Residual Plot for TC


5 3

residual

1 -1 -3 -5 1 2 3 4

Dieta

115

VIII.5. Transformaciones para conseguir homocedasticidad

El modelo bsico propuesto en la ecuacin (82) establece que las observaciones en los grupos siguen una distribucin que solo difiere de un grupo a otro en el valor de la media. En la prctica aparece con frecuencia la situacin que los grupos difieren, no solamente en la media, sino tambin en la varianza, es decir en la variabilidad de las observaciones. Supongamos que el modelo correcto sea: Xij = i x ij Donde las ij N (0, ). Este modelo producir heterocedasticidad, ya que los grupos con mas alta, tendrn mayor variabilidad. Sin embargo tomando logaritmos Xij = ln Xij = ln i + ln ij = i + ij La nueva variable perturbacin ij, tendr media 0 y varianza 2= cte. por lo que las muestras con los valores transformados (ln Xij )sern homocedsticas. Para detectar si es necesaria la transformacin de la variable conviene: a) estudiar la distribucin de los residuos. Si es muy asimtrica convendr transformar los datos para convertirlos en normales b) construir el grfico de ij vs Xi (valor previsto) Cuando se disponga de mas de 5 datos por grupo, convendr calcular la desviacin tpica si en cada grupo y representarlos en funcin de Xi . Si existe relacin entre ambas magnitudes (lineal o curvilnea), es decir que los valores de si no tienen una distribucin aleatoria convendr transformar. Para determinar el tipo de transformacin requerida representamos el ln si vs Xi y calculamos la pendiente de la recta = 1- , siendo el exponente al que hay que elevar la variable para obtener la variable transformada. El valor de =0, corresponder a la transformacin logartmica.
VIII.6. Modelo I y II

(86)

En el caso de ANOVA de un factor, se asume de manera formal que existen dos modelos para los que se utiliza el anlisis de varianza, el llamado modelo de efecto fijo de tratamiento (modelo I) y el modelo de efecto aleatorio o modelo de componente de la varianza (modelo II).

116 Si bien el sistema bsico de datos, as como el clculo y la prueba de significacin, en la mayor parte de los casos son los mismos para ambos modelos, los propsitos del anlisis de la varianza difieren para los dos modelos, as como varan algunos de los tests suplementarios y los clculos siguientes al test de significacin inicial. En el modelo I, se supone que las diferencias entre las medias de grupo, si existen, se deben, se deben a efectos de tratamientos fijos determinados por el experimentador. Esto es, siempre que los tratamiento sean fijos y repetibles, aun cuando el experimentador no entienda y controle por completo el mismo, estaremos en presencia de un diseo que corresponde a un modelo I. Cualquier valor aislado puede descomponerse de la forma siguiente: Xij = +i + ji (87)

Con i = 1,2,.....a = n de tratamientos y siendo i el efecto fijo del tratamiento i-esimo . El rechazo de la Ho y la aceptacin de Ha, estara indicando que algunos de los i son diferentes en magnitud, quedando como tarea posterior determinar cuales de los i difieren de los otros. La estructura de variacin en un modelo II de anova es completamente similar a un modelo I, y cualquier observacin puede se expresado como: Xij = +Ai + ji (88)

Esta expresin difiere de la anterior, en que Ai , representa un efecto aleatorio y no fijo como en el caso de un modelo I. Dado que los efectos son aleatorios , no es preciso calcular la magnitud de estos efectos aleatorios para cualquier grupo o las diferencias de un grupo a otro; centrndose la atencin en el calculo de la componente aadida de la varianza entre grupos. Comprobaremos su presencia, calcularemos su magnitud, as como su porcentaje de contribucin en un anlisis del modelo II de anova. Veremos en un ejemplo como se realiza el clculo de cada uno de los componentes de la varianza.
VIII.7. Comparaciones Mltiples

Siempre que se comprueba que un modelo I de Anova es significativo, lo que permite concluir que las muestras correspondientes a los distintos tratamientos no proceden de la misma poblacin, es decir no tienen idntica media paramtrica, el prximo paso es determinar que medias o grupos de medias son significativamente diferentes unas de otras. Estas comprobaciones se realizan mediante los tests de comparaciones mltiples. Las comparaciones a realizar pueden ser clasificadas en dos grupos: 1) comparaciones "a priori" y 2) comparaciones "a posteriori". Las comparaciones "a priori" son aquellas que han sido planificadas antes que el experimento se realice y por lo tanto son independientes de los resultados del experimento, mientras que la comparaciones "a posteriori" son aquellas que resultan del anlisis de los resultados obtenidos, es decir despus de realizado el experimento podramos desear comparar ciertas medias que notemos que sean marcadamente diferentes. Estos ltimos

117 tests se realizan nicamente si el anlisis de anova es significativo y cuando existen a medias, pueden por lo tanto, hacerse a (a-1)/2 comparaciones entre pares de media. La razn por la que se realiza esta distincin entre comparaciones "a priori" y "a posteriori" es que los tests de significacin apropiados para las dos comparaciones son diferentes. La comparacin de cualquier par de medias puede realizarse utilizando la siguiente expresin :

ts =

( x1 x2 ) ( 1 2 ) t / 2, =a ( n 1) 1 1 MS error ( + ) n1 n2

(88)

Para una hiptesis alternativa bilateral , la pareja de medias 1 , 2 se consideran diferentes


si t s >t /2 , = a(n-1) La aplicacin reiterada de esta prueba para diferentes pares de medias presenta un inconveniente. Si el n total de tratamientos que se comparan es 4, se podra aplicar el test anterior a 4C 2= 6 = c pares de medias. Si el nivel de significacin o error de tipo I de cada prueba es = 0.05, para cualquier par de medias (X1 -X2) se verifica que P (X1 -X2) t /2 , = a(n-1) [( Ms error (1 /n1+ 1 /n2 )] = 0.95 Luego, la probabilidad ,que conjuntamente, se verifiquen las 6 condiciones posibles, para todas las comparaciones entre medias, es si fueran independientes (0.95)6 = 0.73 y no 0.95 como podra suponerse . La conclusin que se desprende de lo anterior, es que al aplicar reiteradamente el test, es muy probable que, aun cuando no existan diferencia entre los grupos, estas aparezcan como consecuencia del azar. Es por esta razn, que si se propone garantizar un error de tipo I total igual a T para el conjunto de c contrastes o comparaciones, se deba tomar para cada uno de ellos, un nivel = T / C .

Este es el mtodo de Bonferroni que conduce a un procedimiento aproximado til en la prctica.


VIII.7.1. Comparaciones "a priori"

Las comparaciones planificadas se realizan utilizando una serie de pruebas entre las que se incluyen las siguientes:
VIII.7.1.1. Descomposicin de la suma de cuadrado entre grupos o entre tratamientos

Consiste en descomponer la suma de cuadrado entre grupos y los grados de libertad correspondientes en suma de cuadrados separadas para cada una de las comparaciones linealmente independientes con un grado de libertad asociado. Si en el primer ejemplo de este captulo referido a la concentracin de Fe total en el agua de consumo, estamos interesados en comparar las concentraciones de los pozos excavados

118 localizados en el sur de la provincia con los de la zona centro- sur , tendramos que calcular la suma de cuadrados para dicha comparacin teniendo en cuenta que ahora existen dos grupos nada mas, uno constituido por los pozos de las localidades Candelaria y Santa Ana (grupo 1) y otro correspondiente a las localidades de San Ignacio y Corpus (grupo 2) siendo los totales y el numero de observaciones en cada grupo los que se indican en el siguiente cuadro Cuadro VIII.6 Media Total (TG) N Grupo 1 0.826 19.01 23 Grupo 2 0.391 7.04 18

La suma de cuadrado SS comparacin se calcula utilizando la siguiente expresin: SS comp = [(TG1)2 / n1 + (TG2)2 / n2] - TC

(89)

El trmino de correccin definido anteriomente, vale tambin 16.55 porque en esta comparacin intervienen todos los tratamientos

SS comp = 15.71 + 2.573 - 16.55 = 1.915

El MS de la comparacin es igual a SS calculado en virtud de que el nmero de grados de libertad es igual a 1, razn por la cual la significacin de la misma se realiza simplemente, dividiendo su valor por el MS error igual a 0.92 resultando un Fs de Fs = MS comp / MS error = 1.915/0.92= 2.08 (p-value=0.1576) Valor que se compara con un F 0.05 (1, 37) = 4.1055, concluyndose que no existen diferencias estadsticamente significativa entre las concentraciones de Fe total de los dos grupos de localidades.

VIII.7.1.2. Test de la Mnima Diferencia Significativa (LSD) El valor de LSD, es decir la Mnima Diferencia Significativa se calcula a partir de la siguiente expresin: LSD = t [(,)] x ( 2 MS error/n)1/2 = t /2 , = a(n-1) [( Ms error (1 /n1+ 1 /n2 )] (89)

119 Donde t es el valor critico que se calcula utilizando la distribucin de Student para un nivel de significacin de 0.05 o 0,01, y un valor de igual al nmero de grados de libertad de error. El LSD, es como se sealara la mnima diferencia significativa, esto es , cualquier pareja de medias que difieran en una cantidad mayor a este valor sern significativamente diferente una de otra. Para comprender mejor la aplicacin de los tests de comparaciones mltiples analicemos los datos que se presentan en el siguiente cuadro.

Cuadro VIII.7 Concentraciones de DBO (mg/l) -Red de Monitoreo de Calidad de Agua de los Arroyos Antonia, Ita y Divisa de la Ciudad de Posadas Perodo Agosto de 1993-Junio de 19943 ARROYOS Antonia Divisa It 92.50 81.30 190.00 72.00 39.50 27.30 60.50 48.48 42.50 54.56 36.00 34.85 129.50 17.80 112.50 55.00 52.00 17.80 80.00 80.00 140.00 38.00 36.00 23.50 67.30 92.70 57.60 181.00 32.50 35.35 52.00 44.50 26.00 51.30 32.50 34.50 59.00 60.00 26.00 41.50 15.40 28.50 52.30 52.00 28.00 28.00 49.50 62.50 44.00 79.00 23.50 53.00 13.90 52.50 63.00 68.00 175.00 70.00 47.50 54.50 42.50 25.50 28.50 Los observaciones corresponden a los valores de Demanda Bioqumica de Oxgeno (DBO) en mg/l en muestras obtenidas en 3 Arroyos interiores de la Ciudad de Posadas, en estaciones que forma parte de la Red Monitereo de Calidad de Agua operada en el Area del. Embalse de Yacyreta, por la Entidad Binacional Yacyreta. Los valores medios y los desvos estndar calculados utilizando el paquete estadstico Statgrafics plus para cada una de los arroyos se muestran a continuacin, junto al test de homogeneidad de varianzas

3 Informe Final- Piris da Motta, M.( Anlisis Estadstico y redaccin de Informe Final)- Convenio Entidad Binacional Yacyreta (EBY)-Universidad Nacional de Misiones (UNaM)- Convenio Especfico-Calidad de Aguas

120
Arroyo Count Average -----------------------------------------------------------1 21 65.0657 2 21 70.9981 3 21 35.9333 -----------------------------------------------------------Total 63 57.3324

Nota: (1) A Antonia

(2) A Divisa (3) A It

Arroyo Variance Standard deviation -----------------------------------------------------------1 553.123 23.5186 2 2991.31 54.6929 3 175.818 13.2596 -----------------------------------------------------------Total 1438.69 37.9301

Variance Check Cochran's C test: 0.804061 P-Value = 3.27213E-8 Bartlett's test: 1.87155 P-Value = 1.02673E-8 Hartley's test: 17.0137

Histogram for DBO


40

frequency

30 20 10 0 0 40 80 120 160 200

DBO
Atendiendo a que la distribucin de las observaciones se desva en forma apreciable de la normalidad como puede observarse en el histograma y que el test de Bartlett de igualdad de varianzas no puede ser aceptado a un nivel de 0.01 se decidi efectuar una transformacin logartmica de los valores de DBO. La variable transformada tomando el logaritmo neperiano de cada una de las observaciones Histogram for LNDBO (LNDBO) cumple los supuestos de normalidad y homocedasticidad como puede comprobarse observando el histograma respectivo y el resultado del test de Bartlett. 24
Bartlett's test: 1.14371

20 16 12 8 4 0

P-Value = 0.0194315

frequency

2.5

3.5

4.5

5.5

LNDBO

121

Comprobado los supuestos bsicos, la aplicacin del ANOVA que result muy significativo (p-valor = 0.0007), indica que existen diferencias en el nivel de contaminacin orgnica de los tres cursos de aguas considerados , procedindose a continuacin a efectuar la comparacin de medias .
ANOVA Table for LNDBO by Arroyo Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Between groups 4.40112 2 2.20056 8.25 0.0007 Within groups 15.9996 60 0.266661 ----------------------------------------------------------------------------Total (Corr.) 20.4008 62

Los resultados de los tests de comparaciones mltiples son equivalentes tanto si se trabajan con los datos transformados o sin transformar. En el siguiente cuadro se detallan los resultados de la comparacin de medias utilizando el test de la LSD.
Multiple Range Tests for LNDBO by Arroyo -------------------------------------------------------------------------------Method: 95.0 percent LSD Arroyo Count Mean Homogeneous Groups -------------------------------------------------------------------------------3 21 3.50859 X 2 21 4.02177 X 1 21 4.10701 X -------------------------------------------------------------------------------Contrast Difference +/- Limits -------------------------------------------------------------------------------1 - 2 0.0852372 0.318772 1 - 3 *0.598421 0.318772 2 - 3 *0.513184 0.318772 -------------------------------------------------------------------------------* denotes a statistically significant difference.

El valor de LSD es de 0.3187 y cualquier pareja de medias que difieran en ms de esta cantidad se consideraran significativamente diferentes al nivel de 0.05. Los resultados obtenidos indican que no existen diferencias significativas entre los valores medios de DBO de los Arroyos Antonica y Divisa , pero que estos difieren significativamente del valor correspondiente al A It. La conclusin correspondiente es que el A Ita presenta un nivel de contaminacin orgnica medida en trminos de DBO, muy inferior a del los Arroyos Antonica y Divisa , los cuales no difieren significativamente entre si.

122

VIII.7.2. Comparaciones "a posteriori" Para las comparaciones de medias que se decidan efectuar una vez analizados los resultados obtenidos se utilizan algunos de los tests que se presentan a continuacin

VIII.7.2.1. Test Simultaneo de Suma de Cuadrados (SS-STP)

Se basa en el clculo de una suma de cuadrados crtico para un test significativo, de modo que cualquier numero de medias que se comparen y que tengan una suma de cuadrados mayor que el crtico resultar significativo. SS (k-1) MS error F [(k-1) , = a (n-1)] (90) Este test se puede aplicar como un test "a priori" considerando en cada caso, en la expresin anterior k como el n de medias que se comparan. Cuando se utiliza como un test "a posteriori" se toma para el clculo k=a= al nmero total de tratamientos , en la formula, independiente de nmero de medias que se comparan. En el ejemplo de los niveles de contaminacin orgnica de los Arroyos interiores de la Ciudad de Posadas, vemos que el valor medio del A Ita resulta muy inferior a los valores obtenidos para los Arroyos Divisa y Antonia, los cuales aparentemente no difieren entre si. Para comprobar estas hiptesis calculemos el valor de la SS crtico, reemplazando en la expresin anterior k=3 (n de tratamientos) , MS error = 0.266661 y F 0.05 [(2,60]= 3.15. El valor obtenido es de 1.6799, y cualquier SS calculado para una comparacin dada que resulte mayor a este valor crtico nos estar indicando que las medias de estos grupos difieren significativamente. La SS correspondiente a la comparacin planteada se calcula mediante el procedimiento delineado en el punto VIII.7.1.1 . utilizando los datos del siguiente Cuadro y la expresin 89 Grupo 1(A It) 3.5085 73.68 21 Grupo 2(A Antonia y Divisa) 4.0643 170.70 42

Media(*) Total (TG) N

(*) Media de los valores transformados

Como el resultado obtenido para la SS igual a 4.32 supera el valor crtico de 1.679, se concluye que el A It presenta un nivel de contaminacin orgnica muy inferior a los de los arroyos Antonica y Divisa.

123

VIII.7.2.2. Test Simultaneo de Rangos (Rangos-STP) Este test desarrollado por Tukey, utiliza el rango , es decir la diferencia entre la media mxima y mnima del grupo en consideracin como estadstico y lo compara con una valor critico calculado por medio de la expresin LSR = Q [ k,] x ( MS error/n)1/2 (91)

Donde Q [ k,] es el rango studentizado, que se obtiene de una tabla en funcin de k= al n de medias comprendido en el rango y = n de grados libertad del MS error, para un valor conveniente de . Cualquier conjunto de medias cuyo rango supere el valor LSR ser significativo. Cuando se quieran comparar dos medias que provengan de muestras que no tengan el mismo tamao se calcula n = 2 n1x n2 / (n1+n2)

En algunos libros aparece una expresin alternativa para el caso de 2 media es el siguiente LSR = Q [ k,] x [( MS error (1/n1+ 1/n2)]1/2 (92)

En los test "a posteriori", se emplea k=a para todos los test de cualquier n de medias. Utilizando este procedimiento vamos a comparar las medias de los arroyos Divisa y Antonica, que aparentemente no difieren entre si. Para el clculo del LSR, utilizaremos un valor de Q 0.05 (3,60) = 3.399 en la expresin (91) juntos con los valores MS error y n dados anteriormente. El valor de LSR obtenido de 0.3830 resulta mayor al rango de las medias de los arroyos Divisa y Antonia de 0.08524, razn por la cual se puede considerar que estos cursos de agua no difieren significativamente en cuanto a la contaminacin orgnica que presentan.

VIII.7.2.3. Test de Student Newman Keuls (SNK) Este es un mtodo paso a paso que tambin utiliza el rango lo estadstico para medir la diferencia entre medias Es paso a paso porque se verifica primero la significacin de los grupos mas grandes de medias. Si se tienen a medias, se las ordena de mayor a menor, se calcula la diferencia entre la mas grande y la mas pequea y se compara con un valor critico que se obtiene utilizando la siguiente expresin = Q [ k,] x ( MS error/n)1/2 (93)

124 Donde Q [ k,], es el rango studentizado, obtenido de una tabla para un valor de k igual al n de medias comprendidos en el rango en consideracin. Si el rango para el grupo de k=a medias resulta significativo , se verifica el grupo de k-1 utilizando un valor de conveniente de Q [ a-1,] y as sucesivamente, hasta que algn rango no resulte significativo. VIII.7.2.4. Procedimiento de Dunnett para comparaciones mltiples con un tratamiento control Se utiliza a menudo en las investigaciones un tratamiento control o estndar como punto de referencia con el cual comparar todos los tratamientos. El objetivo es demostrar si alguna de los tratamientos puede considerarse diferente de la media del control. La expresin utilizada es similar al del LSR, con la nica diferencia que se sustituye el Q [ k,] por la d de Dunnett, esto es

1 1 ( yi y o ) d / 2( k , ) MS error ( n + n )
c i

(94)

donde na es el n de observaciones en el grupo control y ni en el tratamiento i-esimo. Para el caso especial de comparaciones con un tratamiento control es una buena costumbre que ste posea un n de observaciones na mayor que cualquiera de los otros tratamientos. Se sugiere que la relacin na/ni debe ser aproximadamente igual a ( a )1/2 siendo a el nmero de tratamientos.

125

VIII.. 8. ANOVA DE 2 FACTORES VIII.8.1. Modelo y clculos preliminares En este modelo se consideran 2 factores que influyen sobre la variable y cuyos efectos se suponen a priori que tienen igual rango, es decir, la misma importancia . Su formulacin matemtica para un modelo I es: Xij = +i+ i + ( )i j+ ji

(95)

Donde y se consideran efectos de tratamientos fijos , pudiendo uno de ellos ser un efecto de tratamiento aleatorio en un modelo mixto, debiendo reemplazarse por los efectos aleatorios Ai y Bi en el caso de un modelo II, donde ji es la perturbacin o error experimental que distribuye normal con media 0 y varianza constante y ()i representa la interaccin cuyo significado se explicar mas adelante. Para explicar los clculos requeridos para la obtencin del cuadro de Anova en un diseo de dos factores, consideremos el siguiente experimento que corresponde a un estudio sobre la inactivacin de la vitamina A , cuyo resultados se muestran en el cuadro VIII.5. Cuadro VIII.5. c (grasas) c = 2 F Sexos f= 2 Machos Fresca 709 679 699 2087 657 594 677 1928 4015 Rancia 592 538 476 1606 508 505 539 1552 3158

3693

Hembras

3480 7173

Este ejemplo, en el que se evala el efecto de los factores (fijos): a)tipo de grasa (fresca o rancia) y b) sexo (macho y hembra), tiene como propsito determinar si el sexo o la frescura del tocino afectan significativamente la dieta de los ratones que conforman los distintos subgrupos. Para el clculo de los componentes de la varianza, se descompone inicialmente la SS total y los grados de libertad asociados en una SS entre subgrupos y dentro de subgrupos o error respectivamente. La SS entre subgrupos , se descompone posteriormente en 1) SS de filas (factor sexo) , 2) SS de columna (factor tipo de grasa) y 3) SS de la interaccin, cada uno con sus grados de libertad correspondientes.

126

Los clculos continuacin:

requeridos para la obtencin de las sumas cuadrados se detalla a

Clculos preliminares 1- Gran total = Suma de todas las observaciones= X =709+679+.............................+505+539=Suma = 7173 2- Suma del cuadrado de las observaciones = X2 =709 2 +679 2 +....................................+ 505 2+ 539 2= 4365231 3- Suma del cuadrado de los totales de sugrupos dividido por el n de observaciones en cada subgrupos = (Tsg)2 / nsg con nsg= n

(2087) 2 + (1606) 2 + (1928) 2 + (1552) 2 = =4353564,33 3


4- Trmino de correccin TC = (1)2 / f c n = (7173)2 / 2x2x3 =4287660,75 5- SS total = 2-4 = 4365231-4287660,75=77570,25 GL = f c n-1=2.2.3-1=11

6- Suma de cuadrado entre subgrupos SS entre sg = 3-4=4353564,33-4287660,75= 65903,58 7- Suma de cuadrado dentro de subgrupos SS dentro sg= 5-6 =77570,25 - 65903,58 fila = (Tf)2 / nf GL = f c (n-1)=2x2x2=8 GL = f c -1= 4-1= 3

8- Suma del cuadrado de los totales de filas dividido por el n de observaciones en cada

(3693) 2 + (3480) 2 = 4291441,5 6 9- Suma del cuadrado de los totales de columnas dividido por el n de observaciones en =
cada columna = = (Tc)2 / nc

(4015) 2 + (3158) 2 = 4348864,83 6


GL = f-1=2-1=1

SS filas (sexo) = 8-4 =4348864,83 -4287660,75= 3780,75 siendo f= n de filas =2

10- SS columnas (grasa)= 9-4 = 4348864,83 -4287660,75= 61204,08 GL = c-1 =2-1=1 siendo c= n de columnas =2

11- SS interaccin = 6-10-11 = 65903,58-61204,08 -3780,7 = 918,75

GL = (f-1) (c-1)=1

127
Fuente de var. Entre subgrupos Entre filas (sexos) Entre columnas (grasas) Interaccin Dentro de subgrupos (error) Total F0,05(1,8) = 5,31 SS GL MS Fs

65903,58 3780,75 61204,08 918,17 11666,66 77570,25

3 1 1 1 8 11 3780,75 61204,08 918,75 1458,33 3780,75/1458,33=4,11 61204,08/1458,33=71,7 918/1458,33=0,63

Cuadro VIII.6. Fuente de var. Entre filas (sexos)

Cuadro de ANOVA SS GL MS Fs MS esperado Modelo I

2 + f 2 cn j j =1 f 1 c 2 fn i i =1

10

f-1

10/(f-1) (13) 11/(c-1) (14)

13/16

Entre columnas (grasas) Interaccin

11 12

c-1

14/16

2 +

c 1

(f-1)(c-1) 12/(f-1)(c-1) (15) f c (n-1) f c n-1 7/f c (n-1) (16)

15/16
n

i =1

f 2 ( ) ij j =1

( f 1)( c 1)

Dentro de subgrupos (error) Total Cuadro VIII.7 Fuente de var. Entre filas (fijo)

7 5

MS

Fs
Modelo II

MS esperado
Modelo Mixto

2 + f 2 cn j i =1 f 1

10/(f-1)

2 + n 2 +cn2

Entre columnas (aleatorio)

11/(c-1)

2 + n 2 +fn2

2 + fn2

128 12/(f-1)(c-1) Interaccin Dentro de subgrupos 7/f c (n-1) (error) Total


2 + n 2 2 2 + n 2 2

VIII.8.2.Significado de la interaccin

Se dice que existe interaccin cuando el efecto de un factor sobre la variable respuesta depende del nivel del otro factor, esto es, cuando el efecto de dos factores aplicados juntos, no puede predecirse a partir de las respuestas promedio de los factores separados. Esto indica que los efectos de los dos factores no son simplemente aditivos, sino la combinacin de los niveles de los dos factores contribuyen de manera positiva o negativa. Cuando hay un gran incremento positivo de los efectos se habla de sinergia, mientras que si hay un efecto antagnico se habla de interferencia.

VIII.8.3. Pruebas de Significacin

Se pueden presentar los siguientes casos: Modelo I Ambos factores, corresponden a efectos de tratamientos fijos. En este caso, el cuadrado medio de cada nivel de variacin, lleva solamente el efecto aadido asociado a aquel nivel de tratamiento (Ver Cuadro VIII.6.) El test de significacin es simple y directo. Cualquier fuente de variacin se comprueba mediante el cociente del MS correspondiente sobre el MS error. Modelo II y Modelo mixto En este caso los 2 efectos principales, contienen en los cuadrados medios esperados, la componente de la varianza de la interaccin, as como su propia componente de varianza (Ver Cuadro VIII7.) Por lo tanto, cuando se comprueba la significacin en un modelo II, primero se comprueba la interaccin dividiendo el MS interac/ MS error. Si la Interaccin es significativa la significacin de los factores se comprueba dividiendo el MS correspondiente por el MS de la interaccin. Si la interaccin no es significativa, nos encontramos con la decisin de promediar o no SS interaccin con la SS error utilizando determinadas reglas. En el caso de un modelo mixto, en el que el factor B se supone efecto de tratamiento fijo ( ) y el factor A es aleatorio, se comprobar la significacin del efecto principal aleatorio dividiendo su MS por el MS error, pero el efecto de tratamiento fijo se realizar sobre el MS interaccin si este es significativo o sobre un MS que se calcula promediando la SS error e SS de interaccin si la interaccin no resulta significativo.

Algunos autores, aun cuando el contraste de interaccin no resulte significativo, recomiendan no unir la suma de cuadrado de la interaccin con el residuo a no ser que el

129 MS interaccin sea muy prximo al MS error (o el test de F para la interaccin muy prximo a 1). La razn es evitar aumentar errneamente la estimacin del error experimental.

VIII.8.4. Anova de 2 factores sin repeticin

En muchos experimentos se tiene una nica observacin para cada combinacin de los factores. En este caso, no se puede hablar de "subgrupos", dado que cada combinacin de los niveles de los factores contiene una nica observacin. La existencia de una nica observacin se explica, atendiendo a que con frecuencia resulta difcil o demasiado caro, obtener mas de una lectura o las medidas son tan semejantes que no es necesario repetirlas. Para presentar los calculos requeridos para el cuadro de Anova consideremos el siguiente ejemplo real.

Cuadro VIII.8. Profundidades 0.15 m (s) 1.00 m (m) 2.00. m (p) 1 4.0 3.7 3.7 2 3.4 3.2 3.2

Puntos de Muestreos 3 4 5 6 4.1 4.0 3.6 3.9 3.8 3.8 3.4 3.9 3.8 3.7 3.3 3.8

7 4.1 4.0 3.8

8 4.0 3.9 3.8

9 4.0 3.9 3.8

Los valores que se detallan corresponden a las concentraciones de Oxgeno Disuelto en mg/l, medidas en diferentes puntos y a distintas profundidades de una de las Lagunas Aireadas que forman parte de la Planta de Tratamiento de Lquidos Cloacales de la Ciudad de Posadas4. El objetivo de estas mediciones fue comprobar si el contenido de la laguna poda aproximarse al comportamiento de un reactor completamente mezclado o si se verificaba algn tipo de heterogeneidad vertical o longitudinal. Dado que n=1, la SS de subgrupos es la misma que la SS total y la suma de cuadrados dentro de subgrupos ha desaparecido. De esta forma, despus de restar la suma de los cuadrados de columna (factor A) y filas (factor B) del SS total, nos encontramos con una nica suma de cuadrados, la cual es equivalente a la anterior SS de la interaccin, pero que ahora es la nica fuente para un trmino de error en el Anova. Esta SS es conocida como SS residuo. Para algunos modelos y tests en un Anova de 2 factores sin repeticin se debe suponer que no existe efecto aadido debido a la interaccin. En el ejemplo considerado, podemos suponer que no existe interaccin y por lo tanto los cuadrados medios de filas y columnas se comprueban con el MS error como se muestra en el siguiente Cuadro.
4

Piris da Motta M. ; Kruzolek y col. C. 2000. "Evaluacin del funcionamiento de la Planta de Lquidos Cloacales de la Ciudad de Posadas" Informe Final.

130

Cuadro VIII.9.
ANOVA Table for OD by Puntos Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Between groups 1.43333 8 0.179167 9.87 0.0000 Within groups 0.326667 18 0.0181481 ----------------------------------------------------------------------------Total (Corr.) 1.76 26

Variance Check Cochran's C test: 0.183673 P-Value = 1.0 Bartlett's test: 1.08917 P-Value = 0.992014 Hartley's test: 3.0

VIII.8.5. Diseo de Bloques Completos Aleatorizados

El mtodo de bloques completos aleatorizados (BCA) es un tipo de Anova de 2 factores (generalmente sin repeticin), especialmente frecuente en investigaciones agrcolas, pero tambin con numerosas aplicaciones en otros campos biolgicos y experimentos de laboratorio. Cuando se aplica un fertilizante o un insecticida a una parcela de suelo, generalmente se recoge como resultado una simple lectura que es el producto de la cosecha. En el caso en que se quiera comparar 5 tratamientos (fertilizantes o insecticidas diferentes) y se decida efectuar 4 repeticiones de cada uno de ellos, se necesitaran 20 parcelas , lo que representa una superficie considerable cuya homogeneidad no se puede asegurar, tanto desde el punto de vista de tipo de suelo como en otras condiciones microclimticas. En general, las parcelas adyacentes sern mas parecidas entre si, de modo que no tenemos que poner el tratamiento A dentro del mismo rea general; de otro modo, lo que podra aparecer como significativamente diferente en el tratamiento A, puede deberse a una caracterstica del rea general en la que estn ubicadas las parcelas destinadas a este tratamiento, El mtodo de BCA permite superar esta dificultad. En el ejemplo mencionado, se puede seleccionar 4 bloques diferentes entre si, pero con condiciones ambientales tan homogneas como sea posible. Cada bloque se divide en 5 parcelas, las cuales se asignan aleatoriamente a cada uno de los tratamientos. El ordenamiento aleatorio de los tratamientos entre las parcelas es necesario, de manera que cualquier tratamiento dado no ocupe idntica posicin relativa en el campo. Los 4 bloques (filas) se consideran como efectos aleatorios y los 5 tratamientos (columnas), como efectos fijos. Una observacin individual en un diseo BCA puede, por lo tanto, descomponerse en la forma :

131
Xij = +i+ Bj + ji (96)

Donde i es el efecto de tratamiento y Bj es el efecto aleatorio de bloque. En un diseo de bloques, simplemente se comprueba el Ms de tratamiento sobre el MS error. EL MS de bloques rara vez se comprueba y se tendr que suponer que no existe interaccin antes de hacerlo. Si no es significativamente mayor que el MS error habra menos heterogeneidad entre los bloques, que la esperada o los bloques se seleccionaron de tal manera que la mayor parte de la heterogeneidad quedo dentro de los bloques en vez de entre los bloques. La existencia de diferencias significativa entre los bloques, no debera extraarnos, dado que despus de todo es lo esperado, lo llamativo sera, que las diferencias entre los bloques sean pequeas, lo que estara indicando que en futuros experimentos convendra no utilizar un diseo aleatorizado, sino uno de clasificacin nica o anova de un factor. El diseo de BCA puede tambin aplicarse a otros tipos de experimentos distintos de los agrcolas para los que se ide. Si un experimento es demasiado grande o insume mucho tiempo, se puede realizar en das sucesivos utilizando los das como bloques o tambin en diferentes laboratorios, constituyendo cada uno de ellos un bloque. Esto es, siempre que las condiciones ambientales en la que se realiza un experimento o los materiales de investigacin sean heterogneos, estos pueden subdividirse en bloques mas homogneos, y el experimento puede ser realizado y analizado mediante un diseo de bloques completos aleatorizados.

VIII.9. ANOVA ENCAJADO VIII.9.1. El modelo y los clculos preliminares

El diseo de Anova de clasificacin nica muchas veces es insuficiente para representar la complejidad de un determinado experimento. Existen casos en que los grupos estn divididos en subgrupos, elegidos aleatoriamente. Es decir los subgrupos estan encajados o anidados dentro de los subgrupos. A este diseo se lo denomina tambin Anova anidado o jerrquico, porque los subgrupos estn subordinados a los grupos. El nivel mas bajo, es siempre elegido aleatoriamente (modelo II) y el nivel mas alto puede ser de efecto fijo (modelo I) o aleatorio (modelo II). Si el nivel mas alto es modelo I, hablamos de modelo mixto de anova encajado y si los dos son modelo II, se denomina anova encajado puro. Para explicar los pasos de clculo requeridos para la obtencin del cuadro de Anova en un diseo de anova encajado a dos niveles o etapas, consideremos el siguiente experimento, que corresponde a un estudio real sobre "Optimizacin de la red de monitoreo para evaluar el desempeo de aireadores orbitales en lagunas aireadas de mezcla completa" Los valores que se detallan en el Cuadro VIII.9.corresponden a las concentraciones de Oxgeno Disuelto en mg/l, medidas en diferentes puntos de tres transectas de una de las

132 Lagunas Aireadas que forman parte de la Planta de Tratamiento de Lquidos Cloacales de la Ciudad de Posadas5. El objetivo de estas mediciones fue conocer la magnitud de la varianza atribuible a los diversos niveles de variacin del estudio. esto es, entre lneas (transectas), entre puntos de una lnea y entre mediciones de un mismo punto. .

Cuadro VIII.10. A 2 3.4 3.2 3.2


9,8 32,9

Puntos de muestreos

1 4.0 3.7 3.7


11,4

3 4.1 3.8 3.8


11,7

Lneas B 4 5 4.0 3.6 3.8 3.4 3.7 3.3


11,5 10,3 33,4

6 3.9 3.9 3.8


11,6

7 4.1 4.0 3.8


11,9

C 8 4.0 3.9 3.8


11,7 35,3

9 4.0 3.9 3.8


11,7

Totales subgrupos

Totales grupos

Clculos Preliminares 1- Gran total = X=101,6 2- Suma del cuadrado de las observaciones = X2 = 384,06 3- Suma del cuadrado de los totales de subgrupos dividido por el n de observaciones en cada subgrupos = (Tsg)2 / nsg =
(11, 4) 2 + (9,8) 2 +.........+ (11,7 ) 2 3

= 383,726

4- Trmino de correccin TC = (1)2 / a b n=

(101,6) 3.3.3

= 382,317

5- SS total = 2-4 =1,7429 GL = a bn-1=3x3x3-1=26 6- Suma de cuadrado de los totales de grupos dividido por el n de observaciones en cada grupo = (Tg)2 / ng =
(32,9) 2 + (33, 4 ) 2 + (35,3) 2 9

= 382,67 GL = a(b -1)=3x2=6

7- SS sg dentro de grupos = 3-6 =383,726-382,67=1,0533

8- Suma de cuadrado entre grupos = SS entre g= 6-4 =382,67-382,317=0,3562 GL = a-1=3-1=2 9- Suma del cuadrado error = 5-7= 0,333 GL = a b (n-1)= 3x3x(2)=18

a= nmero de grupos= 3 b= nmero de subgrupos= 3 n= nmero de observaciones =3

Piris da Motta M. 2003. " Optimizacin de red de monitoreo diseada para evaluar el desempeo de aireadores orbitales en lagunas aireadas de mezcla completa"

133

Cuadro VIII.11. Cuadro de ANOVA Fuente de var.


Entre grupos Entre subgrupos dentro de grupos Dentro de subgrupos (error) Total

SS 0,3562

GL 2

1,053 0,333 1,7429

6 18 26

MS 0,3562/2 =0,1781 1,053/6 =0,1755 0,333/18 =0,0185

Fs MS esp Mseg/MSsgdg 2 + n 2 BA +nb 2 A =1,01 MSsgdg/MSerror 2 + n 2 BA =9,48

Como puede observarse en los clculos para un Anova encajado de 2 niveles (grupos y subgrupos dentro de grupos) las sumas de cuadrados que intervienen son: 1) SS entre grupos, 2) SS de subgrupos dentro de grupos y 3) SS dentro de subgrupos o SS error, cada uno con sus grados de libertad correspondientes. El Cuadro de ANOVA para las concentraciones de OD se presentan a continuacin :
Analysis of Variance for OD -------------------------------------------------------------------------------Source Sum of Squares Df Mean Square Var. Comp. Percent -------------------------------------------------------------------------------TOTAL (CORRECTED) 1.76 26 -------------------------------------------------------------------------------Lineas 0.346667 2 0.173333 0.0 0.00 Puntos 1.08667 6 0.181111 0.054321 74.96 ERROR 0.326667 18 0.0181481 0.0181481 25.04 --------------------------------------------------------------------------------

Como puede verse el 74 % de la variabilidad en los valores de oxgeno disuelto se debe a la componente entre puntos y no existe variabilidad entre las lneas, razn por la cual en la nueva red de monitoreo se incluirn mas puntos, reduciendo el n de lneas y el n de observaciones en cada punto . Existen dos clases de aplicaciones generales del Anova Encajado : El primero sirve para controlar la magnitud del error en los diversos estadios (etapas) de un experimento o de un proceso industrial y un segundo uso mas importante aparece en los casos en que se trata de un modelo II puro y que provienen frecuentemente del campo de la gentica cuantitativa, donde se desea conocer la magnitud de la varianza atribuible a los diversos niveles de variacin del estudio. El anova encajado no est limitado a 2 niveles, a los que se hizo referencia anteriormente, dado que podramos dividir los grupos en subgrupos, y estos vueltos a dividir y as sucesivamente como puede verse en el siguiente ejemplo. Se disea un experimento para comprobar los efectos de 5 drogas sobre la cantidad de pigmentacin en la piel de un animal. Las 5 drogas y un control (6 grupos) son el nivel

134 superior, y claramente son efectos de tratamientos fijos (modelo I).Para cada droga se seleccionan 5 ratas aleatoriamente; dichas ratas proporcionaran una varianza de "ratas dentro de drogas". De cada rata se podran tomar 3 muestras de piel aleatoriamente. Esto dara lugar a un nuevo nivel de variacin subordinado (muestras de piel dentro de ratas). Cada muestra de piel se divide en dos lotes, que se hidrolizan por separado. Este nuevo nivel est formado por partes hidrolizadas dentro de muestras de piel. Finalmente la cantidad de pigmentacin podra ser leda como una densidad ptica, pudiendo efectuarse dos lecturas repetidas de cada parte hidrolizada. El error bsico de la varianza seria la varianza de las lecturas repetidas para cada parte hidrolizada, pero tambin tendramos valores de varianza entre las partes hidrolizadas dentro de una muestra de piel, entre muestras de piel dentro de una rata y entre ratas dentro de una droga. Estos valores de la varianza son importantes en el diseo de experimentos anlogos porque nos indican a que nivel del experimento deberamos concentrar la mayor parte de nuestros esfuerzos. El aspecto mas variable de nuestro experimento necesita mayor repeticin o un mejor control experimental. De esta manera si encontramos que las dos partes hidrolizadas poseen la mayor proporcin de varianza, nuestro mtodo de hidrlisis claramente no est muy perfeccionado y debera por lo tanto ser mejorado; si esto no es posible, debera dividirse cada muestra de piel en mas lotes para disponer de mas partes hidrolizadas.
VIII.9.2. Pruebas de significacin

Con el fin de determinar las estadsticas apropiadas para efectuar las pruebas de significacin se deberan considerar los valores esperados de los cuadrados medios, que en cada nivel por encima del error de la varianza contiene dentro de l, la variacin de todos los niveles que estn por debajo, adems de la correspondiente a su propio nivel. De esta forma la varianza esperada de los subgrupos (puntos) dentro de grupos (lneas) en el ejemplo anterior, es 2 + n 2 BA, donde 2 BA indica que se trata de la varianza de B dentro del nivel A. El cuadrado medio esperado entre grupos contiene los trminos por debajo de l, mas nb 2 A . A partir de estos cuadrados medios esperados, los tests de significacin son inmediatos como se muestra en el Cuadro VIII.11, comprobndose los niveles mas bajos antes que los superiores. As para nuestro ejemplo, se comprueba en primer lugar MSsgdg/MSerror para la significacin de 2 BA y despus Mseg/MSsgdg para 2 A . Este modelo II encajado de ANOVA, con efectos aleatorios entre grupos (lneas) y entre subgrupos dentro de grupos se completa con el clculo de las componentes de la varianza, como se indica en el Cuadro VIII.12. En el caso de un modelo mixto en el que el nivel mas alto de clasificacin es un modelo I (efecto fijo), no se calcula ninguna componente de la varianza, sino que simplemente se comprueba la significacin de los efectos de tratamiento aadidos completndose el anlisis con comparaciones mltiples.

You might also like