Clase Analisis de Varianza Con Un Factor

Universidad Simón Bolívar
Prof. R. Rojas
Análisis de Varianza
El análisis de varianza (ANOVA) se utilizar para verificar si hay diferencias
estadísticamente significativas entre medias cuando tenemos más de dos muestras o
grupos en el mismo planteamiento.
Para el análisis se puede ver qué tipos de datos se disponen y qué información se
busca que relacione los distintos tipos de datos. Siempre que se realiza este análisis se
tiene dos tipos de información o dos tipos de datos:
a) Información cuantitativa: los datos en la variable dependiente, cuya varianza o
diversidad analizamos.
b) Información cualitativa: los criterios o categorías que se han utilizado para clasificar
a los sujetos (variable independiente).
Cuando se tiene un solo criterio de clasificación, los datos se representan como:
K grupos
Su ecuación del modelo se plantea como
Donde 𝜇𝑖 representa las medias y los errores son
Por el método de mínimos cuadrados la media se puede expresar como
Para el análisis de varianza se hacen tres suposiciones básicas:

Prof. R. Rojas
1) En la variable dependiente (en la que medimos a los sujetos) tenemos unidades de

intervalo, (y observaciones independientes)
2) La variable dependiente (la que medimos) sigue la distribución normal;
3) Las varianzas de las distintas poblaciones representadas en las muestras no
difieren significativamente entre sí. (homocedasticidad).
El ANOVA no constituye un método o procedimiento único; según los diseños y datos

disponibles existen diversos modelos de análisis. El método adecuado para plantear y
analizar muchos diseños experimentales y cuasi-experimentales, y también estudios
exploratorios.
Para este análisis se consideran que dos grupos son distintos cuando la variabilidad
entre los grupos, entre las medias, es mayor que la variabilidad dentro de los grupos.
Un ejemplo: tenemos dos grupos, uno de enanos y otro de gigantes:

 Cada grupo tiene su media en altura; la media de los gigantes es mayor que la media
de los enanos.
 Dentro de cada grupo hay también diferencias; no todos los enanos son igualmente
bajitos ni todos los gigantes son igualmente altos.
Pero ¿cuál sería nuestra conclusión si se comprueba que la diferencia entre las medias
de los gigantes y de los enanos es más o menos igual a las diferencias que se pueden
encontrar entre los sujetos dentro de cada grupo?… Pues sencillamente que no se tienen
ni enanos ni gigantes, la hipótesis es falsa, y por lo que respecta a estatura, podemos
considerar que todos pertenecen al mismo grupo (o hablando con más propiedad, que todos
pertenecen a la misma población por lo que respecta a la altura). Este tipo de planteamiento
se resuelve estudiando la variabilidad de los datos.
La diversidad o variación que se encuentra dentro de los grupos (expresada por la

varianza dentro de los grupos) es la diversidad normal, aleatoria; lo normal es que no todos
los sujetos de una muestra sean idénticos en una determinada característica. Si las medias
difieren entre sí (varianza entre grupos) más de lo que se puede esperar por azar (varianza
dentro de los grupos), afirmaremos que las medias son distintas o, lo que es lo mismo
(expresado en términos más formales), que las muestras proceden de poblaciones distintas
con distinta media.
Básicamente la varianza total (del grupo total) la va a descomponer en dos varianzas:

a) Una varianza nos va a expresar las diferencias entre las medias (entre los grupos)
b) Otra varianza nos va a expresar las diferencias o variabilidad entre los sujetos,
dentro de los grupos (y que consideramos que es la variabilidad normal)
Esquemáticamente, se tiene:
Prof. R. Rojas
SCTra Suma de Cuadrados SCE Suma de Cuadrados entre

SCT Suma de cuadrados Total dentro de los grupos los grupos
=
+
Variabilidad dentro de los Variabilidad entre los

Variabilidad Total grupos grupos
Diferencial con respecto a = Diferencia de cada sujeto con Diferencia de cada media
la media total +
respecto a la media del grupo con respecto a la media
total
Figura 1. Descomposición de la variabilidad
Si la diversidad entre las medias (los grupos) es mayor que la diversidad entre los
sujetos dentro de los grupos, es cuando se afirma que entre las medias hay diferencias
superiores a lo que podemos encontrar por azar (que es lo que sucede dentro de los
grupos).
Se tiene un total de an observaciones y a tratamientos

 SCT tiene (an − 1) grados de libertad.
 SCTr tiene (a − 1) grados de libertad.
 SCE tiene a(n−1) grados de libertad, porque hay n réplicas dentro de cada
tratamiento, es decir, se tienen (n−1) grados de libertad para estimar el error
experimental. Al tener a tratamientos, se tiene un total de a(n − 1) grados de libertad.
La varianza del tratamiento i , se expresa como:
Si no hay diferencias entre los a tratamientos, se puede estimar la varianza

poblacional σ2 como
Se dispone, así de dos posibles estimadores de σ2 por el método de mínimos

cuadrados
Prof. R. Rojas
Cuando no existen diferencias entre las medias de los tratamientos, las estimaciones
deben ser similares. La figura 2. Muestra gráficamente los posibles resultados de Anova.
Figura 2. Posibles resultados del análisis de varianza en una muestra con con tres
niveles.
Prueba de hipótesis
Se plantan las hipótesis
Cuyo estadístico de prueba está representado por:
donde los errores εij se distribuyen independientemente entre sí, según una N(0, σ), y se
distribuye como una F con, Fa−1,N−a
La una región crítica superior, de modo que se rechaza, a nivel α, la hipótesis nula
de igualdad de tratamientos, si
En general se tiene en la Figura 3., lo antes planteado se resumen:

Prof. R. Rojas
Figura 3. Análisis de varianza
Intervalos de confianza
Si se asume que los errores están distribuidos según una normal, entonces cada
De este modo, cuando σ2 es desconocida un intervalo de confianza al 100(1−α)% es
Intervalo de confianza para la media i del tratamiento i-ésimo
Intervalo de confianza para la diferencia en las medias de

dos tratamientos cualesquiera i - j
Ejemplo
Un ingeniero de desarrollo de productos está interesado en maximizar la resistencia
a la tensión de una nueva fibra sintética que se empleará en la manufactura de tela para
camisas de hombre. El ingeniero sabe por experiencia que la resistencia está influida por
el porcentaje de algodón presente en la fibra. Además, sospecha que el contenido de
algodón debe estar aproximadamente entre un 10 y 40% para que la tela resultante tenga
otras características de calidad que se desean (como la capacidad de recibir un tratamiento
de planchado permanente).
El ingeniero decide probar muestras a cinco niveles de porcentaje de algodón: 15,
20, 25, 30 y 35%. Asimismo, decide ensayar cinco muestras a cada nivel de contenido de
algodón. Las 25 observaciones deben asignarse al azar. Para ilustrar la forma en que puede
Prof. R. Rojas
aleatorizarse el orden de ejecución, supóngase que las observaciones se numeran como

sigue:
Ahora se elige al azar un número entre 1 y 25. Supongamos que es el 8, entonces

la observación 8a se ejecuta primero (es decir, a un 20% de algodón). A continuación se
elige un número al azar entre 1 y 25, quitando el 8. Supongamos que es el 4, entonces la
observación 4a se ejecuta en segundo lugar (a un 15% de algodón). Se repite el proceso
hasta completar las 25 observaciones.
Esta secuencia de prueba aleatorizada es necesaria para evitar que los resultados
se contaminen por los efectos de variables desconocidas que pueden salir de control
durante el experimento.
Se inicia el cálculo de los valores correspondientes:
En este ejemplo, a = 5, n = 5 y N = 25. Las estimaciones puntuales de los parámetros

son las siguientes:
Prof. R. Rojas
Se plantean las hipótesis
Se calculan los análisis del modelo

Df Sum Sq Mean Sq F value Pr(>F)
porcentaje 4 475.76 118.94 14.757 9.128e06***
Residuals 20 161.20 8.06
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Se establece la región de rechazo: F4,20,0.05 = 2,8661
Región de rechazo
Por lo tanto, rechazamos H0 a los niveles anteriores y concluimos que hay

diferencias entre los tratamientos.
Prof. R. Rojas
Una vez estudiado el modelo, se procede a su diagnóstico con estudio de los

errores.
En ANOVA, los errores se definen como:
eij  yij  y ij
Y al igual que en el caso de una regresión
homocedasticidad e independencia.
 
y ij lineal, cumple
i  ylos 
  y i   y   y i 
supuestos de normalidad,
Especificación del modelo

El modelo ANOVA de un factor puede reescribirse como:
𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝜀𝑖𝑗
Donde
 𝜇 es una constante común a todos los niveles
 𝛼𝑖 es el efecto producido por el i–ésimo nivel. Al sumarlos todos deben

compensarse los efectos negativos con los positivos para que la media común a
todos los niveles sea realmente μ. Esto implica en particular que los efectos de los
niveles no son independientes.
 𝜀𝑖𝑗 es la parte de la variable 𝑦𝑖𝑗 no explicada por 𝜇 y 𝛼𝑖 y que se distribuye del mismo
modo (aunque independientemente) para cada observación, según la ley gaussiana:
𝜀𝑖𝑗 ~𝑁(0, 𝜎2 ). Esta es la condición de homocedasticidad, y es fundamental en el
análisis de la varianza.
Ahora como 𝑦𝑖𝑗 = 𝜇 + 𝜀𝑖𝑗 y 𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝜀𝑖𝑗 son modelos análogos, se puede
escribir el contraste de hipótesis de dos formas:
Manteniendo el estadístico de prueba y la región de rechazo.

Prof. R. Rojas
Análisis de los resultados del ANOVA: Comparaciones múltiples
Una vez obtenidas diferencias significativas entre los tratamientos, conviene estudiar por
qué se rechaza la igualdad entre medias, comparando todos los pares de medias, porque
puede ser que se rechace la igualdad de medias porque haya un par de medias diferentes
entre sí. Se considera, entonces, los siguientes contrastes:
𝐻𝑜 : 𝜇𝑖 = 𝜇𝑗 𝑖≠𝑗
𝐻𝑎 : 𝜇𝑖 ≠ 𝜇𝑗 𝑖≠𝑗
Para lo cual se utilizan dos Métodos de diferenciación:
 Mínima diferencia significativa

 Bonferroni
 Turkey
Mínima diferencia significativa (LSD)
Este procedimiento desarrollado por Fisher, el cual es una extensión de la prueba t

de Student para el caso de comparación de dos medias con varianza ponderada.
Cuyo estadístico de prueba se representa por
Y donde la diferencia mínima significativa se calcula mediante
2. 𝑀𝐶𝐸
𝐿𝑆𝐷𝛼 = 𝑡𝛼,𝑁−𝑎 . √
2 𝑛
La región de rechazo se estable como:
Prof. R. Rojas
Este método LSD tiene el problema de que cuando el número de grupos crece (y por tanto
el número de comparaciones), la probabilidad de no obtener ningún rechazo (aún en el caso
de que todos los grupos sean iguales) disminuye rápidamente. Es decir, si el número de
grupos es grande, el método de mínima diferencia significativa rechazará hipótesis de
igualdad que son ciertas, sólo por azar.
Método de Bonferroni
La corrección de Bonferroni se sustenta en la idea de que si usted somete a prueba "n"

hipótesis dependientes o independientes (pareadas) para un mismo conjunto de datos, la
forma de mantener la tasa de error constante para el estudio, es probar cada hipótesis
individual a un nivel de significancia 1/n veces más de lo que sería si sólo se sometiera a
prueba una hipótesis.
El objetivo es mantener igual el nivel de significancia (α) para toda la familia de pruebas y
por lo tanto la corrección de Bonferroni somete a prueba cada uno de los contrastes aun
nivel de significancia de α/n. Por ejemplo, si se realizan tres contrastes simultáneos y se
desea mantener el nivel de significancia en 0,05; el alfa elegido para la prueba debe ser
0,05/3= 0,0166.
En este criterio se rechaza μi = μj (i  j) si
donde p es el número de comparaciones que se pueden obtener
Método de Tukey
El método de Tukey se utiliza en ANOVA para crear intervalos de confianza para todas las
diferencias en parejas entre las medias de los niveles de los factores mientras controla la
tasa de error por grupo en un nivel especificado.
Su estadístico de prueba es
𝑀𝐶𝐸
𝑇𝐴 = 𝑞∝ (𝑎, 𝑁)√ si los tamaños de las muestras son iguales y
𝑛
1 1
𝑇𝐴 = 𝑞∝ (𝑎, 𝑁)√𝑀𝐶𝐸 (𝑛 + 𝑛 ) si los tamaños de las muestras son iguales y
𝑖 𝑗
El cual utiliza el estadístico del rango studentizado 𝑞∝ (𝑎, 𝑓), cuyos valores se obtienen de
la tabla VII al final de la guía.
Prof. R. Rojas
La región de rechazo en esta prueba se expresa como
TA
TA
Ejemplo.
Del ejemplo anterior del algodón, tenemos que hay diferencias entre los tratamientos.
 Calculemos LSD con un nivel de significancia de 5%.

Tenemos que
2. (8.06)
𝐿𝑆𝐷𝛼 = 𝑡0.025,20 . √ = 3.75
5
Luego, establecemos las regiones de rechazo
̅̅̅𝒊. − ̅̅̅|
|𝒚 𝒚𝒋. LSD Región de Rechazo
̅𝑦̅̅1.̅ − ̅̅
𝑦̅̅2. =9.8 – 15.4 = -5.6 3.75 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅̅ 𝑦̅̅=-7.8
3. 3.75 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅̅̅=-11.8
𝑦4. 3.75 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅𝑦̅̅̅=-1
5. 3.75 <No se rechaza H0
𝑦̅̅
̅̅ 2. − ̅ 𝑦̅̅̅=-2.2
3. 3.75 <No se rechaza H0
̅𝑦̅̅̅2. − ̅̅̅=-6.2
𝑦4. 3.75 > Se rechaza H0
𝑦̅̅
̅̅ 2. − ̅̅ 𝑦̅̅=4.6
̅𝑦̅̅̅
3. − 𝑦
̅̅̅=-4
𝑦̅̅
̅̅ 3. − 𝑦
̅̅̅̅==6.8
𝑦4. − ̅𝑦̅̅̅=10.8
̅̅̅ 5. 3.75 > Se rechaza H0
En general, los pares de medias son significativamente diferentes a un nivel de

significancia del 5%. Los únicos pares que no difieren significativamente son 1y 5 y 2y3. El
tratamiento 4 produce una resistencia a la tensión significativamente mayor a los otros
porcentajes de algodón.
 Calculemos Tukey con un nivel de significancia de 5%.
8.06
𝑇𝐴 = 𝑞0.05 (5,20)√ = 5,37
5
Luego, establecemos las regiones de rechazo

Prof. R. Rojas
̅̅̅𝒊. − ̅̅̅|
|𝒚 𝒚𝒋. TA Región de Rechazo
̅̅̅1.̅ − ̅𝑦̅̅̅
𝑦 2. = -5.6 5,37 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅̅ 𝑦̅̅=-7.8
3. 5,37 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅̅̅=-11.8
𝑦4. 5,37 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅𝑦̅̅̅=-1
5. 5,37 <No se rechaza H0
𝑦̅̅
̅̅ 2. − 𝑦
̅̅̅̅=-2.2
3. 5,37 <No se rechaza H0
̅𝑦̅̅̅2. − 𝑦
̅̅̅=-6.2
𝑦̅̅
̅̅ 2. − 𝑦
̅̅̅̅=4.6
5. 5,37 < No se rechaza H0
̅𝑦̅̅̅
3. − ̅̅̅=-4
𝑦4. 5,37 < No se rechaza H0
𝑦̅̅
̅̅ 3. − ̅̅ 𝑦̅̅==6.8
𝑦4. − ̅𝑦̅̅̅=10.8
̅̅̅ 5. 5,37 > Se rechaza H0
En este caso se aprecian pares que son significativamente diferentes y varios que no. Este
metodo no es del todo claro, para estos datos.
Prof. R. Rojas
Tabla para 𝑞∝ (𝑎, 𝑓)

Prof. R. Rojas

Clase Analisis de Varianza Con Un Factor

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Clase Analisis de Varianza Con Un Factor

Uploaded by

Copyright:

Available Formats

Universidad Simón Bolívar

Cuando se tiene un solo criterio de clasificación, los datos se representan como:

Su ecuación del modelo se plantea como

Donde 𝜇𝑖 representa las medias y los errores son

Por el método de mínimos cuadrados la media se puede expresar como

Para el análisis de varianza se hacen tres suposiciones básicas:

1) En la variable dependiente (en la que medimos a los sujetos) tenemos unidades de

El ANOVA no constituye un método o procedimiento único; según los diseños y datos

Un ejemplo: tenemos dos grupos, uno de enanos y otro de gigantes:

La diversidad o variación que se encuentra dentro de los grupos (expresada por la

Básicamente la varianza total (del grupo total) la va a descomponer en dos varianzas:

SCTra Suma de Cuadrados SCE Suma de Cuadrados entre

Variabilidad dentro de los Variabilidad entre los

Figura 1. Descomposición de la variabilidad

Se tiene un total de an observaciones y a tratamientos

La varianza del tratamiento i , se expresa como:

Si no hay diferencias entre los a tratamientos, se puede estimar la varianza

Se dispone, así de dos posibles estimadores de σ2 por el método de mínimos

Se plantan las hipótesis

Cuyo estadístico de prueba está representado por:

En general se tiene en la Figura 3., lo antes planteado se resumen:

Figura 3. Análisis de varianza

De este modo, cuando σ2 es desconocida un intervalo de confianza al 100(1−α)% es

Intervalo de confianza para la media i del tratamiento i-ésimo

Intervalo de confianza para la diferencia en las medias de

aleatorizarse el orden de ejecución, supóngase que las observaciones se numeran como

Ahora se elige al azar un número entre 1 y 25. Supongamos que es el 8, entonces

Se inicia el cálculo de los valores correspondientes:

En este ejemplo, a = 5, n = 5 y N = 25. Las estimaciones puntuales de los parámetros

Se plantean las hipótesis

Se calculan los análisis del modelo

Se establece la región de rechazo: F4,20,0.05 = 2,8661

Por lo tanto, rechazamos H0 a los niveles anteriores y concluimos que hay

Una vez estudiado el modelo, se procede a su diagnóstico con estudio de los

Especificación del modelo

 𝜇 es una constante común a todos los niveles

 𝛼𝑖 es el efecto producido por el i–ésimo nivel. Al sumarlos todos deben

Manteniendo el estadístico de prueba y la región de rechazo.

Análisis de los resultados del ANOVA: Comparaciones múltiples

Para lo cual se utilizan dos Métodos de diferenciación:

 Mínima diferencia significativa

Mínima diferencia significativa (LSD)

Este procedimiento desarrollado por Fisher, el cual es una extensión de la prueba t

Y donde la diferencia mínima significativa se calcula mediante

La corrección de Bonferroni se sustenta en la idea de que si usted somete a prueba "n"

En este criterio se rechaza μi = μj (i  j) si

donde p es el número de comparaciones que se pueden obtener

La región de rechazo en esta prueba se expresa como

 Calculemos LSD con un nivel de significancia de 5%.

En general, los pares de medias son significativamente diferentes a un nivel de

 Calculemos Tukey con un nivel de significancia de 5%.

Luego, establecemos las regiones de rechazo

Tabla para 𝑞∝ (𝑎, 𝑓)

You might also like