Professional Documents
Culture Documents
Prof. R. Rojas
Análisis de Varianza
El análisis de varianza (ANOVA) se utilizar para verificar si hay diferencias
estadísticamente significativas entre medias cuando tenemos más de dos muestras o
grupos en el mismo planteamiento.
Para el análisis se puede ver qué tipos de datos se disponen y qué información se
busca que relacione los distintos tipos de datos. Siempre que se realiza este análisis se
tiene dos tipos de información o dos tipos de datos:
a) Información cuantitativa: los datos en la variable dependiente, cuya varianza o
diversidad analizamos.
b) Información cualitativa: los criterios o categorías que se han utilizado para clasificar
a los sujetos (variable independiente).
K grupos
Para este análisis se consideran que dos grupos son distintos cuando la variabilidad
entre los grupos, entre las medias, es mayor que la variabilidad dentro de los grupos.
Pero ¿cuál sería nuestra conclusión si se comprueba que la diferencia entre las medias
de los gigantes y de los enanos es más o menos igual a las diferencias que se pueden
encontrar entre los sujetos dentro de cada grupo?… Pues sencillamente que no se tienen
ni enanos ni gigantes, la hipótesis es falsa, y por lo que respecta a estatura, podemos
considerar que todos pertenecen al mismo grupo (o hablando con más propiedad, que todos
pertenecen a la misma población por lo que respecta a la altura). Este tipo de planteamiento
se resuelve estudiando la variabilidad de los datos.
Esquemáticamente, se tiene:
Universidad Simón Bolívar
Prof. R. Rojas
=
+
Si la diversidad entre las medias (los grupos) es mayor que la diversidad entre los
sujetos dentro de los grupos, es cuando se afirma que entre las medias hay diferencias
superiores a lo que podemos encontrar por azar (que es lo que sucede dentro de los
grupos).
Cuando no existen diferencias entre las medias de los tratamientos, las estimaciones
deben ser similares. La figura 2. Muestra gráficamente los posibles resultados de Anova.
Figura 2. Posibles resultados del análisis de varianza en una muestra con con tres
niveles.
Prueba de hipótesis
donde los errores εij se distribuyen independientemente entre sí, según una N(0, σ), y se
distribuye como una F con, Fa−1,N−a
La una región crítica superior, de modo que se rechaza, a nivel α, la hipótesis nula
de igualdad de tratamientos, si
Intervalos de confianza
Si se asume que los errores están distribuidos según una normal, entonces cada
Ejemplo
Un ingeniero de desarrollo de productos está interesado en maximizar la resistencia
a la tensión de una nueva fibra sintética que se empleará en la manufactura de tela para
camisas de hombre. El ingeniero sabe por experiencia que la resistencia está influida por
el porcentaje de algodón presente en la fibra. Además, sospecha que el contenido de
algodón debe estar aproximadamente entre un 10 y 40% para que la tela resultante tenga
otras características de calidad que se desean (como la capacidad de recibir un tratamiento
de planchado permanente).
El ingeniero decide probar muestras a cinco niveles de porcentaje de algodón: 15,
20, 25, 30 y 35%. Asimismo, decide ensayar cinco muestras a cada nivel de contenido de
algodón. Las 25 observaciones deben asignarse al azar. Para ilustrar la forma en que puede
Universidad Simón Bolívar
Prof. R. Rojas
Región de rechazo
eij yij y ij
Y al igual que en el caso de una regresión
homocedasticidad e independencia.
y ij lineal, cumple
i ylos
y i y y i
supuestos de normalidad,
𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝜀𝑖𝑗
Donde
Ahora como 𝑦𝑖𝑗 = 𝜇 + 𝜀𝑖𝑗 y 𝑦𝑖𝑗 = 𝜇 + 𝛼𝑖 + 𝜀𝑖𝑗 son modelos análogos, se puede
escribir el contraste de hipótesis de dos formas:
Una vez obtenidas diferencias significativas entre los tratamientos, conviene estudiar por
qué se rechaza la igualdad entre medias, comparando todos los pares de medias, porque
puede ser que se rechace la igualdad de medias porque haya un par de medias diferentes
entre sí. Se considera, entonces, los siguientes contrastes:
𝐻𝑜 : 𝜇𝑖 = 𝜇𝑗 𝑖≠𝑗
𝐻𝑎 : 𝜇𝑖 ≠ 𝜇𝑗 𝑖≠𝑗
2. 𝑀𝐶𝐸
𝐿𝑆𝐷𝛼 = 𝑡𝛼,𝑁−𝑎 . √
2 𝑛
La región de rechazo se estable como:
Universidad Simón Bolívar
Prof. R. Rojas
Este método LSD tiene el problema de que cuando el número de grupos crece (y por tanto
el número de comparaciones), la probabilidad de no obtener ningún rechazo (aún en el caso
de que todos los grupos sean iguales) disminuye rápidamente. Es decir, si el número de
grupos es grande, el método de mínima diferencia significativa rechazará hipótesis de
igualdad que son ciertas, sólo por azar.
Método de Bonferroni
Método de Tukey
El método de Tukey se utiliza en ANOVA para crear intervalos de confianza para todas las
diferencias en parejas entre las medias de los niveles de los factores mientras controla la
tasa de error por grupo en un nivel especificado.
Su estadístico de prueba es
𝑀𝐶𝐸
𝑇𝐴 = 𝑞∝ (𝑎, 𝑁)√ si los tamaños de las muestras son iguales y
𝑛
1 1
𝑇𝐴 = 𝑞∝ (𝑎, 𝑁)√𝑀𝐶𝐸 (𝑛 + 𝑛 ) si los tamaños de las muestras son iguales y
𝑖 𝑗
El cual utiliza el estadístico del rango studentizado 𝑞∝ (𝑎, 𝑓), cuyos valores se obtienen de
la tabla VII al final de la guía.
Universidad Simón Bolívar
Prof. R. Rojas
TA
TA
Ejemplo.
Del ejemplo anterior del algodón, tenemos que hay diferencias entre los tratamientos.
2. (8.06)
𝐿𝑆𝐷𝛼 = 𝑡0.025,20 . √ = 3.75
5
Luego, establecemos las regiones de rechazo
̅̅̅𝒊. − ̅̅̅|
|𝒚 𝒚𝒋. LSD Región de Rechazo
̅𝑦̅̅1.̅ − ̅̅
𝑦̅̅2. =9.8 – 15.4 = -5.6 3.75 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅̅ 𝑦̅̅=-7.8
3. 3.75 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅̅̅=-11.8
𝑦4. 3.75 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅𝑦̅̅̅=-1
5. 3.75 <No se rechaza H0
𝑦̅̅
̅̅ 2. − ̅ 𝑦̅̅̅=-2.2
3. 3.75 <No se rechaza H0
̅𝑦̅̅̅2. − ̅̅̅=-6.2
𝑦4. 3.75 > Se rechaza H0
𝑦̅̅
̅̅ 2. − ̅̅ 𝑦̅̅=4.6
5. 3.75 > Se rechaza H0
̅𝑦̅̅̅
3. − 𝑦
̅̅̅=-4
4. 3.75 > Se rechaza H0
𝑦̅̅
̅̅ 3. − 𝑦
̅̅̅̅==6.8
5. 3.75 > Se rechaza H0
𝑦4. − ̅𝑦̅̅̅=10.8
̅̅̅ 5. 3.75 > Se rechaza H0
8.06
𝑇𝐴 = 𝑞0.05 (5,20)√ = 5,37
5
̅̅̅𝒊. − ̅̅̅|
|𝒚 𝒚𝒋. TA Región de Rechazo
̅̅̅1.̅ − ̅𝑦̅̅̅
𝑦 2. = -5.6 5,37 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅̅ 𝑦̅̅=-7.8
3. 5,37 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅̅̅=-11.8
𝑦4. 5,37 > Se rechaza H0
̅𝑦̅̅1.̅ − ̅𝑦̅̅̅=-1
5. 5,37 <No se rechaza H0
𝑦̅̅
̅̅ 2. − 𝑦
̅̅̅̅=-2.2
3. 5,37 <No se rechaza H0
̅𝑦̅̅̅2. − 𝑦
̅̅̅=-6.2
4. 5,37 > Se rechaza H0
𝑦̅̅
̅̅ 2. − 𝑦
̅̅̅̅=4.6
5. 5,37 < No se rechaza H0
̅𝑦̅̅̅
3. − ̅̅̅=-4
𝑦4. 5,37 < No se rechaza H0
𝑦̅̅
̅̅ 3. − ̅̅ 𝑦̅̅==6.8
5. 5,37 > Se rechaza H0
𝑦4. − ̅𝑦̅̅̅=10.8
̅̅̅ 5. 5,37 > Se rechaza H0
En este caso se aprecian pares que son significativamente diferentes y varios que no. Este
metodo no es del todo claro, para estos datos.
Universidad Simón Bolívar
Prof. R. Rojas