You are on page 1of 40

Instituto Tecnolgico Superior de Zacapoaxtla Departamento de Desarrollo Acadmico

Mara del Consuelo Valle Espinosa

Usaremos el anlisis de la varianza (ANOVA) para contrastar la hiptesis nula de que las medias de distintas poblaciones coinciden. Por ejemplo, en el caso de 5 poblaciones, el contraste a realizar sera: HO : 1 = 2 = ... = 5 vs. HA : no todas las medias poblacionales son iguales En la seccin anterior se estudi cmo se utiliza la distribucin tStudent (o la Normal) para contrastar la hiptesis nula de que dos medias poblacionales coinciden. Usando esta tcnica, podramos realizar los siguientes 10 contrastes la hiptesis nula anterior:

En este caso, rechazar cualquiera de las 10 hiptesis nulas implicara rechazar la hiptesis nula inicial de que las cinco medias coinciden. Por el contrario, si no rechazsemos ninguna de las 10 hiptesis, tampoco rechazaramos la hiptesis inicial. El problema de este mtodo es doble: Por un lado, se requiere de un mayor esfuerzo computacional, Al hacer un mayor nmero de contrastes aumenta el error de tipo I (la probabilidad de rechazar la hiptesis nula siendo sta cierta). El uso de las tcnicas ANOVA nos permiten eludir ambos problemas.

El objetivo principal de muchos experimentos consiste en determinar el efecto que sobre alguna variable dependiente Y tienen distintos niveles de algn factor X (variable independiente y discreta). El factor puede ser la temperatura, la empresa que ha producido el bien, el da de la semana, etc. Esencialmente, el diseo para el anlisis simple de la varianza consistir en obtener muestras aleatorias e independientes del valor de Y asociado a cada uno de los distintos niveles del factor X1, X2,..., Xn . Entonces podremos determinar si los diferentes niveles del factor tienen un efecto significativo sobre el valor de la variable dependiente.

El funcionamiento de la tcnica ANOVA simple es, a grandes rasgos, es el siguiente:


A fin de comparar las medias de Y asociadas a los distintos niveles del factor (X1, X2,..., Xn), compararemos una medida de la variacin entre diferentes niveles (MS-factor) con una medida de la variacin dentro de cada nivel (MS-error). Si el MS-factor es significativamente mayor que el MSerror, concluiremos que las medias asociadas a diferentes niveles del factor son distintas. Esto significa que el factor influye significativamente sobre la variable dependiente Y. Si, por el contrario, el MS-factor no es significativamente mayor que el MSerror, no rechazaremos la hiptesis nula de que todas las medias, asociadas a diferentes niveles del factor, coinciden.

El modelo asociado al i-simo nivel del factor X ser: Y = i + donde:

Los errores estn normalmente distribuidos con media 0 Los errores son independientes Los errores tienen varianza constante 2
Para verificar estos supuestos suele ser til realizar un grfico que muestre la distribucin de las observaciones por niveles: si en el grfico se aprecian diferencias entre niveles por lo que a la variacin de las observaciones se refiere, es muy probable que tengamos un problema con el supuesto de varianza constante; si aparecen valores extremos, puede que no se cumpla el supuesto de normalidad; por otra parte, si el tiempo fuese un factor importante a la hora de registrar observaciones, podra ocurrir que observaciones consecutivas estuviesen correlacionadas, con lo que no se cumplira el supuesto de independencia.

Ejemplo: Se realiza un estudio para comparar la eficiencia de tres programas teraputicos para el tratamiento del acn. Se emplean tres mtodos y se comparan respecto a su eficacia.
N = 35 pacientes k = 3 tratamientos a comparar. Se obtienen tres muestras independientes y

aleatorias de tamaos: n 1 = 10, n 2 = 12 y n 3 = 13

Factor : El factor que interesa es el tipo de tratamiento. Ningn otro factor, tal como edad, tipo de piel, hbitos dietticos o sexo del paciente, se consideran.

Niveles : Se est estudiando tres tratamientos; de este modo el experimento est diseado para tres niveles.

Aleatoriedad : La distribucin de personas en cada subgrupo se ha realizado en forma aleatoria e independiente, extradas de las poblaciones con respuestas medias: 1 2 3

Se quiere comparar la hiptesis nula de que los tratamientos tienen el mismo efecto medio: H0 :1=2 =3 (no hay diferencia en los efectos medios de los tratamientos) Ha :i j (al menos una media difiere de las otras)

Nivel I 48.6 49.4 50.1 49.8 50.6 50.8 47.1 52.5 49 46.7

Nivel del factor (tratamiento recibido) Nivel II Nivel III 68 67.5 67 62.5 70.1 64.2 64.5 62.5 68 63.9 68.3 64.8 71.9 62.3 71.5 61.4 69.9 67.4 68.9 65.4 67.8 63.2 68.9 61.2 60.5

Las respuestas

observadas son el porcentaje de mejoras registradas por paciente en el nmero de lesiones por acn al final de 16 semanas del tratamiento.

Media muestral de

respuestas al tratamiento I = 49.46 Media muestral de respuestas al tratamiento II = 68.73 Media muestral de respuestas al tratamiento III= 63.60 Media muestral de todas las respuestas = 61.23

Nivel I 48.6 49.4 50.1 49.8 50.6 50.8 47.1 52.5 49 46.7

Nivel del factor (tratamiento recibido) Nivel II Nivel III 68 67.5 67 62.5 70.1 64.2 64.5 62.5 68 63.9 68.3 64.8 71.9 62.3 71.5 61.4 69.9 67.4 68.9 65.4 67.8 63.2 68.9 61.2 60.5 824.8 68.73 826.8 63.6 2146.2 61.32

494.6 49.46

Si los tratamientos (niveles del factor) no tienen

efecto, entonces sus medias seran la misma que la media global. Si algn tratamiento tiene efecto, la diferencia entre los resultados de este tratamiento y la media global indicar tal efecto.
cierta variabilidad natural de la respuesta de cada persona en torno a la respuesta de su subgrupo. Esta diferencia se conoce como error aleatorio.

Dentro de cada uno de los tres subgrupos hay

La desviacin de la respuesta que experimenta cada individuo involucrado en el experimento con respecto a la respuesta global (de los tres tratamientos) se puede dividir en dos componentes: La desviacin de la respuesta del su subgrupo con respecto a la respuesta global. La desviacin de su propia respuesta con respecto a la respuesta de su subgrupo

Sustituyendo las medias estimadas en el modelo conceptual anteriormente expuesto obtenemos:

Si se eleva al cuadrado cada identidad del modelo lineal y se suman las respuestas de TODOS los individuos involucrados en el experimento se obtiene

Cuadrado medio de los tratamientos.

Cuadrado medio del error

La respuesta de cada uno de los individuos (no importando que tratamiento se le haya aplicado) es casi igual a la respuesta global. Tomado en cuenta los nuevos estadsticos en esta hiptesis tenemos: MSStotal 0 Esto es: MSStr MSSE

Para que Ho sea cierta, esperamos que MSTr y MSE estn prximos; si Ho no es cierta, esperamos que MSTr sea mayor que MSE Por lo que para poder contrastar Ho se utiliza el cociente de MSTR / MSE que tiene una distribucin de probabilidad F con k-1 y N -k grados de libertad

Nivel I x1j 48.6 49.4 50.1 49.8 50.6 50.8 47.1 52.5 49 46.7 Media M1 49.46 Media total 61.32

(x1j-Xm1)^2 0.7396 0.0036 0.4096 0.1156 1.2996 1.7956 5.5696 9.2416 0.2116 7.6176 suma 27.004

Nivel II x2j 68 67 70.1 64.5 68 68.3 71.9 71.5 69.9 68.9 67.8 68.9 Media M2 68.73

(x2j-Xm2)^2 0.5329 2.9929 1.8769 17.8929 0.5329 0.1849 10.0489 7.6729 1.3689 0.0289 0.8649 0.0289 suma 44.0268

Nivel III x3j 67.5 62.5 64.2 62.5 63.9 64.8 62.3 61.4 67.4 65.4 63.2 61.2 60.5 Media M3 63.6

(x3j-Xm3)^2 15.21 1.21 0.36 1.21 0.09 1.44 1.69 4.84 14.44 3.24 0.16 5.76 9.61 suma 59.26 SSe 130.2908

10*(Xm1-Xmt)^2 1406.596 12*(Xm2-Xmt)^2 658.8972 13*(Xm3-Xmt)^2 67.5792 SStr 2133.0724

MSe 4.0715875 F en tablas 2 , 32 gl F observado alfa = .01 261.946035 5.33634291

MStr 1066.5362

Se acostumbra sintetizar los resultados ms importantes del Anlisis de Varianza en un cuadro ANOVA tal como sigue:
Referencia Tratamiento Error Total

DF

SS

MS

2
32 34

2133.6
130.3 2263.96

1066.8
4.07

262.1

El punto crtico para un contraste con alfa = 0.01 es aproximadamente 5.39. Puesto que el valor observado de F es 262.12 es mucho mayor que 5.39. Tenemos prueba estadstica de que los tres tratamientos difieren en el efecto medio.

Anlisis de varianza de dos factores con una sola muestra por grupo Suponga que usted haya experimentado con levadura para una receta de panes dulces. Parece ser que la cantidad de azcar y la temperatura del agua afectan el tamao de los panes. Basndose en los siguientes datos, realizar un anlisis de varianza para averiguar lo que es significativo de estas recetas.

El resultado del ANOVA (Anlisis de varianza) indica el valor estadstico de la "F." En este caso el valor de la "F" por las filas (cantidad de azcar) es 23.15. Para saber si estos resultados son significativos (o sea, si la probabilidad "P" tiene un valor menor a 0.05), el valor de la "F" observado necesita ser al menos 6.94 (o sea, el valor crtico de la F). Entonces, como el valor de "F" observado es de 23.15 y es mucho mayor que el valor crtico de la F (6.94), estamos seguros que los resultados de nuestras pruebas son significativas. El valor de la "F" para las columnas (temperatura del agua) es igual a 378.53. Esto es tambin significativo, porque el valor de "F" crtico es solamente 6.94. En otras palabras, existe una relacin significativa en la cantidad de azcar, la temperatura del agua y el tamao de los panes dulces. La probabilidad muestra a qu nivel los resultados son estadsticamente significativos.

Suponga que usted tenga un restaurante y haya creado una nueva receta de salsa para las enchiladas. Por alguna razn parece ser que a sus clientes varones les gusta ms la salsa anterior que la nueva. Pero tambin parece ser que a sus clientes femeninas prefieren la nueva salsa que la anterior.

Usted decide realizar una prueba con un grupo de 10 mujeres y 10 varones dndole a probar las dos salsas, basndose en una escala de 100 puntos para el sabor de las dos salsas.
Existe alguna relacin significativa desde el punto de vista de los clientes varones y clientes femeninas y cmo ven la nueva y la anterior salsa para las enchiladas?

hombres 85 74 reseta nueva 96 62 80 78

mujeres 69 65 63 70 72 59

90
79 85 80 68 reseta anterior 64 62 69 73 61 64

64
70 68 73 85 75 97 80 88 81 91

72
70 71

83
84 82

NOTA: para que en EXCEL trabaje correctamente el algoritmo hay que incorporar a la matriz de datos la fila y la columna de ttulos.

Anlisis de varianza de dos factores con varias muestras por grupo RESUMEN Cuenta Suma Promedio Varianza hombres 10 809 80.9 84.7666667 mujeres 10 673 67.3 19.5666667 Total 20 1482 74.1 98.0947368

Cuenta Suma Promedio Varianza


Total

10 674 67.4 18.7111111

10 846 84.6 38.0444444

20 1520 76 104.736842

Cuenta Suma Promedio Varianza

20 1483 74.15 96.9763158

20 1519 75.95 106.05

ANLISIS DE VARIANZA Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados Valor crtico para F

Probabilidad

Muestra
Columnas Interaccin Dentro del grupo Total

36.1
32.4 2371.6 1449.8 3889.9

1
1 1 36 39

36.1
32.4 2371.6 40.2722222

0.8963995
0.80452476 58.8892261

0.35006116
0.3757033 4.3769E-09

4.11316528
4.11316528 4.11316528

El resultado del ANOVA (Anlisis de varianza) indica el valor estadstico de la "F." En este caso el valor de la "F" de la muestra (receta anterior y receta nueva) es 0.896.
Para saber si estos resultados son significativos (o sea, si la probabilidad "P" tiene un valor menor a 0.05), el valor de la "F" necesita ser al menos 4.11 (o sea, el valor crtico de la F). Entonces, como el valor de nuestra "F" es de 0.896 y es no es mayor que el valor crtico de la F, no podemos decir que existe alguna diferencia significativa. Sin embargo, a la vez necesitamos interpretar qu significa el valor de F que est relacionado al efecto de una interaccin. Siempre un efecto de interacin sobrepasa el efecto principal.

En este caso tenemos un gran efecto de interaccin (el valor de la "F"=58.89). En otras palabras, s existe una diferencia significativa entre la opinin de los hombres y de las mujeresa relacionada a la receta anterior y a la nueva. La probabilidad demuestra a qu nivel los resultados son estadsticamente significativos.

Referencias:
http://www.uoc.edu/in3/emath/ http://www.laits.utexas.edu/orkelm/excel/EXCEL/ANOVA 2ONE.HTM

http://www.laits.utexas.edu/orkelm/excel/EXCEL/ANOVA 2MANY.HTM

You might also like