You are on page 1of 12

Anlisis de Varianza con Un Criterio de Clasificacin

CO 3321/22

En clases anteriores se deseaba determinar si existan diferencias entre las medias de dos conjuntos de datos, el ANLISIS DE VARIANZA se puede ver como una generalizacin de esa idea. Si se tiene un FACTOR se desea determinar si es influyente. y11 y12 y1n1 y12 y22 y1n2 ... ... ... yk1 yk2 yknk

Se desea saber si hay diferencias entre los grupos. El modelo para el anlisis es: yij = Qi + Iij i = 1,. . . ,k; j = 1, . . . , ni.

Se supone que los errores tienen distribucin normal con media cero, varianza comn W2 y son independientes.
I ~N(0,W2I)
Prctica 6
1

Anlisis de Varianza con Un Criterio de Clasificacin


CO 3321/22

Para determinar si existen diferencia entre los grupos, puede probarse la hiptesis: Ho: Q 1 = Q2 = . . . = Qk vs. H1: algn Qi distinto Esta prueba equivale a comparar los modelos Modelo 1 yij = Q + Iij Modelo 2 yij = Qi + Iij Los modelos estn anidados, y la comparacin se realiza a travs de la tabla de anlisis de varianza correspondiente a la prueba de significancia del modelo. Se rechaza Ho si

F > F k-1,N-k La instruccin para ajustar un modelo de anlisis de varianza es aov.

aov(frmula, data = NULL,contrasts=NULL)

Prctica 6

Anlisis de Varianza con Un Criterio de Clasificacin


CO 3321/22

Un ingeniero que desarrolla productos est interesado en maximizar la resistencia a la tensin de una nueva fibra sinttica que se emplear en la manufactura de tela para camisas de hombre. La resistencia es influida por el porcentaje de algodn presente en la fibra. El ingeniero decide probar muestras a cinco niveles de porcentaje de algodn: 15,20,25,30,35%. Los resultados son los siguientes: porcen<-c(rep(15,4),rep(20,6),rep(25,5),rep(30,3),rep(35,7)) contenido<-c(3,3,5,2,9,12,17,12,18,18,14,18,18,19, 19,19,25,22,19,23,7,10,11,15,11) porcentaje<-factor(porcen) Realizamos un diagrama de caja para conocer la resistencia para cada nivel de algodn. boxplot(split(contenido,porcentaje))
25 5 10 15 20

15

20

25

30

35

Prctica 6

Anlisis de Varianza con Un Criterio de Clasificacin


CO 3321/22

resis.mode1<-aov(contenido~porcentaje) summary(resis.mode1) Df 4 20 Sum Sq 720.25 302.71 Mean Sq F value Pr(>F) 180.06 11.897 4.14e-05 *** 15.14

porcentaje Residuals --Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

A partir de los resultados de la tabla de Anlisis de varianza, existen diferencias entre el nivel de algodn presente en la fibra y la resistencia.

Frecuentemente se emplea la siguiente reparametrizacin:

yij = Q + Ei + Iij

i = 1,. . . ,k; j = 1, . . . , ni.

Este modelo es equivalente al anterior (Qi = Q + Ei ), tiene un parmetro adicional, y las ecuaciones normales correspondientes a esta reparametrizacin van a tener infinitas soluciones (los parmetros del modelo no son identificables).

Prctica 6

Anlisis de Varianza con Un Criterio de Clasificacin


CO 3321/22

Para resolver este problema, es necesario imponer una restriccin sobre los Ei . Algunos de los ms usados son: La suma de los ni Ei son iguales a cero. Los Ei representan las desviaciones de la media de cada grupo con respecto de la media general. E1 = 0 Ei i = 2, . . . , k representan las desviaciones respecto al primer grupo. Para conocer los coeficientes del modelo, utilizamos: coefficients(resis.mode1)
(Intercept) porcentaje20 3.25000 11.08333 porcentaje25 14.35000 porcentaje30 18.75000 porcentaje35 10.46429

Por defecto, R toma la restriccin E1 = 0 : esta opcin puede ser cambiada utilizando options(contrasts=c(contr.sum,contr.poly)) resis.mod2<-aov(contenido~porcentaje) coefficients(resis.mod2)
(Intercept) porcentaje1 14.1795238 -10.9295238 porcentaje2 0.1538095 porcentaje3 3.4204762 porcentaje4 7.8204762

Prctica 6

Anlisis de Varianza Mnima Diferencia Significativa


CO 3321/22

Si se rechaza Ho: Q 1 = Q2 = . . . = Qk las hiptesis de inters son: Ho : Q i = Qj vs H1: Q i { Qj Para identificar cules promedios son diferentes utilizamos la Mnima Diferencia Significativa. Para ello se utiliza el comando pairwise.t.test
library(ctest) pairwise.t.test(contenido,porcentaje,p.adjust.method="none") Pairwise comparisons using t tests with pooled SD data: contenido and porcentaje 15 0.00027 2.2e-05 3.7e-06 0.00036 20 0.18081 0.01138 0.77781 25 0.13714 0.10354 30 0.00582

20 25 30 35

P value adjustment method: none

Prctica 6

Anlisis de Varianza Mnima Diferencia Significativa


CO 3321/22

El mtodo de mnima diferencia significativa tiene el inconveniente de que cuando el nmero de grupos crece, rechaza hiptesis de igualdad entre medias aunque estas sean iguales.

Una alterntiva es utilizar el mtodo de Bonferroni,


pairwise.t.test(contenido,porcentaje,p.adjust.method=bonferroni") Pairwise comparisons using t tests with pooled SD data: contenido and porcentaje 15 0.00268 0.00022 3.7e-05 0.00356 20 1.00000 0.11382 1.00000 25 1.00000 1.00000 30 0.05823

20 25 30 35

P value adjustment method: bonferroni

Prctica 6

Anlisis de Varianza Mnima Diferencia Significativa


CO 3321/22

Al igual que cualquier modelo, es necesario analiazr los residuos para verificar que cumple con las hiptesis. De nuevo utilizamos el comando plot igual que en el caso de regresin.
plot(fitted.values(resis.mode1),rstandard(resis.mode1), xlab="Valores Ajustados", ylab="Residuos Estandarizados",pch=20)

Re sid uo s E sta nd a riza d o s

-2

-1

10 V a lo re s A justa d o s

15

20

Ya que el modelo es desbalanceado, es decir, cada tratamiento difiere del nmero de observaciones y la varianza no es constante (forma de embudo) se realiza una transformacin de las observaciones para tratar de resolver el posible problema de heterocedasticidad.

Prctica 6

Anlisis de Varianza Mnima Diferencia Significativa


CO 3321/22

Suposicin e Normalidad

qqnorm(resis.mode1$residuals,pch=20) qqline(resis.mode1$residuals,pch=20)

No rm a l Q -Q P lo t

S a m p le Qua ntile s

-5

-2

-1

0 The o re tica l Qua ntile s

Suposicin de Independencia de los residuos Si se conoce el orden en que se recopilaron los datos se puede utilizar para detectar alguna correlacin entre ellos. Si esto ocurre la suposicin de independencia ha sido violada.

Prctica 6

Anlisis de Varianza Estabilizar la Varianza


CO 3321/22

Cuando los residuos no presentan estabilidad en la varianza puede ser debido a que son muy pocas observaciones por nivel o que realmente las varianzas no son constantes (Heterocedasticidad). En presencia de inestabilidad de varianza utilizamos la transformacin de Box- Cox . Log(W) = logU + Elog(Q) Deben existir rplicas para cada nivel, de lo contrario no se podra determinar la transformacin de las observaciones por el mtodo de Box-Cox. Para ello determinamos las medias y desviaciones para cada nivel, en nuestro caso: mean(contenido[porcentaje==15]) [1] 3.25 sqrt(var(contenido[porcentaje==15])) [1] 1.258306

medias<-c(3.25,14.333,17.6,22,13.71429) desv<-c(1.258306,3.829708,2.073644,3,5.618846)

Prctica 6

10

Anlisis de Varianza Estabilizar la Varianza


CO 3321/22

lmedias<-log(medias) ldesv<-log(desv) mod<-lm(ldesv~lmedias) summary(mod)


Call: lm(formula = ldesv ~ lmedias) Residuals: 1 2 3 4 5 -0.1514 0.2292 -0.4856 -0.2264 0.6343

Coefficients: (Intercept) lmedias Estimate -0.2005 0.4935 Std. Error 0.8625 0.3352 t value -0.232 1.473 Pr(>|t|) 0.831 0.237

Residual standard error: 0.505 on 3 degrees of freedom Multiple R-Squared: 0.4195, Adjusted R-squared: 0.2261 F-statistic: 2.168 on 1 and 3 degrees of freedom, p-value: 0.2373 El coeficiente del logaritmo de las medias para cada nivel es:

E = 0.4935 } 0.5.

La transformacin que le corresponde a las observaciones es: P = 1-E = 1 - 0.5 = 0.5 Luego la transformacin para los datos es raz cuadrada. Prctica 6
11

Anlisis de Varianza Estabilizar la Varianza


CO 3321/22

ncontenido<-sqrt(contenido) resis.mod1<-aov(ncontenido~porcentaje) Para compara los residuos de los dos modelos simultneamente: par(mfrow=c(1,2)) plot(fitted.values(resis.mode1),rstandard(resis.mode1), xlab="Valores Ajustados", ylab="Residuos Estandarizados",pch=20) plot(fitted.values(resis.mod1),rstandard(resis.mod1), xlab="Valores Ajustados nuevos", ylab="Residuos Estandarizados nuevos",pch=20)

Residuos Estandari ados nuevos

Residuos Estandari ados

-1

-2

10 Val

15 ados

20

-2 2.0

-1

2 2.5 3.0 3.5 4.0 4.5 Valores Ajustados nuevos

La transformacin no modific los residuos, esto indica que la variabilidad se debe al tamao de la muestra en cada nivel.
12

Prctica 6

You might also like