You are on page 1of 16

Diseo Experimental

Prof.: Mara Rosa Chillemi


11
aleatorizado. Cuando los niveles se especficamente por el experimentador el modelo se llama
de EFECTOS FIJOS y las conclusiones slo se pueden aplicar a esos niveles.

Cuando hay demasiados tratamientos para comparar, se tomara una muestra de la poblacin
de tratamientos, de modo que
i
es una variable aleatoria con varianza
2
t
o que deber
estimarse a partir de los datos. No interesa estimar sus valores particulares sino su
variabilidad. Este modelo se conoce como de EFECTOS ALEATORIOS O COMPONENTES
DE VARIANZA. En este caso las conclusiones pueden generalizarse.

Por ahora se supone que la poblacin de tratamientos es pequea, por lo que estudiamos a
todos, es decir consideramos el modelo de efectos fijos.
El modelo n ,..., 1 = j k ,..., 1 = i + + = y
ij i ij

Para poder estudiar el efecto del tratamiento i se utiliza el anlisis de varianza.

ANOVA PARA EL DISEO COMPLETAMENTE AL AZAR (DC A)

El nombre de anlisis de varianza (ANOVA) viene del hecho de que se utilizan cocientes de
varianzas para probar la hiptesis de igualdad de medias.
La idea general de esta tcnica es separar la variacin total en las partes asociadas a cada
fuente de variacin.

Notacin:
= Y
i
Medias de las observaciones del i simo tratamiento
= Y

Media Total

i
i
n
1 = j
i j
i
n
Y
= Y

k /
n
Y
= Y
k
1 = i
i
i
n
1 = j
ij


Objetivo:

H
o
:
1
=
2
= =
k
=
H
1
: i j para algn i j

O tambin:

H
o
:
1
=
2
= =
k
=0
H
1
: i 0 para algn i

Para probar H
o
, se descompone la variabilidad total en dos componentes debido a
tratamientos y debido al error aleatorio.
La variabilidad total es la suma de cuadrados:

( )
-

-
k
1 = i
i
n
1 = j
2

2
ij
2
k
1 = i
i
n
1 = j
ij T
Y N Y = Y Y = SC

k
1 = i
i
n = N
Sumamos y restamos
i
Y
Y

1

1




T
1

Diseo Experimental
Prof.: Mara Rosa Chillemi
12
( )
2
k
1 = i
i
n
1 = j
i i ij T
Y Y + Y Y = SC

- -
Desarrollando el cuadrado y teniendo en cuenta que el doble producto se anula, se obtiene:
( ) ( )
2
k
1 = i
i
n
1 = j
i ij
2
k
1 = i
i
n
1 = j
i i T
Y Y + Y Y n = SC

-

-
O sea, la variabilidad total, medida por la suma total de cuadrados puede descomponerse en la
suma de cuadrados de las diferencias entre los promedios de los tratamientos y el promedio
general y en la suma de cuadrados de las diferencias entre las observaciones dentro del
tratamiento y el promedio del mismo:
SC
T
= SC
Tratamiento
+SC
error

Los grados de libertad de SC
T,
que estima la variabilidad total

es N-1;
Los grados de libertad de SC
tratamiento
, que estima la variabilidad entre niveles, es k 1
Los grados de libertad de la de SC
error
, que estima el error experimental, es k n
k
1 = i
i
-


Los cuadrados medios (varianzas) son:
k N
SC
= CM
1 k
SC
= CM
error
error
tratamento
o tratamient
- -

Se prueba matemticamente que
2
error
= ) CM ( E ;
k -

N
n
+ = ) CM ( E
k
1 = i
2
i i
2
Tratamento

Se puede apreciar que cuando H
o
es cierto (no hay efectos, i =0) ambos cuadrados medios
estiman a
2
o
Suponiendo que
i j
~ ) , 0 ( NI
2
; luego
i j
y ~ ) ; + ( N
2
i

Con estas suposiciones se puede demostrar que las variables
2 2
nto SCtratamie
y
SCE

son variables
aleatorias con distribucin:
2
k
1 = i
i
2
)
y - y
( n =
SCE


~
k (
2

-1)
grados de libertad, si Ho : 0 =
i
es cierta
2
. SCt

~
N (
2

-k)

Adems
2

SST
~
N (
2

-1)


Luego para probar Ho, se utiliza el estadstico
Error
o Tratamient
0
CM
CM
= F ya que SC
Error
y SC
Tratamiento
son
independientes y
2
Error
SC

~ ( ) k N
2
_ ;
2
o Tratamient
SC

~ ( ) 1
2
k _ . Luego, F
0
~ F( (k-1), (N-k) )

Si F
0
es grande, hay efectos de tratamientos. As para o fijo se rechaza H
0
si:

) ( ) ; 1 (
0 0
F F P value P donde value P si o k N k F F > = < > o
o


Toda la informacin necesaria para calcular F
o
hasta llegar al valor P se escribe en la tabla ANOVA
para el diseo completamente aleatorizado.

Diseo Experimental
Prof.: Mara Rosa Chillemi
13
ANOVA
Fuente de
variacin
Suma de cuadrados Grados de
libertad
Cuadrado medio F
0
P-value
Tratamientos
N
Y
n
Y
SC
k
i
i
i
Trat
2
1
2
- -
=
-
=


k-1
1
=
k
SC
CM
Tratr
Trat

Error
Trat
CM
CM

P(F>F
0
)
Error
Trat T Error
SC SC SC =
N-k
k N
SC
CM
Errorr
Error

=

Total
N
Y
Y SC
k
i
n
j
ij Total
i
2
1 1
2 - -
= =
=


N-1
Donde

=
- -
k
i
n
j
ij
i
Y Y y

=
-
ii
n
j
ij i
Y Y
El ANOVA supone que la variable respuesta Y
ij
~ ) , (
2
o N con
2
o constante y Y
ij
son
independientes. Estos supuestos deben verificarse para estar seguro que las conclusiones son
vlidas.

ESTIMACION DE PARAMETROS DEL MODELO

Consideremos el mtodo de mnimos cuadrados para estimar los parmetros del modelo:
n ,..., 1 = j k ,..., 1 = i + + = y
ij i ij

Sea = = L
k
1 = i
n
1 = j
2
ij
( )
2
k
1 i
i
- -
=
n
1 = j
ij
y
Los valores apropiados son las soluciones de las k+1 ecuaciones:
i
, tales que:
0 = : n restricci la con 0 =
L
= =
L
; 0 =
L
k
1 = i
i
k 1



Las soluciones son:
i i
Y Y =

Y =


Se pueden usar los siguientes intervalos para estudiar la diferencia entre tratamientos:
n
CME 2
t Y Y :
) k N ( 2 j i J I

Para el i-simo nivel:
n
CME
t Y :
) k N ( 2 i I

Para considerar las diferencias entre todas las medias , no de a pares en forma independientes,
es necesario estudiar alguna tcnica de intervalos mltiples. El anlisis de varianza nos indica si
hay diferencia significativa entre tratamientos pero no identifica cul es el nivel ( o tratamiento)
diferente. Algunos procedimientos a tal fin son: Scheff, Tukey, Duncan.

Ejemplo:
Un fabricante de calzado desea mejorar la calidad de las suelas, las cuales pueden hacerse con
4 tipos de cuero A, B, C, D disponibles en el mercado.
La prueba consiste en hacer pasar los zapatos por una superficie abrasiva y se mide el desgaste
(prdida de peso luego de un nmero fijo de ciclos). Se prueban en orden aleatorio 24 zapatos,
6 de cada tipo de cuero. Al aleatorizar se evitan los sesgos y las mediciones resultan
independientes. Los datos (en miligramos) son:
Diseo Experimental
Prof.: Mara Rosa Chillemi
14


La pregunta es: Existe diferencia en el desgaste medio entre los 4 tipos de cuero?
Las Hiptesis son:
H
0
:
A
=
B
=
C
=
D
=
H1:
i

i
para algn ij
ANOVA
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrado medio F
0
P-value
Tratamientos 7072.33 3 2357.44 23.24 0.000
Error 2029.0 20 101.45
Total 9101.33 23

Conclusin: Como p-value <0.05, se rechaza H
0
, luego al menos un par de cueros tienen un
desgaste medio diferente.
La pregunta es ahora: Cuntos tipos de cueros son diferentes entre si?. Para responder se
utiliza algn mtodo de los conocidos como Mtodos de comparaciones mltiples.
Tambin es conveniente ayudarse con el uso de grficos de medias, diagramas de caja.

COMPARACION DE RANGO MULTIPLES:

Cuando H
0
se acepta, el objetivo del experimento est cubierto y la conclusin es que los
tratamientos son iguales. Si H
0
se rechaza se hace necesario averiguar cul tratamiento da una
respuesta significativamente diferente. Hay varios mtodos algunos con mayor potencia.

METODO DE TUKEY:
Este mtodo compara diferencias entre pares de medias muestrales con el valor crtico:
( )
-
=
i
Y
S k N k q T ,
o o
con
n
CM
= S
Error
Y
i

El estadstico ( ) k N k q ,
o
son puntos porcentuales de la distribucin de rango studentizado.
Se declaran significativamente diferentes los pares de medias cuyas diferencias en valor
absoluto sea mayor que
o
T . Si
o
T
j i
> ; los tratamientos son significativamente
diferentes.

METODO DE DUNCAN:
Si las k muestras tienen igual tamao, se acomodan los k promedios en orden ascendente:
) k ( ) 2 ( ) 1 (
Y Y Y y el error estndar de cada media se estima con
n
CM
= S
Error
Y
i
.
Diseo Experimental
Prof.: Mara Rosa Chillemi
15
Si alguna o todas las muestras son de tamao diferente se reemplaza n por:

k
1 = i i
armnica
n
1
k
= n
De la tabla correspondiente a Duncan, se obtienen los valores ) , ( l p r
o
donde p= 2, 3, 4,, k
es el rango entre el orden de las medias y l es el grado de libertad del error: l =(N- k).
Luego se obtienen los rangos de diferencias mnimas: ( ) k p S l p r R
i
Y
p
,..., 3 , 2 , , = =
-
o

Las diferencias observadas entre las medias se comparan con los rangos R
p,
de la siguiente
manera:
- 1 Se compara la diferencia entre la media ms grande con la ms pequea con R
k
.
- 2 Se compara la diferencia entre la 2
da
media ms grande y la media menor con R
k-1
.
As sucesivamente hasta comparar diferencia entre dos medias sucesivas y R
2
. Se considera
significativa la diferencia mayor que el rango respectivo. Cuando la diferencia observada supera a
R
p
, se dice que hay diferencia significativa entre stas.

Ejemplo. En el problema de los tipos de cuero:
CM
Error
= 101.45
n
CM
S
Error
Y
i
=
-
=
6
45 . 101
= 4.11
Para o =0.05 ; N-k= 24-6=18 gl. Se leen los rangos:
21 . 3 ) 18 , 4 ( 12 . 3 ) 18 , 3 ( 97 . 2 ) 18 , 2 (
05 . 0 05 . 0 05 . 0
= = = r r r
Con esta informacin se obtienen los rangos mnimos significativos:
21 . 12 11 . 4 97 . 2 ) 18 , 2 (
05 . 0 2
= = =
-
x S r R
i
Y

82 . 12 11 . 4 11 . 3 ) 18 , 3 (
05 . 0 3
= = =
-
x S r R
i
Y

19 . 13 11 . 4 21 . 3 ) 18 , 4 (
05 . 0 4
= = =
-
x S r R
i
Y

Las medias se ordenan en forma ascendente:
8 . 209
2
= =
- B
Y 7 . 220
4
= =
- D
Y 8 . 230
3
= =
- C
Y 7 . 256
1
= =
- A
Y
Diferencia
poblacional
Diferencia muestral
comparada con Rp
Decisin
sobre diferencias
B A

256.7-209.8=46.9>13.9=R4 Significativa
D A

256.7-220.7=36 >12.82=R3 Significativa
C A

230.8-209.8=25.9 >12.21=R2 Significativa
B C

230.8-209.8=21 >12.82=R3 Significativa
D C

230.8-220.7=10.1 <12.21=R2 No Significativa
B D

220.7-209.8=10.9 <12.21=R2 No Significativa

De la tabla se concluye que
B
,
D
no tienen diferencias significativas,
C
con
D
no tienen
diferencias significativas.
A
es distinta a todos los dems promedios.

MODELOS DE EFECTOS ALEATORIOS

Cuando los niveles han sido extrados aleatoriamente de una poblacin, el modelo estadstico
lineal es:
2 2
ij j i j
+ )= Var(Y con = Y

+ + donde ) , 0 ( NI ~ y aleatorio es
2
i i

Diseo Experimental
Prof.: Mara Rosa Chillemi
16
2 2

y
i
se conocen con el nombre de COMPONENTES DE VARIANZA y EL MODELO
ij i ij
+ + = y DE COMPONENTES DE VARIANZA O EFECTOS ALEATORIOS.
El anlisis de varianza es el mismo que en el caso de efectos fijos, con la diferencia en sus hiptesis.
En este caso es conveniente probar: 0 > : H 0 = : Ho
2
1
2


Si Ho es aceptada, todos los niveles son idnticos. Si se rechaza, hay variacin significativa entre
niveles, las conclusiones se pueden aplicar a toda la poblacin.

Los estimadores de componentes de varianza son:
n
CMError ntos CMtratamie
=

CMError =

2

Ejemplo: Se desea comparar las productividades de cuatro plantas industriales Pa; Pb; Pc; Pd
seleccionadas aleatoriamente entre todas las emplazadas en cierta regin

Datos: Y: productividad( un factor, efectos fijos, datos codificados)

observaciones
Niveles Pa Pb Pc Pd
103 109 104 128
115 106 98 117
101 116 117 121
105 124 99 130
i
Y
106 113.75 104.5 124
i
S


6.22 8.02 8.47 6.06
34 . 10 = S

06 . 112 = Y
y

Tabla ANOVA:
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrado medio F
0
P-value
Tratamientos 957 3 319 5.91 0.01
Error 648 12 54
Total 1605 15 107
Luego, como P=0,01 podemos afirmar que hay diferencia significativa en la variacin entre las
plantas.

Cuando se usan paquetes estadsticos especficos para el diseo experimental y se plantea un
problema de efectos aleatorios, la salida de la tabla es la siguiente:

ANOVA
Fuente Suma de Cuadrados Gl Cuadrado Medio Comp. Var. Porcentaje
TOTAL 1605 15
Tratamientos 957 3 319 66,25 55,11
Error 648 12 54 54 44,89

Donde los componentes de varianzas son:
25 , 66 =
4
54 319
=
n
CMError ntos CMtratamie
= 54 = CMError =
2 2



Conclusin: El 55 % de la variacin observada se debe a los tratamientos (plantas) y el 45 % al error
experimental.

Diseo Experimental
Prof.: Mara Rosa Chillemi
17
VERIFICACIN DE LOS SUPUESTOS DEL MODELO:

La validez de los resultados mediante un ANOVA queda supeditado a los supuestos del modelo.
Estos son:

Normalidad
ij
Y ~ ) , ( N
2
i

Varianza constante (igual varianza de los tratamientos)
Independencia, es decir
ij
Y ~ ) , ( NI
2
i

Estos supuestos traducidos en los supuestos de los errores
i j
son: ) , 0 ( NI ~
2
i ij

El modelo para los DCA es
ij i ij
+ + = Y
Para modelos de efectos fijos:
1-
i j
~ ) , 0 ( N
2

2-
i j
son independientes
3- la varianza
2
o es constante

Para modelos de efectos aleatorios:
1-
i j
~ ) , 0 ( N
2

2-
i j
son independientes
3-
i
~ ) , 0 ( N
2


4-
i

ij
y independientes
Para estudiar los supuestos se analizan los residuos. Las suposiciones para los
i j
e son:
La estimacin del modelo es:
( )
i i ij
Y Y + Y = + = Y


El error aleatorio estimado
i j
e =
i j

es
i ij ij ij ij
Y Y = Y

Y = e

Los supuestos pueden comprobarse con mtodos grficos y analticos. Se recomiendan las pruebas
grficas dado que se pueden aplicar razonablemente con pocos datos, y a pesar que no son
exactas proporcionan la evidencia suficiente a favor o en contra de los supuestos.
Con las pruebas analticas existe el inconveniente que stas pierden potencia al trabajar con pocos
datos.
Es mejor prevenir en lo posible que los supuestos no se violen, aplicando los tres principios
bsicos del diseo de experimentos: repeticin, aleatorizacin y bloqueo.

Suposicin de Normalidad:
Una forma de comprobar esta suposicin es hacer un histograma de los residuos.
Si
i j
~ ) , 0 ( I N
2
, la grfica de los
i j
e debe ser semejante a la de una muestra extrada de una
poblacin normal centrada en 0. Cuando se trabaja con pocos datos, ocurren fluctuaciones
considerables por lo que una desviacin moderada aparente de la normalidad no necesariamente
implica una violacin al supuesto. Otro procedimiento muy til es el grfico de Probabilidad
Normal con los residuos, el cual se encuentra en casi todos los paquetes estadsticos. Esta grfica
de tipo X-Y tiene las escalas de manera que si los residuos siguen una distribucin normal, al
graficarlos deben tender a estar sobre en una lnea recta , si claramente no se alinean, se concluye
que el supuesto no se cumple. Hay que aclarar que el ajuste de los puntos a una recta no tiene que
ser perfecto, ya que el anlisis de varianza resiste pequeas fluctuaciones al supuesto de
Diseo Experimental
Prof.: Mara Rosa Chillemi
18
normalidad. Para construir una grfica de probabilidad normal deben disponerse los residuos en
orden ascendente, es decir:
1- Ordenar los valores de menor a mayor y asignarles los rangos de 1 a N



2- Calcular su posicin de la siguiente forma:
( )
N ,..., 1 = i N / 5 . 0 i
3- La escala en las abscisas es lineal y en el eje y la escala es y= F(x) donde F(x) es la funcin
acumulada normal (escala logartmica). Sobre un papel semi-logartmico se grafica
( )
( )
) N / 5 . 0 i e (
i

4- Si los datos pueden alinearse, es evidencia que los datos siguen una ley normal.
(
i
-
0
,
5
)
/
n
e(i)
Grfico de Probabilidad Normal
0,97 1,07 1,17 1,27 1,37
0,1
1
5
20
50
80
95
99
99,9
(
i
-
0
,
5
)
/
n
e(i)
Grfico de Probabilidad Normal
0,9 0,92 0,94 0,96 0,98 1
0,1
1
5
20
50
80
95
99
99,9

HAY NORMALIDAD NO HAY NORMALIDAD

Existen varios procedimientos estadsticos formales para detectar residuos inusitados ( muy
alejados respecto de los dems) . Una manera informal para detectar residuos distanciados es
analizar los residuos estandarizados: ) 1 , 0 ( I N ~ d luego ) , 0 ( I N ~ e si
CME
e
= d
ij
2
ij
ij
ij

Esto significa que el 95% de los mismos deben estar entre (-2; 2) . Un residuo mayor en valor
absoluto que 3 es potencialmente un residuo inusual. Adems de la evaluacin visual basada en la
grfica de probabilidad normal, existen varios mtodos analticos para contrastar:
Ho: Hay normalidad versus H1: No hay normalidad
La siguiente prueba es para tal fin.

Prueba De Shapiro-Wilks Para Normalidad

H
0
: los datos siguen una ley normal, contra H
1
: los datos no proceden de una ley normal.
Para construir el estadstico, se ordenan los datos


De la tabla respectiva (de Shapiro) se obtienen los coeficientes a
1
,a
2
,,a
k
donde k es
aproximadamente n/2 (k n/2). se calcula el estadstico w.

( )
( )
2
1
) ( ) 1 (
2
1
1
(

=

=
+
k
i
i i n i
x x a
S n
=
Finalmente, si w > w
critico
. Se rechaza la normalidad de los datos.
Ejemplo: para los datos:
48,8 51,5 50,6 46,5 41,7 39,9 50,4 43,9 48,6 48,6

Residuo e e
(1)
e
(2)
e
(3)
e
(N)

Orden i 1 2 3 N
X
(1)
X
(2)
X
(3)
X
(N)

Diseo Experimental
Prof.: Mara Rosa Chillemi
19
K 1 2 3 4 5 6 7 8 9 10
Dato ordenado x(k) 39,9 41,7 43,9 46,5 48,6 48,6 48,8 50,4 50,6 51,5
Frecuencia acumulada
(k-0,5)/10
0,05 0,15 0,25 0,35 0,5 0,5 0,65 0,75 0,85 0,95
Grfico de Probabilidad Normal
39 42 45 48 51 54
Datos Combinados
0,1
1
5
20
50
80
95
99
99,9
p
o
r
c
e
n
t
a
j
e

El supuesto de normalidad parece cumplirse. Se realiza el test de Shapiro
La varianza S
2
es S
2
=15,72

( )
( )
2
) i ( ) 1 + i 10 (
5
1 = i
i 2
] [ X X a
S 1 10
1
= =

( )
896 , 0 =
26 , 11
72 , 15 x 9
1
= )] 6 , 48 6 , 48 ( 039 , 0 + ) 5 , 46 8 , 48 ( 1224 , 0 +
+ ) 9 , 43 4 , 50 ( 2141 , 0 + ) 7 , 41 6 , 50 ( 3291 , 0 + ) 9 , 39 5 , 51 ( 5739 , 0 [
72 , 15 x 9
1
=
2 2

Los valores a
i
se buscan en la tabla correspondiente, igual que 987 , 0 = ) 05 , 0 (
critico
.
Como < 0,987 luego, no rechaza la hiptesis que los datos provienen de una poblacin
normal.

Independencia:

Se verifica con el grfico residuos versus el orden en que se recolect el dato para detectar
correlacin entre ellos.. Si se detecta una tendencia o patrn no aleatorio entonces hay evidencia
que existe una correlacin entre los residuos y por lo tanto no se cumplira el supuesto de
independencia. Si se observan rachas con residuos positivos y negativos, indica una correlacin
positiva. La violacin de este supuesto indica deficiencias en la planificacin, aleatorizacin. Hay
que investigar y reconsiderar la situacin. Este problema es difcil de corregir por ello es
importante prevenir haciendo un procedimiento adecuado de aleatorizacin al recopilar los datos
Diseo Experimental
Prof.: Mara Rosa Chillemi
20
Grfico de Residuos
0 5 10 15 20 25
nmero de fila
-2,8
-1,8
-0,8
0,2
1,2
2,2
3,2
R
e
s
i
d
u
a
l

e
s
t
u
d
e
n
t
i
z
a
d
o
Nro de fila
Grfico de Residuos
0 1 2 3 4 5 6
-1,6
-0,6
0,4
1,4
2,4
R
e
d
i
d
u
o

E
s
t
u
d
e
n
t
i
z
a
d
o

POSIBLE FALTA DE INDEPENDENCIA INDEPENDENCIA
Una prueba analtica para verificar la independencia entre residuos consecutivos es la prueba de:

Test De Durbin-Watson Para La Independencia

Esta aprueba permite diagnosticar la presencia de autocorrelacin entre los residuos consecutivos.
Sean los residuos e
1
, e
2
,,e
N
, con Corr(e
i
, e
i-1
)= . Las hiptesis son:
H
0
: = 0 H
1
: > 0 ( es la ms frecuente)
El estadstico de prueba es:
( )

=
=

=
n
i
i
i
i i
e
e e
d
1
2
2
2
1
donde los e
i
son los residuos ordenados en el
tiempo( segn fueron obtenidos).

La decisin sobre H
0
consiste en la siguiente regla:

Si d < d
L
Se rechaza H
0

Si d > d
L
No se rechaza H
0
Si d
L
< d < d
U
Sin decisin.
d
L
, d
U
son cotas que se leen en las tablas correspondientes, para nmero de residuos n, o y
nmero de variables regresoras en el modelo: p
Nota: Si interesa H
1
: < 0 , se utiliza d=4-d

Varianza Constante:

Una forma grafica para probar la varianza constante, es graficar los predichos contra residuos
(
ij ij
e versus Y

). Si la grfica resulta ser una banda horizontal, sin patrn claro y contundente,
entonces es una seal que se cumple en el supuesto de homoscedasticidad (varianza constante). Si
presentan una forma de embudo, hay una seal de que no se esta cumpliendo el supuesto.
Otra grfica es la de: factor versus residuos. Se espera que la amplitud de la dispersin de los
puntos en cada nivel de factor tienda a ser similar. Si esto no ocurre puede ser seal de varianza
no constante.
Recordemos que:
( )
i i ij
Y Y + Y = + = Y



i j
e =
i j

es decir:
i ij ij ij ij
Y Y = Y

Y = e
En el grfico
ij ij
e versus Y

no debe aparecer patrn alguno. Un defecto que a veces revela el


grfico es la varianza variable. A veces los residuos aumentan a medida que y
ij
lo hace y la grfica
Diseo Experimental
Prof.: Mara Rosa Chillemi
21
de
ij ij
e versus Y

parecer un embudo que se ensancha. Esta varianza variable tambin se debe a la


falta de normalidad.
Grfico de Residuos
0 100 200 300 400 500
predicho g
-310
-110
90
290
490
r
e
s
i
d
u
a
l
Grfico de Residuos
0 5 10 15 20 25
predicho Col_3
-11
-7
-3
1
5
9
13
r
e
s
i
d
u
a
l

VIOLACIN DE LA SUPOSICIN VARIANZA CONSTANTE

El enfoque usual para tratar varianzas variables consiste en aplicar una transformacin a los datos
para igualarlas y volver a aplicar el anlisis de varianza a los datos transformados.
Algunas transformaciones usadas son:

Datos binomiales y
ij
La transformacin es
ij
'
ij
y arcsen = y
Datos Log-Normales y
ij
La transformacin es
ij
'
ij
y Ln = y
Datos de Poisson y
ij
La transformacin es
ij
'
ij
y = y

Otra grfica que ayuda a verificar este supuesto es el grfico de niveles de factor versus residuos.
en el eje X van los niveles del factor y en el eje y los residuos correspondientes a cada nivel. Si se
cumple la suposicin, la amplitud de la dispersin de los puntos en cada nivel tendr que ser
similar. Este grfico proporciona informacin con la obtenida en el ANOVA, para decidir sobre el
nivel que sea mejor.
1 2 3
residuos versus factor
-7
-4
-1
2
5
8
r
e
s
i
d
u
o
s
niveles
residuos versus factor
niveles
1 2 3
-1,9
-0,9
0,1
1,1
2,1
r
e
s
i
d
u
o
s

VIOLACIN DE LA SUPOSICIN VARIANZA CONSTANTE

Prueba De Bartlett Para Homogeneidad De Varianzas:
Se supone que los k niveles tiene datos y
ij
con distribucin NI (
i
,o
i
2
)
Las hiptesis son: H
0
:
2 2
k
2
1
= = ... = H
1
:
2
j
2
i
para algn ij
El estadstico de prueba es:
c
q
3026 . 2 =
2
0
donde ( )
2
10
1
2
10
log ) 1 ( log )
i
K
i
i p
S n S k N q

=
=
( ) ( ) |
.
|

\
|

+ =

=

k
i
i
k N n
k
c
1
1 1
1
) 1 ( 3
1
1 ,
( )

=
k
i
i i
p
k N
S n
S
1
2
2
1

Diseo Experimental
Prof.: Mara Rosa Chillemi
22
2
0
_ ~ ) 1 (
2
k _ Luego Ho se rechaza si
2
0
_ > ) 1 (
2
k
o
_
Esta prueba es sensible a la falta de normalidad, luego debe comprobarse tambin el cumplimiento
de este supuesto.

DISEOS EN BLOQUES COMPLETOS AL AZAR (DBCA)

Ahora se consideran tres fuentes de variacin: factor de tratamiento, factor de bloque y error
aleatorio. Es completo porque en cada bloque se prueban todos los tratamientos. La
aleatorizacin se hace dentro de cada bloque, ya que es imposible aleatorizar todo el experimento.
Los factores de bloque son generalmente. Turno, da, lote, operador, materia prima, etc.
En general una situacin experimental tiene k niveles y b bloques.
Ejemplo: Un ingeniero desea determinar si cuatro diferentes puntas producen una diferencia en las
lecturas de un equipo para medir dureza. La mquina funciona presionando la punta sobre una
probeta de metal y determinando la dureza de la probeta as partir de la profundidad de la marca
que produce. Se decide tomar 4 observaciones para cada punta. Hay un factor: punta don 4
niveles. El experimento se realiza completamente aleatorizado, o sea se asigna a cada uno de los
4x4= 16 ensayos un valor que indica el orden de obtencin de datos (se indica entre parntesis).
Se toman 4 probetas y se prueba cada punta, una vez en cada probeta. El factor bloque es la
probeta, con 4 niveles, que en la prctica se le llaman bloques. Los datos son:

Prueba de dureza
Respuesta y: dureza en escala C de Rockwell -40
Factor: Punta
Tratamientos
Bloque: Probeta 1 2 3 4
1 9,3 (1)

9,4(4)

9,6(3) 10,0(2)

2 9,4(4) 9,3(3) 9,8(2) 9,9(1)
3 9,2(3) 9,4(2) 9,5(1) 9,7(4)
4 9,7(2)

9,6(1)

10,0(4) 10,2(3)

En general, el diseo se presenta:
Tratamientos Medias Totales
Bloques 1 2 K
1 Y
11
Y
21
Y
k1
1 -
y
1 -
T
2

b Y
1b
Y
2b
Y
kb
b
y
-

b
T
-

Medias
- 1
y
- 2
y

- k
y
- -
y
- -
T
totales
- 1
T
- 2
T

- k
T

Modelo estadstico:
ij j i ij
Y c + + t + = con i=1,,k j=1,,b
Donde:

es la media global
t
i
es el efecto debido al nivel

j
es el efecto debido al bloque
c
ij
es el error experimental
La suma total de cuadrados puede expresarse como:
Diseo Experimental
Prof.: Mara Rosa Chillemi
23
( )
-

-
k
1 = i
i
n
1 = j
2

2
ij
2
k
1 = i
i
n
1 = j
ij T
Y N Y = Y Y = SC
Esta puede expresarse de la siguiente manera:
( ) ( ) ( ) | |
- - - - - - - - - -
+ + +
k
1
b
1
2
j i j
y y y y y - y y y
ij i

Desarrollando cuadrados y trabajando algebraicamente se llega a:
( ) = =
= =
- -
2
k
1 i
n
1 j
ij T
i
Y Y SC

- ( ) ( ) ( )
- - - - - - - - - -
+ + +
k
1
2
b
1
j i ij
2
b
1
j
2
k
1
i
y y y y y y k y y b
Simblicamente:
SC
T
=SC
niveles
+SC
bloques
+SC
error

Las hiptesis a probar son:

Hiptesis: H
0
: = = = =
k
...
2 1
H
0
: 0 ...
2 1
= = = =
k
t t t
H
1
:
j i
= para algn ij H
1
: 0 =
i
t para algn i

Estas se prueban mediante un anlisis de varianza con dos criterios de clasificacin: niveles y
bloques. Teniendo en cuenta que:
2
error
i
2
j
2
bloques
i
2
i
2
niveles
) CM ( E
1 b
k ) MC ( E
1 k
b ) MC ( E o =

+ o =

t
+ o =

entonces el
estadstico de prueba es:
( ) ( ) ( ) 1 b x 1 k ; 1 k
F F si
CM
CM
F
0
error
niveles
0

o
> = se rechaza Ho
El anlisis se resume en la tabla ANOVA para un diseo en bloques completamente al azar.

ANOVA
Fuente de
variacin
Suma de cuadrados Grados
de
libertad
Cuadrado medio F
0
P-value
Tratamientos
N
T
b
T
SC
2
k
1 i
2
i
Trat
- -
=
-
=


k-1
1 k
SC
CM
Tratr
Trat

=
Error
Trat
CM
CM

P(F>F
0
)
Bloques
N
T
b
T
SC
2
b
1 j
2
j
bloques
- -
=
-
=


b-1
1 b
SC
CM
bloques
bloques

=
Error
bloques
CM
CM

P(F>F
0
)
Error
bloques Trat T Error
CC SC SC SC =

(k-1)(b-1)
) 1 b )( 1 k (
SC
CM
Errorr
Error

=


Total
N
T
Y SC
2
b
1 i
k
1 j
2
ij Total
i
- -
= =
=


N-1

De la tabla podemos tambin contrastar el efecto de bloque.
H
0
: 0 ...
2 1
= = = =
b
H
1
: 0 =
j
para algn bloque j
Se debe tener en cuenta que no se aleatoriz por bloque. Si fuera de inters el estudio del factor
bloque al mismo tiempo que los niveles se debera correr el experimento aleatorizando
completamente el orden de las combinaciones posibles entre bloques y niveles. Si esto es as,
Diseo Experimental
Prof.: Mara Rosa Chillemi
24
conviene realizar un diseo factorial k x b. Otro supuesto del diseo por bloques al azar es que
NO EXISTE EL EFECTO DE INTERACCION (cuando los factores se interrelacionan, es decir,
cuando el efecto de uno depende del nivel del otro)
Si este efecto fuese significativo, la variabilidad de la interaccin se incorpora como parte del
error, lo que enmascara el efecto de los tratamientos.
La tabla ANOVA para el ejemplo es:
Fuente de variacin Suma de cuadrados Grados de libertad Cuadrado medio F
0
P-value
Tratamientos 0,825 3 0.275 34,375 0.0000
Bloques 0,385 3 0.128 16 0.0005
Error 0,08 9 0.008
Total 1,29 15
De la tabla se concluye que hay diferencia significativa entre los niveles (puntas) y tambin entre
los bloques (probetas).
En este tipo de diseos tambin es necesario estudiar la validez de los supuestos.

Aditividad en el modelo aleatorizado por bloques
El modelo
ij j i ij
Y c + + t + = es completamente aditivo, esto implica que si el primer nivel
produce que la respuesta esperada aumente, por ejemplo en cinco unidades (t
1
=5) y si el primer
bloque incrementa la respuesta esperada en 2 unidades (
1
=2) entonces la respuesta esperada es:
E(y
11
)=+5+2= +7
En general el nivel 1 aumenta la respuesta esperada en 5 unidades sobre la suma de la media
general y el efecto de bloque
A veces el modelo no es til, ya que no mide la accin conjunta del nivel y bloque, es decir la
interaccin. En estos modelos La variabilidad debida a la interaccin se incorpora como parte del
error, que al ser artificialmente grande enmascara el efecto de los niveles.

DISEO DE CUADRADO LATINO (DCL)

En este diseo hay cuatro fuentes de variacin que pueden afectar la respuesta observada:
tratamientos (combinacin de filas y columnas), bloque I (columnas); bloque II (filas) y error
aleatorio. Se llama cuadrado latino por dos razones:
1) Es un cuadrado donde se tiene la restriccin adicional que los tres factores se prueban
con la misma cantidad de niveles
2) Es latino porque se utilizan letras latinas para denotar a los tratamientos o niveles del
factor de inters.
La tabla de datos es de la forma:
Cuadrado latino
Bloques II(columnas)
Bloques I (filas) 1 2 K
1 A=y
111
B=y
221


K=y
kk1
2 B=y
212
C=y
322
A=y
1k2

K K=y
k1k
A=y
12k
J=y
jkk

II bloque del nivel el kes


I bloque del nivel el es j
ers int de factor del nivel el es i
y
ijk

Por ejemplo, y
123
es la respuesta del tratamiento 1, en el segundo nivel del factor columna y el
tercer nivel del factor fila. Un modelo de cuadrado latino es:

Diseo Experimental
Prof.: Mara Rosa Chillemi
25
4x4
A B D C
B C A D
C D B A
D A C B
El arreglo tiene la restriccin que la letra debe aparecer una vez en la columna y fila
correspondiente. El arreglo estndar para un 4x4 es:
4x4
A B C D
D A B C
C D A B
B C D A
El diseo de cuadrado latino se usa para eliminar dos fuentes de variacin problemticas, o sea
permite analizar sistemticamente por bloques en dos direcciones. Sin embargo este diseo los
renglones y columnas representan en realidad dos restricciones a la aleatorizacin
Anlisis del Diseo:
El modelo estadstico es:
ijkl k j i ijkl
y c + o + + t + = i,j,k=1,,K l es la rplica si hubiere

es la media global
t
i
es el efecto debido al tratamiento

j
es el efecto debido a la fila
o
k
es el efecto debido a la columna
c
ijk
es el error experimental
El modelo es completamente aditivo
La variabilidad total se descompone en:
error ) columna ( 2 B ) fila ( 1 B trat
SC SC SC SC SCT + + + =
Los grados de Libertad correspondientes son: k
2
-1 = (k-1)+(k-1)+(k-1)+[(k
2
-1)-(k-1)-(k-1)-(k-1)]
k
2
-1 = 3(k-1)+ (k-1)(k-2)
Bajo la suposicin usual que c
ijk
~NI(0,
2
) cada una de las sumas de cuadrados de la ecuacin:
error ) columna ( 2 B ) fila ( 1 B trat
SC SC SC SC SCT + + + = al dividir por
2
son variables aleatorias
independientes con distribucin chi-cuadrado.
El ANOVA para el diseo se utiliza para probar la hiptesis que los tratamientos no tienen efecto
y tambin que los efectos de los factores fila y columna son nulos.
La hiptesis fundamental es sobre los tratamientos, las otras dos proporcionan un adicional al
objetivo inicial y permiten comprobar la relevancia de controlar los factores de bloque.
ANOVA
Fuente de variacin Suma de cuadrados Grados de libertad Cuadrado medio F
0
P-value
Tratamientos
Trat
SC
k-1
1
=
k
SC
CM
Trat
Trat

Error
Trat
CM
CM

P(F>F
0
)
filas
1 B
SC
k-1
1
1
1

=
k
SC
CM
B
B

Error
B
CM
CM
1

P(F>F
0
)
columnas
2 B
SC
k-1
1
2
2

=
k
SC
CM
B
B

Error
B
CM
CM
2

P(F>F
0
)
Error
Error
SC
(k-1)(k-1)
) 1 )( 1 (
=
k k
SC
CM
Errorr
Error


Total
Total
SC
K
2
-1

Diseo Experimental
Prof.: Mara Rosa Chillemi
26
Al interpretar los resultados, se pueden realizar los grficos, pruebas de comparaciones mltiples
si son necesarios y tambin el anlisis de diagnstico del modelo.
Se debe tener en cuenta que no cualquier arreglo de letras latinas en forma de cuadro es cuadro
latino. La regla fundamental es que cada letra debe parecer solo una vez en cada rengln y en cada
columna.

Ejemplo: Se probaron 5 modelos de teclados (tratamientos) en un diseo de cuadrado latino en el
que los factores de bloque son: operador y trabajo. Se seleccionaron 5 operadores al azar de un
grupo con capacidad parecida. Se seleccionaron 5 trabajos. Cada uno tena 4000 caracteres. El
rendimiento fue la respuesta y
ijk
: cantidad de errores que se encontraron con el i simo teclado, j
simo operador, ksimo trabajo. Los datos con el diseo son:

TRABAJO
OPERADOR
1 A20 B18 C19 D27 E21
2 B65 C37 D21 E30 A32
3 C30 D42 E40 A31 B40
4 D21 E20 A28 B45 C29
5 E42 A60 B60 C27 D62

Resultados:

Fuente
de variacin
Suma
de cuadrados
Grados
de libertad
Cuadrado
medio
F
0
P-value
Tratamientos 877,64 4 219,46 1,57 0,2457
filas 2370,24 4 592,56 4,23 0,023
columnas 71,04 4 17,76 0,13 0,9698
Error 1680,32 12 140,027
Total 4999,44 24


El operador (factor bloque) result significativo. Realizando la prueba Duncan los operadores
diferentes fueron: 1 y 4 con el operador 5. Se debe ahora analizar la validez de los supuestos.

Para la seleccin y aleatorizacin es conveniente:

A B C D
B C D A
C D A B
D A B C


1. Construir el cuadrado latino estndar.
2. Aleatorizar el orden de los renglones.
3. Los tratamientos a comparar deben asignarse en forma aleatoria a las letras latinas.

You might also like