You are on page 1of 51

Tema 2

Anlisis de la varianza multifactorial


Tratamos de explicar el comportamiento de una variable aleatoria
(variable respuesta) debido a la influencia de varios factores
(variables explicativas)

Definicin de la variable a explicar

Definicin de los distintos factores que pueden influir en la


respuesta y, en cada uno de ellos, sus distintos niveles o grupos.

Estudiaremos tres casos:


1.
2.
3.

Dos factores (diseo por bloques)


Dos factores con interaccin
Tres factores (Cuadrados latinos)

Estadstica, 3 de Ciencias Ambientales

Curso 2007-2008

Anlisis de la varianza con dos factores


Diseo por bloques
Modelo:
Yij = + i + j + U

i =1, 2,,I j = 1,2,...,J

Yij representa la respuesta de la variable en el i-simo nivel del factor 1 () y

en el j-simo nivel del factor 2 ().


ij = E(Yij ) = + i + j es el valor medio de Yij
i representa el efecto que sobre la media global tiene del nivel i del factor 1
j representa el efecto que sobre la media global tiene del nivel j del factor 2
U es la variacin aleatoria de las Yij (igual para todas ellas)
) lo que implica que Yij
Supondremos que U sigue una distribucin N(0,
sigue una distribucin N(
ij ,
)

Muestra aleatoria (una observacin por casilla)

Factor 1 ()

Factor 2 ()
Niveles

...

...

Medias
por filas

Y11

Y12

...

...

Y1J

Y1.

Y21

Y22

...

...

Y2J

Y2.

...

...

...

...

...

...

...

YI1

YI2

...

...

YIJ

YI.

Medias por
columnas

Y.1

Y.2

...

...

Y.J

Y..

Datos (un ejemplo)


Se desea estudiar la eficiencia (en cuanto a menor emisin de
CO2) de 5 mquinas desaladoras. Se piensa que la cantidad de
sal en el agua puede influir en dicha eficiencia.
Factor 1: distintas mquinas (I=5)
Factor 2: nivel de sal (J=3)

Anlisis estadstico:
Estimacin de los parmetros desconocidos
Parmetros desconocidos del modelo (I + J) :
, 1 , ... , I , 1 ,..., J ,
Estimaciones de los parmetros:

Anlisis estadstico: ANOVA

Se cumple que:
SCE(
()
()
( + SCE(
( + SCR = SCT

SCE(
) Suma de cuadrados explicada (variabilidad debida a que hay
distintos niveles del factor 1)
SCE(
) Suma de cuadrados explicada (variabilidad debida a que hay
distintos niveles del factor 2)
SCR Suma de cuadrados residual (variabilidad no debida a los
factores)
SCT Suma de cuadrados total (variabilidad total de todos los datos)

Anlisis estadstico: ANOVA


(Contrastes del efecto de cada factor)
El factor 1
no influye

Estadstico de contraste
El factor 2
no influye

Estadstico de contraste

Anlisis estadstico: ANOVA


(Tabla)

Con los datos del ejemplo anterior:

En cuanto a las emisiones de CO2 las 5 mquinas no son iguales (p-valor 0.0026)
y tambin influye la cantidad de sal (p-valor 0.0001).
Y si no hubiramos tenido en cuenta el factor cantidad de sal ?

En el ejemplo R2 x 100 = 93.3 = 36.2 (mquinas) + 57.1 (sal)

Anlisis posteriores al rechazo de H0


H0 : No hay diferencia entre los niveles i, j del factor 1
Con nivel de significacin rechazamos H0 si el cero no est
en el siguiente intervalo de confianza:

H0 : No hay diferencia entre los niveles i, j del factor 2


Con nivel de significacin rechazamos H0 si el cero no
est en el siguiente intervalo de confianza:

Comparaciones mltiples:
Pruebas Post hoc: Test de Bonferroni
Al igual que en el anlisis de la varianza con un factor podemos hacer
pruebas simultneas entre todas las posibles parejas de niveles en
cada factor. Por ejemplo utilizando el Test de Bonferroni.
En el ejemplo:

Anlisis de la varianza con dos factores


e interaccin
Modelo:
Yij = + i + j + (
)
ij + U

i =1, 2,,I j = 1,2,...,J

Yij representa la respuesta de la variable en el i-simo nivel del factor 1 () y


en el j-simo nivel del factor 2 ().

ij = E(Yij ) = + i + j + (
)
ij es el valor medio de Yij
i representa el efecto que sobre la media global tiene del nivel i del factor 1
j representa el efecto que sobre la media global tiene del nivel j del factor 2
(
)
ij representa el efecto de la interaccin entre el nivel i del factor 1 y el
nivel j del factor 2
U es la variacin aleatoria de las Yij (igual para todas ellas)
Supondremos que U sigue una distribucin N(0,
) lo que implica que Yij
sigue una distribucin N(
ij ,
)

Muestra aleatoria (nij observaciones en la casilla i,j)

Factor 1 ()

Factor 2 ()
Niveles

Y111
....
Y11n11

Y121
....
Y12n12

...
...

...

Medias
por filas

...

Y1J1
....
Y1Jn1J

Y1..

...

...

...
YI..
Y...

Yijk
...

...

...

...

YI11
....
YI1nI1

YI21
....
YI2nI2

...

...

YIJ1
....
YIJnIJ

Medias por
columnas

Y.1.

Y.2.

...

...

Y.J.

En un diseo equilibrado todas las casillas tendrn


el mismo nmero de datos (K)
nij = K para todo i,j

Ejemplo 1

Eysenck (1974)

En un estudio sobre memoria verbal se seleccionaron al azar 50 personas


mayores y 50 jvenes (factor 1: edad). Dentro de cada uno de estos grupos se
asignaron, al azar, 10 personas a 5 distintos grupos a los que se les present una
misma lista de 27 palabras. A cada uno de los 5 grupos se les dieron las
siguientes instrucciones (factor 2: mtodo)
Grupo 1 (contar): se les pidi que contasen el n de letras de cada palabra
Grupo 2 (rimar): se les pidi que rimasen cada palabra con otra
Grupo 3 (adjetivar): se les pidi que a cada palabra le asignasen un adjetivo
Grupo 4 (imaginar): se les pidi que a cada palabra le asignasen una imagen
Grupo 5 (recordar): se les pidi que memorizasen las palabras.
A los 4 primeros grupos no se les dijo que deberan recordar las palabras.
Finalmente, tras revisar la lista 3 veces, se recogi el n de palabras recordadas
por cada grupo (variable respuesta).

Datos

I=2, J=5, K=10


Contar

Mayores

Factor 1
Edad

Jvenes

Factor 2 Mtodo
Rimar Adjetivar Imaginar Recordar

11

12

10

13

11

19

16

14

11

10

14

10

11

11

23

11

13

12

14

13

10

15

10

19

11

11

11

11

10

14

20

21

11

16

19

18

16

17

10

14

15

15

13

18

22

22

16

16

10

17

20

22

16

22

22

12

14

18

11

19

21

Anlisis estadstico:
Estimacin de los parmetros desconocidos
Parmetros desconocidos del modelo (IJ + 1) :
, 1 , ... , I , 1 ,..., J , (
)
)
)11 ,..., (
IJ ,
Estimaciones de los parmetros:

Anlisis estadstico: ANOVA


Se cumple que:
SCE(
) +
SCE(
) +
SCE(
)
+
SCR = SCT

SCE(
) Suma de cuadrados explicada (variabilidad debida a que hay
distintos niveles del factor 1)
SCE(
) Suma de cuadrados explicada (variabilidad debida a que hay
distintos niveles del factor 2)
SCE (
)
Suma de cuadrados esplicada (variabilidad debida a las
interacciones)
SCR Suma de cuadrados residual (variabilidad no debida a los
factores)
SCT Suma de cuadrados total (variabilidad total de todos los datos)

Anlisis estadstico: ANOVA


(Contrastes del efecto de cada factor)
El factor 1
no influye

El factor 2
no influye

No hay interacciones
Estadsticos de contraste

Anlisis estadstico: Tabla ANOVA

Recordemos que siempre deben cumplirse los


siguientes requisitos previos
1. Normalidad: los datos obtenidos en cada nivel de los factores se ajustan
razonablemente a una distribucin Normal (grficos y contrastes)

Yij sigue una distribucin N(


ij ,
) para cada i,j
2. Homocedasticidad: la variabilidad de los datos en cada nivel de los
factores es similar (contraste de igualdad de varianzas)

2 = Var (Yij) igual para todo i,j


3. Linealidad: los residuos (diferencia de los datos a su media, en cada
nivel de los factores) se distribuyen alrededor del cero

E(U) = 0
4. Independencia: las observaciones se realizan de forma independiente
unas de otras (diseo de la obtencin de datos)
SI HAY DESVIACIONES SIGNIFICATIVAS SOBRE ESTOS REQUISITOS
LOS RESULTADOS POSTERIORES PUEDEN SER INCORRECTOS

Ejemplos
con Excel y SPSS

Ejemplo 1 Eysenck (1974)


Estadsticos descriptivos
Variable dependiente: palabras recordadas
edad
mayores

jvenes

Total

mtodo
contar
rimar
adjetivar
imaginar
recordar
Total
contar
rimar
adjetivar
imaginar
recordar
Total
contar
rimar
adjetivar
imaginar
recordar
Total

Media
7,00
6,90
11,00
13,40
12,00
10,06
6,50
7,60
14,80
17,60
19,30
13,16
6,75
7,25
12,90
15,50
15,65
11,61

Desv. tp.
1,826
2,132
2,494
4,502
3,742
4,007
1,434
1,955
3,490
2,591
2,669
5,787
1,618
2,023
3,538
4,174
4,902
5,191

N
10
10
10
10
10
50
10
10
10
10
10
50
20
20
20
20
20
100

a
Contraste de Levene sobre la igualdad de las varianzas error

Variable dependiente: palabras recordadas


F
1,498

gl1

gl2
9

90

Significacin
,161

Contrasta la hiptesis nula de que la varianza error de la


variable dependiente es igual a lo largo de todos los grupos.
a. Diseo: Intercept+edad+mtodo

Contraste de Levene sobre la igualdad de las varianzas errora


Variable dependiente: palabras recordadas
F
2,341

gl1

gl2
9

90

Significacin
,020

Contrasta la hiptesis nula de que la varianza error de la


variable dependiente es igual a lo largo de todos los grupos.
a. Diseo: Intercept+edad+mtodo+edad * mtodo

Excel

ANLISIS DE VARIANZA
Origen de
las
Suma de
variaciones cuadrados
Edad
240,25
Mtodo
1514,94
Interaccin
190,3
Error
722,3

g.l.
1
4
4
90

Total

99

2667,79

Promedio de
los
cuadrados
240,25
378,74
47,58
8,03

p-valor
29,94 3,9814E-07
47,19 2,5301E-21
5,93 0,00027927

Pruebas de los efectos inter-sujetos


Variable dependiente: palabras recordadas

SPSS

Fuente
Modelo corregido
Interseccin
edad
mtodo
edad * mtodo
Error
Total
Total corregida

Suma de
cuadrados
tipo III
1945,490a
13479,210
240,250
1514,940
190,300
722,300
16147,000
2667,790

gl
9
1
1
4
4
90
100
99

Media
cuadrtica
216,166
13479,210
240,250
378,735
47,575
8,026

a. R cuadrado = ,729 (R cuadrado corregida = ,702)

F
26,935
1679,536
29,936
47,191
5,928

Significacin
,000
,000
,000
,000
,000

Comparaciones mltiples
Variable dependiente: palabras recordadas
Bonferroni

(I) mtodo
contar

rimar

adjetivar

imaginar

recordar

(J) mtodo
rimar
adjetivar
imaginar
recordar
contar
adjetivar
imaginar
recordar
contar
rimar
imaginar
recordar
contar
rimar
adjetivar
recordar
contar
rimar
adjetivar
imaginar

Diferencia
entre
medias (I-J)
-,50
-6,15*
-8,75*
-8,90*
,50
-5,65*
-8,25*
-8,40*
6,15*
5,65*
-2,60*
-2,75*
8,75*
8,25*
2,60*
-,15
8,90*
8,40*
2,75*
,15

Error tp.
,896
,896
,896
,896
,896
,896
,896
,896
,896
,896
,896
,896
,896
,896
,896
,896
,896
,896
,896
,896

Significacin
1,000
,000
,000
,000
1,000
,000
,000
,000
,000
,000
,047
,028
,000
,000
,047
1,000
,000
,000
,028
1,000

Basado en las medias observadas.


*. La diferencia de medias es significativa al nivel ,05.

Intervalo de confianza al
95%.
Lmite
superior
Lmite inferior
-3,08
2,08
-8,73
-3,57
-11,33
-6,17
-11,48
-6,32
-2,08
3,08
-8,23
-3,07
-10,83
-5,67
-10,98
-5,82
3,57
8,73
3,07
8,23
-5,18
-,02
-5,33
-,17
6,17
11,33
5,67
10,83
,02
5,18
-2,73
2,43
6,32
11,48
5,82
10,98
,17
5,33
-2,43
2,73

Slo los jvenes : ANOVA 1


Descriptivos
palabras recordadas

N
contar
rimar
adjetivar
imaginar
recordar
Total

10
10
10
10
10
50

Media
6,50
7,60
14,80
17,60
19,30
13,16

Desviacin
tpica
1,434
1,955
3,490
2,591
2,669
5,787

Error tpico
,453
,618
1,104
,819
,844
,818

Intervalo de confianza para


la media al 95%
Lmite
Lmite inferior
superior
5,47
7,53
6,20
9,00
12,30
17,30
15,75
19,45
17,39
21,21
11,52
14,80

Mnimo
4
4
11
14
15
4

Mximo
9
10
22
22
22
22

ANOVA
palabras recordadas

Inter-grupos
Intra-grupos
Total

Suma de
cuadrados
1353,720
287,000
1640,720

gl
4
45
49

Media
cuadrtica
338,430
6,378

F
53,064

Prueba de homogeneidad de varianzas


palabras recordadas
Estadstico
de Levene
2,642

gl1

gl2
4

45

Sig.
,046

Sig.
,000

Comparaciones mltiples
Variable dependiente: palabras recordadas
Bonferroni

(I) metjov
contar

rimar

adjetivar

imaginar

recordar

(J) metjov
rimar
adjetivar
imaginar
recordar
contar
adjetivar
imaginar
recordar
contar
rimar
imaginar
recordar
contar
rimar
adjetivar
recordar
contar
rimar
adjetivar
imaginar

Diferencia de
medias (I-J)
-1,100
-8,300*
-11,100*
-12,800*
1,100
-7,200*
-10,000*
-11,700*
8,300*
7,200*
-2,800
-4,500*
11,100*
10,000*
2,800
-1,700
12,800*
11,700*
4,500*
1,700

Error tpico
1,129
1,129
1,129
1,129
1,129
1,129
1,129
1,129
1,129
1,129
1,129
1,129
1,129
1,129
1,129
1,129
1,129
1,129
1,129
1,129

*. La diferencia de medias es significativa al nivel .05.

Sig.
1,000
,000
,000
,000
1,000
,000
,000
,000
,000
,000
,170
,002
,000
,000
,170
1,000
,000
,000
,002
1,000

Intervalo de confianza al
95%
Lmite
Lmite inferior
superior
-4,43
2,23
-11,63
-4,97
-14,43
-7,77
-16,13
-9,47
-2,23
4,43
-10,53
-3,87
-13,33
-6,67
-15,03
-8,37
4,97
11,63
3,87
10,53
-6,13
,53
-7,83
-1,17
7,77
14,43
6,67
13,33
-,53
6,13
-5,03
1,63
9,47
16,13
8,37
15,03
1,17
7,83
-1,63
5,03

Slo los mayores : ANOVA 1


Descriptivos
palabras recordadas

N
contar
rimar
adjetivar
imaginar
recordar
Total

10
10
10
10
10
50

Media
7,00
6,90
11,00
13,40
12,00
10,06

Desviacin
tpica
1,826
2,132
2,494
4,502
3,742
4,007

Intervalo de confianza para


la media al 95%
Lmite
Lmite inferior
superior
5,69
8,31
5,38
8,42
9,22
12,78
10,18
16,62
9,32
14,68
8,92
11,20

Error tpico
,577
,674
,789
1,424
1,183
,567

Mnimo
4
3
6
9
5
3

ANOVA
palabras recordadas

Inter-grupos
Intra-grupos
Total

Suma de
cuadrados
351,520
435,300
786,820

Media
cuadrtica
87,880
9,673

gl
4
45
49

F
9,085

Prueba de homogeneidad de varianzas


palabras recordadas
Estadstico
de Levene
2,529

gl1

gl2
4

45

Sig.
,054

Sig.
,000

Mximo
10
11
14
23
19
23

Comparaciones mltiples
Variable dependiente: palabras recordadas
Bonferroni

(I) metmay
contar

rimar

adjetivar

imaginar

recordar

(J) metmay
rimar
adjetivar
imaginar
recordar
contar
adjetivar
imaginar
recordar
contar
rimar
imaginar
recordar
contar
rimar
adjetivar
recordar
contar
rimar
adjetivar
imaginar

Diferencia de
medias (I-J)
,100
-4,000
-6,400*
-5,000*
-,100
-4,100
-6,500*
-5,100*
4,000
4,100
-2,400
-1,000
6,400*
6,500*
2,400
1,400
5,000*
5,100*
1,000
-1,400

Error tpico
1,391
1,391
1,391
1,391
1,391
1,391
1,391
1,391
1,391
1,391
1,391
1,391
1,391
1,391
1,391
1,391
1,391
1,391
1,391
1,391

*. La diferencia de medias es significativa al nivel .05.

Sig.
1,000
,061
,000
,008
1,000
,051
,000
,006
,061
,051
,913
1,000
,000
,000
,913
1,000
,008
,006
1,000
1,000

Intervalo de confianza al
95%
Lmite
Lmite inferior
superior
-4,01
4,21
-8,11
,11
-10,51
-2,29
-9,11
-,89
-4,21
4,01
-8,21
,01
-10,61
-2,39
-9,21
-,99
-,11
8,11
-,01
8,21
-6,51
1,71
-5,11
3,11
2,29
10,51
2,39
10,61
-1,71
6,51
-2,71
5,51
,89
9,11
,99
9,21
-3,11
5,11
-5,51
2,71

Ejemplo 2
www.zoology.ubc.ca/.../ANOVA/ANOVA.html
La mariposa tropical Heliconius erato tiene un sabor desagradable
que le proporciona una cierta proteccin de los pjaros. stos
aprenden a reconocerlas para evitarlas. A su vez, para protegerse, el
resto de las mariposas de una zona particular evolucionan para
parecerse a las de mal sabor.
En Amrica del sur existen diferentes formas de Heliconius erato.
Localmente casi el 100% son de la misma forma.
En un estudio se tomaron mariposas de la forma rayada (ms
comn al norte) y de la forma cartero (ms comn al sur) y se
intercambiaron de zona midiendo posteriormente su supervivencia.

Mediante un ANOVA de dos factores se contrastaron las siguientes hiptesis:


H0: La supervivencia media es igual en las dos zonas
H0: La supervivencia media es igual para las dos formas (morph)
H0: No hay interaccin entre zona y forma

Tabla ANOVA
Source of Variation

SS

df

MS

Zone

9.05

9.05

0.965

0.327

Morph

34.553

34.55

3.685

0.056

Zone*morph

80.548

80.55

8.590

0.004

Error

1837.947

196

9.38

Los autores concluyen:


So there is no mean difference in the life span in the two habitats, nor
between the two morphs on average (although there is a tendency for there
to be a difference between the morphs). There is however a significant
interaction between zone and morphology. In other words the life span of a
particular morph varies as a function of where it is, just as we imagined
because of the putative function of the coloration.

Anlisis de la varianza con tres factores


Modelo general

Tenemos IJK + 1 parmetros desconocidos.


El nmero de datos debe superar el nmero de parmetros
Estudiaremos un modelo ms sencillo aunque con
importantes restricciones.

Anlisis de la varianza con tres factores


Cuadrados latinos

I=J=K

Anlisis de la varianza con tres factores


Cuadrados latinos: diseo

En primer lugar, se elige un cuadrado con


I filas, I columnas e I letras
de forma que no haya letras repetidas en
ninguna fila ni en ninguna columna

Anlisis de la varianza con tres factores


Cuadrados latinos: diseo
Cuadrado latino con I = 3 (12 diseos posibles)
Tres factores (fila, columna, letra)
Se rellena con n = 9 datos
Diseo

A
C
B

C
B
A

Datos

B
A
C

Con I = 4 tendramos 576 posibles diseos

Anlisis de la varianza con tres factores


Cuadrados latinos: diseo
A veces es ms sencillo con nmeros en las celdas en vez de letras : SUDOKU

Dato y75(3)
Estos SUDOKU rellenos corresponden a dos diseos de cuadrado latino con I = 9
Existen ms de 1021 soluciones diferentes para un SUDOKU 9x9.

Ejemplo con I = 5
Supongamos que deseamos contrastar la eficacia de 5 fertilizantes
diferentes sobre un cultivo de avena. Queremos aplicar los 5
fertilizantes, esperar a que la avena madure, recolectar y medir el
resultado de la cosecha por unidad de superficie con cada fertilizante.
Pero no podemos hacer los 5 experimentos en la misma tierra.
Incluso terrenos contiguos pueden variar en fertilidad debido a
mltiples causas (diferencias de humedad, uso previo del terreno, etc.)
Dividimos el terreno experimental en una retcula de 5 x 5 rectngulos
y en cada uno administramos un fertilizante (etiquetados al azar A, B,
C, D, E )segn el siguiente diseo de cuadrado latino:
ABCDE
BDAEC
CEDBA
DCEAB
EABCD
www.math.sunysb.edu/.../latinI2.html

Fa
cto

rf

ila

Factor letra:
Color = fertilizante

Factor c

olumna

Un experimento real
A 5 x 5 Latin square laid
out at Bettgelert Forest in
1929 to study the effect of
exposure on Sitka spruce,
Norway spruce (Abetos),
Japaneses larch (Alerce),
Pinus contorta and Beech
(Haya). Photograph taken
about 1945
Plate 6 from J F Box, R.A.
Fisher: The Life of a
Scientist, New York:
Wiley 1978.

Anlisis de la varianza con tres factores


Cuadrados latinos: estimacin de los parmetros
Parmetros desconocidos del modelo (3I - 1) :
, 1 , ... , I , 1 ,..., I , 1 ,..., I ,

Ejemplo 2
En un estudio sobre percepcin espacial con tres mtodos diferentes de
visin, se seleccionaron tres habitaciones, en cada habitacin se pidi a 6
personas con las mismas caractersticas (edad, formacin, sexo, etc.) que
estimasen la medida de una de las tres dimensiones (longitud, anchura,
altura) de la habitacin utilizando uno de los tres mtodos siguientes:
Visin real
las personas, sin nada, se pueden mover por la habitacin
Visin con monitor de televisin
las personas ven a travs de un monitor de televisin, situado
fuera, que les permite ver la habitacin desde distintos ngulos
Visin virtual
a las personas se les coloca un dispositivo de visin virtual con el
que pueden moverse por la habitacin
Las 48 personas se asignaron al azar a la habitacin, a la dimensin y al
mtodo. La variable respuesta es el cociente entre las medidas reales y las
estimadas por cada grupo de seis personas.

Factor fila Habitacin (I, II, III)


Factor columna: Dimensin (L longitud W anchura, A altura)
Factor letra: Mtodo (a = real, b = monitor, c = virtual)

Medidas reales (pies)

23

18

14

II

48

19

14

III

47

28

20

II

III

Habitacin \ Dimensin

Diseo
Habitacin \ Dimensin

Datos

Media fila

1.03 a

0.97 b

0.83 c

0.943

II

0.91 b

0.78 c

1.08 a

0.923

III

0.80 c

1.00 a

1.02 b

0.940

0.977

Media
total
0.936

Media columna

0.913

0.917

Mtodo

real

monitor virtual

Media

1.037 0.967

0.803

Tabla ANOVA
Variable dependiente: estimacin relativa

Fuente

Suma de
cuadrados
tipo III

habitacin

gl

Media
cuadrtica

Significacin

,001

,000

,301

,769

dimensin

,008

,004

3,330

,231

mtodo

,086

,043

37,583

,026

Error

,002

,001

,097

Total

Conclusiones?

You might also like