You are on page 1of 9

ANOVA

El Analisis de la varianza es una tecnica estadstica de amplio uso, se sit


ua en el contexto parametrico
en el que se tiene una variable respuesta X cuyo comportamiento puede depender de una o varias
variables factor que generalmente estan controladas por el investigador; se desea analizar la influencia
de los factores en la respuesta. Para ello se elegiran distintos niveles o modalidades de cada uno de
los factores y se combinaran dando lugar a los tratamientos

Empezaremos el estudio por el caso mas sencillo en el que solo se tiene un factor, anova unifactorial,
y los individuos sobre los que se analiza la variable respuesta son homog
eneos por lo que se asignan
aleatoriamente a los distintos tratamientos(dise
no completamente aleatorizado). Dependiendo de
que las modalidades del factor sean unas determinadas (efectos fijos) o se elijan al azar por no estar
interesados en unas en particular (efectos aleatorios) se tendran dos modelos un poco diferentes en
su planteamiento.

ANOVA UNIFACTORIAL DE EFECTOS FIJOS


Se quiere analizar el efecto de un factor del que se estudian los niveles i=1, . . . , I sobre una variable
respuesta X.
Sea Xi la variable respuesta bajo el nivel i del factor, supongo que la variaci
on de los datos dentro
de este nivel se debe al error experimental, es decir Xi = i + e. Para modelar el comportamiento de
los errores supongo que estos se comportan como una normal, y que ademas su comportamiento es el
mismo en todos los niveles es decir e N (0, ). Esta variable error no se puede observar, o medir,
lo que se mide es Xi N (i , ) y de la que se tiene una m.a.s. (xi1 , . . . , xini ) y en funcion de estos
datos se realizara el analisis.
Si todas las muestras son del mismo tama
no, es decir ni =m se dice que el modelo es equilibrado.
PI
ni i
Tambien se puede utilizar la descomposicion Xi = + i + e siendo = i=1
y i = i y
n
PI
por tanto i=1 ni i = 0.
Hip
otesis Previas
1. e N (0, ) o equivalentemente Xi N (i , ) (Normalidad y homocedasticidad)
2. (xi1 , . . . , xini ) m.a.s. de Xi i=1,. . . , I
3. las distintas muestras son independientes
Par
ametros del Modelo:
= (1 , . . . , I , ) RI+1 o equivalentemente = (, 1 , . . . , I1 , ) RI+1
Hip
otesis del ANOVA
H0 : No influencia del factor en la respuesta
H0 : 1 = . . . , = I
H0 : i = 0 i = 1, . . . , I

Estadsticos
Como su nombre indica el Anova esta basado en el analisis de la variaci
on de los datos, por ello se
consideran los estadsticos que se basan en la variaci
on de los datos
Variacion total de los datos, que se debe tanto al error como al factor
SCT =

ni
I X
X

(Xij X .. )2

i=1 j=1

Variacion dentro de los niveles o variaci


on debida al error experimental
SCE =

ni
I X
X

(Xij X i. )2

i=1 j=1

Variacion entre los niveles o variacion debida al factor


SCF =

I
X

ni (X i. X .. )2

i=1

Cada una de las sumas anteriores es una variable aleatoria, por serlo las Xij , y vamos a estudiar su
comportamiento

SCE =

ni
ni
I X
I X
I
X
X
X
(Xij X i. )2 =
(eij ei. )2 =
(ni 1)Sbi2
i=1 j=1

i=1 j=1

i=1

es una variable aleatoria, funcion de las cuasivarianzas de cada una de las muestras que son
estimadores insesgados de la varianza de cada una de las variables Xi , 2 . Por tanto la media
del estadstico SCE es
E(SCE) = (N I) 2
por ello el estadstico CM E =

SCF =

SCE
es un estimador insesgado de 2 .
nI
I
X

ni (X i. X .. )2 =

i=1

I
X

ni (i + ei. e.. )2

i=1

esta variable aleatoria tiene una esperanza que es


I
!
2
X
I
I
I
I
X
X
X
X

2
2
2
2
ni i +E
ni (ei. e.. )
n i i +
ni
ni i2 + 2 (I1)
E(SCF ) =
=

=
ni
n
i=1

El estadstico CM F =

i=1

i=1

SCF
tiene una esperanza 2 +
I 1

i=1

i=1

PI

2
i=1 ni i

.
I 1
CM F
En consecuencia se podra utilizar para contrastar H0 el cociente
y rechazar esta hipotesis
CM E
nula cuando este cociente fuese grande. Para estudiar el comportamiento de este cociente es para lo
que se necesita imponer la condicion de normalidad a los errores, ya que hasta ahora esta no ha sido
utilizada.
Bajo las condiciones de que los errores son normales, independientes y homocedasticos (con la misma
varianza) se tiene las siguientes distribuciones para los estadsticos

SCE
2nI
2

SCT
H0 2n1
2

que se obtienen a partir del teorema de Fisher. Por otro lado utilizando los siguientes resultados sobre
formas cuadraticas:

Teorema: Sea Q =
x 0 A
x una forma cuadratica sobre x N (0, 2 ) (
x es una m.a.s sobre x)
Q/ 2 2r si y solo si A es idempotente de rango r.

Si Q1 es otra forma cuadratica sobre


x con matriz asociada B. Q y Q1 son independientes si y
solo si AB=0.

Sea Q = Q1 + + Qk donde Qi son formas cuadraticas sobre


x si Q/ 2 2r ,
2ri Qk 0
P
entonces Q1 . . . Qk son independientes y Qk / 2 2rk rk = r k1
i=1 ri .

Qi / 2

como consecuencia se obtiene que


SCF
H0 2I1 y es independiente de
2

SCE
2

Por ello se puede obtener la distribucion del cociente:


F =

SCF
I1
SCE
nI

CM F
Ho FI1,nI
CM E

conocido como estadstico F del anova, al que se puede llegar tambien por ejemplo a traves del
metodo de la razon de verosimiludes, y que nos sirve para definir la regi
on crtica asociada al test
ANOVA

CM F
1
> FFI1,nI (1 )
RC = (x11 . . . xknk |
CM E
Los calculos necesarios para efectuar el contraste anova se suelen presentar a traves de una tabla
de la forma siguiente (salvo la columna teorica ECM que me sirve como orientaci
on para calcular el
estadstico F):
FV

GL

SC

CM

Factor

I-1

SCF

CMF

Error
Total

n-I
n-1

SCE
SCT

CME

ECM
P

ni 2i
2 + I1
2

F
CM F
CM E

Debe hacerse notar que el rechazo de la hipotesis nula 1 = . . . , = I no significa que todas las
medias sean diferentes sino que al menos dos lo son, por ello cuando se rechaza H0 suelen plantearse
las preguntas a que se debe el rechazo de la hipotesis? que tratamientos se comportan de forma
distinta?.
Por otro lado puede ser que la hipotesis basica del test anova carezca de interes ya que se sabe de
antemano que los tratamientos no tienen el mismo efecto sino que se va buscando el que lo tenga
mejor. Surgen as otros nuevos test que se conocen con el nombre generico de comparaciones
m
ultiples y que estan basados en el trabajo con combinaciones lineales de las medias poblacionales.

Definicion:- se llama contraste a La =

ai i con a = (a1 , . . . , aI )/

ai = 0.

Un ejemplo de contraste es i j .

A continuacion vamos a estudiar las inferencias sobre los distintos parametros del ANOVA unifactorial
de efectos fijos as como algunas funciones de los mismos.
Inferencias sobre
SCE
la varianza de los errores 2 se basan en su estimador el CME y en la distribucion
2nI .
2
SCT
SCT
2n1 .
Tambien se pueden basar, si H0 es cierta, en el estimador
y en la distribucion
n1
2
la media global de la variable respuesta se basan en su estimador x.. y en los estadsticos
x
x..
q..
tnI , o si H0 es cierta q
tn1 .
SCT /(n1)
n

CM E
n

xi. i
sobre i cuando se rechaza H0 se basan en su estimador xi. y en el estadstico q
tnI .
CM E
n

contrastes L =

b = P ai xi. y en la distribucion
ai i se basan en sus estimadores L
bL
L
q
P a2i tnI
CM E
ni

Tests Multiples
La hipotesis nula del test ANOVA H0 : 1 = = k puede plantearse como interseccion de
distintas hipotesis sobre contrastes que se resuelven por el metodo de union interseccion. As
la hipotesis nula puede formularse como:

H0j :

1 = j

1 j = 0

L1j = 0

2jI

que puede resolverse mediante la region crtica de Bonferroni:

b1j |
|L

RC = x/ max r
>
t
nI, 2(I1)

2jI

1
1

+
CM E
n1

nj

H0ij : i = j

1ijI

que puede resolverse mediante las siguientes regiones crticas

1. de Bonferroni:

RC =

2. de Scheffe

bij |
|L
x/ max r

1i<jI

1
1

+
CM E
ni
nj

> tnI, I(I1)

RC =

bij |
|L
x/ max r

1i<jI

1
1

+
CM E
ni
nj

>

(I 1)FI1,nI,

en su desmostracion sera u
til el siguiente lema
Lema: Sean c y v dos vectores de RI , con c tal que todas
P sus componentes son
positivas, ci 0. Se considera el subespacio A = {a RI | Ii=1 ai = 0}.
P
2
( I ai vi )
La funcion g(a) = Pi=1
presenta un maximo en el subespacio A y vale
a2
I
i
i=1 ci

P
max g(a) = max
aA

I
i=1

ai vi

PI

a2i
i=1 ci

aA

I
X

ci (vi vc )2

i=1

Demostraci
on
Sea B = {b RI |

PI

i=1 bi

=0 y

PI

b2i
i=1 ci

= 1},

como B A y dado a A existe un ba B con bai =

ai

a2
j
j=1 cj

PI

tal que g(ba ) = g(a)

entonces maxaA g(a) = maxbB g(b).


Como
g(b) =

I
X

!2
a i vi

=t

i=1

I
X bi
i=1

ci
vi
ci t

!2
;

con t =

I
X

ci

i=1

g(b) se puede definir a traves de la covarianza entre las componentes de una variable
bidimensional (X,Y) que toma los valores ( cbii , vi ) con probabilidades cti , es decir
g(b) = t2 E 2 (XY )
Ademas E(X)=

PI

bi ci
i=1 ci t =0

y var(X) = E(X 2 ) =

PI

bi 2 ci
i=1 ( ci ) t

1
t

por tanto, y
1

aplicando la desigualdad de Cauchy-Swartz: cov(XY ) (var(X)var(Y )) 2 ,


2

g(b) = t E (XY ) = t cov (XY ) t var(X)var(Y ) = t

21

var(Y ) = t

I
X
ci
i=1

(vi vc )2

en consecuencia
max g(a) = max g(b)
aA

bB

I
X

ci (vi vc )2

i=1

Por otro lado sea a0 A dado por a0i = ci (vi vc ) entonces


2
P
I
I
c
(v

)v
X
c i
i=1 i i
g(a0 ) = PI
=
ci (vi vc )2
2
c )
i=1 ci (vi v
i=1
Es decir
max g(a) =
aA

I
X

ci (vi vc )2

i=1

3. de Tukey (modelo equilibrado ni = m)


que se basa en una nueva distribucion que es la del recorrido o rango estudentizado
Definici
on: Sean Y1 . . . Yn v.a. independientes,con distribucion N(0,1), Y(n) su
maximo e Y(1) su mnimo, sea Z otra variable aleatoria independiente con las anteriores
Y(n) Y(1)
con distribucion ji-cuadrado Z 2k entonces Q = p
se dice que tiene una
Z/k
distribucion del rango estudentizado con n y q grados de libertad, qn,k .
y define la siguiente region crtica

bij |
|L
RC = x/ max q
1i<jI CM E

> QI,nI,

Todas estas regiones crticas pueden servir de base para construir regiones de confianza multiples
para las diferencias entre i j
Potencia del test Anova
Otro aspecto de interes en el estudio ANOVA es la potencia del test, es decir la probabilidad de
la region crtica cuando no se cumple la hipotesis nula de igualdad de medias para la variable
respuesta en los distintos niveles del factor. Para el estudio del comportamiento del estadstico
CM F
cuando no es cierta la hipotesis nula utilizaremos las distribuciones descentradas, ya que
CM E
SCF
2
2

I1,

ni i2
2

y en consecuencia
CM F
P
F
ni i2
CM E
I1,nI,
2

ANOVA UNIFACTORIAL DE EFECTOS ALEATORIOS


Queremos analizar el efecto de un factor sobre una variable respuesta, pero no se esta interesado
en unos determinados niveles sino que estos se eligen al azar, con lo que aparece una segunda
fuente de aleatorizacion.
En este caso la variable respuesta se puede descomponer en X = + + e donde los errores,
que recogen la parte de la respuesta correspondiente al error experimental, se comportan como
e N (0, ), y N (0, a ), recoge la parte de X correspondiente al tratamiento.
Tanto los errores como la influencia de los tratamientos son variables que no se pueden observar,
solo se observa X de la que para el nivel i elegido al azar se tiene una m.a.s. (xi1 , . . . , xini ) y en
funcion de estos datos se realizara el analisis.
Hip
otesis Previas
1. e N (0, ) o equivalentemente Xi N (i , ) (Normalidad y homocedasticidad)
2. (xi1 , . . . , xini ) m.a.s. de Xi i=1,. . . , I
3. las distintas muestras son independientes
Par
ametros del Modelo:
= (, , a ) R3
Hip
otesis del ANOVA
H0 : No influencia del factor en la respuesta a = 0
Estadsticos
ni
I X
X
(Xij X i. )2
SCE =
i=1 j=1

SCT =

ni
I X
X

(Xij X .. )2

i=1 j=1

SCF =

I
X
i=1

ni (X i. X .. )2

SCE
2nI
2
SCT
H0 2n1
2
SCF
H0 2I1
2

e igual que ocurra en el modelo de efectos fijos, ya que bajo las dos hipotesis mulas el comportamiento de X es el mismo, se define a regi
on crtica asociada al test ANOVA

CM F
1
> FFI1,nI (1 )
RC = (x11 . . . xknk |
CM E
La tabla anova para este modelo es analoga a la anterior para el modelo de efectos fijos, lo
u
nico que cambia es la columna teorica de esperanzas de los cuadrados medios obteniendose.

FV
Factor
Error
Total

GL
I-1
n-I
n-1

SC
SCF
SCE
SCT

CM
CMF

ECM
2 + a2

CME

n2

n2i

n(I1)
2

F
CM F
CM E

En este caso no tienen sentido test a posteriori, ya


p que no estamos interesados en niveles
particulares. Puesto que en este modelo X = N (, 2 + a2 ) pueden ser interesante realizar
inferencias sobre los parametros del modelo.
Inferencias sobre
SCE
la varianza de los errores 2 se basan en su estimador el CME y en la distribucion

2
SCT
2nI . Tambien se pueden basar si H0 es cierta en el estimador
y en la distribucion
n1
SCT
2n1 .
2
la varianza de los niveles a2 se basan en su estimador , que en el caso de modelos equiliCM F CM E
brados es
.
m
x
que se basaran en el estimador x y en el estadstico p
tI1
CM F/n

Potencia del test Anova


Para el estudio de la funcion potencia en este modelo, tenemos que buscar la distribuci
on de
p
la SCF. Se considera el modelo equilibrado, y teniendo en cuenta que Xi = N (, 2 /m + a2 )
se obtiene, aplicando el teorema de Fisher, que
SCF
2I1
2
2
ma +
de donde

CM F
ma2 + 2

FI1,nI
CM E
2
distribucion que se utiliza para el calculo de la potencia.

Tests de homocedasticidad
Bajo el supuesto de que la variable respuesta en cada nivel sigue una distribucion normal
Xi N (i , i ), i = 1; . . . , I, y que para cada nivel se dispone de una m.a.s. Xij j = 1, . . . , ni
los test de homocedasticidad tienen por objetivo contrastar H0 : 1 = = I .
Test de la razon de verosimilitudes
Pni
I 2 n2i
2
Y
si
j=1 (xij xi. )
2
(x) =
,
s
=
i
s2
ni
i=1

PI
2

s =

ni s2i

i=1

Se utiliza su distribucion asintotica, por ello necesita tama


nos de muestra grandes
)
(
I
X

.
RC =
x / 2ln(x) > 2
=
x/
n ln(s2 ) + nln(s2 ) > 2
i

I1,

I1,

i=1

Test de Bartlett
Modificacion del anterior para acelerar la convergencia asintotica, es valido si ni 5
I
!
X
B = 1/c
(ni 1)ln(b
s2i ) + (n I)ln(b
s2 )
i=1

Pni
sb2i =

PI

xi. )2
ni 1

j=1 (xij

s2i
i=1 (ni 1)b
nI

sb2 =

1
c = 1+
3(I 1)

I
X
i=1

1
1

ni 1 n I

RC =
x /B > 2I1,
Test Union-interseccion (modelo equilibrado ni = m)
1. basado en el metodo de Bonferroni

sb2i

RC = x / max 2 > Fm1,m1, I(I1)


i,j s
bj
2. basado en el Fmax

sb2i

RC = x / max 2 > F maxm,I,


i,j s
bj

Test de Levene
Considera las variables Zij = |Xij X i. | y los estadsticos
Pni

PI
CM Ez =

i=1

j=1 (zij

nI

z i. )2

PI
CM Fz =

i=1

y considera la region crtica

RC =

CM Fz

x/
> FI1,nI,
CM Ez

ni (z i. z .. )2
I 1

You might also like