You are on page 1of 68

Anlisis de la

Varianza
Prof. Susana Martn Fernndez
ndice
Anlisis de la Varianza de un Factor
Anlisis de la Varianza de dos
Factores
Anlisis de la Varianza de dos
Factores con Interaccin
Objetivo
Estudiarla influencia de 1 o ms
factores en los valores de una
variable aleatoria.
Procedimiento
Descomponer la variabilidad de un
experimento en componentes o
factores independientes
Metodologa

1.Representacin grfica de los datos.


2.Planteamiento del modelo.

3.Estimacin de los parmetros.

4.Contraste de si los factores influyen


o no en la variable aleatoria.
5.Comprobacin de las hiptesis
bsicas por anlisis de residuos.
Anlisis de la
Varianza de un
Factor
ANOVA 1 Factor
1. Representacin grfica de los datos.
EJ. Se tienen los datos histricos de los incendios forestales en la
Comunidad de Madrid. Se quiere estudiar la influencia en la superficie
quemada, del tipo de da de la semana en el que se inicia el incendio.
Tipo de da:
Representacin por Cdigo de Nivel
1- Festivo (X 1000)
3
2- Vspera de festivo

totalQuemado
2.5

3-Laborable 2
1.5
1
0.5
0
1 2 3
CLASEDIA

Grfico de Cajas y Bigotes

1
CLASEDIA

0 0.5 1 1.5 2 2.5 3


(X 1000)
totalQuemado
ANOVA 1 Factor
2. Planteamiento del modelo

Xij = i + ij , j = 1,2,..., ni ; i = 1,2,..., k

Donde
Xij es el j-simo valor para el nivel i del
factor.
i es el valor medio de la variable para
el nivel i del factor.
ij es la perturbacin aleatoria, variable
que se supone Normal, de varianza
constante, media nula e
independiente.
ANOVA 1 Factor
2. Planteamiento del modelo
Representacin por Cdigo de Nivel
(X 1000)
3
X2j X11 = 1 + 11
totalQuemado
2.5

1257 = 888,5 + 11
2
X3j
1.5
X1j
1
0.5
0
1 2 3
CLASEDIA

Medias y Errores Estndar (s combinada)


2400
totalQuemado

2000
2
1600
1200
1 3
800
400
0
1 2 3
CLASEDIA
ANOVA 1 Factor
2.Planteamiento del modelo
El modelo de forma matricial:

X = A +
Donde:
X = (X11 , X12 ,..., X1n1 , X 21 , X 22 ,..., X 2n 2 , ..., X k1 , X k2 ,..., X k n k )

Es un vector aleatorio de n componentes


= (1 , 2 , ..., k )
Es un vector de k parmetros desconocidos.
A=In
= (11 , 12 ,..., 1n1 , 21 , 22 ,..., 2n2 , ..., k1 , k2 ,..., k nk )
Es un vector aleatorio que recoge el error de medicin de la
variable X.
ANOVA 1 Factor
3.Estimacin de los parmetros
Por el mtodo de mxima verosimilitud a partir de la siguiente
funcin de verosimilitud:

k ni

f(X, 1 , 2 ,..., k ) =
1 - 2
n/2 n e 2
1
( -
X ij i )2

(2 ) i=1 j=1

Los estimadores de los parmetros son los siguientes:

) i = X i =
X ij

ni
ni

(X Xi )
k
2
ij
i =1 j =1
2 =
n
ANOVA 1 Factor
3.Estimacin de los parmetros
En el ejemplo, el valor de los estimadores de los
parmetros son los siguientes:
Tipo de da:
1- Festivo
2- Vspera de festivo
3-Laborable

X1 = 888'5 ha.
X 2 = 1757'88 ha.
X 3 = 848'112 ha.
) = 628'366 ha.
ANOVA 1 Factor
4. Contraste para analizar la influencia
del factor
Lo que se trata de comprobar es que los factores no influyen en
la variable X. Para ello la hiptesis ms sencilla es
comprobar si las medias son iguales para todos los factores:

H0 : 1 = 2 = ... = k =
Se rechazar la hiptesis nula cuando fijado un nivel de
significacin el estadstico sea mayor que F0, valor obtenido
en la tabla de la F-snedecor para (k-1,n-k) grados de
libertad.
k ni k ni

( X ij - X )
2
- ( X 2
ij - X i. )
(n - k) i=1 j=1
k
i=1 j=1
>F 0
(k - 1) ni

ij i.
( X
i=1 j=1
- X )2
ANOVA 1 Factor
4. Contraste para analizar la influencia del
factor. Descomposicin de la variabilidad

Representacin por Cdigo de Nivel


(X 1000)
3
X 21
totalQuemado

2.5
e21
2
X2
1.5 X2 X
1 X
0.5
0
1 2 3
CLASEDIA
ANOVA 1 Factor
4. Contraste para analizar la influencia del
factor. Descomposicin de la variabilidad

Representacin por Cdigo de Nivel


(X 1000)
3
totalQuemado 2.5
X 21
e2
2
X2
1.5 X1 2 X
1 X
0.5
0
1 2 3
CLASEDIA

X 21 X = ( X 21 X 2 ) + ( X 2 X )
ANOVA 1 Factor
4.Contraste para analizar la influencia del factor.
Descomposicin de la variabilidad

La variacin entre los datos y la media total, se puede


poner como suma de la variacin de los datos y las
medias parciales y la de las medias parciales y la total.

k ni k ni k

ij
( X X
i =1 j =1
) = ij i i i
2
( X X ) +
i =1 j =1
n ( X 2
X ) 2

i =1

VT=VNE+VE
En el contraste se comprueba:

VT VNE n k
F= > F0
VNE k 1
ANOVA 1 Factor
4.Contraste para analizar la influencia del
factor
La forma de trabajar es calculando la tabla de Anlisis de la
Varianza (ANOVA):

Grados de
Fuentes de Suma de libertad
Varianzas
variacin cuadrados
Entre grupos
ni( Xi.- X..)
2 k-1 2 VE
(Varianza S e =
explicada) K -1
Interna o no
(Xij-Xi.) n-k
2 2 VNE
S R =
explicada n-K
TOTAL 2
( Xij - X..) n-1 2

S y
ANOVA 1 Factor
4.Contraste para analizar la influencia del
factor
Las fuentes de variacin siguen distribuciones chi-cuadrado.
Otra forma de expresar el estadstico es:


Se 2
F( k 1,n k ) = 2
SR
El coeficiente de determinacin R2=VE/VT es una medida
relativa de la variabilidad explicada por el modelo respecto a la
total.
ANOVA 1 Factor
4.Contraste para analizar la influencia del
factor
Ejemplo rpido de ANOVA de un
factor.
Distancia
El Servicio de Parques y
Jardines del Ayuntamiento de P d< 1m
Madrid est realizando un
estudio de las caractersticas
M 1-2,5 m
morfolgicas del arbolado. Se
han tomado 124 datos de G d>2,5 m
Ligustrum japonica. Las
variables que se midieron son:
Permetro del tronco Distancia Permetro-CM
Dimetro de copa M 46
Altura de la primera rama M 36
Altura
M 51
Nivel de riesgo
Se quiere analizar si la G 40
distancia a la fachada influye G 32
en el permetro del tronco
G 23
5. Comprobacin de las hiptesis
bsicas por anlisis de residuos

Normalidad
Independencia
Homocedasticidad
5. Comprobacin de las hiptesis bsicas
por anlisis de residuos

Tests no paramtricos de bondad de ajuste:


Grfico de Normalidad-Test de
normalidad de Shapiro-Wilks
2

Kolmogorov-Smirnov

Contrastes de Asimetra y Curtosis


5.Comprobacin de las hiptesis
bsicas por anlisis de residuos

Grfico de Normalidad
En el eje X estn representados los residuos o la
variable a analizar. El eje Y tiene una escala de
forma que la funcin de distribucin aparezca
como un recta.

Grfico de Probabilidad Normal


99.9
99
95
porcentaje

80
50
20
5
1
0.1
-900 -600 -300 0 300 600 900
RESIDUALS
5.Comprobacin de las hiptesis
bsicas por anlisis de residuos

Test de normalidad de Shapiro-Wilks


Este test, es el mismo que el de la recta, es especfico
para contrastar si una muestra procede de la
distribucin Normal, sin tener que hacer ninguna
especificacin de los parmetros.
Muy til para muestras pequeas con n<50.
El estadstico es el siguiente:Donde ai est tabulada, y ui, es la
2 muestra ordenada de menor a
n/2

an 1 (un i +1 ui ) mayor.
W = i =1 n
u1 u2 ... un
(ui u ) 2

La regini =cr
1
tica es la siguiente: K est

P(W K/H 0 ) =
tabulada
ANOVA 1 Factor
5.Comprobacin de las hiptesis
bsicas por anlisis de residuos

Test de normalidad de Shapiro-Wilks

En el ejemplo, se aceptara normalidad para un nivel


de confianza del 99%.

Estadstico W de Shapiro-Wilks = 0.848611


P-valor = 0.0162002
ANOVA 1 Factor

5.Comprobacin de las hiptesis


bsicas por anlisis de residuos

2
H0: X F(X)
Contraste vlido para variables discretas y
continuas. En el caso discreto se va a realizar
una comparacin punto por punto entre los
datos muestrales y los de la distribucin terica,
en el caso continuo, se comparan intervalos.
ANOVA 1 Factor
5. Comprobacin de las hiptesis
bsicas por anlisis de residuos

2
Procedimiento para el caso continuo:
1. Enunciar la hiptesis nula.
2. Si algn parmetro de F(X) es desconocido
se estima a partir de la muestra.
3. Se divide el rango de variacin de X en
intervalos disjuntos, I1, I2,...,Ik.
4. Se calculan las frecuencias observadas en
cada intervalo o clase, f1,f2,...,fk, es decir el
nmero de observaciones en cada clase:
fi=n
ANOVA 1 Factor
5. Comprobacin de las hiptesis
bsicas por anlisis de residuos

2
Procedimiento para el caso continuo:
5. Se calculan las probabilidades en estos

intervalos con la funcin de distribuci n
terica; es decir P{X Ii}=pi, i=1,...k.
pi =
Ii
f ( x ) dx

tericas en
6. Se calculan las frecuencias
cada intervalo, fTi=npi i=1,...k
ANOVA 1 Factor

5. Comprobacin de las hiptesis


bsicas por anlisis de residuos
2
Procedimiento para el caso continuo:
7. Se calcula el siguiente estadstico:

r es el

=
k
(f i npi )
2
2k r 1
nmero de
parmetros
estimados
i =1 np i
ANOVA 1 Factor
5.Comprobacin de las hiptesis
bsicas por anlisis de residuos
2
Condiciones de aplicacin del contraste 2:
1. Cada intervalo debe tener al menos 5 datos.
2.El nmero de intervalos se recomienda que sea como
mnimo 5, para evitar que modelos diferentes tengan
iguales frecuencias tericas.

0.4
A
0.3
B
densidad

0.2

0.1

0
-5 -3 -1 1 3 5
x
ANOVA 1 Factor
5.Comprobacin de las hiptesis
bsicas por anlisis de residuos
2
En el ejemplo:
ANOVA 1 Factor
5.Comprobacin de las hiptesis
bsicas por anlisis de residuos

Contraste de Kolmogorov-Smirnov
H0: X F(X)
Contraste vlido para variables continuas.

Procedimiento:
1. Se ordenan los valores muestrales de menor a
mayor:
x(1) x( 2 ) ... x( n )
ANOVA 1 Factor
5. Comprobacin de las hiptesis
bsicas por anlisis de residuos

Contraste de Kolmogorov-Smirnov

2. Se calcula la funcin de distribucin emprica


de la muestra, Fn*(x), con:
0 x < x (1 )

r
Fn ( x ) = x ( r ) x < x ( r + 1 )
*

n
1 x x ( n )
ANOVA 1 Factor

5. Comprobacin de las hiptesis


bsicas por anlisis de residuos

Contraste de Kolmogorov-Smirnov
3. Se calcula la discrepancia mxima entre las
funciones de distribucin observada y la
terica.

D n = max Fn* (x) F(x) Estadstico de 2 colas de K - S


ANOVA 1 Factor

5.Comprobacin de las hiptesis


bsicas por anlisis de residuos

Contraste de Kolmogorov-Smirnov
Por tanto, para aplicar el test hay que calcular
para cada punto xh:

{
D n ( xh ) = max F (x h -1 ) F(x h ) , F (x h ) F(x h )
*
n
*
n }
Se acepta H0 cuando Dn < D0 tabulado
ANOVA 1 Factor

5.Comprobacin de las hiptesis


bsicas por anlisis de residuos

Contraste de Kolmogorov-Smirnov

En el ejemplo:

Estadstico DN global de Kolmogorov = 0.24321


P-Valor aproximado = 0.339936
ANOVA 1 Factor
5.Comprobacin de las hiptesis
bsicas por anlisis de residuos

Contrastes de asimetra y curtosis

Asimetra
El coeficiente de asimetra es :

Es 0 si la hiptesis de normalidad es
(x x ) 3
cierta. Si n>50, se aproxima a una
CA = i
normal y se puede contrastar si
ns 3 CA=0.

Curtosis o apuntamiento
(
ix x )4
Es 3 si la hiptesis de normalidad es
CAP = cierta. Si n>200, se aproxima a una
ns 4
normal y se puede contrastar si
CAP=3.
ANOVA 1 Factor
5.Comprobacin de las hiptesis
bsicas por anlisis de residuos

Contrastes de asimetra y curtosis

En el ejemplo:

Puntuacin Z para asimetra = 0.733942


P-valor = 0.462982

Puntuacin Z para curtosis = 2.30618


P-valor = 0.0211003
ANOVA 1 Factor

5. Comprobacin de las hiptesis bsicas


por anlisis de residuos

Anlisis de dependencia de los


residuos
Coeficientede autocorrelacin.
Contraste de Durbin-Watson
ANOVA 1 Factor

5. Comprobacin de las hiptesis bsicas


por anlisis de residuos
Anlisis de dependencia de los
residuos
Coeficiente de autocorrelacin.
n

(x x )(x
i i k x) Donde k es el
retardo
r (k ) = i = k +1
n
(
ix x )2

i =1

El coeficiente representa la correlacin lineal


entre las variables X=(xk+1, xk+2, ..., xn) e
Y=(x1, x2, ..., xn-k)
ANOVA 1 Factor
5.Comprobacin de las hiptesis bsicas
por anlisis de residuos
Anlisis de dependencia de los
residuos
Coeficiente de Durbin-Watson
n
(
i i 1
e e )2
Donde ei son los
residuos
D= i=2
n

i
e 2

i =1

Si D=0 hay dependencia positiva entre los residuos.


Si D=2 los residuos son independientes.
Si D=4 hay dependencia negativa entre los residuos.
ANOVA 1 Factor
5.Comprobacin de las hiptesis bsicas
por anlisis de residuos
Anlisis de dependencia de los
residuos
Coeficiente de Durbin-Watson

Si k es el nmero de variables explicativas y n el tamao de la


muestra, para =0,05 estn tabulados los valores dL y dU para
aceptar o no independencia.
Si 0<D<dL hay dependencia positiva.
Si dL<D<dU el test no es concluyente.
Si dU<D<4-dU los residuos son independientes.
Si 4-dU<D<4-dL el test no es concluyente.
Si 4-dL<D<4 dependencia negativa.
ANOVA 1 Factor
5. Comprobacin de las hiptesis bsicas
por anlisis de residuos

Anlisis de la Homocedasticidad
H0:1= 2=...=k

Contraste de Bartlett
Contraste C de Cochran

Contraste de Hartley

Contraste de Levene
ANOVA 1 Factor
Anlisis de la Homocedasticidad
Contraste Poblacin Tamao
Normal Muestral
Grupos
Bartlett Si cualquiera

Cochran Cualquiera Iguales

Hartley Si Iguales

Levene Cualquiera Cualquiera


ANOVA 1 Factor
Anlisis de la Homocedasticidad

En muestras normales Bartlett es ms


sensible que Levene.
Los contrastes de Hartley y Cochran en
general dan los mismos resultados.

Contraste de Varianza
Contraste C de Cochran: 0.764026 P-valor = 0.0
Contraste de Bartlett: 1.38176 P-valor = 0.0
Contraste de Hartley: 6.84435
Test de Levene: 2.64094 P-valor = 0.0713937
Anlisis de la
Varianza de dos
Factores
Objetivo
Investigar los efectos de dos factores,
y , en el resultado de un experimento.
Metodologa

1.Representacin grfica de los datos.


2.Planteamiento del modelo.

3.Estimacin de los parmetros.

4.Contraste de si los factores influyen


o no en la variable aleatoria.
5.Comprobacin de las hiptesis
bsicas por anlisis de residuos.
ANOVA 2 Factores
1. Representacin grfica de los datos.
Ej. Analizar si los factores Pendiente y Orientacin influyen en la
superficie total quemada en incendios forestales en la CAM.
Pendiente: Orientacin:
Medias y 95.0 Porcentajes Intervalos de Confianza
1- Terreno llano 1- Solana
26
2- Ondulado 2- Umbra

totalQuemado
21
16
3-Abrupto
11
6
1
-4
1 2
R52Aorientacion

Medias y 95.0 Porcentajes Intervalos de Confianza


50
totalQuemado

40
30
20
10
0
-10
1 2 3
R52Bpendiente
ANOVA 1 Factor
2.Planteamiento del modelo

Xij = + i + j + ij , j = 1,2,...,b; i = 1,2,...,a

i es el efecto del i-simo nivel del primer factor.


j es el efecto del j-esimo nivel del segundo factor.
ij representa la perturbacin aleatoria, y se acepta que
cumple que:
- Son independientes
- Siguen un distribucin normal
- Todas tienen la misma varianza (homocedasticidad)
2
-E[.]=0 (media cero).
ANOVA 2 Factores
2.Planteamiento del modelo

Por tanto Xij son variables aleatorias


independientes que siguen una distribucin
2
normal de media + i + j y varianza .

Se asume que:
a b

= 0
i =1
i = 0
i =1
i

Por tanto:
b -1 a -1

b= - i a = - i
i=1 i=1
ANOVA 2 Factores
2.Planteamiento del modelo

Otra forma de plantear el modelo es la siguiente:

X = A +

Donde:
X = ( X11 , X12 , ..., X1b , X 21 , X 22 , ..., X 2b , ..., X a1 , X a2 , ..., X ab )
= ( , 1 , 2 , ..., a -1 , 1 , 2 , ..., b-1)
= (11 , 12 , ..., 1b , 21 , 22 , ..., 2b , ..., a1 , a2 , ..., ab )
ANOVA 2 Factores
3.Estimacin de los parmetros
Los estimadores de los parmetros son los siguientes:
a b

X
i =1 j=1
ij

= X =
ab b

X ij

i = Xi. - X Xi. =
j=1

b
a

X ij
j = X.j - X X.j =
j=1

a
ANOVA 2 Factores
3.Estimacin de los parmetros
Orientacin 1 2
Pendiente
Xi
1 9 ha 2 ha 5,5 ha

2 10 ha 8 ha 9 ha

3 5 ha 1 ha 3 ha

8 ha 3,6 ha X=5,5ha
X.j
1= 0 2=3,5 3=-2,5 1= 2,5 2=1,9
ANOVA 2 Factores
4.Contraste para analizar la influencia de
los factores
Lo que se trata de comprobar es que los factores no influyen en
la variable X. Para ello la hiptesis ms sencilla es comprobar si
las medias son iguales para todos los factores:

H : 1 = 2 = 3 = .... = a = 0

H : 1 = 2 = 3 = .... = b = 0
ANOVA 2 Factores
4.Contraste para analizar la influencia de
los factores
Tabla de Anlisis de la Varianza (ANOVA):
ANOVA 2 Factores
4.Contraste para analizar la influencia de
los factores
Anlisis de la
Varianza de Dos
Factores con
Interaccin
Objetivo
Estudiar la influencia de dos factores en
el comportamiento de una variable
cuantitativa, as como la influencia
conjunta de los factores en la variable
explicada.
Metodologa

1.Representacin grfica de los datos.


2.Planteamiento del modelo.

3.Estimacin de los parmetros.

4.Contraste de si los factores influyen


o no en la variable aleatoria.
5.Comprobacin de las hiptesis
bsicas por anlisis de residuos.
ANOVA 1 Factor
2.Planteamiento del modelo

Xijs= +i +j +ij +ijs, j =1,2,..., a; s =1,2,Km


b; i =1,2,...,

i es el efecto del i-simo nivel del primer factor.


j es el efecto del j-esimo nivel del segundo factor.
ij es el efecto de la interaccin del i-esimo nivel del
primer factor y del j-esimo nivel del segundo factor.
ijs representa la perturbacin aleatoria, y se acepta que
cumple que:
- Son independientes
- Siguen un distribucin normal
- Todas tienen la misma varianza (homocedasticidad) 2
-E[.]=0 (media cero).
ANOVA 1 Factor
2.Planteamiento del modelo
ANOVA 2 Factores
2.Planteamiento del modelo

Por tanto Xij son variables aleatorias


independientes que siguen una distribucin
2
normal de media + i + j + ij y varianza .

Se asume que:
b a
a

= 0 = 0
i
b

i
ij = 0 j ij = 0 i
i =1 i =1 j=1 i =1
Por tanto:
b -1 a -1

b= - i a = - i
i=1 i=1
ANOVA 2 Factores
3.Estimacin de los parmetros
Los estimadores de los parmetros son los siguientes:
a b m


i =1 j=1 s =1
X ijs
ij = X ij. X i.. X.j. + X
= X =
abm b m

Xijs
i = Xi.. - X Xi.. =
j=1 s =1

bm
a m

X ijs
j = X.j. - X X.j. =
j=1 s =1

am
ANOVA 2 Factores
3.Estimacin de los parmetros
Los estimadores de los parmetros son los siguientes:

ij = X ij. X i.. X.j. + X


m

X
s =1
ijs

Xij. =
m
Los residuos son:

eijs = X ijs ( + i + j + ij ) = X ijs X ij.


ANOVA 2 Factores
4.Contraste para analizar la influencia de
los factores
Lo que se trata de comprobar es que los factores no influyen en
la variable X.

H : 1 = 2 = 3 = .... = a = 0

H : 1 = 2 = 3 = .... = b = 0

H: 11=12=...=ab=0.
ANOVA 2 Factores
4.Contraste para analizar la influencia de
los factores
Tabla de Anlisis de la Varianza (ANOVA):
ANOVA 2 Factores
4.Contraste para analizar la influencia de
los factores
Tabla de Anlisis de la Varianza (ANOVA):

You might also like