You are on page 1of 59

Análisis de la Varianza

Tema 1

Regina Kaiser Depto. Estadística, Universidad Carlos III 1


Descripción breve del tema
1. Introducción al diseño de experimentos
2. El modelo
3. Estimación de los parámetros
4. Propiedades de los estimadores
5. Descomposición de la variabilidad
6. Estimación de la diferencia de medias
 Método de Fisher o LSD, contrastes múltiples
7. Diagnosis
Regina Kaiser Depto. Estadística, Universidad Carlos III 2
Objetivos
 Reconocer la importancia del diseño y análisis
estadístico de experimentos
 Presentar un procedimiento para comparar el
efecto de los distintos niveles de un factor
 Construir y estimar un modelo para contrastar
las hipótesis de interés
 Cuantificar el efecto de un factor en un
experimento
Regina Kaiser Depto. Estadística, Universidad Carlos III 3
Descripción breve del tema
1. Introducción al diseño de experimentos
2. El modelo
3. Estimación de los parámetros
4. Propiedades de los estimadores
5. Descomposición de la variabilidad
6. Estimación de la diferencia de medias
 Método de Fisher o LSD, contrastes múltiples
7. Diagnosis
Regina Kaiser Depto. Estadística, Universidad Carlos III 4
Introducción al diseño de experimentos
 Un analista debe ser capaz de resolver problemas
reales aplicando el método científico.
 Para la resolución de muchos de estos problemas no
existe una teoría sólida, para otros queremos
contrastarla
 efecto de las técnicas venta en distintos establecimientos
 duración de materiales de construcción en distintos
ambientes
 Notas de los estudiantes en distintas asignaturas

Regina Kaiser Depto. Estadística, Universidad Carlos III 5


Introducción al diseño de experimentos
 Un experimento es una prueba o serie de pruebas en
las que se modifican deliberadamente las
condiciones de un proceso o sistema con el objetivo
de observar el efecto de esas modificaciones en el
resultado.
 En un experimento intervienen varios factores, el
objetivo es determinar la influencia de estos factores
en el resultado final de un proceso, para explicar la
relación causa-efecto.
Regina Kaiser Depto. Estadística, Universidad Carlos III 6
Introducción al diseño de experimentos
 Hay factores:
 controlados: su valor lo especifica el investigador
 no controlados: debidos al entorno y al azar
 Debemos minimizar el efecto de los factores
no controlados.

Regina Kaiser Depto. Estadística, Universidad Carlos III 7


Introducción al diseño de experimentos
 Ejemplo: Un analista está interesado en determinar
qué factores influyen en el número de unidades
vendidas de un cierto producto según el tipo de
establecimiento
 controlados: establecimiento, marca, posición
 no controlados: clima, huelgas, eficacia…
 Objetivo: Determinar qué factores afectan las ventas
y en qué dirección
 Consecuencias: Determinar qué establecimientos
pueden generar mayores ventas
Regina Kaiser Depto. Estadística, Universidad Carlos III 8
Introducción al diseño de experimentos
Ejemplo: manufactura papel
 Un fabricante de bolsas de papel quiere mejorar
la resistencia a la tensión de las bolsas.
 El analista de producción piensa que hay una
relación causa-efecto entre la cantidad de
celulosa utilizada en la fabricación del papel y
la resistencia.
 Experimento en el que se fabrica papel con
distintos % de celulosa y se mide la resistencia.
Regina Kaiser Depto. Estadística, Universidad Carlos III 9
Introducción al diseño de experimentos
Ejemplo: manufactura papel
Concentración Observaciones
de celulosa % 1 2 3 4 5 6

5 7 8 15 11 9 10

10 12 17 13 18 19 15

15 14 18 19 17 16 18

20 19 25 22 23 18 20

Regina Kaiser Depto. Estadística, Universidad Carlos III 10


Introducción al diseño de experimentos
Ejemplo: manufactura papel

Regina Kaiser Depto. Estadística, Universidad Carlos III 11


Descripción breve del tema
1. Introducción al diseño de experimentos
2. El modelo
3. Estimación de los parámetros
4. Propiedades de los estimadores
5. Descomposición de la variabilidad
6. Estimación de la diferencia de medias
 Método de Fisher o LSD, contrastes múltiples
7. Diagnosis
Regina Kaiser Depto. Estadística, Universidad Carlos III 12
El modelo (ANOVA)
 Tenemos n elementos que se diferencian en un
factor.
 En cada elemento observamos una
característica que varía aleatoriamente de un
elemento a otro.
 Se desea establecer si hay o no relación entre
el valor medio de la característica estudiada y
el factor.
Regina Kaiser Depto. Estadística, Universidad Carlos III 13
El modelo (ANOVA)
Tenemos:
 una variable de interés y (resistencia de las bolsas)

 un factor que influye en los valores de y que


llamamos F (% de celulosa)
 cierto número de niveles del factor F, que denotamos
por I (4 porcentajes distintos)
 un número de observaciones para cada nivel del
factor, ni (6 observaciones para cada nivel)
 El número total de observaciones es n=n1+n2+…+nI
Regina Kaiser Depto. Estadística, Universidad Carlos III 14
El modelo (ANOVA)
Si para i=1,…,I y j=1,…,ni:
 yij es la j-ésima observación del i-ésimo grupo

 mi es la media del i-ésimo grupo

 uij es la perturbación que mide la variabilidad


debida al error experimental

yij  m i  uij

Regina Kaiser Depto. Estadística, Universidad Carlos III 15


El modelo (ANOVA)
La perturbación uij mide la desviación en la observación j
del grupo i respecto de la media del grupo. Se debe a
causas no asignables (factores no controlados). Es una
variable aleatoria.
 El promedio de las perturbaciones es cero, E[uij]=0

 Misma variabilidad en todos los grupos, Var[uij]=s2

 Distribución perturbaciones es normal, uij~N(0, s2)

 Perturbaciones independientes.

Regina Kaiser Depto. Estadística, Universidad Carlos III 16


El modelo (ANOVA)
Alternativamente, podemos reformular el modelo
y escribirlo como:
yij  m  a i  uij
para i=1,…,I y j=1,…,ni . Donde
 m es la media de todas las observaciones
 ai es el efecto diferencial del i-ésimo grupo
(ai = m i-m)
Regina Kaiser Depto. Estadística, Universidad Carlos III 17
Descripción breve del tema
1. Introducción al diseño de experimentos
2. El modelo
3. Estimación de los parámetros
4. Propiedades de los estimadores
5. Descomposición de la variabilidad
6. Estimación de la diferencia de medias
 Método de Fisher o LSD, contrastes múltiples
7. Diagnosis
Regina Kaiser Depto. Estadística, Universidad Carlos III 18
Estimación de los parámetros
En el modelo yij  m i  uij
Para i=1,…,I y j=1,…,ni con yij~N(0, s2)
Los parámetros desconocidos son:
 El verdadero valor de la media de cada grupo

m1, m2,…, mI
 La varianza de la perturbación s2.

Regina Kaiser Depto. Estadística, Universidad Carlos III 19


Estimación de los parámetros
Media de las
observaciones en el
y4.
i-ésimo grupo
y3.
ni y2.
y
j 1
ij

mˆi   yi. y1.


ni

Regina Kaiser Depto. Estadística, Universidad Carlos III 20


Estimación de los parámetros
Como de costumbre, las perturbaciones las
estimamos mediante los residuos (miden la
variabilidad no explicada).

eij  yij - yi.

Regina Kaiser Depto. Estadística, Universidad Carlos III 21


Estimación de los parámetros
y46

e46  y46 - y4.


y4.

y3.
y2.

y1.

Regina Kaiser Depto. Estadística, Universidad Carlos III 22


Estimación de los parámetros
 La varianza muestral de los residuos es un
estimador de s2
I ni

 ij
e 2

i 1 j 1
s 
ˆ 2

 Desgraciadamente se trata de un estimador


sesgado.
Regina Kaiser Depto. Estadística, Universidad Carlos III 23
Estimación de los parámetros
 Utilizamos la varianza residual como
estimador de s2 I n

 e
i
2
ij

SˆR2 
i 1 j 1

n-I
 El término que aparece en el cociente son los
grados de libertad.
 Tenemos (n - I ) Sˆ R2
~  n-I
2

s 2
Regina Kaiser Depto. Estadística, Universidad Carlos III 24
Descripción breve del tema
1. Introducción al diseño de experimentos
2. El modelo
3. Estimación de los parámetros
4. Propiedades de los estimadores
5. Descomposición de la variabilidad
6. Estimación de la diferencia de medias
 Método de Fisher o LSD, contrastes múltiples
7. Diagnosis
Regina Kaiser Depto. Estadística, Universidad Carlos III 25
Props. de los estimadores (medias)
yij  mi  uij yij ~ N ( mi , s ) 2

j  1, ni i  1, I

 Esperanza: E[mˆ i ]  E[ yi ]  mi
(centrado o insesgado)

s2
 Varianza: Var[ mˆ i ]  Var[ yi ] 
ni
Regina Kaiser Depto. Estadística, Universidad Carlos III 26
Props. de los estimadores (medias)
 Además, como m̂ i es combinación lineal de
variables independientes y normales, sigue
distribución normal.

 Como s es desconocido, tenemos el intervalo


de confianza
Sˆ R
mˆ i  t n - I ,a / 2
ni
Regina Kaiser Depto. Estadística, Universidad Carlos III 27
¿Son todas las medias iguales?

Regina Kaiser Depto. Estadística, Universidad Carlos III 28


Descripción breve del tema
1. Introducción al diseño de experimentos
2. El modelo
3. Estimación de los parámetros
4. Propiedades de los estimadores
5. Descomposición de la variabilidad
6. Estimación de la diferencia de medias
 Método de Fisher o LSD, contrastes múltiples
7. Diagnosis
Regina Kaiser Depto. Estadística, Universidad Carlos III 29
Descomposición de la variabilidad
 El Análisis de la Varianza compara la
variabilidad entre las medias de los grupos de
los distintos niveles del factor con la variabilidad
experimental.
 A mayor diferencia entre las medias de los
grupos mayor variabilidad entre ellos
H 0 : m1  m2   mI
H1 : al menos un par de medias tiene mi  m j
Regina Kaiser Depto. Estadística, Universidad Carlos III 30
Descomposición de la variabilidad
 Si las medias son muy diferentes, la variabilidad
entre las medias será mayor que la variabilidad
dentro de los grupos

yI .

y2.

y1.

yi .

Regina Kaiser Depto. Estadística, Universidad Carlos III 31


Descomposición de la variabilidad
yij - y  ( yij - yi )  ( yi - y )

( yij - y)2  ( yij - yi )2  ( yi - y)2  2( yij - yi )( yi - y)


I ni I ni I ni I ni

 ij
( y - y
i 1 j 1
) 2
  ij i  i
( y - y ) 2
 ( y -
i 1 j 1
y ) 2
 2 ( yij - yi )( yi - y )
i 1 j 1 i 1 j 1

I ni I ni I

 ij
( y - y
i 1 j 1
) 2
  ij i  i i
( y - y ) 2
 n ( y - y
i 1 j 1
) 2

i 1

VT  VNE  VE
Regina Kaiser Depto. Estadística, Universidad Carlos III 32
Descomposición de la variabilidad
 La Variabilidad Explicada (VE) mide la
variabilidad entre los distintos grupos. Si es
pequeña, es porque las medias son similares.

 La Variabilidad No Explicada (VNE) o


residual, mide la variabilidad dentro de los
grupos y es debida al error experimental.

Regina Kaiser Depto. Estadística, Universidad Carlos III 33


Descomposición de la variabilidad
VNE
 En general ~  n-
2

s2
I

VE
 Además, si m1=…=mI ~ 2
I -1
s 2

 En consecuencia, bajo H0 VE/ ( I - 1)


~ FI -1,n - I
VNE/ (n - I )

Regina Kaiser Depto. Estadística, Universidad Carlos III 34


Desc. variabilidad. Tabla ANOVA
Fuentes de Suma de Grados de
Varianza Test F
variación cuadrados libertad
I I

n (y Sˆe2
Entre grupos
n (y - y.. ) 2
- y.. ) 2 I-1 Sˆe2  i 1
i i.

ˆ
i i.
VE i 1 I -1 2
SR
Residual I ni I

 ( y
ni

 ( y
- yi. ) 2
ij - yi. ) 2
n-I SˆR2 
i 1 j 1
ij

VNE i 1 j 1 n-I

I ni

 ( yij - y.. )
I ni

Total
2
n-1  ( y ij - y.. )2
i 1 j 1 Sˆ y2  i 1 j 1

n -1

Regina Kaiser Depto. Estadística, Universidad Carlos III 35


Descomposición de la variabilidad
 Contraste de la F: H 0 : m1  m2   mI
H1 : al menos un par de medias tiene mi  m j
 Si H0 no es cierta, la varianza entre grupos será
mayor que la residual

Aceptación Rechazo
Aceptación
1-a
1-a
a Sˆe2
Regina Kaiser Depto. Estadística, Universidad Carlos III ˆ
SR 2 36
Descomposición de la variabilidad
Ejemplo: manufactura de papel

Sˆe2
SˆR2

Regina Kaiser Depto. Estadística, Universidad Carlos III 37


Descomposición de la variabilidad
Ejemplo: manufactura de papel

 a  0.05

F(3,20)

F0.05(3,20)  3.098

Regina Kaiser Depto. Estadística, Universidad Carlos III


Región de rechazo
38
Descripción breve del tema
1. Introducción al diseño de experimentos
2. El modelo
3. Estimación de los parámetros
4. Propiedades de los estimadores
5. Descomposición de la variabilidad
6. Estimación de la diferencia de medias
 Método de Fisher o LSD, contrastes múltiples
7. Diagnosis
Regina Kaiser Depto. Estadística, Universidad Carlos III 39
Estimación de la diferencia de medias
 Si llegamos a la conclusión de que, al menos,
un par de medias son distintas. Deseamos
saber cuáles son distintas y cuáles iguales.

 Solución: Comparar las medias 2 a 2

Regina Kaiser Depto. Estadística, Universidad Carlos III 40


(n1 - 1) sˆ12  (n2 - 1) sˆ22
Contrastes particulares sˆ 
2

n1  n2 - 2
T

 Contraste para la igualdad de medias de dos poblaciones


normales con varianzas desconocidas pero iguales
 Hipótesis nula. H0: m1 = m2
 Hipótesis alternativa. H1: m1 m2
Rechazo H0 cuando y1 - y2

> t n1  n2 - 2,a / 2
sˆT 1 n1 1 n 2
 Hipótesis alternativa. H1: m1 m2
y1 - y2
 Rechazo H0 cuando  -t n1  n2 -2,a
sˆT 1 n1 1 n 2
 Hipótesis alternativa. H1: m1 >m2
Rechazo H0 cuando y1 - y2

> tn1  n2 -2,a
sˆT 1 n1 1 n 2
Regina Kaiser Depto. Estadística, Universidad Carlos III 41
Intervalos de Confianza particulares
 Intervalo de Confianza para la diferencia de
medias de dos poblaciones normales con
varianzas desconocidas pero iguales.
 1 1 1 1
m1 - m 2   y1 - y2 - t n1  n2 - 2,a / 2 sˆT  , y1 - y2  t n1  n2 - 2,a / 2 sˆT  
 n1 n2 n1 n2 

con un nivel de confianza 1-a,


donde P(X > tn,a) = a si X~tn
Regina Kaiser Depto. Estadística, Universidad Carlos III 42
Estimación de la diferencia de medias
H0: m1 = m2 densidad dedeluna
Distribución tn1n2-2
estimador

H1: m1 m2

0.5
y1 - y2

0.4
Si t  > tn1  n2 -2,a / 2
sˆT 1 n1 1 n 2

0.3
0.2
rechazamos H0.
0.1
Acepto
En la gráfica c  tn1n2-2,a/2
0.0

-c c
-0.1

Regina Kaiser Depto. Estadística, Universidad -4


Carlos III -2 0 2 43 4
Diferencia de medias
Ejemplo: manufactura de papel
H 0 : m1  m2 y1 j ~ N ( m1 , s 2 )
H1 : m1  m2 y2 j ~ N ( m 2 , s 2 )
t  3.48
H 0 : m1  m3 y1 j ~ N ( m1 , s 2 )
t  5.12
H1 : m1  m3 y3 j ~ N ( m3 , s )2

H 0 : m1  m4 y1 j ~ N ( m1 , s 2 )
t  7.07 t(0.025,10)  2.228
2.22
H1 : m1  m4 y3 j ~ N ( m3 , s 2 )
H 0 : m 2  m3 y2 j ~ N ( m 2 , s 2 )
t  0.98
H1 : m 2  m3 y3 j ~ N ( m3 , s )2

H 0 : m2  m4 y2 j ~ N ( m 2 , s 2 ) t  3.49
H1 : m 2  m 4 y4 j ~ N ( m 4 , s 2 ) No hay diferencia en la
H 0 : m3  m 4 y3 j ~ N ( m3 , s 2 ) Resistencia al utilizar el
t  3.06 10 ó 15 % de celulosa
H1 : m3  m 4 y4 j ~ N ( m 4 , s 2 )
Regina Kaiser Depto. Estadística, Universidad Carlos III 44
Diferencia de medias
Ejemplo: manufactura de papel
H 0 : m1  m 2 y1 j ~ N ( m1 , s 2 )
H1 : m1  m 2 y2 j ~ N ( m 2 , s 2 )

H 0 : m1  m3 y1 j ~ N ( m1 , s 2 )
H1 : m1  m3 y3 j ~ N ( m3 , s 2 )
H 0 : m1  m 4 y1 j ~ N ( m1 , s 2 )
H1 : m1  m 4 y3 j ~ N ( m3 , s 2 )
Si todas las varianzas son
H 0 : m 2  m3
iguales, podemos utilizar
y2 j ~ N ( m 2 , s 2 )
la información de todas
H1 : m 2  m3 y3 j ~ N ( m3 , s 2 )
H 0 : m2  m4
las muestras para estimar
y2 j ~ N ( m 2 , s 2 )
la varianza
H1 : m 2  m 4 y4 j ~ N ( m 4 , s 2 )
H 0 : m3  m 4 y3 j ~ N ( m3 , s 2 )
H1 : m3  m 4 y4 j ~ N ( m 4 , s 2 )
Regina Kaiser Depto. Estadística, Universidad Carlos III Sˆ R2 45
Estimación de la diferencia de medias
Método Fisher o LSD
 Deseamos hacer varios contrastes del tipo
H 0 : m1  m2
H1 : m1  m2
y, según las hipótesis del modelo, la varianza es la
misma en todos los niveles del factor. Utilizamos, así,
todos los datos para estimarla
I ni I
 e 2
ij  i i
( n - 1) ˆ2
S
SˆR2 
i 1 j 1
 i 1
n-I n-I
Regina Kaiser Depto. Estadística, Universidad Carlos III 46
Estimación de la diferencia de medias
Método Fisher o LSD
 La distribución del estadístico es ahora:
y1 - y2
~ tn- I
SˆR 1 n1 1 n 2

 Si hay muchos grupos (niveles del factor), el nivel


crítico cambia (porque n-I mucho mayor que
n1n2-2). Con el método de Fisher detectamos
diferencias más pequeñas.
 Explicación: varianza de una t.
Regina Kaiser Depto. Estadística, Universidad Carlos III 47
Diferencia de medias
Ejemplo: manufactura de papel
H 0 : m1  m2
H1 : m1  m2 t  3.48, tLSD  3.84
H 0 : m1  m3
H1 : m1  m3 t  5.12, tLSD  4.75
H 0 : m1  m4
t  7.07, tLSD  7.57
H1 : m1  m4 t(0.025,20)  2.086
(0.025,16) = 2.086
H 0 : m 2  m3
t  0.98, tLSD  0.903
H1 : m 2  m3
H 0 : m2  m4
t  3.49, tLSD  3.73
H1 : m 2  m 4 No hay diferencia en la
H 0 : m3  m 4 Resistencia al utilizar el
t  3.06, tLSD  2.82 10 ó 15 % de celulosa
H1 : m3  m 4
Regina Kaiser Depto. Estadística, Universidad Carlos III 48
Diferencia de medias
Ejemplo: manufactura de papel

Distancia mínima entre Estos son los únicos I.C. que se


grupos para considerarlos solapan
diferentes
Regina Kaiser Depto. Estadística, Universidad Carlos III 49
Estimación de la diferencia de medias
Contrastes múltiples
 En un contraste de hipótesis, estamos siempre
inclinados a aceptar la hipótesis nula. La
rechazamos sólo si hay una evidencia muy
fuerte en su contra.
Pr(Rechazar H0|H0 cierta) a
 Si utilizamos el método de Fisher para
comparar cada pareja de medias, realizamos
I(I-1)/2 contrastes.
Regina Kaiser Depto. Estadística, Universidad Carlos III 50
Estimación de la diferencia de medias
Contrastes múltiples
 Al realizar m contrastes independientes cada
uno con nivel de significación a  0.05, la
probabilidad de rechazar alguna hipótesis nula
cierta es:

Pr(Rechazar algún H0|H0) 1- Pr(Aceptar todos H0|H0)


1- (1- 0.05)m = 1-0.95m > 0.05

Regina Kaiser Depto. Estadística, Universidad Carlos III 51


Estimación de la diferencia de medias
Contrastes múltiples. Método de Bonferroni
Pr(Rechazar algún H0|H0)SPr(Rechazar un H0|H0)=ma

Fijado un nivel de significación global aT , garantizamos


dicho nivel de significación global si realizamos cada
contraste con un nivel de significación a=aT/m

Los intervalos de confianza serán ahora más anchos y se


solaparán con mayor facilidad.
Regina Kaiser Depto. Estadística, Universidad Carlos III 52
Contrastes múltiples. Método de Bonferroni
Ejemplo: manufactura de papel
H 0 : m1  m 2
H1 : m1  m 2 t LSD  3.84
H 0 : m1  m3
t LSD  4.75 t(0.025,16)  2.086
t(0.025,20) = 2.086
H1 : m1  m3
H 0 : m1  m 4
t LSD  7.57
H1 : m1  m 4 a  0.025 / 6  0.00416
H 0 : m 2  m3
t LSD  0.903
H1 : m 2  m3
tt(0.00416,16)  2.927
(0.00416, 20) = 3.008
H 0 : m2  m4
t LSD  3.73 No hay diferencia en la Resistencia
H1 : m 2  m 4
al utilizar el 10 ó 15 % de celulosa.
H 0 : m3  m 4
t LSD  2.82 Tampoco hay diferencia al utilizar el
H1 : m3  m 4 15 ó 20% de celulosa.
Regina Kaiser Depto. Estadística, Universidad Carlos III 53
Descripción breve del tema
1. Introducción al diseño de experimentos
2. El modelo
3. Estimación de los parámetros
4. Propiedades de los estimadores
5. Descomposición de la variabilidad
6. Estimación de la diferencia de medias
 Método de Fisher o LSD, contrastes múltiples
7. Diagnosis
Regina Kaiser Depto. Estadística, Universidad Carlos III 54
Diagnosis
 Para comprobar las hipótesis del modelo,
calculamos los residuos (estimaciones de la
perturbación)

eij  yij - yi.

Regina Kaiser Depto. Estadística, Universidad Carlos III 55


Diagnosis
 Comprobar hipótesis de normalidad:
 Gráficamente:
 Histograma de residuos
 Gráfico probabilístico normal
 Métodos inferenciales:
 Contraste de normalidad

Regina Kaiser Depto. Estadística, Universidad Carlos III 56


Diagnosis
 Comprobar hipótesis de varianza constante:
 Gráficamente:
 Gráfico de residuos frente a niveles del factor
 Gráfico de residuos frente a valores ajustados
 Métodos inferenciales:
 Contraste de igualdad de varianzas (sensibles a la
normalidad)

Regina Kaiser Depto. Estadística, Universidad Carlos III 57


Diagnosis
 Comprobar hipótesis de independencia:
 Gráficos de residuos frente a tiempo.

Si los datos son independientes, en el gráfico no


aparecerá ninguna tendencia.

Si hay tendencias, es posible que el experimento no haya


sido aleatorizado y las diferencias entre los niveles sean
debidas al efecto del tiempo.
Regina Kaiser Depto. Estadística, Universidad Carlos III 58
Diagnosis
Ejemplo: manufactura de papel

Niveles del factor

Regina Kaiser Depto. Estadística, Universidad Carlos III 59

You might also like