You are on page 1of 275

DISEO DE EXPERIMENTOS Y MODELOS DE REGRESIN

Departamento de ingeniera de organizacin,


administracin de empresas y estadstica.

PROGRAMA
1. Anlisis de la varianza. Comparacin de dos tratamientos. La hiptesis de normalidad, independencia y homocedasticidad. Estimacin. Contraste
de igualdad de medias. Contraste de igualdad de varianzas. La distribucin
F: Comparacin de varios tratamientos. Modelo bsico. Descomposicin de la
variabilidad. Tabla del anlisis de la varianza (ADEVA). Contraste de igualdad
de medias. Comparaciones mltiples. Diagnosis de las hiptesis del modelo de
anlisis de la varianza. Grco probabilista normal. Contrastes de homocedasticidad. Aleatorizacin.
2. Diseo de experimentos. Modelo con dos factores. Concepto de interaccin. Descomposicin de la variabilidad. Tabla de anlisis de la varianza.
Contraste de igual de medias. Diagnosis de las hiptesis del modelo. El modelo
en bloques aleatorizados. Modelo y estimacin. Descomposicin de la variabilidad. Tabla de anlisis de la varianza.
3. Regresin lineal. Hiptesis del modelo. Estimacin de los parmetros por
mxima verosimilitud (mnimos cuadrados). Distribucin de los estimadores.
Contrastes individuales de los parmetros del modelo. Contraste general de
regresin. El coeciente de determinacin. Multicolinealidad: identicacin y
sus consecuencias. Prediccin en regresin simple. Variables cualitativas como
regresores. Diagnosis del modelo.

1. Anlisis de la Varianza
Curso 2011-2012
Estadstica

1.1 Dos tratamientos

Comparacin de dos
tratamientos


A
51,3
39,4
26,3
39,0
48,1
34,2
69,8
31,3
45,2
46,4

B
29,6
47,0
25,9
13,0
33,1
22,1
34,1
19,5
43,8
24,9

Sea desea comparar


dos tratamientos para
reducir el nivel de
colesterol en la sangre.
Se seleccionan 20
individuos y se asignan
al azar a dos tipos de
dietas A y B. La tabla
muestra la reduccin
conseguida despus de
dos meses.

Anlisis de la Varianza

Mtodo: 4 pasos


Definicin del modelo de distribucin


de probabilidad:
 Hiptesis
 Parmetros





Estimacin de los parmetros


Diagnosis de las hiptesis
Aplicacin

Anlisis de la Varianza

Modelo

y11
y12

y 21


y1n1

y 22

y 2 n2

M
O
D
E
L
O
D
A
T
O
S
5

Anlisis de la Varianza

Modelo: Hiptesis y Parmetros


Hiptesis bsicas:


Normalidad
yij N(i,2)

Homocedasticidad
Var [yij] = 2

Parmetros

1
2
2

Independencia
Cov [yij, ykl] = 0

Anlisis de la Varianza

Modelo
yij = i + uij ,

uij N (0, 2 )

Las observaciones se descomponen en:




Parte predecible

Parte aleatoria

uij

0
7

Anlisis de la Varianza

Estimacin medias:
n1

y1 j
1 : y1 =

j =1

n1
n2

y2 j
2 : y2 =

Anlisis de la Varianza

j =1

n2

A
51,3
39,4
26,3
39,0
48,1
34,2
69,8
31,3
45,2
46,4
43,1

B
29,6
47,0
25,9
13,0
33,1
22,1
34,1
19,5
43,8
24,9
29,3

Estimacin varianza (residuos)


yij = i + uij , uij N (0, 2 )

Residuos
A
8,2
-3,7
-16,8
-4,1
5,0
-8,9
26,7
-11,8
2,1
3,3
0,0

uij = yij i
eij = yij yi
eij : RESIDUO
2 ni

eij2
2 : sR2 =

i =1 j =1

n2

j =1

B
0,3
17,7
-3,4
-16,3
3,8
-7,2
4,8
-9,8
14,5
-4,4
0,0

eij = 0;s R2 = 130 . 95


9

Anlisis de la Varianza

Varianza residual: s R

1
y11
y12 2
s =
 1
y1 n1

( y1 j y1 )

y 21
y 22 2
s =
 2
y 2 n 2

n1 1

2
ij

Anlisis de la Varianza

n2 1

ni

e
sR2 =

( y 2 j y 2 ) 2

i =1 j =1

n2

n1 1 2 n2 1 2
s1 +
s2
n2
n2
10

Diferencia de medias: y1 y2

1
y11
y12

y1 n1

y1 N ( 1 ,

y 21
y 22

y 2 n 2

n1

n1 n2

( y1 y2 ) ( 1 2 )

N (0,1)

1 1
+

n1 n2

y1 y2 N ( 1 2 ,

y 2 N ( 2 ,

n2

( y1 y2 ) ( 1 2 )
tn2
1 1
+
sR
n1 n2
11

Anlisis de la Varianza

Contraste de igualdad de medias


H 0 : 1 = 2
H1 : 1 2
t0 =

y1 y2
tn2
1 1
sR
+
n1 n2

R.R

R.R.

tn-2

1-
/2

R. Acept.
-t/2

/2

t/2

t0 t / 2 No se rechaza H 0
t0 > t / 2 Se rechaza H 0
Anlisis de la Varianza

12

Ejemplo: = 0.05
H 0 : 1 = 2

R.R.

H1 : 1 2
43.1 29.3
t0 =
= 2.69
1 1
+
11.44
10 10

R.R

t18

0.025

0.025

2.10

-2.10

2.69 > 2.10 Se rechaza H 0


13

Anlisis de la Varianza

Ejemplo: = 0.01
H 0 : 1 = 2
H1 : 1 2
43.1 29.3
t0 =
= 2.69
1 1
+
11.44
10 10

R.R

R.R.

t18

0.99
0.005

0.005
/2

-2.88

2.88

2.69 2.88 No se rechaza H 0


Anlisis de la Varianza

14

Nivel crtico (bilateral)


H 0 : 1 = 2

t18

H 1 : 1 2
43.1 29.3
t0 =
= 2.69
1 1
11.44
+
10 10

0.0074

0.0074

-2.69

2.69

p valor = Pr( t18 > 2.69) = 0.0147


= 0.05 > p-valor Se rechaza H0
= 0.01 < p-valor No se rechaza H0
15

Anlisis de la Varianza

Conclusiones (fijado )


Si |to| > t/2 se dice


que la diferencia
de medias es
significativa. O
simplemente que
los tratamientos
son distintos
(tienen medias
distintas)

Anlisis de la Varianza

Si |to| t/2 se dice


que la diferencia
de medias no es
significativa. No
hay evidencia
suficiente para
afirmar que las
medias de los
tratamientos sean
diferentes.
16

No rechazar Ho, no implica


que Ho sea cierta


El resultado |to| t/2, (no se rechaza


Ho) no debe interpretarse como
que se ha demostrado que las dos
medias son iguales.
No-rechazar la hiptesis nula implica que
la diferencia entre las medias 1 - 2 no
es lo suficientemente grande como para
ser detectada con el tamao muestral
dado.
17

Anlisis de la Varianza

Intervalo de confianza para


la diferencia de medias: 1 2
tn-2

( y1 y2 ) ( 1 2 )
tn2
1 1
+
sR
/2
n1 n2

-t/2
Pr { t / 2

t/2

( y1 y2 ) ( 1 2 )
t / 2 } = 1
1 1
sR
+
n1 n2

1 2 ( y1 y2 ) t / 2 sR
Anlisis de la Varianza

/2

1-

1 1
+
n1 n2
18

Ejemplo: intervalo de confianza 1 2


t18
0.025

0.025

-2.10

2.10
1

+
1 2 ( y1 y 2 ) t / 2 s R
n1 n 2
1
1
+
10 10

1 2 ( 43 .1 29 .3) 2 .10 11 .44


1 2 13 .8 10 .74

19

Anlisis de la Varianza

Hiptesis de homocedasticidad
1

1
y11
y12 2
s =
 1
y1 n1

( y1 j y1 ) 2
n1 1

y 21
y 22 2
s =
 2
y 2 n 2

( y 2 j y 2 ) 2
n2 1

H 0 : 12 = 22
H1 : 12 22
Anlisis de la Varianza

20

Distribucin F
y11
y12 2
s =
 1
y1n1

y 21
y 22 2
s =
 2
y 2 n2

( y1 j y1 ) 2
n1 1

( n1 1) s12

12

( n2 1) s22

n21 1

22

F=

n22 1

n2 1

n22 1

s12

n2 1
1

( y 2 j y 2 ) 2

( n1 1)

( n2 1)

12
s22
22

Fn1 1,n2 1

21

Anlisis de la varianza

Distribucin F

F40,40
F20,40
F10,40
F5,40

Anlisis de la varianza

22

Algunas distribuciones F
F10,80
F10,40
F10,20
F10,10

23

Anlisis de la varianza

Contraste de igualdad de varianzas


H 0 : 12 = 22
H1 : 12 22
Si H 0 es cierto 12 = 22 ,
s12
F0 = 2 Fn1 1,n2 1
s1

RR
/2

RR
/2

1-
R.A. Ho

F1-/2

F/2

Si F0 [F1 / 2 , F / 2 ] No se rechaza H 0
Si F0 [F1 / 2 , F / 2 ] Se rechaza H 0
Anlisis de la varianza

24

Ejemplo: Contraste de igualdad de varianzas


H 0 : 12 = 22
H1 : 12 22
s12 = 154.02 s22 = 111.7

RR
0.025

RR
0.025
0.248 1.37

154.02
F0 =
= 1.37
111.7

4.03

1.37 [0.248,4.03] No se rechaza H 0


25

Anlisis de la varianza

F1 , 2 ,

Tabla F

P ( F1 , 2 F1 , 2 , ) =

Grados de libertad del denominador: 2

=0.05
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
120
Inf

1
161,4
18,51
10,13
7,71
6,61
5,99
5,59
5,32
5,12
4,96
4,84
4,75
4,67
4,60
4,54
4,49
4,45
4,41
4,38
4,35
4,32
4,30
4,28
4,26
4,24
4,23
4,21
4,20
4,18
4,17
4,08
4,03
4,00
3,98
3,96
3,95
3,94
3,92
3,84
1

2
199,5
19,00
9,55
6,94
5,79
5,14
4,74
4,46
4,26
4,10
3,98
3,89
3,81
3,74
3,68
3,63
3,59
3,55
3,52
3,49
3,47
3,44
3,42
3,40
3,39
3,37
3,35
3,34
3,33
3,32
3,23
3,18
3,15
3,13
3,11
3,10
3,09
3,07
3,00
2

3
215,7
19,16
9,28
6,59
5,41
4,76
4,35
4,07
3,86
3,71
3,59
3,49
3,41
3,34
3,29
3,24
3,20
3,16
3,13
3,10
3,07
3,05
3,03
3,01
2,99
2,98
2,96
2,95
2,93
2,92
2,84
2,79
2,76
2,74
2,72
2,71
2,70
2,68
2,60
3

4
224,6
19,25
9,12
6,39
5,19
4,53
4,12
3,84
3,63
3,48
3,36
3,26
3,18
3,11
3,06
3,01
2,96
2,93
2,90
2,87
2,84
2,82
2,80
2,78
2,76
2,74
2,73
2,71
2,70
2,69
2,61
2,56
2,53
2,50
2,49
2,47
2,46
2,45
2,37
4

5
230,2
19,30
9,01
6,26
5,05
4,39
3,97
3,69
3,48
3,33
3,20
3,11
3,03
2,96
2,90
2,85
2,81
2,77
2,74
2,71
2,68
2,66
2,64
2,62
2,60
2,59
2,57
2,56
2,55
2,53
2,45
2,40
2,37
2,35
2,33
2,32
2,31
2,29
2,21
5

6
234,0
19,33
8,94
6,16
4,95
4,28
3,87
3,58
3,37
3,22
3,09
3,00
2,92
2,85
2,79
2,74
2,70
2,66
2,63
2,60
2,57
2,55
2,53
2,51
2,49
2,47
2,46
2,45
2,43
2,42
2,34
2,29
2,25
2,23
2,21
2,20
2,19
2,18
2,10
6

Ejemplo : P ( F7,8 3.50) = 0.05

7
236,8
19,35
8,89
6,09
4,88
4,21
3,79
3,50
3,29
3,14
3,01
2,91
2,83
2,76
2,71
2,66
2,61
2,58
2,54
2,51
2,49
2,46
2,44
2,42
2,40
2,39
2,37
2,36
2,35
2,33
2,25
2,20
2,17
2,14
2,13
2,11
2,10
2,09
2,01
7

8
238,9
19,37
8,85
6,04
4,82
4,15
3,73
3,44
3,23
3,07
2,95
2,85
2,77
2,70
2,64
2,59
2,55
2,51
2,48
2,45
2,42
2,40
2,37
2,36
2,34
2,32
2,31
2,29
2,28
2,27
2,18
2,13
2,10
2,07
2,06
2,04
2,03
2,02
1,94
8

9
240,5
19,38
8,81
6,00
4,77
4,10
3,68
3,39
3,18
3,02
2,90
2,80
2,71
2,65
2,59
2,54
2,49
2,46
2,42
2,39
2,37
2,34
2,32
2,30
2,28
2,27
2,25
2,24
2,22
2,21
2,12
2,07
2,04
2,02
2,00
1,99
1,97
1,96
1,88
9

10
241,9
19,40
8,79
5,96
4,74
4,06
3,64
3,35
3,14
2,98
2,85
2,75
2,67
2,60
2,54
2,49
2,45
2,41
2,38
2,35
2,32
2,30
2,27
2,25
2,24
2,22
2,20
2,19
2,18
2,16
2,08
2,03
1,99
1,97
1,95
1,94
1,93
1,91
1,83
10

12
243,9
19,41
8,74
5,91
4,68
4,00
3,57
3,28
3,07
2,91
2,79
2,69
2,60
2,53
2,48
2,42
2,38
2,34
2,31
2,28
2,25
2,23
2,20
2,18
2,16
2,15
2,13
2,12
2,10
2,09
2,00
1,95
1,92
1,89
1,88
1,86
1,85
1,83
1,75
12

15
245,9
19,43
8,70
5,86
4,62
3,94
3,51
3,22
3,01
2,85
2,72
2,62
2,53
2,46
2,40
2,35
2,31
2,27
2,23
2,20
2,18
2,15
2,13
2,11
2,09
2,07
2,06
2,04
2,03
2,01
1,92
1,87
1,84
1,81
1,79
1,78
1,77
1,75
1,67
15

20
248,0
19,45
8,66
5,80
4,56
3,87
3,44
3,15
2,94
2,77
2,65
2,54
2,46
2,39
2,33
2,28
2,23
2,19
2,16
2,12
2,10
2,07
2,05
2,03
2,01
1,99
1,97
1,96
1,94
1,93
1,84
1,78
1,75
1,72
1,70
1,69
1,68
1,66
1,57
20

24
249,1
19,45
8,64
5,77
4,53
3,84
3,41
3,12
2,90
2,74
2,61
2,51
2,42
2,35
2,29
2,24
2,19
2,15
2,11
2,08
2,05
2,03
2,01
1,98
1,96
1,95
1,93
1,91
1,90
1,89
1,79
1,74
1,70
1,67
1,65
1,64
1,63
1,61
1,52
24

30
250,1
19,46
8,62
5,75
4,50
3,81
3,38
3,08
2,86
2,70
2,57
2,47
2,38
2,31
2,25
2,19
2,15
2,11
2,07
2,04
2,01
1,98
1,96
1,94
1,92
1,90
1,88
1,87
1,85
1,84
1,74
1,69
1,65
1,62
1,60
1,59
1,57
1,55
1,46
30

40
251,1
19,47
8,59
5,72
4,46
3,77
3,34
3,04
2,83
2,66
2,53
2,43
2,34
2,27
2,20
2,15
2,10
2,06
2,03
1,99
1,96
1,94
1,91
1,89
1,87
1,85
1,84
1,82
1,81
1,79
1,69
1,63
1,59
1,57
1,54
1,53
1,52
1,50
1,39
40

60
252,2
19,48
8,57
5,69
4,43
3,74
3,30
3,01
2,79
2,62
2,49
2,38
2,30
2,22
2,16
2,11
2,06
2,02
1,98
1,95
1,92
1,89
1,86
1,84
1,82
1,80
1,79
1,77
1,75
1,74
1,64
1,58
1,53
1,50
1,48
1,46
1,45
1,43
1,32
60

100
253,0
19,49
8,55
5,66
4,41
3,71
3,27
2,97
2,76
2,59
2,46
2,35
2,26
2,19
2,12
2,07
2,02
1,98
1,94
1,91
1,88
1,85
1,82
1,80
1,78
1,76
1,74
1,73
1,71
1,70
1,59
1,52
1,48
1,45
1,43
1,41
1,39
1,37
1,24
100

120
253,3
19,49
8,55
5,66
4,40
3,70
3,27
2,97
2,75
2,58
2,45
2,34
2,25
2,18
2,11
2,06
2,01
1,97
1,93
1,90
1,87
1,84
1,81
1,79
1,77
1,75
1,73
1,71
1,70
1,68
1,58
1,51
1,47
1,44
1,41
1,39
1,38
1,35
1,22
120

Inf.
254,3
19,50
8,53
5,63
4,37
3,67
3,23
2,93
2,71
2,54
2,40
2,30
2,21
2,13
2,07
2,01
1,96
1,92
1,88
1,84
1,81
1,78
1,76
1,73
1,71
1,69
1,67
1,65
1,64
1,62
1,51
1,44
1,39
1,35
1,32
1,30
1,28
1,25
1,00
Inf.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
120
Inf

F1 , 2 ,

Tabla F

P ( F1 , 2 F1 , 2 , ) =

=0.025

Grados de libertad del denominador: 2

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
120
Inf

1
647,8
38,51
17,44
12,22
10,01
8,81
8,07
7,57
7,21
6,94
6,72
6,55
6,41
6,30
6,20
6,12
6,04
5,98
5,92
5,87
5,83
5,79
5,75
5,72
5,69
5,66
5,63
5,61
5,59
5,57
5,42
5,34
5,29
5,25
5,22
5,20
5,18
5,15
5,02
1

2
799,5
39,00
16,04
10,65
8,43
7,26
6,54
6,06
5,71
5,46
5,26
5,10
4,97
4,86
4,77
4,69
4,62
4,56
4,51
4,46
4,42
4,38
4,35
4,32
4,29
4,27
4,24
4,22
4,20
4,18
4,05
3,97
3,93
3,89
3,86
3,84
3,83
3,80
3,69
2

3
864,2
39,17
15,44
9,98
7,76
6,60
5,89
5,42
5,08
4,83
4,63
4,47
4,35
4,24
4,15
4,08
4,01
3,95
3,90
3,86
3,82
3,78
3,75
3,72
3,69
3,67
3,65
3,63
3,61
3,59
3,46
3,39
3,34
3,31
3,28
3,26
3,25
3,23
3,12
3

4
899,6
39,25
15,10
9,60
7,39
6,23
5,52
5,05
4,72
4,47
4,28
4,12
4,00
3,89
3,80
3,73
3,66
3,61
3,56
3,51
3,48
3,44
3,41
3,38
3,35
3,33
3,31
3,29
3,27
3,25
3,13
3,05
3,01
2,97
2,95
2,93
2,92
2,89
2,79
4

5
921,8
39,30
14,88
9,36
7,15
5,99
5,29
4,82
4,48
4,24
4,04
3,89
3,77
3,66
3,58
3,50
3,44
3,38
3,33
3,29
3,25
3,22
3,18
3,15
3,13
3,10
3,08
3,06
3,04
3,03
2,90
2,83
2,79
2,75
2,73
2,71
2,70
2,67
2,57
5

6
937,1
39,33
14,73
9,20
6,98
5,82
5,12
4,65
4,32
4,07
3,88
3,73
3,60
3,50
3,41
3,34
3,28
3,22
3,17
3,13
3,09
3,05
3,02
2,99
2,97
2,94
2,92
2,90
2,88
2,87
2,74
2,67
2,63
2,59
2,57
2,55
2,54
2,52
2,41
6

7
948,2
39,36
14,62
9,07
6,85
5,70
4,99
4,53
4,20
3,95
3,76
3,61
3,48
3,38
3,29
3,22
3,16
3,10
3,05
3,01
2,97
2,93
2,90
2,87
2,85
2,82
2,80
2,78
2,76
2,75
2,62
2,55
2,51
2,47
2,45
2,43
2,42
2,39
2,29
7

8
956,6
39,37
14,54
8,98
6,76
5,60
4,90
4,43
4,10
3,85
3,66
3,51
3,39
3,29
3,20
3,12
3,06
3,01
2,96
2,91
2,87
2,84
2,81
2,78
2,75
2,73
2,71
2,69
2,67
2,65
2,53
2,46
2,41
2,38
2,35
2,34
2,32
2,30
2,19
8

9
963,3
39,39
14,47
8,90
6,68
5,52
4,82
4,36
4,03
3,78
3,59
3,44
3,31
3,21
3,12
3,05
2,98
2,93
2,88
2,84
2,80
2,76
2,73
2,70
2,68
2,65
2,63
2,61
2,59
2,57
2,45
2,38
2,33
2,30
2,28
2,26
2,24
2,22
2,11
9

10
968,6
39,40
14,42
8,84
6,62
5,46
4,76
4,30
3,96
3,72
3,53
3,37
3,25
3,15
3,06
2,99
2,92
2,87
2,82
2,77
2,73
2,70
2,67
2,64
2,61
2,59
2,57
2,55
2,53
2,51
2,39
2,32
2,27
2,24
2,21
2,19
2,18
2,16
2,05
10

12
976,7
39,41
14,34
8,75
6,52
5,37
4,67
4,20
3,87
3,62
3,43
3,28
3,15
3,05
2,96
2,89
2,82
2,77
2,72
2,68
2,64
2,60
2,57
2,54
2,51
2,49
2,47
2,45
2,43
2,41
2,29
2,22
2,17
2,14
2,11
2,09
2,08
2,05
1,94
12

15
984,9
39,43
14,25
8,66
6,43
5,27
4,57
4,10
3,77
3,52
3,33
3,18
3,05
2,95
2,86
2,79
2,72
2,67
2,62
2,57
2,53
2,50
2,47
2,44
2,41
2,39
2,36
2,34
2,32
2,31
2,18
2,11
2,06
2,03
2,00
1,98
1,97
1,94
1,83
15

20
993,1
39,45
14,17
8,56
6,33
5,17
4,47
4,00
3,67
3,42
3,23
3,07
2,95
2,84
2,76
2,68
2,62
2,56
2,51
2,46
2,42
2,39
2,36
2,33
2,30
2,28
2,25
2,23
2,21
2,20
2,07
1,99
1,94
1,91
1,88
1,86
1,85
1,82
1,71
20

24
30
40
60
100
120
Inf.
997,3 1001,4 1005,6 1009,8 1013,2 1014,0 1018,3
39,46 39,46 39,47 39,48 39,49 39,49 39,50
14,12 14,08 14,04 13,99 13,96 13,95 13,90
8,51
8,46
8,41
8,36
8,32
8,31
8,26
6,28
6,23
6,18
6,12
6,08
6,07
6,02
5,12
5,07
5,01
4,96
4,92
4,90
4,85
4,41
4,36
4,31
4,25
4,21
4,20
4,14
3,95
3,89
3,84
3,78
3,74
3,73
3,67
3,61
3,56
3,51
3,45
3,40
3,39
3,33
3,37
3,31
3,26
3,20
3,15
3,14
3,08
3,17
3,12
3,06
3,00
2,96
2,94
2,88
3,02
2,96
2,91
2,85
2,80
2,79
2,72
2,89
2,84
2,78
2,72
2,67
2,66
2,60
2,79
2,73
2,67
2,61
2,56
2,55
2,49
2,70
2,64
2,59
2,52
2,47
2,46
2,40
2,63
2,57
2,51
2,45
2,40
2,38
2,32
2,56
2,50
2,44
2,38
2,33
2,32
2,25
2,50
2,44
2,38
2,32
2,27
2,26
2,19
2,45
2,39
2,33
2,27
2,22
2,20
2,13
2,41
2,35
2,29
2,22
2,17
2,16
2,09
2,37
2,31
2,25
2,18
2,13
2,11
2,04
2,33
2,27
2,21
2,14
2,09
2,08
2,00
2,30
2,24
2,18
2,11
2,06
2,04
1,97
2,27
2,21
2,15
2,08
2,02
2,01
1,94
2,24
2,18
2,12
2,05
2,00
1,98
1,91
2,22
2,16
2,09
2,03
1,97
1,95
1,88
2,19
2,13
2,07
2,00
1,94
1,93
1,85
2,17
2,11
2,05
1,98
1,92
1,91
1,83
2,15
2,09
2,03
1,96
1,90
1,89
1,81
2,14
2,07
2,01
1,94
1,88
1,87
1,79
2,01
1,94
1,88
1,80
1,74
1,72
1,64
1,93
1,87
1,80
1,72
1,66
1,64
1,55
1,88
1,82
1,74
1,67
1,60
1,58
1,48
1,85
1,78
1,71
1,63
1,56
1,54
1,44
1,82
1,75
1,68
1,60
1,53
1,51
1,40
1,80
1,73
1,66
1,58
1,50
1,48
1,37
1,78
1,71
1,64
1,56
1,48
1,46
1,35
1,76
1,69
1,61
1,53
1,45
1,43
1,31
1,64
1,57
1,48
1,39
1,30
1,27
1,00
24
30
40
60
100
120
Inf.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
120
Inf

Ejemplo : P ( F7,8 4.53) = 0.025

F1 , 2 ,

Tabla F

P ( F1 , 2 F1 , 2 , ) =

Grados de libertad del denominador: 2

=0.01
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
120
Inf

1
4052,2
98,50
34,12
21,20
16,26
13,75
12,25
11,26
10,56
10,04
9,65
9,33
9,07
8,86
8,68
8,53
8,40
8,29
8,18
8,10
8,02
7,95
7,88
7,82
7,77
7,72
7,68
7,64
7,60
7,56
7,31
7,17
7,08
7,01
6,96
6,93
6,90
6,85
6,63
1

2
4999,3
99,00
30,82
18,00
13,27
10,92
9,55
8,65
8,02
7,56
7,21
6,93
6,70
6,51
6,36
6,23
6,11
6,01
5,93
5,85
5,78
5,72
5,66
5,61
5,57
5,53
5,49
5,45
5,42
5,39
5,18
5,06
4,98
4,92
4,88
4,85
4,82
4,79
4,61
2

3
5403,5
99,16
29,46
16,69
12,06
9,78
8,45
7,59
6,99
6,55
6,22
5,95
5,74
5,56
5,42
5,29
5,19
5,09
5,01
4,94
4,87
4,82
4,76
4,72
4,68
4,64
4,60
4,57
4,54
4,51
4,31
4,20
4,13
4,07
4,04
4,01
3,98
3,95
3,78
3

4
5624,3
99,25
28,71
15,98
11,39
9,15
7,85
7,01
6,42
5,99
5,67
5,41
5,21
5,04
4,89
4,77
4,67
4,58
4,50
4,43
4,37
4,31
4,26
4,22
4,18
4,14
4,11
4,07
4,04
4,02
3,83
3,72
3,65
3,60
3,56
3,53
3,51
3,48
3,32
4

5
5764,0
99,30
28,24
15,52
10,97
8,75
7,46
6,63
6,06
5,64
5,32
5,06
4,86
4,69
4,56
4,44
4,34
4,25
4,17
4,10
4,04
3,99
3,94
3,90
3,85
3,82
3,78
3,75
3,73
3,70
3,51
3,41
3,34
3,29
3,26
3,23
3,21
3,17
3,02
5

6
5859,0
99,33
27,91
15,21
10,67
8,47
7,19
6,37
5,80
5,39
5,07
4,82
4,62
4,46
4,32
4,20
4,10
4,01
3,94
3,87
3,81
3,76
3,71
3,67
3,63
3,59
3,56
3,53
3,50
3,47
3,29
3,19
3,12
3,07
3,04
3,01
2,99
2,96
2,80
6

7
5928,3
99,36
27,67
14,98
10,46
8,26
6,99
6,18
5,61
5,20
4,89
4,64
4,44
4,28
4,14
4,03
3,93
3,84
3,77
3,70
3,64
3,59
3,54
3,50
3,46
3,42
3,39
3,36
3,33
3,30
3,12
3,02
2,95
2,91
2,87
2,84
2,82
2,79
2,64
7

Ejemplo : P ( F7,8 6.18) = 0.01

8
5981,0
99,38
27,49
14,80
10,29
8,10
6,84
6,03
5,47
5,06
4,74
4,50
4,30
4,14
4,00
3,89
3,79
3,71
3,63
3,56
3,51
3,45
3,41
3,36
3,32
3,29
3,26
3,23
3,20
3,17
2,99
2,89
2,82
2,78
2,74
2,72
2,69
2,66
2,51
8

9
6022,4
99,39
27,34
14,66
10,16
7,98
6,72
5,91
5,35
4,94
4,63
4,39
4,19
4,03
3,89
3,78
3,68
3,60
3,52
3,46
3,40
3,35
3,30
3,26
3,22
3,18
3,15
3,12
3,09
3,07
2,89
2,78
2,72
2,67
2,64
2,61
2,59
2,56
2,41
9

10
6055,9
99,40
27,23
14,55
10,05
7,87
6,62
5,81
5,26
4,85
4,54
4,30
4,10
3,94
3,80
3,69
3,59
3,51
3,43
3,37
3,31
3,26
3,21
3,17
3,13
3,09
3,06
3,03
3,00
2,98
2,80
2,70
2,63
2,59
2,55
2,52
2,50
2,47
2,32
10

12
6106,7
99,42
27,05
14,37
9,89
7,72
6,47
5,67
5,11
4,71
4,40
4,16
3,96
3,80
3,67
3,55
3,46
3,37
3,30
3,23
3,17
3,12
3,07
3,03
2,99
2,96
2,93
2,90
2,87
2,84
2,66
2,56
2,50
2,45
2,42
2,39
2,37
2,34
2,18
12

15
6157,0
99,43
26,87
14,20
9,72
7,56
6,31
5,52
4,96
4,56
4,25
4,01
3,82
3,66
3,52
3,41
3,31
3,23
3,15
3,09
3,03
2,98
2,93
2,89
2,85
2,81
2,78
2,75
2,73
2,70
2,52
2,42
2,35
2,31
2,27
2,24
2,22
2,19
2,04
15

20
6208,7
99,45
26,69
14,02
9,55
7,40
6,16
5,36
4,81
4,41
4,10
3,86
3,66
3,51
3,37
3,26
3,16
3,08
3,00
2,94
2,88
2,83
2,78
2,74
2,70
2,66
2,63
2,60
2,57
2,55
2,37
2,27
2,20
2,15
2,12
2,09
2,07
2,03
1,88
20

24
6234,3
99,46
26,60
13,93
9,47
7,31
6,07
5,28
4,73
4,33
4,02
3,78
3,59
3,43
3,29
3,18
3,08
3,00
2,92
2,86
2,80
2,75
2,70
2,66
2,62
2,58
2,55
2,52
2,49
2,47
2,29
2,18
2,12
2,07
2,03
2,00
1,98
1,95
1,79
24

30
6260,4
99,47
26,50
13,84
9,38
7,23
5,99
5,20
4,65
4,25
3,94
3,70
3,51
3,35
3,21
3,10
3,00
2,92
2,84
2,78
2,72
2,67
2,62
2,58
2,54
2,50
2,47
2,44
2,41
2,39
2,20
2,10
2,03
1,98
1,94
1,92
1,89
1,86
1,70
30

40
6286,4
99,48
26,41
13,75
9,29
7,14
5,91
5,12
4,57
4,17
3,86
3,62
3,43
3,27
3,13
3,02
2,92
2,84
2,76
2,69
2,64
2,58
2,54
2,49
2,45
2,42
2,38
2,35
2,33
2,30
2,11
2,01
1,94
1,89
1,85
1,82
1,80
1,76
1,59
40

60
6313,0
99,48
26,32
13,65
9,20
7,06
5,82
5,03
4,48
4,08
3,78
3,54
3,34
3,18
3,05
2,93
2,83
2,75
2,67
2,61
2,55
2,50
2,45
2,40
2,36
2,33
2,29
2,26
2,23
2,21
2,02
1,91
1,84
1,78
1,75
1,72
1,69
1,66
1,47
60

100
6333,9
99,49
26,24
13,58
9,13
6,99
5,75
4,96
4,41
4,01
3,71
3,47
3,27
3,11
2,98
2,86
2,76
2,68
2,60
2,54
2,48
2,42
2,37
2,33
2,29
2,25
2,22
2,19
2,16
2,13
1,94
1,82
1,75
1,70
1,65
1,62
1,60
1,56
1,36
100

120
6339,5
99,49
26,22
13,56
9,11
6,97
5,74
4,95
4,40
4,00
3,69
3,45
3,25
3,09
2,96
2,84
2,75
2,66
2,58
2,52
2,46
2,40
2,35
2,31
2,27
2,23
2,20
2,17
2,14
2,11
1,92
1,80
1,73
1,67
1,63
1,60
1,57
1,53
1,32
120

Inf.
6365,6
99,50
26,13
13,46
9,02
6,88
5,65
4,86
4,31
3,91
3,60
3,36
3,17
3,00
2,87
2,75
2,65
2,57
2,49
2,42
2,36
2,31
2,26
2,21
2,17
2,13
2,10
2,06
2,03
2,01
1,80
1,68
1,60
1,54
1,49
1,46
1,43
1,38
1,00
Inf.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
120
Inf

1.2

K tratamientos

29

Anlisis de la varianza

Existen diferencias entre las


cuatro semillas?


Se desea comparar el rendimiento de


cuatro semillas A,B,C y D. Un terreno se
divide en 24 parcelas similares y se asigna
al azar cada semilla a 6 parcelas.
A
229.1
253.7
241.3
254.7
237.2
241.3
242.9

Anlisis de la varianza

B
233.4
233.0
219.2
200.0
224.3
202.0
218.7

C
211.1
223.1
217.5
211.8
207.6
213.7
214.1

D
270.4
248.6
230.0
250.7
230.0
245.8
245.9
30

Mtodo: 4 pasos


Definicin del modelo de distribucin


de probabilidad:
 Hiptesis
 Parmetros





Estimacin de los parmetros


Diagnosis de las hiptesis
Aplicacin

31

Anlisis de la varianza

Modelo

y11

y 21
y 22

y12

y1n

Anlisis de la varianza


y2n

...

...

yK1
yK 2

y Kn

K
32

Hiptesis del modelo




Normalidad
 yij

N(i,2)

Homocedasticidad
 Var

[yij] = 2

Independencia
 Cov

[yij, ykl] = 0

33

Anlisis de la varianza

Modelo: Hiptesis y Parmetros


Hiptesis bsicas:

Parmetros

Normalidad

1
2

yij N(i,2)


Homocedasticidad
Var [yij] = 2

Independencia
Cov [yij, ykl] = 0

Anlisis de la varianza

K
2
34

Modelo: Forma alternativa


uij N (0, 2 )

yij = i + uij ,

Las observaciones se descomponen en:




Parte predecible

Parte aleatoria

uij

0
35

Anlisis de la varianza

Estimacin medias:Max. Verosmil


n1

y1 j
1 : y1 =

j =1

n1
n2

y2 j
2 : y2 =

j =1

n2


nK

y Kj
K : yK =

Anlisis de la varianza

A
229.1
253.7
241.3
254.7
237.2
241.3
242.9

B
233.4
233.0
219.2
200.0
224.3
202.0
218.7

C
211.1
223.1
217.5
211.8
207.6
213.7
214.1

D
270.4
248.6
230.0
250.7
230.0
245.8
245.9

j =1

nK

36

Estimacin varianza (residuos)


yij = i + uij , uij N (0, 2 )
uij = yij i
eij = yij yi
eij : RESIDUO
K ni

eij2
2 : sR2 = i =1 j =1

nK

Residuos
A
-13.8
10.8
-1.6
11.8
-5.7
-1.6
0.0

B
14.8
14.4
0.6
-18.7
5.7
-16.7
0.0

C
-3.0
9.0
3.4
-2.3
-6.5
-0.4
0.0

D
24.5
2.7
-15.9
4.8
-15.9
-0.1
0.0

sR2 = 142.4

Anlisis de la varianza

37

Comparacin de medias


La comparacin de tratamientos con


este modelo se reduce a comparar
las medias 1, 2, ..., K , en primer
lugar con el contraste:

H 0 : 1 = 2 =  = K
H1 : Al menos una es diferente

Anlisis de la varianza

38

Descomposicin de la
variabilidad
yij = i + uij yij = y i + ( yij y i ) : restando y =

yij
n

yij y = ( y i y ) + ( yij y i )
elevando al cuadrado y sumando para todo i,j
K ni

(donde ( y i y )( yij y i ) = 0)
i =1 j =1

K ni

K ni

K ni

( yij y ) = ( y i y ) + ( yij y i ) 2

i =1 j =1

i =1 j =1

K ni

i =1 j =1

K ni

( yij y ) = ni ( y i y ) + ( yij y i ) 2

i =1 j =1

i =1

i =1 j =1

39

Anlisis de la varianza

Variabilidades
Variabilidades

Grados de libertad

K ni

VT = ( yij y ) 2

n-1

VE = ni ( y i y ) 2

K-1

i =1 j =1
K
i =1

K ni

K ni

VNE = ( yij y i ) = eij 2


2

i =1 j =1

n-K

i =1 j =1

VT = VE

+ VNE

n 1 = ( K 1) + (n K )
Anlisis de la varianza

40

Descomposicin: ejemplo
y = 230.4
Medias

Datos
229.1
253.7
241.3
254.7
237.2
241.3

233.4
233.0
219.2
200.0
224.3
202.0

211.1
223.1
217.5
211.8
207.6
213.7

270.4
248.6
230.0
250.7
230.0
245.8

-1.3
23.3
10.9
24.3
6.8
10.9

3.0
2.6
-11.2
-30.4
-6.1
-28.4

-19.3
-7.3
-12.9
-18.6
-22.8
-16.7

40.0
18.2
-0.4
20.3
-0.4
15.4

Residuos

242.9
242.9
242.9
242.9
242.9
242.9

218.7
218.7
218.7
218.7
218.7
218.7

214.1
214.1
214.1
214.1
214.1
214.1

245.9
245.9
245.9
245.9
245.9
245.9

12.5
12.5
12.5
12.5
12.5
12.5

-11.7
-11.7
-11.7
-11.7
-11.7
-11.7

-16.3
-16.3
-16.3
-16.3
-16.3
-16.3

15.5
15.5
15.5
15.5
15.5
15.5

yij y

-13.8
10.8
-1.6
11.8
-5.7
-1.6

14.8
14.4
0.6
-18.7
5.7
-16.7

-3.0
9.0
3.4
-2.3
-6.5
-0.4

24.5
2.7
-15.9
4.8
-15.9
-0.1

-13.8
10.8
-1.6
11.8
-5.7
-1.6

14.8
14.4
0.6
-18.7
5.7
-16.7

-3.0
9.0
3.4
-2.3
-6.5
-0.4

24.5
2.7
-15.9
4.8
-15.9
-0.1

yij y i

yi y

41

Anlisis de la varianza

Variabilidades: ejemplo
Variabilidades

Grados de libertad

K ni

VT = ( yij y ) 2 = 7645.5

n-1 = 23

VE = ni ( y i y ) 2 = 4798.1

K-1 = 3

i =1 j =1
K
i =1

K ni

VNE = eij 2 = 2847.4

n-K = 20

i =1 j =1

7645.5 = 4798.1 + 2847.4


23 = 3 + 20
Anlisis de la varianza

42

Interpretacin grfica de la
descomposicin
y1
y 2
yij y i

y i y

y 3

y 4
y

y ij y
43

Anlisis de la varianza

Distribucin de VE
2

yij N ( i , ) y i N ( i ,

2
ni

Si 1 = 2 =  = K que llamaremos
yi N ( ,

i
2

2
ni

)
2

y1 y 2
y
2

+
++ K

/ n / n
/ n K
K
2
1

y y
y1 y y 2 y
2

+
++ K

/ n K 1
/ n / n
K
2
1

Anlisis de la varianza

44

Distribucin de VNE
ni

( yij y i )
2

yij N ( i , )

si2

i =1 j =1

nK

n2 1
i

nK

j =1

j =1

( y1 j y1 ) 2 + ( y2 j y 2 ) 2 +  + ( y Kj y K ) 2
=
=

( yij y i ) 2

(n K ) sR2

ni 1

(ni 1) si2

K ni

sR2 =

j =1

(n1 1) s12

j =1

nK
(n1 1) s12 + (n2 1) s22 +  + (nK 1) sK2
nK
(n2 1) s22

++

(nK 1) sK2

= n2 1 + n2 1 +  + n2 1 = n2 K
1

45

Anlisis de la varianza

Contraste (Anlisis de la Varianza)


H 0 : 1 = 2 =  = K
H1 : Al menos una es diferente

(n K ) sR2
2

n2 K

ni ( yi y )

Si Ho es cierto : i =1

K2 1

K
2
ni ( y i y )
F0 = i = 1
FK 1, n K
2
( K 1) sR
F0 F No se rechaza H 0
F0 > F Se rechaza H 0
Anlisis de la varianza

46

Tabla de Anlisis de la Varianza

Fuentes

Suma de
Cuadrados

Tratamientos ni ( y i y )
Residual
Total

Grados de
Libertad
2

Varianzas
2

K 1

ni ( y i y ) /( K 1)

( yij y i ) 2

nK

( yij y ) 2

s 2
R

n 1

F
ni ( y i y ) 2
( K 1) sR2

47

Anlisis de la varianza

Tabla de Anlisis de la Varianza


Suma de
Fuentes
Tratamientos
Residual
Total

Anlisis de la varianza

Gradosde

Cuadrados Libertad Varianzas


4798.1
2847.4
7645.5

3
20
23

1599.3
142.4

F
11.2

48

Intervalos de confianza para


las medias
2

yij N ( i , ) y i N ( i ,
y i i

sR
ni

ni

N (0,1)

R.R

R.R.

ni
y i i

tn-K

1-

tn K

iyi t / 2

/2

/2

s
R

R. Acept. H0
-t/2

t/2

n
i
49

Anlisis de la varianza

Intervalos de confianza

Semilla
A
B
C
D

Anlisis de la varianza

Media
242.9
218.7
214.1
245.9

L. Inferior L. Superior
235.7
211.4
206.9
238.7

250.1
225.8
221.3
253.1

50

Intervalos de confianza (95%)

Rendimiento

260
250
240
230
220
210
200
A

Semilla
51

Anlisis de la varianza

Diferencia de medias: y1 y2

1
y11
y12

y1 n1

y1 N ( 1 ,

n1

n1
n2

( y1 y 2 ) ( 1 2 )

N (0,1)

1
1

n1 n2

y1 y 2 N ( 1 2 ,

Anlisis de la varianza

y 21
y 22

y 2 n 2

y 2 N ( 2 ,

n2

( y1 y 2 ) ( 1 2 )
s R

1
1
+
n1 n2

t n K

52

Contraste multiples

H 0 : i = j
H1 : i j
tij =

yi y j
sR

1 1
+
ni n j

R.R

R.R.

tn-K

1-
/2

/2

R. Acept. H0

tn K
-t/2

t/2

t0 t / 2 No se rechaza H 0

t0 > t / 2 Se rechaza H 0
Anlisis de la varianza

Diagnosis del modelo

53

Modelo

y11

y 21
y 22

y12

y1n


y2n

...

...

yK1
yK 2

y Kn

K
55

Anlisis de la varianza

Hiptesis del modelo




Normalidad
 yij

N(i,2)

Homocedasticidad
 Var

[yij] = 2

Independencia
 Cov

Anlisis de la varianza

[yij, ykl] = 0

56

Residuos:
Normales y homocedsticos

yij = i + uij
uij = yij i

eij = yij yi

uij N (0, 2 )
Residuos
A
-13,8
10,8
-1,6
11,8
-5,7
-1,6
0,0

B
14,8
14,4
0,6
-18,7
5,7
-16,7
0,0

C
-3,0
9,0
3,4
-2,3
-6,5
-0,4
0,0

D
24,5
2,7
-15,9
4,8
-15,9
-0,1
0,0

Anlisis de la varianza

57

Comprobacin de la
normalidad
Los residuos deben de tener distribucin normal.
Las observaciones originales tambin, pero cada
grupo con media diferente, por ello es preciso
estimar el modelo para descontar a cada
observacin su media y obtener valores con la
misma distribucin.

Herramientas de comprobacin:




Histograma de residuos
Grfico de probabilidad normal (Q-Q plot)
Contrastes formales (Kolmogorov-Smirnov)

Anlisis de la varianza

58

Grfico probabilista normal




Es un grfico X-Y de
los residuos frente a
los percentiles de la
distribucin normal.

Pasos:

La idea bsica es que


cuando los residuos
tienen distribucin
normal, los puntos
deben formar
aproximadamente
una lnea recta

Ordenar los residuos


de menor a mayor.
e(1) e( 2)  e( n )

Calcular los
percentiles de la
distribucin normal
Yi = 1 (

i 0 .5
) sR , i = 1,2,..., n
n

Representar

e(i ) , Yi
59

Anlisis de la varianza

Grfico prob. Normal


(ejemplo)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

Resid. Probab. Percen. Percen.


eij
(i-0.5)/n N(0,1) N(0, )
-18,7
-16,7
-15,9
-15,9
-13,8
-6,5
-5,7
-3,0
-2,3
-1,6
-1,6
-0,4
-0,1
0,6
2,7
3,4
4,8
5,7
9,0
10,8
11,8
14,4
14,8
24,5

0,021
0,063
0,104
0,146
0,188
0,229
0,271
0,313
0,354
0,396
0,438
0,479
0,521
0,563
0,604
0,646
0,688
0,729
0,771
0,813
0,854
0,896
0,938
0,979

Anlisis de la varianza

-2,04
-1,53
-1,26
-1,05
-0,89
-0,74
-0,61
-0,49
-0,37
-0,26
-0,16
-0,05
0,05
0,16
0,26
0,37
0,49
0,61
0,74
0,89
1,05
1,26
1,53
2,04

-24,30
-18,30
-15,01
-12,58
-10,58
-8,85
-7,28
-5,83
-4,46
-3,15
-1,88
-0,62
0,62
1,88
3,15
4,46
5,83
7,28
8,85
10,58
12,58
15,01
18,30
24,30

Q-Q plot
30,0
20,0
10,0

Percentiles

Orden
i

0,0
-10,0
-20,0
-30,0
-30,0

-20,0

-10,0

0,0

10,0

20,0

30,0

Residuos ordenados

60

Probabilidad

Grfico probabilista normal


99.9
99
95
80
50
20
5
1
0.1
-30

-20

-10

10

20

30

Residuos
61

Anlisis de la varianza

Ejemplos
99,9
99
95
80
50
20
5
1
0,1

99,9
99
95
80
50
20
5
1
0,1

Normal
-2,6

-1,6

-0,6

99,9
99
95
80
50
20
5
1
0,1

0,4

1,4

2,4

3,4

0,4

0,8

Anlisis de la varianza

1,2

1,6

99,9
99
95
80
50
20
5
1
0,1

No normal
0

No normal

12

15

No normal
-3

-1

62

Comprobacin de la
homocedasticidad
En el proceso de estimacin se ha supuesto que los
distintos tratamientos tienen la misma varianza

Herramientas
Grficos de residuos:




Frente a valores previstos


Frente a tratamientos (o factor,etc.)

Contrastes formales:

Bartlett, Cochran, Hartley, Levene

63

Anlisis de la varianza

Residuos - Valores previstos


En este modelo los valores
previstos corresponden a
la media del tratamiento

30

residuos

20
10
0
-10

-20
-30
210

220

230

240

250

valores previstos
30

residuos

20
10

0
-10
-20
-30
0

10

Valores previstos

Anlisis de la varianza

15

Los puntos deben


aparecer dispuestos
al azar en una banda
horizontal alrededor
del eje horizontal.
Heterocedasticidad:
a veces la dispersin
aumenta conforme la
media crece.
64

Residuos por tratamientos


25

mx.

mn.

Residuos

15
5
-5
-15
-25
A

Semilla
En cada grupo los residuos aparecen esparcidos
con dispersin similar y media cero.
65

Anlisis de la varianza

Residuos por tratamientos


25

mx.

mn.

Residuos

15
5
-5

mx
<3
mn

-15
-25
A

Semilla
En cada grupo los residuos aparecen esparcidos
con dispersin similar y media cero.
Anlisis de la varianza

66

Contrastes formales

...

H 0 : 12 = 22 =  = K2
H1 : Alguna es distinta
67

Anlisis de la varianza

Contraste de Bartlett
n1=n2==nK=m
2

y21
y22 2 ( y2 j y2)2
s =
 2
m1
y2n2

yK1
yK2 2 ( yKj yK)2
sK =

m1
yKm

y11
y12 2 ( y1j y1)2
s =
 1
m1
y1m
sR2

s12 + s22 +  + sK2


=
K

sG2 = K s12 s22  sK2


Anlisis de la varianza

...
...

2
Si Ho n K log s R K2 1
s 2
cierto 1 + c
G

c=

K +1
3( n K )
68

Contraste de Bartlett (general)


sR2

(n1 1) s12 + (n2 1) s22 +  + (nK 1) sK2


=
nK

( )

sG2 = n K s12

n1 1

( )

s22

n2 1

( )

 sK2

nK 1

K 1
1
1

c=
3( K 1) i =1 ni 1 n K

s R2
nK
log 2 K2 1
s
1+ c
G

Si Ho
cierto

69

Anlisis de la varianza

Contraste de Bartlett: ejemplo


Datos
B
233,4
233,0
219,2
200,0
224,3
202,0
218,7

C
211,1
223,1
217,5
211,8
207,6
213,7
214,1

D
270,4
248,6
230,0
250,7
230,0
245,8
245,9

96,8

216,2

29,9

227,2

Varianzas

p valor = 0.177

0,25

A
229,1
253,7
241,3
254,7
237,2
241,3
Medias 242,9

32

0.05

0.01

0
0

12

16

sR2

96.8 + 216.2 + 29.9 + 227.2


= 142.4
=
4

sG2 = 4 96.8 216.2 29.9 227.2 = 109.1

Anlisis de la varianza

02 =
=

nK
s 2
log R2
1+ c
sG
20
142.4
log
= 4.91
1 + (5 / 60)
109.1

70

0,57

0,57

0,37

0,37

residuos

residuos

Diagnosis: Tres grficos bsicos


0,17
-0,03

0,17
-0,03

-0,23

-0,23

-0,43

-0,43

0,3

0,6

0,9

1,2

probabilidad

Tratamientos

Valores previstos
99,9
99
95
80
50
20
5
1
0,1
-0,33

Homocedasticidad

Normalidad
-0,13

0,07

0,27

0,47

residuos

probabilidad

Grfico probabilista normal


99,9
99
95
80
50
20
5
1
0,1
-0,33

-0,13

0,07

0,27

0,47

residuos
Anlisis de la varianza

72

Transformaciones z=h(y)
para estabilizar la varianza
Desarrollo de Taylor para z = h( y ) en = E[y]
1
z h( ) + h' ( )( y ) + h' ' ( )( y ) 2
2
La media y varianzas de z son aprox.
E[z] h( ) +

1
h''()Var(y)
2

Var[ z ] [h' ( )]2 Var[ y ]


73

Anlisis de la varianza

Ejemplo

z = a + by

La media y varianzas de z son


E[z] = a + b
Var[ z ] = b 2 Var[ y ]

La Var[ z ] depende de b
Observacin: Esta transformacin no altera
las caractersticas de y: si y no tiene varianza
constante, z tampoco.
Anlisis de la varianza

74

z = log( y )

Ejemplo

La media y varianzas de z son aprox.


1
E[z] log ()
Var(y)
2
2
1
Var[ z ] 2 Var[ y ]

Si Var[ y ] k 2 Var[ z ] k

79

Anlisis de la varianza

zij homocedsticas

zij = h( yij )

yij heterocedsticas

Transformaciones Box-Cox
z ij1,5

p>1
p=1

p<1

0,5

yij

0
1

-0,5
-1

yijp 1

z ij =

p
z ij = log yij

-1,5

si

p=0
81

Anlisis de la varianza

Bsqueda de la
transformacin adecuada
0,57

La dispersin
aumenta al aumentar
la media

residuos

0,37
0,17
-0,03
-0,23

p<1

-0,43
0

0,3

0,6

0,9

1,2

Valores previstos
1,6

La dispersin
disminuye al
aumentar la media

residuos

1,1

0,6
0,1
-0,4
-0,9
-1,4
0

12

16

p>1

valores previstos

Anlisis de la varianza

82

Eleccin de la transformacin z ij =


p
yij

Empezar con p=1 (datos sin


transformar) y decidir a partir de los
grficos si p>1 o p<1.
p = 1/ 2

p=0

p = 1 / 2
p <1

p = 1

z ij = yij
z ij = log yij
1
z ij =
yij
1
z ij = 2
yij


Parar cuando los grficos estn ok

Anlisis de la varianza

83

Independencia


Es la hiptesis fundamental y con diferencia


la ms importante de las tres, adems es la
ms difcil de comprobar.
La falta de independencia suele ir ligada a
factores no controlados por el
experimentador y que influyen en los
resultados introduciendo errores
sistemticos.
La forma ms recomendable de evitar
errores sistemticos consiste en aleatorizar.

Anlisis de la varianza

84

Aleatorizacin


La aleatorizacin evita que se


produzcan errores que
sistemticamente aumenten o
disminuyan un conjunto de medidas por
causas no reconocibles: al aleatorizar
se reparten estos errores por igual
entre los diferentes tratamientos y se
convierten en errores aleatorios,
previstos en el modelo.

Anlisis de la varianza

85

Cmo aleatorizar?


Asignar las unidades experimentales al


azar a los distintos tratamientos.
Aleatorizar el orden de ejecucin de los
experimentos.
Aleatorizar respecto a cualquier otra
variable que implique diferenciar a los
tratamientos.

La aleatorizacin es una precaucin contra


distorsiones que pueden ocurrir o no ocurrir, y que
pudieran ser serias o no si llegaran a ocurrir
Anlisis de la varianza

86

Apndice: Anlisis de la Varianza con R


ARCHIVO TEXTO: centeno.txt

Anlisis de la Varianza

87

Tabla ANOVA

Anlisis de la Varianza

88

Intervalos de confianza

230
210

medias

250

> source('ICplot.R')
> ICplot(mod, Sem')

Sem
Anlisis de la Varianza

89

Comparaciones Mltiples

Anlisis de la Varianza

90

Diagnosis
Normal Q-Q

12
10

225

230

235

240

2
1
0
-2

-1

Theoretical Quantiles

Scale-Location

Constant Leverage:
Residuals vs Factor Levels

230

235

Fitted values

Anlisis de la Varianza

240

245

2
1
0
-1

1.0
0.5

225

19

12
10

-2

19

220

12

Fitted values

10
12

215

10

245

Standardized residuals

1.5

220

0.0

Standardized residuals

215

19

-1

10
0
-20

Residuals

19

Standardized residuals

Residuals vs Fitted

centeno$Sem :
C

Factor Level Combinations

91

An
alisis de la Varianza
1. En una fabrica de automoviles se utiliza una misma planta para el ensamblaje de tres modelos
distintos (A, B y C). Para determinar si los modelos reciben el mismo tratamiento, se ha
realizado un control de calidad a una muestra tomada para cada modelo. El n
umero de
defectos encontrados para cinco vehculos del modelo A son 5, 4, 6, 6 y 7; para seis vehculos
del modelo B son 7, 8, 6, 7, 6 y 5; y para ocho vehculos del modelo C: 9, 7, 8, 9, 10, 11, 10 y
10. Contrastar si existen diferencias en el tratamiento que se da a los distintos modelos.
2. Una empresa debe elegir entre cinco procedimientos para fabricar un cierto producto qumico.
Se sospecha que existen diferencias entre ellos aunque peque
nas. Para detectar estas diferencias se pretende realizar un experimento a gran escala con el mismo n
umero de observaciones
en cada grupo. Para determinar este tama
no muestral se ha realizado un experimento piloto
con 6 observaciones de cada metodo y los resultados (medias de cada grupo) han sido los
siguientes:
METODO
Media

1
2
3
4
5
425.6 423.2 418.8 430.2 422.2

y la varianza residual s2R = 198.5.


(a) C
ual debe ser el tama
no muestral del experimento a gran escala para que el contraste
de analisis de la varianza sea significativo con = 0.01 si el coeficiente de determinacion
es igual al del experimento piloto?.
(b) Dar un intervalo de confianza ( = 0.05) para la prevision del rendimiento realizado
mediante el metodo D (Nota: Se pide un intervalo para una observacion, no para la
media.).
(c) El metodo A es el procedimiento habitual y el metodo D es el que se sospecha proporciona mejor rendimiento. Una hipotesis que se pretende contrastar es H0 : D = A ,
frente a la hipotesis alternativa H1 : D > A . Que condicion debe cumplir la diferencia entre las medias muestrales de los dos metodos para rechazar H0 con = 0.01?
3. Se ha realizado un experimento para estudiar el efecto de un u
nico factor con I niveles
en la variable respuesta y con un n
umero diferente de observaciones en cada tratamiento:
n1 , n2 , ..., nI siendo el total n = n1 + n2 + + nI . Llamando yij a la observacion j del
tratamiento i, i = 1, ..., I, j = 1, 2, ..., ni e yi la media del tratamiento i. Se desea estimar
la media general cual de los dos estimadores siguientes

y =

ni
I P
P

yij

i=1 j=1

I
P

i=1

yi

,
y =
n
I
tiene mnima varianza? Realiza la comprobacion para el caso I = 5, con ni = 3, 2, 3, 5, 6 el
n
umero de observaciones en cada tratamiento. Asumir que las observaciones son independientes y que se cumple la hipotesis de homocedasticidad.
1

4. Considere la comparacion de dos tratamientos en poblaciones normales. Demuestre que el


contraste t para comparar dos medias es analogo al contraste de la F en Analisis de la
Varianza (suponga n1 = n2 ).
5. Cinco tipos (A, B, C, D y E) de material sintetico se han sometido a un ensayo de desgaste.
Para cada tipo de material la prueba se repitio 6 veces. El desgaste medio y la desviacion
tpica corregida en cada caso es la siguiente:

media xi
d. tpica si

A
B
C
D
E
14.1 16.3 13.5 14.8 15.3
1.3 1.2 1.4 1.2 1.5

(a) Contrastar ( = 0.05) la hipotesis


H0 : A = B = C = D = E
frente a la hipotesis alternativa,
H1 : Alguna media es distinta a las demas.
(b) Indicar con nivel de confianza 0.95 el material con desgaste menor y que materiales
tienen desgaste medio, distinto.
(c) Obtener un intervalo de confianza con = 0.01 para la varianza del error experimental.
6. Se desea comprobar el efecto de un tratamiento termico sobre la resistencia de un nuevo
material. Se han tomado 15 probetas y se han asignado al azar a los tres tratamientos T1 ,
T2 y T3 obteniendo como medida de resistencia superficial los valores siguientes:
T1
2.65
2.67
2.46
1.90
2.62

T2
4.31
3.96
4.64
4.74
4.00

T3
4.81
5.32
4.93
5.49
4.45

(a) Contrastar mediante el test de analisis de la varianza si existen diferencias significativas


entre los tratamientos termicos ( = 0.01).
(b) La temperatura del tratamiento 2 es la media de las temperaturas de los otros dos
tratamientos. Si la relacion entre la resistencia y la temperatura es lineal, es de esperar
que la media del tratamiento 2 verifique : H0 : 2 = 21 (1 + 3 ). Hacer el contraste
bilateral de esta hipotesis con = 0.05. (Nota.- Usar la distribucion de y 2 (y 1 +y 3 )/2,
donde y i es la media de los datos correspondientes al tratamiento Ti ).
7. En el modelo de analisis de la varianza para contrastar la igualdad de medias de I grupos,
con n1 , n2 , ..., nI observaciones en cada grupo; indicar, justificando la respuesta, si y , yi y
eij son independientes. Calcular los coeficientes de correlacion.
2

8. Explicar detalladamente la descomposicion de la variabilidad en el modelo basico de analisis


de la varianza para comparar I tratamientos. Obtener el estadstico F de contraste, indicando en cada paso las hipotesis utilizadas.
9. Demostrar que en el modelo para la comparacion de las medias de K tratamientos con el
mismo n
umero de observaciones, la varianza residual estimada (b
s2R ) es igual a la media de
las varianzas muestrales corregidas de cada tratamiento. Utilizando esta relacion, demostrar
que el estimador sb2R es insesgado y obtener su distribucion de probabilidad. Suponer que
se cumplen las hipotesis de normalidad, independencia y homocedasticidad, y dar por demostrado que la varianza muestral corregida sb2 , en una muestra aleatoria simple de tama
no
n de una distribucion normal, es un estimador centrado de la varianza de la distribucion 2 ,
y que (n 1)b
s2 / 2 se distribuye como una 2 con n 1 grados de libertad).
10. Explicar la descomposicion de la variabilidad en el modelo basico de comparacion de K
tratamientos (modelo con un factor ). Demostrar que si todos los tratamientos tienen la
misma media
VE
2K1 .
2
Indicar en cada paso las hipotesis requeridas. Nota.- Tener en cuenta que si X1 , X2 , ..., Xn
son variables
aleatorias independientes con distribucion normal de media y varianza 2 , y
P
X = Xi /n,
2
n 
X
Xi X
2n1 .

i=1
11. Un fabricante sospecha que los lotes de materia prima recibidos de un proveedor difieren
significativamente de su contenido en calcio. Elige al azar 5 lotes diferentes y un qumico
hace cinco determinaciones del contenido en calcio de cada lote. Los resultados obtenidos
han sido
Lote 1 Lote 2 Lote 3 Lote 4 Lote 5
23.46 23.59 23.51 23.28 23.29
23.48 23.46 23.64 23.40 23.46
23.56 23.42 23.46 23.37 23.37
23.39 23.49 23.52 23.46 23.32
23.40 23.50 23.49 23.29 23.38
La tabla de analisis de la varianza se proporciona a continuacion. Comparar mediante el
metodo de Bonferroni las medias de los cinco tratamientos con nivel de significacion total
T = 0.10.

Fuente
Lote
Residuos
Total

Analisis de la varianza
Variabilidad g.l. Var. Media
F
0.096976
4
0.024244 5.54
0.08760 20
0.00438
0.184576 24

Nivel crtico
0.0036

2. Diseo de experimentos
Curso 2011-2012
Estadstica

2.1 Diseos Factoriales


(dos factores)

Ejemplo

V
E
N
E
N
O
S

ANTDOTO
B
C
0.82
0.43
1.10
0.45
0.88
0.63
0.72
0.72
0.92
0.44
0.61
0.35
0.49
0.31
1.24
0.40
0.30
0.23
0.37
0.25
0.38
0.24
0.29
0.22

A
0.31
0.45
0.46
0.43
0.36
0.29
0.40
0.23
0.22
0.21
0.18
0.23

II

III

D
0.45
0.71
0.66
0.62
0.56
1.02
0.71
0.38
0.30
0.36
0.31
0.33

Se analiza el efecto de tres venenos y cuatro antdotos


en el tiempo de supervivencia de unas ratas.
Diseo Experimentos

Modelo
Factor 1

Factor 2

1
y111

2
y 211

y I 11

y112

y 212

y I 12

yijk

ij

uijk

Normalidad
y11m
y121

y 21m
y 221

y I 1m
y I 21

Independencia

y122

y 222

y I 22

Homocedasticidad

y12 m

y 22 m

yI 2m

I J tratamientos

y1J 1

y2 J1

y IJ 1

m replicaciones

y1J 2

y2 J 2

y IJ 2

n=m I J
y1Jm

y 2 Jm

Diseo Experimentos

y IJm
4

Factor 1
2

...

...

1
1

Factor 2

11

21

I1

I2

...

2
1

12

22

...

J
1

1J

2J

IJ

Modelo

yijk

i
I
i 1 i

j
J
j 1

ij
0

I
i 1

ij

0,

J
j 1

ij

0,

: Media global
i : Efecto del Factor 1 i, i=1,...,I
j : Efecto del Factor 2 j, j=1,...,J
ij: Interaccin de niveles ij
uijk : Componente aleatoria N(0, 2),
Diseo Experimentos

uijk

Estimacin del modelo


:

i :

I 1

ij
2

J 1
:

y
yi

y
ij

( I 1)( J 1)
2

k 1

y ij

yi

j 1 k 1

y
yi

y j
2
eijk

yijk

i 1 k 1
j

IJ (m 1)

yijk
y

mJ

y ij

yijk

yijk

sR2

1
m

mI

i 1 j 1 k 1

Diseo Experimentos

Estimacin del modelo


yijk
yijk
eijk

yijk (

Diseo Experimentos

ij

uijk

ij

eijk

ij

) yijk yij

Estimacin

E
N
II

E
N
O

III

A
0.31
0.45
0.46
0.43
0.41
0.36
0.29
0.40
0.23
0.32
0.22
0.21
0.18
0.23
0.21

ANTDOTO
B
C
0.82
0.43
1.10
0.45
0.88
0.63
0.72
0.72
0.88
0.56
0.92
0.44
0.61
0.35
0.49
0.31
1.24
0.40
0.82
0.38
0.30
0.23
0.37
0.25
0.38
0.24
0.29
0.22
0.34
0.24

D
0.45
0.71
0.66
0.62
0.61
0.56
1.02
0.71
0.38
0.67
0.30
0.36
0.31
0.33
0.33

Diseo Experimentos

Estimacin
A
V

Medias
ij

N
E

II

Medias
ij

O
S

III
Medias
ij

Medias

ANTDOTO
B
C

0,31
0,45
0,46
0,43

0,82
1,10
0,88
0,72

0,43
0,45
0,63
0,72

0,45
0,71
0,66
0,62

0,41
-0,038

0,88
0,067

0,56
0,032

0,61
-0,061

0,36
0,29
0,40
0,23

0,92
0,61
0,49
1,24

0,44
0,35
0,31
0,40

0,56
1,02
0,71
0,38

0,32
-0,060

0,82
0,073

0,38
-0,080

0,67
0,068

0,22
0,21
0,18
0,23

0,30
0,37
0,38
0,29

0,23
0,25
0,24
0,22

0,30
0,36
0,31
0,33

0,21
0,098

0,34
-0,139

0,24
0,048

0,33
-0,007

0,314

0,677

0,389

0,534

-0,164

0,198

-0,089

0,056

Diseo Experimentos

Medias

0,615

0,136

0,544

0,066

0,276

-0,202

0,479

10

Residuos
RESIDUOS

A
-0.103
0.038
0.048
0.018
0.00
0.040
-0.030
0.080
-0.090
0.00
0.010
0.000
-0.030
0.020
0.00

E
N
II

E
N
O

ANTDOTO
B
C
-0.060
-0.128
0.220
-0.108
0.000
0.073
-0.160
0.163
0.00
0.00
0.105
0.065
-0.205
-0.025
-0.325
-0.065
0.425
0.025
0.00
0.00
-0.035
-0.005
0.035
0.015
0.045
0.005
-0.045
-0.015
0.00
0.00

III

D
-0.160
0.100
0.050
0.010
0.00
-0.108
0.353
0.043
-0.288
0.00
-0.025
0.035
-0.015
0.005
0.00

2
eijk

2
R

IJ (m 1)

Diseo Experimentos

0,022

11

Anlisis de la varianza
yijk

uijk

ij

yijk

eijk

ij

yijk

( yi

y ) (y

y ) ( y ij

yi

y ) ( yijk

yijk

( yi

y ) (y

y ) ( y ij

yi

y ) eijk

( yijk

y )

i 1 j 1 k 1

( yi

y )

(y

i 1 j 1 k 1
I

i 1 j 1 k 1
I

yi

y )2

mJ

i 1 j 1 k 1

eijk2

( yi

(y

y )2

j 1
J

( y ij
i 1 j 1

Diseo Experimentos

y ) 2 mI

i 1
I

i 1 j 1 k 1

( yijk

y )2

i 1 j 1 k 1

y )2

( y ij
I

y ij )

yi

y )2

2
eijk
i 1 j 1 k 1

12

Variabilidades
I

VT

( yijk

)2

( yi

)2

)2

i 1 j 1 k 1
I

VE ( A)

mJ
i 1
J

VE ( B )

mI

(y

j 1
I

VE ( A B )

( y ij
i 1 j 1
I
J

yi

)2

VNE

( yijk

y ij ) 2

i 1 j 1 k 1

VT

VE ( A) VE ( B) VE ( A B)

(n 1)

VNE

( I 1) ( J 1) ( I 1)( J 1) IJ (m 1)

Diseo Experimentos

13

Contraste de Hiptesis
Si el Veneno no influye, los I niveles son iguales
a efectos de tiempo de supervivencia, entonces
1

H0 :

H1 : Algn
Diseo Experimentos

I
i 1 i

2
i

es distinto de 0
14

Contraste efecto principal de factor A


H0 :

H1 : Algn

E[ s R2 ]

Si Ho es cierto, s

s
s

2
A
2
R

mJ

i 1

VE ( A)
I 1

2
A

( yi

y
s

Si FA

es distinto de 0

VNE
IJ (m 1)

s R2

FA

E[ s A2 ]

)2 I 1
FI

2
R

1; IJ ( m 1)

Se rechaza Ho

Diseo Experimentos

15

Contraste efecto principal de factor B


H0 :

H1 : Algn

J
j

es distinto de 0

VE ( B)
J 1

Si Ho es cierto, s B2

FB

s B2
s R2

mI

Si FB
Diseo Experimentos

(y

j 1

2
R

E[ s B2 ]

)2 J 1
FJ

1; IJ ( m 1)

Se rechaza Ho
16

Contraste interaccin AxB


H0 :

11

12

H1 : Algn

ij

es distinto de 0

VE ( A B)
( I 1)( J 1)

2
Si Ho es cierto, s AB

2
s AB
2
sR

FAB
Si FAB

IJ

F( I

2
E[ s AB
]

1)( J 1); IJ ( m 1)

Se rechaza Ho
A y B interaccio nan

Diseo Experimentos

17

Tabla de anlisis de la varianza


Fuentes

Suma de

Grados de

Variabilid ad

Cuadrados

Libertad.

mJ

mI

B
A B

( yij

(y

yi

Diseo Experimentos

( yijk

I 1

s A2

J 1

2
B

2
eijk

Residual
Total

y )

y )2

F
s

y )2

( yi

Varianza

y )2

( I 1)( J 1)

2
s AB

IJ (m 1)

sR2

2
A

sB2
2
s AB

p valor

sR2

pA

sR2

pB

s R2

p AB

n 1

18

Tabla de anlisis de la varianza


Fuentes

Suma de

Grados
F p valor
23.2
.0000

Variabilid ad Cuadrados. Libertad. Varianza


Veneno
1.033
0.516
2
Antdoto
0.921
3
0.307
Ven Ant
0.250
6
0.041
Residual

0.801

36

Total

3.005

47

13.8
1.87

.0000
.1123

0.022

Diseo Experimentos

19

Contrastes mltiples: Factor A

i
j

H0 :

H1 :

yi
yj

yi
sR

R.R

R.R.

tIJ(m-1)

1/2

y
i

y
N(

yi

mJ

mJ

yj
2
mJ

Diseo Experimentos

t IJ ( m

/2

R. Acept. H0

yj

-t

/2

/2

yi

yj

/ 2 sR

1)

2
mJ

LSD

Se rechaza Ho
20

Contrastes mltiples: Factor B


H0 :

H1 :

y
N(

sR

tIJ(m-1)

1/2

R.R

R.R.

2
mI

j
2

mI

mI

/2

R. Acept. H0

-t

/2

/2

t IJ ( m

yi

1)

/ 2 sR

2
mI

LSD

Se rechaza Ho

Diseo Experimentos

21

Intervalos de confianza
(interaccin nula)

Diseo Experimentos

yi

/2

sR
mJ

/2

sR
mI

22

0.72

0.75

0.62

0.65

0.52

tiempo

tiempo

Intervalos de confianza

0.42

0.55
0.45

0.32

0.35

0.22

0.25

veneno

antidoto

Diseo Experimentos

23

Diagnosis: homocedasticidad
0.6

0.3

0.3

-0.3

-0.3

-0.6

-0.6

residuos

0.6

A B C D

antidoto
Diseo Experimentos

veneno
24

Heterocedasticidad
0.6

0.2
0
-0.2
-0.4
-0.6
0

0.2

0.4

0.6

0.8

valores previstos
Diseo Experimentos

25

Normalidad

probabilidad

residuos

0.4

99.9
99
95
80
50
20
5
1
0.1
-0.5

-0.25

0.25

0.5

Residuos
Diseo Experimentos

26

Diagnosis: homocedasticidad
datos transformados z=1/y
1.3

1.3

0.9

0.9

0.5

0.5

0.1

0.1

-0.3

-0.3

-0.7

-0.7

-1.1

-1.1

A B C D

veneno

antidoto

Diseo Experimentos

27

Datos transformados
1.2

residuos

0.8
0.4
0
-0.4
-0.8
-1.2
0

valores previstos
Diseo Experimentos

28

probabilidad

Normalidad (datos transformados)


99.9
99
95
80
50
20
5
1
0.1
-1.2 -0.8 -0.4

0.4

0.8

1.2

Residuos
Diseo Experimentos

29

Tabla de anlisis de la varianza


datos transformados 1/y
Fuentes

Suma de

Grados

Variabilid ad Cuadrados. Libertad. Varianza


Veneno
34.87
17.4
2
Antdoto
20.41
3
6.80
Ven Ant
1.57
6
0.26
Residual

8.68

36

Total

65.50

47

Diseo Experimentos

F p valor
72.6
.0000
28.3
1.09

.0000
.3867

0.24

30

Comparaciones mltiples
4

3.6

3.6

1/tiempo

1/tiempo

intervalos de confianza

3.2
2.8
2.4

3.2
2.8
2.4

1.6

1.6
1

veneno

antidoto

Diseo Experimentos

31

Comandos en R
ARCHIVO TEXTO: venenos.txt

Diseo Experimentos

32

Dos factores con interaccin

Diseo Experimentos

33

0.6
0.4

0.5

medias

0.5
0.4
0.2

0.3

0.3

medias

0.6

0.7

0.7

Intervalos de Confianza

II
VEN

Diseo Experimentos

III

ANT

34

Tabla ANOVA

Diseo Experimentos

35

Comparaciones Mltiples

Diseo Experimentos

36

Comparaciones Mltiples

Diseo Experimentos

37

Interacciones

Diseo Experimentos

38

Diagnosis

Diseo Experimentos

39

Diagnosis (Transformacin)

Diseo Experimentos

40

2.2 Bloques Aleatorizados

Ejemplo de introduccin
Fluorita
M
e
z
c
l
a

1
2
3
4
5
6

0%

1%

2%

3%

4%

15.02

11.86

9.94

12.45

13.23

8.42

10.15

8.54

6.98

8.93

18.31

16.84

15.86

14.64

15.96

10.49

10.52

8.04

10.50

10.34

9.78

9.59

6.96

8.15

9.24

9.28

8.84

7.04

6.66

9.46

Se desea estudiar el efecto de la Fluorita en la


reduccin del coste energtico en la fabricacin de
cemento. Se emplean 6 mezclas distintas de materias
primas.
Diseo Experimentos

42

Modelo

Bloques

Tratamientos
1

y11

y21

yI1

y12

y22

yI 2

y1J

y2 J

y IJ

yij

i
Normalidad

Independencia
Homocedasticidad

: Media global
i : Efecto del tratamiento i, i=1,...,I
j : Efecto del bloque j, j=1,2,...,J
uij : Componente aleatoria N(0, 2)

I
i 1 i
J
j 1 j

Diseo Experimentos

43

Tratamientos
...
2

...

1
1

Bloques

uij

...

2
1

...

J
1

Estimacin del modelo


:
i:
j:

Parmetros :

1
i

I 1
J 1

Estimadore s :
2

yij

uij

yij

eij

i 1
j

( I 1)( J 1)

yij

yij

j 1

y
y
eij2

s R2
I

yij
yi

yi
y

i 1j 1

eij

yij
yij

yi

Diseo Experimentos

45

Estimacin
1

y11

y 21

y I1

y12

y 22

yI 2

y1J

y2 J

y IJ

y1

y2

yI

y1

Diseo Experimentos

y2

yI

46

Estimacin (ejemplo)
Fluorita
M
e
z
c
l
a

1
2
3
4
5
6

0%

1%

2%

3%

4%

15.02

11.86

9.94

12.45

13.23

12.50

1.77

8.42

10.15

8.54

6.98

8.93

8.60

-2.13

18.31

16.84

15.86

14.64

15.96

16.32

5.59

10.49

10.52

8.04

10.50

10.34

9.98

-0.76

9.78

9.59

6.96

8.15

9.24

8.74

-1.99

9.28
11.88
1.15

8.84
11.30
0.57

7.04
9.40
-1.34

6.66
9.90
-0.84

9.46
11.19
0.46

8.26

-2.48

10.73

Diseo Experimentos

47

Residuos: Varianza residual


eij

yij

yij

yi

Fluorita
M
e
z
c
l
a

0%

1%

2%

3%

4%

1.37

-1.21

-1.22

0.79

0.27

-1.33

0.98

1.27

-0.79

-0.13

0.84

-0.05

0.88

-0.84

-0.82

-0.64

-0.02

-0.60

1.36

-0.10

-0.11

0.28

-0.45

0.24

0.04

-0.13

0.02

0.12

-0.76

0.74

sR2
Diseo Experimentos

eij2
( I 1)( J 1)

17.51
0.88
20
48

Contraste de Hiptesis
Si la Fluorita no influye, los I tratamientos
son iguales a efectos de coste, entonces
1

H0 :

I
i 1 i

H1 : Algn

es distinto de 0

Diseo Experimentos

49

Anlisis de la varianza
yij

yij

eij

yij

( yi

y ) (y

y ) ( yij

yi

y )

yij

( yi

y ) (y

y ) ( yij

yi

y )

( yij

y )

i 1 j 1

uij

( yi

y )

i 1 j 1

( yij

y )

i 1 j 1

Diseo Experimentos

i 1

y )

eij2

i 1 j 1

y )

i 1 j 1

(y

I
j 1

( yi

(y

I
2

y )

eij2
i 1 j 1

50

Variabilidades
I

VT

y )2

( yij
i 1 j 1
I

VE (T )

y )2

( yi
i 1
J

VE ( B)

VT
(y

y )

j 1
I

(n 1) ( I 1) ( J 1) ( I 1)( J 1)

J
2
ij

VNE

VE (T) VE (B) VNE

e
i 1 j 1

Diseo Experimentos

51

Contraste sobre tratamientos


H0 :

H1 : Algn
sR2

I
i

VNE
( I 1)( J 1)

FT

( yi

Diseo Experimentos

s R2

E[ sT2 ]

y )2 I 1

i 1

sR2

Si FT

VE(Tratamient os)
I 1
I

sT2

es distinto de 0
E[ s R2 ]

Si Ho es cierto, sT2
J

FI

1; ( I 1)( J 1)

Se rechaza Ho
52

Explicacin del contraste


Si Ho es cierto
yi

yi1

yi 2

yij
yiJ

j,
J
j 1

E[ y i ]

N(

J
2

y1 , y 2 ,..., y I
I

y1

y2

yI

sT2

N( ,

)
I

( y i - y )2

i 1

i 1

I 1

( y i - y )2

I 1

Cuando Ho es cierto, sT2 y sR2 sern parecidas.


Cuando Ho es falso, sT2 ser mayor que sR2 .
Diseo Experimentos

53

Contraste de bloques
H0 :

H1 : Algn

FB

s B2

(y
j 1

s R2

Si FB
Diseo Experimentos

E[ sB2 ]

y )2 J 1
s R2

es distinto de 0

VE(Bloques )
J 1

Si Ho es cierto, sB2

FJ

1; ( I 1)( J 1)

Se rechaza Ho
54

Tabla de anlisis de la varianza


Fuentes

Suma de

Grados de

Variabilidad

Cuadrados

Libertad.

Tratamient o

Bloque

y )2

( yi
(y

eij2

Residual
Total

Diseo Experimentos

y )2

( yij

y )2

I 1

Varianza
sT2

J 1

s B2

( I 1)( J 1)

s R2

F
sT2
s B2

p valor

s R2

pT

sR2

pB

n -1

55

Tabla de anlisis de la varianza

Diseo Experimentos

56

Sin bloques

Diseo Experimentos

57

Intervalos de confianza
(ejemplo)
i

yi

/2

sR
J

Fluorita

Medias

L.inf.

L.Sup.

0%
1%
2%
3%
4%

11.88
11.30
9.40
9.90
11.19

11.09
10.50
8.60
9.10
10.40

12.68
12.10
10.19
10.69
11.99

Diseo Experimentos

58

11
10
9

medias

12

Intervalos de Confianza (% Fluorita)

FLUO
Diseo Experimentos

59

14
12
8

10

medias

16

Intervalos de Confianza (Mezcla)

MEZ

Diseo Experimentos

60

Contraste multiples: tratamientos


H0 :

H1 :

yi

yj

N(

yi

yj

sR

R.R

R.R.

t(I-1)(J-1)

1/2
j

yi

j,

t( I

2
J

/2

R. Acept. H0

yj

-t

/2

/2

yi

1)( J 1)

yj

/ 2 sR

2
J

Se rechaza H 0

LSD

Diseo Experimentos

61

Contraste multiples: bloques


H0 :

H1 :

N(

sR

2
I

t(I-1)(J-1)

1/2

j
2

R.R

R.R.

j,

t( I

Diseo Experimentos

R. Acept. H0

-t

1)( J 1)

/2

/2

/2

/ 2 sR

2
I

Se rechaza H 0

LSD
62

Comparacin de medias
Fluorita
LSD

/2 R

2
J

2.085 0.93

2
6

0%
1%
2%
3%
4%

0%
0

LSD = 1.13
1%
2%
3%
0,58 2,49 1,99
0
1,90 1,40
0
-0,50
0

4%
0,69
0,11
-1,80
-1,30
0

1.13

Mezcla
LSD

/2 R

1
2
3
4

2
I

2.085 0.93

2
5

1
0,00

2
3,90
0

LSD=1.24
3
4
-3,82 2,52
6,60 -1,37
0 6,34
0

5
6

5
3,76
-0,14
7,58
1,23

6
4,24
-0,35
8,07
1,72

0,49
0

1.24
Diseo Experimentos

63

Comparacin de medias (Tukey)

4-3

4-2

3-2

4-1

3-1

2-1

4-0

3-0

2-0

1-0

95% family-wise confidence level

-4

-2

Differences in mean levels of FLUO

Diseo Experimentos

64

Comparacin de medias (Tukey)

6-5

5-4

5-3

6-2

4-2

6-1

4-1

2-1

95% family-wise confidence level

-10

-5

10

Differences in mean levels of MEZ

Diseo Experimentos

65

Diagnosis:
Homocedasticidad

2
1.5
1
0.5
0
-0.5
-1
-1.5
-2

Grfico de residuos
2
1.5
1
0.5
0
-0.5
-1
-1.5
-2

Mezcla
1.6

Fluorita

residuos

1.2
0.8
0.4
0
-0.4
-0.8
-1.2
-1.6
5

10

15

Valores previstos

20

Diagnosis

Diseo Experimentos

2.3 Diseos Factoriales


(tres factores)

67

Diseo con tres factores


Factor A
A1 A2 A3 A4 A5 A6

Factor B

B1
B2
B3
B4
B5
C1
C2
C3

Factores A, B y C con NA, NB,


Nc niveles.
N de Tratamientos
T=NAxNBxNc
Efectos principales 3 A, B , C
Interacciones de orden dos 3
AxB, AxC, BxC
Interaccin de orden tres 1.
AxBxC

Tratamiento: Cada combinacin de niveles de los factores


6 x 5 x 3 = 90
Diseo Experimentos

69

K factores con N1, N2, ..., NK


niveles
K efectos principale s con N i 1 grados de libertad cada uno
K
2

interaccio nes de orden 2, con (N i 1 )(N j 1 ) grados

de libertad
K
3

interaccio nes de orden 3, con (N i 1 )(N j 1 )(N k 1 )

grados de libertad
...
K
K

1 interacci n de orden k, con (N 1 1 )(N 2 1 )

(N K 1 )

grados de libertad
Diseo Experimentos

70

Datos

Factor 1

11

Factor 2

11

...

JJ

11

22

y1111

Factor 3
1

22
......

K
K

11

22

y1121

y11K 1

y 2111

y1112

y1122

y11K 2

y111 M
11

y112 M
22

y1211

2
II

...

K
K

K
K

11

22

y 2121

y11K 1

y I 111

y I 121

y I 1K 1

y 2112

y 2122

y11K 2

y I 112

y I 122

y I 1K 2

y11KM
K
K

y 211 M
11

y 212 M
22

y11KM
K
K

y I 11M
11

y I 12 M
22

y1221

y12 K1

y 2211

y 2221

y 22 K 1

y I 211

y I 221

y I 2K1

y1212

y1222

y12 K 2

y 2212

y 2222

y 22 K 2

y I 212

y I 222

yI 2K 2

y121 M

y122 M

y12 KM

y 221 M

y 222 M

y 22 KM

y I 21M

y I 22 M

y I 2 KM

11

22

K
K

11

22

KK

11

22

y1J 11

y1J 21

y1JK1

y 2 J 11

y 2 J 21

y 2 JK1

y IJ 11

y IJ 21

y IJK1

y1J 12

y1J 22

y1JK 2

y 2 J 12

y 2 J 22

y 2 JK 2

y IJ 12

y IJ 22

y IJK 2

y1J 1M

y1J 2 M

y1JKM

y 2 J 1M

y2 J 2M

y 2 JKM

y IJ 1M

y IJ 2 M

y IJKM

......

......

......

...

......

...
...

...
...

y I 1KM
KK

...
...

K
K

......

Diseo Experimentos

71

Ejemplo: Proceso qumico


Concentracin
1
4%
2
6%
3
8%
4
10%

Tres factores:

Temperatuta
T-1
300 C
T-2
320 C

Catalizador
C-1
Ag
C-2
Ag+Zn
C-3
Zn

Variable respuesta: Rendimiento del proceso qumico.


CONCENTRACIN

CATALIZADOR

T-1

T-2

T-1

T-2

T-1

T-2

T-1

T-2

C-1

72.2
74.4
64.3

65.0
71.6
61.9

74.4
66.3
66.5

69.2
71.8
64.6

75.0
78.9
64.3

70.7
80.6
73.4

80.0
65.0
82.1

73.0
74.4
78.8

T-1

T-2

T-1

T-2

T-1

T-2

T-1

T-2

C-2

62.5
65.8
71.2

75.9
72.9
77.8

70.8
63.9
76.6

79.2
80.1
75.3

76.3
79.1
89.0

83.3
88.0
84.7

72.3
72.4
75.6

80.3
86.9
86.3

T-1

T-2

T-1

T-2

T-1

T-2

T-1

T-2

C-3

69.0
70.3
68.8

73.8
59.2
80.8

69.0
68.2
78.7

84.5
93.7
80.1

72.8
73.7
80.7

94.1
87.3
89.0

78.4
79.9
80.3

87.5
79.7
79.5

Diseo Experimentos

72

Modelo
yijkm

I
i 1 i

J
j 1

ij

J
j 1

K
k 1

ik

J
j 1

K
k 1 k
I
ijk
i

0,

ij

I
i 1

ij

0,

0,

I
i 1

ik

0,

K
k 1

0,
J
j

0,

ijk

K
k

i, k ;

0,

jk

uijkm

ijk

Normalidad

uijkm

jk

0,

jk

j, k , ;

ik

0,

ijk

i, j.

K tratamientos

M replicaciones

Independencia

Homocedasticidad

n = I

Diseo Experimentos

73

Medias
yijkm

i
I

ij

ik

jk

ijk

uijkm

J K M

yijk
y

i 1 j 1k 1m 1

IJKM
J K M

yijkm
yi

j 1k 1m 1

JKM

i 1 k 1m 1
j

IKM
J M

k 1m 1

KM

yi

j 1m 1
k

JM

i 1 j 1m 1
k
I

yijkm

yijkm

J M

yijkm

yijkm

K M

y ij

K M

IJM
K

yijkm
y

i 1k 1
jk

IM

yijkm
y ijk

m 1

Diseo Experimentos

74

Medias: Proceso qumico


Concentracin

Catalizador

C-1
C-2
C-3

1
68.2
71.0
70.3
69.9

2
68.8
74.3
79.0
74.1

3
73.8
83.4
82.9
80.1

4
75.6
79.0
80.9
78.5

71.6
76.9
78.3
75.6

Temperatura

T-1
T-2

1
68.72
70.99
69.9

2
70.49
77.61
74.1

3
76.64
83.46
80.1

4
76.22
80.71
78.5

73.02
78.19
75.6

C-1
C-2
C-3

T-1

T-2

71.95
72.96
74.15
73.02

71.25
80.89
82.43
78.19

1
C-1
C-2
C-3

71.6
76.9
78.3
75.6

T-1

T-2

T-1

T-2

T-1

T-2

T-1

T-2

70.30
66.50
69.37

66.17
75.53
71.27

69.07
70.43
71.97

68.53
78.20
86.10

72.73
81.47
75.73

74.90
85.33
90.13

75.70
73.43
79.53

75.40
84.50
82.23

Diseo Experimentos

75

Estimacin del modelo


j

y
yi
y

I 1
J 1

K 1

ij

y ij

ik

yi

jk

jk

ijk
2

y
y

s R2

y ijk

yi

yi

y ij

( I 1)( J 1)

( I 1)( K 1)

yi

2
eijkm

IJK ( M 1)

Diseo Experimentos

( J 1)( K 1)
jk

eijkm

yi

yijkm

y ijk

( I 1)( J 1)( K 1)

76

Modelo estimado
yijkm

yijkm

yi
y ij

ij

yi

y
y

yi

yi

jk

y ijk

y ij

yijkm

y ijk

jk

yi

ijk

uijkm

yi

jk

ik

Diseo Experimentos

77

Descomposicin de la
variabilidad
I

J K M

yijkm

i 1 j 1k 1m 1

JKM

yi

IKM

IJM

KM

y ij
i

yi

yi

jk

yi

JM

yi
i k

IM

j k

M
i

y ijk

y ij

yijkm

y ijk

jk

yi

j k
2

j k m

Diseo Experimentos

78

Variabilidades
I

J K M

yijkm

VT

VE ( A)

JKM

i 1 j 1k 1m 1

VE ( B )

IKM

y ij
i

VE (C )

IJM

yi

yi

jk

JM

yi
i

VE ( B C )

KM

VE ( A C )

VE ( A B )

yi

IM

j k

VE ( A B C )

y ijk
i

yi

jk

yi

j k

yijkm

VNE

y ij

y ijk

j k m

Diseo Experimentos

79

Grados de libertad
DESCOMPOSI CIN DE LA VARIABILID AD
VT

VE ( A) VE ( B) VE (C )
VE ( A B ) VE ( A C ) VE ( B C )
VE ( A B C ) VNE
GRADOS DE LIBERTAD

(n 1)

( I 1) ( J 1) ( K 1)
( I 1)( J 1) ( I 1)( K 1) ( J 1)( K 1)
( I 1)( J 1)( K 1) IJK ( M 1)

Diseo Experimentos

80

Tabla ANOVA
FUENTE VARIABILID AD

JKM

yi

Gr . de Lib.
2

I 1

Varianzas F
s 2A
s2

J 1

s B2

s B2

K 1

sC2

( I 1)( J 1)

2
s AB

( I 1)( K 1)

2
s AC

( J 1)( K 1)

2
s BC

IKM
j

IJM

sC2

A B

KM

y ij
i

A C

yi

yi

jk

yi
i

j k

M
A B C

( y ijk

y ij

...

jk

j k

... y i
Residual

yijkm
i
I

s R2

2
s AB
2
s AC

IM
i

s R2

JM

B C

yi

s R2

j
2

y ijk

yijkm

s R2
s R2

2
s ABC

s R2

s R2

IJK ( M 1)

j k m
J K M

Total

)2

2
( I 1)( J 1)( K 1) s ABC

2
s BC

s R2

IJKM 1

i 1 j 1k 1m 1

Diseo Experimentos

81

Contraste efecto principal de factor A


H0 :

H1 : Algn

2
i

es distinto de 0

FA

s A2
s R2

FI

( yi

JKM

)2 I 1

i 1

FI

s R2
1; IJK ( M 1)

Si FA

1; IJK ( M 1)

No se rechaza Ho

RR

Si FA

Se rechaza Ho

F
Diseo Experimentos

82

Contraste interaccin AxB


H0 :

11

12

H1 : Algn

ij

es distinto de 0
VE ( A B)
( I 1)( J 1)

2
Si Ho es cierto, s AB

FAB
Si FAB

2
s AB

F( I

s R2

IJ

1)( J 1); IJK ( M 1)

Se rechaza Ho
A y B interaccio nan

Diseo Experimentos

83

Contraste interaccin AxBxC


H0 :

111

112

H1 : Algn

ijk

IJK

es distinto de 0

Si Ho es cierto

FABC

2
s ABC

Si FABC
Diseo Experimentos

F( I

s R2

1)( J 1)( K 1); IJK ( M 1)

Se rechaza Ho
84

Anlisis de la varianza

Diseo Experimentos

85

Interpretacin
El efecto principal del factor concentracin
influye significativamente (p-valor =0.0000)
en el rendimiento. Ms adelante se
compararn las medias de los cuatro niveles
de este factor. Este factor no interacciona
con ningn otro.
Los efectos principales de catalizador y de
la temperatura son significativos, adems
es muy significativa la interaccin de los dos
factores (p-valor 0.0064). La comparacin
de medias de estos factores debe ser
conjunta.
Diseo Experimentos

86

Contrastes mltiples: Factor A


H0 :

H1 :

yi

yj

yi

/2
i

j,

JKM

yj

yi

-t

JKM

/2

R. Acept. H0

yj

/2

/2

t IJK ( M

2
JKM

sR

tIJK(M-1)

1-

N(

R.R

R.R.

Si yi

1)

yj

/2 R

2
,
JKM

se rechaza Ho

Diseo Experimentos

87

78
76
74

medias

72

74

76

medias

75
k1

k2

k3

k4

con

Diseo Experimentos

70

72

70

medias

78

80

80

80

Intervalos de Confianza

t1

t2
temp

c1

c2

c3

cat

88

Interaccin: Cat. x Temp.


C-1
C-2
C-3

T-1

T-2

71.95
72.96
74.15
73.02

71.25
80.89
82.43
78.19

71.6
76.9
78.3
75.6

Medias

Interaccin Cat x Temp


84.00
82.00
80.00
78.00
76.00
74.00
72.00
70.00

Temp - 1
Temp - 2

Catalizador

Diseo Experimentos

89

Seleccin de temperatura y
catalizador.

Las mejores combinaciones corresponden a la temperatura 2,


con el catalizador 2 o el 3.
Diseo Experimentos

90

2.0

3.0
con

4.0

1.4

-5

10
1.0

-10

-5

residuals(mod_qui)

10
1.0

-10

residuals(mod_qui)

5
0
-5
-10

residuals(mod_qui)

10

Diagnosis del modelo

1.8

temp

1.0

1.5

2.0

2.5

cat

Diseo Experimentos

91

Instrucciones de R utilizadas
ARCHIVO TEXTO: quimico.txt

Diseo Experimentos

92

3.0

Anlisis de 3 factores con


menos observaciones
Cuando no existe interaccin de orden tres.
No es necesario replicar para analizar el experimento.
La variabilidad explicada por el trmino A B C se
convierte en Variabilidad Residual con (I-1)(J-1)(K-1)
grados de libertad.
Las expresiones anteriores siguen siendo vlidas,
sustituyendo M=1 (sin replicacin) y con (I-1)(J-1)(K-1)
como grados de libertad de la varianza residual.

Cuando no existe ninguna interaccin


Se puede reducir considerablemente el nmero de
observaciones si el nmero de niveles de los tres
factores es el mismo: CUADRADO LATINO

Diseo Experimentos

93

Tabla ANOVA tres factores


(sin replicacin)
FUENTE VARIABILID AD
A

JK

yi

Gr . de Lib.

I 1

Varianzas F
s A2
s2

J 1

s B2

K 1

sC2

( I 1)( J 1)

2
s AB

( I 1)( K 1)

2
s AC

( J 1)( K 1)

2
s BC

IK

s B2

IJ
k

A B

y ij
i

A C
B C

yi

yi

jk

yi
y

j k

( yijk
Residual

y ij

2
s AB
2
s AC

J K

Total

yijk

j
2

2
s BC

s R2
s R2
s R2

...

jk

j k

... y i
I

s R2

I
i

s R2

J
i

yi

sC2

s R2

( I 1)( J 1)( K 1) s R2

IJK 1

i 1 j 1k 1

Diseo Experimentos

94

Ejemplo: Obleas
Horno AS
1
1
2
1
2
2
1
3
2
1
4
2

1
122.2
138.4
131.0
147.4
120.5
140.6
100.0
117.0

Temperatura
2
103.2
144.3
133.4
138.0
102.8
126.6
105.8
134.4

3
115.8
159.8
121.8
147.5
120.0
141.9
114.7
131.7

Se ha realizado un experimento para analizar la influencia de la


temperatura y el acabado superficial (AS) en el espesor de
xido conseguido en obleas de silicio. El experimento se repiti
en cuatro hornos diferentes. ( Cada uno de los datos del cuadro
representa la media de los espesores medidos en el centro de
cada una de las 30 obleas que caben en un horno)

Diseo Experimentos

95

ANOVA: Obleas

Diseo Experimentos

96

Comparacin de medias

El AS que produce mayor espesor es el 2


El horno que produce media mayor es el
2, aunque no es significativamente distinto
del 1.
Diseo Experimentos

97

Cuadrado latino
Permite analizar
tres factores con K
niveles cada uno,
utilizando slo K2
observaciones.
Deben ser nulas
las interacciones
de orden 2 y orden
3.
Diseo Experimentos

98

Ejemplo: Aditivos gasolina


Una organizacin de consumidores estudi la eficacia de
cinco aditivos que segn los fabricantes reducan el
consumo de combustible. Se realiza un diseo
experimental con cinco conductores, cinco vehculos y
cinco aditivos, eligiendo las 25 combinaciones que se
muestran en la tabla, junto con una medida del consumo .
1

Conductor

1
2
3
4
5

Vehculo
3

71

64

65

63
66
D

73

77
A

85
D

79

70

82
C

74

Aditivo
A
B
C
D
E

82

82
D

77

78

81

68

5
E

68

64

4
B

88
C

74
B

78

80

88

Diseo Experimentos

99

Modelo: Cuadrado Latino


yij (k )

uij ( k )

y11(3)

y 21(1)

y31( 4)

y 41( 2)

y51(5)

y12 ( 4)

y 22 (3)

y32 ( 2)

y 42 (5)

y52 (1)

y13(5)

y 23( 2)

y33(1)

y 43( 4)

y53(3)

y14 ( 2)

y 24 (5)

y34 (3)

y 44 (1)

y54 ( 4)

y15 (1)

y 25 ( 4)

y35 (5)

y 45 (3)

y55 ( 2)

K
i 1 i

K
j 1

K
k 1 k

Normalidad

uij (k )

Independencia

K2 Observaciones

Homocedasticidad
Diseo Experimentos

100

Estimacin
yij ( k )

K K

( )

yij ( k )

i 1j 1

yi

k 1
(k )

( )

yi

( )

j( )

( )

K 1

(k )

( )

K 1

yij ( k )

yij ( k )

i 1
j( )

eij ( k )

yij ( k )

j 1
( )

uij ( k )

yij ( k )
y

K 1

( )

yi

( )

j( )

2
ij ( k )

s R2

( K 1)( K 2)

(k )

2y

( )

Diseo Experimentos

101

Descomposicin de la
variabilidad
yij ( k )
yij ( k )

( )

( yi

K K

( )

( ))

(y

j( )

j
j( )

uij ( k )

( ))

(y

(k )

( ))

eij ( k )

yij ( k )

( )

yi

( )

i 1j 1

( )

y
j

2
( )

(k )

eij ( k )

( )

Grados de Libertad

( K 2 1)

( K 1) ( K 1) ( K 1) ( K 1)( K 2)

Diseo Experimentos

102

Tabla ANOVA
FUENTE VARIABILID AD
A

yi

( )

j( )

(k )

2
( )

Gr. de Lib.

Varianzas

K 1

s A2

K 1

sB2

K 1

sC2

F
s A2

2
( )

s B2

2
( )

eij2( k )

Residual
i
K

yij ( k )

sR2
sR2

( K 1)( K 2) sR2

j
K

Total

sC2

sR2

2
( )

K2 1

i 1 j 1

Diseo Experimentos

103

Tabla anlisis de la varianza

Diseo Experimentos

104

75
65

70

medias

80

85

Comparacin: vehculos

VEH

Diseo Experimentos

105

Dise
no de experimentos
1. En una planta piloto se obtiene un nuevo producto mediante un proceso qumico. Con el
fin de mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres
temperaturas diferentes. Los resultados del experimento son

Catalizador
A
B

Temperatura
20
300
400
115 125 130 140 110 120
115 105 135 145 100 110
0

(a) Contrastar si los factores Temperatura y Catalizador tienen efectos significativos. ( =


0.05)
(b) Que tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garantizar una probabilidad de error tipo I total, T = 0.03?
2. Se pretende estudiar el efecto que produce los factores (1) Porcentaje de algod
on (10%, 20%
y 30%) (2) Tipo de confeccion (A y B) en la resistencia al desgaste de ciertos tejidos de fibra
sintetica. Se ha realizado el siguiente dise
no con tres replicaciones

10% 20% 30%


115 120 126
112 135 118
133 139 142
107 110 132
114 102 114
108 117 125

(a) Construir la tabla de Analisis de la Varianza y contrastar la influencia de los dos factores
y la presencia de la interaccion.
(b) Hacer un contraste de diferencia de medias y decidir el tratamiento mas adecuado para
conseguir la mayor resistencia al desgaste.
3. Cierto Organismo P
ublico (O.P.) encargado de certificar la composicion de aleaciones de
metales preciosos, debe seleccionar entre dos Laboratorios al mas capacitado para la realizacion de futuros analisis de gran precision. Para tomar la decision les somete a la siguiente
prueba: Prepara tres aleaciones A, B y C que contienen proporciones distintas de oro.
De cada una de ellas enva cuatro muestras a cada uno de los dos laboratorios. As pues,
cada laboratorio recibe un lote de 12 muestras (codificadas) ordenadas aleatoriamente sin
conocer como han sido obtenidas. Los resultados recibidos por el O.P. son (entre parentesis
las medias de las casillas):

Lab. I

Lab. II

Aleac. A
10.96 11.03
11.08 11.01
(11.02)
10.97 10.96
10.94 10.95
(10.955)

Aleac. B
10.95 11.00
11.04 10.97
(10.99)
10.97 10.96
10.97 10.98
(10.97)

Aleac. C
11.07 11.01
10.97 11.03
(11.02)
11.02 11.00
11.01 11.01
(11.01)

(a) Determinar si existen diferencias entre los resultados de los laboratorios y si estos han
encontrado diferencias entre las aleaciones.
(b) Aceptando que los datos cumplen la hipotesis de normalidad, indicar si podemos aceptar
que verifican el resto de las hipotesis del modelo y en caso negativo que medidas se deben
adoptar para analizar los datos.
(c) Realizar un test de razon de varianzas para contrastar que las varianzas de los dos
laboratorios son iguales, sabiendo que las tres aleaciones tienen composicion distinta.
Interpretar el resultado.
(d) El O.P. conoce exactamente el porcentaje en oro de la aleacion A (11 %), de la B
(11.02 %) y de la C (11.04 %). Con esta informacion comparar los resultados de los
laboratorios.
4. Complete la tabla ADEVA siguiente y diga de que dise
no se trata.

Factor 1
Factor 2
Factor 3
Int. Segundo orden
Int. Tercer orden
TOTAL

Suma de Cuad.
20
5

G.L. Varianzas
2
1.25
10
0.25

44

29

5. Se ha realizado un dise
no factorial sin replicacion con tres factores A, B, C con 5, 5 y 4
niveles respectivamente. Si la interaccion de tercer orden es nula, obtener la descomposicion
de la variabilidad e indicar los grados de libertad de cada termino.
6. Para estudiar el efecto de tres factores (A,B,C) en el tiempo de fraguado del hormigon se ha
realizado un experimento factorial completo a dos niveles con tres replicaciones (24 datos en
total). Los resultados de la estimacion han sido:
Media
92.5

A
B AB
2.4 3.3 8.5

C
AC BC ABC
15.0 -1.4 2.65 0.72

Teniendo en cuenta que la varianza residual obtenida es s2R = 18.8, indicar que efectos son
significativos para un nivel de significacion = 0.05.
2

7. Una caracterstica de la calidad de la gasolina es su ndice de octanos. Una refinera de


petroleo tiene cinco formulas que pueden emplearse para la obtencion de gasolina con plomo
o sin plomo.
(a) Para determinar que formula proporciona mayor ndice de octanos, con cada una de
ellas se ha repetido 10 veces en el laboratorio el proceso de fabricacion de gasolina con
plomo. Si el coeficiente de determinacion del analisis de la varianza de los resultados
es igual a 0.20, contrastar con = 0.05 si existen diferencias entre las cinco formulas
para este tipo de gasolina.
(b) Los valores medios (
yi ) para cada formula son:
Formula
1
Media
89.2

2
3
4
5
90.1 90.7 90.5 89.5

Contrastar con = 0.05 que formulas proporcionan ndices de octanos significativamente distintos y cuales no.
(c) Debido a los problemas medio-ambientales gran parte de la produccion futura debe
estar libre de plomo. Para determinar que formula de las anteriores produce mejores
resultados en cuanto al ndice de octanos , se realizo un dise
no experimental similar
al anterior (cinco formulas, 10 observaciones en cada formula) para la obtencion de
gasolina sin plomo. El coeficiente de determinacion en este caso es igual a 0.25 y el
ndice medio para cada formula es,
Formula
1
2
3
4
5
Media
88.0 89.5 88.5 90.2 89.8
Contrastar ( = 0.05) si existe interaccion entre los factores tipo de gasolina (con y sin
plomo) y formula.
8. Para estudiar la influencia de la temperatura y la presion sobre el rendimiento de un proceso
qumico se ha realizado un experimento con 5 valores de presion y 4 valores de temperatura.
Los resultados se muestran en la tabla siguiente.

Presion

Medias

1
2
3
4
5

Temperatura
10
20
65,58 96,71
66,32 101,5
74,42 99,81
80,24 104,11
79,61 112,14
73,24 102,85

30
124,20
130,37
134,63
138,42
143,58
134,24

40
156,63
161,38
160,59
166,96
170,68
163,19

Medias
110,71
114,89
117,36
122,43
126,50
118,38

(a) Considere solamente el efecto de la presion y estudie si es significativo ( = 0, 05),


sabiendo que las varianzas muestrales corregidas para los datos correspondientes a cada
presion son b
s21 = 149, 85; b
s22 = 164, 62; b
s23 = 143, 95; b
s24 = 145, 11; b
s25 = 154, 94.
3

(b) Incorpore el efecto de la temperatura en un modelo adecuado para los datos. Interprete
el resultado.
(c) Calcule un intervalo de confianza al 95% para la varianza del error experimental de los
modelos de los dos apartados anteriores. Interprete las diferencias.
9. Se desea estudiar la fuerza de percusion de una perforadora en funcion de la VELOCIDAD
de giro (baja y alta) y de un coeficiente mecanico que denominaremos RATIO (0.15, 0.30,
0.45 y 0.60). Se ha experimentado en las ocho posibles combinaciones de ambos factores,
replicando cada experimento dos veces. Los resultados se muestran en la tabla siguiente

Vel. Baja
Vel. Alta
Media

0.15
0.30
0.45
0.60 Media
270
245
260
275
266.875
278
249
272
286
283
285
286
294
286.125
286
280
287
288
279.25 264.75 276.25 285.75 276.5

Las variabilidades explicadas por el RATIO, la VELOCIDAD y la interaccion RAT x VEL


son respectivamente 925, 1482.25 y 418,75 y la Variabilidad Total es 3034.
(a) Completa la tabla de analisis de la varianza e indica que efectos son significativos para
= 0.05.
(b) Interpreta el resultado, indicando como influye el RATIO y la VELOCIDAD en la fuerza
de la perforadora. Dibuja el grafico que permite interpretar la interaccion. Proporciona
el intervalo de confianza para la media de la combinacion RATIO 0.30, y VELOCIDAD
baja.
(c) Cada tratamiento tiene dos observaciones, llamando Dij = |Yij1 Yij2 | , al valor absoluto de la diferencia de estas observaciones, demuestra que
Dij2
21
2
2
y que

2
SD

P2

i=1

P4

j=1

16

2
Dij

es un estimador centrado de la varianza del modelo factorial.

(d) Supon que la varianza de las observaciones a velocidad baja es 21 y de las observaciones
a velocidad alta es 22 . Utilizando el resultado del apartado 3, realiza el siguiente
contraste con nivel de significacion 0.05,
H0 : 21 = 22
H1 : 21 6= 22

10. Cuando un lenguaje de alto nivel es compilado, el tiempo de ejecucion depende del compilador. Un ingeniero de software desea comparar tres compiladores (A, B y C), para ello ha
seleccionado 5 programas muy distintos, cada uno de los cuales ha sido compilado por los
tres compiladores. Los tiempos de CPU se proporcionan a continuacion:
A
B
C
Medias

1
122.9
113.8
131.2
122.7

2
147.4
135.1
152.8
145.1

3
189.6
173.8
192.7
185.3

4
200.9
199.3
219.8
206.7

5
Medias
307.3 193.6
296.6 183.7
318.9 203.1
307.6

La variabilidad total es 62899.2, y las variabilidades explicadas por el tipo de compilador y


tipo de programa son 937.2 y 61868.9, respectivamente. Da un intervalo de confianza (95%)
para la diferencia de las medias entre los dos compiladores mas rapidos.
11. Se ha realizado el analisis de la varianza de un dise
no con un u
nico factor a 10 niveles con 6
observaciones para cada nivel. El nivel crtico que muestra la tabla ADEVA es p = 0.5832.
Los niveles crticos de los contrastes individuales de igualdad de medias son mayores de 0.05
para todas las parejas excepto para la comparacion entre los niveles 3 y 7 que ha sido igual a
0.0405. Es posible este resultado? Que se puede concluir del analisis? Que procedimiento
sugiere para realizar los contrastes individuales?
12. Se ha realizado un dise
no factorial sin replicacion con tres factores A, B, C con 5, 5 y 4
niveles respectivamente. Si la interaccion de tercer orden es nula, obtener la descomposicion
de la variabilidad e indicar los grados de libertad de cada termino.
13. Sea un dise
no factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el n
umero de parametros
totales correspondientes a efectos principales e interacciones de orden 2, 3 y 4.
14. Un ingeniero ha estudiado el efecto que tienen 5 niveles de iluminacion en una operacion
de ensamblado. El departamento en el que se ha experimentado tiene cuatro estaciones de
trabajo, que representan una fuente potencial de variabilidad. Para cada estacion de trabajo
y nivel de iluminacion se ejecuto la operacion de ensamblado, midiendo la holgura en micras.
Los resultados fueron:
ESTAC.
1
2
3
4
yj

1
131
92
128
121
118

ILUMINACION
2 3 4
5
yi
116 88 75 104
102.8
96 97 70
75
86.0
129 99 94 105
111.0
107 84 89
86
97.4
112 92 82 92.5 y = 99.3

(a) Contrastar ( = 0.05) si la iluminacion o la estacion de trabajo influye en los resultados


del ensamblado.
5

(b) Comparar los niveles de iluminacion y los niveles de las estaciones de trabajo. Indicar
en cada caso cuales se pueden considerar distintos y cuales no.
(c) Calcular la varianza teorica del valor medio previsto para cada observacion.
(d) Explicar por que no se debe contrastar la hipotesis
H0 : 1 = 2 = ... = m
del modelo basico de analisis
la varianza (un factor), mediante contrastes de la t de
 de 
m
Student a cada uno de los
pares de muestras.
2
15. Se realiza un experimento para estudiar la influencia de 2 factores en el rendimiento de un
proceso, donde el factor que se encuentra a 3 niveles (Alto, medio y bajo) es la temperatura,
el otro factor, catalizador, tiene dos niveles: catalizador I y II. Los datos del experimento
se muestran en la siguiente tabla:

CI
CII

Alto
Medio
Bajo
279 172 176 174 277 130 397 348 434
(215.6)
(193.6)
(393)
253 238 387 252 367 323 417 427 423
(292.6)
(314)
(422.3)

(Nota: Los n
umeros entre parentesis son las medias de las casillas)
(a) Contrastar con = 0.05 que efectos son significativos. Interprete el resultado.
(b) Determinar el intervalo con el 99% de confianza para la varianza del error experimental.
(c) Dar un intervalo para una observacion realizada en condiciones optimas. Si se realizan
10 experimentos en estas condiciones, determinar el intervalo que con probabilidad
igual al 95% contiene a todas ellas. Utilice la aproximacion
tg = z (1

z + 1 1
)
4g

donde g son los grados de libertad de la t y z el valor de la normal estandar, tal que
P (Z z ) =
16. Un laboratorio de Analisis Clnicos ha adquirido un nuevo equipo (B) para medir el colesterol en la sangre de los enfermos. Para evaluar si el nuevo equipo esta ajustado se decide
analizar muestras de 5 enfermos que previamente han sido analizadas con otro equipo (A),
dando como resultado

Enfermo
1
2
3
4
5 Media
Equipo A 215 305 247 221 286 254.8
Equipo B 224 312 251 232 295 262.8
6

Contrastar con = 0.05 existen diferencias entre los dos equipos.


17. Para estudiar el consumo de aceite de un motor se prueban 4 motores distintos con 3 tipos
de aceites obteniendo 12 medidas de consumo. Se ha obtenido:
Variabilidad explicada por aceite = 100
Variabilidad explicada por motor = 80
Variabilidad Total = 220
Se pide escribir la tabla ADEVA correspondiente, y obtener conclusiones.
18. Para determinar el consumo de energa electrica para usos domesticos se ha medido el consumo medio por persona en las distintas estaciones del a
no en siete comunidades autonomas
para 1989, habiendose obtenido los siguientes resultados:

COMUNIDAD INVIERNO PRIMAVERA VERANO OTONO


MEDIAS
1
13.1
11.4
10.6
11.5
11.65
2
13.4
12.1
11.1
12.0
12.15
3
13.8
12.1
11.4
12.9
12.55
4
14.0
12.8
11.7
12.6
12.77
5
14.4
12.6
12.5
13.4
13.22
6
14.8
13.4
13.0
14.0
13.80
7
15.6
14.2
14.1
14.4
14.57
MEDIAS
14.16
12.66
12.06
12.97
12.96
(a) Analizar si el factor estacion del a
no es influyente, sabiendo que s2y = 1.53.(No considerar el factor Comunidad).
(b) Razonar estadsticamente cual es la estacion de mayor consumo y la de menor, utilizando el analisis anterior. Calcular los intervalos de confianza para el consumo medio
de cada estacion del a
no.
(c) Sabiendo que la variabilidad explicada por el factor comunidad es 23.62, construir una
nueva tabla de la varianza, con dos factores, y decidir que factor es significativo.
(d) Utilizar los resultados del apartado anterior para realizar un contraste de igualdad de
medias del efecto estacion y comparar los resultados con los del apartado 2, justificando
las diferencias encontradas.
( NOTA: Utilizar = 0.05 en todos los contrastes )
19. Se realiza un experimento para estudiar si la presencia de fluorita reduce el coste de fabricacion de clinker de cemento en tres tipos diferentes de mezcla. Los resultados del mismo
(en miles de pesetas por Tm) se muestran en la siguiente tabla:

FLUORITA
0%
1%
2%
3%
4%
y
5 X
3
X

MI MII MIII
y i
15.4 10.6 17.8 14.6
10.3 5.5 10.9 8.9
7.4 1.2
8.1 5.5
10.7 6.5
9.6 8.9
13.5 11.6 15.5 13.5
11.4 7.1 12.4

e2ij = 10.2 y = 10.3

i=1 j=1

(a) Determinar si el tipo de mezcla y el nivel de fluorita a


nadido influyen significativamente
en el coste de fabricacion. Se supone que no existe interaccion entre los dos factores.
(b) Contrastar que porcentaje de fluorita produce el menor coste del clinker.
20. El analisis de la varianza de un dise
no en bloques aleatorizados proporciona los siguientes
resultados: V T = 232, V E(factor) = 156, V E(bloque) = 15 y V NE = 61. El n
umero de
niveles del factor es 5 y el n
umero de bloques 8. Construir la tabla ADEVA. Cual sera
el resultado del analisis si no se tiene en cuenta el efecto de los bloques ? Indicar en que
circunstancias es preferible cada uno de los modelos.
21. Se ha realizado un experimento con tres factores, (A, B y C), con 4, 3, y 5 niveles, sin
replicaciones. El modelo propuesto no incluye las interacciones de orden 3, por lo que la
variabilidad explicada por estas interacciones se pretende utilizar para estimar la varianza
residual. Los resultados proporcionan para la variabilidad explicada por las interacciones de
orden 3 un valor igual a 234.5; que es muy superior a lo esperado. Debido a esto se repitio
por completo el experimento, obteniendose para este segundo experimento un valor de 158.7
(para la variabilidad explicada por la interacciones de orden 3). Proponer un procedimiento
para contrastar si se ha producido un cambio significativo en esta variabilidad de uno a otro
experimento, indicando las hipotesis en las que se basa el contraste. (Dejar el resultado del
contraste indicado en funcion de los valores crticos de la tabla correspondiente.)
22. En un modelo de analisis de la varianza se ha observado que la desviacion tpica (
si ) y la
media (y i ) de las observaciones de cada tratamiento estan relacionadas linealmente, si = ky i ,
donde k es una constante. Cual de las siguientes transformaciones es la mas adecuada para
corregir la heterocedasticidad ? z = log y, z = y 2 o z = ky
23. La oxidacion es una etapa de la fabricacion de chips y consiste en a
nadir una capa de
oxido sobre la placa silicio (oblea). Se esta experimentando con 6 tratamientos (Ti ) para
seleccionar el que proporciona un mayor espesor de oxido en un mismo tiempo de proceso.
Una caracterstica que influye en el espesor es el acabado superficial de la oblea, por lo que
se tomaron 5 tipos distintos de acabado (Oj ). De cada tipo (Oj ) se tomaron 6 obleas y se
asignaron aleatoriamente a los tratamientos. En la tabla se proporciona el espesor obtenido
en cada oblea y las medias por filas y columnas.
8

O1
O2
O3
O4
O5

T1
85.60
89.30
84.70
87.60
87.30
86.90

T2
90.90
91.50
87.50
90.50
93.10
90.70

T3
93.00
93.60
90.90
95.60
94.90
93.60

T4
80.50
83.20
81.00
84.60
82.70
82.40

T5
85.20
87.80
83.20
87.60
86.70
86.10

T6
88.90
91.00
86.30
91.10
88.70
89.20

87.35
89.40
85.60
89.50
88.90
88.15

VT = 465.1

(a) Contrastar si el tipo de oblea y el tratamiento influyen en el espesor del oxido. Elegir el
tipo de oblea y tratamiento mas adecuado, indicando si son significativamente distintos
del resto.
(b) Para fijar los seis tratamientos, se seleccionaron dos temperaturas (t1 , t2 ) y tres presiones
(p1 , p2 , p3 ) y se combinaron de forma que T1 = (t1 , p1 ), T2 = (t1 , p2 ), T3 = (t1 , p3 )
T4 = (t2 , p1 ), T5 = (t2 , p2 ) y T6 = (t2 , p3 ). Calcular las variabilidades explicadas por la
temperatura, la presion y su interaccion (t p).
(c) Indicar si sus efectos son significativos, suponiendo nulas las interacciones de los factores
O t, O p y O t p.
24. Demostrar que en un modelo de bloques aleatorizados,
,
i y j son independientes.
25. Un centro ha realizado un experimento para mejorar la resistencia a la tension de ciertos
muelles de acero. En una etapa del proceso el muelle caliente se sumerge en aceite templado.
Se han estudiado tres factores, A (temperatura del acero antes de la inmersion, con tres
niveles), B (temperatura del ba
no de aceite, dos niveles) y C (concentracion de carbono en
el acero, dos niveles). El experimento se ha replicado tres veces. En la tabla se muestra la
media y la varianza (corregida) para los tres datos de cada tratamiento.
A
1
1
1
1
2
2
2
2
3
3
3
3

B
1
1
2
2
1
1
2
2
1
1
2
2

C
1
2
1
2
1
2
1
2
1
2
1
2

yi
s2i
40.2 0.25
61.1 2.68
35.9 2.43
57.1 4.44
49.0 3.49
70.3 7.77
46.7 5.08
67.6 1.03
41.9 4.27
62.7 11.41
37.1 1.33
60.3 6.13

(a) Dar un intervalo del 95 % de confianza para la varianza del error experimental, 2 .
(b) Indicar si los efectos principales de A, B y C son significativamente distintos de cero.

(c) Dado 2 , construir un intervalo que cumpla que la probabilidad de que s2i (la varianza
muestral corregida de un tratamiento) este contenido en el sea igual a 0.95. Sustituir 2
por su estimador y con ayuda de este intervalo, discutir si se puede rechazar la hipotesis
de homocedasticidad de las observaciones.
26. Estimar por maxima verosimilitud los parametros , i y j del modelo de bloques aleatorizados. Obtener la distribucion de estos estimadores, indicando su media y varianza.
27. Explicar por que en un modelo de dos factores con interaccion es necesario poner las condiciones
I
X
i=1

i = 0,

J
X
j=1

j = 0,

I
X

()ij = 0 para todo j,

i=1

J
X

()ij = 0 para todo i.

j=1

Se podran haber puesto otras condiciones distintas a las anteriores? Justificar la respuesta.
28. La calidad de un producto qumico despues de un largo periodo de almacenamiento depende
del conservante empleado y de las caractersticas de almacenamiento. Se ha estudiado el
efecto de cuatro conservantes distintos (columnas) y cinco almacenamientos (filas) sobre la
degradacion del producto:

1
2
3
4
5
Medias

1
2
3
15.1 11.0 18.8
8.1 4.3 11.8
15.3 11.5 15.6
8.0 4.4 11.0
13.5 9.3 15.8
12.0 8.1 14.6

4
Medias
10.3
13.8
3.8
7.0
9.2
12.9
5.8
7.3
18.2
14.2
9.46
11.04

La tabla de analisis de la varianza para los datos anteriores es:

Almacen.
Conserv.
Residuos
Total

Suma de
Cuadrados
205.488
123.676
61.484
390.648

Grados de
Libertad
4
3
12
19

S. Cuadrados
F
Medios
51.372 10.03
41.225 8.05
5.123

Nivel
Crtico
0.0008
0.0033

(a) Elegir con = 0.05 el conservante y el almacenamiento que producen menor degradacion.
(b) El analisis de los residuos muestra como atpica la observacion y54 = 18.2. Un examen
qumico confirma el resultado anomalo por lo que se recomienda eliminar la observacion.
Seg
un el modelo de dos factores sin interaccion, la prediccion de la observacion yIJ
(eliminada) es:
SI
SJ
S
ybIJ =
+

(J 1) (I 1) (I 1)(J 1)
10

donde I = 5, J = 4, SI es la suma de las observaciones de la fila I (sin incluir la eliminada), SJ es la suma de las observaciones de la columna J (sin incluir la eliminada), y
S es la suma de las observaciones restantes no incluidas en la fila I ni en la columna
J. Obtener la distribucion (media y varianza) del error de prediccion eIJ = yIJ ybIJ .

(c) Cuando, como en el caso anterior, falta una observacion se recomienda el siguiente procedimiento: sustituir la observacion faltante por su prediccion y aplicar los contrastes
habituales teniendo en cuenta que los residuos tienen un grado de libertad menos. La
nueva descomposicion de la variabilidad es: VT=339.63, VE(Conservantes)=166.02,
VE(Almacenamiento)=164.02 y VNE=9.59. Contestar al apartado 1 con esta modificacion e interpretar las diferencias.
29. Una instalacion tpica de almacenamiento de combustible en una Estacion de Servicio (gasolinera) esta formada por un tanque enterrado de gran capacidad, al que se encuentran
conectados distintos surtidores. La cantidad total de gasolina suministrada en un da se
puede determinar midiendo directamente la variacion que se ha producido en el tanque de
almacenamiento (Y1j ) o por la suma de los suministros de los distintos surtidores (Y2j ). La
comparacion de ambas medidas permite determinar perdidas en la instalacion enterrada y
otras anomalas. En el proceso de comparacion es necesario tener en cuenta que las medidas
estan afectadas por errores aleatorios. Durante 20 das se han tomado los valores anteriores
en un gasolinera:
Da
Y1j
Y2j

1
4116,2
4143,6

2
5627,0
5632,0

3
2820,4
2868,1

4
2521,8
2477,7

5
2973,5
2955,4

6
2834,9
2851,9

7
2335,7
2312,7

8
2590,8
2630,6

9
2182,7
2208,9

10
2621,4
2635,9

Da
Y1j
Y2j

11
4323,6
4305,4

12
1880,7
1877,9

13
2131,4
2159,2

14
3349,6
3366,7

15
2545,0
2566,1

16
2247,3
2281,4

17
1817,5
1854,6

18
1461,3
1461,5

19
1646,5
1607,3

20
1955,4
1956,4

(a) Llamando Dj = Y1j Y2j a la diferencia en las medidas de un mismo da, contrastar
con = 0.05
H0 : D = 0
H1 : D 6= 0
donde Dj tiene distribucion N(D , D ). Calcular el nivel crtico del contraste aproximando la distribucion t de Student por la normal.
(b) Los datos anteriores pueden ser analizados mediante un modelo de bloques aleatorizados
tomando el tipo de medida (tanque, surtidores) como un factor y los das como bloques.
Demostrar con caracter general que en el modelo de bloques aleatorizados si el factor
tiene dos niveles la varianza residual cumple:
1
sb2R = sb2D
2

donde sb2D es la estimacion de 2D del apartado 1.

(c) Teniendo en cuenta lo anterior, demostrar que el contraste correspondiente al factor en


el modelo de bloques aleatorizados es equivalente al contraste del apartado 1.
11

30. Una forma alternativa de la ecuacion del modelo para comparar I tratamientos es
yij = + i + uij ,

i = 1, 2, ..., I;

j = 1, 2, ..., m

donde
es la media global
1 , P
ametros que determinan los efectos de cada tratamiento, cumplen
2 , ..., I son los par
I
que i=1 i = 0

uij son variables aleatorias independientes con identica distribucion normal de media cero y
varianza 2 .
(a) Obtener el estimador maximo verosmil de i , indicar su distribucion de probabilidad,
media y varianza.
P
(b) Calcular la esperanza de la variabilidad explicada (V E = m Ii=1 b
2i ) cuando los
parametros i no son todos nulos.
(c) Calcular la correlacion entre b
i y un residuo eij cualquiera (del mismo o diferente
tratamiento). Que implicacion tiene este resultado en el contraste de analisis de la
varianza.

31. Un ingeniero esta estudiando metodos para mejorar ciertas propiedades mecanicas de una
aleacion metalica. Los dos factores que considera mas importantes son la cantidad de Manganeso y la temperatura de templado. Se dise
na un experimento empleando tres niveles
para el factor manganeso y dos para la temperatura, en total 32 = 6 tratamientos. Se
dispone de 6 hornos diferentes para realizar la fundicion. Cada horno requiere un operador
y se disponen de seis operadores cada uno de los cuales es capaz de manejar los seis hornos.
Dise
nar un experimento que con 36 observaciones permita estudiar las diferencias entre los
seis tratamientos y que tenga en cuenta el tipo de horno y el operador como variables bloques. Construir la tabla de analisis de la varianza, indicando los grados de libertadad de
cada variabilidad, separando en ella el factor manganeso, el factor temperatura y su interaccion. (Los bloques y los factores no interaccionan). (Nota: no es necesario indicar en la
tabla como se obtienen las distintas variabilidades).
32. Una asociacion de consumidores para comprobar la utilidad de ciertos compuestos que seg
un
sus fabricantes reducen el consumo de gasolina de los automoviles realizo el siguiente experimento: eligio al azar 9 vehculos nuevos de distintas marcas con cilindrada similar y con
cada uno de ellos recorrio tres veces un mismo trayecto con conductores distintos. Ademas
en cada uno de estos tres trayectos empleo un tratamiento diferente para la gasolina:

A:
B:
Tratamiento

C:

Gasolina con Cyber-Gas


Gasolina con Consumin
Gasolina sin aditivo

En la tabla siguiente se muestra el consumo en litros de gasolina en cada uno de los recorridos
y el tipo de tratamiento (letra latina).
12

N
umero
Vehculo
1
2
3
4
5
6
7
8
9
Media
Columna

Conductores
1
2
3
15,5 (A) 15,6 (B) 16,6 (C)
13,0 (B) 13,3 (A) 13,0 (C)
11,8 (B) 13,1 (C) 12,5 (A)
14,4 (A) 14,8 (C) 15,0 (B)
12,4 (B) 14,3 (A) 14,1 (C)
15,6 (C) 15,3 (A) 14,7 (B)
12,7 (C) 12,0 (B) 12,0 (A)
14,2 (C) 14,0 (B) 15,1 (A)
12,6 (A) 13,5 (C) 12,3 (B)
13,58

13,99

13,92

Media
fila
15,90
13,10
12,47
14,73
13,60
15,20
12,23
14,43
12,80
Media Total
13,83

A:13,89
Media de
B:13,42
Tratam.
C:14,18

El analisis de los datos se realiza con el siguiente modelo


yijk = + i + j + k + uijk
donde yijk representa el consumo en litros, la media global; i , i = 1, 2, ..., 9 y j , j =
1, 2, 3 los efectos correspondientes a los vehculos (filas) y los conductores (columnas). La
estimacion e interpretacion de estos parametros es similar al modelo de bloques aleatorizados.
Ademas se incluye los par
Pa3 metros k , k = 1, 2, 3 que miden el efecto de los tratamientos (tipo
de aditivo) y cumplen k=1 k = 0. Por u
ltimo, uijk la componente aleatoria son variables
aleatorias independientes con distribucion normal de media cero y varianza 2 para todas
las observaciones.
(a) Obtener razonadamente los estimadores maximo verosmiles de k .
(b) La tabla del analisis de la varianza del modelo anterior es

Tratamiento
Vehculo
Conductor
Residual
Total

Suma de
Cuadrados
2,67
40,2
0,876

Grados de
Libertad Varianza
2
1,31
8
5,02
2
0,438

2,73
46,4

14
26

F
p-Valor
6,7 0,0091
25,7 0,0000
2,2 0,1428

0,195

Reducen los aditivos el consumo de gasolina? Existen diferencias significativas entre


Cyber-gas (A) y Consumin (B)? (Realizar los contrastes con nivel de significacion 0.05).
(c) Demostrar que el dise
no anterior, independientemente de los valores numericos (yijk )
obtenidos, es un dise
no ortogonal, es decir que cumple:
VT = VE(Vehculos) + VE(Conductores) + VE(Tratamientos) + VNE
(Nota.- Es suficiente con demostrar la ortogonalidad del vector correspondiente a los
tratamientos con respecto a los otros tres).
13

33. Un informatico quiere comparar los tiempos de ejecucion de tres programas realizados en
lenguajes diferentes que realizan el mismo proceso. Para hacer la comparacion utilizan 4
ordenadores con microprocesadores distintos. Los tiempos requeridos por cada programa en
cada ordenador han sido:
ORDENADOR

1
2
3
4
yj

PROGRAMA
A
B
C
1,36 2,23 1,54
0,97 0,70 0,76
1,79 1,74 1,84
0,64 0,69 0,74
1,19 1,34 1,22

yi
1,71
0,81
1,79
0,69
1,25

Existen diferencias significativas en los tiempos requeridos por los 3 programas?


34. Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20%
de la variabilidad total esta explicada por la interaccion de los dos factores y el 40% de
la variabilidad total es debida a la variabilidad residual. Determinar el n
umero de replicaciones necesarias en cada tratamiento para que la interaccion sea significativa con = 0.01.
(Explicar el procedimiento de calculo, dejando el resultado indicado en funcion de las tablas).
35. Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formacion (ciencias, letras) en el dominio del ingles escrito en profesores universitarios. Para ello analiza el
n
umero de incorrecciones gramaticales en artculos cientficos enviados a publicacion. Para
cada combinacion de niveles de los factores se han elegido al azar tres profesores. En la tabla
se proporciona el n
umero de fallos detectados en artculos de 15 paginas

Hombre
Mujer

Letras
Ciencias
8, 6, 13 22, 28, 33
5, 10, 6 12, 14, 9

Contrastar con nivel de significacion 0.05 si los efectos principales y la interaccion son significativos. Tener en cuenta que P (F1,8 5.32) = 0.95, siendo F1,8 la distribucion F con
grados de libertad 1 y 8. Interpretar los resultados.
36. Un alumno, como trabajo de la asignatura de estadstica, ha comparado tres marcas distintas
(A,B,C) de palomitas de maz precocinadas. Cada marca puede prepararse friendolas en
una sarten (metodo 1) o en el horno microondas (metodo 2). El alumno ha realizado un
dise
no factorial completo 32 con cinco replicaciones en cada uno de los seis tratamientos.
La variable respuesta medida es el porcentaje de granos de maz que no se han inflado
adecuadamente. Los resultados del experimento se muestran en la tabla, en cada tratamiento
14

se proporciona la media y entre parentesis la desviacion tpica corregida para las cinco
replicaciones. Contrastar si la interaccion entre los dos factores es significativa.
A
5.5
(1,4)
3.8
(1,3)

Sarten
Horno

B
3.6
(1,8)
3.4
(0,9)

C
7.5
(2,5)
4.3
(1,3)

37. Se ha realizado un experimento con dos factores, A (temperatura con tres niveles), B (concentracion con cuatro niveles). El experimento se ha replicado 5 veces. En la tabla se
muestra la media y la varianza (corregida) para los 5 datos de cada tratamiento.
A
1
1
1
1
2
2
2
2
3
3
3
3

B
1
2
3
4
1
2
3
4
1
2
3
4

yi
240
261
235
257
249
270
246
267
241
262
237
260

s2i
1.2
1.6
1.4
2.4
1.4
5.7
5.8
1.7
4.2
9.4
1.3
6.1

Escribir la tabla de analisis de la varianza.


38. Se desea estudiar la influencia de 2 factores en el error de medida de un equipo de vision
artificial. Un factor F es la distancia focal, para el que se han fijado 4 niveles y el otro factor
L es el nivel de iluminacion con 2 niveles. Ademas se dispone de 2 equipos diferentes para
realizar las medidas. Se ha tomado un patron y se ha medido en las combinaciones indicadas
en la tabla, donde yijk es el error obtenido al situar la distancia focal i, con iluminacion j y
el equipo k.
F
1
L
1
Equipo 1 y111
Equipo 2 y112

2
1

3
1

4
1

1
2

2
2

3
2

4
2

y211
y212

y311
y312

y411
y412

y121
y122

y221
y222

y321
y322

y421
y422

Construir la tabla de analisis de la varianza, que incluya los efectos principales debidos a la
distancia focal (F ), la iluminacion (L) y el equipo, y ademas la interaccion F L, suponiendo
que son nulas el resto de interacciones.
39. Cierta industria de lentes para gafas desea comparar dos tipos de recubrimiento antireflectante A, B. Los dos tipos tienen identico aspecto y prestaciones, pero antes de decidirse por
15

uno u otro desean comprobar si el tipo de recubrimiento influye en el desgaste que sufre la
lente. Para ello construyen gafas con una lente de cada tipo que distribuyen entre 10 personas seleccionadas al azar que habitualmente utilizan gafas. Al cabo de seis meses miden
el desgaste y se obtienen los valores que se indican en la tabla.
Persona
1
2
3
4
5
6
7
8
9
10

Lente A
6.7
5.0
3.6
6.2
5.9
4.0
5.2
4.5
4.4
4.1

Lente B
6.9
5.8
4.1
7.0
7.0
4.6
5.5
5.0
4.3
4.8

Que tipo de recubrimiento recomendara a los fabricantes con el criterio de mnimo desgaste?.
40. Demuestre que en un modelo en bloques aleatorizados, con I niveles para el factor y J niveles
para el bloque, con modelo
yij = +i+ j +uij ,el valor esperado de la variabilidad explicada por el factor es: E[V E()] =
P
(I 1) 2 + J Ji=1 2i ,siendo 2 la varianza del error experimental.

41. Se desea comprobar si el orden en el que aparecen las preguntas de un examen test influye
en resultado obtenido por el alumno. Se han preparado dos examenes, el Test A tiene
las preguntas en orden de dificultad creciente y el Test B a la inversa. Se ha elegido una
muestra aleatoria de 20 alumnos y se han emparejado seg
un su habilidad, de forma que los
dos alumnos de cada pareja han demostrado durante el curso una habilidad similar. De
cada pareja, un alumno se ha asignado aleatoriamente al Test A y el otro al Test B. Los
resultados finales del ejercicio han sido (cada pareja es una columna)
Test A:
Test B:

83 82 95 92
76 62 70 74

91 60 89 69 70 72
52 63 48 80 76 74

Es evidente que las puntuaciones del Test B son mas bajas que las del Test A?
42. El analisis de la varianza de un dise
no en bloques aleatorizados proporciona los si-guientes
resultados: V T = 129, V E(factor) = 38, 5 y V E(bloque) = 82, 5. El n
umero de niveles del
factor es 4 y el n
umero de bloques 4. Construir la tabla de analisis de la varianza y hacer
los contrastes correspondientes con nivel de significacion 0,05.

16

43. Se ha estudiado la influencia de la cantidad de cierto aditivo en la opacidad de un material


plastico que se puede fabricar por tres metodos de extrusion. El objetivo es conseguir el
tratamiento con opacidad mnima. Cada tratamiento se ha replicado 5 veces, los valores
medios y las desviaciones tpicas corregidas para cada caso se proporcionan en la tabla 1.
La tabla 2 corresponde al analisis de la varianza. Se ha comprobado que se verifican las
condiciones de normalidad y homocedasticidad.
Metodo
1
1
2
2
3
3

Extrus.
Aditivo
Interac.
Residual
Total

Aditivo
1
2
1
2
1
2

Suma de
cuadrad.
2.210
47.636
37.572
24.728
112.146

Medias
9.5
9.3
10.0
8.1
11.5
6.0

g.l.
2
1
2
24
29

Desv. Tp.
0.83
0.67
1.53
(TABLA 1)
0.77
0.78
1.23

Var.
F
p-valor
1.105 1.072
0.358
47.636 46.2
0.000 (TABLA 2)
18.786 18.2
0.000
1.030

(a) A la vista de los resultados de las dos tablas indica que metodo de extrusion es aconsejable para conseguir la opacidad mnima.
(b) Da un intervalo del 95% de confianza para la opacidad media en las condiciones optimas.
(c) Sea
di = y i1 y i2
la diferencia entre las medias observadas en los dos niveles del factor aditivos para el
metodo de extrusion i. Calcula el valor esperado y la varianza de di en terminos de los
parametros del modelo factorial.
(d) Si E(di) = 0 para los tres metodos, obten la distribucion de probabilidad de
5 d21 + d22 + d23

.
2
2
44. Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 o C y 320 o C)
en la duracion de cierto componente. Para cada combinacion de horno y temperatura se
ha replicado el experimento 3 veces. En la tabla siguiente se proporcionan las medias y
desviaciones tpicas de los datos de cada tratamiento.

17

Temperatura o C
290 C
320 o C
Media Desv. T. Media Desv. T.
Horno 1 245.6
8.50
180.0
2.65
Horno 2 191.0
15.39
144.0
2.65
Horno 3 187.0
4.58
134.3
8.62
o

Fuente
Horno
Temp.
HxT
Residual
Total

Suma
Cuadrado
9646.3
13667.6
274.8
837.3
24426

Grados
Libertad
2
1
2
12
17

Varianza
F
p-valor
4823.2
69.1
0.000
13667.6 195.9 0.000
137.4
1.97
0.182
69.8

Seleccionar el horno y la temperatura que proporcionan maxima duracion, haciendo los contrastes de igualdad de medias con nivel de significacion 0.01.

18

3. Regresin lineal
Curso 2011-2012
Estadstica

Regresin simple
consumo y peso de automviles
Peso
kg

Consumo
litros/100 km

981
878
708
1138
1064
655
1273
1485
1366
1351
1635
900
888
766
981
729
1034
1384
776
835
650
956
688
716
608
802
1578
688
1461
1556

11
12
8
11
13
6
14
17
18
18
20
10
7
9
13
7
12
17
12
10
9
12
8
7
7
11
18
7
17
15

2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

Regresin Lineal

25

Consumo (litros/100 Km)

Nm. Obs.
(i)

20

15

10

0
500

700

900

1100

1300

1500

1700

Peso (Kg)

Modelo
yi

1 xi

ui ,

ui

N (0,

yi
0

xi
2
,
,
: parmetros desconocid os
0
1
Regresin Lineal

Hiptesis del modelo


Linealidad
yi =

0+ 1xi

+ ui

Parmetros

Normalidad
yi|xi

N ( 0 + 1x i, 2)

Homocedasticidad
Var [yi|xi] =

0
1
2

Independencia
Cov [yi, yk] = 0
Regresin Lineal

Modelo
yi

1 xi

ui ,

ui

N (0,

yi : Variable dependiente
xi : Variable independiente
ui : Parte aleatoria
0
Regresin Lineal

Estimacin
n

M(

( yi

x )2

1 i

i 1
n

dM
d 0
dM
d 0

( yi

x) 0

yi

1 i

xi

i 1
n

( yi

x ) xi

1 i

xi yi

xi

xi2

i 1
n

( yi

1x

y )( xi

x)

( xi

i 1

xi yi n

2
i

x n

x) 2

i 1
1

i 1

Regresin Lineal

cov( xi , yi )
;
var( xi )

x
6

Estimacin: mxima verosimilitud


1

l ( 0 , 1, 2 )

2 2i 1

( yi

1xi )

i 1

1 n
2i 1

y
i 1

L( 0 , 1, 2 ) log l ( 0 , 1, 2 )
n
n
1 n
2
log( 2 )
log 2
( yi
0
1xi )
2
2
2
2 i 1
1 n
yi n 0
( yi
0
1xi ) 0
1 xi
2

dL
d 0
dL
d 0
n

n/2

exp

xi yi n

( yi

1xi ) xi

1x

0
0x
1

i 1

xi2 n

0
( yi

xi yi
y )( xi

x)
1

cov( xi , yi )
;
var(xi )

2
1 xi

xi

i 1

( xi

x)2

1x

Regresin Lineal

Estimacin
L( 0 , 1, 2 )
dL
d

: mxima verosimilitud

n
n
log( 2 )
log 2
2
2
n 1
1 n
( yi
2
4
2
2 i 1
n
2

i 1

( yi

2 2i 1

( yi

1xi )

0
1xi )

2
)
x
1 i

n
ei

yi

1 xi
n

ei

0
s R2

i 1
n

ei xi

ei2

i 1

n 2

i 1

Regresin Lineal

Estimacin
Mxima verosimilitud

Max

1
2

n/2

exp
n

1
2

n
2

( yi

x )2

1 i

i 1

Mnimos cuadrados
n

Mn

( yi

2
x
)
1 i

i 1

cov( xi , yi )
var( xi )

n
i 1

( xi

x )( yi y )
n
x )2
i 1 ( xi

Regresin Lineal

Recta de regresin
y

1x

y
Pendiente
1

1x

x
Regresin Lineal

10

Residuos
yi

1 xi

ei
Valor Previsto Residuo
0

Valor observado

ei
yi
yi

1 xi

xi
Regresin Lineal

11

Ejemplo: estimacin
Peso
kg

Consumo
litros/100 km

Prediccin

Residuos

981
878
708
1138
1064
655
1273
1485
1366
1351
1635
900
888
766
981
729
1034
1384
776
835
650
956
688
716
608
802
1578
688
1461
1556

11
12
8
11
13
6
14
17
18
18
20
10
7
9
13
7
12
17
12
10
9
12
8
7
7
11
18
7
17
15

11,44
10,23
8,23
13,28
12,41
7,61
14,86
17,35
15,95
15,78
19,11
10,49
10,35
8,91
11,44
8,48
12,06
16,16
9,03
9,72
7,55
11,14
8,00
8,33
7,06
9,34
18,44
8,00
17,07
18,18

-0,44
1,77
-0,23
-2,28
0,59
-1,61
-0,86
-0,35
2,05
2,22
0,89
-0,49
-3,35
0,09
1,56
-1,48
-0,06
0,84
2,97
0,28
1,45
0,86
0,00
-1,33
-0,06
1,66
-0,44
-1,00
-0,07
-3,18

2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

Regresin Lineal

25

Consumo (litros/100 Km)

Nm. Obs.
(i)

20

15

10

0
500

700

900

1100

1300

1500

1700

Peso (Kg)

yi

0.071 0.0117 xi

2
; sR

2.38

12

Propiedades de
1

1
ns x2
i 1

1
ns x2

wi

n
i 1

wi xi

1
ns x2

n
i 1

2
i

1
ns x2

n
i 1

xi

xi

x
xi

1
ns x2

x yi

w1 y1

1
ns x2

x xi
xi

xi

x y

w2 y2

wn yn

n
i 1

xi

1
ns x2

x xi

n
i 1

xi

x x

1
ns x2

n
i 1

xi

1
ns x2

Regresin Lineal

y,

xi x
ns x2

wi

i 1

2
n
i 1

x yi

i 1

i 1

xi

n
i 1

xi x
yi
ns x2

n
i 1

1
ns x2

cov( xi , yi )
s x2

13

son v.a. independientes

y1
1
y1
n

1
y2
n

1
yn
n

1
n

1
n

1
n

y2

aT Y

yn
y1
1

w1 y1 w2 y2

wn yn

w1

w2

wn

y2

wT Y

yn
2

cov( y ,

) a var(Y) w

Regresin Lineal

wi

i 1

14

Distribucin de
yi
1

N(
w1 y1

x,

1 i

w2 y2

E[ 1 ] E[ w1 y1

wn yn

w2 y2

( wi )

Var[ 1 ] Var[ w1 y1

Comb. lineal de normales

wn yn ]

w1 E[ y1 ] w2 E[ y2 ]
0

( wi xi )

w2 y2

wn E[ yn ] ( E[ yi ]
1

wn yn ]

w12Var[ y1 ] w22Var[ y2 ]
n

x)

1 i

wn2 [ yn ] (Var[ yi ]

2
2
i

( w )

ns x2

i 1

ns x2

Regresin Lineal

15

Modelo en diferencias a la
media
yi

ei

1 i
0

yi

yi

( xi

x ) ei

yi

( xi

x)

Regresin Lineal

( xi

x ) ei

16

Distribucin de

0
2

N(

x,
2

N(

y,
y

E[

)
ns x2
son independie ntes
1

Normal

] E[ y ] x E[ 1 ]
2
x2
var[ 0 ]
1 2
n
sx
0

x2
1 2
0,
n
sx

Regresin Lineal

17

R
yi

1xi

ui

ui

yi

1xi

ei

N (0, 2 )
n u2
i 1 i
2

n e2
i 1 i
2

2
n

ei2

i 1
2

Regresin Lineal

2
(n 2) s R
2

2
n 2

ei

ei xi

2
n 2

18

Contraste principal de regresin:


depende y de x?
H0 :

H1 :

yi

yi

yi

1 i

ui

yi

ui

xi

xi

H0 es falso

H0 es cierto

x e y estn relacionados

x e y no estn relacionados

Regresin Lineal

19

Contraste sobre la pendiente


H0 :
H1 :

yi

1 i
2

N ( 1,

Regresin Lineal

sR
nsx

t1

tn

N (0,1)

sR
ns x

ns x
t1

ns x2

2; / 2

tn

Se rechaza Ho

20

Contraste: ordenada en el origen


H0 :
H1 :

yi

1 i

x2
N ( 0 , (1 2 ))
n
sx

t0

t0

tn

sR
x
1 2
sx
n

Se rechaza Ho

2; / 2

Regresin Lineal

21

Descomposicin de la
variabilidad en regresin
yi

1 i

yi

1 i

y
i
yi
( yi
n

( yi

y
i
(y
i

y)
y)

i 1

VT

ui

y
i
(y
i
y) ( y
i

( y y)
i
i 1
VE VNE

Regresin Lineal

ei

y
i
y ) (restando y )
i
y ) (elevando al cuadrado y sumando)
i
n

(y
i
i 1

y )2
i

22

Coeficiente de determinacin R2
n

VE

( yi

y)2

i 1
n

VNE

( yi
i 1
n

VT

yi )

VT
R

R2

Mide el porcentaje de VT que

y)2

est explicado por el regresor

i 1
y

VE
VT

( yi

yi

VE VNE

1 ( xi

x) :

VE

2
1

( xi

x)2

2 2
1 ns x

i 1
Regresin Lineal

23

Coef. determinacin
R2

R2

0.50

Regresin Lineal

R2

0.80

R2

24

Contraste F
H0 :
H1 :
VE
2

2
1

(Si H o es cierto)

n e2
i 1 i
2

VNE
2

yi

2
( n 2) s R
2

1 i

VE
VNE/(n-2 )

2
n 2

VE VNE
,
son independie ntes
2

VE
2
sR

F1,n

Se rechaza H0

Regresin Lineal

25

Regresin con R
ARCHIVO TEXTO: coches.txt

Regresin Lineal

26

Regresin con R: Estimacin

Regresin Lineal

27

Grfico en R

Regresin Lineal

28

Ejemplo regresin mltiple


Consumo =

CC +

Pot +

3 Peso

Acel + Error

X1

X2

X3

X4

Consumo
l/100Km
15
16
24
9
11
17
...

Cilindrada
cc
4982
6391
5031
1491
2294
5752
...

Potencia
CV
150
190
200
70
72
153
...

Peso
kg
1144
1283
1458
651
802
1384
...

Aceleracin
segundos
12
9
15
21
19
14
...

Var. dependientes
o respuesta

Var. Independientes
o regresores

Regresin Lineal

29

Modelo regresin mltiple


yi

1x1i

2 x2i

, k , 2 : parmetros desconocid os

Linealidad
E[yi] =

0+

Homocedasticidad

1x1i+

kxki

Normalidad
yi| x1 ,...,xk
Regresin Lineal

ui ,

N (0, 2 )

ui
0 , 1, 2 ,

k xki

Normal

Var [yi|x1 ,...,xk] =

Independencia
Cov [yi, yk] = 0
30

Notacin matricial
y1

x11

x21

xk1

u1

y2

x12

x22

xk 2

u2

yn

x1n

x 2n

xkn

un

2
N (0, I)

U
Regresin Lineal

31

Estimacin mnimo-cuadrtica
y1

x11

x21

xk1

e1

y2

x12

x22

xk 2

e2

yn

x1n

x 2n

xkn

en

donde el vector e cumple

ei2

es mnimo

i 1

Regresin Lineal

32

Para que ||e||2 sea mnimo, e tiene que ser


perpendicular al espacio vectorial generado las
columnas de X
X

1
1

x11
x12

x21
x22

xk1
xk 2 , e

e1
e2

x1n

x2 n

xkn

en

X Te

n
1 i
n
1 i 1i

e 0
ex
0

n
1 i

e xki

Regresin Lineal

33

Mnimos cuadrados
Y

Solucin MC

x1

x1
x2

X e 0
XT Y XT X
XT Y XT X
Regresin Lineal

x2

X Te
( X T X) 1 X T Y
34

Matriz de proyeccin V
Y

(I

V)Y

x1
Y

Val. Prev istos


Y X
Y X(X T X) 1 X T Y
Y VY

VY

Residuos
e Y X
Y VY
(I V)Y

X(XT X) 1 XT

Simtrica V=VT
Idempotente VV=V

Regresin Lineal

35

Distribucin de probabilidad
de
Y

N ( X , 2I)
(X T X) 1 X T Y

CY (siendo C (XT X) 1 X T )

Normal
E[ ] CE[Y ] CX

(X T X) 1 X T X

Var[ ] Var[CY ] CVar[Y ]CT

((XT X) 1 X T )( 2I )((XT X) 1 XT )T

Regresin Lineal

(XT X) 1 X T X(X T X) 1

(X T X) 1
36

Distribucin de probabilidad
de
N ( , 2 (X T X) 1 )
N ( i , 2 qii )

i
0

( X T X)

q00
q10

q01
q11

q0 k
q1k

qk 0

qk1

qkk

dim(Q)

(k 1) (k 1)

Regresin Lineal

37

Residuos
Y

Observados Previstos Residuos


y1

x11

x21

xk1

e1

y2

x12

x22

xk 2

e2

yn

x1n

x 2n

xkn

en

ei

yi

Regresin Lineal

( 0

1x1i

k xki )
38

Varianza Residual
n 2
i 1 ei
2

e Te
2

E[

E[

n e2
i 1 i ]
2

2
n k 1

n k 1

n e2
i 1 i ]

n e2
i 1 i

2
sR

n k 1

2
(n k 1) s R
2

2
n k 1

n k 1

Regresin Lineal

39

Contraste individual
yi

1x1i

k xki
i

ti

s R qii

Regresin Lineal

H0 : i
H1 : i

ui

s R qii
;

ti

0
0

N ( i , 2 qii )

N (0,1)

qii

t n k 1; / 2

tn k 1

Se rechaza Ho

40

Descomposicin de la
variabilidad en regresin
yi
( yi
n (y
i 1 i

1x1i

yi

yi

y)

( yi

k xki

ei

(Restando y )

ei

y ) ei

y)2

n (y
i 1 i

y)2

VT

VE VNE

n e2
i 1 i

Regresin Lineal

41

Modelo en diferencias a la
media
yi

yi

yi

1x1i

k xki

1 x1

x1i

i 1

xki
i 1

ei
i 1
0

k xki

x1 )

k ( xki

x11 x1

y2

x12 x1

x21 x2
x22 x2

yn

x1n

x2 n

Regresin Lineal

n 0

i 1

y1

Y Y

yi

k xk

1x1i
1 ( x1i

ei

x1

~
Xb

xk )

x2

Y Y

x k1 x k
x k 2 xk

xkn

xk

~
Xb e
42

Modelo en diferencias a la
media
~ ~
Y Xb U
~
Y

~
X

y1

y2

yn

y
, Y

1
2

, b

, b

x11 x1

x21 x2

x12

x1

x22

x2

xk1 xk
xk 2 xk

x1n

x1

x2 n

x2

xkn

~T ~ 1 ~T ~
(X X) X Y

xk

~T ~ 1
2
N (b, (X X) )

Regresin Lineal

43

Contraste general de regresin.


yi

1x1i

k xki

ui

H0 : 1
2
k 0
H1 : algunoes distintode 0
VE

2
k

VNE

(Si Ho es cierto)

2
(n k 1) s R

2
n k 1

VE VNE
son independientes
,
2

Regresin Lineal

VE / k
VNE/(n-k 1 )

Fk ,n

k 1

Se rechaza H0
44

Coeficiente de determinacin R2
n

VE

( yi

y)2

i 1
n

VNE

( yi
i 1
n

VT

yi )

( yi

VE
VT

2
R2

Mideel porcentajede VT que

y)2

est explicadopor los regresores

i 1
VE

VE VNE

( yi
n

VT

~ ~
(Y Y)T (Y Y) bT ( XT X)b

y)2

~ ~
bT ( XT Y)

i 1
Regresin Lineal

45

Coef. determinacin corregido R


R2

VE
VT

VT VNE
VT
2
(n k 1) s R
1
(n 1) s 2y

VNE
1
VT

R2

Regresin Lineal

2
sR

s 2y

( yi
s 2y

y)2

i 1

n 1

VNE /(n k 1)
1
VT /(n 1)

46

Regresin con R

Interpretacin (inicial)
Contraste F=438 (p-valor=0.0000)
Alguno de
los regresores influye significativamente en el
consumo.
Contrastes individuales:
La potencia y el peso influyen significativamente (pvalor=0.0000)
Para =0.05, la cilindrada y la aceleracin tambin
tienen efecto significativo (p-valor < 0.05)

El efecto de cualquier regresor


aumentar cualquiera de ellos aumenta la variable
respuesta: consumo.
Los regresores explican el 82 % de la variabilidad
del consumo (R2 = 0.8197)
Regresin Lineal

48

Multicolinealidad
Cuando la correlacin entre los
regresores es alta.
Presenta graves inconvenientes:
Empeora las estimaciones de los efectos de
cada variable i: aumenta la varianza de las
estimaciones y la dependencia de los
estimadores)
Dificulta la interpretacin de los parmetros
del modelo estimado (ver el caso de la
aceleracin en el ejemplo).
Regresin Lineal

49

Identificacin de la multicolinealidad:
Matriz de correlacin de los regresores.

Regresin Lineal

50

24

24

20

20

consumo

consumo

Grficos consumo - xi
16
12
8
4

16
12
8
4

0
500

0
1000

1500

2000

40

120

160

200

240

23

26

potencia

24

24

20

20

consumo

consumo

peso

80

16
12
8
4

16
12
8
4

0
0

cilindrada

8
(X 1000)

11

14

17

20

aceleracion

Regresin Lineal

51

Consumo y aceleracin

Regresin Lineal

52

Multicolinealidad: efecto en la
varianza de los estimadores
yi

var

~T X
~ 1 2
X

~T X
~
X

1x1i

nS XX

2 x2i ui

S XX

s12

s12

s12

r12 s1s2

s12

s22

r12 s1s2

s22

1
s12 (1

2
1
| S XX | s12 s22 (1 r12
) S XX

r12
2
r12
)

2
s1 s2 (1 r12
)
1

r12
2
s1 s2 (1 r12
)

2
)
s22 (1 r12

var

1
2

r12

ns12 (1 r122 )
r12 2

ns1 s2 (1 r122 )

ns1 s2 (1 r122 )

ns 22 (1 r122 )

Regresin Lineal

53

Consecuencias de la
multicolinealidad
Gran varianza de los estimadores
Cambio importante en las
estimaciones al eliminar o incluir
regresores en el modelo
Cambio de los contrastes al eliminar
o incluir regresores en el modelo.
Contradicciones entre el contraste F
y los contrastes individuales.
Regresin Lineal

54

Variables cualitativas como


regresores
Consumo
l/100Km
15
16
24
9
11
17
12
17
18
12
16
12
9
...

Cilindrada
cc
4982
6391
5031
1491
2294
5752
2294
6555
6555
1147
5735
1868
2294
...

Potencia
CV
150
190
200
70
72
153
90
175
190
97
145
91
75
...

Consumo =
+

Peso
kg
1144
1283
1458
651
802
1384
802
1461
1474
776
1360
860
847
...

CC +

Acel +

Aceleracin
segundos
12
9
15
21
19
14
20
12
13
14
13
14
17
...

Origen
Europa
Japn
USA
Europa
Japn
USA
Europa
USA
USA
Japn
USA
Europa
USA
...

Pot +

JAP ZJAP

3 Peso

Origen

Europa
Japn
USA

Z JAP i

0 si i JAPON
1 si i JAPON

ZUSAi

0 si i USA
1 si i USA

Z EUR i

0 si i EUROPA
1 si i EUROPA

USA ZUSA +

Error

Regresin Lineal

55

Variables cualitativas
Consumo
l/100Km
15
16
24
9
11
17
12
17
18
12
16
12
9
...

Cilindrada
cc
4982
6391
5031
1491
2294
5752
2294
6555
6555
1147
5735
1868
2294
...

Consumo =
+
Regresin Lineal

Potencia
CV
150
190
200
70
72
153
90
175
190
97
145
91
75
...

0
4

Peso
kg
1144
1283
1458
651
802
1384
802
1461
1474
776
1360
860
847
...

CC +

Acel +

Aceleracin ZJAP
segundos
12
0
9
1
15
0
21
0
19
1
14
0
20
0
12
0
13
0
14
1
13
0
14
0
17
0
...
...

Pot +

JAP ZJAP

3 Peso

ZUSA

ZEUR

0
0
1
0
0
1
0
1
1
0
1
0
1
...

1
0
0
1
0
0
1
0
0
0
0
1
0
...

USA ZUSA +

Error
56

Interpretacin var. cualitativa


Consumo =
+

0
4

CC +

Acel +

Pot +

JAP ZJAP

3 Peso

USA ZUSA +

Error

Coches europeos: ZJAP = 0 y ZUSA = 0 REFERENCIA


Consumo =

CC +

Pot +

3 Peso

Acel + Error

Coches japoneses: ZJAP =1 y ZUSA = 0


Consumo =

JAP +

CC +

Pot +

3 Peso

Acel + Error

Coches americanos: ZJAP =0 y ZUSA = 1


Consumo =

USA +

CC +

Pot +

3 Peso

Acel + Error

Regresin Lineal

57

Interpretacin del modelo


y

Americanos
Europeos

0+

Ref.

Japoneses

USA

0
0+

JAP

xi

Regresin Lineal

58

Regresin Lineal

59

Interpretacin
El p-valor del coeficiente asociado a ZJAP
es 0.1956>.05, se concluye que no existe
diferencia significativa entre el consumo
de los coches Japoneses y Europeos
(manteniendo constante el peso, cc, pot y
acel.)
La misma interpretacin para ZUSA.
Comparando R2 =0.821 de este modelo
con el anterior R2=0.8197, se confirma
que el modelo con las variables de
Origen no suponen una mejora sensible.
Regresin Lineal

60

Modelo de regresin con


variables cualitativas
En general, para considerar una variable
cualitativa con r niveles, se introducen en
la ecuacin r-1 variables ficticias
z1i

0 i nivel1
, z 2i
1 i nivel1

0 i nivel 2
,
1 i nivel 2

, zr

0 i nivel r 1
1 i nivel r 1

1i

Y el nivel r no utilizado es el que acta de


referencia
yi
0

1 1i

1 1i

2 2i

xki
z

r 1 r 1,i

ui

variablecualitativa
Regresin Lineal

61

Prediccin
Nueva Observ. yh|xh

Media mh|xh

yh

mh

mh
xh

xh

yh

xh
Regresin Lineal

62

Prediccin de la media mh

(Regresin simple)
mh

yh

xh

yh

N( 0

mh

xh

1 xh ,

2)

yh
0
1 xh y
1 ( xh x )
E[ yh ] E[ 0 1 xh ] 0 1xh mh
var[ yh ] var[ y
1 ( xh x )]

1 xh

( xh x ) 2
N mh ,
1
n
s x2
2

yh

x ) 2 var[ 1 ]

var[ y ] ( xh
2

( xh

x)

ns x2

Regresin Lineal

63

Prediccin de la media mh

(Regresin mltiple)

mh

yh
mh

yh

xh

x'h

0
T

yh

N (mh ,

1 1h

Regresin Lineal

xkh

x'h , x'T

h]

E[ T x'h ] E[ T ]x'h

var[ y h ] var[ T x'h ]

2v

hh

(1, x1h , x2 h ,

, xkh )

E[ y

x'h

N mh ,

T
h
T
x'
h
x'

hh

(X

(X

T
T

X)

X)

T
h

x'

var[

x 'h 2

x 'h

x 'h

]x'h

vhh 2

64

Expresin alternativa para vhh


y bT (x h

yh

x)

var[ yh ] var[ y bT (x h x)] var[ y ] (x h


2

~ ~
( x h x ) T ( XT X) 1 ( x h x )

x)T var[b](x h
~ ~
XT X
(S x
)
n

x)

(1 (x h

x ) T S x1 ( x h

1
(1 (x h
n

vhh

x))
T

1
x

x) S ( x h

x))

xh

vhh 1 / n

xh

vhh 1 / n

Regresin Lineal

65

Intervalos de confianza para la


media mh
yh
yh

N mh ,
mh

vhh
y h mh
s R vhh

yh

N (0,1)

tn

m
h

y t
h

vhh

1
(1 (xh
n

Regresin Lineal

vhh

k 1

/2 R

xh

vhh
Regresin simple
T

1
x

x) S ( x h

x))

vhh

1
( xh x ) 2
(1
)
2
n
sx
66

Prediccin de una nueva


observacin yh (Reg.Simple)
yh

yh
mh
xh

yh
yh
e~

N (mh ,
yh

yh

1 h
2

vhh )

N (mh ,

mh

xh

1 h

yh

E[e~h ] E[ yh ] E[ yh ] 0
var[e~h ] var[ yh ] var[ yh ]
2

e~h

N ( 0,

(1 vhh ))

vhh

Regresin Lineal

67

Prediccin de una nueva


observacin yh (Reg. Mltiple)
yh

yh
mh

xh

yh
e~h

y bT x h

yh

yh

E[~
eh ] E[ yh ] E[ yh ] 0
var[~
eh ] var[ yh ] var[ yh ]

yh

e~h
Regresin Lineal

N (mh ,

N ( 0,

xh

vhh )
2

(1 vhh )

(1 vhh ))
68

Intervalos de prediccin para


una nueva observacin yh
~
eh
N 0,
~
eh yh y h
yh y h
1 vhh
yh y h

(1 vhh )

yh

N (0,1)

tn k 1

s R 1 vhh

xh

y
h

y t
h

/2 R

1 vhh

Regresin Lineal

69

Lmites de prediccin
y

1 1

m
h

xk
y

y t
h

y t
h

/2 R

/2 R

1 vhh

x
Regresin Lineal

vhh

70

Diagnosis: Residuos
Y

Observados Previstos Residuos


y1

x11

x21

xk1

e1

y2

x12

x22

xk 2

e2

yn

x1n

x 2n

xkn

en

ei

yi

( 0

1x1i

k xki )

Regresin Lineal

71

Distribucin de los residuos


Y

N (X ,
V

I)

(I V)Y

X(X T X) 1 X T

e Normal
E[e] (I V) E[Y] (I V)X
var[ e] (I V) var (Y)(I V)
e N (0, 2 (I V))
ei
Regresin Lineal

N (0,

0
2
(I V)

(1 vii ))
72

Distancia de Mahalanobis
Di2

(x i

x) T S x 1 (x i

x) (Dist. de Mahalanobis)
xi
xi

Midela distanciade x i a x
1
(1 (x i
n

x'Ti ( XT X) 1 x'i

vii

Di2
Di2

x
x

x ) T S x1 ( x i

0
0
x))

vii son los elementosdiagonalesde la matriz V


X(X T X) 1 XT

V
n

vii

vij v ji
j 1

2
ij

2
ii

vij2

vii (1 vii )

j 1, j i

1
n

j 1, j i

vii

Regresin Lineal

73

Residuos estandarizados
ei

N (0, (1 vii )
var(ei )

(1 vii ) 2

Cuando xi est prximo a x

vii

1/ n

Cuando xi est lejos de x

vii

var(ei )
var(ei ) 0

ei

Residuos estandarizados
ri

Regresin Lineal

ei
s R 1 vii
74

Hiptesis de normalidad
Herramientas de comprobacin:
Histograma de residuos
Grfico de probabilidad normal (Q-Q plot)
Contrastes formales (Kolmogorov-Smirnov)

probabilidad

Ejemplo de coches
99,9
99
95
80
50
20
5
1
0,1
-6

-4

-2

Residuos

Regresin Lineal

75

Comprobacin de la linealidad
y homocedasticidad
Ambas hiptesis se comprueban
conjuntamente mediante grficos de los
residuos
Frente a valores previstos
Frente a cada regresor.

En muchas ocasiones se corrige la falta


de linealidad y la heterocedasticidad
mediante transformacin de las variables.

Regresin Lineal

log yi

1 1i

log yi

log x1i

xki ui
k

log xki ui
76

Residuos - Valores previstos


ei

Lineal y homocedstico

ei

No lineal y homocedstico

yi

yi

ei

ei

Lineal y no homocedstico

yi

No lineal y no homocedstico

yi

Regresin Lineal

77

Regresin Lineal

78

Funciones R relacionadas

Regresin Lineal

79

Ejemplo 1: Cerezos Negros


Se desea construir un
modelo de regresin para
obtener el volumen de
cerezo
en funcin de la
altura del tronco y del
dimetro del mismo a un
metro sobre el suelo. Se
ha tomado una muestra
de 31 rboles. Las
unidades de longitudes
son pies y de volumen
pies cbicos.
Regresin Lineal

80

Cerezos negros: Datos

rbol
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Diametro
8,3
8,6
8,8
10,5
10,7
10,8
11,0
11,0
11,1
11,2
11,3
11,4
11,4
11,7
12,0
12,9

Altura
70
65
63
72
81
83
66
75
80
75
79
76
76
69
75
74

Volumen
10,30
10,30
10,20
16,40
18,80
19,70
15,60
18,20
22,60
19,90
24,20
21,00
21,40
21,30
19,10
22,20

Regresin Lineal

rbol
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

Diametro
12,9
13,3
13,7
13,8
14,0
14,2
14,5
16,0
16,3
17,3
17,5
17,9
18,0
18,0
20,6

Altura
85
86
71
64
78
80
74
72
77
81
82
80
80
80
87

Volumen
33,80
27,40
25,70
24,90
34,50
31,70
36,30
38,30
42,60
55,40
55,70
58,30
51,50
51,00
77,00

81

Grficos x-y

Regresin Lineal

82

Primer modelo:cerezos negros


Volumen

Regresin Lineal

Diametro

Altura Error

83

Diagnosis

Regresin Lineal

84

Transformacin
vol k altura dimetro2
log( vol)
0
1 log( altura)

log( dimetro) error

Regresin Lineal

85

Diagnosis (modelo transformado)

Regresin Lineal

86

Interpretacin
Se comprueba grficamente que la distribucin
de los residuos es compatible con las hiptesis
de normalidad y homocedasticidad.
El volumen est muy relacionada con la altura y
el dimetro del rbol (R2= 97.77%)
El modelo estimado
log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error

es compatible con la ecuacin vol=k Alt Diam2


La desviacin tpica residual es sR=0.081 que
indica que el error relativo del modelo en la
prediccin del volumen es del 8.1%.
Regresin Lineal

87

Modelos de regresi
on lineal
1. La tabla muestra los mejores tiempos mundiales en Juegos Olmpicos hasta 1976 en carrera
masculina para distintas distancias.
y: tiempo (sg)
x: distancia (m)

9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795


100 200
400
800 1500 5000 10000 42196

(a) Estimar la regresion lineal de y sobre x y calcular la varianza residual y el coeficiente


de correlacion.
(b) Obtener intervalos de confianza para la pendiente y varianza residual ( = 0.01).
(c) Analizar si la relacion lineal es adecuada, transformando las variables si es necesario.
(d) Supongase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros.
Estimar el tiempo previsto para el record olmpico en dicha carrera, dando un intervalo
de confianza con = 0.05.
2. Estimar por mnimos cuadrados los parametros a y b de la ecuacion y = a + bx2 con la
muestra de tres puntos siguientes (y, x) : (3, -1); (4, 0); (6,1).
3. Dada la recta de regresion y = 3 + 5(x 2) con r = 0.8, sR = 1, construir un intervalo de
confianza del 95% para la pendiente si n = 100.
4. Dado el modelo estimado con n = 25 datos, y = 2 + 3(x 4), sR = 5, con desviacion tpica
del coeficiente de regresion S(1 ) = 0.5, calcular la desviacion tpica de la prediccion del
valor medio de y cuando x = 20.
5. Sir Francis Galton (1877) estudio la relacion entre la estatura de una persona (y) y la estatura
de sus padres (x) obteniendo las siguientes conclusiones:
(a) Exista una correlacion positiva entre las dos variables.
(b) Las estaturas de los hijos cuyos padres medan mas que la media era, en promedio,
inferior a la de sus progenitores, mientras que los padres con estatura inferior a la
media en promedio tenan hijos mas altos que ellos, calificando este hecho como de
regresion a la media.
Contrastar ( = 0.05) estas dos conclusiones con la ecuacion y = 17.8 + 0.91x resultante de
estimar un modelo de regresion lineal entre las variables (en cm.) descritas anteriormente
para una muestra de tama
no 100 si la desviacion tpica (estimada) de 1 es 0.04.
6. La ley de Hubble sobre la expansion del universo establece que dadas dos galaxias la velocidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y H
la constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxias
respecto a la Via Lactea. Se pide:

Galaxia
Virgo
Pegaso
Perseo
Coma Berenices
Osa Mayor 1
Leo
Corona Boreal
Geminis
Osa Mayor 2
Hidra

Distancia
(millones a
nos luz)
22
68
108
137
255
315
390
405
700
1100

Velocidad
(103 Km/s)
1.21
3.86
5.15
7.56
14.96
19.31
21.56
23.17
41.83
61.14

Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.


Nota: Observese que seg
un el modelo de Hubble la regresion debe pasar por el origen.
Tomese 1 a
no luz = 300 000 Km/seg x 31 536 000 seg = 9.46 1012 Km.
(a) Estimar por regresion la constante de Hubble.
(b) Como T = d/v = d/Hd = 1/H, la inversa de la constante de Hubble representa la
edad estimada del Universo. Construir un intervalo de confianza del 95% para dicha
edad .
7. Para establecer la relacion entre el alargamiento en mm (Y ) producido en un cierto material
plastico sometido a traccion y la fuerza aplicada en toneladas por cm2 (X) se realizaron 10
experimentos cuyos resultados se muestran en la tabla

xi 0.20 0.50 0.60 0.70 0.90 1.00 1.20 1.50 1.60 1.70
yi 23
20
33
45
67
52
86
74
98
102
Tabla: Alargamiento yi (mm) producidos por la fuerza xi (Tm/cm2 ).

(a) Ajustar el modelo de regresion lineal E(Y |x) = 0 + 1 x y contrastar ( = 0.01) la


hipotesis de que, en promedio, por cada Tm/cm2 de fuerza aplicada es de esperar un
alargamiento de 50 milmetros, sabiendo que la desviacion tpica residual vale 10.55.
(b) Si el lmite de elasticidad se alcanza cuando x = 2.2 Tm/cm2 , construir un intervalo
de confianza al 95% para el alargamiento medio esperado en ese punto.
(c) Teniendo en cuenta que el alargamiento esperado cuando la fuerza aplicada es nula
debe ser nulo tambien, estimar el nuevo modelo E [Y |x] = x con los datos anteriores
Cual es el sesgo del estimador del parametro de la pendiente si se estima seg
un el
modelo del apartado 1?

8. La ecuacion de regresion entre las ventas de un producto y y su precio x es y = 320 1.2x,


sR = 2 y sy = 4. Si el n
umero de datos ha sido n = 50, contrastar H0 : 1 = 1 frente a la
alternativa H1 : 1 < 1.
9. Se estudia la relacion entre el tiempo de reparacion (minutos) de ordenadores personales y
el n
umero de unidades reparadas en ese tiempo por un equipo de mantenimiento con los
resultados mostrados en la siguiente tabla
unidades reparadas
tiempo de reparacion

1 3 4
23 49 74

6
7
9
10
96 109 149 154

Se pide:
(a) Construir la recta de regresion para prever el tiempo de reparacion y utilizarla para
construir un intervalo de confianza ( = 0.01) para el tiempo medio de reparacion de
8 unidades.
(b) Construir un intervalo de confianza ( = 0.01) del tiempo de reparacion para un lote
de 14 unidades.
(c) Si los tiempos de reparacion fuesen medias de 10 datos. Cual sera la recta de regresion?
10. Se realiza una regresion m
ultiple con tres regresores y se encuentra un coeficiente de correlacion de 0.5 entre los residuos de la regresion y uno de los regresores. Interpretar este
resultado.
11. La matriz de varianzas de tres variables estandarizadas es la siguiente

1 0.8 0.6
0.8 1 0.2
0.6 0.2 1
Calcular la ecuacion de regresion de la primera variable respecto a las otras dos.
12. Dos variables x1 y x2 tienen la siguiente matriz de varianzas


1 0.5
0.5 1
y las regresiones simples con y son y = 0.75x1 ; y = 0.6x2 . Calcular la regresion m
ultiple
entre y y las dos variables x1 , x2 sabiendo que la variable y tiene media cero y varianza
unidad.
13. Se realiza la regresion entre la variable dependiente y y tres regresores x1 , x2 y x3 . Posteriormente se decide realizar la regresion entre la variable y y los tres regresores estandarizados.
Explicar cuales son las diferencias entre los resultados de una regresion y otra en cuanto a
los coeficientes estimados i , los residuos y el coeficiente de determinacion, justificando la
respuesta.
3

14. La matriz de varianzas de las variables X1 , X2 e Y es

25 27
14
27 36 19.2
14 19.2 16
Siendo X 1 = 30, X 2 = 40, Y = 100 y el n
umero de datos n = 10.
Se pide:
(a) Realizar la regresion simple entre Y (variable dependiente) y X1 , dando el intervalo de
confianza para la pendiente de la recta con = 0.05. Hacer lo mismo con Y y X2 .
(b) Realizar la regresion m
ultiple entre Y (variable dependiente) y X1 , X2 , en desviaciones
a la media.
(c) Indicar si los coeficientes de la regresion anterior son significativos.
(d) Calcular R2 para los tres modelos, comentar los resultados obtenidos e indicar que
modelo eligira y por que.
15. Para establecer la relacion entre el voltaje de unas bateras y la temperatura de funcionamiento se han hecho unos experimentos cuyos resultados se muestran en la siguiente
tabla
Batera
Temperatura
Voltaje

1
2
10 10
7.2 7.7

3
4
5
20 20 30
7.3 7.4 7.7

6
7
8
30 40
40
9.4 9.3 10.8

Se pide:
(a) Contrastar la hipotesis ( = 0.05) de que no existe relacion lineal entre el voltaje y la
temperatura.
(b) Las lecturas 1,3,5 y 7 fueron realizadas con unas bateras de Cadmio y las 2,4, 6 y 8 con
bateras de Zinc. Introducir en el analisis anterior una variable cualitativa que tenga
en cuenta los dos tipos de bateras y contrastar si es significativa al 95%.
(c) Dar un intervalo de confianza para el voltaje de una batera de Cadmio que va a trabajar
a 35 centgrados. (Utilizar el modelo estimado en el apartado 2).
(d) Comprobar que se cumplen las hipotesis del modelo construido en los apartados anteriores.
16. Como disminuira la varianza teorica de los estimadores en el modelo de regresion lineal
al replicar las observaciones? (Por replicar se entiende el obtener un nuevo vector Y de la
variable respuesta manteniendo las X fijas).
4

17. Se ha estimado un modelo de regresion para la estatura (y) de un grupo de adultos y sus
estaturas a los 7 (x1 ) y 14 (x2 ) a
nos. La desviacion tpica residual obtenida es 5 cm y la
desviacion tpica del coeficiente de x1 (estatura a los 7 a
nos) resulta 2.4, siendo este efecto
no significativo al 95%. Sin embargo, un segundo modelo de regresion que incluya solo a
esta variable (x1 ) conduce a una desviacion tpica residual de 7 cm y a un coeficiente de
regresion de 2 con desviacion tpica de 1. Que podemos concluir con estos resultados de la
correlacion entre x1 y x2 ?
18. Se dispone de una muestra de 100 automoviles con informacion respecto a su consumo
(litros/100 km), peso (kg), potencia (CV), tipo de motor (I=inyeccion, NI=no inyeccion) y
nacionalidad (1=USA, 2=Alemania, 3=Japon, 4=Francia). Escribir la ecuacion del modelo
de regresion lineal del consumo respecto al resto de las variables e interpretar el significado
de cada uno de los parametros del modelo.
19. Teniendo en cuenta que mediante variables cualitativas cualquier modelo de dise
no experimental puede escribirse como un modelo de regresion, determinar la matriz V = X(X T X)1 X T
de proyeccion y la varianza de un residuo eij para el modelo basico de analisis de la varianza
yij = i + uij , i = 1, ..., I ; j = 1, ..., ni
Aplicarlo al caso de 3 grupos (I = 3), con 5 observaciones en el primer grupo, 4 en el segundo
y 3 en el tercero.
20. La variable y se relaciona con las variables x1 y x2 seg
un el modelo E(y) = 0 + 1 x1 + 2 x2 ;
no obstante se estima el siguiente modelo de regresion que no incluye la variable x2
yi = 0 + 1 x1i .
es centrado.
Justificar en que condiciones el estimador
1
21. Se efect
ua una regresion con dos variables explicativas E[y] = 0 + 1 x1 + 2 x2 . La matriz
de varianzas de x1 y x2 es


2 1
1 3

Cual de los dos estimadores 1 y 2 tendra menor varianza?


22. Se estudia la relacion entre los costes de fabricacion totales en miles de pesetas (Y ), de 25
libros tecnicos, la tirada en miles de ejemplares producidos (T ) y el n
umero de paginas del
libro (N), encontrandose la relacion
Y = 1400 + 900T + 4N
(a) Sabiendo que las desviaciones tpicas (sin corregir por grados de libertad) de T y N
son 1.5 miles de ejemplares y 200 paginas respectivamente, y sR = 600, calcular un
intervalo de confianza del 90% para los efectos de T y N suponiendo que las variables
estan incorreladas. Interpretar el resultado.
5

(b) Si el coeficiente de correlacion entre las variables T y N es 0.5, Puede admitirse la


hipotesis de que el coste asociado a la tirada es de 1.100.000 ptas. cada mil unidades?
( = 0.05).
(c) Sabiendo que la desviacion tpica (sin corregir por grados de libertad) de los costes de
fabricacion es 2200 miles de pesetas, calcular el coeficiente de correlacion m
ultiple y el
estadstico F para contrastar que ambas variables no influyen. Interpretar el resultado.
(d) Para estudiar cuanto encarecen los graficos el precio se introduce en el modelo una
variable ficticia Z que toma el valor 1 en libros con graficos y 0 en el resto, obteniendose
el nuevo modelo estimado siguiente (desviaciones tpicas entre parentesis)
Y

= 1080 + 520Z + 840T + 3.8N


(100)
(16)
(0.97)

Interpretar el resultado.
23. Demostrar que el coeficiente de correlacion m
ultiple en el modelo general de regresion es
igual al coeficiente de correlacion lineal entre la variable observada y y la prevista y.
24. Para 11 provincias espa
nolas se conocen los siguientes datos:
Y = n
umero de mujeres conductoras dividido por el n
umero de hombres conductores.
X1 = porcentaje de mujeres que trabajan sobre el total de trabajadores de la provincia.
X2 = porcentaje de poblacion que trabaja en el sector agrcola.
Si se denomina X = (1 X1 X2 ) a la matriz de regresores (1 es un vector de unos) se sabe que

(X T X)1

0.06
5.1 0.12 0.05
0.08 (X T Y ) = 0.05
= 0.12 30.8
0.05 0.08 0.001
9.45
sR = 0.03;

n
X

(yi y)2 = 0.0645

i=1

Se pide:
(a) Estimar el modelo de regresion y realizar los contrastes individuales ( = 0.05). Interpretar la regresion.
(b) Calcular el coeficiente de determinacion R2 y realizar el contraste de que las dos variables no influyen mediante el test F ( = 0.05).
(c) Se introducen dos nuevas variables en la regresion: X3 que representa el porcentaje
de poblacion que trabaja en los servicios, y X4 el porcentaje de poblacion que trabaja
en otras actividades distintas de agricultura y servicios. Explicar razonadamente como
sera la regresion al introducir estas dos nuevas variables y los efectos de cada una de
ellas.
6

25. Con los datos de la tabla, se pide:

x -2
y 1.1

-2 -1 -1
0
1.3 2.0 2.1 2.7

0
1
1
2.8 3.4 3.6

2
2
3
3
4.0 3.9 3.8 3.6

(a) Estimar un modelo de regresion simple con y como variable dependiente y x como
regresor. Indicar si el modelo es apropiado, justificando la respuesta.
(b) Estimar el modelo
yi = 0 + 1 xi + 2 x2i + ui
y realizar el contraste H0 : 2 = 0.
(c) El resultado de la estimacion del modelo que incluye el termino x3 es,
yi = 2.81 + 0.80xi - 0.06x2i - 0.035x3i
(0.05)
(0.048)
(0.019)
(0.010)
con sR = 0.113 (entre parentesis las desviaciones tpicas de los estimadores). Realizar
el contraste general de regresion con = 0.01. Seleccionar entre los tres el modelo mas
adecuado, justificando la respuesta.
26. En un modelo de regresion simple se ha obtenido un coeficiente de correlacion igual a 0.8.
Si el n
umero de observaciones es n = 150, y = 22 y la variabilidad total es 320. Construir
un intervalo de confianza al 95% para el valor medio de la variable dependiente (y) cuando
x (regresor) es igual a x. (Aproximar la distribucion t de Student correspondiente por una
distribucion normal, si Z
N(0, 1), P (Z 1.96) = 0.975).
27. En una planta piloto se obtiene un nuevo producto mediante un proceso qumico. Con el
fin de mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres
temperaturas diferentes. Los resultados del experimento son

Catalizador
A
B

Temperatura
20
300
400
115 125 130 140 110 120
115 105 135 145 100 110
0

(a) Contrastar si los factores Temperatura y Catalizador tienen efectos significativos. ( =


0.05)
(b) Que tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garantizar una probabilidad de error tipo I total, T = 0.03?
(c) Estimar y contrastar el modelo de regresion simple entre el rendimiento y la temperatura. Que conclusiones obtiene? Proponga un modelo de regresion que subsane las
deficiencias encontradas.

28. El modelo de regresion m


ultiple se puede escribir en notacion matricial
Y = X + U
donde U es el vector de variables aleatorias que cumple las hipotesis de normalidad, independencia y homocedasticidad. Deducir razonadamente la distribucion, media y matriz de

varianzas del vector de residuos e = Y X .


29. La empresa de bebidas gaseosas CIBELES quiere determinar la influencia sobre la presion
interna (yi ) en los botes de refresco de dos variables continuas (x1 , x2 ) y del tipo de bebida
(NARANJA=1, LIMON=2 y COLA=3). Para distintos valores de x1 y x2 y 20 botes de
cada sabor, ha medido la presion interna. El tipo de bebida se representa por las variables z1 ,
z2 y z3 que identifican el sabor NARANJA, LIMON y COLA, respectivamente. El modelo
estimado de regresion de y con respecto a x1 , x2 , z2 y z3 es:
y = 19.4 + 77.2x1 50.8x2 + 2.95z2 + 5.52z3 ;
donde
T

(X X)

sR = 4.32

0.1772 0.6909 0.5043 0.0605 0.0896


0.6909
5.8085
0.2541
0.1478
0.2444

0.5043
0.2541
5.0070 0.0680
0.1216

0.0605
0.1478 0.0680
0.1049
0.0546
0.0896
0.2444
0.1216
0.0546
0.1127

(a) Realizar los contrastes individuales con = 0.01, indicando las variables que influyen
significativamente en la presion. Interpretar el resultado explicando el significado de
cada parametro.
(b) Si se realiza una regresion entre la presion interna (yi ) y las dos variables continuas x1
y x2 se obtiene el siguiente modelo de regresion
y = 23.86 + 65.1x1 56.3x2 ;

sR = 4.78.

Contrastar ( = 0.01) conjuntamente que el tipo de bebida no influye. (H0 : 2 = 3 =


0 frente a H1 : 2 o 3 es distinto de cero).
(c) Existe diferencia significativa en las presiones internas de los botes de LIMON y
COLA? ( = 0.01)
30. Estimar por maxima verosimilitud los parametros 1 y 2 del modelo
yi = 1 x1i + 2 x22i + ui

; ui

N(0, ).

En que condiciones los estimadores obtenidos por maxima verosimilitud son iguales que los
obtenidos por mnimos cuadrados?
31. Obtener la relacion entre el coeficiente de determinacion R2 y el coeficiente de determinacion
2
corregido R . Que ventajas presenta el segundo frente al primero ?
8

32. Con el fin de reducir el tiempo de secado se han realizado 20 ensayos con cementos de
distintas caractersticas. El ajuste por mnimos cuadrados de la ecuacion de regresion entre
el tiempo de secado y una de las variables x1 es
sR = 12.8, R2 = 0.37

y = 17.1 + 2.9x1 ,

(a) Obtener el intervalo de confianza al 95% para el parametro de la pendiente de la recta


e indicar si su efecto es significativo.
(b) Incluir en el modelo de regresion otra variable independiente x2 , sabiendo que su varianza muestral es s22 = 9.2, la covarianza entre las dos variables independientes es
s12 = 3.35 y la covarianza entre el tiempo de secado y la nueva variable s2y = 9.55.
Realizar los contrastes individuales para los parametros de x1 y x2 .
(c) Un estudio teorico del problema indica que el efecto de las dos variables es igual y que
por tanto, la ecuacion de regresion debera ser
y = b0 + b1 (x1 + x2 ).
Con la informacion de los apartados anteriores, obtener b1 y contrastar si la pendiente
de la recta es significativamente distinta de cero.
33. En el analisis de regresion simple entre dos variables, se considera como importante desde
el punto de vista practico, una correlacion entre las dos variables igual o superior a r = 0.1.
Determinar el n
umero mnimo de observaciones con las que se debe estimar el modelo de
regresion para que una correlacion igual a 0.1, implique que el regresor tiene un efecto
significativo sobre la variable dependiente. (Aproximar la distribucion t de Student correspondiente por una distribucion normal, si Z
N(0, 1), P (Z 1.96) = 0.975).
34. Interpretar geometricamente el problema de estimacion por mnimos cuadrados en regresion
m
ultiple. Demostrar que los residuos del modelo se obtienen mediante la expresion e =
P Y , donde Y es el vector correspondiente a la variable dependiente y P es una matriz de
dimension n n. Determinar P en terminos de la matriz X de los regresores. A partir de
la expresion anterior, obtener la distribucion de probabilidad de los residuos, la media y la
matriz de varianzas.
35. Una de las etapas de fabricacion de circuitos impresos requiere perforar las placas y recubrir
los orificios con una lamina de cobre mediante electrolisis. Una caracterstica esencial del
proceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluar
el efecto de 7 variables, X1 : Concentracion de Cobre, X2 : Concentracion de Cloruro, X3 :

Concentracion de Acido,
X4 : Temperatura, X5 : Intensidad, X6 : Posicion y X7 : Superficie
de la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales y
los resultados de cada experimento se muestran en la tabla.

X1 X2 X3 X4 X5 X6 X7
1
1 -1
1
1
1 -1
1 -1
1
1
1 -1 -1
-1
1
1
1 -1 -1 -1
1
1
1 -1 -1 -1
1
1
1 -1 -1 -1
1 -1
1 -1 -1 -1
1 -1
1
-1 -1 -1
1 -1
1
1
-1 -1
1 -1
1
1 -1
-1
1 -1
1
1 -1
1
1 -1
1
1 -1
1
1
-1
1
1 -1
1
1
1
-1 -1 -1 -1 -1 -1 -1

Y
2.13
2.15
1.67
1.53
1.49
1.78
1.80
1.93
2.19
1.61
1.70
1.43

Responder a las siguientes preguntas aplicando el modelo de regresion m


ultiple, teniendo en
T
cuenta que X X = 12I8 , donde I8 es la matriz identidad de 8 8.
(a) Estimar el modelo de regresion m
ultiple
yi = 0 + 1 x1i + 2 x2i + 3 x3i + 4 x4i + 5 x5i + 6 x6i + 7 x7i + ui .
Obtener la descomposicion de la variabilidad del modelo y realizar el contraste
H0 : 1 = 2 = 3 = 4 = 5 = 6 = 7 = 0
frente a la hipotesis alternativa H1 : alg
un j es distinto de cero.
T
(NOTA.: X Y = (21.41, 0.03, 0.01, 0.23, 1.69, 2.35, 0.09, 0.19)T )
(b) Realizar cada uno de los contrastes individuales e indicar que variables tienen efecto
significativo.
(c) Eliminar del modelo del apartado 1 todas las variables no significativas. Estimar el
modelo y contrastar sus coeficientes. Interpretar los resultados del experimento.
36. Una medida crtica de calidad en la fundicion de llantas de aluminio por inyeccion es la
porosidad. Se ha realizado un dise
no experimental para analizar la porosidad (Y ) en funcion
de la temperatura (T ) del aluminio lquido y de la presion (P ) con que este se inyecta al
molde. Se han realizado n=16 experimentos y el modelo obtenido ha sido
y

2.84 +
(.048)
+
0.26
T2 +
(.048)

0.59 T
(.048)
0.30 P 2
(.048)

0.031
P
(.048)
0.22 T P
(.068)

Entre parentesis se proporciona la desviacion tpica estimada para cada uno de las estima2
ciones de los parametros del modelo. Ademas sR = 0.137 y R = 0.9267. Las condiciones
experimentales se eligieron de forma que los cinco regresores utilizados en el modelo estan
incorrelados.
10

(a) Realizar el contraste F general de regresion y los contrastes individuales de todos los
coeficientes del modelo, indicando cual es significativamente distinto de cero.
(b) Demostrar que si los regresores estan incorrelados, al eliminar alguno del modelo,
las estimaciones de los restantes no varan. Ademas, si se elimina el regresor j, con
parametro estimado j , la variabilidad no explicada del nuevo modelo V NE1 es igual
2
a V NE0 + ns2 , donde V NE0 es la variabilidad no explicada del modelo con todos
j

nicamente incluye los parametros


los regresores. Obtener sR y R para el modelo que u
significativos.
(c) Determinar en que condiciones de presion y temperatura la porosidad es mnima seg
un
el modelo anterior y dar un intervalo para prediccion de la porosidad media en estas
condiciones. (Si t es la temperatura medida en grados centgrados (0 C) y p la presion
en kg/cm2 ,
P
T = (t 650)/10
y P = (pP
975)/25. En
estas unidades se cumple que ni=1 Ti = 0,
P
P
P
n
n
n
n
2
2
i=1 Pi = 0,
i=1 Ti = 8,
i=1 Pi = 8,
i=1 Ti Pi = 0)

37. Demostrar que cuando todos los regresores estan incorrelados,


el coeficiente de determinacion
Pk
2
2
de un modelo de regresion m
ultiple cumple R = j=1 rj , donde k es el n
umero de regresores
y rj el coeficiente de correlacion entre el regresor j y la variable dependiente.

38. Explicar el concepto de multicolinealidad en regresion m


ultiple, como se identifica y cuales
son sus efectos sobre (a) los estimadores i , (b) los residuos y (c) las predicciones.
39. Demostrar que en un modelo de regresion simple y y el estimador de la pendiente 1 son
independientes. Utilizar esta propiedad para calcular la varianza de 0 = y 1 x.
40. La masa M de un cristal de hielo depositado en una camara a temperatura (-5o C) y humedad
relativa constante crece seg
un la ecuacion M = T , donde T es el tiempo y y son
parametros desconocidos. La relacion anterior se linealiza con la transformacion logartmica,
estimandose el siguiente modelo
log M = log + log T + u
donde el termino a
nadido u son los errores experimentales, que se consideran aleatorios e
independientes con distribucion normal, N(0, 2 ). Diez cristales del mismo tama
no y forma se
introdujeron en una camara, extrayendose secuencialmente seg
un unos tiempos previamente
establecidos. Para determinar la influencia del tipo de camara, se repitio exactamente el
experimento en una segunda camara. Los valores de sR para la camara 1 y 2 son 0.64 y
0.50, respectivamente. Los modelos estimados para cada camara, X T X y (X T X)1 son:
log M1 = 7.30 + 2.40 log T
log M2 = 5.74 + 2.03 log T
T

(X X)

11

X X=

18.27 3.89
3.89 0.835

10.00 46.66
46.66 218.9

(a) Contrastar con nivel de significacion 0.05 si los dos modelos tienen la misma pendiente.
Lo mismo para la ordenada en el origen. (NOTA.- Aceptar que la varianza de los
dos modelos es la misma y estimarla como el promedio de las dos varianzas residuales
calculadas.)
(b) Un modelo de regresion m
ultiple Y = X + U, se replica, es decir se obtienen dos
vectores de variables respuesta Y1 , Y2, para los mismo regresores (matriz X). Demostrar
que si 1 y 2 son los resultados de la estimacion de utilizando por separado la variable
)/2.
Y1 e Y2 ; entonces el estimador de con todos los datos es ( 1 +
2
(c) Estimar un u
nico modelo con los datos de las dos camaras. Sabiendo que Y T Y = 306.8,
donde Y = log M, dar un intervalo de confianza al 99% para los dos parametros.
41. El molibdeno se a
nade a los aceros para evitar su oxidacion, pero en instalaciones nucleares
presenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Se
ha realizado un experimento para determinar el grado de oxidacion del acero en funcion del
porcentaje de molibdeno. Ademas se ha tenido en cuenta el efecto del tipo de refrigerante
utilizado (R1 , R2 ). Los resultados se muestran en la tabla.
Refrig. 0.5%
R1
26.2
R2
34.8
R1
33.2
R2
43.0
Media 34.3

Molibdeno (%)
1% 1.5%
23.4 20.3
31.7 29.4
31.3 28.6
40.0 31.7
31.6 27.5

2% Medias
23.3
23.3
26.9
30.7
29.3
30.6
33.3
37.0
28.2
30.4

(a) Escribir un modelo de regresion que incluya el porcentaje de molibdeno y el tipo de refrigerante como regresores; estimar el modelo e indicar que parametros son significativos
( = 0.05)).
(b) Los experimentos relativos a las dos primeras filas se realizaron en un tipo de instalacion
y los correspondientes a las dos u
ltimas en otra distinta. Escribir un nuevo modelo que
incluya este aspecto. Comprobar que este nuevo regresor esta incorrelado con los dos
anteriores. Estimar el nuevo modelo.
(c) Demostrar que en un modelo con los regresores incorrelados, la eliminacion de uno
de ellos no influye en el valor de los estimadores i , (i 6= 0) restantes. Influye en
la varianza residual y en los contrastes ? Explicar este efecto en funcion de que el
parametro del regresor eliminado sea o no nulo.
42. Demostrar que en un modelo de regresion m
ultiple estimado por maxima verosimilitud, los
residuos cumplen
n
X
ej xij = 0,
j=1

donde [xi1, xi2, ..., xin, ] es cualquier regresor del modelo. Obtener la distribucion conjunta
del vector de residuos. Si 2 es la varianza teorica de la componente aleatoria del modelo,
indicar en que circuntancias la varianza de un residuo es mayor que 2 .
12

43. Se dispone de una muestra de 86 vehculos, de los cuales 31 son japoneses (J), 41 norteamericanos (N) y 14 europeos (E). La media y desviacion tpica del consumo de gasolina (en litros
cada 100 Km) para los coches japoneses es y J = 9.1781, b
sJ = 1.42, para los norteamericanos
y N = 9.7274, b
sN = 1.25 y para los europeos y E = 10.64, b
sE = 1.36.

(a) Suponiendo que los vehculos escogidos son muestras aleatorias independientes y que
pueden aplicarse las hipotesis de normalidad y homocedasticidad, contrastar la hipotesis
de que el lugar de fabricacion no influye en el consumo de combustible. Existe alg
un
grupo con un consumo significativamente menor que los otros dos?

(b) Los coches tienen caractersticas muy diferentes (peso, potencia,...) que deben ser
tenidas en cuenta para hacer la comparacion anterior. Con esa finalidad, se ha ajustado
el siguiente modelo de regresion:
yb = 3.305 + 0.843 Pot + 3.829 Peso + 0.440 ZJ + 1.127 ZE sb2R = 0.506,

R2 = 75.7%

donde (X T X)1 es:

4.791e 1
5.054e 2 3.794e 1 9.157e 2 4.682e 2
5.054e 2
1.595e 1 1.931e 1 3.443e 3 1.262e 2

3.794e 1 1.931e 1

4.646e

1
5.210e

2
2.865e

9.157e 2 3.443e 3
5.210e 2
6.667e 2
2.744e 2
4.682e 2 1.262e 2
2.865e 2
2.744e 2
9.759e 2

donde la variable dependiente es el consumo, Pot (potencia) esta expresada en unidades


de 100 Cv, el Peso en Toneladas, ZJ toma el valor 1 si el coche es japones y cero en
los demas, y ZE toma el valor 1 para los coches europeos y cero en los demas. Realizar
el contraste general de regresion para el modelo anterior e interpretar los coeficientes
estimados.

(c) Con el modelo de regresion anterior realizar los tres contrastes siguientes:
(c.1) No existe diferencia en el consumo de los coches japoneses y europeos.
(c.2) No existe diferencia en el consumo de los coches japoneses y norteamericanos.
(c.3) No existe diferencia en el consumo de los coches europeos y norteamericanos.
Comparar los resultados con los obtenidos en el apartado 1, explicar a que se deben las
diferencias y justificar cual es el modelo mas adecuado para hacer las comparaciones.
44. El modelo de regresion m
ultiple con n observaciones y k + 1 variables independientes (incluyendo la constante 0 ) se puede escribir en notacion matricial como
Y = X + U,
donde U es el vector de variables aleatorias que cumple las hipotesis de normalidad, independencia y homocedasticidad y la matriz de los regresores X es de dimension n (k + 1).
Demostrar que si se transforma linealmente la matriz X, esto es, W = XA, donde A es
cualquier matriz cuadrada de dimension (k + 1) (k + 1) y rango maximo, entonces la
regresion de Y con la nueva W proporciona las mismas predicciones y los mismos residuos.
Justificar geometricamente este resultado.
13

45. La resistencia a la traccion (y) de una aleacion metalica en funcion de la temperatura de


templado (x) se ha ajustado con una ecuacion de regresion para 30 observaciones resultando:
y = 276.1 + 1.9x, sR = 15.7, R2 = 0.43
Se puede concluir con una confianza del 95% que la temperatura de templado tiene efecto
significativo en la resistencia a la traccion.
46. En Cosby Creek, una ciudad al sur de las monta
nas Apalaches, se ha hecho un estudio para
determinar como el pH y otras medidas de acidificacion del agua se ven afectadas durante
las tormentas. En concreto se han obtenido 17 datos durante cada una de las tres tormentas
monitorizadas para un total de 19 variables, aunque en este analisis se analizaran solo 2, el
pH y el denominado Weak Acidity (WA). Se ha estimado el modelo de regresion m
ultiple
del valor pH con respecto a la variable WA y para cada una de las tres tormentas. Las
tormentas se representan con las variables ficticias z1 , z2 y z3 que identifican respectivamente
la tormenta 1, 2 y 3. El modelo estimado de regresion de y con respecto a WA, z1 , z2 y z3
es:
c = 5.77 0, 00008W A + 0, 998z1 + 1, 65z2 0, 005z1 W A 0, 008z2W A,
pH
(0,000727)

(0,4664)

(0,4701)

(0,0014)

R2 = 0, 866

(0,0016)

Entre parentesis las deviaciones tpicas estimadas de los estimadores de los parametros correspondientes.
(a) Realice el contraste general de regresion y los contrastes individuales con = 0, 05
indicando las variables que influyen significativamente en el pH. Interprete el significado
de cada parametro.
(b) Proporcione sendos intervalos de confianza al 95% para los parametros de las interacciones z1 W A y z2 W A. Que conclusiones pueden extraerse? Se puede simplificar el
modelo?
47. Dos becarios del Departamento de Ciencias Sociales estan interesados en el estudio de la
Tasa de Mortalidad Infantil (TMI). Para ello, han recogido en 107 pases dicha magnitud
as como la alfabetizacion (A), el PIB y la poblacion (Pob) en cada uno de ellos.
Las medias y desviaciones tpicas corregidas de estas 4 variables son:

Media
DT corregida

TMI
42.67
38.3

A
PIB
Pob
78.34 5831.4
48501
22.88 6537.24 147.991

(a) Si el coeficiente de correlacion entre TMI y A vale -0.9005 estime el modelo de regresion
simple en el que TMI es la variable respuesta y A la variable explicativa y contraste si
la pendiente estimada es significativa.
(b) Los becarios han estimado un modelo de regresion m
ultiple en que la variable dependiente es TMI y las variables independientes son A, PIB y Pob. Observando que la
diagnosis del modelo es inadecuada. Estime el modelo de regresion m
ultiple entre TMI
(variable dependiente) y los regresores A, log(PIB) y log(Pob). Para ello se proporciona:
14

e X)
e 1
(X

0.0259 0.0499 0.0001


= 103 0.0499 0.3186 0.0007
0.0001
0.0007 0.0004

8.3651
e Ye ) = 104 1.7007
(X
5.1293

e la matriz de estos 3 u
siendo X
ltimos regresores en desviaciones a la media e Ye el vector
respuesta en desviaciones a la media. Son significativos los coeficientes estimados?
c. Para el modelo del apartado anterior realice el contraste general de regresion. Encuentra contradicciones entre el resultado de los contrastes individuales del apartado 2
y el del apartado 3? Justifique la respuesta.
d. Los pases objeto del estudio se pueden clasificar en desarrollados y no desarrollados.
Para ello se introduce la variable cualitativa Z que toma valor 0 si el pas es desarrollado
y 1 si no lo es. El modelo resultante se presenta a continuacion:
T MI = 138.2 1.1A 9.6 log(P IB) + 3.3Z

con sb2R = 196.3

Todos los coeficientes estimados resultan significativos. Interprete dichos coeficientes y elija
de manera razonada el mejor modelo de entre los propuestos en el segundo y cuarto apartados
NOTA: Utilice = 0.05 para todos los contrastes que sean necesarios.
48. Se ha realizado la regresion entre la anchura y la longitud del pie en centmetros con datos
de chicos y chicas de cuarto curso de la ense
nanza secundaria. En la tabla se proporciona el
resultado de la regresion. En el modelo se ha incluido una variable cualitativa que toma el
valor 1 si la observacion corresponde a una chica y 0 si es a un chico. Interpreta el resultado
del analisis.
Multiple Regression Analysis
----------------------------------------------------------------------------Dependent variable: Anch
----------------------------------------------------------------------------Standard
T
Parameter
Estimate
Error
Statistic
P-Value
----------------------------------------------------------------------------CONSTANT
4,29977
1,12692
3,81551
0,0005
Long
0,21311
0,048554
4,38913
0,0001
Chica
-0,272394
0,127844
-2,13067
0,0402
----------------------------------------------------------------------------Analysis of Variance
15

----------------------------------------------------------------------------Source
Sum of Squares
Df Mean Square
F-Ratio
P-Value
----------------------------------------------------------------------------Model
4,60164
2
2,30082
16,41
0,0000
Residual
4,90599
35
0,140171
----------------------------------------------------------------------------Total (Corr.)
9,50763
37
R-squared = 48,3994 percent
49. Seg
un la ecuacion de los gases ideales, la presion ejercida por un gas a volumen y temperatura
constante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimar
el peso molecular de un gas. Se almacena el gas en un recipiente de volumen constante, y se va
soltando poco a poco gas, variando la presion, pero manteniendo la temperatura constante.
En la tabla adjunta se proporcionan mediciones de la presion (con respecto a la atmosferica)
y de la masa del gas para el argon.
Presion (psi)
52
49
44
39
34
29
25
21
19
19
11
0

Masa (g)
1, 028
0, 956
0, 88
0, 793
0, 725
0, 645
0, 593
0, 526
0, 5
0, 442
0, 373
0, 21

(a) Para estimar el peso molecular del argon a partir de los datos, se propone el siguiente
modelo de regresion
Pi = mi + ui , con ui N(0, 2 ).
Obtener el estimador de maxima verosimilitud del parametro
(b) Realizar el contraste H0 : = 50 frente a H1 : 6= 50 con nivel de significacion 0.05.
(c) Para el modelo del apartado 1, obtener un intervalo de prediccion para la presion cuando
la masa es igual a 1 gramo.
(d) Se considera tambien el modelo alternativo
Pi = 0 + 1 mi + ui con ui N(0, 2 ).
16

Obtener la varianza del estimador de E[Ph |mh ], es decir del valor medio de la presion Ph
para una masa dada mh con ambos modelos. Si el modelo verdadero fuese el del primer
apartado, que efecto tendra sobre la prediccion adoptar el modelo alternativo?
50. Se ha estimado un modelo de regresion con dos variables independientes y 150 observaciones
obteniendose la siguiente ecuacion:
ybi = 1.17 + 0.025 log x1 + 0.59 log x2 ,

sb2R = 2.48

b ,
b ]T para el modelo propuesto es
La matriz de varianzas estimada de bb = [
1
2



1
.253 .201
T
2

X X
sbR =
.
.201 .288
realiza el contraste general de regresion con = 0.05:

H0 : 1 = 2 = 0
H1 : alg
un i es distinto de cero
51. En el modelo de regresion
yi = 0 + 1 X1i + 2 X2i + ui
con las hipotesis habituales, explicar como se contrasta
H0 :
H1 :

1 = 2
1 6= 2

52. Demostrar que en el modelo de regresion m


ultiple con k regresores y constante, el estadstico
que contrasta H0 : 0 = 1 = 2 = = k = 0 frente a H1 : alg
un i 6= 0, si H0 es cierta
es:
F =

Y TV Y
nk1
T
Y (I V )Y k + 1

Fk+1,nk1

donde V = X(X T X)1 X T e I es la matriz identidad de dimension n n.


53. En la tabla siguiente se muestra el resultado de un experimento para relacionar el calor
generado en el proceso de endurecimiento del 13 muestras de cemento en funcion de su
composicion. Los regresores Xi corresponden al porcentaje de 4 componentes de la mezcla.

17

Fila
X1
7
1
11
11
7
11
3
1
2
21
1
11
10

1
2
3
4
5
6
7
8
9
10
11
12
13

Regresores
X2 X3 X4
26
6 60
29 15 52
56
8 20
31
8 47
52
6 33
55
9 22
71 17
6
31 22 44
54 18 22
47
4 26
40 23 34
66
9 12
68
8 12

Calor
Y
78.5
74.3
104.3
87.6
95.9
109.2
102.7
72.5
93.1
115.9
83.8
113.3
109.4

Modelo II
Residuo vii
-1.574 0.25
1.049 0.26
-1.515 0.12
-1.658 0.24
-1.393 0.08
4.048 0.11
-1.302 0.36
-2.075 0.24
1.825 0.18
1.362 0.55
3.264 0.18
0.863 0.20
-2.893 0.21

Modelo I
Parametros
Constante
X1
X2
X3
X4

Estimacion
62.4
1.55
0.51
0.10
-0.14

Modelo II

Desv. Tp.
Estimadas
70.1
0.74
0.72
0.75
0.71

t
0.89
2.08
0.70
0.13
-0.20

Parametros
Constante
X1
X2

An
alisis de la Varianza

Fuentes

Variabilidad

Grados
Lib.

Explic.
Residual
Total

2667.9
47.8
2715.7

4
8
12

Estimacion
52.6
1.46
0.66

Desv. Tp.
Estimadas
2.28
0.12
0.045

t
23.0
12.1
14.4

An
alisis de la Varianza

Var.

Fuentes

Variabilidad

667.0
5.98

111.5

Explic.
Residual
Total

2657.8
57.9
2715.7

Grados
Lib.
2
10
12

Var.

1328.9
5.8

229.5

En las tablas se proporcionan dos modelos de regresion lineal, con las estimaciones de los
parametros, las desviaciones tpicas estimadas de estos y los estadsticos t de los contrastes
individuales. Debajo se incluyen las tablas de analisis de la varianza de cada modelo.
(a) Realizar los contrastes H0 : i = 0 frente H1 : i 6= 0 para los distintos parametros en
los dos modelos. Realizar el contraste conjunto H0 : 3 = 4 = 0 frente H1 : alguno de
los dos es 6= 0. Se puede concluir con estos datos que X4 no influye significativamente
en el calor Y ?
(b) Estimar el modelo de regresion simple del calor Y y la variable explicativa X4 Influye
significativamente X4 en el calor Y ? Analizar este resultado e interpretarlo teniendo
en cuenta el resultado del apartado anterior.
(c) En la tabla superior se muestran los residuos del modelo II y los elementos de la
diagonal de la matriz V = X(X T X)1 X T . Indicar los residuos con mayor y menor
varianza, justificando la respuesta. Si se vuelve a repetir los experimentos en estas dos
18

condiciones, dar un intervalo para la prediccion de los nuevos valores de la variable


dependiente (usar = 0.05).
54. En un estudio de regresion simple con 35 observaciones ha resultado el siguiente modelo
y = 0.12 + 7.6 log(x),

sR = 1.2,

R2 = 0.37

Obtener el intervalo de confianza al 95% para el parametro de la pendiente e indicar si su


efecto es significativo.(El percentil 0.975 de la distribucion t de Student con 33 grados de
libertad es 2.03)
55. Los datos siguientes corresponden a la perdida (P) por abrasion en gr/h y su medida de
dureza (D) en grados Shore para 15 gomas de caucho de alta resistencia a la tension (A) y
otras 15 gomas de caucho con resistencia a la tension baja (B):
A
A
A
A
B
B
B
B

D
D
P
P
D
D
P
P

75
53
128
221
45
89
372
114

55 61 66 71 71 81 86
60 64 68 79 81 56
206 175 154 136 112 55 45
166 164 113 82 32 228
68 83 88 59 71 80 82
51 59 65 74 81 86
196 97 64 249 219 186 155
341 340 283 267 215 148

Escribir el modelo estadstico, indicar los parametros y explicar el procedimiento de estimacion para estudiar con estos datos simultaneamente el efecto de la dureza y de la resistencia a la tension (alta o baja) en las perdidas por abrasion. Indicar como contrastar con el
modelo propuesto que las gomas de caucho con baja resistencia a la tracci
on tienen por
termino medio mayor perdida que las gomas con resistencia a la tracci
on baja. (Nota.- No
se pide ning
un calculo numerico, los datos se presentan para ilustrar y describir el problema
de forma precisa).
56. Sea x1 la altura del tronco de un arbol y x2 el diametro del mismo en su parte inferior. El
volumen y del tronco de arbol puede ser calculado aproximadamente con el modelo
yi = x1i x22i + ui ,
seg
un el cual, el volumen del tronco es proporcional al volumen de un cono con las medidas
x1i , x2i , siendo el parametro (desconocido) de proporcionalidad, mas una componente
de error aleatorio ui . La tabla siguiente contiene los datos (en metros y metros c
ubicos)
correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino.

19

Obs.
1
2
3
4
5
6
7
8

x1i
10,1
11,3
20,4
14,9
23,8
19,5
21,6
22,9

x2i
0,117
0,13
0,142
0,193
0,218
0,236
0,257
0,269

x1i x22i
0,14
0,19
0,41
0,56
1,13
1,09
1,43
1,66

yi
0,062
0,085
0,204
0,227
0,47
0,484
0,623
0,722

x1i
19,8
26,8
21
27,4
29
27,4
31,7

Obs.
9
10
11
12
13
14
15

x2i
0,297
0,328
0,351
0,376
0,389
0,427
0,594

x1i x22i
1,75
2,90
2,60
3,90
4,40
5,00
11,2

yi
0,821
1,280
1,034
1,679
2,073
2,022
4,630

(a) Estimar por maxima verosimilitud suponiendo que las variables ui tienen distribucion
normal de media cero, con la misma varianza e independientes.
(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalo
de prediccion de su volumen (95% de confianza). La varianza residual del modelo es
0,0058.
(c) En el analisis de los residuos se observa que la varianza de los errores crece con el
volumen del tronco. Para obtener homocedasticidad se propone el siguiente modelo
transformado utilizando logaritmos neperianos,
log yi = 0 + 1 log x1i + 2 log x2i + ui
El resultado de la estimacion es:
Parametro
0
1
2

Estimacion
-1,45
1,14
1,86

0, 1250
0, 0212 0, 0317
cb = 0, 0212
0, 0082 0, 0051
M

0, 0317 0, 0051
0, 0042

cb = b
siendo M
s2R (X T X)1 (X es la matriz de los regresores transformados seg
un el

2
modelo) La transformacion logartmica del modelo inicial (x1i x2i ) implicara que 1 =
1 y 2 = 2. Contrastar (nivel de significacion 0.05) si estos dos valores son aceptables.
(d) Con este modelo, dar un intervalo de prediccion (95% de confianza) para el volumen
del tronco del apartado 2 si la varianza residual es 0,0031.
57. La cantidad maxima yi de cierto compuesto disuelta en un litro de agua a temperatura xi
sigue el modelo de regresion simple,
yi = 0 + 1 xi + ui ,
donde ui cumple las hipotesis de normalidad, homocedasticidad (Var(ui ) = 2 ) e independencia. Una muestra de n disoluciones diferentes han proporcionado los valores (yi , xi ).

Ademas se han medido las cantidades disueltas y1 , y2 , ..., ym


en otra muestra de m disoluciones que se encontraban a la misma temperatura x0 . El valor x0 es desconocido. Estimar
por maxima verosimilitud los parametros 0 , 1 , 2 y x0 utilizando las n + m observaciones.
20

58. Explicar en que consiste el problema de la multicolinealidad en el modelo de regresion: como


se detecta, como se puede corregir y cuales son sus efectos.
59. Ciertas propiedades del acero se mejoran sumergiendolo a alta temperatura (T0 = 1525
o
F ) en un ba
no templado de aceite (t0 = 95 o F ). Para determinar la influencia de las
temperaturas del acero y del ba
no de aceite en las propiedades finales del material se han
elegido tres valores de la temperatura del acero y tres del ba
no de aceite,

1450 o F
70 o F
Temperatura acero (T ) 1525 o F
Temperatura aceite (t) 95 o F

o
1600 F
120 o F
y se han realizado los siguientes experimentos:
x1i
x2i
yi

0
0
0
0
-1
1
-1
0
0
0
0
-1
-1
1
49.2 49.4 47.0 49.5 28.2 88.6 54.9

1
0
0
-1
1
1
-1
1
0
0
31.3 59.2 43.6 41.9 58.0

donde se ha utilizado la siguiente transformacion (para simplificar calculos)


x1i =

Ti 1525
75

x2i =

ti 95
.
25

Estimar el modelo de regresion


yi = 0 + 1 x1i + 2 x2i + 3 x1i x2i + ui
e indicar que parametros son significativos para nivel de significacion 0.05, teniendo en
cuenta que la desviacion tpica residual es b
sR = 9.6. Estimar y contrastar el modelo anterior
empleando las variables originales Ti y ti .
60. Se ha ajustado un modelo de regresion para estudiar el efecto de la velocidad de corte (x1 )
y el caudal de refrigerante (x2 ) en la duracion (y) de una herramienta de corte. Las tres
variables se han transformado mediante el logaritmo neperiano y el modelo estimado ha sido:
log y

= 18, 30 5, 050 log x1


(1,65)
(0,19)

3, 750 log x2
(0,34)

(entre parentesis se proporcionan las desviaciones tpicas estimadas de los coeficientes estimados del modelo). El n
umero de observaciones es 32 y la desviacion tpica residual b
sR = 0, 24.
Obtener los intervalos de confianza (99%) para los tres parametros de la ecuacion de regresion. El coeficiente de determinacion es R2 = 0, 96, realizar el contraste conjunto de los
parametros correspondientes a las dos variables explicativas.
61. Se ha ajustado el siguiente modelo de regresion m
ultiple con una muestra de 86 vehculos, de
los cuales 31 son japoneses , 41 norteamericanos y 14 europeos, donde la variable dependiente
es el consumo, y los regresores: Pot (potencia) esta expresada en unidades de 100 Cv, el

21

Peso en Toneladas, ZJ toma el valor 1 si el coche es japones y cero en los demas, y ZE toma
el valor 1 para los coches europeos y cero en los demas.
yb = 3.305 + 0.843 Pot + 3.829

4.791e 1
5.054e 2

(X T X)1 =
3.794e 1
9.157e 2
4.682e 2

Peso + 0.440 ZJ + 1.127 ZE

sb2R = 0.506,

5.054e 2 3.794e 1 9.157e 2


1.595e 1 1.931e 1 3.443e 3
1.931e 1
4.646e 1
5.210e 2
3.443e 3
5.210e 2
6.667e 2
1.262e 2
2.865e 2
2.744e 2

R2 = 75.7%

4.682e 2
1.262e 2

2.865e 2

2.744e 2
9.759e 2

Dar el intervalo de confianza para el consumo previsto de un coche norteamericano con una
potencia de 120 Cv y 1600 Kg de peso.
62. El modelo de regresion m
ultiple que relaciona el calor generado en el proceso de endurecimiento (variable dependiente) de 13 muestras de cemento en funcion de su composicion
x1 , x2 , x3 y x4 , es
ybi =

62.4 + 1.55 x1i + 0.51 x2i + 0.10 x3i 0.14 x4i


(70.1)
(0.74)
(0.72)
(0.75)
(0.71)

(entre parentesis la desviacion tpica estimada de las estimaciones de los parametros). Abajo
se proporciona el coeficiente de determinacion R2 de los 15 modelos de regresion diferentes
que se obtienen seg
un los regresores elegidos.
R2
Variables en el Modelo
53.3948
x1
x2
66.6268
28.5873
x3
67.4542
x4
97.8678
x1 , x2
54.8167
x1 , x3
97.2471
x1 , x4
84.7025
x2 , x3
68.0060
x2 , x4
93.5290
x3 , x4
98.2285
x1 , x2 , x3
98.2335
x1 , x2 , x4
98.1281
x1 , x3 , x4
97.2820
x2 , x3 , x4
98.2376
x1 , x2 , x3 , x4
Que variables influyen significativamente en el calor generado? Justificar la respuesta. Que
modelo seleccionaras para predecir el calor generado?
63. Se desea estudiar la relacion entre el sueldo de 100 personas, en funcion del n
umero de
a
nos que llevan trabajando y el sector al que pertenecen, pudiendose dividir el sector en
22

S=servicios, I=industria, A=agricultura. Escribir el modelo de regresion entre el sueldo


(variable respuesta) y el resto de las variables. Se estima este modelo de regresion obteniendo
una varianza residual sb2R = 0.25. Con el objetivo de contrastar si el sector influye en el sueldo
se estima otro modelo de regresion que no contiene ninguna variable de sector, para este

modelo se obtiene una varianza residual b


sR2 = 0.4. Contrastar si el sector influye en el sueldo
que perciben los empleados ( = 0.05).
64. En un modelo de regresion m
ultiple Y = X+U se realiza la transformacion de los regresores
Z = XA, donde X es la matriz de los regresores, y A una matriz cuadrada de rango maximo.
Calcular la estimacion de los coeficientes del nuevo modelo Y = Z N + U en funcion de los
antiguos.
65. Se ha estimado el siguiente modelo de regresion entre la variable y y los regresores x1 , x2 y
x3 ,
y = 61.1 + 46.1 log x1 + 83.1 log x2 + 27.9 log x3 ,
sR = 5.49
Teniendo en cuenta que el n
umero de observaciones

0.1939 0.0892

0.0892
0.1924
(X T X)1 =
0.0887 0.0125
0.1534 0.0010

es n = 60 y que

0.0887 0.1534
0.0125 0.0010

0.2093 0.0066
0.0066 0.2613

Dar un intervalo de confianza para los 4 parametros de la ecuacion de regresion y para la


varianza del modelo ( = 0.05).
66. Se ha estimado un modelo de regresion m
ultiple para explicar el consumo de combustible
de automoviles en funcion del peso, la potencia y el lugar de fabricacion. La muestra es de
86 vehculos, de los cuales 31 son japoneses (J), 41 norteamericanos (N) y 14 europeos (E).
yb = 3.305 + 0.843 Pot + 3.829

4.791e 1
5.054e 2

(X T X)1 =
3.794e 1
9.157e 2
4.682e 2

Peso + 0.440 ZJ + 1.127 ZE ,

sb2R = 0.506,

5.054e 2 3.794e 1 9.157e 2


1.595e 1 1.931e 1 3.443e 3
1.931e 1
4.646e 1
5.210e 2
3.443e 3
5.210e 2
6.667e 2
1.262e 2
2.865e 2
2.744e 2

R2 = 75.7%

4.682e 2
1.262e 2

2.865e 2

2.744e 2
9.759e 2

La variable dependiente, el consumo, esta medida en litros cada 100 km, Pot es la potencia
y esta expresada en unidades de 100 Cv, el Peso en Toneladas, ZJ toma el valor 1 si el coche
es japones y cero en los demas, y ZE toma el valor 1 para los coches europeos y cero en
los demas. Realizar el contraste general de regresion y los contrastes individuales para el
modelo anterior. Interpretar el resultado.
67. En una muestra de 31 arboles se ha medido la altura (x1i ), el diametro del arbol a un metro
de altura sobre el suelo (x2i ) y el volumen de madera del tronco (yi ) y se ha estimado el
siguiente modelo de regresion
log(yi ) = 0 + 1 log(x1i ) + 2 log(x2i ) + ui .
Los resultados se muestran en las tablas siguientes:
23

An
alisis de regresi
on m
ultiple
Variable dependiente: Log(Volumen)
Regresor
Estimacion Desviacion tpica Estadstico t Nivel crtico
Ordenada en el origen
-6,63162
0,79979
-8,2917
0,0
Log(Altura)
1,11712
0,20444
-5,4644
0,0
Log(Diametro)
1,98265
0,07501
26,4316
0,0

Fuente
Modelo
Residual
Total

An
alisis de la varianza
Suma de cuadrados G. de L. Varianzas Cociente F Nivel crtico
8,12323
2
4,06161
613,19
0,0
0,18546
28
0,00662
8,30869
30

Aproximando el volumen del arbol por el de un tronco conico, el volumen debe ser proporcional a kx1i x22i y tomando logaritmos
log(k) + log(x1i ) + 2 log(x2i ).
Realizar los siguientes contrastes de hipotesis con nivel de significacion 0,05:


H0 : 1 = 1
H0 : 2 = 2
.
H1 : 1 6= 1
H1 : 2 6= 2
68. En la tabla siguiente se presenta la estimacion de la regresion entre el resultado en la prueba
del salto de longitud de 34 atletas y los tiempos de estos mismos atletas en las pruebas de
100 metros lisos, 110 metros valla, 400 metros y 1500 metros.

Constante
X1 (100 m)
X2 (110 m)
X3 (400 m)
X4 (1500 m)

Coeficientes
b

Desv. T.
i
17.9
2.12
-.462
.266
-.181
.124
-3.39E-02
.070
-4.47E-03
.004

t
p-valor
8.45
0.000
-1.73
0.093
-1.45
0.155
-.485
0.631
-1.03
0.312

La variabilidad total de los datos es 4.613, la variabilidad explicada 2.199 y la variabilidad


residual 2.413. Realizar el contraste general de regresion, e interpretar el resultado del
contraste y los contrastes individuales de la tabla.

24

Dise
no de Experimentos

12 de abril de 2012

Cuestiones
(30 minutos, 4 puntos)

1. Los siguientes datos son medidas de presion (psi) en un muelle a torsion para diferentes configuraciones
entre el extremo del muelle y un punto de apoyo.

La tabla de analisis de la varianza para la comparacion de las medias correspondientes a los cinco
niveles determinados por el angulo (angle) se ha obtenido con R y es la siguiente

Realizar la comparacion dos a dos de las medias de los cinco tratamientos (LSD). Interpretar los
resultados de la comparacion.
Nota: Para todo el ejercicio utilizad = 0.05.

2. Obtener la descomposicion de la variabilidad (analisis de la varianza) en el modelo de un factor,


justificando cada paso. Indicar por que se anula el termino correspondiente al doble producto en el
segundo miembro de la igualdad.

Dise
no de Experimentos

12 de abril de 2012

Problema
(45 minutos, 6 puntos)
En un estudio realizado en la Universidad Virginia Tech, se desea comprobar el efecto de a
nadir un
producto qumico quelante (Carboximetil Celulosa, CMC) como parte del acabado ignfugo de tejidos de
algodon con el fin de retardar su tiempo de combustion. El tejido de algodon en estudio se ha lavado en dos
soluciones distintas: Ba
no 1 con CMC y Ba
no 2 sin CMC. Para estudiar si la intensidad de lavado influye
en el resultado, se ha hecho el experimento con cinco lavados y diez lavados. En cada caso se utilizaron 12
telas, que posteriormente se quemaron, midiendose los tiempos de combustion (segundos) que se muestran
en la tabla.
Lavados
5

10

13.7
25.5
14.0
14.0
27.2
14.9
10.8
14.2

Ba
no 1
23.0
15.8
29.4
12.3
16.8
17.1
13.5
27.4

15.7
14.8
9.7
12.3
12.9
13.0
25.5
11.5

6.2
4.4
16.0
3.9
18.2
14.7
10.6
17.7

Ba
no 2
5.4
5.0
2.5
2.5
8.8
17.1
5.8
18.3

5.0
3.3
1.6
7.1
14.5
13.9
7.3
9.9

La media y la varianza corregida para cada tratamiento es:


Lavados
5
5
10
10

Ba
no
1
2
1
2

Media
16.68
5.24
17.07
13.07

Varianza
35.92
14.07
37.31
19.75

1. Obten la tabla de analisis de la varianza del experimento y realiza los contrastes con nivel de significacion 0.05.
2. Calcula el intervalo de confianza ( = 0.05) para la media de cada tratamiento, dibuja el gr
afico de
interacciones con los intervalos de confianza correspondientes e interpreta los resultados del experimento.
3. Como se aprecia en la segunda tabla, las varianzas correspondientes a los tratamientos del Ba
no 2
son parecidas y bastante inferiores a las varianzas de los tratamientos correspondientes al Ba
no 1.
Llamando 21 a la varianza teorica para los datos del ba
no 1 y 22 a la varianza teorica para los datos
del ba
no 2, realiza el contraste:
H0 : 21 = 22
H1 : 21 6= 22
Nota: Utilizad = 0.05.

LSD t

0.05
20,
2

sR

1 1
1 1

2.09 1.16

ni n j
ni n j

yij i uij yij y i ( yij y i ) : restando y

ij

yij y ( y i y ) ( yij y i )
elevando al cuadrado y sumando para todo i, j
K

ni

(donde ( y i y )( yij y i ) 0)
i 1 j 1

ni

ni

ni

( yij y )2 ( y i y )2 ( yij yi )2
i 1 j 1
K

i 1 j 1

ni

i 1 j 1
ni

i 1

i 1 j 1

( yij y )2 ni ( y i y )2 ( yij y i )2
i 1 j 1

Variabilidades
K

Grados de libertad

ni

VT ( yij y ) 2

n -1

i 1 j 1
K

VE ni ( y i y ) 2

K -1

i 1

ni

ni

VNE ( yij y i ) 2 eij 2


i 1 j 1

n-K

i 1 j 1

ni
K

(
y

y
)(
y

y
)

(
y

y
)
i

ij
i

i
( yij y i ) 0
i 1 j 1
i 1
j 1

ni

ni

(y
j 1

ij

y i ) 0

Analysis of Variance Table


Response: Tiempo
Df Sum Sq Mean Sq F value
Pr(>F)
Lavados
1 202.13 202.13 7.5519 0.008659 **
Bath
1 715.34 715.34 26.7261 5.494e-06 ***
Lavados:Bath 1 166.14 166.14 6.2071 0.016567 *
Residuals
44 1177.68
26.77
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

yij t

L10
L5

0.05
44,
2

B1
17.067
16.683

sR

1
1
yij 2.01 26.77
yij 3.01
ni
12

B2
13.067
5.242

1135.92 1137.31
36.61
11 11
1114.07 1119.75

16.91
11 11

sR21
sR2 2

sR21
~ F22,22
sR2 2
36.61
2.16
16.91

Fa 0.424
Fb 2.357

2o Examen Parcial

Dise
no de Experimentos y Regresion
Cuestiones

21 de mayo de 2012

(30 minutos, 4 puntos)

1. Sea Y n el vector de la variable dependiente de un modelo de regresion m


ultiple, con los regresores
n(k+1)
definidos por la matriz X
, tal que
Y = X + U

(1)

donde U N (0, 2 I). Un modelo de regresion m


ultiple se replica cuando se obtienen dos vectores de
variable respuesta Y1 e Y2 , cada uno de dimension n, para los mismos regresores (la misma matriz X).
Se ajusta el modelo:
Y = X + U
(2)
al vector de parametros estimados para el modelo (1), y
para el
+ Y2 ). Sea
) y V ar(),
justificando la respuesta.
modelo (2). Obtener la relacion entre V ar(
donde Y =

1
2 (Y1

2. Dos propietarios de un vi
nedo de Oregon cultivan diferentes variedades de uva con las que fabrican
vino. Durante el proceso de fabricacion han recabado diferentes datos con el fin de identificar aquellas
variables que, a juicio de los catadores, producen el mejor vino. En concreto se ha recabado informaci
on
sobre la edad de la barrica de roble (x1 : a
nos), el porcentaje del racimos completos utilizados (x2 : %),
la temperatura de fermentaci
on (x3 : o C), y sobre las variables cualitativas Clon de pinot noir, que
puede tomar dos valores (Pommard y Wadenswill), y el tipo de roble empleado en la fabricacion de las
barricas que tambien puede tomar dos valores (Allier y Troncais).
Escriba la ecuacion del modelo de regresion lineal que permite relacionar la puntuacion emitida por
los catadores (y) con los regresores mencionados anteriormente. Interprete los parametros del modelo.

2o Examen Parcial

Dise
no de Experimentos y Regresion

21 de mayo de 2012

Problema (45 minutos, 6 puntos)


Durante la produccion y el transporte del petroleo, este se mezcla con agua formando una emulsi
on. Una
manera de separar los dos lquidos es creando un campo electrico fuerte, de forma que las gotas de petr
oleo
crecen y suben a la superficie. Un grupo de investigacion de la Universidad de Bergen (Noruega) tom
o una
serie de datos para determinar los factores que influan en el voltaje requerido para separar la mezcla. Las
siete variables investigadas fueron las siguientes:
x1 : Composicion porcentual de la mezcla ( %)
x2 : Salinidad de la emulsion ( %)
x3 : Temperatura de la emulsion (o C)
x4 : Tiempo en reposo desde que se realiza la mezcla (horas)
x5 : Concentracion de sulfatante (reduce la tension superficial)( % en peso)
x6 : Proporcion de sustancias qumicas sulfatantes (Span y Triton)( %)
x7 : Cantidad de solidos a
nadidos ( % en peso)
Se prepararon las 19 emulsiones que se muestran en la tabla. Para cada emulsion se midio el voltaje
(kilovoltios por centmetro) necesario para que se iniciara el proceso de separacion, este valor representa la
variable respuesta (y).

Experimento
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

y (tension)
0,64
0,80
3,20
0,48
1,72
0,32
0,64
0,68
0,12
0,88
2,32
0,40
1,04
0,12
1,28
0,72
1,08
1,08
1,04

DATOS
x1 x2
x3
40
1
4
80
1
4
40
4
4
80
4
4
40
1
23
80
1
23
40
4
23
80
4
23
40
1
4
80
1
4
40
4
4
80
4
4
40
1
23
80
1
23
40
4
23
80
4
23
60 2,5 13,5
60 2,5 13,5
60 2,5 13,5

x4
0,25
0,25
0,25
0,25
0,25
0,25
0,25
0,25
24
24
24
24
24
24
24
24
12,125
12,125
12,125

x5
2
4
4
2
4
2
2
4
2
4
4
2
4
2
2
4
3
3
3

x6
0,25
0,25
0,75
0,75
0,75
0,75
0,25
0,25
0,75
0,75
0,25
0,25
0,25
0,25
0,75
0,75
0,50
0,50
0,50

x7
0,5
2
0,5
2
2
0,5
2
0,5
2
0,5
2
0,5
0,5
2
0,5
2
1,25
1,25
1,25

El experimento cumple que la matriz de varianzas de los siete regresores es una matriz diagonal, es decir

Sxx

1 eT e
= (X X) =

355, 56
0
0
0
0
0
0

0
0
0
0
0
0
2
0
0
0
0
0
0 80, 22
0
0
0
0
0
0
125, 347
0
0
0
0
0
0
0, 889
0
0
0
0
0
0
0, 0556 0
0
0
0
0
0
0, 5

2o Examen Parcial

Dise
no de Experimentos y Regresion

21 de mayo de 2012

El modelo estimado es
ybi = 0, 6081 0, 0205x1 + 0, 1700x2 0, 0153x3 0, 0084x4 + 0, 4600x5 + 0, 5200x6 0, 1267x7 ,

con varianza residual sb2R = 0, 2086.

1. Realice los constrastes individuales e indique cuales de los siete regresores tienen un efecto significativo
( = 0, 05).
2. Realice el constraste general de regresion ( = 0, 05) y calcule el coeficiente de determinaci
on del
modelo.
3. Tras la diagnosis del modelo se considero la opcion de introducir como regresores los productos x1 x2 y
x1 x5 . El modelo resultante, u
nicamente con los regresores significativos, aparece en la tabla siguiente
(modelo B). Elija razonadamente entre el modelo inicial y el modelo B.
Una de las variables que pueden controlar los tecnicos en el proceso de separacion es x5 (sulfatante).
Explique el efecto conjunto de las variables x1 y x5 , teniendo en cuenta que x1 vara de 40 a 80 y x5
entre 2 y 4.
MODELO B
mod bergenB=lm(y x1 + x2 + x5 + x1 x2 + x1 x5 )

Call:
lm(formula = y ~ x1 + x2 + x5 + x1 * x2 + x1 * x5)
Residuals:
Min
1Q
-0.55684 -0.10684

Median
0.03316

3Q
0.10816

Max
0.62316

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.933158
0.926881 -3.165 0.007460 **
x1
0.035083
0.014664
2.392 0.032543 *
x2
0.640000
0.172971
3.700 0.002670 **
x5
1.180000
0.259457
4.548 0.000547 ***
x1:x2
-0.007833
0.002735 -2.864 0.013290 *
x1:x5
-0.012000
0.004102 -2.925 0.011823 *
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.3282 on 13 degrees of freedom
Multiple R-squared: 0.8643,
Adjusted R-squared: 0.8122
F-statistic: 16.56 on 5 and 13 DF, p-value: 3.086e-05

1
var 2 X T X

Y'

Y1 Y2
2

1
2
var ' ' X T X

var(Y X ) 2 I
Y Y
1
2I 2I 2I
var(Y ' X ) var 1 2 X var Y1 Y2 X

4
2
2
4

1
var ' var
2

0 Pommard (Referencia)
z1
1 Wadenswill

0 Allier (Referencia)
z2
1 Troncais

y 0 1 x1 2 x2 3 x3 1 z1 2 z2 u

0 , 1 , 2 , 3 , 1 , 2
2

y 0 1 x1 2 x2 3 x3 1 z1 2 z2 e

0 , 1 , 2 , 3 , 1 , 2

0
0 2

0 1
0 1 2

Segundo Examen Parcial de Diseo de Experimentos y Regresin

21 de mayo de 2012

Problema (45 minutos, 6 puntos)

1. Realice los constrastes individuales e indique cuales de los siete regresores tienen un efecto signicativo
( = 0; 05):
Para los contrastes individuales hay que comparar con el percentil 0,975 de la distribucin t con 11
(19-7-1) grados de libertad que es 2; 20
t1 = p

0;0205
0;2086(1=355;56 19)

t2 = p

0;17
0;2086(1=2 19)

t3 = p

0;0153
0;2086(1=80;22 19)

t4 = p

0;0084
0;2086(1=125;34 19)

t5 = p

0;46
0;2086(1=0;889 19)

t6 = p

0;52
0;2086(1=0;0556 19)

t7 = p

0;126
0;2086(1=0;5 19)

VE =VT

3; 689 *

= 2; 29 *
=

1; 3078

0; 897

= 4; 139 *
= 1; 17

V N E = 19

0; 855
s2y

11

sb2R = 19

2. Realice el constraste general de regresin (


modelo.

0;5432

11

0;2086 = 8; 03

= 0; 05) y calcule el coeciente de determinacin del

Contraste conjunto F = (V E=7)=b


s2R = 5; 4992 > F7;11 = 3; 01: Se rechaza H0 :
8;03
R2 = V E=V T =
= 0; 7781:
10;32
1
R2
7
= 5; 4992 =) R2 =
Otra posibilidad es a partir del contraste de la F, F =
1
2
(1 R )
19 7 1
F
= 0;7778:
11
+F
7
3. Mejor el modelo B. Diagnosis adecuada, R2 mayor y sb2R menor.
La interpretacin:

Examen Final

Diseo de Experimentos y Regresin

Cuestiones

8 de junio de 2012

(30 minutos, 4 puntos)

1. Para comparar las mediciones de la tensin arterial realizadas con dos aparatos, se decide tomar la
tensin a 10 enfermos con un aparato en cada brazo (se selecciona aleaoriamente el aparato que se pone
en cada brazo). Los resultados se presentan en la tabla siguiente. Proponga un modelo para contrastar
si existen diferencias entre las mediciones realizadas con los dos aparatos; obtenga la tabla ADEVA e
interprete los resultados ( = 0;05):

Enfermo
Enfermo
Enfermo
Enfermo
Enfermo
Enfermo
Enfermo
Enfermo
Enfermo
Enfermo
Medias

1
2
3
4
5
6
7
8
9
10

Aparato 1
12.46
9.39
10.39
10.53
12.21
11.60
9.35
11.95
8.91
12.07
10.89

Aparato 2
12.06
10.50
10.17
12.78
11.61
11.86
8.13
10.81
9.59
13.32
11.08

Medias
12.26
9.94
10.28
11.65
11.91
.
11.73
8.74
11.38
9.25
12.7
10.98

2 Para el modelo de diseo experimental con dos factores e interaccin, deduzca la expresin del intervalo
de conanza para la varianza del error experimental.

Examen Final

Diseo de Experimentos y Regresin

8 de junio de 2012

Problema (45 minutos, 6 puntos)


Se ha realizado un experimento para estudiar la inuencia sobre el rendimiento (Y ) de un proceso qumico,
de la Presin y Temperatura de trabajo. Se han tomado dos niveles (1 Atm y 2 Atm) para la presin y
dos tambin (300K y 400K) para la temperatura, realizndose tres replicaciones para cada combinacin de
factores. En tabla se muestran los resultados:

Temperatura

300 K
400 K

Presin
1 Atm
2 Atm
11.12 10.33 11.11 5.60 4.46 3.88
1.19 1.27 2.89
4.39 6.31 7.23

1. Inicialmente se consider como nico factor de anlisis la Temperatura. Estudie la inuencia de la


Temperatura sobre el rendimiento, sin incluir la Presin en el anlisis.
2. En un estudio posterior se decidi considerar conjuntamente los dos factores. Sabiendo que la variabilidad explicada por el factor Presin es 3.04, construya una nueva tabla de anlisis de la varianza,
indicando qu efectos son signicativos.
3. Construya el grco de interaccin entre Presin y Temperatura, utilcelo para interpretar los resultados del apartado 2. Existen condiciones experimentales ptimas que maximicen el rendimiento?
Nota. Utilice

= 0;05 en todos los contrastes.

Examen Final

Diseo de Experimentos y Regresin

Cuestiones

8 de junio de 2012

(30 minutos, 4 puntos)

1. Obtenga la varianza del estimador del coeciente de regresin simple


cada uno de los trminos de los que depende.

e interprtela en funcin de

2. Para estudiar el efecto de dos regresores x1 y x2 sobre una variable respuesta y, se han estimado tres
modelos diferentes de regresin que se representan en las Tablas 1 a 3.

Tabla 1: Modelo 1

Tabla 2: Modelo 2

Tabla 3: Modelo 3

Sabiendo que el coeciente de correlacin entre x1 y x2 es 0.954, elija el modelo ms adecuado justicando
la respuesta Se puede armar con un 95 % de conanza que los regresores x1 y x2 inuyen en la variable
respuesta?

Examen Final

Diseo de Experimentos y Regresin

8 de junio de 2012

Problema (45 minutos, 6 puntos)


Una empresa est estudiando la productividad de sus 16 empleados. Para ello analiza tres variables
cuantitativas X1 ; X2 ; X3 y si poseen o no Mster profesional (1= No mster, 2 =Mster), que se modela
a travs de dos variables z1 y z2 que identican a No Mster y Mster respectivamente. A partir de los
datos de productividad de todos los empleados para un ao se ha estimado el siguiente modelo de regresin
mltiple:

siendo

(X 0 X) 1

B
B
=B
B
@

ybi = 4;688 + 3;732x1i


2;31
0;75
0;75
0;375
0;75

0;75
0;5
0;25
0
0;5

0;229x2i + 3;751x3i + 5;562z2i ,

0;75
0;25
0;5
0
0;5

0;375
0
0
0;25
0

0;75
0:; 5
0;5
0
1

C
C
C ; y sbR = 1;9:
C
A

1) Realice los contrastes individuales indicando las variables que inuyen signicativamente en la productividad. Interprete el resultado explicando el signicado de cada parmetro. ( = 0; 05):
2) Sabiendo que el coeciente de determinacin es igual a 0;877, realice el contraste conjunto. ( = 0;05):
3) Si se escribe el modelo en la siguiente forma alternativa,
yi =

01 z1i

02 z2i

1 x1i

2 x2i

3 x3i

+ ui ,

donde 01 y 02 son las ordenadas en el origen para los dos niveles de la variable cualitativa, cul ser el
valor estimado de 01 y 02 ?:
Realice el contraste:

H0 :
H1 :

02
02

=0
6= 0

Examen Final

Diseo de Experimentos y Regresin


Cuestiones

8 de junio de 2012

(30 minutos, 4 puntos)

1. Para comparar las mediciones de la tensin arterial realizadas con dos aparatos, se decide tomar la
tensin a 10 enfermos con un aparato en cada brazo (se selecciona aleatoriamente el aparato que se
pone en cada brazo). Los resultados se presentan en la tabla siguiente. Proponga un modelo para
contrastar si existen diferencias entre las mediciones realizadas con los dos aparatos; obtenga la tabla
ADEVA e interprete los resultados ( = 0,05).

Enfermo
Enfermo
Enfermo
Enfermo
Enfermo
Enfermo
Enfermo
Enfermo
Enfermo
Enfermo
Medias

1
2
3
4
5
6
7
8
9
10

Aparato 1
12.46
9.39
10.39
10.53
12.21
11.60
9.35
11.95
8.91
12.07
10.89

Aparato 2
12.06
10.50
10.17
12.78
11.61
11.86
8.13
10.81
9.59
13.32
11.08

Medias
12.26
9.94
10.28
11.65
11.91
.
11.73
8.74
11.38
9.25
12.7
10.98

SOLUCIN:
Es un modelo en bloques aleatorizados. El factor es el aparato, con dos niveles (I=2) y el bloque los
enfermos, con 10 niveles (J=10)
La tabla ADEVA es

Se concluye que no existen diferencias significativas entre las mediciones realizadas con los dos aparatos.
S existen diferencias significativas entre los enfermos.
2. Para el modelo de diseo experimental con dos factores e interaccin, deduzca la expresin del intervalo
de confianza para la varianza del error experimental.
SOLUCIN:
En un modelo con dos factores e interaccin se verifica que:
V NE
2IJ(m1) ;
2

Examen Final

Diseo de Experimentos y Regresin

8 de junio de 2012

siendo I y J respectivamente los niveles de los dos factores y m el nmero de replicaciones.


Una expresin alternativa es
IJ(m 1)
s2R
2IJ(m1) .
2
Se puede deducir que la expresin del intervalo con confianza (1 ) % es:
V NE
2IJ(m1);/2

V NE

.
2IJ(m1);1/2

Examen Final

Diseo de Experimentos y Regresin

8 de junio de 2012

Problema (45 minutos, 6 puntos)


Se ha realizado un experimento para estudiar la influencia sobre el rendimiento (Y ) de un proceso qumico,
de la Presin y Temperatura de trabajo. Se han tomado dos niveles (1 Atm y 2 Atm) para la Presin y
dos tambin (300K y 400K) para la Temperatura, realizndose tres replicaciones para cada combinacin de
factores. En tabla se muestran los resultados:
1.
Temperatura

Presin
1 Atm
2 Atm
11.12 10.33 11.11 5.60 4.46 3.88
1.19 1.27
2.89 4.39 6.31 7.23

300 K
400 K

2. Inicialmente se consider como nico factor de anlisis la Temperatura. Estudie la influencia de la


Temperatura sobre el rendimiento, sin incluir la Presin en el anlisis.
3. En un estudio posterior se decidi considerar conjuntamente los dos factores. Sabiendo que la variabilidad explicada por el factor Presin es 3.04, construya una nueva tabla de anlisis de la varianza,
indicando qu efectos son significativos.
4. Construya el grfico de interaccin entre Presin y Temperatura, utilcelo para interpretar los resultados del apartado 2. Existen condiciones experimentales ptimas que maximicen el rendimiento?
Nota. Utilice =0.05 en todos los contrastes.
1. SOLUCIN:
2. Se puede hacer mediante un contraste de igualdad de media de dos distribuciones normales,
H0 : 1 = 2
H1 : 1 = 2
llamando y1 a la media de rendimientos a temperatura 300K e y2 a temperatura 400K , se tiene que
t=
siendo
s2R =

y1 y2
 t10
sR 26

6
2 


i=1 j=1

(yij yi )2

= 9,214
10
sustituyendo se tiene que t = 2,209 que es inferior a t10,0,025 = 2,23 por lo tanto no existen diferencias
significativas para = 0,05.
3. Modelo de dos factores con interaccin, la tabla de analisis de la varianza es
Fuente
Efectos Principales
Temperatura
Presion
Interaccin
TxP

SS

Df

Mean Square

F-Ratio

44.93
3.04

1
1

44.93
3.04

45.03**
3.05

81.12

81.12

81.30**

Residual
Total

7.98
137.07

8
11

0.997

Examen Final

Diseo de Experimentos y Regresin

8 de junio de 2012

Los valores de la F obtenidos en la tabla se comparan con F1,8,=0,05 = 5,32. El efecto principal de la
Temperatura es muy significativo, el efecto principal de la Presin no es significativo y la interaccin
es muy significativa.
4.

La interaccin es clarsima. Los intevalos de confianza muestra que a la presin de 2 Atm no existen
diferencias significativas entre las dos temperaturas. Sin embargo, a la presin de 1 Atm, el rendimiento
medio a 300K es muy superior que a 400K. Las condiciones ptimas son 1Atm y 300K. La amplitud
de los intervalos de confianza es


1
2 1
t8,=0,025 sR
= 2,31 0,998
= 1,31
3
3

Examen Final

Diseo de Experimentos y Regresin


Cuestiones

8 de junio de 2012

(30 minutos, 4 puntos)

1. Obtenga la varianza del estimador del coeficiente de regresin simple 1 e interprtela en funcin de
cada uno de los trminos de los que depende.
SOLUCIN: (ver libro de la asignatura)
1) =
var(

2
ns2X

La varianza del estimador depende de la varianza condicionada de la variable dependiente, del nmero
de observaciones y de la varianza muestral de la variable independiente. Cuanto mayor el nmero de
muestras y mayor dispersin del regresor ms precisa ser la estimacin.
2. Para estudiar el efecto de dos regresores x1 y x2 sobre una variable respuesta y, se han estimado tres
modelos diferentes de regresin que se representan en las Tablas 1 a 3.
Tabla 1: Modelo 1

Tabla 2: Modelo 2

Tabla 3: Modelo 3

Examen Final

Diseo de Experimentos y Regresin

8 de junio de 2012

Sabiendo que el coeficiente de correlacin entre x1 y x2 es 0.954, elija el modelo ms adecuado justificando
la respuesta Se puede afirmar con un 95 % de confianza que los regresores x1 y x2 influyen en la variable
respuesta?
SOLUCIN: R2 el coeficiente de determinacin no nos sirve para comparar estos tres modelos, porque
el modelo con ms regresores siempre tiene un coeficiente mayor. Para hacer una comparacin global de
2 , el coeficiente de determinacin corregido o ajustado, segn ste el
los modelos en este caso se utiliza R
mejor modelo es el 3.
En este caso es til realizar los tres modelos de regresin. Las dos variables muestran una relacin lineal
significativa con la variable respuesta, esto se observa en los modelos de regresin simple. En el modelo de
regresin mltiple los contrastes individuales indican que los coeficientes no son significativamente distintos
de cero, pero el contraste conjunto nos dice que al menos uno es dsitinto de cero. Dicho de otra forma: los
dos a la vez no son necesarios, basta con tener un regresor. Eso es debido a la alta correlacin entre los dos
regresores.
Si el modelo se quiere para hacer predicciones, el modelo 1 es vlido y el preferido en general.
Decidir si influyen o no los regresores y cmo influyen, depende de como se hayan tomado los datos y
del problema concreto. En este caso podemos afirmar que los dos regresores muestran una relacin lineal
significativa con la variable respuesta al 95 % de confianza.

Examen Final

Diseo de Experimentos y Regresin

8 de junio de 2012

Problema (45 minutos, 6 puntos)


Una empresa est estudiando la productividad de sus 16 empleados. Para ello analiza tres variables
cuantitativas X1 , X2 , X3 y si poseen o no Mster profesional (1= No mster, 2 =Mster), que se modela
a travs de dos variables z1 y z2 que identifican a No Mster y Mster respectivamente. A partir de los
datos de productividad de todos los empleados para un ao se ha estimado el siguiente modelo de regresin
mltiple:

siendo

(X  X)1

yi = 4.688 + 3.732x1i 0.229x2i + 3.751x3i + 5.562z2i ,

2.31 -0.75 -0.75 -0.375 0.75


-0.75
0.5 0.25
0 -0.5

-0.75 0.25
0.5
0 -0.5
; y sR =1.9.
-0.375
0
0
0.25
0
0.75 -0.5 -0.5
0
1

1. Realice los contrastes individuales indicando las variables que influyen significativamente en la productividad. Interprete el resultado explicando el significado de cada parmetro. (=0.05).
2. Sabiendo que el coeficiente de determinacin es igual a 0.877, realice el contraste conjunto. (=0.05).
3. Si se escribe el modelo en la siguiente forma alternativa,
yi = 01 z1i + 02 z2i + 1 x1i + 2 x2i + 3 x3i + ui ,
donde 01 y 02 son las ordenadas en el origen para los dos niveles de la variable cualitativa, cul
ser el valor estimado de 01 y 02 ?
Realice el contraste:

H0 : 02 = 0
.
H1 : 02 = 0

SOLUCIN:
1.
Los contrastes individuales son:


H0 : i = 0
=Si H0 es cierta, ti = i tnk1 . En este caso t1641
H1 : i = 0
sR qii
3, 73

t1 =
= 2, 77 > t11;0,025 = 2,2
1, 9 0, 5
0, 229

t2 =
= 0, 17
1, 9 0, 5
3, 75

t3 =
= 3, 94 > t11;0,025 = 2,2
1, 9 0, 25
5, 56
= 2, 92 > t11;0,025 = 2,2
t4 =
1, 9 1
Todos los regresores resultan significativos a excepcin de x2 .
Interpretacin de los parmetros :
 0 = 4,688 es la ordenada en el origen de los trabajadores que no poseen mster. Tal como est parame
trizado el modelo la referencia son los trabajadores que no poseen mster.
 1 = 3,732;a igualdad del resto de regresores, por cada unidad que aumenta x1 ,la productividad aumenta

en 3.732 unidades.

Examen Final

Diseo de Experimentos y Regresin

8 de junio de 2012

 2 = 0,17;a igualdad del resto de regresores, por cada unidad que aumenta x2 ,la productividad disminuye

en 0.17 unidades, aunque este regresor no ha resultado ser significativo.


 3 = 3,94;a igualdad del resto de regresores, por cada unidad que aumenta x3 ,la productividad aumenta

en 3.94 unidades.

 2 = 5,562;existe diferencia significativa entre la productividad de los trabajadores que poseen master y la
de los que no poseen master, manteniendo constante el resto de regresores. La productividad es 5.562
unidades superior en los trabajadores que poseen mster.
2. El coeficiente de determinacin R2 = 0,877. El contraste general de regresin es:

H0 : 1 = 2 = 3 = 2 = 0
H1 : alguno distinto de 0
VE
k
Si H0 es cierta,
Fk,nk1 . En trminos de R2 ,esta expresin es
V NE
nk1
R2 11
= 19, 60 > F4,11;0,05 = 3, 36. =Se rechaza H0 . Alguno o todos los regresores son
1 R2 4
significativos.
3. Comparando la parametrizacin del enunciado con la planteada en el apartado 3 se concluye que:
F =

01 = 4, 688, es la estimacin de la ordenada en el origen de los trabajadores que no poseen mster

02 = 4, 688 + 5, 562 = 10, 25, la ordenada en el origen de los trabajadores que poseen mster.

El contraste que piden es

H0 : 02 = 0
H1 : 02 = 0

02 =
01 +
 2 , se verifica que
Como

 02 ) = var(
 01 +
01 ) + var(
01 ,
var(
 2 ) = var(
2 ) + 2cov(
 2 ) = 2 (2, 31 + 1 + 2 0, 75) = 4, 812 .
Por lo tanto, si H0 es cierta,



10, 24

t =  02
t11 = t = 02
=
= 2, 45 > t11;0,025 = 2,2, se rechaza H0
s

4,
81
1,
9 4, 81
R

v
ar( 02 )

Examen Final

Diseo de Experimentos y Regresin


Cuestiones

6 de julio de 2012

(45 minutos, 5 puntos)

1. Cuando un lenguaje de alto nivel es compilado, el tiempo de ejecucin depende del compilador. Un
ingeniero de software desea comparar tres compiladores (A, B y C), para ello ha seleccionado 5 programas muy distintos, cada uno de los cuales ha sido compilado por los tres compiladores. Los tiempos
de CPU resultantes han sido:
A
B
C
Medias

1
122.9
113.8
131.2
122.7

2
147.4
135.1
152.8
145.1

3
189.6
173.8
192.7
185.3

4
200.9
199.3
219.8
206.7

5
307.3
296.6
318.9
307.6

Medias
193.6
183.7
203.1

La variabilidad total es 62899.2 y su descomposicin es 937.2 (Variabilidad Explicada por Compilador),


61868.9 (Variabilidad Explicada por el Programa) y 93.2 (Variabilidad no Explicada).
Indica qu compilador es el ms rpido, justificando la respuesta. Da un intervalo de confianza (95 %)
para la diferencia de las medias entre los dos compiladores ms rpidos.
2. En un modelo de regresin mltiple, explica paso a paso como se obtiene la frmula de la covarianza
i y
j para i =
entre dos estimadores
 j. Indica en cada paso qu hiptesis bsica del modelo ests
utilizando.
3. Para determinar el valor de un cierto parmetro nuclear se han realizado 8 experimentos, el valor
medio de las medidas ha sido 3.567 con una desviacin tpica corregida igual a 0.2886. El valor medio
se corresponde de forma aceptable con el valor esperado, pero la desviacin tpica obtenida se considera
excesiva. En una revista cientfica los resultados que proporcionan los autores y que obtuvieron con 10
experimentos son de una media igual a 3.44 y una desviacin tpica corregida igual a 0.1888. Aceptando
normalidad, proporciona un intervalo de confianza para el cociente de las dos varianzas, con = 0,05.
Explica, justificando la respuesta, cmo se obtienen los dos valores necesarios de la tabla de la F.

Examen Final

Diseo de Experimentos y Regresin

6 de julio de 2012

Problema (45 minutos, 5 puntos)


Staphylococcus Aureus (SA) es una bacteria resistente a la penicilina y sensible nicamente a un antibitico denominado vancomicina. Para determinar si un paciente est infectado con dicha bacteria es
preciso realizar un cultivo de una muestra sangunea en el laboratorio en un gel con tryptone. El protocolo
actual recomienda que el cultivo se realice a 35 grados centgrados con una concentracin de tryptone del
1 %. Si la bacteria est presente aparece en el cultivo y es fcilmente detectable a simple vista. Se ha realizado un experimento para establecer la temperatura y concentracin de tryptone ptimos para el crecimiento
de la bacteria. En la tabla se muestra el resultado de un experimento factorial replicado, donde se incluye
la temperatura de incubacin, 27, 35 y 43 grados centgrados, y la concentracin de Tryptone 0.6, 0.8, 1.0,
1.2 y 1.4 ( % en peso), la variable respuesta (Recuento) es el nmero de colonias de bacterias observadas en
cada cultivo (por ejemplo, un valor de 62 significa 62 millones de colonias por mililitro)

Temp

27o
35o
43o

33
62
77

0.6
72
113
76

Concentracin
0.8
1.0
1.2
32 131 28 179 59 221
54 151 98 147 176 211
81 125 117 127 146 201

1.4
43 195
119 162
101 184

Se ha analizado el experimento como un diseo de dos factores con interaccin obtenindose la siguiente
tabla de anlisis de varianza

1. Teniendo en cuenta el p-valor de la interaccin, se decide eliminar este trmino de la tabla de la anlisis
de la varianza. Construye la nueva tabla de la varianza de dos factores sin interaccin e indica si con el
nuevo modelo los efectos principales de TEMP y CONC son significativos (utiliza = 0,05). Explica
a qu se debe la diferencia de los resultados obtenidos.
2. La correlacin entre Recuento y Concentracin es igual a 0.495. Estima el modelo de regresin simple
entre la variable respuesta Recuento y la variable independiente Concentracin. Contrasta si existe
relacin lineal significativa entre las dos variables (utiliza = 0,05 y ten en cuenta que la media
aritmtica de los 30 valores de la variable respuesta es 117.33 millones de colonias por mililitro)
3. Escribe de manera especfica, utilizando los datos del problema, el vector Y y la matriz X correspondientes al modelo de regresin mltiple
RECUENT Oi = 0 + 1 T EM Pi + 2 CONCi + ui
Explica, justificando la respuesta, si en este modelo y con estos datos se pueden dar problemas de
multicolinealidad.

Examen Final

Diseo de Experimentos y Regresin


Cuestiones

6 de julio de 2012

(45 minutos, 5 puntos)

1. Cuando un lenguaje de alto nivel es compilado, el tiempo de ejecucin depende del compilador. Un
ingeniero de software desea comparar tres compiladores (A, B y C), para ello ha seleccionado 5 programas muy distintos, cada uno de los cuales ha sido compilado por los tres compiladores. Los tiempos
de CPU resultantes han sido:
A
B
C
Medias

1
122.9
113.8
131.2
122.7

2
147.4
135.1
152.8
145.1

3
189.6
173.8
192.7
185.3

4
200.9
199.3
219.8
206.7

5
307.3
296.6
318.9
307.6

Medias
193.6
183.7
203.1

La variabilidad total es 62899.2 y su descomposicin es 937.2 (Variabilidad Explicada por Compilador),


61868.9 (Variabilidad Explicada por el Programa) y 93.2 (Variabilidad no Explicada).
Indica qu compilador es el ms rpido, justificando la respuesta. Da un intervalo de confianza (95 %)
para la diferencia de las medias entre los dos compiladores ms rpidos.
SOLUCIN:
La tabla de Anlisis de la Varianza
F. V.
G.L.
VE(compilador) 937.2
2
VE(programa)
61868.9 4
VNE
93.2
8
VT
62899.2 14

es:
Var. o CM
468.6
15467.23
11.65

Contraste F
40.22
1327.66

Significativo >F2,8,=0,05
Significativo >F4,8,=0,05

Existen diferenciassignificativas entre los Compiladores. Para saber cules son los mas rpidos es
necesario realizar los contrastes dos a dos:




H0: i = j
.Se rechaza H0 si |yi. yj. | > t8;0,025 sR 15 + 51 = 2,306 11,65 15 + 15 = 4,98.
H0: i = j
Todos los compiladores son significativamente distintos entre si. Los dos mas rpidos son el compilador
A y el B
El intervalo de confianza es:
A B 9,5 4,98 = [4,52; 14,48] con una confianza del 95 %.
2. En un modelo de regresin mltiple, explica paso a paso como se obtiene la frmula de la covarianza
i y
j para i =
entre dos estimadores
 j. Indica en cada paso qu hiptesis bsica del modelo ests
utilizando.
SOLUCIN:
Ver transparencia 36 del captulo no 3: Regresin Lineal. de la coleccin de transparencias de la
asignatura.
3. Para determinar el valor de un cierto parmetro nuclear se han realizado 8 experimentos, el valor
medio de las medidas ha sido 3.567 con una desviacin tpica corregida igual a 0.2886. El valor medio
se corresponde de forma aceptable con el valor esperado, pero la desviacin tpica obtenida se considera
excesiva. En una revista cientfica los resultados que proporcionan los autores y que obtuvieron con 10
experimentos son de una media igual a 3.44 y una desviacin tpica corregida igual a 0.1888. Aceptando
normalidad, proporciona un intervalo de confianza para el cociente de las dos varianzas, con = 0,05.
Explica, justificando la respuesta, cmo se obtienen los dos valores necesarios de la tabla de la F.

Examen Final

Diseo de Experimentos y Regresin

6 de julio de 2012

SOLUCIN:
Los datos indican: n1 = 8, x1 = 3,567, s1 = 0,2886 y n2 = 10, x2 = 3,44, s2 = 0,1888.
s1 2
(n1 1)s1 2
s2 2
(n1 1)21
21
22
s2 2
Se verifica

F
=

F
=
F

7,9
a
b
(n
1),(n
1)
1
2
21
(n2 1)s2 2
s2 2
s1 2
s1 2
(n2 1)22
22
Siendo Fa = F7,9;0,975 y Fb = F7,9;0,025 .
El valor Fb = F7,9;0,025 = 4,20 se obtiene directamente de las tablas
1
1
= 0,2075.
=
El valor Fa = F7,9;0,975 =
F9,7;0,025
4,82
Sustituyendo en la expresin del intervalo:
22
0,18882
22
0,18882
0,2075

=
[0,09

4,20

1,8228] con confianza 95 %.


0,28862
0,28862
21
21

Examen Final

Diseo de Experimentos y Regresin

6 de julio de 2012

Problema (45 minutos, 5 puntos)


Staphylococcus Aureus (SA) es una bacteria resistente a la penicilina y sensible nicamente a un antibitico denominado vancomicina. Para determinar si un paciente est infectado con dicha bacteria es
preciso realizar un cultivo de una muestra sangunea en el laboratorio en un gel con tryptone. El protocolo
actual recomienda que el cultivo se realice a 35 grados centgrados con una concentracin de tryptone del
1 %. Si la bacteria est presente aparece en el cultivo y es fcilmente detectable a simple vista. Se ha realizado un experimento para establecer la temperatura y concentracin de tryptone ptimos para el crecimiento
de la bacteria. En la tabla se muestra el resultado de un experimento factorial replicado, donde se incluye
la temperatura de incubacin, 27, 35 y 43 grados centgrados, y la concentracin de Tryptone 0.6, 0.8, 1.0,
1.2 y 1.4 ( % en peso), la variable respuesta (Recuento) es el nmero de colonias de bacterias observadas en
cada cultivo (por ejemplo, un valor de 62 significa 62 millones de colonias por mililitro)

27o
Temp

35o
43o

0.6
33 72
62 113
77 76

0.8
32 131
54 151
81 125

Concentracin
1.0
1.2
28 179 59 221
98 147 176 211
117 127 146 201

1.4
43 195
119 162
101 184

Se ha analizado el experimento como un diseo de dos factores con interaccin obtenindose la siguiente
tabla de anlisis de varianza

1. Teniendo en cuenta el p-valor de la interaccin, se decide eliminar este trmino de la tabla de la anlisis
de la varianza. Construye la nueva tabla de la varianza de dos factores sin interaccin e indica si con el
nuevo modelo los efectos principales de TEMP y CONC son significativos (utiliza = 0,05). Explica
a qu se debe la diferencia de los resultados obtenidos.
SOLUCIN: La nueva tabla de la varianza se obtiene sumando los variabilidades correspondientes
a la interaccin y reisiduos del modelo del enunciado, de manera que la VNE y sus grados de libertad
se obtienen como
V NE = 883 + 56553 = 57436
gl = 8 + 15 = 23
Los dems trminos de la tabla no se modifican, de manera que la tabla final es:
FUENTE
TEMP
CONC
RESIDUAL

VARIAB
5100
32794
57436

GL
2
4
23

VARIANZAS
2550.2
8198.6
2497.2

F
1.021
3.283

Slo es significativo el efecto de la CONCENTRACIN, pues el lmite para = 0,05 es F4,23 = 2,8 <
3,283

Examen Final

Diseo de Experimentos y Regresin

6 de julio de 2012

La diferencia se debe a que la varianza residual se reduce considerablemente al aumentar los grados
de libertad de los residuos, lo que aumenta los estadsticos F y disminuyen los lmites de aceptacin
que se obtienen de las tablas.
2. La correlacin entre Recuento y Concentracin es igual a 0.495. Estima el modelo de regresin simple
entre la variable respuesta Recuento y la variable independiente Concentracin. Contrasta si existe
relacin lineal significativa entre las dos variables (utiliza = 0,05 y ten en cuenta que la media
aritmtica de los 30 valores de la variable respuesta es 117.33 millones de colonias por mililitro)
SOLUCIN:
Teniendo en cuenta que la variabilidad total es V T = 5100 + 32794 + 57436 = 95330, la varianza de
la variable respuesta s2y se obtiene de la siguiente forma
s2y =

95330
= 3177,6
30

y la varianza del regresor s2x


s2x =

6 (0,6 1)2 + 6 (0,8 1)2 + 6 (1 1)2 + 6 (1,2 1)2 + 6 (1,4 1)2


= 0,08
30

Utilizando lo anterior y el coeficiente de correlacin, se puede obtener el estimador de la pendiente



s
s
3177,6
xy
y
=

= r = 0,495
= 98,65
1
s2x
sx
0,08
y la ordenada en el origen
0 = y
1x

= 117,33 98,65 1 = 18,67


La variabilidad no explicada, VNE, de regresin simple se obtiene como
V E = 0,4952 95330 = 23358
V NE = V T V E = 95330 23358 = 71972
y la varianza residual
s2R =
El contraste de la t es por tanto
t=

71972
= 2570
28

= 3,014
sR /( nsx )

que es significativo para = 0,05, pues t0,25;28 = 2,05.


3. Escribe de manera especfica, utilizando los datos del problema, el vector Y y la matriz X correspondientes al modelo de regresin mltiple
RECUENT Oi = 0 + 1 T EM Pi + 2 CONCi + ui
Explica, justificando la respuesta, si en este modelo y con estos datos se pueden dar problemas de
multicolinealidad.
SOLUCIN:

Y = X + U, siendo cada trmino

Examen Final

33
72
32
131
28
179
59
221
43
195
62
113
54
151
98
147
176
211
119
162
77
76
81
125
117
127
146
201
101
184

Diseo de Experimentos y Regresin

1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

27
27
27
27
27
27
27
27
27
27
35
35
35
35
35
35
35
35
35
35
43
43
43
43
43
43
43
43
43
43

0,6
0,6
0,8
0,8
1,0
1,0
1,2
1,2
1,4
1,4
0,6
0,6
0,8
0,8
1,0
1,0
1,2
1,2
1,4
1,4
0,6
0,6
0,8
0,8
1,0
1,0
1,2
1,2
1,4
1,4

1 +

u1
u2
u3
u4
u5
u6
u7
u8
u9
u10
u11
u12
u13
u14
u15
u16
u17
u18
u19
u20
u21
u22
u23
u24
u25
u26
u27
u28
u29
u30

6 de julio de 2012

Examen de Diseo y Regresin, GITI y GIQ

4 de abril de 2013

Cuestiones (30 minutos, 4 puntos)


1.) El estudio de la observabilidad de un sistema elctrico es un paso previo a la estimacin de su
estado, y resulta crucial para cualquier Centro de Control de un sistema elctrico, con el fin de garantizar
la seguridad del sistema.
Unos investigadores del Laboratorio de Estadstica de la ETSII-UPM han desarrollado un nuevo mtodo
(alternativo al que tradicionalmente se ha utilizado) para estudiar la observabilidad.
Han realizado pruebas para determinar si el nuevo mtodo es computacionalmente ms rpido que el
tradicional. Para ello han usado un sistema elctrico tipo, que se suele utilizar para probar este tipo de
metodologas. En este sistema tipo han aplicado ambos Mtodos (Tradicional y Nuevo) en 100 situaciones
distintas para el sistema elctrico (denominadas Escenarios), obteniendo un valor para la variable dependiente CPU-Time (en segundos) para cada combinacin de Mtodo y Escenario.
Indique qu modelo de anlisis resulta adecuado para este propsito razonando la respuesta, as como
la ecuacin de dicho modelo y las hiptesis que se asumen.
Complete la tabla ADEVA que se muestra a continuacin e indique si existen diferencias significativas
entre los mtodos. Existen diferencias significativas entre los escenarios considerados?
F.V
Mtodo
Escenario
Residual
Total

Sum. cuadrados
7,79426108

G.l.

Var

99

163761,0

8,119108

Sabiendo que las medias de los CPU Time correspondientes al nuevo (N) mtodo y el tradicional (T)
son respectivamente y N = 817, 58 e yT = 4765, 51, construya los intervalos de confianza para la media
de cada mtodo e indique cul es el mejor.
2.) Un estadstico, preocupado por el diferente resultado que le dan cuatro tipos de pilas diferentes,
decide realizar un experimento para comparar la duracin por unidad de coste (DUC, medidas en minutos
por dlar) de esas pilas.
Para ello compra cuatro pilas de cada tipo (de diferentes lotes), las ordena de modo aleatorio y mide
el tiempo durante el cual suministran corriente elctrica a un aparato. Los tipos de pila se denominan
respectivamente tipos 1, 2, 3 y 4.
A continuacin se muestran la tabla ADEVA y los resultados de las comparaciones dos a dos correspondientes a la estimacin del modelo con un factor.
a) Interprete los resultados ( = 0,01).

Figura 1. Tabla ADEVA

Examen de Diseo y Regresin, GITI y GIQ

4 de abril de 2013

Figura 2. Comparaciones dos a dos


b) A la vista de los grficos que se muestran a continuacin realice la diagnosis del modelo, indicando
claramente si se cumplen las hiptesis del modelo. Si se diera este ltimo caso, proponga una solucin posible
para ello.

Figura 3. Diagnosis del modelo.

Examen de Diseo y Regresin, GITI y GIQ

4 de abril de 2013

Problema (45 minutos, 6 puntos)


Un alumno de la Universidad de Arizona ha realizado un experimento factorial para medir la resistencia
a la traccin (psi) del asfalto. Los asfaltos utilizan habitualmente dos tipos de ridos: baslticos o silceos.
En un primer momento ha utilizado un asfalto con rido basltico y ha considerado cuatro mtodos de
compactacin (esttico, velocidad regular, velocidad baja y velocidad muy baja). Con cada uno de ellos ha
repetido el experimento 3 veces. En la Tabla 1 se muestran la media y la varianza (corregida) para los tres
datos de cada tratamiento:

y i
s2i

Esttica
65,3
6,33

Compactacin
V. reg V. baja V. muy baja
129,0
97,3
57,3
13,0
16,33
2,33

Tabla 1: Medias y varianzas corregidas de los tratamientos con asfalto basltico


1. Contraste si el tipo de compactacin influye significativamente en la resistencia a la traccin e indique,
en caso afirmativo, el mtodo de compactacin que proporciona una mayor resistencia a la traccin
( = 0, 05).
2. Se ha realizado un experimento similar al anterior (cuatro mtodos de compactacin, tres replicaciones)
pero utilizando asfalto silceo. En el anlisis se han obtenido los siguientes resultados:

y i
s2i

Esttica
67,7
8,33

Compactacin
V. reg V. baja V. muy baja
111,0
60,7
41,7
21,0
4,33
4,33

Tabla 2: Medias y varianzas de los tratamientos con asfalto silceo


La tabla ADEVA para los datos correspondientes al asfalto silceo es:

Tabla 3: Anlisis de la varianza con asfalto silceo

a) Indique qu metodos de compactacin producen resistencias a la traccin significativamente distintas


en el asfalto silceo.
b) Contraste si las varianzas experimentales de los modelos correspondientes a los asfaltos baslticos
(apartado 1) y silceos (apartado 2) son iguales ( = 0, 05).
3. Se decide combinar la informacin recogida en los dos experimentos, los detallados en los apartados 1
y 2 respectivamente. Con esta informacin contraste si existe interaccin significativa entre los factores
tipo de rido y compactacin, dibuje el grfico de la interaccin e interprtela. Indique qu combinacin
de factores es la ms adecuada para conseguir la mxima resistencia a la traccin ( = 0, 05).

Examen de Diseo y Regresin, GITI y GIQ

4 de abril de 2013

Cuestiones (30 minutos, 4 puntos)


1.) El estudio de la observabilidad de un sistema elctrico es un paso previo a la estimacin de su
estado, y resulta crucial para cualquier Centro de Control de un sistema elctrico, con el fin de garantizar
la seguridad del sistema.
Unos investigadores del Laboratorio de Estadstica de la ETSII-UPM han desarrollado un nuevo mtodo
(alternativo al que tradicionalmente se ha utilizado) para estudiar la observabilidad.
Han realizado pruebas para determinar si el nuevo mtodo es computacionalmente ms rpido que el
tradicional. Para ello han usado un sistema elctrico tipo, que se suele utilizar para probar este tipo de
metodologas. En este sistema tipo han aplicado ambos Mtodos (Tradicional y Nuevo) en 100 situaciones
distintas para el sistema elctrico (denominadas Escenarios), obteniendo un valor para la variable dependiente CPU-Time para cada combinacin de Mtodo y Escenario.
Indique qu modelo de anlisis resulta adecuado para este propsito razonando la respuesta, as como
la ecuacin de dicho modelo y las hiptesis que se asumen.
Modelo en Bloques Aleatorizados: yij = + i + j + uij . No hay rplicas de cada "tratamiento".
Slo se quiere determinar qu Mtodo es mejor, el bloque Escenario se incluye slo por si explica una
porcin importante de la Variabilidad Total del CPU-Time.
Se asume: Normalidad, homocedasticidad e independencia.
Complete la tabla ADEVA que se muestra a continuacin e indique si existen diferencias significativas
entre los mtodos. Existen diferencias significativas entre los escenarios considerados?
F.V
Mtodo
Escenario
Residual
Total

Sum. cuadrados
7.79426108
16212339
16261661
8.119108

G.l.
2-1=1
99
(I-1)(J-1)=199
199

Var
7.7942610 8
163761.0
1.642610 5

F
= 4745.1
= 0.997

7.7942610 8
1.642610 5
163761
1.642610 5

Sabiendo que las medias de los CPU Time correspondientes al nuevo (N) mtodo y el tradicional (T)
son respectivamente y N = 817,58 e yT = 4765,51, construya los intervalos de confianza para la media
de cada mtodo e indique cul es el mejor.

1
+ N y N sR t(I1)(J1); 2 1J + N 817,58 1.642610 5 t99; 2 100
+ N 817,58

405,291,96

;
100
+ N

(738,1432; 897.0168)

+ T y T sR t(I1)(J1); 2 1J + N (4686,1; 4844,9)


2.) Un estadstico, preocupado por el diferente resultado que le dan cuatro tipos de pilas diferentes,
decide realizar un experimento para comparar la duracin por unidad de coste (DUC, medidas en minutos
por dlar) de esas pilas.
Para ello compra cuatro pilas de cada tipo (de diferentes lotes), las ordena de modo aleatorio y mide
el tiempo durante el cual suministran corriente elctrica a un aparato. Los tipos de pila se denominan
respectivamente tipos 1, 2, 3 y 4.
A continuacin se muestran la tabla ADEVA y los resultados de las comparaciones dos a dos correspondientes a la estimacin del modelo con un factor.
a) Interprete los resultados. ( = 0,01).

Examen de Diseo y Regresin, GITI y GIQ

4 de abril de 2013

Figura 1. Tabla ADEVA


De la Tabla ANOVA se tiene que hay diferencias significativas entre los 4 tipos de pilas.

Figura 2. Comparaciones dos a dos


Con = 0,01 existen diferencias significativas entre A y B, entre A y C pero no existen diferencias
significativas entre A y D (s las habra para = 0,1).
Tambin existen diferencias significativas entre By C y B y D, pero no entre C y D (s las habra para
= 0,1).
b) A la vista de los grficos que se muestran a continuacin realice la diagnosis del modelo, indicando
claramente si se cumplen las hiptesis del modelo y si se cumplen o no. Si se diera este ltimo caso, propn
una solucin posible para ello.

Examen de Diseo y Regresin, GITI y GIQ

4 de abril de 2013

Figura 3. Diagnosis del modelo.


HOMOCEDASTICIDAD: Grfico de residuos frente a valores previstos: no se observa forma de "trompeta", no hay heterocedasticidad. Adems, en el grfico de residuos frente a nivel del factor se ha de comprobar
que el cociente entre el rango de los residuos para el nivel de factor en que ste sea mximo (pilas tipo A en
este caso) y el caso en que este sea mnimo (pilas tipo D en este caso) no sea superior a 3 (aprox).
NORMALIDAD: Q-Q plot, o contraste de la Chi-cuadrado o el de Kolmogorov. Aunque el tamao de
muestra no es grande en este caso podemos considerar aceptable lo que observamos, aunque para mayor
seguridad al respecto habra que pasar uno de los contrastes mencionados.
INDEPENDENCIA: Se ha de suponer que el experimento se ha llevado a cabo en las condiciones de
aleatorizacin adecuadas.

Examen de Diseo y Regresin, GITI y GIQ

4 de abril de 2013

SOLUCIN PROBLEMA
1.- Se obtiene la siguiente tabla ADEVA:

VE
VNE
VT

S.C.
9668.67
76
9744,67

G.L.
3
8
11

Var.
3222,89
9,5

donde se han calculado

VE =

4 
3

(y i y )2 = 9668, 67

i=1 j=1

s2R =

Contraste
339,25

4

(ni 1)
s2i
i=1

n4

= 9, 5.

Como F0 = 339, 25 > F3,8;0,05 = 4, 07 =Se rechaza H0 =El mtodo de compactacin influye significativamente en la resistencia la traccin.
Para determinar qu mtodo proporciona una mayor resistencia se realizan los contrastes mltiples:

H0 : i = j
.
H1 : i = j




Se rechaza H0 si y i yj  > t8;/2 sR 13 + 31 = 2, 30 3, 08 23 = 5, 78.
De los contrastes realizados se conclyuye que todas las diferencias son estadsticamente significativas, las
medias son distintas. Por tanto la mayor resistencia a la traccin se produce con velocidad.
2. De la tabla ADEVA se obtiene
s2R = 9, 5 con 8 grados de libertad

H0 : i = j
a) Se realizan los contrastes
.
H1 : i = j




Se rechaza H0 si y i yj  > t8;/2 sR 13 + 31 = 2, 30 3, 08 23 = 5, 78.
Todos los mtodos de compactacin son distirntos.
b) Se realiza el contraste

H0 : 2B = 2S
.
H1 : 2B = 2S

Del primer apartado se obtiene la varianza residual del experimento con rido basltico: s2RB = 9, 5
De la tabla ADEVA del segundo apartado se obtiene la varianza residual del expeirmento con rido
silceo: s2RS = 9, 5
Si H0 es cierta

8 s2RB
 F8,8.
8 s2RS

Es un contraste bilateral. Como


rechazar H0 .

8 s2RB
= 1 [F8,8;0,975 ; F8,8;0,025 ] = [0, 22; 4, 43] = No se puede
8 s2RS

Examen de Diseo y Regresin, GITI y GIQ

4 de abril de 2013

3. Combinando ambos experimentos se obtiene un experimento con dos factores e interaccin: Factor
A: tipo de rido ( 2 niveles); Factor B: tipo de compactacin ( 4 niveles) y 3 replicaciones.
La tabla de medias resultante es

Basltico
Silceo
y j

Compactacin
V. reg V. baja V. muy baja
129,0
97,3
57,3
111,0
60,7
41,7
120
79
49,5

Esttica
65,3
67,7
66,5

y i
87,3
70,3
y = 78, 8

4 
3
2 

(y ij y i y j + y )2 = 1145.
Con los datos de la tabla se calcula V E(A B) =
i=1 j=1 k=1

Con grados de libertad (I 1) (J 1) = 3


La varianza residual del experimento con dos factores y replicacin es:
8 s2RB + 8 s2RS
= 9, 5. Siendo los grados de libertad I J (m 1) = 2 4 (3 1) = 16
s2R =
16
El contraste para determinar la existencia de interaccin es:
V E(AB)/3
= 40, 175 > F3,16;0,05 = 3, 24. = Se rechaza H0 = La interaccin es significativa.
s2R

El grfico es

Grfico de Interaccin
Resistencia

141

rido
Basltico
Silceo

121
101
81
61
41
1

compactacion

La mayor resistencia se produce con rido Basltico-Compactacin 2 ( v. regular), que es significastiva2 ( v. regular)
como se comprueba al hacer el contraste:.
mente distinta de rido Silceo-Compactacin


|y BR ySR | > t16;/2 sR

1
3

1
3

= 2, 12 3, 08

2
3

= 5, 33. = 129 111 > 5, 33.

> mod_simple <- lm( Precio ~ RAM)


Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
92.51
46.67
1.982
0.0674
RAM
98.11
41.23
2.379
0.0321
--Residual standard error: 87.47 on 14 degrees of freedom
Multiple R-squared: 0.2879,
Adjusted R-squared: 0.2371
F-statistic: 5.661 on 1 and 14 DF, p-value: 0.03211

> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G)


Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
53.664
47.676
1.126
0.284
RAM
72.184
10.582
6.822 2.87e-05
DiscoDuro
10.496
1.151
9.120 1.84e-06
Pantalla
-3.264
5.953 -0.548
0.594
Z3G
117.888
13.609
8.663 3.04e-06
-

Residual standard error: 22.12 on 11 degrees of freedom


Multiple R-squared: 0.9642,
Adjusted R-squared: 0.951
F-statistic: 74.12 on 4 and 11 DF, p-value: 6.986e-08

> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G + X5 + X6 + X7)


(Resto de salida de R eliminada intencionadamente)
Residual standard error: 22.01 on 8 degrees of freedom
Multiple R-squared: 0.9742,
Adjusted R-squared: 0.951
F-statistic: 43.23 on 7 and 8 DF, p-value: 9.798e-06

Segundo Examen Parcial - Dise


no y Regresion

20 de mayo 2013

Problema
(45 minutos, 6 puntos)
En el departamento de I + D + i de una empresa se esta investigando la influencia de dos variables
cuantitativas (X1 , X2 ) sobre la resistencia de un material (Y ). Se han realizado 30 ensayos en un laboratorio.
Los resultados se resumen como sigue:
[
1 =
Sxx

0,8664 0,0146
0,0146
1,1160

]
;

Sxy = [3,48

9,5973]T

sbR = 2,32

sby = 10,83

1. Estimar el modelo (en desviaciones a la media) y realizar los contrastes individuales (excluyendo el
del termino independiente) y el contraste conjunto. Interpretar los resultados.
2. Con las mismas variables cuantitativas del apartado anterior, se han a
nadido 60 ensayos de otros dos
laboratorios (30 de cada laboratorio), de forma que resultan en total 90 datos. Se a
nade al modelo la
variable cualitativa correspondiente. Los resultados son los siguientes:
ybi = 1, 18 + 2, 49x1i + 10, 83x2i + 2, 11z2i 1, 01z3i

(X X)1

0,0340 0,0012 0,0026 0,0345 0,0339


0,0012
0,0103
0,0002
0,0029
0,0010

0,0026
0,0002
0,0129
0,0042
0,0024

0,0345
0,0029
0,0042
0,0688
0,0344
0,0339
0,0010
0,0024
0,0344
0,0672

sbR = 2, 46

sby = 10, 77;

Interpretar los coeficientes de regresion. Realizar los contrastes individuales y el contraste conjunto e
interpretar los resultados, comparandolos con los del apartado 1.
3. Es significativa la diferencia entre el promedio de la respuesta para los laboratorios 2 y 3?
Nota: Utilizar = 0, 05 en todos los contrastes.

> mod_simple <- lm( Precio ~ RAM)


Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
92.51
46.67
1.982
0.0674
RAM
98.11
41.23
2.379
0.0321
--Residual standard error: 87.47 on 14 degrees of freedom
Multiple R-squared: 0.2879,
Adjusted R-squared: 0.2371
F-statistic: 5.661 on 1 and 14 DF, p-value: 0.03211

> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G)


Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
53.664
47.676
1.126
0.284
RAM
72.184
10.582
6.822 2.87e-05
DiscoDuro
10.496
1.151
9.120 1.84e-06
Pantalla
-3.264
5.953 -0.548
0.594
Z3G
117.888
13.609
8.663 3.04e-06
-

Residual standard error: 22.12 on 11 degrees of freedom


Multiple R-squared: 0.9642,
Adjusted R-squared: 0.951
F-statistic: 74.12 on 4 and 11 DF, p-value: 6.986e-08

( )

> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G + X5 + X6 + X7)


(Resto de salida de R eliminada intencionadamente)
Residual standard error: 22.01 on 8 degrees of freedom
Multiple R-squared: 0.9742,
Adjusted R-squared: 0.951
F-statistic: 43.23 on 7 and 8 DF, p-value: 9.798e-06

)
(

)
(

Segundo Examen Parcial - Dise


no y Regresion

20 de mayo 2013

SOLUCION

Nota: Cada uno de los tres apartados punt


ua lo mismo, es decir 2 puntos sobre los 6 puntos del Problema.
Apartado 1)
b = S 1 Sxy = [2,8801 10,6597]

xx
b = 2, 88 = estimacion del incremento promedio de la resistencia cuando X1 se incrementa en una

1
unidad, y X2 no vara.
b = 10, 65 = estimacion del incremento promedio de la resistencia cuando X2 se incrementa en una

2
unidad, y X1 no vara.
Contraste conjunto:
V N E = (30 2 1) 2,322 = 145, 32
V E = 29 10, 832 145, 32 = 3256, 1
F = (3256, 1/2)/2,322 = 302, 47 > F2,27 (0, 95) = 3, 35
La informacion conjunta (sin desagregar en la contribucion de cada uno) proporcionada por (X1 , X2 )
es relevante para explicar/predecir la resistencia Y
Contrastes individuales:

t1 = 3,486/(2, 32 0, 8664/30) = 7, 3 > t27 (0, 975) = 2, 05


La informacion que proporciona X1 adicional a la proporcionada por X2 es relevante para explicar/predecir la resistencia Y

t2 = 9, 59/(2, 32 1, 11/30) = 23,82 > t27 (0, 975) = 2, 05


La informacion que proporciona X2 adicional a la proporcionada por X1 es relevante para explicar/predecir la resistencia Y
Apartado 2)
b = 2, 49 = estimacion del incremento promedio de la resistencia cuando X1 se incrementa en una

1
unidad, y el resto de los factores no vara.
b = 10, 83 = estimacion del incremento promedio de la resistencia cuando X2 se incrementa en una

2
unidad, y el resto de los factores no vara.

b 1 = 2, 11 = estimacion de la diferencia entre la ordenada en el origen del segundo laboratorio y la del


primero.

b 2 = 1, 01 = estimacion de la diferencia entre la ordenada en el origen del tercer laboratorio y la del


primero.
Contraste conjunto:
V N E = (90 4 1) 2,462 = 514, 38
V E = 89 10, 772 514, 38 = 9809
F = (9809/4)/2,462 = 405, 22F4,85 (0, 95) = 2, 48
Contrastes individuales:

t1 = 2,49/(2, 46 0, 0103 = 9, 99 > t85 (0, 975) = 1, 99


La informacion que proporciona X1 adicional a la proporcionada por X2 , Z2 , Z3 es relevante para
explicar/predecir la resistencia Y

Segundo Examen Parcial - Dise


no y Regresion

20 de mayo 2013

t2 = 10, 83/(2, 46 0, 0129 = 38, 78 > t85 (0, 975) = 1, 99


La informacion que proporciona X2 adicional a la proporcionada por X1 , Z2 , Z3 es relevante para
explicar/predecir la resistencia Y

t3 = 2,11/(2, 46 0, 0688 = 3, 28 > t85 (0, 975) = 1, 99


La ordenada en el origen para el laboratorio dos es significativamente distinta de la del laboratorio uno

t4 = 1, 01/(2, 46 0, 0672 = 1, 58 < t85 (0, 975) = 1, 99


La ordenada en el origen para el laboratorio tres no es significativamente distinta de la del laboratorio
uno.
Comparando con los resultados del apartado uno, se observa que los coeficientes de X1 , X2 son similares
as como los valores de la varianza residual sb2R , lo cual indica que tanto los efectos de los factores X1 , X2
sobre la respuesta Y como la varianza del error experimental u (medida de la incertidumbre de la Y dadas
X1 , X2 ) son similares en los tres laboratorios.

Apartado 3)
H0 : 2 = 3
H1 : 2 = 3
var(b
2
b 3 ) = 2 (0, 0688 + 0, 0672 2 0, 0344)

b 2 b
3
t = sb 0,0688+0,067220,0344
= (2, 11)1, 01))/2, 46 0, 0688 + 0, 0672 2 0, 0344 = ,4, 9 > t85 (0, 975) =
R
1, 99; se rechaza H0 ; por tanto, la diferencia entre las estimaciones de las ordenadas en el origen de los laboratorios dos y tres es estadsticamente significativa.

Examen Final - Dise


no y Regresion

31 de mayo 2013

- Cuestiones (30 minutos, 4 puntos)


REGRESION
1. En 1980 se realizo un estudio en EEUU para determinar si fumar reduce la capacidad
pulmonar de los jovenes. Los participantes (654 en total) fueron chicos y chicas entre
9 y 19 a
nos, la mayora de los cuales (589) eran no fumadores. La capacidad pulmonar
utilizada es el volumen en litros expulsado por un individuo durante el primer segundo
en una expiracion forzada y se denomina FVE (forced expiratory volume). Se incluye
el modelo de regresion entre la variable FVE (en logaritmos) y los regresores edad,
estatura, sexo (0 mujer, 1 hombre) y fuma (0 No, 1 S).
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.943998
0.078639 -24.721 < 2e-16
edad
0.023387
0.003348
6.984 7.1e-12
altura
0.042796
0.001679 25.489 < 2e-16
sexo
0.029319
0.011719
2.502
0.0126
fuma
-0.046068
0.020910 -2.203
0.0279
--Residual standard error: 0.1455 on 649 degrees of freedom
Multiple R-squared: 0.8106, Adjusted R-squared: 0.8095
F-statistic: 694.6 on 4 and 649 DF, p-value: < 2.2e-16
La matriz de varianzas de los estimadores es la siguiente
[,1]
[,2]
[,3]
[,4]
[,5]
[1,] 6.18e-03 1.55e-04 -1.27e-04 1.39e-04 4.22e-05
[2,] 1.55e-04 1.12e-05 -4.36e-06 5.04e-06 -2.08e-05
[3,] -1.27e-04 -4.36e-06 2.82e-06 -4.28e-06 1.81e-06
[4,] 1.39e-04 5.04e-06 -4.28e-06 1.37e-04 2.01e-05
[5,] 4.22e-05 -2.08e-05 1.81e-06 2.01e-05 4.37e-04
Como influye el habito de fumar en la capacidad pulmonar? Como influye la estatura?
Quien tiene mayor capacidad pulmonar, los hombres o las mujeres?
calcule var(m
Sabiendo que la estimacion de la media es m
h = xT ,
h ) y, a partir de
h

este resultado, obtenga un intervalo de confianza (95 %) para la capacidad pulmonar


(en logaritmos) de una mujer de 18 a
nos que no fuma y mide 170 cm.
2 Se ha estimado con n = 20 observaciones la ecuacion de regresion
yi = 1,4205 + 0,1422x1 + 0,2908x2
siendo la matriz de varianzas de los regresores SXX , las covarianzas entre cada regresor
y la variable dependiente SXY , y la varianza de la variable dependiente s2Y los siguientes:
(
)
(
)
1 T
9,57
0,423
1,239
SXX =
,
SXY = X Y =
,
s2Y = 0,2667
0,423 0,293
0,0251
n
Realiza el contraste general de regresion con = 0,05 y calcula el coeficiente de determinacion.

Examen Final - Dise


no y Regresion

31 de mayo 2013

- Problema
REGRESION
(45 minutos, 6 puntos)
El examen de ingreso en un colegio consistio en tres pruebas: matematicas, ingles y
cultura general. Para ensayar la capacidad del examen para predecir el papel de los alumnos
en un curso de estadstica, los datos de una muestra de 200 estudiantes fueron reunidos y
analizados. Se definen las variables, siendo:
Y : Puntuacion en el curso de estadstica
X1 : Puntuacion en la prueba de matematicas
X2 : Puntuacion en la prueba de ingles
X3 : Puntuacion en la prueba de cultura general
se obtuvieron los siguientes resultados:
y = 75; sy = 10; x
1 = 24; sx1 = 5; x
2 = 15; sx2 = 3; x
3 = 36; sx3 = 4;
ry,x1 = 0,9; ry,x2 = 0,75; ry,x3 = 0,8; rx1,x2 = 0,7; rx1,x3 = 0,7; rx2,x3 = 0,85;
1. Estime el modelo de regresion simple entre el conocimiento de estadstica y el de ingles.
Es significativo dicho conocimiento?
2. Obtenga el modelo de regresion entre la puntacion en el curso de estadstica y las demas
puntuaciones. Interprete la relacion entre el conocimiento de matematicas, ingles y
cultura general y el conocimiento de estadstica a partir del modelo estimado. Justifique
la respuesta.
Nota: utilice la matriz

1
Sxx

0,0851 0,0536 0,0402


0,4342 0,2299
= 0,0536
0,0402 0,2299
0,2443

3. Son significativos el conocimiento de matematicas, ingles y cultura general en el de


estadstica?
Explique las similitudes o discrepancias entre el modelo de regresion m
ultiple (apartado
2) y el modelo de regresion simple (apartado 1).
Nota: utilice = 0,05.

Examen Final - Dise


no y Regresion

31 de mayo 2013

DE EXPERIMENTOS - Cuestiones
DISENO
(30 minutos, 4 puntos)
1) La Fundacion Jose Antonio Artigas y Sanz va a conceder una beca de estudios en
la Universidad de Columbia para realizar un Master. A ella optan en su fase final 10
alumnos. Para ello se les eval
ua en cinco materias diferentes, por lo que la nota maxima
que pueden obtener es de 50 puntos. Para que el proceso sea lo mas transparente y
justo posible, dos profesores eval
uan dichos examenes. A continuacion se muestran los
resultados de las correcciones de los dos profesores para cada alumno.

Profesor 1
Profesor 2
Medias

A1
44
43
43.5

A2
47
46
46.5

A3
33
33
33

A4
38
37
37.5

A5
50
50
50

A6
41
42
41.5

A7
39
39
39

A8
42
42
42

A9
45
44
44.5

A10
22
44
44

Medias
42.3
42

El tribunal organizador ha dispuesto de un tercer profesor para el caso en que existan


discrepancias significativas. Tiene que actuar el tercer profesor? Justifique la respuesta.
2) Para un modelo de analisis de la varianza con un factor en el que se tienen dos
tratamientos (I = 2), demuestre que el contraste de la F para la hipotesis nula
H0 : 1 = 2 = frente a la alternativa (alguna es distinta), es equivalente a realizar el contraste de la t.

Examen Final - Dise


no y Regresion

31 de mayo 2013

DE EXPERIMENTOS - Problema
DISENO
(45 minutos, 6 puntos)
En un experimento con cobayas se ha estudiado el efecto en el crecimiento de los dientes
de a
nadir un suplemento de vitamina C en la alimentacion de los animales. Se emplearon dos

tipos de suplementos: Zumo de Naranja (ZN) y Acido


Ascorbico (AA) y tres dosis diferentes
(0.5, 1.0 y 2.0 miligramos). A cada combinacion de los dos factores se asignaron 10 cobayas.
La variable respuesta es la longitud media de los dientes de la cobaya. Los resultados del
experimento se analizaron como un modelo de dos factores con interaccion. La tabla de
analisis de la varianza es:
Response: LONG
Df Sum Sq Mean Sq F value
Pr(>F)
VITAMIN
1 205.35 205.35 15.572 0.0002312 ***
DOSIS
2 2426.43 1213.22 92.000 < 2.2e-16 ***
VITAMIN:DOSIS 2 108.32
54.16
4.107 0.0218603 *
Residuals
54 712.11
13.19
la tabla de medias
0.5
1.0
2.0
OJ 13.23 22.70 26.06
VC 7.98 16.77 26.14
y la de desviaciones tpicas
0.5 1.0 2.0
ZN 4.46 3.91 2.66
AA 2.75 2.52 4.80
1. El modelo de dise
no de dos factores con interaccion es
yijk = + i + j + ()ij + uijk
con uijk variables aleatorias con distribucion normal de media cero y varianza 2 , i
mide el efecto del tipo de suplemento, j el efecto de la dosis y ()ij la interaccion.
Con la informacion disponible estima cada uno de los parametros del modelo. Interpreta
los resultados del analisis estadstico.
2. Existen diferencias significativas entre las longitudes medias de los dientes de las cobayas que han sido alimentadas con un suplemento de 2 mg de ZN y las que han
sido alimentadas con 2 mg de AA? Justifica la respuesta utilizando un contraste de
hipotesis. Repite el contraste y contesta a las siguientes preguntas: Existen diferencias
significativas entre las longitudes medias de los dientes de las cobayas que han sido
alimentadas con un suplemento de 1 mg de ZN y las que han sido alimentadas con 1
mg de AA? Existen diferencias significativas entre las longitudes medias de los dientes
de las cobayas que han sido alimentadas con un suplemento de 0.5 mg de ZN y las que
han sido alimentadas con 0.5 mg de AA?
Haz la representacion grafica que consideres adecuada para explicar este efecto.
3. Contrasta si la varianza del error experimental de los datos correspondientes a nivel
ZN es distinta que los AA con = 0,05.

DISEO DE EXPERIMENTOS: 31 de mayo de 2013


SOLUCIN CUESTIONES:
Cuestin 1:
Es un modelo en bloques aleatorizados donde el factor es el profesor y la
varaible bloque los alumnos.
La descomposicin de la variabilidad es:
V T = V E(P rof.) + V E(Al.) + V N E
Donde:
V E(P rof.) =

10
2 

(y i y )2 = 0.45. = g.l. = I 1 = 1.
i=1 j=1

V NE =

2 
10


e2ij

i=1 j=1

10
2 

(yij yi y j + y )2 = 2, 05. =
=
i=1 j=1

g.l. = (I 1)(J 1) = 9.
El contraste es:

H0 : 1 = 2
.
H1 : 1 = 2

V E(P rof.)/1
= 1, 98 < F1,9;0,05 = 5, 12 = No se
V NE/9
rechaza H0 =No hay diferencias significativas entre los profesores.
Si H0 es cierta = F0 =

Cuestin 2:
En el caso de un factor con dos tratamientos siendo n1 = n2 = m,
VE
el contraste de la F es: F = 12 , donde
sR
2 
m

VE =
(y i y )2 = m[(y 1 y )2 + (y2 y )2 ] =
i=1 j=1
2 
2 
y1 + y 2
y 1 + y 2
=m y 1 (
) + y 2 (
)
,
2
2
siendo
y =

y1 + y 2
.
2

Operando:
VE =m



2y1 y 1 y 2
2

2

2y2 y 1 y2
2

2 

=m



y 1 y 2
2

2

y 2 y1
2

2 

m
(y y 2 )2 .
2 1

Por lo que el constraste de F quedara


2

m
(y1 y 2 )2 .
y

y
= 1
2 F1,2m2 .
F0 = 2
s2R
2
s
R

El contraste de la t es:
t0 =

y 1 y2

t2m2
2
sR m

Por lo que (t0 )2 = F0


2
Considerando las variables, se verifica siempre que (tg ) = F1,g .
Por lo tanto ambos contrastes son equivalentes.

SOLUCIN AL PROBLEMA
1. Llamando y i , y j , y ij y y , a las medias de filas, columnas, tratamientos y media general se tiene que

 = y ,

 i = y i y ,

j = y j y ,



= y ij yi yj + y
ij

la media general es 18.81 y el valor de las estimaciones de los parmetros


restantes se muestran la figura siguiente:

Como los tres efectos son significativos ( para nivel de significacin 0.05),
el efecto del suplemento en la longitud de los dientes, depende de la dosis. Al
aumentar la dosis aumenta la longitud. A dosis bajas (0.5 y 1.0), se consigue
mayor longitud con ZN. A dosis altas (2.0) las medias de los dos suplementos
son similares.
2. Llamando 13 y 23 a los parmetros que nos dan la longitud media de
los dientes de la cobaya alimentada con ZN con 2 mg y la alimentada con AA
con 2 mg, se pide hacer el contraste
H0 : 13 = 23
H1 : 13 = 23

2
Llamando LSD = t/2,54 sR 10
= 3.25,

|y 13 y 23 | = |26.06 26.14| < LSD

no existen diferencias significativas en las longitudes medias de los dientes de


las cobayas con 2 mg de ZN y las alimentadas con 2 mg de AA.
3

30,00
25,00
20,00
ZN

15,00

AA
10,00
5,00
0,00
0,5

Figure 1:
Se repite el contaste para los otros valores de la dosis
H0
H1

: 12 = 22
: 12 = 22

|y 12 y 22 | = |22.70 16.77| > LSD


s existen diferencias significativas en las longitudes medias de los dientes de las
cobayas con 1 mg de ZN y las alimentadas con 1 mg de AA.
H0
H1

: 11 = 21
: 11 = 21

|y11 y 21 | = |13.23 7.98| > LSD


s existen diferencias significativas en las longitudes medias de los dientes de las
cobayas con 0.5 mg de ZN y las alimentadas con 0.5 mg de AA.
La representacin grfica es el grfico de interaccin que se ha obtenido en
el apartado 1.
3. Llamando s2R,ZN y s2R,AA a las varianzas residuales correspondientes a los
tratamientos ZN y AA, se tiene que
s2R,ZN
y su cocientes

s2R,AA

=
=

4.462 + 3.912 + 2.662


= 14.085
3
2.752 + 2.522 + 4.802
= 12.318
3

F =

14.085
= 1.14
12.318
4

est dentro de la regin de aceptacin obtenida con una F27,27 para nivel de
significacin 0.05, por lo que se acepta que las dos varianzas experimentales
pueden ser iguales.

Soluci
on cuestiones
1) Todos los contrastes individuales resultan significativos con = 0, 05.
El promedio de capacidad pulmonar de los fumadores es, a igualdad del
resto de los factores, 0,046 unidades menor (porcentualmente) que el de los no
fumadores.
Si la estatura se incrementa en una unidad, el promedio de la capacidad
pulmonar se incrementa (porcentualmente) 0,042 unidades. Este incremento es
el mismo para hombres, mujeres, fumadores y no fumadores.
El promedio de capacidad pulmonar de los hombres es, a igualdad del resto
de los factores, 0,0293 unidades mayor (porcentualmente) que el de las mujeres.
b h = sb2 hh
var(m
b h ) = xTh var()x
R
[
]
T
xh = 1 18 170 0 0

Prediccion puntual m
bh =

b
xTh

1 18

170

]
0

1, 94
0, 023
0, 042
0, 029
0, 046

5, 65;

Intervalo para nueva observacion:

m
b h t649 sbR 1 + hh = m
b h t649 sb2R + sb2R hh = 5, 651, 96 0, 0212 + 0, 027 =
(5, 30; 6, 16)
[
]
[
] 1, 239
b xy = 20 0, 1422 0, 2908
2) V E = nS
= 3, 67
0, 0251
V N E = V T V E = 20s2y V E = 1, 664;
sb2R = V N E/(20 1 2) = 0, 098
F = (V E/2)/b
s2R = 18, 74 > F2,17 = 3, 59; se rechaza H0
R2 = V E/V T = 0, 688

- Problema 31 de mayo de 2013


REGRESION

SOLUCION
(45 minutos, 6 puntos)
1. Estime el modelo de regresion simple entre el conocimiento de estadstica

y el de ingles. AEs
significativo dicho conocimiento?
El modelo que se pide es un modelo de regresion simple de la forma:
b
b
d=
CE
0+ I CI
donde:
b = Cov(CE, CI) = rY X2 sY sX2 = 0.75 10 = 2.5

I
3
s2CI
s2X2
y
b = y
b x

2 = 75 2.5x15 = 37.5.
0

Para concluir si el conocimiento de ingles es significativo en el conocimiento


de estadstica, contrastamos las hipotesis siguientes:
H0 : I = 0
H1 : I = 0
As:
tI =

b 0

I
,
sbR

sX2 n

en donde la desviacion tpica residual para el modelo de regresion simple


es desconocida, y se obtiene a partir de la Variabilidad no explicada como:
b 2 ns2 = 200x100 2.52 x200x9 = 8750
V N E = V T V E = ns2y
x2
I
V NE
8750
=
= 44.19; sbR = 6.648.
n2
198
Por lo tanto:
sb2R =

tI =

2.5
= 15.95,
6.648

3 200

Se compara el valor obtenido con el valor de las tablas (t198;/2 = 1.96),


como 15.95>1.96, se rechaza la H0 y se concluye que el conocimiento de
ingles es significativo.

2. Obtenga el modelo de regresion entre la puntacion en el curso de estadstica y las demas puntuaciones. Interprete la relacion entre el conocimiento
de matematicas, ingles y cultura general y el conocimiento de estadstica
a partir del modelo estimado.
Soluci
on
El modelo que se pide es un modelo de regresion m
ultiple de la forma:
b x
b e2 +
b x
yb =
1 e1 + 2 x
3 e3

1.34
1
1
bb =
0
b

2 = SXX SXY =
b
0.84
3
donde:
SXY

Cov(y, x1 )
rY X1 sY sX1
0.8x5x10
45
= Cov(y, x2 ) = rY X2 sY sX2 = 0.75x3x10 = 22.5 .
Cov(y, x3)
rY X3 sY sX3
0.8x4x10
32

Interpretaci
on:
b
1 = 1.34, Si la puntuacion de matematicas aumenta un punto, la puntuacicon de estadstica aumenta por termino 1.34 puntos manteniendo el
resto constante.
b = 0, Si la puntuacion de ingles aumenta un punto, la puntuacicon de

2
estadstica no aumenta ning
un puntopor termino medio manteniendo el
resto constante.
b = 0.84, Si la puntuacion de cultura general aumenta un punto, la

3
puntuacicon de estadstica aumenta por termino 0.84 puntos manteniendo
el resto constante.
3. Son significativos el conocimiento de matematicas, ingles y cultura general en el de estadstica? Explique las similitudes o discrepancias entre
este modelo y el modelo de regresion m
ultiple.
H0 : i = 0
H1 : i = 0
s:
ti =

b 0

i
,
sbR qii

1
en donde qii son los elementos de la diagonal principal de la matriz Sxx
,
y sbR la desviacion tpica residual para el modelo de regresion m
ultiple,
que es desconocida, y se obtiene a partir de la Variabilidad no explicada
como:

V N E = V T V E = ns2y nbbT sXY

45
= 200x100200x(1.34 0 0.84) 22.5 =
32

2613.5
V NE
2613.5
=
= 13.33; sbR = 3.65.As:
nk1
196
t1 = 17.8; t2 = 0 y t3 = 6.6. Estos valores se comparan (en valor absoluto)
con t196,/2 = 1.96.

sb2R =

Resultan significativos el conocimiento de matematicas y el conocimiento


de cultura general

*( )+

Df Sum Sq Mean Sq
F value Pr(>F)
pres
1
4
4 2.028e+31 <2e-16 ***
temp
1
4
4 2.028e+31 <2e-16 ***
Residuals
1
0
0
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Examen Final, Diseo y Regresin, GITI y GIQ

28 de junio de 2013

Problema (45 minutos, 5 puntos)


El grupo FIAT ha decidido promocionar el relanzamiento de uno de sus modelos de coche ms emblemticos organizando un evento en el que sus dos pilotos del equipo Ferrari de Frmula 1, Fernando Alonso y
Felipe Massa, van a hacer pruebas en las que el objetivo es analizar la variable consumo (en litros/100 km),
para 3 estilos de conduccin diferentes: Suave, Normal y Agresiva. Cada piloto ha realizado la prueba con
cada estilo de conduccin 2 veces, con lo que el nmero total de datos es 12. Los datos obtenidos se muestran
a continuacin:
Consumo
8.561
12.751
14.057
13.159
9.731
10.343
7.997
7.385
8.347
8.562
9.857
8.140

Estilo Conduccin
Agresiva
Agresiva
Agresiva
Agresiva
Normal
Normal
Normal
Normal
Suave
Suave
Suave
Suave

Piloto
Alonso
Alonso
Massa
Massa
Alonso
Alonso
Massa
Massa
Alonso
Alonso
Massa
Massa

Figura 1:

1. Indica qu modelo de anlisis resulta adecuado para este propsito razonando la respuesta, as como
la ecuacin de dicho modelo y las hiptesis que se asumen. Realiza la tabla ADEVA y extrae las
conclusiones que consideres relevantes (Nivel de significacin: 0.1).
2. Construye el grfico de interaccin (incluyendo intervalos, con nivel de significacin: 0.1) e indica
cundo se produce el menor y mayor consumo, as como si es significativamente mayor o menor,
respectivamente que los dems.
3. A la vista de los grfico de residuos de la Figura 2 indica si la diagnosis del modelo es correcta. En
caso negativo propn posibles soluciones. Construye adems un intervalo para la varianza del error.
4. Por ltimo, y para promocionar las buenas caractersticas medioambientales del coche que relanza
FIAT, se han realizado mediciones tambin de las emisiones de CO2. Propn un modelo de regresin
que pudiera tener en cuenta para explicar las emisiones de CO2, tanto el consumo como la influencia
del piloto y de su estilo de conduccin.

Examen Final, Diseo y Regresin, GITI y GIQ

28 de junio de 2013

Residuals vs Fitted

Normal QQ
2

10

11

12

12

13

1.5

0.5

0.0

0.5

1.0

Fitted values

Theoretical Quantiles

ScaleLocation

Constant Leverage:
Residuals vs Factor Levels

1.5

0
2

12

0
1

Residuals

Standardized residuals

1.5

1
2

1
0
1

Standardized residuals

1.0

12

0.5

12

0.0

Standardized residuals

10

11

12

13

Estilo :

Suave

Fitted values

Normal

Agresiva

Factor Level Combinations

Figura 2: Diagnosis del modelo

Examen Final, Diseo y Regresin, GITI y GIQ

28 de junio de 2013

Problema (45 minutos, 5 puntos)

El grupo FIAT ha decidido promocionar el relanzamiento de uno de sus modelos de coche


ms emblemticos organizando un evento en el que sus dos pilotos del equipo Ferrari de Frmula 1, Fernando Alonso y Felipe Massa, van a hacer pruebas en las que el objetivo es analizar
la variable consumo (en litros/100 km), para 3 estilos de conduccin diferentes: Suave, Normal y Agresiva. Cada piloto ha realizado la prueba con cada estilo de conduccin 2 veces, con
lo que el nmero total de datos es 12. Los datos obtenidos se muestran a continuacin:
Consumo
8.561
12.751
14.057
13.159
9.731
10.343
7.997
7.385
8.347
8.562
9.857
8.140

Estilo Conduccin
Agresiva
Agresiva
Agresiva
Agresiva
Normal
Normal
Normal
Normal
Suave
Suave
Suave
Suave

Piloto
Alonso
Alonso
Massa
Massa
Alonso
Alonso
Massa
Massa
Alonso
Alonso
Massa
Massa

1. Indica qu modelo de anlisis resulta adecuado para este propsito razonando la respuesta, as como la ecuacin de dicho modelo y las hiptesis que se asumen. Realiza la tabla
ADEVA y extrae las conclusiones que consideres relevantes (Nivel de signicacin: 0.1).
Diseo de Experimentos con 2 factores, e interaccin, pues tenemos replicaciones.
yij =

+(

)ij + uij ; uij ! N (0;

):

Hiptesis del modelo: Independencia, homocedasticidad y normalidad.


Para obtener la tabla ADEVA necesitamos las medias, por estilos de conduccin, por pilotos y por
tratamientos (piloto-estilo):

Tabla ADEVA:

Examen Final, Diseo y Regresin, GITI y GIQ

F.V.
Ef. ppales
A: Estilo
B: Piloto
Interaccin
AB
Residual
Total

28 de junio de 2013

Sum. Cuadrados

G.l.

Cuadrado Medio

F-stat

p-val

29.7337
0.440159

2
1

14.8669
0.440159

8.07
0.24

0.0199
0.6423

14.074
11.0521

2
6
11

7.03699
1.84201

3.82

0.0851

Para un nivel de signicacin de 0.1, resulta signicativo el factor Estilo de conduccin y la interaccin
entre el estilo de conduccin y el piloto. No resulta signicativo el factor Piloto. Al ser signicativa la
interaccin no se pueden interpretar los efectos principales.
2. Construye el grco de interaccin (incluyendo intervalos, con nivel de signicacin: 0.1)
e indica cundo se produce el menor y mayor consumo, as como si es signicativamente
mayor o menor, respectivamente que los dems.
Los intervalos que aparecen en el grco de interaccin estn centrados en las medias por tratamientos
(cruces):
yAgresiva;Alonso = 10;6562
yAgresiva;M assa = 13;608
yN ormal;Alonso = 10;0369
yN ormal;M assa = 7;69057
ySuave;Alonso = 8;45452
ySuave;M assa = 8;99818

p
La amplitud de los intervalos se calcula a partir de la expresin: sbR t6; 0;1 p12 = 1;84201 1;943 p12 =
2
1;8647; pues hay 2 rplicas para cada tratamiento o cruce, y 6 son los grados de libertad de la residual.
La amplitud sera el doble de esta cantidad que permite calcular los extremos de los intervalos que
aparecen en el grco.
3. A la vista de los grco de residuos de la Figura 2 indica si la diagnosis del modelo es
correcta. En caso negativo propn posibles soluciones. Construye adems un intervalo
para la varianza del error.
A pesar de que hay pocos datos (esto hace que las conclusiones se tomen con cautela) a la vista de los
grcos se cumplen las hiptesis de homocedasticidad y normalidad.
Para la hiptesis de normalidad podra pasarse un contraste como el de Kolmogorov.
Para el intervalo para
IJ(m 1)
s2

R
entonces
b
intervalo sea del 90 %.

2
2

(en el modelo con 2 factores e interaccin) utilizamos que


IJ(m 1)
s2R
a

, donde

(IJ(m 1));0;95

V NE
2

(IJ(m 1));0;05 ,

2
(IJ(m 1))

para que el

Examen Final, Diseo y Regresin, GITI y GIQ

11

Fittedv

2
1

-0.5

0.0

0.5

1
2

Constant Le
Residuals vs F

10
Fittedv

11

1.5

v er age:
actor Le

12

13

v els

12

-2

0.5

12

1.0

Theoretical Quantiles

Standardiz
ed residuals

1.5

-1.5

alues

Scale-Location

1.0

13

0.0

Standardizedresiduals

12

10

12

mal Q-Q
2

-1
-2

12

Nor

-1

-1

-2

Residuals

Standardiz
ed residuals

Residuals vs Fitted

28 de junio de 2013

Estilo: Sua v e

alues

F actor Le

Figura 1: Diagnosis del modelo

Nor

mal

Agresiv

v el Combinations

Examen Final, Diseo y Regresin, GITI y GIQ

= 12;59 y

28 de junio de 2013

= 1;635, y el intervalo:
2 3(2

1)1;8422
12;59
0;8779

2 3(2

6;76

1)2 3(2 1)1;8422


1;635

4. Por ltimo, y para promocionar las buenas caractersticas medioambientales del coche
que relanza FIAT, se han realizado mediciones tambin de las emisiones de CO2 . Propn
un modelo de regresin que pudiera tener en cuenta para explicar las emisiones de CO2 ,
tanto el consumo como la inuencia del piloto y de su estilo de conduccin.
Emisionesi =

0+

1 Consumoi +

ALON SO ZALON SO +

suave Zcond:suave +

agresiva Zcond:agresiva + ui;

donde Consumo es un regresor cuantitativo y ZALON SO ; Zcond:suave y Zcond:agresiva son cualitativas.


Zcond:suave = 1 cuando el estilo de conduccin es suave y 0 en el resto, y Zcond:agresiva = 1 cuando el
estilo de conduccin es agresivo y 0 en el resto.
Hiptesis habituales para el modelo de regresin lineal mltiple: Linealidad, homocedasticidad, normalidad e independencia.

P (Z z)

Ejemplo.
P(Z 1.96) = 0.9750

N(0,1)

Normal
Estandar

TABLA

z
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
1,5
1,6
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
2,6
2,7
2,8
2,9
3,0

0
.5000
.5398
.5793
.6179
.6554
.6915
.7257
.7580
.7881
.8159
.8413
.8643
.8849
.9032
.9192
.9332
.9452
.9554
.9641
.9713
.9772
.9821
.9861
.9893
.9918
.9938
.9953
.9965
.9974
.9981
.9987

0,01
.5040
.5438
.5832
.6217
.6591
.6950
.7291
.7611
.7910
.8186
.8438
.8665
.8869
.9049
.9207
.9345
.9463
.9564
.9649
.9719
.9778
.9826
.9864
.9896
.9920
.9940
.9955
.9966
.9975
.9982
.9987

0,02
.5080
.5478
.5871
.6255
.6628
.6985
.7324
.7642
.7939
.8212
.8461
.8686
.8888
.9066
.9222
.9357
.9474
.9573
.9656
.9726
.9783
.9830
.9868
.9898
.9922
.9941
.9956
.9967
.9976
.9982
.9987

0,03
.5120
.5517
.5910
.6293
.6664
.7019
.7357
.7673
.7967
.8238
.8485
.8708
.8907
.9082
.9236
.9370
.9484
.9582
.9664
.9732
.9788
.9834
.9871
.9901
.9925
.9943
.9957
.9968
.9977
.9983
.9988

0,04
.5160
.5557
.5948
.6331
.6700
.7054
.7389
.7704
.7995
.8264
.8508
.8729
.8925
.9099
.9251
.9382
.9495
.9591
.9671
.9738
.9793
.9838
.9875
.9904
.9927
.9945
.9959
.9969
.9977
.9984
.9988

0,05
.5199
.5596
.5987
.6368
.6736
.7088
.7422
.7734
.8023
.8289
.8531
.8749
.8944
.9115
.9265
.9394
.9505
.9599
.9678
.9744
.9798
.9842
.9878
.9906
.9929
.9946
.9960
.9970
.9978
.9984
.9989

0,06
.5239
.5636
.6026
.6406
.6772
.7123
.7454
.7764
.8051
.8315
.8554
.8770
.8962
.9131
.9279
.9406
.9515
.9608
.9686
.9750
.9803
.9846
.9881
.9909
.9931
.9948
.9961
.9971
.9979
.9985
.9989

0,07
.5279
.5675
.6064
.6443
.6808
.7157
.7486
.7794
.8078
.8340
.8577
.8790
.8980
.9147
.9292
.9418
.9525
.9616
.9693
.9756
.9808
.9850
.9884
.9911
.9932
.9949
.9962
.9972
.9979
.9985
.9989

0,08
.5319
.5714
.6103
.6480
.6844
.7190
.7517
.7823
.8106
.8365
.8599
.8810
.8997
.9162
.9306
.9429
.9535
.9625
.9699
.9761
.9812
.9854
.9887
.9913
.9934
.9951
.9963
.9973
.9980
.9986
.9990

0,09
.5359
.5753
.6141
.6517
.6879
.7224
.7549
.7852
.8133
.8389
.8621
.8830
.9015
.9177
.9319
.9441
.9545
.9633
.9706
.9767
.9817
.9857
.9890
.9916
.9936
.9952
.9964
.9974
.9981
.9986
.9990

z
3,1
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
4,0

0,00
.9990323
.9993128
.9995165
.9996630
.9997673
.9998409
.9998922
.9999276
.9999519
.9999683

0,01
.9990645
.9993363
.9995335
.9996751
.9997759
.9998469
.9998963
.9999305
.9999538
.9999696

0,04
.9991552
.9994023
.9995811
.9997091
.9997999
.9998636
.9999080
.9999385
.9999592
.9999733

0,05
.9991836
.9994229
.9995959
.9997197
.9998073
.9998688
.9999116
.9999409
.9999609
.9999744

0,06
.9992111
.9994429
.9996102
.9997299
.9998145
.9998739
.9999150
.9999433
.9999625
.9999755

0,07
.9992377
.9994622
.9996241
.9997397
.9998215
.9998787
.9999184
.9999456
.9999640
.9999765

= np (1 p)

n
p 1/ 2
= np

Normal
,

= np

n , p 0

Poisson

Relacin entre Binomial,


Poisson y Normal

0,03
.9991259
.9993810
.9995657
.9996982
.9997922
.9998583
.9999042
.9999359
.9999575
.9999721

Binomial
n,p

0,02
.9990957
.9993590
.9995499
.9996868
.9997842
.9998527
.9999004
.9999333
.9999557
.9999709

Distribucin normal estndar (continuacin)


0,08
.9992636
.9994809
.9996375
.9997492
.9998282
.9998834
.9999216
.9999478
.9999655
.9999775

N(0,1)
z
0,09
.9992886
.9994990
.9996505
.9997584
.9998346
.9998878
.9999247
.9999499
.9999669
.9999784

P (Z z)

P(9 19,02) = 0,025

EJEMPLO

: grados de libertad (g.l.)

Tabla 2

g.l.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
120

0,995
,00004
,01002
,0717
0,207
0,412
0,676
0,989
1,344
1,735
2,156
2,603
3,074
3,565
4,075
4,601
5,142
5,697
6,265
6,844
7,434
8,034
8,643
9,260
9,886
10,520
11,160
11,808
12,461
13,121
13,787
20,707
27,991
35,534
43,275
51,172
59,196
67,328
83,852

0,990
,00016
,0201
0,115
0,297
0,554
0,872
1,239
1,647
2,088
2,558
3,053
3,571
4,107
4,660
5,229
5,812
6,408
7,015
7,633
8,260
8,897
9,542
10,196
10,856
11,524
12,198
12,878
13,565
14,256
14,953
22,164
29,707
37,485
45,442
53,540
61,754
70,065
86,923

0,975
,00098
0,051
0,216
0,484
0,831
1,237
1,690
2,180
2,700
3,247
3,816
4,404
5,009
5,629
6,262
6,908
7,564
8,231
8,907
9,591
10,283
10,982
11,689
12,401
13,120
13,844
14,573
15,308
16,047
16,791
24,433
32,357
40,482
48,758
57,153
65,647
74,222
91,573

0,950
,00393
0,103
0,352
0,711
1,145
1,635
2,167
2,733
3,325
3,940
4,575
5,226
5,892
6,571
7,261
7,962
8,672
9,390
10,117
10,851
11,591
12,338
13,091
13,848
14,611
15,379
16,151
16,928
17,708
18,493
26,509
34,764
43,188
51,739
60,391
69,126
77,929
95,705

0,500
0,455
1,386
2,366
3,357
4,351
5,348
6,346
7,344
8,343
9,342
10,341
11,340
12,340
13,339
14,339
15,338
16,338
17,338
18,338
19,337
20,337
21,337
22,337
23,337
24,337
25,336
26,336
27,336
28,336
29,336
39,335
49,335
59,335
69,334
79,334
89,334
99,334
119,334

0,050
3,841
5,991
7,815
9,488
11,07
12,59
14,07
15,51
16,92
18,31
19,68
21,03
22,36
23,68
25,00
26,30
27,59
28,87
30,14
31,41
32,67
33,92
35,17
36,42
37,65
38,89
40,11
41,34
42,56
43,77
55,76
67,50
79,08
90,53
101,88
113,15
124,34
146,57

0,025
5,024
7,378
9,348
11,14
12,83
14,45
16,01
17,53
19,02
20,48
21,92
23,34
24,74
26,12
27,49
28,85
30,19
31,53
32,85
34,17
35,48
36,78
38,08
39,36
40,65
41,92
43,19
44,46
45,72
46,98
59,34
71,42
83,30
95,02
106,63
118,14
129,56
152,21

0,010
6,635
9,210
11,34
13,28
15,09
16,81
18,48
20,09
21,67
23,21
24,73
26,22
27,69
29,14
30,58
32,00
33,41
34,81
36,19
37,57
38,93
40,29
41,64
42,98
44,31
45,64
46,96
48,28
49,59
50,89
63,69
76,15
88,38
100,43
112,33
124,12
135,81
158,95

0,005
7,879
10,60
12,84
14,86
16,75
18,55
20,28
21,95
23,59
25,19
26,76
28,30
29,82
31,32
32,80
34,27
35,72
37,16
38,58
40,00
41,40
42,80
44,18
45,56
46,93
48,29
49,65
50,99
52,34
53,67
66,77
79,49
91,95
104,21
116,32
128,30
140,17
163,65

P(t9 2,262) = 0,025

EJEMPLO

: grados de libertad (g.l.)

t,

t-Student

Tabla

g.l
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
infinito

0,20
1,376
1,061
0,978
0,941
0,920
0,906
0,896
0,889
0,883
0,879
0,876
0,873
0,870
0,868
0,866
0,865
0,863
0,862
0,861
0,860
0,859
0,858
0,858
0,857
0,856
0,856
0,855
0,855
0,854
0,854
0,851
0,849
0,848
0,847
0,846
0,846
0,845
0,842
0,20

0,15
1,963
1,386
1,250
1,190
1,156
1,134
1,119
1,108
1,100
1,093
1,088
1,083
1,079
1,076
1,074
1,071
1,069
1,067
1,066
1,064
1,063
1,061
1,060
1,059
1,058
1,058
1,057
1,056
1,055
1,055
1,050
1,047
1,045
1,044
1,043
1,042
1,042
1,036
0,15

0,10
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,299
1,296
1,294
1,292
1,291
1,290
1,282
0,10

0,05
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,684
1,676
1,671
1,667
1,664
1,662
1,660
1,645
0,05

0,025
12,706
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,021
2,009
2,000
1,994
1,990
1,987
1,984
1,960
0,025

0,01
31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,423
2,403
2,390
2,381
2,374
2,368
2,364
2,327
0,01

0,005
63,656
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,704
2,678
2,660
2,648
2,639
2,632
2,626
2,576
0,005

0,0025
127,321
14,089
7,453
5,598
4,773
4,317
4,029
3,833
3,690
3,581
3,497
3,428
3,372
3,326
3,286
3,252
3,222
3,197
3,174
3,153
3,135
3,119
3,104
3,091
3,078
3,067
3,057
3,047
3,038
3,030
2,971
2,937
2,915
2,899
2,887
2,878
2,871
2,808
0,0025

0,001
318,289
22,328
10,214
7,173
5,894
5,208
4,785
4,501
4,297
4,144
4,025
3,930
3,852
3,787
3,733
3,686
3,646
3,610
3,579
3,552
3,527
3,505
3,485
3,467
3,450
3,435
3,421
3,408
3,396
3,385
3,307
3,261
3,232
3,211
3,195
3,183
3,174
3,091
0,001

0,0005
636,578
31,600
12,924
8,610
6,869
5,959
5,408
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850
3,819
3,792
3,768
3,745
3,725
3,707
3,689
3,674
3,660
3,646
3,551
3,496
3,460
3,435
3,416
3,402
3,390
3,291
0,0005

=0.05

1
161,4
18,51
10,13
7,71
6,61
5,99
5,59
5,32
5,12
4,96
4,84
4,75
4,67
4,60
4,54
4,49
4,45
4,41
4,38
4,35
4,32
4,30
4,28
4,26
4,24
4,23
4,21
4,20
4,18
4,17
4,08
4,03
4,00
3,98
3,96
3,95
3,94
3,92
3,84
1

2
199,5
19,00
9,55
6,94
5,79
5,14
4,74
4,46
4,26
4,10
3,98
3,89
3,81
3,74
3,68
3,63
3,59
3,55
3,52
3,49
3,47
3,44
3,42
3,40
3,39
3,37
3,35
3,34
3,33
3,32
3,23
3,18
3,15
3,13
3,11
3,10
3,09
3,07
3,00
2

3
215,7
19,16
9,28
6,59
5,41
4,76
4,35
4,07
3,86
3,71
3,59
3,49
3,41
3,34
3,29
3,24
3,20
3,16
3,13
3,10
3,07
3,05
3,03
3,01
2,99
2,98
2,96
2,95
2,93
2,92
2,84
2,79
2,76
2,74
2,72
2,71
2,70
2,68
2,60
3

4
224,6
19,25
9,12
6,39
5,19
4,53
4,12
3,84
3,63
3,48
3,36
3,26
3,18
3,11
3,06
3,01
2,96
2,93
2,90
2,87
2,84
2,82
2,80
2,78
2,76
2,74
2,73
2,71
2,70
2,69
2,61
2,56
2,53
2,50
2,49
2,47
2,46
2,45
2,37
4

5
230,2
19,30
9,01
6,26
5,05
4,39
3,97
3,69
3,48
3,33
3,20
3,11
3,03
2,96
2,90
2,85
2,81
2,77
2,74
2,71
2,68
2,66
2,64
2,62
2,60
2,59
2,57
2,56
2,55
2,53
2,45
2,40
2,37
2,35
2,33
2,32
2,31
2,29
2,21
5

6
234,0
19,33
8,94
6,16
4,95
4,28
3,87
3,58
3,37
3,22
3,09
3,00
2,92
2,85
2,79
2,74
2,70
2,66
2,63
2,60
2,57
2,55
2,53
2,51
2,49
2,47
2,46
2,45
2,43
2,42
2,34
2,29
2,25
2,23
2,21
2,20
2,19
2,18
2,10
6

7
236,8
19,35
8,89
6,09
4,88
4,21
3,79
3,50
3,29
3,14
3,01
2,91
2,83
2,76
2,71
2,66
2,61
2,58
2,54
2,51
2,49
2,46
2,44
2,42
2,40
2,39
2,37
2,36
2,35
2,33
2,25
2,20
2,17
2,14
2,13
2,11
2,10
2,09
2,01
7

8
238,9
19,37
8,85
6,04
4,82
4,15
3,73
3,44
3,23
3,07
2,95
2,85
2,77
2,70
2,64
2,59
2,55
2,51
2,48
2,45
2,42
2,40
2,37
2,36
2,34
2,32
2,31
2,29
2,28
2,27
2,18
2,13
2,10
2,07
2,06
2,04
2,03
2,02
1,94
8

9
240,5
19,38
8,81
6,00
4,77
4,10
3,68
3,39
3,18
3,02
2,90
2,80
2,71
2,65
2,59
2,54
2,49
2,46
2,42
2,39
2,37
2,34
2,32
2,30
2,28
2,27
2,25
2,24
2,22
2,21
2,12
2,07
2,04
2,02
2,00
1,99
1,97
1,96
1,88
9

10
241,9
19,40
8,79
5,96
4,74
4,06
3,64
3,35
3,14
2,98
2,85
2,75
2,67
2,60
2,54
2,49
2,45
2,41
2,38
2,35
2,32
2,30
2,27
2,25
2,24
2,22
2,20
2,19
2,18
2,16
2,08
2,03
1,99
1,97
1,95
1,94
1,93
1,91
1,83
10

12
243,9
19,41
8,74
5,91
4,68
4,00
3,57
3,28
3,07
2,91
2,79
2,69
2,60
2,53
2,48
2,42
2,38
2,34
2,31
2,28
2,25
2,23
2,20
2,18
2,16
2,15
2,13
2,12
2,10
2,09
2,00
1,95
1,92
1,89
1,88
1,86
1,85
1,83
1,75
12

15
245,9
19,43
8,70
5,86
4,62
3,94
3,51
3,22
3,01
2,85
2,72
2,62
2,53
2,46
2,40
2,35
2,31
2,27
2,23
2,20
2,18
2,15
2,13
2,11
2,09
2,07
2,06
2,04
2,03
2,01
1,92
1,87
1,84
1,81
1,79
1,78
1,77
1,75
1,67
15

20
248,0
19,45
8,66
5,80
4,56
3,87
3,44
3,15
2,94
2,77
2,65
2,54
2,46
2,39
2,33
2,28
2,23
2,19
2,16
2,12
2,10
2,07
2,05
2,03
2,01
1,99
1,97
1,96
1,94
1,93
1,84
1,78
1,75
1,72
1,70
1,69
1,68
1,66
1,57
20

24
249,1
19,45
8,64
5,77
4,53
3,84
3,41
3,12
2,90
2,74
2,61
2,51
2,42
2,35
2,29
2,24
2,19
2,15
2,11
2,08
2,05
2,03
2,01
1,98
1,96
1,95
1,93
1,91
1,90
1,89
1,79
1,74
1,70
1,67
1,65
1,64
1,63
1,61
1,52
24

P ( F 1 , 2 F 1 , 2 , ) =

Grados de libertad del numerador: 1

F 1 , 2 ,

Ejemplo : P ( F7,8 3.50) = 0.05

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
120
Inf

Tabla F

Grados de libertad del denominador: 2

30
250,1
19,46
8,62
5,75
4,50
3,81
3,38
3,08
2,86
2,70
2,57
2,47
2,38
2,31
2,25
2,19
2,15
2,11
2,07
2,04
2,01
1,98
1,96
1,94
1,92
1,90
1,88
1,87
1,85
1,84
1,74
1,69
1,65
1,62
1,60
1,59
1,57
1,55
1,46
30

40
251,1
19,47
8,59
5,72
4,46
3,77
3,34
3,04
2,83
2,66
2,53
2,43
2,34
2,27
2,20
2,15
2,10
2,06
2,03
1,99
1,96
1,94
1,91
1,89
1,87
1,85
1,84
1,82
1,81
1,79
1,69
1,63
1,59
1,57
1,54
1,53
1,52
1,50
1,39
40

60
252,2
19,48
8,57
5,69
4,43
3,74
3,30
3,01
2,79
2,62
2,49
2,38
2,30
2,22
2,16
2,11
2,06
2,02
1,98
1,95
1,92
1,89
1,86
1,84
1,82
1,80
1,79
1,77
1,75
1,74
1,64
1,58
1,53
1,50
1,48
1,46
1,45
1,43
1,32
60

100
253,0
19,49
8,55
5,66
4,41
3,71
3,27
2,97
2,76
2,59
2,46
2,35
2,26
2,19
2,12
2,07
2,02
1,98
1,94
1,91
1,88
1,85
1,82
1,80
1,78
1,76
1,74
1,73
1,71
1,70
1,59
1,52
1,48
1,45
1,43
1,41
1,39
1,37
1,24
100

120
253,3
19,49
8,55
5,66
4,40
3,70
3,27
2,97
2,75
2,58
2,45
2,34
2,25
2,18
2,11
2,06
2,01
1,97
1,93
1,90
1,87
1,84
1,81
1,79
1,77
1,75
1,73
1,71
1,70
1,68
1,58
1,51
1,47
1,44
1,41
1,39
1,38
1,35
1,22
120

Inf.
254,3
19,50
8,53
5,63
4,37
3,67
3,23
2,93
2,71
2,54
2,40
2,30
2,21
2,13
2,07
2,01
1,96
1,92
1,88
1,84
1,81
1,78
1,76
1,73
1,71
1,69
1,67
1,65
1,64
1,62
1,51
1,44
1,39
1,35
1,32
1,30
1,28
1,25
1,00
Inf.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
120
Inf

1
647,8
38,51
17,44
12,22
10,01
8,81
8,07
7,57
7,21
6,94
6,72
6,55
6,41
6,30
6,20
6,12
6,04
5,98
5,92
5,87
5,83
5,79
5,75
5,72
5,69
5,66
5,63
5,61
5,59
5,57
5,42
5,34
5,29
5,25
5,22
5,20
5,18
5,15
5,02
1

2
799,5
39,00
16,04
10,65
8,43
7,26
6,54
6,06
5,71
5,46
5,26
5,10
4,97
4,86
4,77
4,69
4,62
4,56
4,51
4,46
4,42
4,38
4,35
4,32
4,29
4,27
4,24
4,22
4,20
4,18
4,05
3,97
3,93
3,89
3,86
3,84
3,83
3,80
3,69
2

3
864,2
39,17
15,44
9,98
7,76
6,60
5,89
5,42
5,08
4,83
4,63
4,47
4,35
4,24
4,15
4,08
4,01
3,95
3,90
3,86
3,82
3,78
3,75
3,72
3,69
3,67
3,65
3,63
3,61
3,59
3,46
3,39
3,34
3,31
3,28
3,26
3,25
3,23
3,12
3

4
899,6
39,25
15,10
9,60
7,39
6,23
5,52
5,05
4,72
4,47
4,28
4,12
4,00
3,89
3,80
3,73
3,66
3,61
3,56
3,51
3,48
3,44
3,41
3,38
3,35
3,33
3,31
3,29
3,27
3,25
3,13
3,05
3,01
2,97
2,95
2,93
2,92
2,89
2,79
4

5
921,8
39,30
14,88
9,36
7,15
5,99
5,29
4,82
4,48
4,24
4,04
3,89
3,77
3,66
3,58
3,50
3,44
3,38
3,33
3,29
3,25
3,22
3,18
3,15
3,13
3,10
3,08
3,06
3,04
3,03
2,90
2,83
2,79
2,75
2,73
2,71
2,70
2,67
2,57
5

P ( F 1 , 2 F 1 , 2 , ) =

6
937,1
39,33
14,73
9,20
6,98
5,82
5,12
4,65
4,32
4,07
3,88
3,73
3,60
3,50
3,41
3,34
3,28
3,22
3,17
3,13
3,09
3,05
3,02
2,99
2,97
2,94
2,92
2,90
2,88
2,87
2,74
2,67
2,63
2,59
2,57
2,55
2,54
2,52
2,41
6

7
948,2
39,36
14,62
9,07
6,85
5,70
4,99
4,53
4,20
3,95
3,76
3,61
3,48
3,38
3,29
3,22
3,16
3,10
3,05
3,01
2,97
2,93
2,90
2,87
2,85
2,82
2,80
2,78
2,76
2,75
2,62
2,55
2,51
2,47
2,45
2,43
2,42
2,39
2,29
7

8
956,6
39,37
14,54
8,98
6,76
5,60
4,90
4,43
4,10
3,85
3,66
3,51
3,39
3,29
3,20
3,12
3,06
3,01
2,96
2,91
2,87
2,84
2,81
2,78
2,75
2,73
2,71
2,69
2,67
2,65
2,53
2,46
2,41
2,38
2,35
2,34
2,32
2,30
2,19
8

9
963,3
39,39
14,47
8,90
6,68
5,52
4,82
4,36
4,03
3,78
3,59
3,44
3,31
3,21
3,12
3,05
2,98
2,93
2,88
2,84
2,80
2,76
2,73
2,70
2,68
2,65
2,63
2,61
2,59
2,57
2,45
2,38
2,33
2,30
2,28
2,26
2,24
2,22
2,11
9

10
968,6
39,40
14,42
8,84
6,62
5,46
4,76
4,30
3,96
3,72
3,53
3,37
3,25
3,15
3,06
2,99
2,92
2,87
2,82
2,77
2,73
2,70
2,67
2,64
2,61
2,59
2,57
2,55
2,53
2,51
2,39
2,32
2,27
2,24
2,21
2,19
2,18
2,16
2,05
10

12
976,7
39,41
14,34
8,75
6,52
5,37
4,67
4,20
3,87
3,62
3,43
3,28
3,15
3,05
2,96
2,89
2,82
2,77
2,72
2,68
2,64
2,60
2,57
2,54
2,51
2,49
2,47
2,45
2,43
2,41
2,29
2,22
2,17
2,14
2,11
2,09
2,08
2,05
1,94
12

15
984,9
39,43
14,25
8,66
6,43
5,27
4,57
4,10
3,77
3,52
3,33
3,18
3,05
2,95
2,86
2,79
2,72
2,67
2,62
2,57
2,53
2,50
2,47
2,44
2,41
2,39
2,36
2,34
2,32
2,31
2,18
2,11
2,06
2,03
2,00
1,98
1,97
1,94
1,83
15

20
993,1
39,45
14,17
8,56
6,33
5,17
4,47
4,00
3,67
3,42
3,23
3,07
2,95
2,84
2,76
2,68
2,62
2,56
2,51
2,46
2,42
2,39
2,36
2,33
2,30
2,28
2,25
2,23
2,21
2,20
2,07
1,99
1,94
1,91
1,88
1,86
1,85
1,82
1,71
20

24
30
40
60
100
120
Inf.
997,3 1001,4 1005,6 1009,8 1013,2 1014,0 1018,3
39,46 39,46 39,47 39,48 39,49 39,49 39,50
14,12 14,08 14,04 13,99 13,96 13,95 13,90
8,51
8,46
8,41
8,36
8,32
8,31
8,26
6,28
6,23
6,18
6,12
6,08
6,07
6,02
5,12
5,07
5,01
4,96
4,92
4,90
4,85
4,41
4,36
4,31
4,25
4,21
4,20
4,14
3,95
3,89
3,84
3,78
3,74
3,73
3,67
3,61
3,56
3,51
3,45
3,40
3,39
3,33
3,37
3,31
3,26
3,20
3,15
3,14
3,08
3,17
3,12
3,06
3,00
2,96
2,94
2,88
3,02
2,96
2,91
2,85
2,80
2,79
2,72
2,89
2,84
2,78
2,72
2,67
2,66
2,60
2,79
2,73
2,67
2,61
2,56
2,55
2,49
2,70
2,64
2,59
2,52
2,47
2,46
2,40
2,63
2,57
2,51
2,45
2,40
2,38
2,32
2,56
2,50
2,44
2,38
2,33
2,32
2,25
2,50
2,44
2,38
2,32
2,27
2,26
2,19
2,45
2,39
2,33
2,27
2,22
2,20
2,13
2,41
2,35
2,29
2,22
2,17
2,16
2,09
2,37
2,31
2,25
2,18
2,13
2,11
2,04
2,33
2,27
2,21
2,14
2,09
2,08
2,00
2,30
2,24
2,18
2,11
2,06
2,04
1,97
2,27
2,21
2,15
2,08
2,02
2,01
1,94
2,24
2,18
2,12
2,05
2,00
1,98
1,91
2,22
2,16
2,09
2,03
1,97
1,95
1,88
2,19
2,13
2,07
2,00
1,94
1,93
1,85
2,17
2,11
2,05
1,98
1,92
1,91
1,83
2,15
2,09
2,03
1,96
1,90
1,89
1,81
2,14
2,07
2,01
1,94
1,88
1,87
1,79
2,01
1,94
1,88
1,80
1,74
1,72
1,64
1,93
1,87
1,80
1,72
1,66
1,64
1,55
1,88
1,82
1,74
1,67
1,60
1,58
1,48
1,85
1,78
1,71
1,63
1,56
1,54
1,44
1,82
1,75
1,68
1,60
1,53
1,51
1,40
1,80
1,73
1,66
1,58
1,50
1,48
1,37
1,78
1,71
1,64
1,56
1,48
1,46
1,35
1,76
1,69
1,61
1,53
1,45
1,43
1,31
1,64
1,57
1,48
1,39
1,30
1,27
1,00
24
30
40
60
100
120
Inf.

Grados de libertad del numerador: 1

F 1 , 2 ,

Ejemplo : P ( F7,8 4.53) = 0.025

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
120
Inf

=0.025

Tabla F

Grados de libertad del denominador: 2

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
120
Inf

1
4052,2
98,50
34,12
21,20
16,26
13,75
12,25
11,26
10,56
10,04
9,65
9,33
9,07
8,86
8,68
8,53
8,40
8,29
8,18
8,10
8,02
7,95
7,88
7,82
7,77
7,72
7,68
7,64
7,60
7,56
7,31
7,17
7,08
7,01
6,96
6,93
6,90
6,85
6,63
1

2
4999,3
99,00
30,82
18,00
13,27
10,92
9,55
8,65
8,02
7,56
7,21
6,93
6,70
6,51
6,36
6,23
6,11
6,01
5,93
5,85
5,78
5,72
5,66
5,61
5,57
5,53
5,49
5,45
5,42
5,39
5,18
5,06
4,98
4,92
4,88
4,85
4,82
4,79
4,61
2

3
5403,5
99,16
29,46
16,69
12,06
9,78
8,45
7,59
6,99
6,55
6,22
5,95
5,74
5,56
5,42
5,29
5,19
5,09
5,01
4,94
4,87
4,82
4,76
4,72
4,68
4,64
4,60
4,57
4,54
4,51
4,31
4,20
4,13
4,07
4,04
4,01
3,98
3,95
3,78
3

4
5624,3
99,25
28,71
15,98
11,39
9,15
7,85
7,01
6,42
5,99
5,67
5,41
5,21
5,04
4,89
4,77
4,67
4,58
4,50
4,43
4,37
4,31
4,26
4,22
4,18
4,14
4,11
4,07
4,04
4,02
3,83
3,72
3,65
3,60
3,56
3,53
3,51
3,48
3,32
4

5
5764,0
99,30
28,24
15,52
10,97
8,75
7,46
6,63
6,06
5,64
5,32
5,06
4,86
4,69
4,56
4,44
4,34
4,25
4,17
4,10
4,04
3,99
3,94
3,90
3,85
3,82
3,78
3,75
3,73
3,70
3,51
3,41
3,34
3,29
3,26
3,23
3,21
3,17
3,02
5

P ( F 1 , 2 F 1 , 2 , ) =

6
5859,0
99,33
27,91
15,21
10,67
8,47
7,19
6,37
5,80
5,39
5,07
4,82
4,62
4,46
4,32
4,20
4,10
4,01
3,94
3,87
3,81
3,76
3,71
3,67
3,63
3,59
3,56
3,53
3,50
3,47
3,29
3,19
3,12
3,07
3,04
3,01
2,99
2,96
2,80
6

7
5928,3
99,36
27,67
14,98
10,46
8,26
6,99
6,18
5,61
5,20
4,89
4,64
4,44
4,28
4,14
4,03
3,93
3,84
3,77
3,70
3,64
3,59
3,54
3,50
3,46
3,42
3,39
3,36
3,33
3,30
3,12
3,02
2,95
2,91
2,87
2,84
2,82
2,79
2,64
7

8
5981,0
99,38
27,49
14,80
10,29
8,10
6,84
6,03
5,47
5,06
4,74
4,50
4,30
4,14
4,00
3,89
3,79
3,71
3,63
3,56
3,51
3,45
3,41
3,36
3,32
3,29
3,26
3,23
3,20
3,17
2,99
2,89
2,82
2,78
2,74
2,72
2,69
2,66
2,51
8

9
6022,4
99,39
27,34
14,66
10,16
7,98
6,72
5,91
5,35
4,94
4,63
4,39
4,19
4,03
3,89
3,78
3,68
3,60
3,52
3,46
3,40
3,35
3,30
3,26
3,22
3,18
3,15
3,12
3,09
3,07
2,89
2,78
2,72
2,67
2,64
2,61
2,59
2,56
2,41
9

10
6055,9
99,40
27,23
14,55
10,05
7,87
6,62
5,81
5,26
4,85
4,54
4,30
4,10
3,94
3,80
3,69
3,59
3,51
3,43
3,37
3,31
3,26
3,21
3,17
3,13
3,09
3,06
3,03
3,00
2,98
2,80
2,70
2,63
2,59
2,55
2,52
2,50
2,47
2,32
10

12
6106,7
99,42
27,05
14,37
9,89
7,72
6,47
5,67
5,11
4,71
4,40
4,16
3,96
3,80
3,67
3,55
3,46
3,37
3,30
3,23
3,17
3,12
3,07
3,03
2,99
2,96
2,93
2,90
2,87
2,84
2,66
2,56
2,50
2,45
2,42
2,39
2,37
2,34
2,18
12

15
6157,0
99,43
26,87
14,20
9,72
7,56
6,31
5,52
4,96
4,56
4,25
4,01
3,82
3,66
3,52
3,41
3,31
3,23
3,15
3,09
3,03
2,98
2,93
2,89
2,85
2,81
2,78
2,75
2,73
2,70
2,52
2,42
2,35
2,31
2,27
2,24
2,22
2,19
2,04
15

20
6208,7
99,45
26,69
14,02
9,55
7,40
6,16
5,36
4,81
4,41
4,10
3,86
3,66
3,51
3,37
3,26
3,16
3,08
3,00
2,94
2,88
2,83
2,78
2,74
2,70
2,66
2,63
2,60
2,57
2,55
2,37
2,27
2,20
2,15
2,12
2,09
2,07
2,03
1,88
20

24
6234,3
99,46
26,60
13,93
9,47
7,31
6,07
5,28
4,73
4,33
4,02
3,78
3,59
3,43
3,29
3,18
3,08
3,00
2,92
2,86
2,80
2,75
2,70
2,66
2,62
2,58
2,55
2,52
2,49
2,47
2,29
2,18
2,12
2,07
2,03
2,00
1,98
1,95
1,79
24

Grados de libertad del numerador: 1

F 1 , 2 ,

Ejemplo : P ( F7,8 6.18) = 0.01

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
120
Inf

=0.01

Tabla F

Grados de libertad del denominador: 2

30
6260,4
99,47
26,50
13,84
9,38
7,23
5,99
5,20
4,65
4,25
3,94
3,70
3,51
3,35
3,21
3,10
3,00
2,92
2,84
2,78
2,72
2,67
2,62
2,58
2,54
2,50
2,47
2,44
2,41
2,39
2,20
2,10
2,03
1,98
1,94
1,92
1,89
1,86
1,70
30

40
6286,4
99,48
26,41
13,75
9,29
7,14
5,91
5,12
4,57
4,17
3,86
3,62
3,43
3,27
3,13
3,02
2,92
2,84
2,76
2,69
2,64
2,58
2,54
2,49
2,45
2,42
2,38
2,35
2,33
2,30
2,11
2,01
1,94
1,89
1,85
1,82
1,80
1,76
1,59
40

60
6313,0
99,48
26,32
13,65
9,20
7,06
5,82
5,03
4,48
4,08
3,78
3,54
3,34
3,18
3,05
2,93
2,83
2,75
2,67
2,61
2,55
2,50
2,45
2,40
2,36
2,33
2,29
2,26
2,23
2,21
2,02
1,91
1,84
1,78
1,75
1,72
1,69
1,66
1,47
60

100
6333,9
99,49
26,24
13,58
9,13
6,99
5,75
4,96
4,41
4,01
3,71
3,47
3,27
3,11
2,98
2,86
2,76
2,68
2,60
2,54
2,48
2,42
2,37
2,33
2,29
2,25
2,22
2,19
2,16
2,13
1,94
1,82
1,75
1,70
1,65
1,62
1,60
1,56
1,36
100

120
6339,5
99,49
26,22
13,56
9,11
6,97
5,74
4,95
4,40
4,00
3,69
3,45
3,25
3,09
2,96
2,84
2,75
2,66
2,58
2,52
2,46
2,40
2,35
2,31
2,27
2,23
2,20
2,17
2,14
2,11
1,92
1,80
1,73
1,67
1,63
1,60
1,57
1,53
1,32
120

Inf.
6365,6
99,50
26,13
13,46
9,02
6,88
5,65
4,86
4,31
3,91
3,60
3,36
3,17
3,00
2,87
2,75
2,65
2,57
2,49
2,42
2,36
2,31
2,26
2,21
2,17
2,13
2,10
2,06
2,03
2,01
1,80
1,68
1,60
1,54
1,49
1,46
1,43
1,38
1,00
Inf.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
120
Inf

You might also like