Professional Documents
Culture Documents
BIOMETRA AVANZADA
Notas de clase
2015
Ral E. Macchiavelli, Ph.D.
Contenidos
1. Introduccin y repaso de notacin del anlisis de varianza .................................................................. 3
2. Diseos completamente aleatorizados y en bloques completos aleatorizados ..................................... 5
3. Supuestos del anlisis de la varianza ...................................................................................................... 7
4. Determinacin del nmero de repeticiones de un experimento ...........................................................11
5. Comparaciones mltiples ........................................................................................................................14
6. Contrastes.................................................................................................................................................24
7. Diseo de cuadrado latino .......................................................................................................................28
8. Experimentos factoriales con dos factores.............................................................................................32
9. Experimentos factoriales con tres o ms factores .................................................................................40
10. Modelos de efectos aleatorios y mixtos ................................................................................................43
11. Diseos anidados ....................................................................................................................................49
12. Diseo de parcelas divididas .................................................................................................................53
13. Repaso de regresin lineal simple ........................................................................................................58
14. Regresin polinomial .............................................................................................................................62
15. Regresin lineal mltiple.......................................................................................................................66
16. Seleccin de variables en regresin mltiple .......................................................................................72
17. Anlisis de covarianza ...........................................................................................................................85
18. Documentacin y comunicacin de resultados ....................................................................................92
Bibliografa...................................................................................................................................................94
22
20
21
18
16
12
14
15
10
14
Y1 111
Y1 18.5
Y2 60
Y3 29
Y2 12.0
Y3 7.25
Y 200
La notacin que usaremos ser la siguiente: tenemos t tratamientos (en este caso t 3 ),
cada uno con ni repeticiones (en este caso n1 6, n2 5 y n3 4 ).
ni
i 1
Yi2 Y2
ni n
i, j
SCTot Yij2
i, j
Y2
3062 200
15
395.3333
317.0833
n
6
5
4
15
i ni
SCRes SCTot-SCTrat=78.2500
SCTrat
Fuente de
Variacin
Suma de
Cuadrados
Tratamiento
Residual (Error)
Total
317.0833
78.2500
395.3333
grados
de
libertad
2
12
14
Cuadrado
Medio
Valor p
158.5417
6.5208
24.313
0.00006
H 0 : 1 2 ... t
H a : al menos una i es diferente
La notacin que usaremos ser la misma que para el DCA: tenemos t tratamientos, cada
uno con n repeticiones (=bloques). En este caso Yij denota la observacin del
i simo tratamiento en el bloque j. Ahora tendremos una fuente adicional de variabilidad: los bloques. Las sumas de cuadrados se calculan de la siguiente manera:
i, j
Y2
i, j
nt
SCTratamientos=SCTrat n Yi Y
2
SCBloques=SCBl t Y j Y
2
2
j
Yi2 Y2
n nt
Y2
nt
i, j
Suma de
Cuadrados
SCTrat
SCBl
SCRes=SCE
Total
SCTot
grados de
libertad
t 1
n 1
n 1 t 1
Cuadrado
Medio
CMTrat
CMBl
CMRes=CME
F
F=CMTrat/CME
F=CMBl/CME
nt 1
Para obtener residuos en InfoStat debemos marcar en las opciones del anlisis de
varianza Guardar Residuos, Guardar Predichos, Guardar Residuos Estudentizados,
y Guardar Abs(Residuos). Los residuos son los definidos anteriormente, y dependen,
por supuesto, del diseo experimental usado. Los valores predichos son Yij , los residuos
estudentizados son los residuos divididos por su desviacin estndar (como siempre
tienen media 0, es una forma de estandarizarlos), y los abs(residuos) son los valores
absolutos de los residuos (recordemos que hay residuos positivos y negativos). Al
seleccionar estas opciones, se generarn nuevas columnas en los datos incluyendo estos
valores.
Una vez que tenemos los residuales podemos graficarlos mediante histogramas o el Q-Q
plot. Mediante este ltimo grfico, si los residuos son normales (y por lo tanto, los errores
lo son), se grafican los valores de los residuos (o residuos estudentizados) versus los
valores tericos que esperaramos si la distribucin fuese normal. Si la distribucin es
normal, entonces observaramos los puntos alineados en una recta. Si hay problemas,
entonces los puntos no se vern sobre la recta.
Residuos Observados
270
135
-135
-270
-270
-135
135
270
n
20
Media D.E.
0.00 127.67
W*
0.96
p (una cola)
0.7824
70
300
RDUO_Rendimiento
RDUO_PN
35
-35
150
-150
-70
18
31
44
57
70
-300
1750.0
PRED_PN
2187.5
2625.0
3062.5
3500.0
PRED_Rendimiento
Para este supuesto tambin se pueden realizar pruebas especficas. Entre las pruebas formales para
verificar este supuesto tenemos la prueba de Hartley ( Fmax ), Levene, etc. Estas pruebas contrastan
la hiptesis nula H 0 : 12 22 ... t2 con una alternativa general (las varianzas no son iguales).
Ver en la seccin 7.4 del libro de Ott los detalles de estas pruebas.
La prueba de Levene consiste en realizar un anlisis de varianza con el mismo modelo del original,
pero usando como variable dependiente (Y) a los valores absolutos de los residuales. Es la nica
prueba que podemos aplicar en todos los diseos que estudiaremos en este curso.
La prueba de Fmax consiste en realizar el cociente entre las varianzas mxima y mnima, comparando este cociente con un valor tabular (Tabla 12 en el libro). Solamente es vlida para datos
provenientes de un DCA. Si el valor de Fmax es mayor que el valor tabular, la hiptesis nula se
rechaza (es decir, el supuesto no se cumple).
Si se detecta que los supuestos no se cumplen algunas medidas comnmente usadas son la
transformacin de datos, el anlisis parcial (por ejemplo comparando slo algunos de los
tratamientos) y el uso de otros mtodos especficamente diseados para el problema particular (por
ejemplo, mtodos no paramtricos)
Las transformaciones se usan regularmente para problemas de varianzas heterogneas, falta de
normalidad y/o falta de aditividad. Las ms comnmente usadas son la logartmica, la raz cuadrada
y el arco-seno.
La transformacin logartmica, Y log Y o Y log(Y 1) , se usa para datos que exhiben efectos
multiplicativos (una forma de falta de aditividad) o cuyas varianzas son proporcionales al cuadrado
de las medias.
10
La transformacin raz cuadrada, Y Y o Y Y 0.5 , se usa para datos con varianzas que
cambian proporcionalmente a la media, como es frecuentemente el caso de recuentos de insectos u
otros organismos.
La transformacin arco seno, Y arcsen Y , se usa para datos expresados como porcentajes. Los
porcentajes deben estar basados en un denominador comn (por ejemplo, porcentaje de
germinacin calculado a partir de 50 semillas bajo distintos tratamientos). Si todos los datos estn
entre el 30 y el 70% esta transformacin no es necesaria.
Para presentar resultados de anlisis con datos transformados, todas las tablas estadsticas deben
mostrar los anlisis con los datos transformados. Adems, se pueden agregar las medias y los
lmites de confianza retransformados a la escala original. Las varianzas, errores estndar y
coeficientes de variacin no se deben retransformar a la escala original.
n i2
t 2
i . Para simplificar, se
Se puede observar que se deben formular todos los valores de i
puede usar una forma equivalente en la que solamente se indica la alternativa de tener al menos un
par de medias que son diferentes en D unidades (es decir, D es la diferencia mnima que se desea
detectar con una potencia (1 ) dada:
nD 2
2t 2
11
En InfoStat, se pueden usar el men Clculo del tamao muestral para dos muestras
independientes y para anlisis de varianza.
12
211.52
1.72 , por lo que la potencia es
2 4 2
aproximadamente 0.81:
13
5. Comparaciones mltiples
Recordemos que la hiptesis alternativa general del anlisis de la varianza es al menos
una de las medias es diferente. Cuando rechazamos la hiptesis nula estamos
concluyendo que hay diferencias, pero no sabemos exactamente cules de las medias son
diferentes. Una forma de responder a esta pregunta es planteando las siguientes hiptesis:
H0 : 1 2 ; H0 : 1 3 ; H0 : 1 4 ; ... H0 : 3 4
Para probar cada una de estas hiptesis podemos usar un estadstico t para dos muestras
independientes. Por ejemplo, para la primera,
Y Y
t 1 2
s p n11 n12
El problema de este enfoque es que se estn realizando mltiples inferencias sobre los
mismos datos, por lo que los errores de tipo I de cada una de las pruebas pueden
acumularse. Es decir, para todo el experimento, la probabilidad de rechazar al menos una
de estas hiptesis errneamente va a ser mayor del 5%. En otras palabras, podemos
detectar diferencias que no existen con mucha mayor frecuencia de lo esperado.
Esta prueba se denomina de la diferencia mnima significativa (DMS, o LSD en ingls)
de Fisher. Debido al problema de acumulacin potencial de errores, se han desarrollado
otras pruebas alternativas, y slo se recomienda usar el DMS cuando en la prueba F
global se ha rechazado la hiptesis nula. De esta manera, aunque sabemos que el es
vlido para cada comparacin individual y no para el conjunto de todas las
comparaciones, podemos aplicar esta prueba.
Cuando los tamaos de muestra son iguales, esta prueba se simplifica. Vamos a declarar
una diferencia significativa si t t 2 :
Yi Y j
sp
1
ni
1
nj
Yi Y j
2CME
n
o
2
Yi Y j t
2CME
DMS
n
2CME
, estaremos declarando la diferencia significativa si
2
n
Yi Y j DMS . Podemos observar que este caso la diferencia mnima significativa es la
Si definimos DMS t
14
2 26.3395
7.7334
4
1
52.925
2
42.025
5
37.700
3
34.150
4
21.975
>DMS
>DMS
>DMS
>DMS
>DMS
>DMS
<DMS
>DMS
<DMS
>DMS
4. Por ltimo ponemos letras iguales a las medias que no son significativamente
diferentes:
Tratamiento
Media
1
52.925 a
2
42.025 b
5
37.700 bc
3
34.150 c
4
21.975 d
Y
35.7
34.0
33.9
25.1
24.7
22.8
a. El primer paso va a ser comparar la media del tratamiento 3 con todas las que le siguen
(es decir, Y3 con Y1 , Y3 con Y5 , Y3 con Y4 , Y3 con Y2 , Y3 con Y6 ). Vamos a conectar con
una lnea las medias que no son significativamente diferentes (es decir, aqullas cuya
diferencia sea menor que DMS)
15
Tratamiento
Trat. 3
Trat. 1
Trat. 5
Trat. 4
Trat. 2
Trat. 6
Y
35.7
34.0
33.9
25.1
24.7
22.8
b. Ahora compararemos Y1 con todas las medias que le siguen, y conectaremos con lneas
las medias que no son significativamente diferentes de Y1 :
Tratamiento
Trat. 3
Trat. 1
Trat. 5
Trat. 4
Trat. 2
Trat. 6
Y
35.7
34.0
33.9
25.1
24.7
22.8
c. Cuando seguimos el proceso para Y5 , observamos que la media que le sigue, Y4 , tiene
una diferencia mayor que DMS, y por lo tanto no podemos poner una lnea que una Y5
con una media que est ms abajo.
d. Repetimos
el proceso para Y4 y Y2 :
Tratamiento
Trat. 3
Trat. 1
Trat. 5
Trat. 4
Trat. 2
Trat. 6
Y
35.7
34.0
33.9
25.1
24.7
22.8
e. Observar que hay una lnea (uniendo las medias 1 y 5) que est de ms, ya que las
medias 1 y 5 ya aparecen unidas por la lnea que va desde la media 3 hasta la media 5.
Por lo tanto, eliminamos la lnea redundante.
16
Tratamiento
Trat. 3
Trat. 1
Trat. 5
Trat. 4
Trat. 2
Trat. 6
Y
35.7
34.0
33.9
25.1
24.7
22.8
f. Ahora podemos dejar las lneas, o cambiar las lneas por letras iguales:
Tratamiento
Trat. 3
Trat. 1
Trat. 5
Trat. 4
Trat. 2
Trat. 6
Y
35.7
34.0
33.9
25.1
24.7
22.8
a
a
a
b
bc
c
g. Se debe observar que las medias que no estn unidas por lneas verticales (o la misma
letra) son significativamente diferentes entre s.
Tasas de error por comparacin y por experimento
Recordemos que la probabilidad de cometer error de tipo I se denominaba . Cuando
realizamos comparaciones de todos los pares posibles de medias, el error de tipo I sera
declarar que un par de medias difiere significativamente cuando en realidad son iguales.
Si consideramos cada comparacin individualmente (es decir, como una hiptesis
separada de las dems), el error de tipo I es concluir que esa comparacin es significativa
cuando en realidad esas medias no son diferentes. La probabilidad de cometer error de
tipo I para esta comparacin individual (promediada a travs de todas las comparaciones
y todos los experimentos posibles) es la tasa de error por comparacin, I .
Por otro lado, si consideramos a todas las comparaciones posibles como una sola
hiptesis, entonces realizar error de tipo I es decir que por lo menos un par de medias es
diferente cuando todas las medias son iguales. La probabilidad de cometer el error de tipo
I para todas las comparaciones en conjunto se denomina tasa de error por experimento,
E .
Supongamos que estamos simulando un experimento en el cual estamos comparando 3
tratamientos A, B, C (por lo tanto tenemos 3 comparaciones de a pares: A vs. B, A vs. C,
B vs. C). Supongamos adems que no hay diferencias entre las medias (por lo tanto, cada
vez que encontremos una diferencia estaremos cometiendo error de tipo I). Vamos a
indicar con * los casos en los que encontremos diferencias significativas, y con NS los
casos en los que no encontramos diferencias significativas. El experimento se simular 20
17
Comparaciones
A vs. B A vs. C B vs. C
NS
NS
NS
*
NS
NS
NS
NS
NS
NS
*
*
NS
NS
NS
*
NS
NS
NS
NS
NS
*
*
*
NS
*
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
*
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
*
*
NS
NS
NS
NS
NS
NS
18
BON=t
2m
2CME
2CME
t0.0025
n
n
Prueba de Tukey
Otra manera de evitar el problema de errores acumulados en las conclusiones del
experimento es usar mtodos alternativos a la prueba de DMS. La idea fundamental es
que la probabilidad de cometer el error de tipo I (declarar falsamente diferencias
significativas) se mantenga en el nivel especificado ( ) para todo el experimento,
aunque esto implique que para cada comparacin tomada individualmente la probabilidad
disminuya. Es decir, hacemos cada prueba individual ms conservadora, de manera que
globalmente la probabilidad de cometer al menos un error de tipo I se mantenga
razonablemente cerca del nivel especificado (usualmente 5%).
La prueba de Tukey se desarrolla con esta idea en mente, y consiste en usar un nivel
crtico mayor que el DMS. Este valor crtico es
CME
W q (t , )
,
n
donde q (t , ) se busca en la tabla 10 del libro con t tratamientos y grados de libertad
en el cuadrado medio del error. Si los tamaos de muestra son desiguales, el mtodo se
llama prueba de Tukey-Kramer y el valor crtico es
Wij q (t , )
CME 1 1
.
2 ni n j
W q (t , )
CME
26.3395
4.37
11.21
n
4
19
52.925-21.975=30.95
52.925-34.150=18.775
52.925-37.700=15.225
52.925-42.025=10.90
42.025-21.975=20.05
42.025-34.150=7.785
42.025-37.700=4.325
37.700-21.175=15.725
37.700-34.150=3.55
34.150-21.975=12.175
Tratamiento
Media
1
52.925 a
2
42.025 ab
5
37.700 b
>W
>W
>W
<W
>W
<W
<W
>W
<W
>W
3
34.150 b
4
21.975 c
Como podemos apreciar, esta prueba es ms conservadora que DMS (encuentra menos
diferencias significativas).
Para hacer comparaciones mltiples en Infostat debemos usar la solapa comparaciones
en la ventana de anlisis de varianza.
Para realizar comparaciones mltiples en SAS, debemos usar el comando MEANS. Por
ejemplo, para los datos del ejercicio 2 (laboratorio 2),
proc glm;
class bloque tratam;
model plantas = bloque tratam;
means tratam / lsd;
means tratam / bon;
means tratam / tukey;
run;
20
Levels
Values
Bloque
1234
tratam
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
2311.416667
462.283333
118.03
<.0001
Error
23.500000
3.916667
Corrected Total
11
2334.916667
Source
DF
Bloque
tratam
Type III SS
Mean Square
F Value
Pr > F
386.250000
128.750000
32.87
0.0004
1925.166667
962.583333
245.77
<.0001
0.05
3.916667
Critical Value of t
2.44691
3.4242
Mean
tratam
87.250
tratB
80.000
tratC
57.500
tratA
21
0.05
3.916667
Critical Value of t
3.28746
4.6005
Mean
tratam
87.250
tratB
80.000
tratC
57.500
tratA
0.05
3.916667
4.33902
4.2936
Mean
tratam
87.250
tratB
80.000
tratC
57.500
tratA
22
2CME
n
Observar que el trmino que se suma y resta en esta frmula es DMS, por lo que el
intervalo de confianza para la diferencia de dos medias es:
Yi Y j t /2
Yi Y j DMS
Si este intervalo incluye el valor de cero, las dos medias correspondientes no son
significativamente diferentes. Esto es lo que hemos usado cuando estudiamos la prueba
de DMS: si la diferencia de dos medias es menor que DMS, esas medias no son
significativamente diferentes. El intervalo va a incluir 0 si y solo si la diferencia de las
dos medias es menor que DMS.
23
6. Contrastes
La prueba F que realizamos en el ANOVA prueba la igualdad de medias (ausencia de
efectos de tratamientos) versus una alternativa general. Como hemos visto en las
conferencias anteriores, podemos realizar pruebas de comparaciones de a pares (DMS,
Tukey, etc.), pero esto puede traernos problemas: por una parte puede haber acumulacin
de errores, y por otra parte la interpretacin no siempre es simple. Cuando hay mucha
superposicin, es difcil realizar inferencias tiles.
Si los tratamientos tienen una estructura dada (no son simplemente 5 variedades, por
ejemplo), existen otras hiptesis que pueden resultar de mucho ms inters que las que
probamos con DMS. stas pueden escribirse como combinaciones lineales de medias.
Por ejemplo,
L ci i
Las ci son los coeficientes de la combinacin lineal. Un contraste se define como una
combinacin lineal con ci 0. Por ejemplo supongamos que estamos probando las
siguientes 5 dietas en pavos:
Grupo
1
2
3
4
5
Dieta
Control
Nivel 1, suplemento A
Nivel 2, suplemento A
Nivel 1, suplemento B
Nivel 2, suplemento B
2
2
Esto es equivalente a H 0 : 2 3 4 5 0 . Podemos verificar que esto es un
contraste, y estamos probando H 0 : L 0 . Observar que
1 1 1 1 0.
L ci i ci Yi Y ciYi
CME
L ci2 var
Yi ci2
var
ci2
ni
ni
24
H 0 : L 0, H a : L 0
s.e. L
L
CME
c n
i
2
i
CME
CME
Debemos observar que el numerador tiene 1 grado de libertad, y por lo tanto la suma de
cuadrados es igual al cuadrado medio.
Los contrastes pueden clasificarse en a priori y a posteriori. Los primeros son
contrastes que se postulan basndonos nicamente en la estructura de los tratamientos,
antes de mirar los datos. Este tipo de contraste es lo que deberamos usar casi siempre
que sea posible.
En la mayora de los casos tenemos ms de un contraste de inters. El problema de
acumulacin potencial de errores estar tambin presente en estos casos cuando tratemos
de obtener conclusiones para todos los contrastes conjuntamente.
El mtodo que hemos presentado, basado en la prueba t o F, controla la tasa de error por
comparacin (igual que el DMS). Esto es porque est diseado para contrastes
individuales. Si cada uno de los contrastes est diseado para responder a una pregunta
separada, el mtodo de t o F tambin puede usarse y la acumulacin de errores no ser
tan importante. Matemticamente estos contrastes se denominan ortogonales. Dos
contrastes L1 ai i y L2 bi i son ortogonales si ai bi 0 . Un conjunto de
contrastes es ortogonal si todos los pares posibles de contrastes son ortogonales entre s.
Si tenemos t tratamientos, no podemos tener ms de t 1 contrastes ortogonales en un
conjunto dado (los grados de libertad de tratamientos). En el ejemplo de los pavos un
conjunto ortogonal de inters podra ser
Grupo L1 L2 L3 L4
1
4
0
0
0
2
-1 1
0
1
3
-1 -1 0
1
4
-1 0
1 -1
5
-1 0 -1 -1
Observar que L1 compara la dieta control con el promedio de las otras, L2 compara los
dos niveles del suplemento A, L3 compara los dos niveles del suplemento B, y L4
25
Prueba de Scheff
Este procedimiento puede usarse para cualquier contraste, ya que controla la tasa de error
para todos los contrastes posibles, sean estos sugeridos por los datos, ortogonales, no
ortogonales, de a pares, etc. Dado que es una prueba tan general, tiende a ser muy
conservadora (por ejemplo, casi nunca se la usa para comparaciones de a pares, que son
un caso particular de contrastes a priori no ortogonales).
Para usar la prueba de Scheff debemos calcular el estadstico F mencionado
anteriormente, y el criterio de rechazo ser
Rechazar H 0 si F (t 1) F ; t 1,dfe
donde t es el nmero de tratamientos usados. (El texto presenta una versin equivalente
de la prueba de Scheff que usa el estadstico t, no el estadstico F)
Para realizar pruebas F en contrastes podemos usar Infostat o SAS. En Infostat debemos
abrir la ventana de contrastes, indicando los tratamientos y los coeficientes. Opcionalmente podemos solicitar que se verifique la ortogonalidad de los contrastes. Para el
ejemplo de las dietas de pavos,
Se debe destacar que el usuario debe decidir de antemano qu prueba va a realizar:
1. Si es una prueba F sin ninguna correccin por contrastes mltiples,
Rechazar H 0 si p
2. Si es una prueba F con correccin de Bonferroni por realizar m contrastes,
Rechazar H 0 si p / m
3. Si es una prueba de Scheff,
Rechazar H 0 si F (t 1) F ; t 1,dfe
26
Contrastes
Tratamiento
SC
Contraste1 3060357.61
Contraste2
450300.50
Contraste3
41616.13
Contraste4
739170.06
Total
4291444.30
gl
1
1
1
1
4
CM
3060357.61
450300.50
41616.13
739170.06
1072861.08
F
118.57
17.45
1.61
28.64
41.57
Cont. 3
0.00
0.00
0.00
1.00
-1.00
valor p
<0.0001
0.0013
0.2282
0.0002
<0.0001
Cont. 4
0.00
1.00
1.00
-1.00
-1.00
27
Da
L
Ma
Mi
J
1
Trat A
Trat C
Trat D
Trat B
Analista
2
3
Trat A Trat B
Trat B Trat C
Trat D Trat A
Trat C Trat D
4
Trat A
Trat C
Trat B
Trat D
Podemos ver que si hubiese un efecto de da (por ejemplo, los lunes no son tan confiables
como los mircoles), entonces algunos tratamientos pueden verse afectados (por ejemplo,
el A aparece 3 veces en lunes). Para evitar esto podramos hacer que cada da tambin sea
un bloque completo (es decir, que todos los tratamientos estn representados). Un posible
arreglo de tratamientos sera:
Analista
2
3
4
Da 1
L
Trat A Trat D Trat B Trat C
Ma Trat C Trat B Trat D Trat A
Mi Trat D Trat C Trat A Trat B
J
Trat B Trat A Trat C Trat D
Este diseo se denomina cuadrado latino, y tiene la ventaja de controlar dos fuentes de
variacin (en nuestro ejemplo el analista y el da). Es bastante rgido, ya que requiere,
para t tratamientos, t filas y t columnas. Su principal desventaja es que las diferencias
entre los tratamientos no deben estar afectadas por las filas o las columnas (es decir, si el
tratamiento A es mejor que el B, debe serlo en los 4 analistas). La forma ms comn de
aleatorizar los tratamientos es eligiendo al azar de una tabla de cuadrados latinos uno del
tamao deseado (o armar uno en forma no aleatoria), y despus aleatorizar los nmeros
de filas, los nmeros de columnas y los nmeros de tratamientos.
El modelo que describe los datos provenientes de este diseo es el siguiente:
Yijk i j k ijk
La notacin que usaremos ser la misma que para el DBCA: tenemos t tratamientos,
Yijk denota la observacin del i simo tratamiento en la fila j y la columna k.
28
Ahora tendremos dos fuentes adicionales de variabilidad: las filas y las columnas. Las
sumas de cuadrados se calculan de la siguiente manera:
2
2
SCTotal=SCTot Yijk Y Yijk2 Y 2
t
2
Yi2 Y
2
t
t
SCTratamientos=SCTrat t Yi Y
2
SCFilas= t Y j Y
2
2
j
Y
t
2
Y2 k Y
2
t
t
k
k
SCResidual=SCError=SCRes SCTot-SCTrat-SCFilas-SCCol
SCColumnas= t Yk Y
2
SCTot
grados de
libertad
t 1
t 1
t 1
t 1 t 2
Cuadrado
Medio
CMTrat
CMFilas
CMCol
CMRes=CME
F
F=CMTrat/CME
F=CMFila/CME
F=CMCol/CME
t 2 1
Las hiptesis que probamos, los supuestos y los mtodos de comparaciones mltiples se
aplican de la misma manera que lo que hemos estudiado para DCA y DBCA.
Ejemplo: ste es el ejercicio 15.8 del libro de Ott (leer la descripcin del mismo all).
data melon;
input fila col trat peso;
datalines;
1 1 1 1.75
1 2 3 1.43
1 3 4 1.28
1 4 2 1.66
2 1 2 1.70
2 2 1 1.78
2 3 3 1.40
2 4 4 1.31
3 1 4
3 2 2
3 3 1
3 4 3
4 1 3
4 2 4
4 3 2
4 4 1
proc glm;
class fila
model peso
29
1.35
1.73
1.69
1.41
1.45
1.36
1.65
1.73
col trat;
= fila col trat; run;
Levels
Values
fila
1234
col
1234
trat
1234
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
0.49335000
0.05481667
438.53
<.0001
Error
0.00075000
0.00012500
Corrected Total
15
0.49410000
R-Square
Coeff Var
Root MSE
peso Mean
0.998482
0.724819
0.011180
1.542500
Source
DF
Type III SS
Mean Square
F Value
Pr > F
fila
0.00085000
0.00028333
2.27
0.1810
col
0.01235000
0.00411667
32.93
0.0004
trat
0.48015000
0.16005000
1280.40
<.0001
Para analizar los mismo datos en Infostat debemos seleccionar fila, columna y tratam
como variables de clasificacin:
30
31
32
Media
60
50
B12=0
40
B12=5
30
20
0
10
20
30
40
Antibitico
Media
60
50
B12=0
40
B12=5
30
20
0
10
20
30
40
Antibitico
33
12 11 1 2 1 1 2 1
22 21 2 2 2 1 2 1
Si hubiese interaccin esta igualdad no se cumplira. Por lo tanto, el trmino ij
representa la interaccin entre ambos factores. Los trminos i y j representan los
efectos principales del primer y segundo factor respectivamente. Estos efectos
principales pueden interpretarse como el efecto de un factor promediado sobre todos los
niveles del otro factor (ya discutiremos este concepto ms adelante).
Para armar nuestra tabla de ANOVA supongamos que el primer factor lo llamamos A, y
este factor tiene a niveles. Similarmente, el factor B tiene b niveles, y tenemos n
observaciones por tratamiento (combinacin de niveles de A y B).
Usando la notacin de puntos,
Yi : total para el nivel i del factor A
Y j : total para el nivel j del factor B
Yij : total para el tratamiento ij
(combinacin del nivel i de A y nivel j de B)
Y : total de todas las observaciones
2
2
SCTotal=SCTot Yijk Y Yijk2 Y
nab
2
Yi2 Y
abn
i bn
2
2
Y j Y
abn
j an
SCA bn Yi Y
2
SCB= an Y j Y
j
Yij2
2
Y
SCA SCB
n nab
SCResidual=SCError=SCRes SCTot-SCA-SCB-SCAB
SCAB=SCTratamientos-SCA-SCB=
grados de
libertad
a-1
b-1
(a-1)(b-1)
ab(n-1)
abn-1
34
Cuadrado
Medio
CMA
CMB
CMAB
CMRes=CME
F
F=CMA/CME
F=CMB/CME
F=CMAB/CME
La primera hiptesis que debemos probar siempre es si hay o no hay interaccin. Si hay
interaccin, las hiptesis de efectos principales no tienen demasiado sentido y por lo tanto
no deberamos interpretarlas (excepto bajo ciertas circunstancias).
Si no hay interaccin significativa, los efectos principales s tienen interpretacin, y por
lo tanto podemos probarlos.
Vamos a ver nuevamente el ejemplo presentado antes (factorial 2x2) para entender mejor
los conceptos de efectos principales e interacciones. Supongamos que observamos tres
cerdos en cada tratamiento (DCA) y observamos la ganancia diaria de peso:
Tratamiento
Antibitico
Vitamina B12
1
2
3
4
0
40
0
40
0
0
5
5
Yij
1.19
1.03
1.22
1.54
Bajo el nivel 0 de antibitico (factor A) podemos estimar el efecto simple del factor B:
Y12 Y11 1.22 1.19 0.03
Similarmente el efecto simple del factor B cuando el factor A est en su segundo nivel se
estima como:
Y22 Y21 1.54 1.03 0.51
El efecto principal del factor B es el promedio de estos dos efectos simples, y es tambin
la diferencia entre las medias de los niveles de B:
.51 .03
Y2 Y1
0.27
2
Si los efectos simples no son significativamente diferentes, entonces s tiene sentido
promediarlos para obtener el efecto principal. Pero si los efectos simple son
significativamente diferentes, entonces estamos en presencia de interaccin y no tendra
sentido promediarlos. Por lo tanto, la interaccin puede estimarse mediante la diferencia
de los efectos simples:
Interaccin: Y22 Y21 Y12 Y11 0.51 0.03 0.48
Como ejercicio, calcular los efectos simples y principal del factor A. Verificar que
usando estos efectos simples la interaccin es la misma. (Esto tiene sentido, ya que la
interaccin es un concepto que comprende los dos factores.)
35
Levels
Values
antib
0 40
vitb12
05
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
0.41233333
0.13744444
37.48
<.0001
Error
0.02933333
0.00366667
Corrected Total
11
0.44166667
R-Square
Coeff Var
Root MSE
ganpeso Mean
0.933585
4.857193
0.060553
1.246667
Source
DF
Type III SS
Mean Square
F Value
Pr > F
antib
0.02083333
0.02083333
5.68
0.0443
vitb12
0.21870000
0.21870000
59.65
<.0001
antib*vitb12
0.17280000
0.17280000
47.13
0.0001
36
Otra manera de ver este problema es mediante contrastes. Olvidndonos por un momento
de los dos factores, nosotros tenemos aqu un DCA con 4 tratamientos. Mediante
contrastes apropiados podemos probar las mismas hiptesis (adems podramos escribir
contrastes para efectos simples de ser necesario):
proc glm;
class tratam;
model ganpeso = tratam;
contrast 'Ef. ppal. A' tratam -1 1 -1 1;
contrast 'Ef. ppal. B' tratam -1 -1 1 1;
contrast 'Interac. AB' tratam 1 -1 -1 1;
run;
Class Level Information
Class
Levels
Values
tratam
1234
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
0.41233333
0.13744444
37.48
<.0001
Error
0.02933333
0.00366667
Corrected Total
11
0.44166667
R-Square
Coeff Var
Root MSE
ganpeso Mean
0.933585
4.857193
0.060553
1.246667
Source
DF
Type III SS
Mean Square
F Value
Pr > F
tratam
0.41233333
0.13744444
37.48
<.0001
Contrast
DF
Contrast SS
Mean Square
F Value
Pr > F
Ef. ppal. A
0.02083333
0.02083333
5.68
0.0443
Ef. ppal. B
0.21870000
0.21870000
59.65
<.0001
Interac. AB
0.17280000
0.17280000
47.13
0.0001
37
Media
Interaccin Ordenada
50
40
30
20
10
0
B=1
B=2
B=3
0
Media
Interaccin No Ordenada
25
20
15
10
5
0
B=1
B=2
B=3
0
38
s.e. Y3 Y1
2CME
an
2CME
n
39
2
2
2
2
Observar que los niveles de sexo (tercer ndice) estn promediados, ya que la interaccin
considerada es entre antibitico y vitamina.
40
La interaccin triple se puede interpretar como que la interaccin doble entre dos de los
factores en un nivel dado del factor restante no es la misma que la interaccin doble en el
otro nivel del factor restante. Por ejemplo, la interaccin triple podra interpretarse como
que la interaccin entre el antibitico y la vitamina no es la misma en machos que en
hembras:
111 121 211 221 112 122 212 222
Para armar nuestra tabla de ANOVA supongamos que el primer factor lo llamamos A, y
este factor tiene a niveles. Similarmente, el factor B tiene b niveles, el factor C tiene c
niveles y tenemos n observaciones por tratamiento (combinacin de niveles de A, B y C).
Usando la notacin de puntos,
Yi : total para el nivel i del factor A
Y j : total para el nivel j del factor B
Yk : total para el nivel k del factor C
Yij : total para la combinacin del nivel i de A y nivel j de B
Yik : total para la combinacin del nivel i de A y nivel k de C
Y jk : total para la combinacin del nivel j de B y nivel k de C
Yijk : total para el tratamiento ijk
Y : total de todas las observaciones
Las frmulas para las sumas de cuadrados pueden consultarse en la pgina 907 del texto.
La siguiente es la tabla de ANOVA:
Fuente de
Variacin
A
B
C
AB
AC
BC
ABC
Residual (Error)
Total
Suma de
Cuadrados
SCA
SCB
SCC
SCAB
SCAC
SCBC
SCABC
SCRes=SCE
SCTot
grados
libertad
a-1
b-1
c-1
(a-1)(b-1)
(a-1)(c-1)
(b-1)(c-1)
(a-1)(b-1) (c-1)
abc(n-1)
abcn-1
41
Cuadrado
Medio
CMA
CMB
CMC
CMAB
CMAC
CMBC
CMABC
CMRes=CME
F
F=CMA/CME
F=CMB/CME
F=CMC/CME
F=CMAB/CME
F=CMAC/CME
F=CMBC/CME
F=CMABC/CME
La estrategia general para analizar esta tabla es la misma que para factoriales con dos
factores: empezar a probar la interaccin de mayor orden, seguir con las dobles de
acuerdo al resultado de la prueba de la interaccin triple, etc. Un diagrama que nos puede
ayudar en esto es el siguiente (ver pgina 909 en el texto, quinta edicin):
42
43
Fuente de variacin
Tratamiento
Error
Aqu podemos ver la justificacin para la prueba F: bajo la hiptesis nula tanto el
numerador como el denominador tienen el mismo valor esperado, mientras que bajo la
hiptesis alternativa el numerador tiene un valor esperado ms alto que el denominador
(de ah que rechacemos la hiptesis nula para valores altos del estadstico).
El mismo concepto de efectos aleatorios lo podemos extender a situaciones con ms de
un factor, con bloques, etc. Supongamos que estamos estudiando un proceso de
empacado de pescado en una fbrica. Escogemos 4 mquinas al azar entre todas las
disponibles, y 3 operarios al azar entre los 200 operarios de la fbrica. Para cada
combinacin de mquina y operario escogemos 5 paquetes al azar de la lnea de
produccin. Debemos notar que ste es un experimento factorial 4x3 con 5 repeticiones
en un DCA, pero ambos efectos son aleatorios (si volvisemos a realizar el experimento,
tanto las mquinas como los operarios seran diferentes). El modelo en este caso es
Yijk i j ij ijk
i ~ N 0, 2 , j ~ N 0, 2
2
ij ~ N 0,
, ijk ~ N 0, 2
Todos los efectos aleatorios son independientes entre s.
ijk ~ N 0, 2
44
Los cuadrados medios esperados para factoriales pueden resumirse en la siguiente tabla:
Fuente
de
variacin
A
B
A y B Fijos
2 nbi2 (a 1)
2 na 2j (b 1)
2
2 n
nb 2
2
2 n
nbi2 (a 1)
2
2 n
na 2
2 na 2
AB
2 nij2 (a 1)(b 1)
2
2 n
2
2 n
Error
A partir de esta tabla es bastante directo encontrar las hiptesis y la forma de construir
estadsticos F para probarlas. La clave es siempre encontrar un numerador y un
denominador para el estadstico F que tengan el mismo valor esperado bajo la hiptesis
nula. Por ejemplo, en el modelo mixto para probar el efecto principal del factor A
tenemos que H 0 : 1 2 ... a 0 , y para probarla podemos construir el siguiente
CMA
estadstico: F
. Todas estas frmulas son vlidas slo si los datos son
CMAB
balanceados (igual nmero de repeticiones por combinacin de niveles de factores). En
caso contrario se debe usar otra metodologa.
Como ejemplo en SAS, consideremos el modelo mixto discutido antes con 5 dosis de
fertilizante (fijas) y 4 variedades (aleatorias).
data ensayo;
input fertil varied rendim;
datalines;
1 1 7.2
1 2 4.2
1 3 9.5
1 4 5.4
1 1 9.6
1 2 3.5
1 3 9.3
1 4 3.9
2 1 8.5
2 2 2.9
2 3 8.8
2 4 6.3
2 1 9.6
2 2 3.3
2 3 9.2
2 4 6.0
3 1 9.1
3 2 1.8
3 3 7.6
3 4 6.1
3 1 8.6
3 2 2.4
3 3 7.1
3 4 5.6
4 1 8.2
4 2 3.6
4 3 7.3
4 4 5.0
4 1 9.0
4 2 4.4
4 3 7.0
4 4 5.4
5 1 7.8
5 2 3.7
5 3 9.2
5 4 6.5
5 1 8.0
5 2 3.9
5 3 8.3
5 4 6.9
proc glm;
class fertil varied;
model rendim = fertil|varied;
test h=fertil e=fertil*varied;
run;
45
Levels
Values
fertil
12345
varied
1234
40
40
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
19
200.1027500
10.5317237
30.42
<.0001
Error
20
6.9250000
0.3462500
Corrected Total
39
207.0277500
R-Square
Coeff Var
Root MSE
rendim Mean
0.966550
9.063229
0.588430
6.492500
Source
DF
Type III SS
Mean Square
F Value
Pr > F
fertil
3.8115000
0.9528750
2.75
0.0567
varied
180.1327500
60.0442500
173.41
<.0001
fertil*varied
12
16.1585000
1.3465417
3.89
0.0037
Tests of Hypotheses Using the Type III MS for fertil*varied as an Error Term
Source
fertil
DF
4
Type III SS
3.81150000
Mean Square
0.95287500
46
F Value
0.71
Pr > F
0.6020
2 CME .346
CMAB-CME 1.34654 .34625
.500
n
2
CMB-CME 60.04425 .34625
2
5.970
an
5 2
Las frmulas de cuadrados medios esperados a partir de las cuales podemos deducir estas
estimaciones de las varianzas son vlidas slo para igual nmero de repeticiones. Para
nmero desigual de repeticiones, situaciones con estimados negativos, etc. debemos usar
otro mtodo llamado REML (implementado en SAS Proc Mixed o en el mdulo de
modelos mixtos de InfoStat, pero que no lo estudiamos en este curso).
Para realizar el mismo ejemplo en Infostat, debemos indicar directamente en las especificaciones del modelo el denominador de los estadsticos F de todos los efectos que usen
como denominador algo diferente del cuadrado medio de error. En nuestro ejemplo, notar
que en modelo escribimos FERTIL\FERTIL*VARIEDAD (sin espacios intermedios)
47
Anlisis de la varianza
Variable
N
R
R Aj CV
rendim
40
0.97
0.93 9.06
Cuadro de Anlisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
F
p-valor
Modelo
200.10 19
10.53
30.42 <0.0001
Fertil
3.81 4
0.95
0.71 0.6020
variedad
180.13 3
60.04 173.41 <0.0001
Fertil*variedad
16.16 12
1.35
3.89 0.0037
Error
6.93 20
0.35
Total
207.03 39
48
(Error)
(Fertil*variedad)
49
Suma de Cuadrados
2
Yi2 Y
abn
i bn
2
Y
Y2
SCB(A)= ij SCA
n nab
SCE=SCTot-SCA-SCB(A)
2
SCTot Yijk2 Y
nab
B(A)
Error
Total
SCA
grados
de
libertad
a-1
Cuadrado
Medio
CMA
a(b-1)
CMB(A)
ab(n-1)
abn-1
CME
Los cuadrados medios esperados para anidados pueden resumirse en la siguiente tabla:
Fuente de variacin
A
B(A)
2 n 2
2 n 2
Error
A partir de esta tabla es bastante directo encontrar las hiptesis y la forma de construir
estadsticos F para probarlas. La clave es la misma de la clase anterior: encontrar un
numerador y un denominador para el estadstico F que tengan el mismo valor esperado
bajo la hiptesis nula. Por ejemplo, en el modelo mixto para probar el efecto principal del
factor A tenemos que H 0 : 1 2 ... a 0 , y para probarla podemos construir el
CMA
siguiente estadstico: F
. Todas estas frmulas son vlidas slo si los datos
CMB(A)
son balanceados (igual nmero de repeticiones por nivel de B, e igual nmero de niveles
de B por nivel de A). En caso contrario se debe usar otra metodologa (como Proc Mixed
en SAS o el mdulo de modelos mixtos en InfoStat, que hemos mencionado para casos
desbalanceados en modelos de efectos aleatorio o mixtos estudiados en el captulo
anterior).
50
Como ejemplo en SAS e Infostat, consideremos el modelo mixto del ejemplo 1 con 2
marcas de jugo, 6 cartones por marca y 2 muestras por cartn.
data naranja;
input marca $ carton muestra
vitam;
datalines;
a 1 1 680
a 1 2 645
a 2 1 438
a 2 2 460
a 3 1 539
a 3 2 565
a 4 1 264
a 4 2 278
a 5 1 693
a 5 2 650
a 6 1 530
a 6 2 585
b 7 1 418
b 7 2 457
b 8 1 475
b 8 2 490
b 9 1 345
b 9 2 321
b 10 1 298
b 10 2 245
b 11 1 546
b 11 2 597
b 12 1 475
b 12 2 444
proc glm;
class marca carton;
model vitam = marca
carton(marca);
test h=marca e=carton(marca);
means marca;
run;
Levels
Values
marca
ab
carton
12
1 2 3 4 5 6 7 8 9 10 11 12
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
11
402713.8333
36610.3485
54.41
<.0001
Error
12
8074.0000
672.8333
Corrected Total
23
410787.8333
R-Square
Coeff Var
Root MSE
vitam Mean
0.980345
5.442706
25.93903
476.5833
Source
DF
marca
carton(marca)
10
Type III SS
Mean Square
F Value
Pr > F
61610.6667
61610.6667
91.57
<.0001
341103.1667
34110.3167
50.70
<.0001
51
Tests of Hypotheses Using the Type III MS for carton(marca) as an Error Term
Source
DF
marca
Type III SS
Mean Square
61610.66667
Level of
marca
61610.66667
F Value
1.81
Pr > F
0.2087
vitam
Mean
Std Dev
12
527.250000
144.145838
12
425.916667
104.715596
Anlisis de la varianza
Variable
Columna4
N
24
R
0.98
R Aj
0.96
CV
5.44
52
F
54.41
1.81
50.70
valor p
(Error)
<0.0001
0.2087 (Marca>Cartn)
<0.0001
Yijk i k (i ) j ij ijk
Aqu k (i ) es el efecto (aleatorio) de la repeticin k en el tratamiento i (efecto de la
parcela completa). Si las parcelas completas estuviesen en un DBCA entonces debemos
agregar un efecto de bloques:
Yijk i k ik j ij ijk
Los cuadrados medios esperados (ambos factores se consideran fijos) para este diseo
son
53
Fuente de
variacin
Bloques
2 b 2 ab k2 (n 1)
n-1
2 b 2 nbi2 (a 1)
a-1
2 b 2 nbi2 (a 1)
a-1
Error 1
2 b 2
a(n-1)
2 b 2
(a-1)(n-1)
2 na 2j (b 1)
2 na 2j (b 1)
b-1
b-1
AB
2 nij2 (a 1)(b 1)
(a-1)(b-1)
2 nij2 (a 1)(b 1)
(a-1)(b-1)
Error 2
a(b-1)(n-1)
a(b-1)(n-1)
abn-1
Total
abn-1
A partir de esta tabla es bastante directo encontrar las hiptesis y la forma de construir
estadsticos F para probarlas. Es claro que para probar el efecto principal del factor A (y
el efecto de bloques) debemos usar como denominador el error de parcela completa
(error 1), ya que la aleatorizacin de niveles de este factor se hizo sobre las parcelas
completas. Similarmente, para probar efecto principal de B o interaccin debemos usar
como denominador el error de subparcela (error 2).
Para realizar los clculos de las sumas de cuadrados veamos el siguiente ejemplo, en el
que hay dos niveles de irrigacin (aplicados a parcelas completas en un DCA con 3
repeticiones) y 2 variedades (aplicados a subparcelas).
Irrigacin
sin
sin
con
con
Variedad
1
2
1
2
Repet. 1
63
33
53
38
Parcelas completas
Totales
1
96
2
95
Irrigacin
Totales
sin
288
con
306
Variedad
Totales
1
341
2
253
Repet. 2
52
43
69
49
3
97
4
91
54
Repet. 3
49
48
55
42
5
118
6
97
Totales
164
124
177
129
594
Levels
Values
riego
con sin
variedad
12
repet
123
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
879.666667
125.666667
2.12
0.2442
Error
237.333333
59.333333
Corrected Total
11
1117.000000
R-Square
Coeff Var
Root MSE
rendim Mean
0.787526
15.56124
7.702813
49.50000
55
Source
DF
Type III SS
Mean Square
F Value
Pr > F
riego
27.0000000
27.0000000
0.46
0.5369
repet(riego)
202.0000000
50.5000000
0.85
0.5602
variedad
645.3333333
645.3333333
10.88
0.0300
riego*variedad
5.3333333
5.3333333
0.09
0.7793
Tests of Hypotheses Using the Type III MS for repet(riego) as an Error Term
Source
riego
DF
1
Type III SS
27.00000000
Mean Square
27.00000000
F Value
0.53
Pr > F
0.5052
56
p-valor
0.2442
0.5052
0.5602
0.0300
0.7793
(Error)
(riego>repet)
Medias
(ejemplo)
Yi Yi
Y1 Y2
Y j Y j
2 Y3
Yij Yij
11
Y12
Error estndar de la
diferencia
Valor tabular
2CME1
t gl1
2CME2
2CME2
nb
na
t gl 2
t gl 2
Yij Yij
Y
Y
11
11
Y21
Y32
2CME2
(aprox.)
57
t gl 2 (aprox.)
8
6
4
2
0
10
x
Un modelo ms realista es pensar que la lnea recta representa la relacin entre la media
de las Y para un valor dado de x y la variable independiente: Y 0 1 x . Otra forma
de escribir este modelo es
Y 0 1 x
donde es el error aleatorio y representa la diferencia entre el valor de Y y su media Y
(o lo que es lo mismo, entre el valor observado y la recta). La media de estos errores
aleatorio para un valor dado de x es 0 (es decir, los valores positivos y negativos se
balancean) y por lo tanto ambas formulaciones de este modelo estocstico son
equivalentes.
58
Observar que esto no es lo mismo que el error aleatorio i , que es la diferencia entre cada
valor observado y la recta verdadera (poblacional).
Para estimar la recta vamos a usar el mtodo de mnimos cuadrados, que consiste en
elegir los parmetros 0 , 1 que minimicen la suma de los cuadrados de los errores de
prediccin:
N
i 1
i 1
(Yi Yi )2 (Yi o 1 xi )2
Los estimadores son
S xy
S xx
S xx ( X i X ) X X i
i 1
i 1
i 1
N
0 Y 1 x
2
i
i 1
i 1
i 1
i 1
S xy ( X i X )(Yi Y ) X iYi X i Yi N
Ejemplo: Relacin entre el peso de gallinas (lb) y el consumo de alimento durante 1 ao.
Peso Consumo
4.6
87.1
5.1
93.1
4.8
89.8
4.4
91.4
5.9
99.5
4.7
92.1
5.1
95.5
5.2
99.3
4.9
93.4
5.1
94.4
59
102
PRED_Consumo
98
94
90
86
4.0
4.5
5.0
5.5
6.0
Peso
Coeficientes de regresin y estadsticos asociados
Coef Est.
EE
LI(95%)
LS(95%)
T
valor p
const 55.26 9.53
33.28
77.25
5.80
0.0004
Peso
7.69 1.91
3.29
12.09
4.03
0.0038
CpMallows
15.54
Yi 0 1 xi i
Vamos a asumir que este es el modelo correcto, que los 1 ,..., N son independientes y
tienen distribucin normal con media 0 y varianza constante:
i ~ N 0,
La tabla de anlisis de varianza que nos permite partir la variabilidad total es:
Fuente de
Variacin
Regresin
Residual (Error)
Total
Suma de
grados de Cuadrado Medio
F
Cuadrados
libertad
SCRegresin
1
CMReg=SCReg/1 F=CMReg/CME
SCResidual=SCE
N-2
CME=SCE/(N-2)
SCTotal
N-1
60
SCTotal SYY Yi Y Yi
2
S
SCResidual Y Y =SCTotal SCRegresin
SCRegresin Yi Y
XY
N S xx
,
1
S xx
61
Yij 0 1 xij ij . Veamos cmo sera el modelo para observaciones de cada una de las
dosis:
Dosis
0
Modelo de ANOVA
Modelo de regresin
Y1 j 1 1 j
Y1 j 0 1 j
50
Y2 j 2 2 j
Y2 j 0 501 2 j
100
Y3 j 3 3 j
Y3 j 0 1001 3 j
200
Y4 j 4 4 j
Y4 j 0 2001 4 j
Podemos ver la diferencia entre ambos modelos. En el ANOVA estamos ajustando una
media diferente para cada dosis ( i i ) mientras que en regresin lineal simple la
media de cada dosis se calcula a partir de la ecuacin lineal. En ANOVA tenemos cuatro
parmetros (aparecen 5 en las frmulas pero la suma de los efectos es cero, as que
efectivamente son 4); mientras que en regresin lineal simple tenemos slo dos
parmetros (intercepto y pendiente).
Cul de los dos modelos ser mejor? Por una parte el ANOVA siempre tendr una SCE
ms pequea (o a lo sumo igual) que la de la regresin, pero los grados de libertad
tambin son menos (ANOVA tiene ms parmetros que regresin lineal simple), por lo
que no sabemos lo que pasa con el CME. Si el modelo de regresin ajusta bien (es decir,
explica bien los datos) entonces ser ms til (podramos predecir qu pasa con una dosis
de 75, por ejemplo). Aunque el modelo de regresin no ajusta, el de ANOVA siempre lo
har, ya que no hay ninguna funcin a la que las medias deban ajustarse: simplemente
cada tratamiento tiene su media.
Cmo podemos probar si el modelo de regresin lineal simple ajusta bien? La forma
ms sencilla e intuitiva de hacerlo es a travs de la comparacin de las sumas de cuadrado
de error de ambos modelos: si son bastante parecidas, entonces razonablemente podremos
decir que el modelo de regresin lineal ajusta bien. Si la del ANOVA es sustancialmente
menor, entonces obviamente las medias no siguen una relacin de lnea recta sino que
necesitaramos otro modelo para explicar su relacin. Es decir, necesitaremos dos tablas
de ANOVA: una para el modelo de ANOVA y otra para el modelo de regresin lineal
simple. Denotaremos como SCEANOVA y SCEREG a las sumas de cuadrado de error de
ambos modelos. Podemos construir un estadstico F como
SCE REG -SCE ANOVA
gleREG -gleANOVA
F
CME ANOVA
62
La regin de rechazo son los valores F F , con los grados de libertad apropiados.
Debemos notar que para probar esta hiptesis necesitamos que haya valores de Y
repetidos para al menos algunos de los valores de x, cosa que no siempre sucede en
regresin.
Qu hacemos si el modelo de regresin lineal simple no ajusta? Una de las alternativas
ya la conocemos: podemos olvidarnos de la regresin y comparar las medias mediante las
tcnicas de ANOVA (comparaciones mltiples, contrastes, intervalos de confianza, etc.)
La otra alternativa es usar un modelo de regresin ms complejo, que permita estudiar
relaciones curvilneas. Entre estos modelos tenemos los polinomios, las ecuaciones
exponenciales, logartmicas, etc. El polinomio es la extensin natural de la ecuacin
lineal simple, y consiste en suma de distintas potencias de x. Por ejemplo un modelo
polinomial de tercer grado es:
Yij 0 1 xij 2 xij2 3 xij3 ij
Ahora vemos que tenemos un modelo mucho ms flexible, pero con mayor cantidad de
parmetros (en este ejemplo, la misma cantidad que el modelo de ANOVA considerado
antes). En modelos polinomiales podemos aplicar la misma prueba de falta de ajuste
presentada antes, pero de manera secuencial. Es decir, empezamos probando si el
polinomio de primer grado ajusta. Si aceptamos la hiptesis nula entonces no es necesario
hacer nada ms: el modelo rectilneo es apropiado. Si rechazamos la nula, entonces
probaramos si un modelo cuadrtico es apropiado, y as seguiremos probando hasta
encontrar un grado del polinomio que sea apropiado. Si tenemos t tratamientos el grado
mximo del polinomio que podremos ajustar es t-1, ya que en ese caso los grados de
libertad de regresin son los mismos que los grados de libertad de tratamientos (en
efecto, los modelos son exactamente iguales).
Ejemplo: En este ejemplo tenemos rendimientos de tomate bajo cinco regmenes de
humedad diferentes: 6, 8, 10, 12 y 14%. Hay 5 repeticiones de cada tratamiento, ubicadas
en un DCA.
rend.
hum.
rend.
49.2
48.1
48.0
49.6
47.0
51.5
51.7
50.4
6.0
6.0
6.0
6.0
6.0
8.0
8.0
8.0
51.2
48.4
51.1
51.5
50.3
48.9
48.7
48.6
hum.
8.0
8.0
10.0
10.0
10.0
10.0
10.0
12.0
63
rend.
47.0
48.0
46.4
46.2
43.2
42.6
42.1
43.9
40.5
hum.
12.0
12.0
12.0
12.0
14.0
14.0
14.0
14.0
14.0
En Infostat usamos el men Regresin lineal, con las opciones de Error Puro para
probar la falta de ajuste, y en la solapa Polinomios podemos seleccionar el orden
deseado.
N
25
R
0.48
R Aj
0.46
Coef
Est.
EE
const
humedad
55.38
-0.76
1.71
0.17
LI(95%)
51.84
-1.10
LS(95%)
58.93
-0.42
T
32.29
-4.62
valor p
CpMallows
<0.0001
0.0001
21.48
64
Rendimiento de Tomate
54.0
Rendim
50.5
47.0
43.5
40.0
6
10
12
14
humedad
Al ajustar un modelo de regresin polinomial de segundo orden (cuadrtica) obtenemos
los siguientes resultados:
Anlisis de regresin lineal
Variable
N
R
R Aj
rendim
25
0.88
0.87
Coeficientes de regresin y estadsticos asociados
Coef
Est.
EE LI(95%) LS(95%)
T
valor p
const
28.44 3.28 21.64
35.24
8.67 <0.0001
humedad 5.10 0.69
3.66
6.53
7.35 <0.0001
humed^2 -0.29 0.03 -0.36
-0.22
-8.51 <0.0001
Cuadro de Anlisis de la Varianza (SC tipo I)
F.V.
SC
gl
CM
F
Modelo
212.19
2
106.09
79.90
humedad
116.13
1
116.13
87.46
humedad^2
96.06
1
96.06
72.34
Error
29.21
22
1.33
Total
241.40
24
CpMallows
valor p
<0.0001
<0.0001
<0.0001
65
53.68
71.24
Rendimiento de Tomate
54.0
Rendim
50.5
47.0
43.5
40.0
6
10
12
14
humedad
Prdida
6
5
4
3
2
1
0
0.5
0.55
0.6
0.65
0.7
0.75
Humedad
66
0.8
0.85
0.9
9
8
7
Prdida
6
5
4
3
2
1
0
3
Tiempo
67
run;
68
12
12
Analysis of Variance
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
31.12417
15.56208
104.13
<.0001
Error
1.34500
0.14944
Corrected Total
11
32.46917
Root MSE
0.38658
R-Square
0.9586
Dependent Mean
5.50833
Adj R-Sq
0.9494
Coeff Var
7.01810
Parameter Estimates
Variable
DF
Parameter
Estimate
Standard
Error
t Value
Pr > |t|
Intercept
3.86667
1.10868
3.49
0.0069
tiempo
1.31667
0.09981
13.19
<.0001
humedad
-8.00000
1.36677
-5.85
0.0002
N
12
R
0.96
R Aj
0.95
EE
LI(95%)
1.11
1.36
0.10
1.09
1.37 -11.09
LS(95%)
6.37
1.54
-4.91
69
T
valor p
3.49 0.0069
13.19 <0.0001
-5.85 0.0002
CpMallows
158.71
32.93
Cmo sabemos si este modelo es razonable para ajustar estos datos? Tenemos dos
formas bsicas: el coeficiente de determinacin R 2 y los grficos residuales vs.
predichos. El coeficiente de determinacin es la proporcin de la variabilidad total
explicada por la regresin:
SCRegresin
R2
SCTotal
Este coeficiente siempre est entre 0 y 1, y cuanto ms cerca de 1 est mejor ser el
ajuste. Observar que si tuvisemos una regresin lineal simple, R 2 es simplemente el
cuadrado del coeficiente de correlacin lineal.
Para probar hiptesis acerca de los coeficientes de regresin i necesitamos conocer el
error estndar
H0 : 2 0
H a : 2 0 (>0, 0)
t 2
s
2
t son los del error. Lo ms importante que tenemos que tener en cuenta al realizar
inferencias acerca de un coeficiente de regresin parcial es que la inferencia se hace en
presencia de todas las otras variables independientes en el modelo (es decir, es una
prueba parcial).
Debido a la complicacin de la interpretacin de una prueba parcial, nunca podemos
decir, mirando a las pruebas t o F parciales, que dos coeficientes de regresin no son
importantes y que debemos eliminarlos (es posible que ambos no sean necesarios, pero al
menos uno de ellos sea muy importante, y como explican ms o menos lo mismo las
pruebas parciales de cada uno de ellos en presencia del otro no sean significativas!). Para
probar simultneamente la significancia de dos (o ms) coeficientes podemos usar la idea
de un modelo completo (que se cumple si la hiptesis nula es falsa) y un modelo
reducido (que se cumple si la hiptesis nula es verdadera). Por ejemplo, para probar
que 1 3 0 en un modelo con tres regresores planteamos
70
H 0 : Y 0 2 x2 i (modelo reducido)
H a : Y 0 1 x1 2 x2 3 x3 i (modelo completo)
Ahora ajustamos ambos modelos y obtenemos las sumas de cuadrados y los grados de
libertad del error. La suma de cuadrados para probar nuestra hiptesis va a ser la
diferencia en las sumas de cuadrados:
SCH=SCError(reducido)-SCError(completo)
glH=glerror(reducido)-glerror(completo)
SCH
CMH=
glH
CMError(completo)
71
72
73
20
20
Number in
Model
R-Square
Variables in Model
0.6262
x3
0.1596
x2
0.0677
x1
0.0633
x5
0.0536
x7
0.0458
x4
0.0371
x6
0.8509
x2 x3
0.7939
x1 x3
0.6350
x3 x5
0.6286
x3 x6
0.6271
x3 x7
0.6270
x3 x4
0.2749
x2 x7
0.0996
x4 x7
0.0719
x4 x6
0.9050
x1 x2 x3
0.8572
x2 x3 x7
0.8568
x2 x3 x5
74
Number in
Model
R-Square
Variables in Model
0.8531
x2 x3 x6
0.8510
x2 x3 x4
0.1727
x1 x5 x6
0.1428
x4 x5 x6
0.9102
x1 x2 x3 x5
0.9090
x1 x2 x3 x4
0.2328
x4 x5 x6 x7
0.9135
x1 x2 x3 x4 x5
0.9113
x1 x2 x3 x5 x7
0.9110
x1 x2 x3 x5 x6
0.9109
x1 x2 x3 x4 x7
0.3315
x1 x2 x4 x5 x6
0.9150
x1 x2 x3 x4 x5 x7
0.9141
x1 x2 x3 x4 x5 x6
0.9137
x1 x2 x3 x5 x6 x7
0.9136
x1 x2 x3 x4 x6 x7
0.8691
x2 x3 x4 x5 x6 x7
0.8105
x1 x3 x4 x5 x6 x7
0.5028
x1 x2 x4 x5 x6 x7
0.9171
x1 x2 x3 x4 x5 x6 x7
75
Adjusted
R-Square
R-Square
Variables in Model
0.8871
0.9050
x1 x2 x3
0.8863
0.9102
x1 x2 x3 x5
0.8847
0.9090
x1 x2 x3 x4
0.8826
0.9135
x1 x2 x3 x4 x5
0.8815
0.9065
x1 x2 x3 x7
0.8810
0.9061
x1 x2 x3 x6
0.8797
0.9113
x1 x2 x3 x5 x7
0.8792
0.9110
x1 x2 x3 x5 x6
0.8791
0.9109
x1 x2 x3 x4 x7
0.8776
0.9098
x1 x2 x3 x4 x6
0.8774
0.9096
x1 x2 x3 x6 x7
0.8758
0.9150
x1 x2 x3 x4 x5 x7
0.8744
0.9141
x1 x2 x3 x4 x5 x6
0.8739
0.9137
x1 x2 x3 x5 x6 x7
0.8738
0.9136
x1 x2 x3 x4 x6 x7
0.8687
0.9171
x1 x2 x3 x4 x5 x6 x7
-.0164
0.0371
x6
-.0179
0.1428
x4 x5 x6
-.0373
0.0719
x4 x6
76
DF
Sum of
Squares
Mean
Square
Model
91.26802
91.26802
Error
18
54.47748
3.02653
Corrected Total
19
145.74550
F Value
Pr > F
30.16
<.0001
Variable
Parameter
Estimate
Standard
Error
Type II SS
F Value
Pr > F
Intercept
-0.10886
12.50618
0.00022932
0.00
0.9932
x3
1.00049
0.18219
91.26802
30.16
<.0001
DF
Sum of
Squares
Mean
Square
Model
124.00926
62.00463
Error
17
21.73624
1.27860
Corrected Total
19
145.74550
F Value
Pr > F
48.49
<.0001
Variable
Parameter
Estimate
Standard
Error
Type II SS
F Value
Pr > F
Intercept
-61.20217
14.55445
22.60881
17.68
0.0006
x2
0.89468
0.17680
32.74124
25.61
<.0001
x3
1.05565
0.11892
100.75483
78.80
<.0001
77
DF
Sum of
Squares
Mean
Square
Model
131.89367
43.96456
Error
16
13.85183
0.86574
Corrected Total
19
145.74550
F Value
Pr > F
50.78
<.0001
Variable
Parameter
Estimate
Standard
Error
Type II SS
F Value
Pr > F
Intercept
-78.23276
13.23928
30.22981
34.92
<.0001
x1
1.35030
0.44745
7.88441
9.11
0.0082
x2
0.69246
0.16017
16.18063
18.69
0.0005
x3
1.10250
0.09908
107.19782
123.82
<.0001
No other variable met the 0.1500 significance level for entry into the model.
Variable
Entered
Label
Number
Vars In
Partial
RSquare
Model
RSquare
C(p)
F
Value
Pr > F
x3
altura
padre
0.6262
0.6262
38.0804
30.16
<.0001
x2
altura
madre
0.2246
0.8509
7.5778
25.61
<.0001
x1
largo al
nacim.
0.0541
0.9050
1.7509
9.11
0.0082
78
DF
Sum of
Squares
Mean
Square
Model
133.65740
19.09391
Error
12
12.08810
1.00734
Corrected Total
19
145.74550
F Value
Pr > F
18.95
<.0001
Variable
Parameter
Estimate
Standard
Error
Type II SS
F Value
Pr > F
Intercept
-78.26838
26.96237
8.48855
8.43
0.0133
x1
1.37182
0.52067
6.99263
6.94
0.0218
x2
0.78242
0.19924
15.53499
15.42
0.0020
x3
1.05141
0.13581
60.37253
59.93
<.0001
x4
-0.11991
0.17173
0.49115
0.49
0.4983
x5
0.09144
0.13012
0.49745
0.49
0.4956
x6
0.08834
0.16133
0.30207
0.30
0.5940
x7
-0.10174
0.15490
0.43460
0.43
0.5237
DF
Sum of
Squares
Mean
Square
Model
133.35533
22.22589
Error
13
12.39017
0.95309
Corrected Total
19
145.74550
79
F Value
Pr > F
23.32
<.0001
Variable
Parameter
Estimate
Standard
Error
Type II SS
F Value
Pr > F
Intercept
-76.36524
26.00749
8.21729
8.62
0.0116
x1
1.41812
0.49973
7.67515
8.05
0.0140
x2
0.74901
0.18449
15.71002
16.48
0.0014
x3
1.08334
0.11932
78.57051
82.44
<.0001
x4
-0.12463
0.16683
0.53183
0.56
0.4684
x5
0.09941
0.12577
0.59541
0.62
0.4435
x7
-0.06397
0.13491
0.21431
0.22
0.6432
DF
Sum of
Squares
Mean
Square
Model
133.14102
26.62820
Error
14
12.60448
0.90032
Corrected Total
19
145.74550
F Value
Pr > F
29.58
<.0001
Variable
Parameter
Estimate
Standard
Error
Type II SS
F Value
Pr > F
Intercept
-82.17559
22.29609
12.22996
13.58
0.0024
x1
1.45250
0.48056
8.22480
9.14
0.0091
x2
0.72851
0.17432
15.72505
17.47
0.0009
x3
1.10351
0.10834
93.40113
103.74
<.0001
x4
-0.11825
0.16162
0.48192
0.54
0.4765
x5
0.10423
0.12184
0.65885
0.73
0.4067
80
DF
Sum of
Squares
Mean
Square
Model
132.65910
33.16477
Error
15
13.08640
0.87243
Corrected Total
19
145.74550
F Value
Pr > F
38.01
<.0001
Variable
Parameter
Estimate
Standard
Error
Type II SS
F Value
Pr > F
Intercept
-90.63864
18.76308
20.35857
23.34
0.0002
x1
1.34236
0.44925
7.78912
8.93
0.0092
x2
0.74474
0.17020
16.70357
19.15
0.0005
x3
1.12553
0.10245
105.28783
120.68
<.0001
x5
0.11192
0.11949
0.76543
0.88
0.3638
DF
Sum of
Squares
Mean
Square
Model
131.89367
43.96456
Error
16
13.85183
0.86574
Corrected Total
19
145.74550
F Value
Pr > F
50.78
<.0001
Variable
Parameter
Estimate
Standard
Error
Type II SS
F Value
Pr > F
Intercept
-78.23276
13.23928
30.22981
34.92
<.0001
x1
1.35030
0.44745
7.88441
9.11
0.0082
x2
0.69246
0.16017
16.18063
18.69
0.0005
81
Variable
x3
Parameter
Estimate
Standard
Error
Type II SS
F Value
Pr > F
1.10250
0.09908
107.19782
123.82
<.0001
All variables left in the model are significant at the 0.1500 level.
Summary of Backward Elimination
Step
Variable
Removed
Label
Number
Vars In
Partial
RSquare
Model
RSquare
C(p)
F
Value
Pr > F
x6
altura abuela
paterna
0.0021
0.9150
6.2999
0.30
0.5940
x7
altura abuelo
paterno
0.0015
0.9135
4.5126
0.22
0.6432
x4
altura abuela
materna
0.0033
0.9102
2.9910
0.54
0.4765
x5
altura abuelo
materno
0.0053
0.9050
1.7509
0.88
0.3638
DF
Sum of
Squares
Mean
Square
Model
91.26802
91.26802
Error
18
54.47748
3.02653
Corrected Total
19
145.74550
F Value
Pr > F
30.16
<.0001
Variable
Parameter
Estimate
Standard
Error
Type II SS
F Value
Pr > F
Intercept
-0.10886
12.50618
0.00022932
0.00
0.9932
x3
1.00049
0.18219
91.26802
30.16
<.0001
82
DF
Sum of
Squares
Mean
Square
Model
124.00926
62.00463
Error
17
21.73624
1.27860
Corrected Total
19
145.74550
F Value
Pr > F
48.49
<.0001
Variable
Parameter
Estimate
Standard
Error
Type II SS
F Value
Pr > F
Intercept
-61.20217
14.55445
22.60881
17.68
0.0006
x2
0.89468
0.17680
32.74124
25.61
<.0001
x3
1.05565
0.11892
100.75483
78.80
<.0001
DF
Sum of
Squares
Mean
Square
Model
131.89367
43.96456
Error
16
13.85183
0.86574
Corrected Total
19
145.74550
F Value
Pr > F
50.78
<.0001
Variable
Parameter
Estimate
Standard
Error
Type II SS
F Value
Pr > F
Intercept
-78.23276
13.23928
30.22981
34.92
<.0001
x1
1.35030
0.44745
7.88441
9.11
0.0082
x2
0.69246
0.16017
16.18063
18.69
0.0005
x3
1.10250
0.09908
107.19782
123.82
<.0001
83
All variables left in the model are significant at the 0.1500 level.
No other variable met the 0.1500 significance level for entry into the model.
Summary of Stepwise Selection
Step
Variable
Entered
Variable
Removed
Label
Number
Vars In
Partial
RSquare
Model
RSquare
C(p)
F
Value
Pr > F
x3
altura
padre
0.6262
0.6262
38.0804
30.16
<.0001
x2
altura
madre
0.2246
0.8509
7.5778
25.61
<.0001
x1
largo
al
nacim.
0.0541
0.9050
1.7509
9.11
0.0082
Para realizar seleccin de variables en regresin mltiple, la versin actual de Infostat usa
los siguientes mtodos: backward, forward, stepwise, r-cuadrado ajustado, minimizar
cuadrado medio de error, y minimizar ECM de prediccin. El mtodo de minimizar
cuadrado medio de error es aproximadamente equivalente al mtodo de maximizar rcuadrado para modelos de 1 variable, 2 variables, etc. que usa SAS (method= rsquare).
84
85
El modelo que estamos usando es el descripto anteriormente, que en este ejemplo es:
Animales de la dieta 1:
Y1 j 1 x1 j 1 j
Animales de la dieta 2:
Y2 j 2 x2 j 2 j
Animales de la dieta 3:
Y3 j 3 x3 j 3 j
Animales de la dieta 4:
Y4 j 4 x4 j 4 j
Podemos ver que en cada caso el modelo corresponde a una lnea recta con intercepto
diferente i y la misma pendiente . Es decir, tenemos lneas paralelas. Si
graficamos estos datos podemos ver que el modelo es razonable:
86
peso final
26.6
21.2
15.8
10.4
5.0
2.5
5.0
7.5
10.0
12.5
peso inicial
dieta 1
dieta 3
dieta 2
dieta 4
Para comparar las medias de las distintas dietas vemos que tenemos dos opciones:
comparamos cada media de Y sin tener en cuenta las x, o comparamos las medias de Y
estimadas en cierto valor comn de x. La primera opcin es lo que haramos si usamos un
modelo sin la covariable, y podramos tener el problema que la dieta que tena los
animales ms pesados nos dara mayores pesos finales no porque fuese mejor sino porque
el azar hizo que tuviera los animales de mayor peso inicial (En el ejemplo la dieta 4 tena
los animales ms pesados inicialmente, y sus pesos finales tambin estuvieron entre los
ms altos).
Una comparacin ms razonable es aquella que compara las dietas a un nivel comn de x
(por ejemplo en x x ). Esta comparacin la realiza una prueba parcial (tipo III), ya
que compara algunos efectos en el modelo ajustando por todos los otros trminos del
modelo (en este caso la covariable). Cmo calculamos el valor de media de Y cuando
x x ? Para eso usamos la frmula de regresin, reemplazando x por x :
Animales de la dieta 1:
Animales de la dieta 2:
Animales de la dieta 3:
Animales de la dieta 4:
Y1 1 x
Y2 2 x
Y3 3 x
Y4 4 x
87
stas son las medias ajustadas, que en SAS se denominan least squares means. La
prueba de tipo III prueba la igualdad de medias ajustadas, o lo que es lo mismo, la
igualdad de los i . Debemos observar que debido a que las lneas son paralelas, da lo
mismo comparar en x x o en cualquier otro valor de x: siempre estaremos comparando
igualdad de i (se puede probar que en x x se logra la prueba ms eficiente).
Otra prueba de inters es la relacionada a la regresin lineal: H 0 : 0 (es decir, nos
interesa saber si la covariable explica parte de la variabilidad de la Y en un modelo que
tiene los efectos de tratamiento). La prueba para esto tambin es la prueba parcial (tipo
III) para la covariable.
Para ajustar este modelo en SAS simplemente escribimos la variable tratamiento en
class y las variables tratamiento y covariable en el model:
proc glm;
class dieta;
model pesofin = dieta pesoinic / solution ss3;
lsmeans dieta;
La opcin solution del comando model nos da los estimadores de los parmetros del
modelo y la opcin ss3 nos muestra slo las pruebas de tipo III (parciales).
Class Level Information
Class
Levels
Values
dieta
1234
24
24
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
780.1000000
195.0250000
37.85
<.0001
Error
19
97.9000000
5.1526316
Corrected Total
23
878.0000000
R-Square
Coeff Var
Root MSE
pesofin Mean
0.888497
10.80924
2.269941
21.00000
88
Source
DF
Type III SS
Mean Square
F Value
Pr > F
dieta
51.0056604
17.0018868
3.30
0.0427
pesoinic
372.1000000
372.1000000
72.22
<.0001
Parameter
Estimate
Standard Error
t Value
Pr > |t|
Intercept
-1.450000000
3.36048373
-0.43
0.6710
dieta 1
2.200000000
1.94386123
1.13
0.2718
dieta 2
4.100000000
1.49425802
2.74
0.0129
dieta 3
4.200000000
1.94386123
2.16
0.0437
dieta 4
0.000000000
pesoinic
3.050000000
0.35890917
8.50
<.0001
Note:
The X'X matrix has been found to be singular, and a generalized inverse was used to
solve the normal equations. Terms whose estimates are followed by the letter 'B' are
not uniquely estimable.
Least Squares Means
dieta
pesofin LSMEAN
20.5750000
22.4750000
22.5750000
18.3750000
N
24
R
R Aj
0.888 0.865
CV
10.809
89
Coef
3.050
Los supuestos que hacemos son los de todo modelo lineal (independencia de errores,
normalidad de errores y homogeneidad de las varianzas de los errores), adems de los
especficos del modelo de regresin usado (validez del modelo de lneas rectas paralelas).
Para verificar los primeros supuestos usamos los residuales como siempre, y para
verificar el supuesto de paralelismo podemos probar la hiptesis de no interaccin entre
los tratamientos y la covariable:
H 0 : Yij i xij ij
Y1 j 1 1 x1 j 1 j
Animales de la dieta 2:
Y2 j 2 2 x2 j 2 j
Animales de la dieta 3:
Y3 j 3 3 x3 j 3 j
Animales de la dieta 4:
Y4 j 4 4 x4 j 4 j
Para hacer esto en SAS simplemente ajustamos un modelo con interaccin, y probamos la
significancia de sta (prueba de tipo III):
proc glm;
class dieta;
model pesofin = dieta pesoinic dieta*pesoinic;
run;
Dependent Variable: pesofin
Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
799.6000000
114.2285714
23.31
<.0001
Error
16
78.4000000
4.9000000
Corrected Total
23
878.0000000
R-Square
Coeff Var
Root MSE
pesofin Mean
0.910706
10.54093
2.213594
21.00000
90
Source
DF
Type III SS
Mean Square
F Value
Pr > F
dieta
27.5204410
9.1734803
1.87
0.1750
pesoinic
372.1000000
372.1000000
75.94
<.0001
pesoinic*dieta
19.5000000
6.5000000
1.33
0.3006
El ejemplo que hemos visto era bastante simple: un factor, una covariable y un diseo
completamente aleatorizado. La extensin a casos ms complejos es directa: podemos
tener ms de un factor, podemos tener ms de una covariable y podemos tener trminos
polinomiales en una covariable. Adems podemos tener cualquier diseo experimental
(bloques, cuadrado latino, parcela dividida, etc.).
91
Cmo?
Etapas que debemos seguir para obtener informacin buena a partir de los
datos:
1.
2.
3.
4.
En esta conferencia vamos a tratar de discutir algunas ideas que permitan lograr
eficazmente la etapa 4, comunicar los resultados.
La comunicacin puede ser verbal o escrita. La comunicacin verbal puede ser desde
una comunicacin informal hasta una presentacin formal. La comunicacin escrita
tambin vara desde memorandos e informes de proyecto dentro de la misma
organizacin (interna) hasta cartas, folletos de divulgacin, artculos cientficos y libros
(externa). En todos los casos tenemos que tener en cuenta la audiencia (hacia quin nos
estamos comunicando).
Los principales problemas que se pueden encontrar al comunicar resultados estadsticos
son los siguientes:
Distorsiones grficas: recordemos lo que habamos discutido antes
1. Qu es lo que se desea informar al lector del grafico?
2. Elegir cuidadosamente los ttulos, ejes, colores, rayas, etc.
3. No sobrecargar de informacin al grfico.
4. Practicar mucho!
Muestras sesgadas: ste es posiblemente uno de los problemas centrales que nos
encontramos. Las conclusiones pueden ser correctas pero se refieren a la poblacin
equivocada. Recordemos que si no existe la aleatorizacin no podemos realizar la
inferencia estadstica correctamente. Se requiere de una planificacin adecuada del
estudio.
Tamao muestral inadecuado: los resultados de un experimento pueden llevar a una
conclusin equivocada porque no haba suficientes observaciones como para que el error
de tipo II (aceptar una hiptesis nula falsa) fuese suficientemente pequeo. Se requiere de
92
una planificacin adecuada para que la cantidad de repeticiones sea suficiente como para
detectar con una probabilidad alta una diferencia que exista en la poblacin y que sea de
inters para el investigador.
Al informar las conclusiones debemos especificar claramente cmo se obtuvieron las
observaciones, qu diseo se us (=cmo se aleatoriz) y cuntas observaciones
(=repeticiones) se realizaron. Si es posible, se debera incluir un estudio de la potencia de
las pruebas para evidenciar que el tamao muestral fue adecuado para detectar las
diferencias de inters.
Preparacin de los datos para el anlisis
1. Generar (recibir) los datos originales
2. Crear la base de datos a partir de los datos originales
3. Editar la base de datos
4. Corregir y clarificar la base de datos comparndola con los datos originales
5. Finalizar la base de datos, archivarla y crear copias (en varios medios, como USB,
DVD, papel, etc.)
6. Crear archivos de datos para los anlisis
Es muy importante (y en algunas reas obligatorio) llevar un registro detallado de todo el
proceso para, de ser necesario, rehacer nuevamente las distintas etapas por las que los
datos han pasado. Una forma comn de documentar esto es mediante un registro del
estudio (cuaderno de bitcora o study log). ste debera incluir:
a. datos recibidos, y de quin
b. investigador a cargo del estudio
c. estadstico y otro personal asignado
d. descripcin breve del estudio
e. tratamientos usados
f. diseo experimental usado
g. mapa de campo con tratamientos y aleatorizaciones
h. fuente de los datos originales
i. variables dependientes medidas (respuestas)
j. fechas de toma de datos, anlisis, etc.
k. irregularidades en la toma de datos, registro, etc.
l. otra informacin relacionada
Guas para el anlisis e informe estadsticos
Los anlisis preliminares, a menudo descriptivos o grficos, permiten familiarizarse con
los datos, observar algunas relaciones, detectar problemas, etc.
Los anlisis primarios se hacen para responder las preguntas de investigacin que se
indicaron en los objetivos del estudio.
Los anlisis secundarios (o de apoyo) incluyen mtodos alternativos de observar los
datos, uso de mtodos poco comunes en el rea de aplicacin, exploracin de hiptesis
sugeridas por los resultados del experimento, etc.
93
Informe estadstico
a.
b.
c.
d.
e.
f.
g.
h.
Resumen
Introduccin
Diseo experimental y procedimientos del estudio
Estadsticos descriptivos
Metodologa estadstica
Resultados y conclusiones
Discusin
Lista de datos y salidas de computacin relevantes
Bibliografa
Texto del curso
Ott, R.L. y M. Longnecker (2001). An Introduction to Statistical Methods and Data
Analysis. 5ta. ed. Pacific Grove (CA): Duxbury
Referencias adicionales
Ott, R.L. y M. Longnecker (2008). An Introduction to Statistical Methods and Data
Analysis. 6ta. ed. Pacific Grove (CA): Duxbury
Macchiavelli, R. (2014). Notas de clase de Biometra Avanzada.
http://academic.uprm.edu/rmacchia/agro6600/agro6600.pdf
Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W.
InfoStat versin 2012. Grupo InfoStat, FCA, Universidad Nacional de Crdoba,
Argentina. URL http://www.infostat.com.ar
Der, Geoff y B. Everitt (2008). A Handbook of Statistical Analyses Using SAS. 3ra. Ed.
Boca Raton (FL): Chapman and Hall.
Mead, R., R. Curnow y A. Hasted (2003) Statistical Methods in Agriculture and
Experimental Biology. 3ra. Ed. Boca Raton (FL): Chapman and Hall.
94
95
Seccin
Fecha tentativa
(texto 5ta.ed)
1. Introduccin. Tipos de experimentos
14.1-5
15 enero
2. Diseo completamente aleatorizado y bloques 15.1-3, 8.3
20, 27 enero
3. Verificacin de supuestos
8.4, 8.5, 7.4 29 enero, 3 febrero
4. Determinacin del nmero de repeticiones
14.6
5 febrero
5. Comparaciones mltiples
9.1, 3-5, 7
10, 12 febrero
6. Contrastes
9.2, 8
17, 19 febrero
7. Diseo de cuadrados latinos
15.4
24 febrero
8. Experimentos factoriales de dos factores
15.5
26 feb, 3, 5 marzo
PRIMER EXAMEN PARCIAL (temas 1-6)
9 marzo, 7:30 pm
9. Factoriales con tres o ms factores
15.6-7
5, 10 marzo
10. Modelos de efectos aleatorios y mixtos
17.1-4
17, 19, 24 marzo
11. Diseos anidados
17.6
26 marzo
12. Diseos de parcelas divididas
17.6
7, 9 abril
13. Repaso de regresin lineal simple.
11.1-3
16 abril
SEGUNDO EXAMEN PARCIAL (temas 7-12)
20 abril, 7:30 pm
14. Regresin polinomial
11.5
21 abril
15. Regresin mltiple
12.1-6
23, 28 abril
16. Seleccin de variables en regresin mltiple 13.1-4
30 abril
17. Anlisis de covarianza
16.1-4
5, 7 mayo
18. Resumen
12 mayo
EXAMEN FINAL
Laboratorios
Tema
Fecha aproximada
Lab. Martes Lab. Mircoles Lab. Jueves
1. Repaso de notacin. Introduccin a SAS.
27 enero
28 enero
29 enero
2. Diseo completamente aleatorizado y en bloques. 3 febrero
4 febrero
5 febrero
3. Supuestos del anlisis de varianza.
10 febrero 11 febrero
12 febrero
4. Determinacin del nmero de repeticiones.
17 febrero 18 febrero
19 febrero
Comparaciones mltiples.
5. Contrastes.
24 febrero 25 febrero
26 febrero
96
3 marzo
10 marzo
17 marzo
24 marzo
7 abril
21 abril
28 abril
5 mayo
4 marzo
11 marzo
18 marzo
25 marzo
8 abril
22 abril
29 abril
6 mayo
5 marzo
12 marzo
19 marzo
26 marzo
9 abril
23 abril
30 abril
7 mayo
Estrategias instruccionales:
Conferencia: dos conferencias semanales de asistencia obligatoria. El material a discutir en las
conferencias se encuentra en el texto del curso, y un resumen del material est disponible en las
notas de clase.
Laboratorio: un laboratorio semanal de asistencia obligatoria. Durante el mismo se discutirn
temas y analizarn datos usando computadoras. El material y los datos de cada laboratorio
estarn disponibles en la pgina web del curso. Los estudiantes deben llevar al laboratorio
calculadora con funciones estadsticas y las tablas estadsticas a usarse. Los informes de
laboratorio deben entregarse hasta una semana despus de haber realizado el laboratorio. (Para
no interrumpir las conferencias o laboratorios, est prohibido el uso de telfonos celulares.
Favor ponerlos en modo silencioso durante clases, laboratorios y exmenes.)
Recursos de aprendizaje:
Los laboratorios se realizarn en el laboratorio de computadoras de Biometra Agrcola, donde
estn disponibles 18 computadoras personales y pantalla inteligente.
La pgina web del curso, http://academic.uprm.edu/rmacchia/agro6600 , contiene el bosquejo
del curso actualizado, los laboratorios, las claves de los laboratorios y los exmenes de aos
anteriores.
Estrategias de evaluacin / Herramientas de avalo
Pruebas cortas (quizes): cinco quizes durante los laboratorios. Estos quizes no se anunciarn. La
nota final solamente incluir el promedio de los 4 mejores quizes. No habr reposiciones de
quizes.
Asistencia y participacin en clase y laboratorios. La asistencia es obligatoria. Los informes
escritos de laboratorio deben entregarse hasta una semana despus de haber realizado el
laboratorio.
Exmenes parciales: dos exmenes parciales, tentativamente los das lunes 9 de marzo y 20 de
abril a las 7:30 pm. Durante los exmenes se proveern las frmulas necesarias, y los
estudiantes podrn usar calculadora y el libro (no se permiten notas de clase ni fotocopias). Los
exmenes de aos anteriores estarn disponibles en la pgina web del curso.
Examen Final: el examen final ser un trabajo integrador del material estudiado durante el
curso. Durante los exmenes se proveern las frmulas necesarias, y los estudiantes podrn
97
usar calculadora y el libro (no se permiten notas de clase ni fotocopias). Los exmenes de aos
anteriores estarn disponibles en la pgina web del curso.
La calificacin final se basar en un promedio ponderado de las notas de
Asistencia y participacin (10%)
Quizes (20%)
Exmenes parciales (22% cada uno)
Examen final (26%)
Sistema de calificacin:
La nota final se basar en la calificacin final de acuerdo a la siguiente equivalencia. Es posible
que los lmites inferiores que se apliquen sean menores que los aqu indicados (por ejemplo, al
final del semestre se puede decidir que una nota de 89 es una A).
A: 90 o ms
B: 80 o ms pero menos de 90
C: 70 o ms pero menos de 80
D: 60 o ms pero menos de 70
F: menos de 60
Poltica Universitaria y Departamental
Las polticas departamentales e institucionales relacionadas con la asistencia a clases y
laboratorios, con los procedimientos de bajas parciales o totales, con los acomodos razonables a
personas con impedimentos y con la tica y moral esperada de los estudiantes estn definidas
en el Boletn de Informacin del Recinto Universitario de Mayagez.
Bibliografa:
Ott, R.L. y M. Longnecker (2001). An Introduction to Statistical Methods and Data Analysis. 5ta.
ed. Pacific Grove (CA): Duxbury
Ott, R.L. y M. Longnecker (2008). An Introduction to Statistical Methods and Data Analysis. 6ta.
ed. Pacific Grove (CA): Duxbury
Macchiavelli, R. (2015). Notas de clase de Biometra Avanzada.
http://academic.uprm.edu/rmacchia/agro6600/agro6600.pdf
Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W. InfoStat
versin 2012. Grupo InfoStat, FCA, Universidad Nacional de Crdoba, Argentina. URL
http://www.infostat.com.ar
Der, Geoff y B. Everitt (2008). A Handbook of Statistical Analyses Using SAS. 3ra. Ed. Boca Raton
(FL): Chapman and Hall.
Mead, R., R. Curnow y A. Hasted (2003) Statistical Methods in Agriculture and Experimental
Biology. 3ra. Ed. Boca Raton (FL): Chapman and Hall.
98