You are on page 1of 98

AGRO 6600

BIOMETRA AVANZADA

Notas de clase
2015
Ral E. Macchiavelli, Ph.D.

Estas notas complementan el material del libro de texto del curso

Contenidos
1. Introduccin y repaso de notacin del anlisis de varianza .................................................................. 3
2. Diseos completamente aleatorizados y en bloques completos aleatorizados ..................................... 5
3. Supuestos del anlisis de la varianza ...................................................................................................... 7
4. Determinacin del nmero de repeticiones de un experimento ...........................................................11
5. Comparaciones mltiples ........................................................................................................................14
6. Contrastes.................................................................................................................................................24
7. Diseo de cuadrado latino .......................................................................................................................28
8. Experimentos factoriales con dos factores.............................................................................................32
9. Experimentos factoriales con tres o ms factores .................................................................................40
10. Modelos de efectos aleatorios y mixtos ................................................................................................43
11. Diseos anidados ....................................................................................................................................49
12. Diseo de parcelas divididas .................................................................................................................53
13. Repaso de regresin lineal simple ........................................................................................................58
14. Regresin polinomial .............................................................................................................................62
15. Regresin lineal mltiple.......................................................................................................................66
16. Seleccin de variables en regresin mltiple .......................................................................................72
17. Anlisis de covarianza ...........................................................................................................................85
18. Documentacin y comunicacin de resultados ....................................................................................92
Bibliografa...................................................................................................................................................94

1. Introduccin y repaso de notacin del anlisis de varianza


Cuando planeamos un estudio cientfico podemos realizar un experimento o un estudio
observacional. En el experimento nosotros decidimos qu tratamiento recibe cada
unidad, mientras que en el estudio observacional el tratamiento ya viene asignado a la
unidad. Esto implica que en el experimento podemos hablar con mayor confianza de
causa-efecto, mientras que en el estudio observacional es ms difcil estar seguros de
que nuestro tratamiento es la causa de lo que estamos observando.
Consideremos este ejemplo (estudiado en el curso anterior) en el que nos interesa
comparar el contenido de almidn en tallos de tomate bajo 3 regmenes diferentes de
fertilizacin:
A

22

20

21

18

16

12

14

15

10

14

Y1 111

Y1 18.5

Y2 60
Y3 29

Y2 12.0

Y3 7.25

Y 200
La notacin que usaremos ser la siguiente: tenemos t tratamientos (en este caso t 3 ),
cada uno con ni repeticiones (en este caso n1 6, n2 5 y n3 4 ).

Yij denota la j sima observacin del i simo tratamiento .


ni

Yi Yij , es la suma de todas las observaciones del tratamiento i.


j 1
t

ni

Y Yij Yi , es la suma de todas las observaciones.


i 1 j 1

i 1

Yi es la media de las observaciones del tratamiento i.


Y es la media de todas las observaciones (media general): Y 200 /15 13.33

n ni =15 es la cantidad total de observaciones (nt si hay n observaciones en cada tratamiento).


i

Las sumas de cuadrados se calculan de la siguiente manera:


2
Y2
SCTotal=SCTot Yij Y Yij2
n
i, j
i, j
SCEntre=SCTratamientos=SCTrat ni Yi Y
2

Yi2 Y2

ni n

SCDentro=SCResidual=SCError=SCRes Yij Yi SCTot-SCTrat


2

i, j

SCTot Yij2
i, j

Y2

3062 200

15

395.3333

Yi2 Y2 1112 602 292 2002

317.0833
n
6
5
4
15
i ni
SCRes SCTot-SCTrat=78.2500
SCTrat

Fuente de
Variacin

Suma de
Cuadrados

Tratamiento
Residual (Error)
Total

317.0833
78.2500
395.3333

grados
de
libertad
2
12
14

Cuadrado
Medio

Valor p

158.5417
6.5208

24.313

0.00006

H 0 : 1 2 ... t
H a : al menos una i es diferente

Estadstico de la prueba: F 24.313


Regin de rechazo (=.05): F 3.89 p<0.05
Conclusin: Rechazamos H 0 , al menos uno de los tratamientos es diferente.

2. Diseos completamente aleatorizados y en bloques completos


aleatorizados
El anlisis de la varianza discutido anteriormente requiere independencia de todas
las observaciones. En un experimento, esto se logra realizando una aleatorizacin
completa de los tratamientos a las unidades experimentales (es decir, cada unidad
experimental tiene la misma probabilidad de recibir cualquiera de los tratamientos,
independientemente del tratamiento asignado a unidades vecinas). Este diseo se llama
completamente aleatorizado (DCA). La versin observacional anloga consiste en
tomar muestras aleatorias de cada uno de los grupos o poblaciones.
Ventajas del DCA:
Simple para construir
Simple para analizar, aun cuando el nmero de repeticiones no es constante.
Sirve para cualquier nmero de tratamientos.
Desventajas del DCA:
Requiere que todas las unidades experimentales sean homogneas.
Fuentes de variacin no consideradas inflarn el error experimental.
Cuando las unidades no son homogneas pero pueden agruparse en grupos de
unidades homogneas existe otro diseo, que es la generalizacin del diseo pareado para
comparar dos grupos: el diseo en bloques completos aleatorizados (DBCA). Un
bloque es un conjunto de unidades experimentales homogneas (es decir, parecidas
entre s). Este diseo consiste en asignar los tratamientos aleatoriamente dentro de cada
bloque de manera tal que cada tratamiento que representado una vez en cada bloque. De
esta manera garantizamos que todos los tratamientos estarn representados en todos los
bloques, y que las comparaciones estarn libres de las diferencias entre bloques (el
mismo efecto que logrbamos con el diseo pareado). Para que este efecto del DBCA sea
til en reducir la variabilidad necesitamos que haya diferencias entre los bloques y dentro
de cada bloque las unidades sean homogneas.
Ventajas del DBCA:
til para comparar tratamientos en presencia de una fuente externa de
variabilidad.
Simple para construir y analizar (siempre que el nmero de repeticiones sea
constante).
Desventajas del DBCA:
Prctico para pocos tratamientos, para que las unidades de un bloque sean
realmente homogneas.
Controla una sola fuente de variabilidad externa.
El efecto del tratamiento debe ser el mismo en cada bloque.

La notacin que usaremos ser la misma que para el DCA: tenemos t tratamientos, cada
uno con n repeticiones (=bloques). En este caso Yij denota la observacin del
i simo tratamiento en el bloque j. Ahora tendremos una fuente adicional de variabilidad: los bloques. Las sumas de cuadrados se calculan de la siguiente manera:

SCTotal=SCTot Yij Y Yij2


2

i, j

Y2

i, j

nt

SCTratamientos=SCTrat n Yi Y
2

SCBloques=SCBl t Y j Y
2

2
j

Yi2 Y2

n nt

Y2
nt

SCResidual=SCError=SCRes Yij Yi SCTot-SCTrat-SCBl


2

i, j

La siguiente es la tabla de ANOVA:


Fuente de
Variacin
Tratamiento
Bloque
Residual (Error)

Suma de
Cuadrados
SCTrat
SCBl
SCRes=SCE

Total

SCTot

grados de
libertad
t 1
n 1
n 1 t 1

Cuadrado
Medio
CMTrat
CMBl
CMRes=CME

F
F=CMTrat/CME
F=CMBl/CME

nt 1

El modelo que describe los datos provenientes de este diseo es el siguiente:


Yij i j ij
Los supuestos que necesitamos hacer son los mismos que para el DCA (los ij son independientes, tienen distribucin normal y varianza constante) y adems necesitamos
asumir que los efectos de los tratamientos son iguales en todos los bloques.
La hiptesis de inters es, como siempre, acerca de los efectos de tratamiento:
H 0 : 1 2 ... t
H a : al menos una i es diferente de 0.
Estadstico de la prueba: F CMTrat
CME
Regin de rechazo: F F g.l.: t 1,(n 1)(t 1)

Tambin podemos probar la hiptesis de que no existen diferencias entre bloques:


H 0 : 1 2 ... n
H a : al menos una i es diferente de 0.
Estadstico de la prueba: F CM Bl
CME
Regin de rechazo: F F g.l.: n 1,(n 1)(t 1)

3. Supuestos del anlisis de la varianza


Para que las conclusiones obtenidas de un anlisis de varianza sean vlidas se deben
satisfacer ciertas condiciones (supuestos). En la prctica nunca estamos seguros que estas
condiciones se satisfacen en un problema dado, pero usando los datos observados
podemos verificar (aproximadamente) si los supuestos se cumplen o no.
Si los supuestos no se cumplen debemos modificar el modelo, el anlisis y/o las
conclusiones.
Los modelos lineales para ANOVA que hemos estudiado pueden verse como casos
especiales del modelo:
Yij ij ij
donde ij representa la media de la observacin ij-sima (por ejemplo en un DCA media
general, ij i ) y ij el error experimental (o efecto de la ij-sima unidad
experimental, o efecto ambiental).
Los supuestos para la validez del anlisis son:
1. Los efectos de tratamiento y unidad experimental son aditivos.
2. Los errores experimentales son independientes (o, por lo menos, no
correlacionados).
3. Los errores experimentales se distribuyen normalmente.
4. Los errores experimentales tienen varianza constante (es decir, que no depende de
los tratamientos ni de otros factores).
La consecuencia del no cumplimiento de estos supuestos es que las conclusiones pueden
no ser vlidas (los niveles de error pueden ser diferentes a los establecidos, los errores
estndar pueden subestimar o sobreestimar los verdaderos errores poblacionales, los
lmites de confianza pueden ser incorrectos, etc.)
El supuesto de independencia normalmente se garantiza realizando una aleatorizacin
correcta y mediante una buena tcnica experimental (uso de borduras, evitar contagio
entre unidades, etc.)
El supuesto de normalidad se puede verificar graficando los residuales o residuos:
eij Yij Yij Yij ij
Estos residuales representan aproximaciones a los verdaderos errores experimentales ij ,
que son, por supuesto, desconocidos. Un histograma, un diagrama de tallo y hoja o un
grfico de caja (boxplot) pueden revelar problemas con la distribucin normal de los
errores. Existen adems pruebas formales para probar la hiptesis de que los errores
tienen una distribucin normal y un grfico (Q-Q plot) que permite detectar la falta de
normalidad ms fcilmente que con un histograma.

Para obtener residuos en InfoStat debemos marcar en las opciones del anlisis de
varianza Guardar Residuos, Guardar Predichos, Guardar Residuos Estudentizados,
y Guardar Abs(Residuos). Los residuos son los definidos anteriormente, y dependen,
por supuesto, del diseo experimental usado. Los valores predichos son Yij , los residuos
estudentizados son los residuos divididos por su desviacin estndar (como siempre
tienen media 0, es una forma de estandarizarlos), y los abs(residuos) son los valores
absolutos de los residuos (recordemos que hay residuos positivos y negativos). Al
seleccionar estas opciones, se generarn nuevas columnas en los datos incluyendo estos
valores.

Una vez que tenemos los residuales podemos graficarlos mediante histogramas o el Q-Q
plot. Mediante este ltimo grfico, si los residuos son normales (y por lo tanto, los errores
lo son), se grafican los valores de los residuos (o residuos estudentizados) versus los
valores tericos que esperaramos si la distribucin fuese normal. Si la distribucin es
normal, entonces observaramos los puntos alineados en una recta. Si hay problemas,
entonces los puntos no se vern sobre la recta.

Residuos Observados

270

135

-135

-270
-270

-135

135

270

Cuantiles de una Normal

Adems se puede realizar una prueba de normalidad (prueba de Shapiro-Wilks


modificada). La hiptesis nula es que los errores son normales, y la alternativa es que no
son normales. Recordemos que si el valor p es mayor que el nivel de significacin (en
general 0.05), entonces nos quedamos con la hiptesis nula. Para hacer esta prueba
usamos el men Estadsticas>Inferencia basada en una muestra> Prueba de Normalidad.
Shapiro-Wilks (modificado)
Variable
RDUO_Rendimiento

n
20

Media D.E.
0.00 127.67

W*
0.96

p (una cola)
0.7824

En este ejemplo el supuesto de normalidad se acepta (p=0.7824>0.05).


Para verificar el supuesto de homogeneidad de varianzas (homoscedasticidad) se pueden
graficar residuales versus valores predichos, y esto permite visualizar si las varianzas son
homogneas o no. Si las varianzas no son homogneas el grfico muestra tpicamente una
estructura de embudo (a medida que los valores predichos son mayores, los residuos
varan ms. Otra condicin que este grfico tambin puede diagnosticar es la existencia
de observaciones atpicas (outliers) que requieren verificacin.

Ejemplo con varianzas heterogneas


Ejemplo con varianzas homogneas

70
300

RDUO_Rendimiento

RDUO_PN

35

-35

150

-150

-70
18

31

44

57

70

-300
1750.0

PRED_PN

2187.5

2625.0

3062.5

3500.0

PRED_Rendimiento

Para este supuesto tambin se pueden realizar pruebas especficas. Entre las pruebas formales para
verificar este supuesto tenemos la prueba de Hartley ( Fmax ), Levene, etc. Estas pruebas contrastan
la hiptesis nula H 0 : 12 22 ... t2 con una alternativa general (las varianzas no son iguales).
Ver en la seccin 7.4 del libro de Ott los detalles de estas pruebas.
La prueba de Levene consiste en realizar un anlisis de varianza con el mismo modelo del original,
pero usando como variable dependiente (Y) a los valores absolutos de los residuales. Es la nica
prueba que podemos aplicar en todos los diseos que estudiaremos en este curso.
La prueba de Fmax consiste en realizar el cociente entre las varianzas mxima y mnima, comparando este cociente con un valor tabular (Tabla 12 en el libro). Solamente es vlida para datos
provenientes de un DCA. Si el valor de Fmax es mayor que el valor tabular, la hiptesis nula se
rechaza (es decir, el supuesto no se cumple).
Si se detecta que los supuestos no se cumplen algunas medidas comnmente usadas son la
transformacin de datos, el anlisis parcial (por ejemplo comparando slo algunos de los
tratamientos) y el uso de otros mtodos especficamente diseados para el problema particular (por
ejemplo, mtodos no paramtricos)
Las transformaciones se usan regularmente para problemas de varianzas heterogneas, falta de
normalidad y/o falta de aditividad. Las ms comnmente usadas son la logartmica, la raz cuadrada
y el arco-seno.
La transformacin logartmica, Y log Y o Y log(Y 1) , se usa para datos que exhiben efectos
multiplicativos (una forma de falta de aditividad) o cuyas varianzas son proporcionales al cuadrado
de las medias.

10

La transformacin raz cuadrada, Y Y o Y Y 0.5 , se usa para datos con varianzas que
cambian proporcionalmente a la media, como es frecuentemente el caso de recuentos de insectos u
otros organismos.
La transformacin arco seno, Y arcsen Y , se usa para datos expresados como porcentajes. Los
porcentajes deben estar basados en un denominador comn (por ejemplo, porcentaje de
germinacin calculado a partir de 50 semillas bajo distintos tratamientos). Si todos los datos estn
entre el 30 y el 70% esta transformacin no es necesaria.
Para presentar resultados de anlisis con datos transformados, todas las tablas estadsticas deben
mostrar los anlisis con los datos transformados. Adems, se pueden agregar las medias y los
lmites de confianza retransformados a la escala original. Las varianzas, errores estndar y
coeficientes de variacin no se deben retransformar a la escala original.

4. Determinacin del nmero de repeticiones de un experimento


Recordemos que al realizar cualquier prueba de hiptesis existen dos tipos de errores que debemos
considerar: Tipo I (rechazar la hiptesis nula cuando es cierta) y Tipo II (aceptar la hiptesis nula
cuando es falsa). La probabilidad de cometer el error de tipo I la fijamos nosotros (es , el nivel de
significacin de la prueba), mientras que la probabilidad de cometer error de tipo II () va a
depender de cun lejos est el valor verdadero (por ejemplo, la diferencia entre dos medias) del
valor que habamos postulado en la hiptesis nula (0). Es importante notar que (la probabilidad
del error de tipo II) depende de los valores verdaderos de las medias. Por supuesto que queremos
que el valor de esta probabilidad sea pequeo cuando hay diferencia entre las medias, y se haga aun
ms pequeo a medida que haya ms diferencias entre las medias.
Para el anlisis de varianza, el libro de texto presenta algunas grficas (Tabla 14) de valores de
potencia (1 ) para distintos tamaos muestrales y efectos de tratamiento. El efecto de
tratamiento se define como

n i2
t 2

i . Para simplificar, se
Se puede observar que se deben formular todos los valores de i
puede usar una forma equivalente en la que solamente se indica la alternativa de tener al menos un
par de medias que son diferentes en D unidades (es decir, D es la diferencia mnima que se desea
detectar con una potencia (1 ) dada:

nD 2
2t 2

11

En InfoStat, se pueden usar el men Clculo del tamao muestral para dos muestras
independientes y para anlisis de varianza.

12

Para usar la Tabla 14, observemos que

211.52
1.72 , por lo que la potencia es
2 4 2

aproximadamente 0.81:

13

5. Comparaciones mltiples
Recordemos que la hiptesis alternativa general del anlisis de la varianza es al menos
una de las medias es diferente. Cuando rechazamos la hiptesis nula estamos
concluyendo que hay diferencias, pero no sabemos exactamente cules de las medias son
diferentes. Una forma de responder a esta pregunta es planteando las siguientes hiptesis:
H0 : 1 2 ; H0 : 1 3 ; H0 : 1 4 ; ... H0 : 3 4
Para probar cada una de estas hiptesis podemos usar un estadstico t para dos muestras
independientes. Por ejemplo, para la primera,
Y Y
t 1 2
s p n11 n12
El problema de este enfoque es que se estn realizando mltiples inferencias sobre los
mismos datos, por lo que los errores de tipo I de cada una de las pruebas pueden
acumularse. Es decir, para todo el experimento, la probabilidad de rechazar al menos una
de estas hiptesis errneamente va a ser mayor del 5%. En otras palabras, podemos
detectar diferencias que no existen con mucha mayor frecuencia de lo esperado.
Esta prueba se denomina de la diferencia mnima significativa (DMS, o LSD en ingls)
de Fisher. Debido al problema de acumulacin potencial de errores, se han desarrollado
otras pruebas alternativas, y slo se recomienda usar el DMS cuando en la prueba F
global se ha rechazado la hiptesis nula. De esta manera, aunque sabemos que el es
vlido para cada comparacin individual y no para el conjunto de todas las
comparaciones, podemos aplicar esta prueba.
Cuando los tamaos de muestra son iguales, esta prueba se simplifica. Vamos a declarar
una diferencia significativa si t t 2 :

Yi Y j
sp

1
ni

1
nj

Yi Y j
2CME
n

o
2

Yi Y j t

2CME
DMS
n

2CME
, estaremos declarando la diferencia significativa si
2
n
Yi Y j DMS . Podemos observar que este caso la diferencia mnima significativa es la

Si definimos DMS t

misma para todas las comparaciones.


Vamos a aplicar este mtodo a los datos del ejercicio 1 (lab.2).
1. El primer paso es calcular el DMS:

t15;.025 2.131, CME 26.3395, n 4, DMS 2.131

14

2 26.3395
7.7334
4

2. El siguiente paso es ordenar las medias de mayor a menor:


Tratamiento
Media

1
52.925

2
42.025

5
37.700

3
34.150

4
21.975

3. Ahora calculamos todas las diferencias, empezando por la ms grande. Observemos


que si una diferencia es menor que DMS, todas las ms pequeas tambin lo sern.
52.925-21.975=30.95
52.925-34.150=18.775
52.925-37.700=15.225
52.925-42.025=10.90
42.025-21.975=7.785
42.025-34.150=7.785
42.025-37.700=4.325
37.700-21.175=15.725
37.700-34.150=3.55
34.150-21.975=12.175

>DMS
>DMS
>DMS
>DMS
>DMS
>DMS
<DMS
>DMS
<DMS
>DMS

4. Por ltimo ponemos letras iguales a las medias que no son significativamente
diferentes:
Tratamiento
Media

1
52.925 a

2
42.025 b

5
37.700 bc

3
34.150 c

4
21.975 d

Otro ejemplo (estudiado en el curso AGRO 5005)


Vamos a considerar un segundo ejemplo en el que tenemos 6 tratamientos, cuyas medias
aparecen en orden descendente a continuacin. El valor de la diferencia mnima
significativa es DMS=2.2.
Tratamiento
Trat. 3
Trat. 1
Trat. 5
Trat. 4
Trat. 2
Trat. 6

Y
35.7
34.0
33.9
25.1
24.7
22.8

a. El primer paso va a ser comparar la media del tratamiento 3 con todas las que le siguen
(es decir, Y3 con Y1 , Y3 con Y5 , Y3 con Y4 , Y3 con Y2 , Y3 con Y6 ). Vamos a conectar con
una lnea las medias que no son significativamente diferentes (es decir, aqullas cuya
diferencia sea menor que DMS)

15

Tratamiento
Trat. 3
Trat. 1
Trat. 5
Trat. 4
Trat. 2
Trat. 6

Y
35.7
34.0
33.9
25.1
24.7
22.8

b. Ahora compararemos Y1 con todas las medias que le siguen, y conectaremos con lneas
las medias que no son significativamente diferentes de Y1 :
Tratamiento
Trat. 3
Trat. 1
Trat. 5
Trat. 4
Trat. 2
Trat. 6

Y
35.7
34.0
33.9
25.1
24.7
22.8

c. Cuando seguimos el proceso para Y5 , observamos que la media que le sigue, Y4 , tiene
una diferencia mayor que DMS, y por lo tanto no podemos poner una lnea que una Y5
con una media que est ms abajo.
d. Repetimos

el proceso para Y4 y Y2 :
Tratamiento
Trat. 3
Trat. 1
Trat. 5
Trat. 4
Trat. 2
Trat. 6

Y
35.7
34.0
33.9
25.1
24.7
22.8

e. Observar que hay una lnea (uniendo las medias 1 y 5) que est de ms, ya que las
medias 1 y 5 ya aparecen unidas por la lnea que va desde la media 3 hasta la media 5.
Por lo tanto, eliminamos la lnea redundante.

16

Tratamiento
Trat. 3
Trat. 1
Trat. 5
Trat. 4
Trat. 2
Trat. 6

Y
35.7
34.0
33.9
25.1
24.7
22.8

f. Ahora podemos dejar las lneas, o cambiar las lneas por letras iguales:
Tratamiento
Trat. 3
Trat. 1
Trat. 5
Trat. 4
Trat. 2
Trat. 6

Y
35.7
34.0
33.9
25.1
24.7
22.8

a
a
a
b
bc
c

g. Se debe observar que las medias que no estn unidas por lneas verticales (o la misma
letra) son significativamente diferentes entre s.
Tasas de error por comparacin y por experimento
Recordemos que la probabilidad de cometer error de tipo I se denominaba . Cuando
realizamos comparaciones de todos los pares posibles de medias, el error de tipo I sera
declarar que un par de medias difiere significativamente cuando en realidad son iguales.
Si consideramos cada comparacin individualmente (es decir, como una hiptesis
separada de las dems), el error de tipo I es concluir que esa comparacin es significativa
cuando en realidad esas medias no son diferentes. La probabilidad de cometer error de
tipo I para esta comparacin individual (promediada a travs de todas las comparaciones
y todos los experimentos posibles) es la tasa de error por comparacin, I .
Por otro lado, si consideramos a todas las comparaciones posibles como una sola
hiptesis, entonces realizar error de tipo I es decir que por lo menos un par de medias es
diferente cuando todas las medias son iguales. La probabilidad de cometer el error de tipo
I para todas las comparaciones en conjunto se denomina tasa de error por experimento,
E .
Supongamos que estamos simulando un experimento en el cual estamos comparando 3
tratamientos A, B, C (por lo tanto tenemos 3 comparaciones de a pares: A vs. B, A vs. C,
B vs. C). Supongamos adems que no hay diferencias entre las medias (por lo tanto, cada
vez que encontremos una diferencia estaremos cometiendo error de tipo I). Vamos a
indicar con * los casos en los que encontremos diferencias significativas, y con NS los
casos en los que no encontramos diferencias significativas. El experimento se simular 20

17

veces, y cada vez realizaremos las comparaciones de a pares correspondientes. Los


resultados se resumen en la siguiente tabla:
Simulacin
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Comparaciones
A vs. B A vs. C B vs. C
NS
NS
NS
*
NS
NS
NS
NS
NS
NS
*
*
NS
NS
NS
*
NS
NS
NS
NS
NS
*
*
*
NS
*
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
*
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
NS
*
*
NS
NS
NS
NS
NS
NS

En este ejemplo tenemos un total de 60 comparaciones, y hemos cometido error de tipo I


en 11 de ellas. Por lo tanto la tasa de error por comparacin es 0.1833.
Por otro lado, observamos que hay 20 experimentos, y hemos cometido error de tipo I
en 7 de ellos. Por lo tanto la tasa de error por experimento es 0.35.
En la prctica nunca el mismo experimento lo repetiremos 20 veces, pero las tasas de
error tienen la misma interpretacin: si no hay diferencias entre las medias y repitiramos
el experimento muchas veces, cometeremos error de tipo I cada vez que declaremos una
diferencia significativa. La proporcin de comparaciones que se encuentran significativas
falsamente es la tasa de error por comparacin, y la proporcin de experimentos en los
que se encuentran diferencias significativas falsamente es la tasa de error por
experimento.
Correccin de Bonferroni para la prueba de DMS
Con el objeto de controlar la tasa de error para todo el experimento (es decir, todas las
comparaciones), se pueden aplicar modificaciones a la prueba de DMS. La ms sencilla
consiste en corregir el nivel de significancia de la prueba para tener en cuenta la

18

multiplicidad de comparaciones que se estn realizando. Si llamamos I al nivel de


significancia para una comparacin individual (que es el que consideramos en DMS), y
E al nivel de significancia para todo el experimento (que es lo que querramos controlar
para no declarar demasiadas diferencias significativas falsamente), la desigualdad de
Bonferroni nos dice que E m I , donde m es el nmero de comparaciones que nos
interesa realizar en todo el experimento. Para todos los pares posibles, m t (t 1) / 2 . Por
lo tanto, si queremos que la tasa de error para todo el experimento no sea mayor de
0.05 , por ejemplo, si hay t=5 tratamientos podemos realizar una prueba de DMS
usando un nivel de significancia igual a / m 0.05/10 0.005 . Es decir, la frmula de
DMS para la prueba de Bonferroni ahora es

BON=t

2m

2CME
2CME
t0.0025
n
n

Prueba de Tukey
Otra manera de evitar el problema de errores acumulados en las conclusiones del
experimento es usar mtodos alternativos a la prueba de DMS. La idea fundamental es
que la probabilidad de cometer el error de tipo I (declarar falsamente diferencias
significativas) se mantenga en el nivel especificado ( ) para todo el experimento,
aunque esto implique que para cada comparacin tomada individualmente la probabilidad
disminuya. Es decir, hacemos cada prueba individual ms conservadora, de manera que
globalmente la probabilidad de cometer al menos un error de tipo I se mantenga
razonablemente cerca del nivel especificado (usualmente 5%).
La prueba de Tukey se desarrolla con esta idea en mente, y consiste en usar un nivel
crtico mayor que el DMS. Este valor crtico es
CME
W q (t , )
,
n
donde q (t , ) se busca en la tabla 10 del libro con t tratamientos y grados de libertad
en el cuadrado medio del error. Si los tamaos de muestra son desiguales, el mtodo se
llama prueba de Tukey-Kramer y el valor crtico es

Wij q (t , )

CME 1 1
.
2 ni n j

Si aplicamos la prueba de Tukey al mismo ejemplo considerado anteriormente obtenemos


los siguientes resultados:

W q (t , )

CME
26.3395
4.37
11.21
n
4

19

52.925-21.975=30.95
52.925-34.150=18.775
52.925-37.700=15.225
52.925-42.025=10.90
42.025-21.975=20.05
42.025-34.150=7.785
42.025-37.700=4.325
37.700-21.175=15.725
37.700-34.150=3.55
34.150-21.975=12.175
Tratamiento
Media

1
52.925 a

2
42.025 ab

5
37.700 b

>W
>W
>W
<W
>W
<W
<W
>W
<W
>W
3
34.150 b

4
21.975 c

Como podemos apreciar, esta prueba es ms conservadora que DMS (encuentra menos
diferencias significativas).
Para hacer comparaciones mltiples en Infostat debemos usar la solapa comparaciones
en la ventana de anlisis de varianza.

Para realizar comparaciones mltiples en SAS, debemos usar el comando MEANS. Por
ejemplo, para los datos del ejercicio 2 (laboratorio 2),
proc glm;
class bloque tratam;
model plantas = bloque tratam;
means tratam / lsd;
means tratam / bon;
means tratam / tukey;
run;

20

Class Level Information


Class

Levels

Values

Bloque

1234

tratam

tratA tratB tratC

Dependent Variable: plantas


Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

2311.416667

462.283333

118.03

<.0001

Error

23.500000

3.916667

Corrected Total

11

2334.916667

Source

DF

Bloque

tratam

Type III SS

Mean Square

F Value

Pr > F

386.250000

128.750000

32.87

0.0004

1925.166667

962.583333

245.77

<.0001

t Tests (LSD) for plantas


Note: This test controls the Type I comparisonwise error rate, not the experimentwise error rate.
Alpha

0.05

Error Degrees of Freedom

Error Mean Square

3.916667

Critical Value of t

2.44691

Least Significant Difference

3.4242

Means with the same letter


are not significantly different.
t Grouping

Mean

tratam

87.250

tratB

80.000

tratC

57.500

tratA

21

Bonferroni (Dunn) t Tests for plantas


Note: This test controls the Type I experimentwise error rate, but it generally has a higher Type II
error rate than REGWQ.
Alpha

0.05

Error Degrees of Freedom

Error Mean Square

3.916667

Critical Value of t

3.28746

Minimum Significant Difference

4.6005

Means with the same letter


are not significantly different.
Bon Grouping

Mean

tratam

87.250

tratB

80.000

tratC

57.500

tratA

Tukey's Studentized Range (HSD) Test for plantas


Note: This test controls the Type I experimentwise error rate, but it generally has a higher Type II
error rate than REGWQ.
Alpha

0.05

Error Degrees of Freedom

Error Mean Square

3.916667

Critical Value of Studentized Range

4.33902

Minimum Significant Difference

4.2936

Means with the same letter


are not significantly different.
Tukey Grouping

Mean

tratam

87.250

tratB

80.000

tratC

57.500

tratA

22

Intervalos de confianza para medias y diferencias de medias en ANOVA


Para reportar las medias luego de realizar un ANOVA podemos usar un grfico de barras
(que se genera opcionalmente en InfoStat), e incluir lmites de confianza para las medias
(o errores estndar para las medias). Las frmulas estudiadas anteriormente usando la
tabla t se podran aplicar aqu:
Y t 2 s .
n
Como hemos hecho para el clculo del DMS, el mejor estimador que tenemos de la
desviacin estndar poblacional es (bajo el supuesto que las varianzas son iguales),
CME
Este estimador tiene los grados de libertad del error. Por lo tanto, el intervalo de
confianza para una media de tratamiento es
CME
Y t 2
n
Recordar que en esta frmula n representa la cantidad de observaciones en la media
especfica (cantidad de repeticiones), y no la cantidad total de observaciones en todo el
experimento. Los grados de libertad para el valor tabular de t son los grados de libertad
del error.
Similarmente podemos calcular un intervalo de confianza para la diferencia de dos
medias. Suponiendo igual nmero de repeticiones n:

2CME
n
Observar que el trmino que se suma y resta en esta frmula es DMS, por lo que el
intervalo de confianza para la diferencia de dos medias es:
Yi Y j t /2

Yi Y j DMS
Si este intervalo incluye el valor de cero, las dos medias correspondientes no son
significativamente diferentes. Esto es lo que hemos usado cuando estudiamos la prueba
de DMS: si la diferencia de dos medias es menor que DMS, esas medias no son
significativamente diferentes. El intervalo va a incluir 0 si y solo si la diferencia de las
dos medias es menor que DMS.

23

6. Contrastes
La prueba F que realizamos en el ANOVA prueba la igualdad de medias (ausencia de
efectos de tratamientos) versus una alternativa general. Como hemos visto en las
conferencias anteriores, podemos realizar pruebas de comparaciones de a pares (DMS,
Tukey, etc.), pero esto puede traernos problemas: por una parte puede haber acumulacin
de errores, y por otra parte la interpretacin no siempre es simple. Cuando hay mucha
superposicin, es difcil realizar inferencias tiles.
Si los tratamientos tienen una estructura dada (no son simplemente 5 variedades, por
ejemplo), existen otras hiptesis que pueden resultar de mucho ms inters que las que
probamos con DMS. stas pueden escribirse como combinaciones lineales de medias.
Por ejemplo,
L ci i
Las ci son los coeficientes de la combinacin lineal. Un contraste se define como una

combinacin lineal con ci 0. Por ejemplo supongamos que estamos probando las
siguientes 5 dietas en pavos:

Grupo
1
2
3
4
5

Dieta
Control
Nivel 1, suplemento A
Nivel 2, suplemento A
Nivel 1, suplemento B
Nivel 2, suplemento B

Es posible que estemos interesados en probar si el promedio de los tratamientos con


suplemento A es igual al promedio de los tratamientos con suplemento B:
3 4 5
H0 : 2

2
2
Esto es equivalente a H 0 : 2 3 4 5 0 . Podemos verificar que esto es un
contraste, y estamos probando H 0 : L 0 . Observar que

1 1 1 1 0.

Si tuvisemos un solo contraste de inters, la estimacin y la prueba es directa:

L ci i ci Yi Y ciYi

CME
L ci2 var
Yi ci2
var
ci2
ni
ni

24

H 0 : L 0, H a : L 0

s.e. L

L
CME
c n
i

, rechazamos H 0 cuando t t 2; dfe .

2
i

En forma equivalente, podemos calcular una suma de cuadrados para el contraste, y


construir un estadstico F para probar la misma hiptesis:
L 2
ci2
n
CM ( L)
i
, rechazamos H 0 cuando F F ;1,dfe .
H 0 : L 0, H a : L 0
F

CME
CME
Debemos observar que el numerador tiene 1 grado de libertad, y por lo tanto la suma de
cuadrados es igual al cuadrado medio.
Los contrastes pueden clasificarse en a priori y a posteriori. Los primeros son
contrastes que se postulan basndonos nicamente en la estructura de los tratamientos,
antes de mirar los datos. Este tipo de contraste es lo que deberamos usar casi siempre
que sea posible.
En la mayora de los casos tenemos ms de un contraste de inters. El problema de
acumulacin potencial de errores estar tambin presente en estos casos cuando tratemos
de obtener conclusiones para todos los contrastes conjuntamente.
El mtodo que hemos presentado, basado en la prueba t o F, controla la tasa de error por
comparacin (igual que el DMS). Esto es porque est diseado para contrastes
individuales. Si cada uno de los contrastes est diseado para responder a una pregunta
separada, el mtodo de t o F tambin puede usarse y la acumulacin de errores no ser
tan importante. Matemticamente estos contrastes se denominan ortogonales. Dos
contrastes L1 ai i y L2 bi i son ortogonales si ai bi 0 . Un conjunto de
contrastes es ortogonal si todos los pares posibles de contrastes son ortogonales entre s.
Si tenemos t tratamientos, no podemos tener ms de t 1 contrastes ortogonales en un
conjunto dado (los grados de libertad de tratamientos). En el ejemplo de los pavos un
conjunto ortogonal de inters podra ser
Grupo L1 L2 L3 L4
1
4
0
0
0
2
-1 1
0
1
3
-1 -1 0
1
4
-1 0
1 -1
5
-1 0 -1 -1
Observar que L1 compara la dieta control con el promedio de las otras, L2 compara los
dos niveles del suplemento A, L3 compara los dos niveles del suplemento B, y L4

25

compara el promedio de las dos formulaciones de A con el promedio de las dos


formulaciones de B.
En resumen, si tenemos ms de un contraste a priori, podemos usar contrastes
ortogonales y probarlos con una prueba t o F. Si no tenemos un conjunto ortogonal de
inters, podemos seguir usando las pruebas t o F, pero los niveles de significacin
debern dividirse por m, la cantidad de contrastes a priori de inters (prueba de
Bonferroni).
Si tenemos muchos contrastes no ortogonales a priori (lo que har que Bonferroni sea
muy ineficiente) o si tenemos contrastes a posteriori podemos usar un procedimiento
que controla la tasa de error por experimento: la prueba de Scheff.

Prueba de Scheff
Este procedimiento puede usarse para cualquier contraste, ya que controla la tasa de error
para todos los contrastes posibles, sean estos sugeridos por los datos, ortogonales, no
ortogonales, de a pares, etc. Dado que es una prueba tan general, tiende a ser muy
conservadora (por ejemplo, casi nunca se la usa para comparaciones de a pares, que son
un caso particular de contrastes a priori no ortogonales).
Para usar la prueba de Scheff debemos calcular el estadstico F mencionado
anteriormente, y el criterio de rechazo ser
Rechazar H 0 si F (t 1) F ; t 1,dfe
donde t es el nmero de tratamientos usados. (El texto presenta una versin equivalente
de la prueba de Scheff que usa el estadstico t, no el estadstico F)
Para realizar pruebas F en contrastes podemos usar Infostat o SAS. En Infostat debemos
abrir la ventana de contrastes, indicando los tratamientos y los coeficientes. Opcionalmente podemos solicitar que se verifique la ortogonalidad de los contrastes. Para el
ejemplo de las dietas de pavos,
Se debe destacar que el usuario debe decidir de antemano qu prueba va a realizar:
1. Si es una prueba F sin ninguna correccin por contrastes mltiples,
Rechazar H 0 si p
2. Si es una prueba F con correccin de Bonferroni por realizar m contrastes,
Rechazar H 0 si p / m
3. Si es una prueba de Scheff,
Rechazar H 0 si F (t 1) F ; t 1,dfe

26

Contrastes
Tratamiento
SC
Contraste1 3060357.61
Contraste2
450300.50
Contraste3
41616.13
Contraste4
739170.06
Total
4291444.30

gl
1
1
1
1
4

CM
3060357.61
450300.50
41616.13
739170.06
1072861.08

Coeficientes de los contrastes


Tratamiento Cont. 1
Cont. 2
1.00
4.00
0.00
2.00
-1.00
1.00
3.00
-1.00
-1.00
4.00
-1.00
0.00
5.00
-1.00
0.00

F
118.57
17.45
1.61
28.64
41.57

Cont. 3
0.00
0.00
0.00
1.00
-1.00

valor p
<0.0001
0.0013
0.2282
0.0002
<0.0001
Cont. 4
0.00
1.00
1.00
-1.00
-1.00

Programa de SAS para contrastes


proc glm data=pavos;
class trt;
model ganancia=trt;
means trt;
contrast 'control vs. otros' trt 4 -1 -1 -1 -1;
contrast 'A1 vs. A2' trt 0 1 -1 0 0;
contrast 'B1 vs. B2' trt 0 0 0 -1 1;
contrast 'A vs. B' trt 0 1 1 -1 -1;
run;

27

7. Diseo de cuadrado latino


Consideremos el siguiente ejemplo de aplicacin del diseo en bloques completos
aleatorizados: vamos a analizar una enzima en camarones para estudiar el efecto de 4
distintos tratamientos de conservacin. Como el anlisis es muy complicado, vamos a
asegurarnos que no haya efecto de analista diseando el experimento de manera que cada
uno de los cuatro analistas realice las determinaciones de los cuatro tratamientos. Es
decir, cada analista va a ser un bloque, y debemos aleatorizar el orden en que cada
analista va a trabajar (cada tratamiento requiere hacerse en un da diferente). Por ejemplo:

Da
L
Ma
Mi
J

1
Trat A
Trat C
Trat D
Trat B

Analista
2
3
Trat A Trat B
Trat B Trat C
Trat D Trat A
Trat C Trat D

4
Trat A
Trat C
Trat B
Trat D

Podemos ver que si hubiese un efecto de da (por ejemplo, los lunes no son tan confiables
como los mircoles), entonces algunos tratamientos pueden verse afectados (por ejemplo,
el A aparece 3 veces en lunes). Para evitar esto podramos hacer que cada da tambin sea
un bloque completo (es decir, que todos los tratamientos estn representados). Un posible
arreglo de tratamientos sera:
Analista
2
3
4
Da 1
L
Trat A Trat D Trat B Trat C
Ma Trat C Trat B Trat D Trat A
Mi Trat D Trat C Trat A Trat B
J
Trat B Trat A Trat C Trat D
Este diseo se denomina cuadrado latino, y tiene la ventaja de controlar dos fuentes de
variacin (en nuestro ejemplo el analista y el da). Es bastante rgido, ya que requiere,
para t tratamientos, t filas y t columnas. Su principal desventaja es que las diferencias
entre los tratamientos no deben estar afectadas por las filas o las columnas (es decir, si el
tratamiento A es mejor que el B, debe serlo en los 4 analistas). La forma ms comn de
aleatorizar los tratamientos es eligiendo al azar de una tabla de cuadrados latinos uno del
tamao deseado (o armar uno en forma no aleatoria), y despus aleatorizar los nmeros
de filas, los nmeros de columnas y los nmeros de tratamientos.
El modelo que describe los datos provenientes de este diseo es el siguiente:
Yijk i j k ijk
La notacin que usaremos ser la misma que para el DBCA: tenemos t tratamientos,
Yijk denota la observacin del i simo tratamiento en la fila j y la columna k.

28

Ahora tendremos dos fuentes adicionales de variabilidad: las filas y las columnas. Las
sumas de cuadrados se calculan de la siguiente manera:
2
2
SCTotal=SCTot Yijk Y Yijk2 Y 2
t
2
Yi2 Y
2
t
t

SCTratamientos=SCTrat t Yi Y
2

SCFilas= t Y j Y
2

2
j

Y
t

2
Y2 k Y
2
t
t
k
k
SCResidual=SCError=SCRes SCTot-SCTrat-SCFilas-SCCol

SCColumnas= t Yk Y
2

La siguiente es la tabla de ANOVA:


Fuente de
Suma de
Variacin
Cuadrados
Tratamiento
SCTrat
Filas
SCFilas
Columnas
SCColumnas
Residual (Error)
SCRes=SCE
Total

SCTot

grados de
libertad
t 1
t 1
t 1
t 1 t 2

Cuadrado
Medio
CMTrat
CMFilas
CMCol
CMRes=CME

F
F=CMTrat/CME
F=CMFila/CME
F=CMCol/CME

t 2 1

Las hiptesis que probamos, los supuestos y los mtodos de comparaciones mltiples se
aplican de la misma manera que lo que hemos estudiado para DCA y DBCA.
Ejemplo: ste es el ejercicio 15.8 del libro de Ott (leer la descripcin del mismo all).
data melon;
input fila col trat peso;
datalines;
1 1 1 1.75
1 2 3 1.43
1 3 4 1.28
1 4 2 1.66
2 1 2 1.70
2 2 1 1.78
2 3 3 1.40
2 4 4 1.31

3 1 4
3 2 2
3 3 1
3 4 3
4 1 3
4 2 4
4 3 2
4 4 1
proc glm;
class fila
model peso

29

1.35
1.73
1.69
1.41
1.45
1.36
1.65
1.73
col trat;
= fila col trat; run;

Class Level Information


Class

Levels

Values

fila

1234

col

1234

trat

1234

Dependent Variable: peso


Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

0.49335000

0.05481667

438.53

<.0001

Error

0.00075000

0.00012500

Corrected Total

15

0.49410000

R-Square

Coeff Var

Root MSE

peso Mean

0.998482

0.724819

0.011180

1.542500

Source

DF

Type III SS

Mean Square

F Value

Pr > F

fila

0.00085000

0.00028333

2.27

0.1810

col

0.01235000

0.00411667

32.93

0.0004

trat

0.48015000

0.16005000

1280.40

<.0001

Para analizar los mismo datos en Infostat debemos seleccionar fila, columna y tratam
como variables de clasificacin:

30

31

8. Experimentos factoriales con dos factores


Existen muchas situaciones en las que los tratamientos representan combinaciones de dos
o ms variables independientes (=factores). Por ejemplo, supongamos que queremos
estudiar el efecto de dos factores: la presencia (o ausencia) de antibitico y la presencia
(o ausencia) de vitamina B12 en la dieta de cerdos. Si combinamos los dos niveles de
antibitico (0mg, 40mg) con los dos niveles de B12 (0mg, 5mg), tendremos cuatro
tratamientos:
Tratamiento Antibitico Vitamina B12
1
0
0
2
40
0
3
0
5
4
40
5
Supongamos que aplicamos cada uno de estos cuatro tratamientos a 5 cerdos, segn un
diseo completamente aleatorizado, y registramos el aumento de peso en cada uno.
Por ahora, supongamos que conocemos el aumento promedio verdadero (poblacional)
para cerdos en los tres primeros tratamientos. Sera posible predecir el promedio del
cuarto tratamiento?
Tratamiento Antibitico Vitamina B12
1
0
0
30
2
40
0
35
3
0
5
45
4
40
5
?
Por una parte observamos que al pasar de 0 a 40 de antibitico sin vitamina B12 el
aumento del promedio es 5. Si podramos suponer que ese efecto positivo del antibitico
en ausencia de B12 es el mismo que el efecto que el antibitico tendra en presencia de
B12, entonces 4 3 5 50.
Equivalentemente, al pasar de 0 a 5 de B12 sin antibitico el aumento del promedio es
15. Por lo tanto, al pasar de 0 a 5 de B12 en presencia del antibitico el promedio sera
4 2 15 50.
Resumiendo, bajo el supuesto que el efecto de un factor es el mismo en ambos niveles del
otro factor, podemos calcular una media dadas las otras 3. Cuando esto sucede decimos
que los efectos son aditivos (podemos sumarlos) y no sera necesario probar los cuatro
tratamientos (con tres sera suficiente).
Ahora supongamos que esto no se cumple, sino que 4 60 (por ejemplo debido a que
la presencia de ambos suplementos es ms beneficiosa que la presencia de uno de ellos

32

por separado). En este caso s necesitamos estudiar las cuatro combinaciones, y no


podemos prescindir de ninguna. Cuando esto sucede decimos que los efectos no son
aditivos sino que existe interaccin entre los factores. Grficamente,
Efectos Aditivos

Media

60
50

B12=0

40

B12=5

30
20
0

10

20

30

40

Antibitico

Efectos con interaccin

Media

60
50

B12=0

40

B12=5

30
20
0

10

20

30

40

Antibitico

En un experimento factorial siempre probamos todas las combinaciones de tratamiento,


ya que estudiar la interaccin es uno de los objetivos ms importantes al realizar un
experimento de este tipo. El ejemplo que hemos presentado se denomina un experimento
factorial 2x2, o 22, ya que tiene dos factores a dos niveles cada uno. Si tuvisemos
antibitico a 2 niveles y B12 a 3 niveles, sera un factorial 2x3 (y en este caso tendramos
6 tratamientos, o combinaciones de niveles). Un factorial 2x2x3 significa que hay tres
factores, uno a dos niveles, otro a dos niveles y un tercero a 3 niveles.
El modelo para observaciones provenientes de un arreglo factorial de tratamientos
arreglados en un diseo completamente aleatorizado es el siguiente:
Yijk ij ijk i j ij ijk
donde el ndice i representa niveles del primer factor, j representa niveles del segundo
factor y k representa repeticiones. Si no hubiese interaccin, la diferencia (por ejemplo)
12 11 sera igual a la diferencia 22 21 . Esto es lo que observamos en nuestro
ejemplo, y se logra si ij 0 :

33

12 11 1 2 1 1 2 1
22 21 2 2 2 1 2 1
Si hubiese interaccin esta igualdad no se cumplira. Por lo tanto, el trmino ij
representa la interaccin entre ambos factores. Los trminos i y j representan los
efectos principales del primer y segundo factor respectivamente. Estos efectos
principales pueden interpretarse como el efecto de un factor promediado sobre todos los
niveles del otro factor (ya discutiremos este concepto ms adelante).
Para armar nuestra tabla de ANOVA supongamos que el primer factor lo llamamos A, y
este factor tiene a niveles. Similarmente, el factor B tiene b niveles, y tenemos n
observaciones por tratamiento (combinacin de niveles de A y B).
Usando la notacin de puntos,
Yi : total para el nivel i del factor A
Y j : total para el nivel j del factor B
Yij : total para el tratamiento ij
(combinacin del nivel i de A y nivel j de B)
Y : total de todas las observaciones
2
2
SCTotal=SCTot Yijk Y Yijk2 Y

nab

2
Yi2 Y

abn
i bn
2
2
Y j Y

abn
j an

SCA bn Yi Y
2

SCB= an Y j Y
j

Yij2

2
Y
SCA SCB
n nab
SCResidual=SCError=SCRes SCTot-SCA-SCB-SCAB

SCAB=SCTratamientos-SCA-SCB=

La siguiente es la tabla de ANOVA:


Fuente de Variacin Suma de
Cuadrados
A
SCA
B
SCB
AB
SCAB
Residual (Error)
SCRes=SCE
Total
SCTot

grados de
libertad
a-1
b-1
(a-1)(b-1)
ab(n-1)
abn-1

34

Cuadrado
Medio
CMA
CMB
CMAB
CMRes=CME

F
F=CMA/CME
F=CMB/CME
F=CMAB/CME

Las hiptesis que probamos son tres:


H 0 : 11 12 ... ab 0
H 0 : 1 2 ... a 0
H 0 : 1 2 ... b 0

La primera hiptesis que debemos probar siempre es si hay o no hay interaccin. Si hay
interaccin, las hiptesis de efectos principales no tienen demasiado sentido y por lo tanto
no deberamos interpretarlas (excepto bajo ciertas circunstancias).
Si no hay interaccin significativa, los efectos principales s tienen interpretacin, y por
lo tanto podemos probarlos.
Vamos a ver nuevamente el ejemplo presentado antes (factorial 2x2) para entender mejor
los conceptos de efectos principales e interacciones. Supongamos que observamos tres
cerdos en cada tratamiento (DCA) y observamos la ganancia diaria de peso:
Tratamiento

Antibitico

Vitamina B12

Ganancia Diaria de Peso

1
2
3
4

0
40
0
40

0
0
5
5

1.30, 1.19, 1.08


1.05, 1.00, 1.05
1.26, 1.21, 1.19
1.52, 1.56, 1.55

Yij
1.19
1.03
1.22
1.54

Bajo el nivel 0 de antibitico (factor A) podemos estimar el efecto simple del factor B:
Y12 Y11 1.22 1.19 0.03
Similarmente el efecto simple del factor B cuando el factor A est en su segundo nivel se
estima como:
Y22 Y21 1.54 1.03 0.51
El efecto principal del factor B es el promedio de estos dos efectos simples, y es tambin
la diferencia entre las medias de los niveles de B:
.51 .03
Y2 Y1
0.27
2
Si los efectos simples no son significativamente diferentes, entonces s tiene sentido
promediarlos para obtener el efecto principal. Pero si los efectos simple son
significativamente diferentes, entonces estamos en presencia de interaccin y no tendra
sentido promediarlos. Por lo tanto, la interaccin puede estimarse mediante la diferencia
de los efectos simples:
Interaccin: Y22 Y21 Y12 Y11 0.51 0.03 0.48
Como ejercicio, calcular los efectos simples y principal del factor A. Verificar que
usando estos efectos simples la interaccin es la misma. (Esto tiene sentido, ya que la
interaccin es un concepto que comprende los dos factores.)

35

El programa SAS para este ejemplo sigue a continuacin.


data cerdos;
input tratam antib vitb12 ganpeso;
datalines;
1
0
0
1.30
1
0
0
1.19
1
0
0
1.08
2
40
0
1.05
2
40
0
1.00
2
40
0
1.05
3
0
5
1.26
3
0
5
1.21
3
0
5
1.19
4
40
5
1.52
4
40
5
1.56
4
40
5
1.55
proc glm;
class antib vitb12;
model ganpeso = antib vitb12 antib*vitb12;
run;
Class Level Information
Class

Levels

Values

antib

0 40

vitb12

05

Dependent Variable: ganpeso


Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

0.41233333

0.13744444

37.48

<.0001

Error

0.02933333

0.00366667

Corrected Total

11

0.44166667

R-Square

Coeff Var

Root MSE

ganpeso Mean

0.933585

4.857193

0.060553

1.246667

Source

DF

Type III SS

Mean Square

F Value

Pr > F

antib

0.02083333

0.02083333

5.68

0.0443

vitb12

0.21870000

0.21870000

59.65

<.0001

antib*vitb12

0.17280000

0.17280000

47.13

0.0001

36

Otra manera de ver este problema es mediante contrastes. Olvidndonos por un momento
de los dos factores, nosotros tenemos aqu un DCA con 4 tratamientos. Mediante
contrastes apropiados podemos probar las mismas hiptesis (adems podramos escribir
contrastes para efectos simples de ser necesario):
proc glm;
class tratam;
model ganpeso = tratam;
contrast 'Ef. ppal. A' tratam -1 1 -1 1;
contrast 'Ef. ppal. B' tratam -1 -1 1 1;
contrast 'Interac. AB' tratam 1 -1 -1 1;
run;
Class Level Information
Class

Levels

Values

tratam

1234

Dependent Variable: ganpeso


Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

0.41233333

0.13744444

37.48

<.0001

Error

0.02933333

0.00366667

Corrected Total

11

0.44166667

R-Square

Coeff Var

Root MSE

ganpeso Mean

0.933585

4.857193

0.060553

1.246667

Source

DF

Type III SS

Mean Square

F Value

Pr > F

tratam

0.41233333

0.13744444

37.48

<.0001

Contrast

DF

Contrast SS

Mean Square

F Value

Pr > F

Ef. ppal. A

0.02083333

0.02083333

5.68

0.0443

Ef. ppal. B

0.21870000

0.21870000

59.65

<.0001

Interac. AB

0.17280000

0.17280000

47.13

0.0001

37

Interaccin ordenada y no ordenada

Media

Interaccin Ordenada
50
40
30
20
10
0

B=1
B=2
B=3
0

Media

Interaccin No Ordenada
25
20
15
10
5
0

B=1
B=2
B=3
0

Si tenemos interaccin ordenada podramos probar efectos principales (recordemos que


son promedios de efectos simples) e interpretar los resultados (con cautela), pero si
tenemos una interaccin no ordenada, los efectos principales no se pueden interpretar en
trminos prcticos (estamos promediando cosas con distinto signo, distinta magnitud,
etc.)

38

Pruebas de comparaciones mltiples, contrastes, intervalos de confianza, etc.


Para realizar comparaciones o contrastes podemos hacerlo con dos tipos de medias:
1. las medias de niveles de cada factor. Por ejemplo, 1 2 es la diferencia entre
el primer nivel de A y el segundo nivel de A. Es un efecto principal.
2. las medias de tratamientos (combinaciones de niveles niveles de cada factor). Por
ejemplo, 12 11 es la diferencia entre el primer nivel de B y el segundo nivel de
B cuando el factor A est en su primer nivel. Es un efecto simple.
Las medias de niveles de cada factor se calculan a partir de ms observaciones que las
medias de tratamientos, por lo que las frmulas que hemos estudiado deben corregirse
apropiadamente. En el ejemplo de los cerdos, para calcular 1 Y1 debemos promediar
bn 2 3 6 observaciones; mientras que para calcular 12 Y12 debemos promediar
n 3 observaciones. Esto hace que los errores estndar de las diferencias dependan de
qu tipo de media estamos considerando. Por ejemplo,
2CME
s.e. Y1 Y2
bn

s.e. Y3 Y1

2CME
an

s.e. Y12 Y11

2CME
n

39

9. Experimentos factoriales con tres o ms factores


Para experimentos con tres o ms factores las ideas bsicas del anlisis son las mismas
que para dos factores, aunque todo se complica por la existencia de interacciones dobles,
triples, etc. Veamos con un ejemplo qu significara cada uno de los efectos e
interacciones en un factorial 2x2x2. Por ejemplo, supongamos que queremos estudiar el
efecto de la presencia (o ausencia) de antibitico, la presencia (o ausencia) de vitamina
B12 y el sexo en la dieta de cerdos. Si combinamos los dos niveles de antibitico (0mg,
40mg) con los dos niveles de B12 (0mg, 5mg), y los dos sexos tendremos ocho
tratamientos:
Tratamiento Antibitico Vitamina B12 Sexo
1
0
0
M
2
40
0
M
3
0
5
M
4
40
5
M
5
0
0
F
6
40
0
F
7
0
5
F
8
40
5
F
Supongamos que aplicamos cada uno de estos ocho tratamientos a 5 cerdos, segn un
diseo completamente aleatorizado, y registramos el aumento de peso en cada uno.
El modelo para este ejemplo sera:
Yijkm ijk ijkm i j k ij ik jk ijk ijkm
donde el ndice i representa niveles del primer factor, j representa niveles del segundo
factor, k representa niveles del tercer factor y m representa repeticiones.
Debemos observar que ahora tenemos tres efectos principales, tres interacciones dobles y
una interaccin triple. Los efectos principales tienen la misma interpretacin que antes:
representan las comparaciones entre niveles de un factor promediadas sobre los niveles
de los otros dos factores. Por ejemplo, el efecto principal de sexo es la comparacin entre
los 4 tratamientos con nivel 1 de sexo (trat. 1-4) y los 4 tratamientos con nivel 2 de sexo
(trat. 5-8).
Las interacciones dobles son comparaciones entre las diferencias de niveles de un factor
en cada nivel del otro promediadas sobre los niveles del factor no incluido en la
interaccin. Por ejemplo, la interaccin doble entre antibitico y vitamina es la siguiente
comparacin:
111 112 121 122 211 212 221 222

2
2
2
2

Observar que los niveles de sexo (tercer ndice) estn promediados, ya que la interaccin
considerada es entre antibitico y vitamina.

40

La interaccin triple se puede interpretar como que la interaccin doble entre dos de los
factores en un nivel dado del factor restante no es la misma que la interaccin doble en el
otro nivel del factor restante. Por ejemplo, la interaccin triple podra interpretarse como
que la interaccin entre el antibitico y la vitamina no es la misma en machos que en
hembras:
111 121 211 221 112 122 212 222
Para armar nuestra tabla de ANOVA supongamos que el primer factor lo llamamos A, y
este factor tiene a niveles. Similarmente, el factor B tiene b niveles, el factor C tiene c
niveles y tenemos n observaciones por tratamiento (combinacin de niveles de A, B y C).
Usando la notacin de puntos,
Yi : total para el nivel i del factor A
Y j : total para el nivel j del factor B
Yk : total para el nivel k del factor C
Yij : total para la combinacin del nivel i de A y nivel j de B
Yik : total para la combinacin del nivel i de A y nivel k de C
Y jk : total para la combinacin del nivel j de B y nivel k de C
Yijk : total para el tratamiento ijk
Y : total de todas las observaciones

Las frmulas para las sumas de cuadrados pueden consultarse en la pgina 907 del texto.
La siguiente es la tabla de ANOVA:
Fuente de
Variacin
A
B
C
AB
AC
BC
ABC
Residual (Error)
Total

Suma de
Cuadrados
SCA
SCB
SCC
SCAB
SCAC
SCBC
SCABC
SCRes=SCE
SCTot

grados
libertad
a-1
b-1
c-1
(a-1)(b-1)
(a-1)(c-1)
(b-1)(c-1)
(a-1)(b-1) (c-1)
abc(n-1)
abcn-1

41

Cuadrado
Medio
CMA
CMB
CMC
CMAB
CMAC
CMBC
CMABC
CMRes=CME

F
F=CMA/CME
F=CMB/CME
F=CMC/CME
F=CMAB/CME
F=CMAC/CME
F=CMBC/CME
F=CMABC/CME

La estrategia general para analizar esta tabla es la misma que para factoriales con dos
factores: empezar a probar la interaccin de mayor orden, seguir con las dobles de
acuerdo al resultado de la prueba de la interaccin triple, etc. Un diagrama que nos puede
ayudar en esto es el siguiente (ver pgina 909 en el texto, quinta edicin):

42

10. Modelos de efectos aleatorios y mixtos


Supongamos que nos interesa estudiar si hay diferencias en calidad segn la variedad en
semillas de trigo comercializadas por cierta compaa. Para este estudio elegimos al azar
5 variedades (de entre las 40 variedades disponibles) y de cada variedad elegimos 10
muestras al azar de 50 semillas cada una, en las que medimos el porcentaje de
germinacin, peso, densidad, etc. El modelo para cada una de las variables dependientes
sera
Yij i ij
Como en otros modelos estudiados antes, aqu i representa el efecto de la variedad y ij
el error. La principal diferencia es que el efecto de la variedad es una variable aleatoria.
Debemos observar que si hicisemos el estudio nuevamente, las variedades elegidas
seran diferentes (se escogen al azar cada vez). Por otra parte, si las nicas variedades de
inters fuesen las cinco variedades del estudio, el efecto de la variedad ( i ) sera fijo
(esta situacin sera similar a todos los ejemplos estudiados hasta ahora: al hacer el
estudio de nuevo, las muestras seran diferentes pero las variedades seran las mismas).
Como en todos los ejemplos anteriores, el error siempre es una variable aleatoria y la
media general es fija:
i ~ N 0, 2 ,
ij ~ N 0, 2
Ambos efectos son independientes.
La inferencia para modelos de efectos aleatorios es diferente, ya que no estamos
interesados en los 5 valores de i actualmente estudiados sino en todos los valores
posibles (los efectos de las 40 variedades). Si todos los efectos fuesen iguales, la varianza
de estos efectos sera 0, es decir, 2 0 . Por lo tanto sta es la hiptesis nula que
probamos en un modelo de efecto aleatorio. Los clculos para la tabla de ANOVA son
los mismos que antes (por lo menos en este ejemplo con un solo factor), y la prueba F
sigue siendo F CMTrat
.
CME
Otra manera de ver que la hiptesis que estamos probando es la mencionada es mediante
el estudio de los cuadrados medios esperados. Un cuadrado medio esperado es el valor
promedio que obtendramos si repitisemos nuestro experimento infinidad de veces,
calculsemos cada vez un cuadrado medio, y promedisemos estos valores. Debemos
observar que segn estemos trabajando con efectos fijos o aleatorios el proceso de repetir
el experimento va a ser diferente: en el caso de efectos fijos el proceso significa
realeatorizar las unidades experimentales a los tratamientos, mientras que con efectos
aleatorios deberamos reelegir aleatoriamente los tratamientos y luego realeatorizar las
unidades experimentales a los tratamientos elegidos. Los cuadrados medios esperados
son cantidades poblacionales cuyo clculo requiere bastante teora. Para el ejemplo que
estamos considerando son los siguientes:

43

Fuente de variacin
Tratamiento
Error

Cuadrado Medio Esperado


Efectos Fijos
Efectos Aleatorios
2
2
ni (t 1) 2 n 2

Aqu podemos ver la justificacin para la prueba F: bajo la hiptesis nula tanto el
numerador como el denominador tienen el mismo valor esperado, mientras que bajo la
hiptesis alternativa el numerador tiene un valor esperado ms alto que el denominador
(de ah que rechacemos la hiptesis nula para valores altos del estadstico).
El mismo concepto de efectos aleatorios lo podemos extender a situaciones con ms de
un factor, con bloques, etc. Supongamos que estamos estudiando un proceso de
empacado de pescado en una fbrica. Escogemos 4 mquinas al azar entre todas las
disponibles, y 3 operarios al azar entre los 200 operarios de la fbrica. Para cada
combinacin de mquina y operario escogemos 5 paquetes al azar de la lnea de
produccin. Debemos notar que ste es un experimento factorial 4x3 con 5 repeticiones
en un DCA, pero ambos efectos son aleatorios (si volvisemos a realizar el experimento,
tanto las mquinas como los operarios seran diferentes). El modelo en este caso es
Yijk i j ij ijk

i ~ N 0, 2 , j ~ N 0, 2
2
ij ~ N 0,
, ijk ~ N 0, 2
Todos los efectos aleatorios son independientes entre s.

Otro ejemplo de un factorial con dos factores es el siguiente: deseamos comparar 4


variedades de habichuela aleatoriamente escogidas sembradas bajo 5 dosis de
fertilizacin. Para ello sembramos 2 repeticiones de cada una de las 20 combinaciones de
variedad y fertilizacin en un experimento diseado segn un DCA. En este caso el
modelo es mixto: los efectos de las variedades son aleatorios y los efectos de los mtodos
de fertilizacin son fijos. El modelo es similar al anterior:
Yijk i j ij ijk
2
j ~ N 0, 2 , ij ~ N 0,

ijk ~ N 0, 2

44

Los cuadrados medios esperados para factoriales pueden resumirse en la siguiente tabla:
Fuente
de
variacin
A
B

A y B Fijos

Cuadrado Medio Esperado


A y B Aleatorios
A fijo, B Aleatorio

2 nbi2 (a 1)

2 na 2j (b 1)

2
2 n
nb 2

2
2 n
nbi2 (a 1)

2
2 n
na 2

2 na 2

AB

2 nij2 (a 1)(b 1)

2
2 n

2
2 n

Error

A partir de esta tabla es bastante directo encontrar las hiptesis y la forma de construir
estadsticos F para probarlas. La clave es siempre encontrar un numerador y un
denominador para el estadstico F que tengan el mismo valor esperado bajo la hiptesis
nula. Por ejemplo, en el modelo mixto para probar el efecto principal del factor A
tenemos que H 0 : 1 2 ... a 0 , y para probarla podemos construir el siguiente
CMA
estadstico: F
. Todas estas frmulas son vlidas slo si los datos son
CMAB
balanceados (igual nmero de repeticiones por combinacin de niveles de factores). En
caso contrario se debe usar otra metodologa.
Como ejemplo en SAS, consideremos el modelo mixto discutido antes con 5 dosis de
fertilizante (fijas) y 4 variedades (aleatorias).
data ensayo;
input fertil varied rendim;
datalines;
1 1 7.2
1 2 4.2
1 3 9.5
1 4 5.4
1 1 9.6
1 2 3.5
1 3 9.3
1 4 3.9
2 1 8.5
2 2 2.9
2 3 8.8
2 4 6.3
2 1 9.6
2 2 3.3
2 3 9.2
2 4 6.0
3 1 9.1
3 2 1.8
3 3 7.6
3 4 6.1
3 1 8.6

3 2 2.4
3 3 7.1
3 4 5.6
4 1 8.2
4 2 3.6
4 3 7.3
4 4 5.0
4 1 9.0
4 2 4.4
4 3 7.0
4 4 5.4
5 1 7.8
5 2 3.7
5 3 9.2
5 4 6.5
5 1 8.0
5 2 3.9
5 3 8.3
5 4 6.9
proc glm;
class fertil varied;
model rendim = fertil|varied;
test h=fertil e=fertil*varied;
run;

45

Class Level Information


Class

Levels

Values

fertil

12345

varied

1234

Number of Observations Read

40

Number of Observations Used

40

Dependent Variable: rendim


Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

19

200.1027500

10.5317237

30.42

<.0001

Error

20

6.9250000

0.3462500

Corrected Total

39

207.0277500

R-Square

Coeff Var

Root MSE

rendim Mean

0.966550

9.063229

0.588430

6.492500

Source

DF

Type III SS

Mean Square

F Value

Pr > F

fertil

3.8115000

0.9528750

2.75

0.0567

varied

180.1327500

60.0442500

173.41

<.0001

fertil*varied

12

16.1585000

1.3465417

3.89

0.0037

Tests of Hypotheses Using the Type III MS for fertil*varied as an Error Term
Source
fertil

DF
4

Type III SS
3.81150000

Mean Square
0.95287500

46

F Value
0.71

Pr > F
0.6020

La tabla de cuadrados medios esperados tambin nos da la informacin necesaria para


estimar las componentes de la varianza:

2 CME .346
CMAB-CME 1.34654 .34625

.500
n
2
CMB-CME 60.04425 .34625
2

5.970
an
5 2

Las frmulas de cuadrados medios esperados a partir de las cuales podemos deducir estas
estimaciones de las varianzas son vlidas slo para igual nmero de repeticiones. Para
nmero desigual de repeticiones, situaciones con estimados negativos, etc. debemos usar
otro mtodo llamado REML (implementado en SAS Proc Mixed o en el mdulo de
modelos mixtos de InfoStat, pero que no lo estudiamos en este curso).
Para realizar el mismo ejemplo en Infostat, debemos indicar directamente en las especificaciones del modelo el denominador de los estadsticos F de todos los efectos que usen
como denominador algo diferente del cuadrado medio de error. En nuestro ejemplo, notar
que en modelo escribimos FERTIL\FERTIL*VARIEDAD (sin espacios intermedios)

47

Anlisis de la varianza
Variable
N
R
R Aj CV
rendim
40
0.97
0.93 9.06
Cuadro de Anlisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
F
p-valor
Modelo
200.10 19
10.53
30.42 <0.0001
Fertil
3.81 4
0.95
0.71 0.6020
variedad
180.13 3
60.04 173.41 <0.0001
Fertil*variedad
16.16 12
1.35
3.89 0.0037
Error
6.93 20
0.35
Total
207.03 39

48

(Error)
(Fertil*variedad)

11. Diseos anidados


Consideremos los siguientes dos ejemplos:
1. Queremos saber si hay diferencias en el contenido de vitamina C de jugo de china
de dos marcas diferentes (A, B). Elegimos aleatoriamente 6 cartones de cada una
de las marcas, y de cada cartn tomamos 2 muestras aleatorias de 1 oz. y las
analizamos. Cules son los factores en estudio? Son fijos o aleatorios?
2. Muestreamos 10 fincas de caf al azar en el rea central de P. Rico, elegimos 12
rboles al azar en cada finca y de cada rbol obtenemos 3 muestras de 20 hojas
cada una y determinamos el porcentaje de hojas con roya en cada muestra.
Cules son los factores en estudio? Son fijos o aleatorios?
En ambos ejemplos tenemos 2 factores de inters, pero, a diferencia de los experimentos
factoriales estudiados antes, no tenemos disponibles todas las combinaciones de niveles.
Esto hace que no podamos estudiar la interaccin entre los factores, sino slo el efecto
del factor A, y el efecto del factor B dentro de los niveles de A (es decir, las diferencias
entre los niveles de B en un nivel dado de A). El modelo se llama jerrquico o
anidado (hay una jerarqua de factores: tenemos niveles de A, dentro de cada nivel de
A tenemos algunos niveles especficos de B, etc.). Decimos que el factor B est anidado
dentro del factor A. (En factoriales, decimos que el factor B est cruzado con el factor A,
ya que todas las combinaciones de niveles de ambos factores aparecen). El modelo que
explica las observaciones es:
Yijk i j (i ) ijk
Los efectos de A pueden ser fijos o aleatorios, y de B dentro de A generalmente son
aleatorios, como hemos visto en los dos ejemplos al principio (el ejemplo 1 es mixto, el 2
es aleatorio).

49

La tabla de ANOVA es la siguiente:


Fuente de
Variacin

Suma de Cuadrados

2
Yi2 Y

abn
i bn
2
Y
Y2
SCB(A)= ij SCA
n nab
SCE=SCTot-SCA-SCB(A)
2
SCTot Yijk2 Y
nab

B(A)
Error
Total

SCA

grados
de
libertad
a-1

Cuadrado
Medio
CMA

a(b-1)

CMB(A)

ab(n-1)
abn-1

CME

Los cuadrados medios esperados para anidados pueden resumirse en la siguiente tabla:
Fuente de variacin
A

Cuadrado Medio Esperado


A y B Aleatorios
A fijo, B Aleatorio
2
2
2
2
n nb
n 2 nbi2 (a 1)

B(A)

2 n 2

2 n 2

Error

A partir de esta tabla es bastante directo encontrar las hiptesis y la forma de construir
estadsticos F para probarlas. La clave es la misma de la clase anterior: encontrar un
numerador y un denominador para el estadstico F que tengan el mismo valor esperado
bajo la hiptesis nula. Por ejemplo, en el modelo mixto para probar el efecto principal del
factor A tenemos que H 0 : 1 2 ... a 0 , y para probarla podemos construir el
CMA
siguiente estadstico: F
. Todas estas frmulas son vlidas slo si los datos
CMB(A)
son balanceados (igual nmero de repeticiones por nivel de B, e igual nmero de niveles
de B por nivel de A). En caso contrario se debe usar otra metodologa (como Proc Mixed
en SAS o el mdulo de modelos mixtos en InfoStat, que hemos mencionado para casos
desbalanceados en modelos de efectos aleatorio o mixtos estudiados en el captulo
anterior).

50

Como ejemplo en SAS e Infostat, consideremos el modelo mixto del ejemplo 1 con 2
marcas de jugo, 6 cartones por marca y 2 muestras por cartn.
data naranja;
input marca $ carton muestra
vitam;
datalines;
a 1 1 680
a 1 2 645
a 2 1 438
a 2 2 460
a 3 1 539
a 3 2 565
a 4 1 264
a 4 2 278
a 5 1 693
a 5 2 650
a 6 1 530
a 6 2 585
b 7 1 418
b 7 2 457

b 8 1 475
b 8 2 490
b 9 1 345
b 9 2 321
b 10 1 298
b 10 2 245
b 11 1 546
b 11 2 597
b 12 1 475
b 12 2 444
proc glm;
class marca carton;
model vitam = marca
carton(marca);
test h=marca e=carton(marca);
means marca;
run;

Class Level Information


Class

Levels

Values

marca

ab

carton

12

1 2 3 4 5 6 7 8 9 10 11 12

Dependent Variable: vitam


Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

11

402713.8333

36610.3485

54.41

<.0001

Error

12

8074.0000

672.8333

Corrected Total

23

410787.8333

R-Square

Coeff Var

Root MSE

vitam Mean

0.980345

5.442706

25.93903

476.5833

Source

DF

marca

carton(marca)

10

Type III SS

Mean Square

F Value

Pr > F

61610.6667

61610.6667

91.57

<.0001

341103.1667

34110.3167

50.70

<.0001

51

Tests of Hypotheses Using the Type III MS for carton(marca) as an Error Term
Source

DF

marca

Type III SS

Mean Square

61610.66667

Level of
marca

61610.66667

F Value
1.81

Pr > F
0.2087

vitam
Mean

Std Dev

12

527.250000

144.145838

12

425.916667

104.715596

Anlisis de la varianza
Variable
Columna4

N
24

R
0.98

R Aj
0.96

CV
5.44

Cuadro de Anlisis de la Varianza (SC tipo I)


F.V.
SC
gl
CM
Modelo
402713.83
11
36610.35
Marca
61610.67
1
61610.67
Marca>Cartn
341103.17
10
34110.32
Error
8074.00
12
672.83
Total
410787.83
23

52

F
54.41
1.81
50.70

valor p
(Error)
<0.0001
0.2087 (Marca>Cartn)
<0.0001

12. Diseo de parcelas divididas


Hemos visto en distintos ejemplos cmo la manera en que aleatorizamos (asignamos los
tratamientos a las unidades experimentales) define el diseo del experimento. Por
ejemplo, si todos los tratamientos estn asignados al azar en cada grupo de unidades
experimentales tenemos un diseo en bloques completos aleatorizados.
Consideremos un experimento en el que deseamos evaluar 4 distintos niveles de fertilizacin (f1, f2, f3, f4) de Pasto Pangola para lo cual usamos 12 parcelas. Cada nivel de
fertilizante se aplica a 3 parcelas aleatoriamente elegidas. Cada una de las parcelas se
divide en 3 subparcelas, y aleatoriamente elegimos una de estas subparcelas para evaluar
la produccin de materia seca de una de tres variedades del pasto (v1, v2, v3).
Este experimento tiene 2 factores, pero la forma en que hemos aleatorizado estos factores
no es la usual para los experimentos factoriales. Debemos observar que primero hemos
aleatorizado los niveles de un factor (fertilizante) a las parcelas completas y luego hemos
aleatorizado los niveles del otro factor (variedad) a las subparcelas. Debemos notar que la
aleatorizacin es ms restringida que si hubisemos aleatorizado todas las 12
combinaciones.
Qu ganamos con este diseo? Por una parte, pueden existir razones prcticas para
usarlo: por ejemplo es posible que logremos una mejor aplicacin del fertilizante si lo
aplicamos a parcelas grandes. Por otra parte debemos observar tambin que cada parcela
(completa) est funcionando como un bloque para el segundo factor, ya que todos los
niveles del segundo factor (en nuestro ejemplo variedad) estn presentes en cada parcela
completa. Esto hace que este factor gane en precisin.
En este diseo tenemos al menos dos factores: uno cuyos niveles se aleatorizan a las
parcelas completas y otro cuyos niveles se aleatorizan a las subparcelas. Las parcelas
completas pueden estar ordenadas en forma completamente aleatoria (como en nuestro
ejemplo), en forma de bloques completos, etc. El modelo para observaciones
provenientes de un diseo en parcelas divididas con parcelas completas en un DCA es

Yijk i k (i ) j ij ijk
Aqu k (i ) es el efecto (aleatorio) de la repeticin k en el tratamiento i (efecto de la
parcela completa). Si las parcelas completas estuviesen en un DBCA entonces debemos
agregar un efecto de bloques:
Yijk i k ik j ij ijk
Los cuadrados medios esperados (ambos factores se consideran fijos) para este diseo
son

53

Fuente de
variacin

Parcelas completas en DCA


CM Esperado
gl
-

Bloques

Parcelas completas en DBCA


CM Esperado
gl

2 b 2 ab k2 (n 1)

n-1

2 b 2 nbi2 (a 1)

a-1

2 b 2 nbi2 (a 1)

a-1

Error 1

2 b 2

a(n-1)

2 b 2

(a-1)(n-1)

2 na 2j (b 1)

2 na 2j (b 1)

b-1

b-1

AB

2 nij2 (a 1)(b 1)

(a-1)(b-1)

2 nij2 (a 1)(b 1)

(a-1)(b-1)

Error 2

a(b-1)(n-1)

a(b-1)(n-1)

abn-1

Total

abn-1

A partir de esta tabla es bastante directo encontrar las hiptesis y la forma de construir
estadsticos F para probarlas. Es claro que para probar el efecto principal del factor A (y
el efecto de bloques) debemos usar como denominador el error de parcela completa
(error 1), ya que la aleatorizacin de niveles de este factor se hizo sobre las parcelas
completas. Similarmente, para probar efecto principal de B o interaccin debemos usar
como denominador el error de subparcela (error 2).
Para realizar los clculos de las sumas de cuadrados veamos el siguiente ejemplo, en el
que hay dos niveles de irrigacin (aplicados a parcelas completas en un DCA con 3
repeticiones) y 2 variedades (aplicados a subparcelas).
Irrigacin
sin
sin
con
con

Variedad
1
2
1
2

Repet. 1
63
33
53
38

Parcelas completas
Totales

1
96

2
95

Irrigacin
Totales

sin
288

con
306

Variedad
Totales

1
341

2
253

Repet. 2
52
43
69
49
3
97

4
91

SCTotal= 632++422 - 5942/12 = 1117


SCParcelas Completas= (962++972)/2 - 5942/12 = 229
SC A= (2882+3062)/6 - 5942/12 = 27
SC Error 1= SCParcelas Completas-SC A = 202

54

Repet. 3
49
48
55
42
5
118

6
97

Totales
164
124
177
129
594

SC B = (3412+2532)/6 - 5942/12 = 645.33


SC AB = (1642++1292)/3 - 5942/12 - SC A - SC B = 5.33
SC Error 2 = SCTotal - SCParcelas Completas - SC B - SC AB = 237.33
data a;
input riego $ variedad repet rendim;
datalines;
sin
1
1
63
sin
1
2
52
sin
1
3
49
sin
2
1
33
sin
2
2
43
sin
2
3
48
con
1
1
53
con
1
2
69
con
1
3
55
con
2
1
38
con
2
2
49
con
2
3
42
proc glm data=a;
class riego variedad repet;
model rendim = riego repet(riego) variedad riego*variedad;
test h=riego e=repet(riego);
run;
Class Level Information
Class

Levels

Values

riego

con sin

variedad

12

repet

123

Dependent Variable: rendim


Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

879.666667

125.666667

2.12

0.2442

Error

237.333333

59.333333

Corrected Total

11

1117.000000

R-Square

Coeff Var

Root MSE

rendim Mean

0.787526

15.56124

7.702813

49.50000

55

Source

DF

Type III SS

Mean Square

F Value

Pr > F

riego

27.0000000

27.0000000

0.46

0.5369

repet(riego)

202.0000000

50.5000000

0.85

0.5602

variedad

645.3333333

645.3333333

10.88

0.0300

riego*variedad

5.3333333

5.3333333

0.09

0.7793

Tests of Hypotheses Using the Type III MS for repet(riego) as an Error Term
Source
riego

DF
1

Type III SS
27.00000000

Mean Square
27.00000000

F Value
0.53

Pr > F
0.5052

Para realizar el mismo ejemplo en Infostat debemos especificar el siguiente modelo:

Cuadro de Anlisis de la Varianza (SC tipo III)


F.V.
SC
gl
CM
F
Modelo
879.67
7
125.67 2.12
riego
27.00
1
27.00 0.53
riego>repet
202.00
4
50.50 0.85
variedad
645.33
1
645.33 10.88
riego*variedad
5.33
1
5.33 0.09
Error
237.33
4
59.33
Total
1117.00
11

56

p-valor
0.2442
0.5052
0.5602
0.0300
0.7793

(Error)
(riego>repet)

Para realizar comparaciones de medias, contrastes, intervalos de confianza, etc.,


necesitamos conocer el error estndar de la diferencia de dos medias. Es claro que si la
diferencia es de dos medias de niveles de A, el error correcto es el Error 1 (error de
parcela completa), mientras que si la diferencia es entre dos medias de niveles de B el
error correcto es el Error 2 (error de subparcela). El problema est en comparar dos
medias a nivel de subparcela pero provenientes de dos parcelas completas diferentes. En
este caso la solucin es aproximada, ya que no hay una prueba exacta.
Diferencia
entre
dos medias
de A
dos medias
de B
dos medias
de B en el
mismo
nivel de A
dos medias
de A en el
mismo o
distinto
nivel de B

Medias
(ejemplo)
Yi Yi

Y1 Y2
Y j Y j

2 Y3

Yij Yij

11

Y12

Error estndar de la
diferencia

Valor tabular

2CME1

t gl1

2CME2

2CME2

nb

na

t gl 2

t gl 2

Yij Yij

Y
Y

11
11

Y21

Y32

2CME2

(aprox.)

57

t gl 2 (aprox.)

13. Repaso de regresin lineal simple


Hasta ahora hemos estudiado la relacin entre una variable dependiente (Y) y
tratamientos (uno o ms factores) simplemente considerando que cada tratamiento tiene
su media, y nos interesaba comparar estas medias mediante hiptesis apropiadas. Ahora
vamos a enfatizar la relacin que existe entre dos variables cuantitativas: una
independiente y otra dependiente. Por ejemplo la cantidad de protena en la dieta y el
aumento de peso. La variable que nosotros variamos a voluntad es la variable
independiente, y sobre la que nos interesa estudiar el efecto es la variable dependiente.
Por ejemplo, queremos ver cul es el promedio de ganancia de peso cuando agregamos
10%, 15%, 20% y 25% de protena a la dieta.
La relacin ms simple es la de una lnea recta Y 0 1 x , donde Y es el aumento de
peso, x es el porcentaje de protena en la dieta, 0 es el intercepto (valor de Y cuando
x=0) y 1 es la pendiente (cambio en Y cuando x aumenta en una unidad).
Este modelo se llama modelo determinstico: conociendo el valor de x podemos predecir
exactamente el valor de Y. En la prctica no es muy realista, ya que los puntos observados
no van a estar exactamente sobre la lnea recta. El siguiente grfico es ms realista:
10

8
6
4
2
0

10
x

Un modelo ms realista es pensar que la lnea recta representa la relacin entre la media
de las Y para un valor dado de x y la variable independiente: Y 0 1 x . Otra forma
de escribir este modelo es
Y 0 1 x
donde es el error aleatorio y representa la diferencia entre el valor de Y y su media Y
(o lo que es lo mismo, entre el valor observado y la recta). La media de estos errores
aleatorio para un valor dado de x es 0 (es decir, los valores positivos y negativos se
balancean) y por lo tanto ambas formulaciones de este modelo estocstico son
equivalentes.

58

0 , 1 son desconocidos, por lo que


observaciones x1 , Y1 ,..., xN , YN para estimarlos. La

Problema: los parmetros de la recta

necesitaremos una muestra de N


recta que obtendremos ser la recta estimada:
Y 0 1 x
La diferencia entre cada valor observado Yi y el valor correspondiente sobre la recta
estimada se llama error de prediccin o residual, y se denomina como e Y Y .
i

Observar que esto no es lo mismo que el error aleatorio i , que es la diferencia entre cada
valor observado y la recta verdadera (poblacional).
Para estimar la recta vamos a usar el mtodo de mnimos cuadrados, que consiste en
elegir los parmetros 0 , 1 que minimicen la suma de los cuadrados de los errores de
prediccin:
N

i 1

i 1

(Yi Yi )2 (Yi o 1 xi )2
Los estimadores son

S xy
S xx

S xx ( X i X ) X X i
i 1
i 1
i 1
N

0 Y 1 x

2
i

i 1

i 1

i 1

i 1

S xy ( X i X )(Yi Y ) X iYi X i Yi N

Ejemplo: Relacin entre el peso de gallinas (lb) y el consumo de alimento durante 1 ao.
Peso Consumo
4.6
87.1
5.1
93.1
4.8
89.8
4.4
91.4
5.9
99.5
4.7
92.1
5.1
95.5
5.2
99.3
4.9
93.4
5.1
94.4

59

102

PRED_Consumo

98

94

90

86
4.0

4.5

5.0

5.5

6.0

Peso
Coeficientes de regresin y estadsticos asociados
Coef Est.
EE
LI(95%)
LS(95%)
T
valor p
const 55.26 9.53
33.28
77.25
5.80
0.0004
Peso
7.69 1.91
3.29
12.09
4.03
0.0038

CpMallows
15.54

Observar que, para este ejemplo S xx 1.536, S xy 11.812, 1 7.69, 0 55.26.


Ahora estamos en condiciones de realizar inferencias. Repasemos nuestro modelo

Yi 0 1 xi i
Vamos a asumir que este es el modelo correcto, que los 1 ,..., N son independientes y
tienen distribucin normal con media 0 y varianza constante:
i ~ N 0,
La tabla de anlisis de varianza que nos permite partir la variabilidad total es:
Fuente de
Variacin
Regresin
Residual (Error)
Total

Suma de
grados de Cuadrado Medio
F
Cuadrados
libertad
SCRegresin
1
CMReg=SCReg/1 F=CMReg/CME
SCResidual=SCE
N-2
CME=SCE/(N-2)
SCTotal
N-1

60

Las frmulas para estas sumas de cuadrados son:

SCTotal SYY Yi Y Yi
2

S
SCResidual Y Y =SCTotal SCRegresin

SCRegresin Yi Y

XY

Podemos ver qu pasara si todas las observaciones estuviesen sobre la recta


(SCResidual=0), y qu pasara si lal mejor recta de ajuste fuese una lnea horizontal
(SCRegresin=0).
Cuadro de Anlisis de la Varianza (SC tipo III)
F.V.
SC
gl
CM
F
valor p
Modelo
90.84
1
90.84 16.23 0.0038
Peso
90.84
1
90.84 16.23 0.0038
Error
44.77
8
5.60
Total
135.60
9

Para realizar inferencias podemos aplicar propiedades de la distribucin muestral de


0 y 1 , que es normal con los siguientes parmetros:
0 ,
1
0

N S xx

,
1

S xx

El estimador de 2 es el cuadrado medio residual.


Con esta informacin podemos construir intervalos de confianza y realizar pruebas de
hiptesis usando el estadstico t o F. Por ejemplo,
H 0 : 1 0, H a : 1 0
0
t 1
, gl N 2
s
S xx

Esta ltima prueba es la ms importante en regresin lineal: si no podemos rechazar H 0


entonces estamos concluyendo que no hay una relacin lineal entre el promedio de las Y
y las x. Otro estadstico alternativo es el estadstico para esta prueba es
y debemos rechazar H 0 si F F . Para encontrar el valor tabular de
F CMReg
CME
F debemos buscar en la tabla correspondiente con 1 y N-2 grados de libertad. Podemos
verificar que tanto para el valor observado como para el tabular, F t 2 y por lo tanto
ambas pruebas siempre van a conducir a las mismas conclusiones.

61

14. Regresin polinomial


Supongamos que tenemos 4 tratamientos, que son las dosis de fertilizante nitrogenado 0,
50, 100 y 200. Realizamos un experimento con estos tratamientos en un DCA con 5
repeticiones. Ahora tenemos dos opciones para analizar estos datos: ANOVA y regresin.
En ANOVA el modelo es Yij i ij , mientras que en regresin el modelo es

Yij 0 1 xij ij . Veamos cmo sera el modelo para observaciones de cada una de las
dosis:
Dosis
0

Modelo de ANOVA

Modelo de regresin

Y1 j 1 1 j

Y1 j 0 1 j

50

Y2 j 2 2 j

Y2 j 0 501 2 j

100

Y3 j 3 3 j

Y3 j 0 1001 3 j

200

Y4 j 4 4 j

Y4 j 0 2001 4 j

Podemos ver la diferencia entre ambos modelos. En el ANOVA estamos ajustando una
media diferente para cada dosis ( i i ) mientras que en regresin lineal simple la
media de cada dosis se calcula a partir de la ecuacin lineal. En ANOVA tenemos cuatro
parmetros (aparecen 5 en las frmulas pero la suma de los efectos es cero, as que
efectivamente son 4); mientras que en regresin lineal simple tenemos slo dos
parmetros (intercepto y pendiente).
Cul de los dos modelos ser mejor? Por una parte el ANOVA siempre tendr una SCE
ms pequea (o a lo sumo igual) que la de la regresin, pero los grados de libertad
tambin son menos (ANOVA tiene ms parmetros que regresin lineal simple), por lo
que no sabemos lo que pasa con el CME. Si el modelo de regresin ajusta bien (es decir,
explica bien los datos) entonces ser ms til (podramos predecir qu pasa con una dosis
de 75, por ejemplo). Aunque el modelo de regresin no ajusta, el de ANOVA siempre lo
har, ya que no hay ninguna funcin a la que las medias deban ajustarse: simplemente
cada tratamiento tiene su media.
Cmo podemos probar si el modelo de regresin lineal simple ajusta bien? La forma
ms sencilla e intuitiva de hacerlo es a travs de la comparacin de las sumas de cuadrado
de error de ambos modelos: si son bastante parecidas, entonces razonablemente podremos
decir que el modelo de regresin lineal ajusta bien. Si la del ANOVA es sustancialmente
menor, entonces obviamente las medias no siguen una relacin de lnea recta sino que
necesitaramos otro modelo para explicar su relacin. Es decir, necesitaremos dos tablas
de ANOVA: una para el modelo de ANOVA y otra para el modelo de regresin lineal
simple. Denotaremos como SCEANOVA y SCEREG a las sumas de cuadrado de error de
ambos modelos. Podemos construir un estadstico F como
SCE REG -SCE ANOVA
gleREG -gleANOVA
F
CME ANOVA

62

Este estadstico permitir probar las hiptesis:


H 0 : Y 0 1 x
H a : el modelo no ajusta

La regin de rechazo son los valores F F , con los grados de libertad apropiados.
Debemos notar que para probar esta hiptesis necesitamos que haya valores de Y
repetidos para al menos algunos de los valores de x, cosa que no siempre sucede en
regresin.
Qu hacemos si el modelo de regresin lineal simple no ajusta? Una de las alternativas
ya la conocemos: podemos olvidarnos de la regresin y comparar las medias mediante las
tcnicas de ANOVA (comparaciones mltiples, contrastes, intervalos de confianza, etc.)
La otra alternativa es usar un modelo de regresin ms complejo, que permita estudiar
relaciones curvilneas. Entre estos modelos tenemos los polinomios, las ecuaciones
exponenciales, logartmicas, etc. El polinomio es la extensin natural de la ecuacin
lineal simple, y consiste en suma de distintas potencias de x. Por ejemplo un modelo
polinomial de tercer grado es:
Yij 0 1 xij 2 xij2 3 xij3 ij
Ahora vemos que tenemos un modelo mucho ms flexible, pero con mayor cantidad de
parmetros (en este ejemplo, la misma cantidad que el modelo de ANOVA considerado
antes). En modelos polinomiales podemos aplicar la misma prueba de falta de ajuste
presentada antes, pero de manera secuencial. Es decir, empezamos probando si el
polinomio de primer grado ajusta. Si aceptamos la hiptesis nula entonces no es necesario
hacer nada ms: el modelo rectilneo es apropiado. Si rechazamos la nula, entonces
probaramos si un modelo cuadrtico es apropiado, y as seguiremos probando hasta
encontrar un grado del polinomio que sea apropiado. Si tenemos t tratamientos el grado
mximo del polinomio que podremos ajustar es t-1, ya que en ese caso los grados de
libertad de regresin son los mismos que los grados de libertad de tratamientos (en
efecto, los modelos son exactamente iguales).
Ejemplo: En este ejemplo tenemos rendimientos de tomate bajo cinco regmenes de
humedad diferentes: 6, 8, 10, 12 y 14%. Hay 5 repeticiones de cada tratamiento, ubicadas
en un DCA.
rend.

hum.

rend.

49.2
48.1
48.0
49.6
47.0
51.5
51.7
50.4

6.0
6.0
6.0
6.0
6.0
8.0
8.0
8.0

51.2
48.4
51.1
51.5
50.3
48.9
48.7
48.6

hum.
8.0
8.0
10.0
10.0
10.0
10.0
10.0
12.0

63

rend.
47.0
48.0
46.4
46.2
43.2
42.6
42.1
43.9
40.5

hum.
12.0
12.0
12.0
12.0
14.0
14.0
14.0
14.0
14.0

En Infostat usamos el men Regresin lineal, con las opciones de Error Puro para
probar la falta de ajuste, y en la solapa Polinomios podemos seleccionar el orden
deseado.

Al ajustar un modelo de regresin lineal simple obtenemos los siguientes resultados:


Anlisis de regresin lineal
Variable
rendim

N
25

R
0.48

R Aj
0.46

Coeficientes de regresin y estadsticos asociados

Coef

Est.

EE

const
humedad

55.38
-0.76

1.71
0.17

LI(95%)
51.84
-1.10

LS(95%)
58.93
-0.42

T
32.29
-4.62

valor p

CpMallows

<0.0001
0.0001

21.48

Cuadro de Anlisis de la Varianza (SC tipo III)


F.V.
SC
gl
CM
F
valor p
Modelo
116.13
1
116.13
21.32 0.0001
humedad
116.13
1
116.13
21.32 0.0001
Error
125.27
23
5.45
Lack Of Fit 96.44
3
32.15
22.31 <0.0001
Error Puro
28.82
20
1.44
Total
241.40
24

64

Rendimiento de Tomate
54.0

Rendim

50.5

47.0

43.5

40.0
6

10

12

14

humedad
Al ajustar un modelo de regresin polinomial de segundo orden (cuadrtica) obtenemos
los siguientes resultados:
Anlisis de regresin lineal
Variable
N
R
R Aj
rendim
25
0.88
0.87
Coeficientes de regresin y estadsticos asociados
Coef
Est.
EE LI(95%) LS(95%)
T
valor p
const
28.44 3.28 21.64
35.24
8.67 <0.0001
humedad 5.10 0.69
3.66
6.53
7.35 <0.0001
humed^2 -0.29 0.03 -0.36
-0.22
-8.51 <0.0001
Cuadro de Anlisis de la Varianza (SC tipo I)
F.V.
SC
gl
CM
F
Modelo
212.19
2
106.09
79.90
humedad
116.13
1
116.13
87.46
humedad^2
96.06
1
96.06
72.34
Error
29.21
22
1.33
Total
241.40
24

CpMallows

valor p
<0.0001
<0.0001
<0.0001

Cuadro de Anlisis de la Varianza (SC tipo III)


F.V.
SC
gl
CM
F
valor p
Modelo
212.19
2
106.09
79.90 <0.0001
humedad
212.19
2
106.09
79.90 <0.0001
Error
29.21
22
1.33
Lack Of Fit
0.39
2
0.19
0.13 0.8749
Error Puro
28.82
20
1.44
Total
241.40
24

65

53.68
71.24

Rendimiento de Tomate
54.0

Rendim

50.5

47.0

43.5

40.0
6

10

12

14

humedad

15. Regresin lineal mltiple


Supongamos que estamos estudiando la relacin entre la prdida de peso de un vegetal
(en mg) luego de exponerse al aire durante distintos tiempos a diferentes humedades
relativas:
9
8
7

Prdida

6
5
4
3
2
1
0
0.5

0.55

0.6

0.65

0.7

0.75

Humedad

66

0.8

0.85

0.9

9
8
7

Prdida

6
5
4
3
2
1
0
3

Tiempo

Podramos realizar dos regresiones lineales, pero obtendremos ms informacin si


introducimos ambas variables independientes (humedad y tiempo) en el mismo modelo:
Yi 0 1 x1i 2 x2i i
ste es un modelo de regresin lineal mltiple.
Grficamente es la ecuacin de un plano (o un hiperplano si hay ms de dos variables
independientes). Veamos un ejemplo:

67

El intercepto tiene la misma interpretacin que en regresin lineal simple: promedio de


las Y cuando todas las x valen 0. Recordemos que esto no siempre tiene una
interpretacin prctica (en este ejemplo no la tiene). La principal dificultad de este
modelo es la interpretacin de las pendientes (ahora llamadas pendientes parciales o
coeficientes de regresin parciales). El parmetro 1 es el cambio en el promedio de las
Y cuando x1 aumenta una unidad y x2 permanece constante. Es decir, un coeficiente de
regresin parcial se interpreta manteniendo todas las otras variables independientes
constantes. El trmino parcial enfatiza que no es una pendiente absoluta, sino una
pendiente en la direccin de la variable x1 (es decir, movindonos a lo largo del eje x1 ).
Para visualizar modelos de regresin mltiple y observar cmo funcionan las pendientes
parciales, recomiendo visitar la pgina
http://www.ats.ucla.edu/stat/sas/faq/spplot/reg_int_cont.htm
En esta pgina tambin se pueden apreciar modelos con interacciones (trminos con
x1 x2 ) y trminos cuadrticos.
Los supuestos son los mismos que realizamos en regresin simple (observar que los
errores i son los mismos): independencia, varianza constante, normalidad y modelo
correcto (es decir, no hay necesidad de trminos cuadrticos, etc. en ninguna de las
variables independientes, ni tampoco de productos entre las variables independientes).
Para ajustar este modelo debemos usar programas estadsticos, y a que los clculos
manuales son muy complicados. El ejemplo analizado en SAS e Infostat nos da los
siguientes resultados:
data fruta;
input tiempo humedad perdida;
datalines;
4 .6 4.3
5 .6 5.5
6 .6 6.8
7 .6 8.0
4 .7 4.0
5 .7 5.2
6 .7 6.6
7 .7 7.5
4 .8 2.0
5 .8 4.0
6 .8 5.7
7 .8 6.5
proc reg ;
model perdida=tiempo humedad;

run;

68

The REG Procedure


Model: MODEL1
Dependent Variable: perdida

Number of Observations Read

12

Number of Observations Used

12

Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

F Value

Pr > F

Model

31.12417

15.56208

104.13

<.0001

Error

1.34500

0.14944

Corrected Total

11

32.46917

Root MSE

0.38658

R-Square

0.9586

Dependent Mean

5.50833

Adj R-Sq

0.9494

Coeff Var

7.01810

Parameter Estimates
Variable

DF

Parameter
Estimate

Standard
Error

t Value

Pr > |t|

Intercept

3.86667

1.10868

3.49

0.0069

tiempo

1.31667

0.09981

13.19

<.0001

humedad

-8.00000

1.36677

-5.85

0.0002

Anlisis de regresin lineal


Variable
perdida

N
12

R
0.96

R Aj
0.95

Coeficientes de regresin y estadsticos asociados


Coef
Est.
const
3.87
tiempo 1.32
humedad -8.0

EE
LI(95%)
1.11
1.36
0.10
1.09
1.37 -11.09

LS(95%)
6.37
1.54
-4.91

69

T
valor p
3.49 0.0069
13.19 <0.0001
-5.85 0.0002

CpMallows
158.71
32.93

Cuadro de Anlisis de la Varianza (SC tipo III)


F.V.
SC
gl
CM
F
valor p
Modelo
31.12 2
15.56 104.13
<0.0001
tiempo
26.00 1
26.00 174.01
<0.0001
humedad
5.12 1
5.12 34.26
0.0002
Error
1.35 9
0.15
Total
32.47 11

Cmo sabemos si este modelo es razonable para ajustar estos datos? Tenemos dos
formas bsicas: el coeficiente de determinacin R 2 y los grficos residuales vs.
predichos. El coeficiente de determinacin es la proporcin de la variabilidad total
explicada por la regresin:
SCRegresin
R2
SCTotal
Este coeficiente siempre est entre 0 y 1, y cuanto ms cerca de 1 est mejor ser el
ajuste. Observar que si tuvisemos una regresin lineal simple, R 2 es simplemente el
cuadrado del coeficiente de correlacin lineal.
Para probar hiptesis acerca de los coeficientes de regresin i necesitamos conocer el
error estndar

. Como la frmula para este error estndar es muy complicada,

podemos leer directamente su valor en la salida de computadora. Para probar hiptesis o


construir intervalos de confianza usamos el estadstico t. Por ejemplo,

H0 : 2 0
H a : 2 0 (>0, 0)

t 2
s
2

Un intervalo de confianza para 1 sera 1 t 2 s . Los grados de libertad del estadstico


1

t son los del error. Lo ms importante que tenemos que tener en cuenta al realizar
inferencias acerca de un coeficiente de regresin parcial es que la inferencia se hace en
presencia de todas las otras variables independientes en el modelo (es decir, es una
prueba parcial).
Debido a la complicacin de la interpretacin de una prueba parcial, nunca podemos
decir, mirando a las pruebas t o F parciales, que dos coeficientes de regresin no son
importantes y que debemos eliminarlos (es posible que ambos no sean necesarios, pero al
menos uno de ellos sea muy importante, y como explican ms o menos lo mismo las
pruebas parciales de cada uno de ellos en presencia del otro no sean significativas!). Para
probar simultneamente la significancia de dos (o ms) coeficientes podemos usar la idea
de un modelo completo (que se cumple si la hiptesis nula es falsa) y un modelo
reducido (que se cumple si la hiptesis nula es verdadera). Por ejemplo, para probar
que 1 3 0 en un modelo con tres regresores planteamos

70

H 0 : Y 0 2 x2 i (modelo reducido)
H a : Y 0 1 x1 2 x2 3 x3 i (modelo completo)
Ahora ajustamos ambos modelos y obtenemos las sumas de cuadrados y los grados de
libertad del error. La suma de cuadrados para probar nuestra hiptesis va a ser la
diferencia en las sumas de cuadrados:
SCH=SCError(reducido)-SCError(completo)

glH=glerror(reducido)-glerror(completo)
SCH
CMH=
glH

El estadstico F ser: F CMH

CMError(completo)

Pasos a seguir para construir un modelo de regresin mltiple


1. Seleccionar las variables independientes importantes. Obviamente no todo lo que
podamos medir sobre un fenmeno nos va a servir para explicarlo (adems, no tiene
sentido usar 150 variables independientes!). Lo primero que necesitamos es conocer
los antecedentes de estudios previos, naturaleza del fenmeno, etc. para decidir qu
variables podran usarse. Luego podemos aplicar tcnicas estadsticas para eliminar
las que no contribuyen significativamente en el modelo. Las tcnicas ms comunes se
basan en agregar y/o eliminar variables una por vez (para evitar el problema de
pruebas parciales ocultando informacin importante). Las estudiaremos la prxima
clase: R 2 , seleccin backwards, seleccin forward y seleccin stepwise.
2. Usar residuales para evaluar si el modelo seleccionado es suficiente, o es necesario
agregar trminos (por ejemplo cuadrtico en alguna de las variables, o prpoductos de
variables), o es necesario considerar transformaciones o modelos no lineales. Entre
los grficos mas comunes est el de residuales vs. predichos, residuales vs. cada
variable independiente, etc.
3. Verificacin de supuestos mediante las tcnicas estudiadas en ANOVA y regresin
simple. Una vez que encontramos un modelo satisfactorio (ver parte 2), recordemos
que los supuestos son los mismos que en otrso modelos lineales (independencia,
varianza constante, normalidad). El grfico residuales vs. predichos nos permite ver
si hay problemas de varianzas constantes. El grfico de normalidad (o las pruebas de
Shapiro_Wilks, etc.) nos permiten verificar normalidad. La independencia no
siempre es posible garantizarla mediante aleatorizacin, ya que muchos estudios no
experimentales tambin generan datos que se analizan por regresin mltiple. Si
tenemos un experimento bien diseado, no hay problemas de dependencia. Si
tenemos un estudio observacional con datos registrados a lo largo del tiempo es
posible que haya dependencia ya que observaciones cercanas tendern a estar
positivamente correlacionadas. Un grfico residuales vs. tiempo nos permitir
detectar este problema (tambin existe la prueba de Durbin Watson para estudiar
esto). La validez de la forma funcional del modelo se puede probar si existen
repeticiones en las mismas combinaciones de valores de x a travs de la prueba de
error puro.

71

16. Seleccin de variables en regresin mltiple


Recordemos que los objetivos de un modelo de regresin son dos: encontrar un
modelo que ajuste bien (es decir, que est cerca de los datos observados) y que sea til
para predecir observaciones futuras razonablemente bien. Por lo tanto no siempre
queremos usar todas las variables independientes disponibles sino slo aqullas que sean
importantes. El problema de decidir cules son las importantes es bastante complicado,
ya que vimos que las pruebas parciales pueden ocultar informacin de inters. Entre los
mtodos ms comunes para seleccionar variables tenemos el mtodo de r-cuadrado, el de
r-cuadrado ajustado, el de seleccin forward, el de seleccin backward y el de
seleccin stepwise.
Supongamos que tenemos k posibles regresores (variables independientes) y queremos
seleccionar un subconjunto de estos regresores que nos den un modelo apropiado.
El mtodo de R 2 consiste en calcular este coeficiente de determinacin para cada uno de
los modelos posibles 2k 1 . Entonces podemos elegir el modelo que mejor ajusta entre
los de 1 variable, 2 variables, etc. El principal problema es que el R 2 va a crecer siempre
que agreguemos trminos al modelo, aunque este crecimiento no va a ser necesariamente
importante. Debemos usar nuestro criterio para decidir qu modelo vamos a elegir.
Para evitar el problema de R 2 creciendo a medida que agregamos regresores, se ha
desarrollado el mtodo de R 2 ajustado. Este ajuste penaliza los modelos con demasiadas
variables independientes, por lo que este coeficiente ajustado no necesariamente crece a
medida que ponemos ms regresores.
( N 1) 1 R 2
R 2 ajustado 1
( N k 1)
Si la cantidad de posibles regresores es muy grande, el uso de todos los modelos posibles
es dificultoso (por ejemplo, si hay 20 posibles regresores la cantidad de modelos es
1048575). Para evitar tener que ajustar todos estos modelos, se han desarrollado otros
mtodos de seleccin. El mtodo forward comienza con el mejor modelo de una
variable (regresin lineal simple), luego agrega una segunda variable y selecciona el
mejor modelo entre los que tienen la primera seleccionada y alguna de las otras. Sigue
agregando variables hasta que el agregado de cualquier otra variable no es significativo (a
un nivel predeterminado llamado SLENTRY, tpicamente .10-.15). Este mtodo no
garantiza que encontraremos el mejor modelo, pero posiblemente encuentre un modelo
razonable.
Otro mtodo relacionado es el de seleccin backward. En este mtodo comenzamos por
el modelo completo (con todas las variables independientes), y empezamos a eliminar
la menos importante (cuya prueba F o t parcial sea la menos significativa). Seguimos
eliminando variables (una por vez) hasta que todas las variables en el modelo sean

72

significativas segn los resultados de las pruebas parciales (a un nivel predeterminado,


SLSTAY).
El mtodo stepwise comienza como el forward, pero despus de incorporar una nueva
variable independiente trata de eliminar alguna de las que estaban ya en el modelo (si no
es significativa en la prueba parcial). Contina incorporando y eliminando variables hasta
que ninguna de las que quedan afuera pueden agregarse al modelo (porque su nivel de
significancia es mayor que el SLENTRY) y ninguna de las incorporadas al modelo
pueden eliminarse (porque su nivel de significancia es menor de SLSTAY).
En el siguiente ejemplo se estudi la altura de adultos (en pulgadas) en relacin al largo
al nacimiento, la altura de sus padres y de sus abuelos.
data alturas;
input y x1 x2 x3 x4 x5 x6 x7;
label y='altura' x1='largo al nacim.' x2='altura madre'
x3='altura padre' x4='altura abuela materna' x5='altura abuelo materno'
x6='altura abuela paterna' x7='altura abuelo paterno';
datalines;
67.2 19.7 60.5 70.3 65.7 69.3 65.7 67.3
69.1 19.6 64.9 70.4 62.6 69.6 64.6 66.4
67.0 19.4 65.4 65.8 66.2 68.8 64.0 69.4
72.4 19.4 63.4 71.9 60.7 68.0 64.9 67.1
63.6 19.7 65.1 65.1 65.5 65.5 61.8 70.9
72.7 19.6 65.2 71.1 63.5 66.2 67.3 68.6
68.5 19.8 64.3 67.9 62.4 71.4 63.4 69.4
69.7 19.7 65.3 68.8 61.5 66.0 62.4 67.7
68.4 19.7 64.5 68.7 63.9 68.8 62.3 68.8
70.4 19.9 63.4 70.3 65.9 69.0 63.7 65.1
67.5 18.9 63.3 70.4 63.7 68.2 66.2 68.5
73.3 20.8 66.2 70.2 65.4 66.6 61.7 64.0
70.0 20.3 64.9 68.8 65.2 70.2 62.4 67.0
69.8 19.7 63.5 70.3 63.1 64.4 65.1 67.0
63.6 19.9 62.0 65.5 64.1 67.7 62.1 66.5
64.3 19.6 63.5 65.2 63.9 70.0 64.2 64.5
68.5 21.3 66.1 65.4 64.8 68.4 66.4 70.8
70.5 20.1 64.8 70.2 65.3 65.5 63.7 66.9
68.1 20.2 62.6 68.6 63.7 69.8 66.7 68.0
66.1 19.2 62.2 67.3 63.6 70.9 63.6 66.7
proc reg;
model y=x1 x2 x3 x4 x5 x6 x7 /selection=rsquare;
proc reg;
model y=x1 x2 x3 x4 x5 x6 x7 /selection=adjrsq;
proc reg;
model y=x1 x2 x3 x4 x5 x6 x7 /selection=forward slentry=0.15;
proc reg;
model y=x1 x2 x3 x4 x5 x6 x7 /selection=backward slstay=0.15;
proc reg;
model y=x1 x2 x3 x4 x5 x6 x7 /selection=stepwise; run;

73

The REG Procedure


Model: MODEL1
Dependent Variable: y
R-Square Selection Method
Number of Observations Read

20

Number of Observations Used

20

Number in
Model

R-Square

Variables in Model

0.6262

x3

0.1596

x2

0.0677

x1

0.0633

x5

0.0536

x7

0.0458

x4

0.0371

x6

0.8509

x2 x3

0.7939

x1 x3

0.6350

x3 x5

0.6286

x3 x6

0.6271

x3 x7

0.6270

x3 x4

0.2749

x2 x7

0.0996

x4 x7

0.0719

x4 x6

0.9050

x1 x2 x3

0.8572

x2 x3 x7

0.8568

x2 x3 x5

74

Number in
Model

R-Square

Variables in Model

0.8531

x2 x3 x6

0.8510

x2 x3 x4

0.1727

x1 x5 x6

0.1428

x4 x5 x6

0.9102

x1 x2 x3 x5

0.9090

x1 x2 x3 x4

0.2328

x4 x5 x6 x7

0.9135

x1 x2 x3 x4 x5

0.9113

x1 x2 x3 x5 x7

0.9110

x1 x2 x3 x5 x6

0.9109

x1 x2 x3 x4 x7

0.3315

x1 x2 x4 x5 x6

0.9150

x1 x2 x3 x4 x5 x7

0.9141

x1 x2 x3 x4 x5 x6

0.9137

x1 x2 x3 x5 x6 x7

0.9136

x1 x2 x3 x4 x6 x7

0.8691

x2 x3 x4 x5 x6 x7

0.8105

x1 x3 x4 x5 x6 x7

0.5028

x1 x2 x4 x5 x6 x7

0.9171

x1 x2 x3 x4 x5 x6 x7

75

The REG Procedure


Model: MODEL1
Dependent Variable: y
Adjusted R-Square Selection Method
Number in
Model

Adjusted
R-Square

R-Square

Variables in Model

0.8871

0.9050

x1 x2 x3

0.8863

0.9102

x1 x2 x3 x5

0.8847

0.9090

x1 x2 x3 x4

0.8826

0.9135

x1 x2 x3 x4 x5

0.8815

0.9065

x1 x2 x3 x7

0.8810

0.9061

x1 x2 x3 x6

0.8797

0.9113

x1 x2 x3 x5 x7

0.8792

0.9110

x1 x2 x3 x5 x6

0.8791

0.9109

x1 x2 x3 x4 x7

0.8776

0.9098

x1 x2 x3 x4 x6

0.8774

0.9096

x1 x2 x3 x6 x7

0.8758

0.9150

x1 x2 x3 x4 x5 x7

0.8744

0.9141

x1 x2 x3 x4 x5 x6

0.8739

0.9137

x1 x2 x3 x5 x6 x7

0.8738

0.9136

x1 x2 x3 x4 x6 x7

0.8687

0.9171

x1 x2 x3 x4 x5 x6 x7

-.0164

0.0371

x6

-.0179

0.1428

x4 x5 x6

-.0373

0.0719

x4 x6

76

The REG Procedure


Model: MODEL1
Dependent Variable: y altura
Forward Selection: Step 1
Variable x3 Entered: R-Square = 0.6262 and C(p) = 38.0804
Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

Model

91.26802

91.26802

Error

18

54.47748

3.02653

Corrected Total

19

145.74550

F Value

Pr > F

30.16

<.0001

Variable

Parameter
Estimate

Standard
Error

Type II SS

F Value

Pr > F

Intercept

-0.10886

12.50618

0.00022932

0.00

0.9932

x3

1.00049

0.18219

91.26802

30.16

<.0001

Forward Selection: Step 2


Variable x2 Entered: R-Square = 0.8509 and C(p) = 7.5778
Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

Model

124.00926

62.00463

Error

17

21.73624

1.27860

Corrected Total

19

145.74550

F Value

Pr > F

48.49

<.0001

Variable

Parameter
Estimate

Standard
Error

Type II SS

F Value

Pr > F

Intercept

-61.20217

14.55445

22.60881

17.68

0.0006

x2

0.89468

0.17680

32.74124

25.61

<.0001

x3

1.05565

0.11892

100.75483

78.80

<.0001

77

Forward Selection: Step 3


Variable x1 Entered: R-Square = 0.9050 and C(p) = 1.7509
Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

Model

131.89367

43.96456

Error

16

13.85183

0.86574

Corrected Total

19

145.74550

F Value

Pr > F

50.78

<.0001

Variable

Parameter
Estimate

Standard
Error

Type II SS

F Value

Pr > F

Intercept

-78.23276

13.23928

30.22981

34.92

<.0001

x1

1.35030

0.44745

7.88441

9.11

0.0082

x2

0.69246

0.16017

16.18063

18.69

0.0005

x3

1.10250

0.09908

107.19782

123.82

<.0001

No other variable met the 0.1500 significance level for entry into the model.

Summary of Forward Selection


Step

Variable
Entered

Label

Number
Vars In

Partial
RSquare

Model
RSquare

C(p)

F
Value

Pr > F

x3

altura
padre

0.6262

0.6262

38.0804

30.16

<.0001

x2

altura
madre

0.2246

0.8509

7.5778

25.61

<.0001

x1

largo al
nacim.

0.0541

0.9050

1.7509

9.11

0.0082

78

The REG Procedure


Model: MODEL1
Dependent Variable: y altura
Backward Elimination: Step 0
All Variables Entered: R-Square = 0.9171 and C(p) = 8.0000
Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

Model

133.65740

19.09391

Error

12

12.08810

1.00734

Corrected Total

19

145.74550

F Value

Pr > F

18.95

<.0001

Variable

Parameter
Estimate

Standard
Error

Type II SS

F Value

Pr > F

Intercept

-78.26838

26.96237

8.48855

8.43

0.0133

x1

1.37182

0.52067

6.99263

6.94

0.0218

x2

0.78242

0.19924

15.53499

15.42

0.0020

x3

1.05141

0.13581

60.37253

59.93

<.0001

x4

-0.11991

0.17173

0.49115

0.49

0.4983

x5

0.09144

0.13012

0.49745

0.49

0.4956

x6

0.08834

0.16133

0.30207

0.30

0.5940

x7

-0.10174

0.15490

0.43460

0.43

0.5237

Backward Elimination: Step 1


Variable x6 Removed: R-Square = 0.9150 and C(p) = 6.2999
Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

Model

133.35533

22.22589

Error

13

12.39017

0.95309

Corrected Total

19

145.74550

79

F Value

Pr > F

23.32

<.0001

Variable

Parameter
Estimate

Standard
Error

Type II SS

F Value

Pr > F

Intercept

-76.36524

26.00749

8.21729

8.62

0.0116

x1

1.41812

0.49973

7.67515

8.05

0.0140

x2

0.74901

0.18449

15.71002

16.48

0.0014

x3

1.08334

0.11932

78.57051

82.44

<.0001

x4

-0.12463

0.16683

0.53183

0.56

0.4684

x5

0.09941

0.12577

0.59541

0.62

0.4435

x7

-0.06397

0.13491

0.21431

0.22

0.6432

Backward Elimination: Step 2


Variable x7 Removed: R-Square = 0.9135 and C(p) = 4.5126
Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

Model

133.14102

26.62820

Error

14

12.60448

0.90032

Corrected Total

19

145.74550

F Value

Pr > F

29.58

<.0001

Variable

Parameter
Estimate

Standard
Error

Type II SS

F Value

Pr > F

Intercept

-82.17559

22.29609

12.22996

13.58

0.0024

x1

1.45250

0.48056

8.22480

9.14

0.0091

x2

0.72851

0.17432

15.72505

17.47

0.0009

x3

1.10351

0.10834

93.40113

103.74

<.0001

x4

-0.11825

0.16162

0.48192

0.54

0.4765

x5

0.10423

0.12184

0.65885

0.73

0.4067

80

Backward Elimination: Step 3


Variable x4 Removed: R-Square = 0.9102 and C(p) = 2.9910
Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

Model

132.65910

33.16477

Error

15

13.08640

0.87243

Corrected Total

19

145.74550

F Value

Pr > F

38.01

<.0001

Variable

Parameter
Estimate

Standard
Error

Type II SS

F Value

Pr > F

Intercept

-90.63864

18.76308

20.35857

23.34

0.0002

x1

1.34236

0.44925

7.78912

8.93

0.0092

x2

0.74474

0.17020

16.70357

19.15

0.0005

x3

1.12553

0.10245

105.28783

120.68

<.0001

x5

0.11192

0.11949

0.76543

0.88

0.3638

Backward Elimination: Step 4


Variable x5 Removed: R-Square = 0.9050 and C(p) = 1.7509
Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

Model

131.89367

43.96456

Error

16

13.85183

0.86574

Corrected Total

19

145.74550

F Value

Pr > F

50.78

<.0001

Variable

Parameter
Estimate

Standard
Error

Type II SS

F Value

Pr > F

Intercept

-78.23276

13.23928

30.22981

34.92

<.0001

x1

1.35030

0.44745

7.88441

9.11

0.0082

x2

0.69246

0.16017

16.18063

18.69

0.0005

81

Variable

x3

Parameter
Estimate

Standard
Error

Type II SS

F Value

Pr > F

1.10250

0.09908

107.19782

123.82

<.0001

All variables left in the model are significant at the 0.1500 level.
Summary of Backward Elimination
Step

Variable
Removed

Label

Number
Vars In

Partial
RSquare

Model
RSquare

C(p)

F
Value

Pr > F

x6

altura abuela
paterna

0.0021

0.9150

6.2999

0.30

0.5940

x7

altura abuelo
paterno

0.0015

0.9135

4.5126

0.22

0.6432

x4

altura abuela
materna

0.0033

0.9102

2.9910

0.54

0.4765

x5

altura abuelo
materno

0.0053

0.9050

1.7509

0.88

0.3638

The REG Procedure


Model: MODEL1
Dependent Variable: y altura
Stepwise Selection: Step 1
Variable x3 Entered: R-Square = 0.6262 and C(p) = 38.0804
Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

Model

91.26802

91.26802

Error

18

54.47748

3.02653

Corrected Total

19

145.74550

F Value

Pr > F

30.16

<.0001

Variable

Parameter
Estimate

Standard
Error

Type II SS

F Value

Pr > F

Intercept

-0.10886

12.50618

0.00022932

0.00

0.9932

x3

1.00049

0.18219

91.26802

30.16

<.0001

82

Stepwise Selection: Step 2


Variable x2 Entered: R-Square = 0.8509 and C(p) = 7.5778
Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

Model

124.00926

62.00463

Error

17

21.73624

1.27860

Corrected Total

19

145.74550

F Value

Pr > F

48.49

<.0001

Variable

Parameter
Estimate

Standard
Error

Type II SS

F Value

Pr > F

Intercept

-61.20217

14.55445

22.60881

17.68

0.0006

x2

0.89468

0.17680

32.74124

25.61

<.0001

x3

1.05565

0.11892

100.75483

78.80

<.0001

Stepwise Selection: Step 3


Variable x1 Entered: R-Square = 0.9050 and C(p) = 1.7509
Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

Model

131.89367

43.96456

Error

16

13.85183

0.86574

Corrected Total

19

145.74550

F Value

Pr > F

50.78

<.0001

Variable

Parameter
Estimate

Standard
Error

Type II SS

F Value

Pr > F

Intercept

-78.23276

13.23928

30.22981

34.92

<.0001

x1

1.35030

0.44745

7.88441

9.11

0.0082

x2

0.69246

0.16017

16.18063

18.69

0.0005

x3

1.10250

0.09908

107.19782

123.82

<.0001

83

All variables left in the model are significant at the 0.1500 level.
No other variable met the 0.1500 significance level for entry into the model.
Summary of Stepwise Selection
Step

Variable
Entered

Variable
Removed

Label

Number
Vars In

Partial
RSquare

Model
RSquare

C(p)

F
Value

Pr > F

x3

altura
padre

0.6262

0.6262

38.0804

30.16

<.0001

x2

altura
madre

0.2246

0.8509

7.5778

25.61

<.0001

x1

largo
al
nacim.

0.0541

0.9050

1.7509

9.11

0.0082

Para realizar seleccin de variables en regresin mltiple, la versin actual de Infostat usa
los siguientes mtodos: backward, forward, stepwise, r-cuadrado ajustado, minimizar
cuadrado medio de error, y minimizar ECM de prediccin. El mtodo de minimizar
cuadrado medio de error es aproximadamente equivalente al mtodo de maximizar rcuadrado para modelos de 1 variable, 2 variables, etc. que usa SAS (method= rsquare).

84

17. Anlisis de covarianza


Existen muchas situaciones en las que deseamos estudiar una respuesta (Y, variable
dependiente) en funcin de uno o ms tratamientos (factor/es) y de una o ms variables x
(regresores). Es decir, nos interesa combinar en el mismo modelo un ANOVA y una
regresin.
Ejemplos:
Y: peso final de un animal
x: peso inicial
Tratamiento: dietas
Y: rendimiento de un cultivo
x: fertilidad de la parcela
Tratamiento: variedad
Y: cantidad de insectos Drosophila sobrevivientes
x: dosis de insecticida
Tratamiento: especie de Drosophila
Y: calidad de la grama en un campo de golf (medida por la velocidad con que una bola de
golf rueda por la grama).
x: humedad del suelo
Tratamiento: cultivares
En el anlisis de covarianza tenemos tres objectivos importantes:
1. Comparar las medias de Y para cada tratamiento en un valor comn de x.
2. Comparar la reclacin entre la Y y la x en cada tratamiento.
3. Aumentar la precisin (disminuir el CME).
El modelo para datos provenientes de un DCA con una covariable es
Yij i xij ij
En este modelo i representa el efecto del tratamiento i para un valor dado de x y es
el incremento promedio de las Y de un tratamiento especfico cuando x aumenta en una
unidad. Observar que la interpretacin de los parmetros es anloga a la que hicimos en
regresin mltiple. Los supuestos que realizamos acerca de los ij son los mismos que
realizamos en modelos de ANOVA y regresin: independencia, normalidad y
homogeneidad de varianzas. Adems, como en todo modelo de regresin, requerimos que
el modelo sea el correcto. En particular necesitamos asumir que la relacin entre las Y y
las x es lineal, que la pendiente es la misma en todos los tratamientos (es decir, no
existe interaccin entre la covariable y el tratamiento) y que los tratamientos no afectan a
la covariable. Para las pruebas de hiptesis vamos a usar, como siempre hacemos en
regresin mltiple, las pruebas de tipo III.

85

Consideremos el siguiente ejemplo. Se estudia el efecto de cuatro dietas sobre el peso


final de cerdos, y se registra el peso inicial de los mismos. Se usaron 6 animales por dieta,
en un DCA.
data dietas;
input dieta pesoinic pesofin;
datalines;
1 5.0 17.0
1 7.0 21.0
1 5.0 18.0
1 4.0 11.0
1 3.0 6.0
1 6.0 23.0
2 7.0 24.0
2 7.0 26.0
2 8.0 23.0
2 6.0 23.0
2 5.0 18.0
2 9.0 30.0
3 5.0 20.0
3 4.0 13.0
3 3.0 14.0
3 7.0 22.0
3 6.0 23.0
3 5.0 16.0
4 10.0 30.0
4 9.0 28.0
4 8.0 22.0
4 7.0 20.0
4 11.0 31.0
4 9.0 25.0

El modelo que estamos usando es el descripto anteriormente, que en este ejemplo es:
Animales de la dieta 1:

Y1 j 1 x1 j 1 j

Animales de la dieta 2:

Y2 j 2 x2 j 2 j

Animales de la dieta 3:

Y3 j 3 x3 j 3 j

Animales de la dieta 4:

Y4 j 4 x4 j 4 j

Podemos ver que en cada caso el modelo corresponde a una lnea recta con intercepto
diferente i y la misma pendiente . Es decir, tenemos lneas paralelas. Si
graficamos estos datos podemos ver que el modelo es razonable:

86

Relacin entre peso inicial y final


32.0

peso final

26.6
21.2
15.8
10.4
5.0
2.5

5.0

7.5

10.0

12.5

peso inicial
dieta 1
dieta 3

dieta 2
dieta 4

Para comparar las medias de las distintas dietas vemos que tenemos dos opciones:
comparamos cada media de Y sin tener en cuenta las x, o comparamos las medias de Y
estimadas en cierto valor comn de x. La primera opcin es lo que haramos si usamos un
modelo sin la covariable, y podramos tener el problema que la dieta que tena los
animales ms pesados nos dara mayores pesos finales no porque fuese mejor sino porque
el azar hizo que tuviera los animales de mayor peso inicial (En el ejemplo la dieta 4 tena
los animales ms pesados inicialmente, y sus pesos finales tambin estuvieron entre los
ms altos).
Una comparacin ms razonable es aquella que compara las dietas a un nivel comn de x
(por ejemplo en x x ). Esta comparacin la realiza una prueba parcial (tipo III), ya
que compara algunos efectos en el modelo ajustando por todos los otros trminos del
modelo (en este caso la covariable). Cmo calculamos el valor de media de Y cuando
x x ? Para eso usamos la frmula de regresin, reemplazando x por x :
Animales de la dieta 1:
Animales de la dieta 2:
Animales de la dieta 3:
Animales de la dieta 4:

Y1 1 x
Y2 2 x
Y3 3 x
Y4 4 x

87

stas son las medias ajustadas, que en SAS se denominan least squares means. La
prueba de tipo III prueba la igualdad de medias ajustadas, o lo que es lo mismo, la
igualdad de los i . Debemos observar que debido a que las lneas son paralelas, da lo
mismo comparar en x x o en cualquier otro valor de x: siempre estaremos comparando
igualdad de i (se puede probar que en x x se logra la prueba ms eficiente).
Otra prueba de inters es la relacionada a la regresin lineal: H 0 : 0 (es decir, nos
interesa saber si la covariable explica parte de la variabilidad de la Y en un modelo que
tiene los efectos de tratamiento). La prueba para esto tambin es la prueba parcial (tipo
III) para la covariable.
Para ajustar este modelo en SAS simplemente escribimos la variable tratamiento en
class y las variables tratamiento y covariable en el model:
proc glm;
class dieta;
model pesofin = dieta pesoinic / solution ss3;
lsmeans dieta;

La opcin solution del comando model nos da los estimadores de los parmetros del
modelo y la opcin ss3 nos muestra slo las pruebas de tipo III (parciales).
Class Level Information
Class

Levels

Values

dieta

1234

Number of Observations Read

24

Number of Observations Used

24

Dependent Variable: pesofin


Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

780.1000000

195.0250000

37.85

<.0001

Error

19

97.9000000

5.1526316

Corrected Total

23

878.0000000

R-Square

Coeff Var

Root MSE

pesofin Mean

0.888497

10.80924

2.269941

21.00000

88

Source

DF

Type III SS

Mean Square

F Value

Pr > F

dieta

51.0056604

17.0018868

3.30

0.0427

pesoinic

372.1000000

372.1000000

72.22

<.0001

Parameter

Estimate

Standard Error

t Value

Pr > |t|

Intercept

-1.450000000

3.36048373

-0.43

0.6710

dieta 1

2.200000000

1.94386123

1.13

0.2718

dieta 2

4.100000000

1.49425802

2.74

0.0129

dieta 3

4.200000000

1.94386123

2.16

0.0437

dieta 4

0.000000000

pesoinic

3.050000000

0.35890917

8.50

<.0001

Note:

The X'X matrix has been found to be singular, and a generalized inverse was used to
solve the normal equations. Terms whose estimates are followed by the letter 'B' are
not uniquely estimable.
Least Squares Means
dieta

pesofin LSMEAN

20.5750000

22.4750000

22.5750000

18.3750000

En Infostat, el men ANOVA permite la incorporacin de covariables, y las medias que


calcula son directamente las medias ajustadas.
Anlisis de la varianza
Variable
pesofin

N
24

R
R Aj
0.888 0.865

CV
10.809

Cuadro de Anlisis de la Varianza (SC tipo III)


F.V.
SC
gl
CM
F
valor p
Modelo
780.100
4
195.025
37.850 <0.0001
dieta
51.006
3
17.002
3.300 0.0427
pesoinic
372.100
1
372.100
72.216 <0.0001
Error
97.900
19
5.153
Total
878.000
23

89

Coef
3.050

Test:LSD Fisher Alfa:=0.05 DMS:=2.74301


Error: 5.1526 gl: 19
dieta Medias n
4
18.375 6
A
1
20.575 6
A
B
2
22.475 6
B
3
22.575 6
B
Letras distintas indican diferencias significativas(p<= 0.05)

Los supuestos que hacemos son los de todo modelo lineal (independencia de errores,
normalidad de errores y homogeneidad de las varianzas de los errores), adems de los
especficos del modelo de regresin usado (validez del modelo de lneas rectas paralelas).
Para verificar los primeros supuestos usamos los residuales como siempre, y para
verificar el supuesto de paralelismo podemos probar la hiptesis de no interaccin entre
los tratamientos y la covariable:
H 0 : Yij i xij ij

H a : Yij i xij i xij ij


Aqu vemos que si la hiptesis nula es falsa, entonces tenemos un modelo con lneas
rectas con pendientes diferentes para cada tratamiento:
Animales de la dieta 1:

Y1 j 1 1 x1 j 1 j

Animales de la dieta 2:

Y2 j 2 2 x2 j 2 j

Animales de la dieta 3:

Y3 j 3 3 x3 j 3 j

Animales de la dieta 4:

Y4 j 4 4 x4 j 4 j

Para hacer esto en SAS simplemente ajustamos un modelo con interaccin, y probamos la
significancia de sta (prueba de tipo III):
proc glm;
class dieta;
model pesofin = dieta pesoinic dieta*pesoinic;
run;
Dependent Variable: pesofin
Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

799.6000000

114.2285714

23.31

<.0001

Error

16

78.4000000

4.9000000

Corrected Total

23

878.0000000

R-Square

Coeff Var

Root MSE

pesofin Mean

0.910706

10.54093

2.213594

21.00000

90

Source

DF

Type III SS

Mean Square

F Value

Pr > F

dieta

27.5204410

9.1734803

1.87

0.1750

pesoinic

372.1000000

372.1000000

75.94

<.0001

pesoinic*dieta

19.5000000

6.5000000

1.33

0.3006

El ejemplo que hemos visto era bastante simple: un factor, una covariable y un diseo
completamente aleatorizado. La extensin a casos ms complejos es directa: podemos
tener ms de un factor, podemos tener ms de una covariable y podemos tener trminos
polinomiales en una covariable. Adems podemos tener cualquier diseo experimental
(bloques, cuadrado latino, parcela dividida, etc.).

91

18. Documentacin y comunicacin de resultados


Esto es lo que presentamos en la primera clase de AGRO 5005:
Qu es la Biometra?

Cmo?

Es la disciplina que se encarga de obtener


informacin a partir de datos biolgicos.

Mediante grficos, medidas numricas de resumen (ej., promedio),


comparaciones, predicciones, etc.

Etapas que debemos seguir para obtener informacin buena a partir de los
datos:
1.
2.
3.
4.

Recolectar los datos


Resumir los datos
Analizar los datos
Comunicar los resultados

En esta conferencia vamos a tratar de discutir algunas ideas que permitan lograr
eficazmente la etapa 4, comunicar los resultados.
La comunicacin puede ser verbal o escrita. La comunicacin verbal puede ser desde
una comunicacin informal hasta una presentacin formal. La comunicacin escrita
tambin vara desde memorandos e informes de proyecto dentro de la misma
organizacin (interna) hasta cartas, folletos de divulgacin, artculos cientficos y libros
(externa). En todos los casos tenemos que tener en cuenta la audiencia (hacia quin nos
estamos comunicando).
Los principales problemas que se pueden encontrar al comunicar resultados estadsticos
son los siguientes:
Distorsiones grficas: recordemos lo que habamos discutido antes
1. Qu es lo que se desea informar al lector del grafico?
2. Elegir cuidadosamente los ttulos, ejes, colores, rayas, etc.
3. No sobrecargar de informacin al grfico.
4. Practicar mucho!
Muestras sesgadas: ste es posiblemente uno de los problemas centrales que nos
encontramos. Las conclusiones pueden ser correctas pero se refieren a la poblacin
equivocada. Recordemos que si no existe la aleatorizacin no podemos realizar la
inferencia estadstica correctamente. Se requiere de una planificacin adecuada del
estudio.
Tamao muestral inadecuado: los resultados de un experimento pueden llevar a una
conclusin equivocada porque no haba suficientes observaciones como para que el error
de tipo II (aceptar una hiptesis nula falsa) fuese suficientemente pequeo. Se requiere de
92

una planificacin adecuada para que la cantidad de repeticiones sea suficiente como para
detectar con una probabilidad alta una diferencia que exista en la poblacin y que sea de
inters para el investigador.
Al informar las conclusiones debemos especificar claramente cmo se obtuvieron las
observaciones, qu diseo se us (=cmo se aleatoriz) y cuntas observaciones
(=repeticiones) se realizaron. Si es posible, se debera incluir un estudio de la potencia de
las pruebas para evidenciar que el tamao muestral fue adecuado para detectar las
diferencias de inters.
Preparacin de los datos para el anlisis
1. Generar (recibir) los datos originales
2. Crear la base de datos a partir de los datos originales
3. Editar la base de datos
4. Corregir y clarificar la base de datos comparndola con los datos originales
5. Finalizar la base de datos, archivarla y crear copias (en varios medios, como USB,
DVD, papel, etc.)
6. Crear archivos de datos para los anlisis
Es muy importante (y en algunas reas obligatorio) llevar un registro detallado de todo el
proceso para, de ser necesario, rehacer nuevamente las distintas etapas por las que los
datos han pasado. Una forma comn de documentar esto es mediante un registro del
estudio (cuaderno de bitcora o study log). ste debera incluir:
a. datos recibidos, y de quin
b. investigador a cargo del estudio
c. estadstico y otro personal asignado
d. descripcin breve del estudio
e. tratamientos usados
f. diseo experimental usado
g. mapa de campo con tratamientos y aleatorizaciones
h. fuente de los datos originales
i. variables dependientes medidas (respuestas)
j. fechas de toma de datos, anlisis, etc.
k. irregularidades en la toma de datos, registro, etc.
l. otra informacin relacionada
Guas para el anlisis e informe estadsticos
Los anlisis preliminares, a menudo descriptivos o grficos, permiten familiarizarse con
los datos, observar algunas relaciones, detectar problemas, etc.
Los anlisis primarios se hacen para responder las preguntas de investigacin que se
indicaron en los objetivos del estudio.
Los anlisis secundarios (o de apoyo) incluyen mtodos alternativos de observar los
datos, uso de mtodos poco comunes en el rea de aplicacin, exploracin de hiptesis
sugeridas por los resultados del experimento, etc.
93

Informe estadstico
a.
b.
c.
d.
e.
f.
g.
h.

Resumen
Introduccin
Diseo experimental y procedimientos del estudio
Estadsticos descriptivos
Metodologa estadstica
Resultados y conclusiones
Discusin
Lista de datos y salidas de computacin relevantes

Documentacin y almacenamiento de resultados


La idea fundamental es que podamos tener la documentacin y los datos almacenados de
forma tal que en el futuro nosotros (o algna otra persona) pueda rehacer los anlisis,
obtener nuevos resultados (o confirmar los obtenidos) y alcanzar nuevas conclusiones sin
mayores dificultades. En algunas reas de investigacin esto es necesario para poder
evaluar la calidad de las conclusiones obtenidas, y en todos los casos es una prctica muy
importante.

Bibliografa
Texto del curso
Ott, R.L. y M. Longnecker (2001). An Introduction to Statistical Methods and Data
Analysis. 5ta. ed. Pacific Grove (CA): Duxbury
Referencias adicionales
Ott, R.L. y M. Longnecker (2008). An Introduction to Statistical Methods and Data
Analysis. 6ta. ed. Pacific Grove (CA): Duxbury
Macchiavelli, R. (2014). Notas de clase de Biometra Avanzada.
http://academic.uprm.edu/rmacchia/agro6600/agro6600.pdf
Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W.
InfoStat versin 2012. Grupo InfoStat, FCA, Universidad Nacional de Crdoba,
Argentina. URL http://www.infostat.com.ar
Der, Geoff y B. Everitt (2008). A Handbook of Statistical Analyses Using SAS. 3ra. Ed.
Boca Raton (FL): Chapman and Hall.
Mead, R., R. Curnow y A. Hasted (2003) Statistical Methods in Agriculture and
Experimental Biology. 3ra. Ed. Boca Raton (FL): Chapman and Hall.

94

Biometra Avanzada - AGRO 6600


Prontuario Segundo Semestre 2014-2015
Nmero de horas crdito: 3 (tres). Se realizarn dos conferencias semanales de 50 minutos cada
una y un laboratorio semanal de 3 horas.
Prerrequisitos, correquisitos y otros conocimientos: se espera que los estudiantes posean
destrezas en el uso de computadoras personales y conocimientos de estadstica bsica.
Descripcin: Estudio avanzado del anlisis de varianza, covarianza y regresin mltiple; mtodos
de anlisis y diseos experimentales aplicados a problemas de investigacin en las ciencias
agrcolas, biolgicas y ambientales. Los estudiantes disean experimentos, analizan datos y usan
programas estadsticos de computacin. Se suponen conocimientos previos de estadstica
bsica.
Propsito del curso: En este curso aprenderemos los fundamentos del diseo y anlisis de los
experimentos ms comnmente usados en las ciencias agrcolas y biolgicas. Daremos un
nfasis especial a la discusin de problemas reales y a la interpretacin de resultados
procesados con la computadora (programas SAS e Infostat).
Objetivos: Se espera que al finalizar el curso el estudiante
conozca y aplique los principales diseos experimentales (completamente aleatorizado,
bloques completos aleatorizados, cuadrados latinos, parcelas divididas, etc.) y los
modelos usados para su anlisis (modelos con un criterio de clasificacin, con
submuestreo, factoriales, de efectos fijos, aleatorios y mixtos).
conozca las ventajas y las limitaciones de los modelos comnmente usados.
pueda disear y analizar experimentos, obteniendo conclusiones vlidas.
conozca y aplique regresin polinomial y mltiple en situaciones experimentales.
analice los modelos estudiados usando Infostat y SAS, y extraiga conclusiones vlidas a
partir de las salidas de computacin.
Conferencia:

Martes y Jueves 9:30-10:20, P213 (Seccin 036)

Laboratorios: Martes 1:30-4:20pm, AP 203 (Seccin 076L)


Mircoles 1:30-4:20pm, AP 203 (Seccin 070L)
Mircoles 4:30-7:20, AP 203 (Seccin 100L)
Jueves 1:30-4:20, AP 203 (Seccin 077L)
Profesores:
Dr. Ral E. Macchiavelli (conferencia). Oficina: P-217A (Conferencia)
Telfono: 787-832-4040 ext. 3020 (oficina), 2313 (departamento), 3809 (Estudios Graduados)
raul.macchiavelli@upr.edu , http://academic.uprm.edu/rmacchia
Horas de oficina: martes y jueves 7:30-9:30 (otros horarios llamando previamente)
Dra. Linda Wessel Beaver. Oficina: P-110 (Seccin 077L)
Telfono: 787-832-4040 ext. 6334 (oficina), 787-832-4040 ext. 2313 (departamento),
lindawessel.beaver@upr.edu
Horas de oficina: lunes 8-10 am y martes 1:30-2:30 (otros horarios llamando previamente)
Srta. Cristina Lpez (Oficina: AP203) (Seccin 070L)
cristina.lopez5@upr.edu
Horas de oficina: lunes 1:30-3

95

Sr. Edgar Quijia (Oficina: AP203) (Seccin 076L)


Edgar.quijia@upr.edu
Horas de oficina: mircoles 11-12:30
Sra. Roco Surez (Seccin 100L) Oficina: P-218A
Telfono: 787-832-4040 ext. 3851 o 2313
e-mail: maria.suarez@upr.edu
Horas de oficina: martes y jueves 4:30 6:00 pm o por acuerdo
Bosquejo del curso:
Tema

Seccin
Fecha tentativa
(texto 5ta.ed)
1. Introduccin. Tipos de experimentos
14.1-5
15 enero
2. Diseo completamente aleatorizado y bloques 15.1-3, 8.3
20, 27 enero
3. Verificacin de supuestos
8.4, 8.5, 7.4 29 enero, 3 febrero
4. Determinacin del nmero de repeticiones
14.6
5 febrero
5. Comparaciones mltiples
9.1, 3-5, 7
10, 12 febrero
6. Contrastes
9.2, 8
17, 19 febrero
7. Diseo de cuadrados latinos
15.4
24 febrero
8. Experimentos factoriales de dos factores
15.5
26 feb, 3, 5 marzo
PRIMER EXAMEN PARCIAL (temas 1-6)
9 marzo, 7:30 pm
9. Factoriales con tres o ms factores
15.6-7
5, 10 marzo
10. Modelos de efectos aleatorios y mixtos
17.1-4
17, 19, 24 marzo
11. Diseos anidados
17.6
26 marzo
12. Diseos de parcelas divididas
17.6
7, 9 abril
13. Repaso de regresin lineal simple.
11.1-3
16 abril
SEGUNDO EXAMEN PARCIAL (temas 7-12)
20 abril, 7:30 pm
14. Regresin polinomial
11.5
21 abril
15. Regresin mltiple
12.1-6
23, 28 abril
16. Seleccin de variables en regresin mltiple 13.1-4
30 abril
17. Anlisis de covarianza
16.1-4
5, 7 mayo
18. Resumen
12 mayo
EXAMEN FINAL
Laboratorios
Tema

Fecha aproximada
Lab. Martes Lab. Mircoles Lab. Jueves
1. Repaso de notacin. Introduccin a SAS.
27 enero
28 enero
29 enero
2. Diseo completamente aleatorizado y en bloques. 3 febrero
4 febrero
5 febrero
3. Supuestos del anlisis de varianza.
10 febrero 11 febrero
12 febrero
4. Determinacin del nmero de repeticiones.
17 febrero 18 febrero
19 febrero
Comparaciones mltiples.
5. Contrastes.
24 febrero 25 febrero
26 febrero

96

6. Diseo cuadrado latino y factorial 2x2.


7. Experimentos con dos factores.
8. Experimentos con tres o ms factores.
9. Efectos aleatorios y mixtos. Diseos anidados.
10. Diseo en parcelas divididas.
11. Regresin lineal simple y polinomial.
12. Regresin mltiple. Seleccin de variables
13. Anlisis de covarianza.

3 marzo
10 marzo
17 marzo
24 marzo
7 abril
21 abril
28 abril
5 mayo

4 marzo
11 marzo
18 marzo
25 marzo
8 abril
22 abril
29 abril
6 mayo

5 marzo
12 marzo
19 marzo
26 marzo
9 abril
23 abril
30 abril
7 mayo

Estrategias instruccionales:
Conferencia: dos conferencias semanales de asistencia obligatoria. El material a discutir en las
conferencias se encuentra en el texto del curso, y un resumen del material est disponible en las
notas de clase.
Laboratorio: un laboratorio semanal de asistencia obligatoria. Durante el mismo se discutirn
temas y analizarn datos usando computadoras. El material y los datos de cada laboratorio
estarn disponibles en la pgina web del curso. Los estudiantes deben llevar al laboratorio
calculadora con funciones estadsticas y las tablas estadsticas a usarse. Los informes de
laboratorio deben entregarse hasta una semana despus de haber realizado el laboratorio. (Para
no interrumpir las conferencias o laboratorios, est prohibido el uso de telfonos celulares.
Favor ponerlos en modo silencioso durante clases, laboratorios y exmenes.)
Recursos de aprendizaje:
Los laboratorios se realizarn en el laboratorio de computadoras de Biometra Agrcola, donde
estn disponibles 18 computadoras personales y pantalla inteligente.
La pgina web del curso, http://academic.uprm.edu/rmacchia/agro6600 , contiene el bosquejo
del curso actualizado, los laboratorios, las claves de los laboratorios y los exmenes de aos
anteriores.
Estrategias de evaluacin / Herramientas de avalo
Pruebas cortas (quizes): cinco quizes durante los laboratorios. Estos quizes no se anunciarn. La
nota final solamente incluir el promedio de los 4 mejores quizes. No habr reposiciones de
quizes.
Asistencia y participacin en clase y laboratorios. La asistencia es obligatoria. Los informes
escritos de laboratorio deben entregarse hasta una semana despus de haber realizado el
laboratorio.
Exmenes parciales: dos exmenes parciales, tentativamente los das lunes 9 de marzo y 20 de
abril a las 7:30 pm. Durante los exmenes se proveern las frmulas necesarias, y los
estudiantes podrn usar calculadora y el libro (no se permiten notas de clase ni fotocopias). Los
exmenes de aos anteriores estarn disponibles en la pgina web del curso.
Examen Final: el examen final ser un trabajo integrador del material estudiado durante el
curso. Durante los exmenes se proveern las frmulas necesarias, y los estudiantes podrn

97

usar calculadora y el libro (no se permiten notas de clase ni fotocopias). Los exmenes de aos
anteriores estarn disponibles en la pgina web del curso.
La calificacin final se basar en un promedio ponderado de las notas de
Asistencia y participacin (10%)
Quizes (20%)
Exmenes parciales (22% cada uno)
Examen final (26%)

Sistema de calificacin:
La nota final se basar en la calificacin final de acuerdo a la siguiente equivalencia. Es posible
que los lmites inferiores que se apliquen sean menores que los aqu indicados (por ejemplo, al
final del semestre se puede decidir que una nota de 89 es una A).
A: 90 o ms
B: 80 o ms pero menos de 90
C: 70 o ms pero menos de 80
D: 60 o ms pero menos de 70
F: menos de 60
Poltica Universitaria y Departamental
Las polticas departamentales e institucionales relacionadas con la asistencia a clases y
laboratorios, con los procedimientos de bajas parciales o totales, con los acomodos razonables a
personas con impedimentos y con la tica y moral esperada de los estudiantes estn definidas
en el Boletn de Informacin del Recinto Universitario de Mayagez.
Bibliografa:
Ott, R.L. y M. Longnecker (2001). An Introduction to Statistical Methods and Data Analysis. 5ta.
ed. Pacific Grove (CA): Duxbury
Ott, R.L. y M. Longnecker (2008). An Introduction to Statistical Methods and Data Analysis. 6ta.
ed. Pacific Grove (CA): Duxbury
Macchiavelli, R. (2015). Notas de clase de Biometra Avanzada.
http://academic.uprm.edu/rmacchia/agro6600/agro6600.pdf
Di Rienzo J.A., Casanoves F., Balzarini M.G., Gonzalez L., Tablada M., Robledo C.W. InfoStat
versin 2012. Grupo InfoStat, FCA, Universidad Nacional de Crdoba, Argentina. URL
http://www.infostat.com.ar
Der, Geoff y B. Everitt (2008). A Handbook of Statistical Analyses Using SAS. 3ra. Ed. Boca Raton
(FL): Chapman and Hall.
Mead, R., R. Curnow y A. Hasted (2003) Statistical Methods in Agriculture and Experimental
Biology. 3ra. Ed. Boca Raton (FL): Chapman and Hall.

98

You might also like