You are on page 1of 16

Resumen

Bioestadstica II
Clase 1
De la poblacin generalmente se saca una o ms muestras, de las cuales es posible realizar
inferencias acerca de la poblacin.

Muestra Representativa

- Aquella muestra que refleja bien la variabilidad.

Muestras Independientes

- Aquellas en donde la probabilidad de elegir un sujeto no afecta la probabilidad de elegir a


otro de la muestra.

Seudoreplicacin

- Sujetos de una muestra no son seleccionados independientemente.


- El nmero total de sujetos de una muestra (nmero de rplicas) es menor que el nmero
total examinado.

Factor (es):

- Variable independiente que se presume que es responsable del efecto en estudio.

Tratamientos o Niveles

- Cuntas situaciones distintas estn siendo evaluadas para determinar el efecto del factor.

Nmero de Rplicas

- Nmero de sujetos a los cuales se les registra su respuesta.

Clase 2
Variables Discretas

- Datos generalmente son nmero enteros o por categoras (edad, sexo, color, etc).
- Se pueden dividir en:
o Variables Nominales: Valores reciben una clasificacin de acuerdo a un atributo
o Variables Ordinales: Valores son ordenados (mayor o menor) de acuerdo a un
rango.

Variables Continuas

- Los datos pueden tomar infinitos valores entre dos cualesquiera.

Estadgrafos Importantes
* )
&+,(%& '%)
- " =
-'.
- = "
Clase 3
Distribucin Z

- Z se asemeja a una distribucin normal


%1 '2 3
= -> = 1,96 % En donde % =
34 -

T de Student para 1 Media (Independiente)


%'2
=
?4

- Se utiliza con muestras pequeas (menores a 100 individuos)


- Sirve para una estimacin con desviaciones estndar de la media poblacional

: Las medias son iguales y los individuos provienen de la misma poblacin, las diferencias
obtenidas son slo debidas al azar.
: Las medias no son iguales, por lo tanto, los individuos puede que no provengan de la misma
poblacin.

T de Student para 2 medias de Medidas Independientes


EF 'EG
CD? = Tamao de Efecto (Varianza
H)
)
F HG
Entre las muestras)
*F *G Varianza Dentro las Muestras

Para calcular el valor crtico de t: IJLMIC = (") , [(. 1) + (" 1)]

Anlisis:

- Si el valor de t observado es mayor al valor de t crtico = Se rechaza H0


- Si el valor de t observado es menor al valor de t crtico = Se acepta H0

T de Student para 2 medias de Medidas Dependientes o Repetidas

- Cada sujeto es expuesto a todas las condiciones experimentales, de modo que lo que se
evala es un cambio en la respuesta de los mismos sujetos luego experimentar todas las
condiciones.

: . = 0

: . > 0 . < 0 (Unilateral)

Anlisis:

- Si el valor de t observado es mayor al valor de t crtico = Se rechaza H0


- Si el valor de t observado es menor al valor de t crtico = Se acepta H0
ANOVA unifactorial (one-way ANOVA) para medidas INDEPENDIENTES

- El ANOVA se basa en la comparacin de varianzas, ya que compara la varianza que existe


entre grupos sometidos distintos tratamientos, frente a la varianza que existe dentro de
cada grupo (atribuible al error).
YZJMZ-[Z aJbcC? YZJMZ-[Z ZLJMDbMDfg Zf
= =
YZJMZ-[Z aJbcC? YZJMZ-[Z ZLJMDbMDfg Zf

Planteamiento de Hiptesis:

- H0 : . = " = k
- H1 : Al menos una de las medias es distinta

Tabla de ANOVA unifactorial de medidas independientes:

Fuente de Suma de Grados de Cuadrado


F observado F crtico
Variacin Cuadrados Libertad Medio

mnmop tumvt
Total ______ N - 1 x . , y'. , (u'y)
mnmop wtumvn

tumvt
Entre Grupos ______ K - 1 _________ _________
tumvt

Dentro de wtumvn
______ N - K _________ _________
Grupos (Error) wtumvn

Anlisis una vez teniendo el F crtico y el F observado

- Si el F observado es menor al F crtico, quiere decir que la varianza del tratamiento y el


efecto debido al error son similares, por lo que se acepta H0, y las medias de las muestras
son similares.
- Si el F observado es mayor al F crtico, quiere decir que la varianza del tratamiento es mayor
al efecto que puede haber tenido el error, por lo que se rechaza H0, y se tiene que al menos
una de las medias es distinta, pero no sabemos cul.

Anlisis a-posteriori de las medias

- Se realiza un anlisis a posteriori para determinar cul de las medias es la distinta. Estos
anlisis generalmente estn basados en t de Student, pero corrigen el aumento del error
tipo I al realizarlo varias veces.

Test de Tukey

- Se basa en la T de Student, pero le aade la varianza del error (ver ecuacin de la ayudanta)
- Los valores de q obtenidos luego son comparados con una q crtica.

{vm}{n : 2 , tvvnv ,
K: Nmero de tratamientos o muestras totales que se van a comparar

Anlisis despus de obtener los valores de q observada y q crtico:

- Si la q observada es menor a la q crtica, las dos medias que uno est comparando son
similares entre s.
- Si la q observada es mayor a la q crtica, las dos medias que uno est comparando son
significativamente distintas entre s.
- Por medio de estos anlisis se puede determinar cul(es) de las medias son distintas entre
s.

ANOVA unifactorial para medidas REPETIDAS o dependientes

- Un mismo grupo de individuos pasa por todos los tratamientos (niveles) a evaluar.
- Cuando el inters biolgico est centrado en la variacin dentro de cada sujeto, la que
estima posibles diferencias (diferentes respuestas dentro) dentro de cada sujeto.

Fuente de Suma de Grados de


Cuadrado Medio F observado F crtico
Variacin Cuadrados Libertad

Total ______ N - 1 _________ ________ ________

Entre Sujetos ______ n - 1 _________ _________ _________

Dentro de
______ n*(k 1) _________ _________ _________
Sujetos

mvomo}tumn mvomo}tumn
Tratamiento ______ k - 1 x . , y'. , (y'.)(-'.)
mvomo}tumn vtoutumt

vtoutumt
Remanente ______ (k 1)(n 1) _________
vtoutumt

El anlisis y las pruebas a posteriori son iguales a ANOVA para medidas independientes.


Ayudanta I1
Valor de P

- Probabilidad de cometer error tipo I ()

ANOVA multifactorial

- Anlisis de varianza de dos o ms factores.


- Los dos factores estn actuando simultneamente sobre la variable respuesta.
- Factores son independientes entre s.
- Naturaleza multicausal de fenmenos biolgicos.
- Relaciones NO ADITIVAS (interactivas entre factores).
- Eficiencia en tiempo y recursos.

Y= Mu + X1 (Factor A) + X2 (Factor B) + Interaccin (AxB) + Error

Uno asume que el modelo es aditivo (suma de efectos): Toda la varianza en Y es producto de la
suma de la varianza de cada uno de los componentes.

Efectos independientes: Pendientes son IGUALES (Rectas Paralelas)

Efectos Interactivos: Pendientes NO son iguales (Rectas se INTERSECTAN)

Por qu hay interaccin?: Efectos de uno u otro factor NO son iguales en todos los niveles.

Factor 1: Dos lneas, puntos con distintas lneas: indican a un factor con sus niveles

Factor 2: Eje X: Indica al otro factor y sus respectivos niveles

Fuente de Suma de Grados de Cuadrado Valor de F Valor


Variacin Cuadrados Libertad Medio Observado Crtico de
F
Total (N 1) SCTOTAL/GLTOTAL ------------ -----------
Entre Factor A (A 1) SCA/GLA CMA/CMERROR FCRITICO DE A
Entre Factor B (B 1) SCB/GLB CMB/CMERROR FCRITICO DE B
Interaccin (A 1) * SCAxB/GLAxB CMAxB/CMERROR FCRITICO DE
A y B (B 1) AxB
Error (N 1) - (AB SCERROR/GLERROR ------------ ----------
1)

ANOVA Multifactorial TIPO I:

- FCRITICO DE A= (1), GLA, GLERROR


- FCRITICO DE B= (1), GLB, GLERROR
- FCRITICO DE AxB= (1), GLAxB, GLERROR

Hiptesis Nulas:

- Si hay dos factores, se utilizan 3 hiptesis nulas:


o H0: Medias del factor A son iguales.
o H0: Medias del factor B son iguales.
o H0: No existe interaccin entre el factor A y el factor B.
- El subndice utilizado en las medias debe ser una abreviacin de los niveles a analizar.

Anlisis despus de saber los F crticos

- Si el F observado es mayor al F crtico, se rechaza H0, por lo que las medias son
significativamente distintas.
- Si el F observado es menor al F crtico, se acepta H0, por lo que las medias son similares
entre s.

Test de Tukey:

- Comparar las medias de un factor entre cada nivel del otro factor
- Comparar todas las medias con todas las medias.
- Si no hay interaccin: Test de Tukey para CADA uno de los factores POR SEPARADO.
- Si existe interaccin: Comparar las medias mediante tukey slo para los 3 niveles de un
factor (se compara la media de las medias). Otra alternativa es realizar un tukey para TODAS
las medias de los niveles.

SNK es ms liberal que el tukey, por lo que detecta ms diferencias entre los niveles. Al utilizar SNK
uno se arriesga a cometer error tipo 1, ya que aumenta.

Factores Fijos y Aleatorios:

- DEPENDE DE LO QUE DIGA EL ENUNCIADO


- Todos los niveles posibles estn -> FIJO.
- No todos los niveles posibles estn, pero:
o Eleg cuatro, porque me interesan especficamente esos 4: FIJO.
o Si los eleg aleatoriamente, sin ningn inters especfico: ALEATORIO.

- ANOVA TIPO 1: Se utiliza cuando los factores (TODOS) son fijos. Por lo tanto, en la tabla
todos los F observados estn divididos por el cuadrado medio del ERROR.
- ANOVA TIPO 2: Se utiliza cuando los factores (TODOS) son aleatorios. Por lo tanto, en la
tabla los dos factores son divididos por el cuadrado medio de la INTERACCIN. Y la
interaccin est dividida por el cuadrado medio del error.
- ANOVA TIPO 3: Se utiliza cuando uno de los factores es fijo y el otro u otros son aleatorios.
En este caso, dependiendo del factor se divide por el cuadrado medio de la interaccin
(factor fijo), y el factor aleatorio se divide por el cuadrado medio del error. La interaccin
se divide por el cuadrado medio del error.

PREGUNTAS:

- Cundo usar (1) y (2)?: Si el enunciado indica que hay una desigualdad (mayor o
menor) la a utilizar es unilateral. Si el enunciado indica que lo que interesa es que sean
distintas, NO que sea mayor o menor, el a utilizar es bilateral.
- T de student, Pareado o Medidas Repetidas: Se utiliza t de student pareada cuando los
individuos de una muestra pasan por un tratamiento y los individuos de la otra muestra
pasan por otro tratamiento. Para medidas repetidas, es cuando los mismos individuos
pasan por los dos o ms tratamientos.
- ANOVA de Medidas Repetidas: En ANOVA de Medidas Independientes se compara la
varianza entre sujetos y dentro sujetos debido a un tratamiento o a un error. En un ANOVA
de Medidas Repetidas se compara la varianza dentro de los sujetos con el remanente (error)
dentro de los sujetos.

Test de Tukey

- Tambin llamado tukey honesty significance (HSD)


D Z
=
tvvnv 1 1
( + )
2 Z D

SNK considera cuntas medias caen dentro de los valores de las medias calculadas.

Bioestadstica II

Tipos de Error Estadstico

Error Tipo I

- Existen ocasiones en las cuales una hipotesis nula verdadera ser rechazada, lo cual implica
que se ha cometido un error tomando conclusiones de la muestra.
- La frecuencia con la cual se cometer este error es a.
- El hecho de rechazar H0 cuando en realidad es
verdadera.

Error Tipo II

- Por otra parte, una prueba estadstica podra ser


incapaz de detectar que en realidad una hipotesis nula es falsa, y se llegar a una conclusin
erronea si no se rechaza H0.
- La probabilidad de cometer este tipo de error es b.

Poder de Prueba

- Se define como 1 .
- Corresponde a la probabilidad de rechazar correctamente la H0 cuando es falsa.

Qu Influye en el Poder Estadstico

- Dados un a, s2 y un n, el poder es mayor para grandes diferencias entre y 0.


- Dados un n, s2 y una diferencia entre y 0, el poder es mayor a medida que aumenta a.
- Dados un a, s2 y una diferencia entre y 0, el poder es mayor a medida que aumenta n.
- Dados un a, n, y una diferencia entre y 0, el poder es mayor cuando s2 disminuye.
o Cuando hay una muestra de mayor tamao (n) o con una varianza menor (s2), el
error estndar disminuye, lo que implica que la curva de la distribucin normal se
estrecha. Esto disminuye b y aumenta el poder para rechazar H0.

Intervalos de Confianza

- Un intervalo de confianza del 95% significa que, si se calcularan todas las medias posibles
para muestras de tamao n tomadas de la poblacin, y a cada una de estas medias se le
calculara un intervalo de confianza del 95%, un 95% de los intervalos contendran (la
media poblacional).
- En otras palabras: Tengo un 95% de confianza que el intervalo contiene a la media
poblacional.

ANOVA (Anlisis de Varianza)


- Cuando se quieren comparar 3 o ms muestras, la cuales son de 3 o ms poblaciones, es
tentador utilizar pruebas de bi-muestrales:
o . = " = k probando por separado . = " , . = k y
" = k . ESTO ES INCORRECTO.
- Esto debido a que cada prueba t hecha a un nivel de significancia del 5%, posee un 95% de
probabilidad de que se concluir correctamente no rechazar H0 cuando las medias de dos
poblaciones son iguales.
o Sin embargo, cuando se realiza esto para 3 hiptesis nulas, la probabilidad de
rechazar todas correctamente es de 0,95k = 0,86. Esto significa que la
probabilidad de rechazar al menos una incorrectamente es de 1 (1 ){ ,
donde C corresponde al numero de combinaciones entre pares de k muestras.

( 1)
Nivel de Significancia =
2

1 (1 ){



Bases Matemticas del ANOVA

- En un diseo experimental con k grupos, hay ni datos en el grupo i; es decir, n1 designa todos
los datos del grupo 1, n2 del grupo 2, etc. El nmero total de datos en los k grupos ser N,
de tal manera que:
y

= M
M.

- La suma de cuadrados para los N datos ser:

Dato j en el grupo i

y -&

LCLZf = (M )"
M. .

Promedio de
todos los datos (N)

- Los grados de libertad asociados a la suma de cuadrados total son:

LCLZf = 1

- Una porcin de la cantidad total de variabilidad de los N datos es atribuible a diferencias


dentro las medias de los k grupos; esto se denomina la suma de cuadrados entre grupos:
y

g-LJg JbcC? = M (M )"


M.

- Asociada a esta suma de cuadrados se pueden calcular los siguientes grados de libertad:

g-LJg JbcC? = 1

- La porcin de la suma de cuadrados total que no se explica por las diferencias entre grupos
significa que la variablidad se encuentra dentro de los grupos:


y -&

g-LJC JbcC? = (M M )"


M. .

- Se puede asociar a esta suma de cuadrados los grados de libertad:


y

g-LJC JbcC? = M 1 =
M.


Probando la Hipotesis Nula

- Dividiendo la suma de cuadrados de los grupos o del error (dentro grupos) por los
respectivos grados de libertad da como resultado una varianza, o como se le conoce, un
cuadrado medio.
g-LJg JbcC?
g-LJg JbcC? =
g-LJg JbcC?

y
g-LJC JbcC?
g-LJC JbcC? =
g-LJC JbcC?

- La teora estadistica nos informa que si la hiptesis nula es una declaracin verdadera
acerca de las poblaciones, entonces los cuadrados medios entre grupos y dentro grupos
sern por separado un estimador de s2, la varianza comn a las k poblaciones. Pero si las
medias de las k poblaciones no son iguales, entonces el cuadrado medio entre grupos ser
mayor que el cuadrado medio dentro de grupos.
g-LJg JbcC? Esto indica como la variabilidad de los
=
g-LJC JbcC? datos entre grupos se compara con la
variabilidad dentro de grupos.

- El valor crtico para esta prueba es:

x . , y'. ,(u'y)

Nivel de Grados de libertad


significancia a de del denominador
una cola (CM dentro grupos)
Grados de libertad
del numerador
(CM entre grupos)

- Si el F calculado es igual o mayor que el valor crtico, se rechaza H0, y el rechazarla indica
que la probabilidad de que los datos observados venan de las poblaciones descritas por
H0 es .
- Sin embargo, lo nico que se concluye en tal caso es que las k medias poblacionales no son
iguales, no si una es mayor o menor que otra.


Fuente de Variacin Suma de Cuadrados Grados de Libertad Cuadrados Medios

y -&

M (M )" 1 -
M. .

y
g-LJg JbcC?
M M (M )" 1 g-LJg JbcC? =
g-LJg JbcC?
M.

y -& y
g-LJC JbcC?
" g-LJC JbcC? =
M (M M ) M 1 =
g-LJC JbcC?
M. . M.

Nota: Para cada fuente de variacin, la cantidad entre parntesis indica la variacin calculada: k
corresponde al nmero de grupos; Xij es el dato j en el grupo i; M es la media de los datos en el grupo
i; es la media de los N datos (total).

ANOVA utilizando Medias y Varianzas

- Puede ocurrir que los nicos datos que tengamos sean las medias para los k grupos y alguna
medida de variabilidad basada en las varianzas de cada grupo. Esto significa que tenemos
M y o SCi, si2, si o sx para cada grupo, en vez de los valores individuales de M . Si los tamaos
muestrales, ni, se conocen, se puede realizar el ANOVA:
1. Determinar la suma de cuadrados o la varianza muestral para cada grupo:

M = M 1 M" M" = (M )" = M (& )"

Luego calcular:
y y

g-LJC JbcC? = M = M 1 M"


M. M.

Y:

y y "
( M. M M )
g-LJg JbcC? = M M" y
M. M. M

Luego se puede proceder como un ANOVA normal.

ANOVA de efectos fijos o efectos aleatorios


- Cuando los niveles de un factor se eligen especficamente se dice que uno ha diseado un
ANOVA de efectos fijos, o un ANOVA tipo I. En tal caso, se acepta la hiptesis nula:

. = " = k = = y

- Sin embargo, existen instancias en las cuales los niveles de un factor a ser puesto a prueba
deben ser elegidos aleatoriamente. En este ANOVA de efectos aleatorios, o ANOVA tipo II,
todos los clculos son idnticos al ANOVA tipo I, pero la hiptesis nula se expresa mejor
como:

Efectos adversos sobre ANOVA

- No normalidad
o El efecto de datos no normales es mayor a medida que los datos sean menos
normales.
o El efecto es menor si el tamao muestral es igual o si los ni son desiguales pero
grandes, o si las varianzas son iguales.
- Varianzas
o Si las varianzas de las k poblaciones no son iguales, el ANOVA es liberal (* la
probabilidad de error tipo I excede a) siempre y cuando los tamaos muestrales
sean iguales. La extencin a la cual la prueba es liberal incrementa con una mayor
heterogeneidad de varianza y disminuye con un menor tamao muestral.

Si las k muestras Si las k muestras


Si las k muestras
Si las k muestras no se poseen
se encuentran
se distribuyen distribuyen distribuciones no
distribuidas
normalmente normalmente normales y no
normalmente y
pero poseen pero poseen poseen
poseen
varianzas distribuciones y distribuciones y
varianzas
distintas varianzas varianzas
identicas
parecidas parecidas

Qu tipo de
prueba
multimuestral
utilizar Prueba de
(1) Probar la
Behrens Fisher
ANOVA normalidad
Prueba de
utilizando la (2) No realizar
F Kruskal Wallis
distribucin F pruebas de

hiptesis.
F
Poder del ANOVA

- Supongamos un ANOVA con k grupos, que se realizar a un nivel de significancia a, con n


datos (rplicas) por grupo. Se puede estimar el poder de una prueba si se tiene una
estimacin de s2, la varianza dentro de las k poblaciones (esta estimacin generalmente es
s2) y una estimacin de la varianza entre las poblaciones.
- De esta informacin se puede calcular f, que se relaciona con el parmetro de no
centralidad.
- La variabilidad entre poblaciones se puede expresar en terminos de desviaciones de las k
medias poblacionales, i, respecto a la media de todas las poblaciones, , lo que da:

y y
M.(M )" M. M
= =
"

- El poder es mayor cuando las diferencias entre las medias de grupos son mayores
(cuando incrementa (M )" ).
- El poder es mayor a medida que incrementa el tamao muestral, ni (y es mayor
cuando los tamaos muestrales son iguales).
- El poder es mayor para menos grupos k.
- El poder es mayor para una varianza (s2) dentro de grupos menor (estimada por s2,
CM dentro de grupos).
- El poder es mayor cuando se utilizan mayores niveles de significancia, a.

ANOVA de dos factores


- Para un caso general de un ANOVA de dos factores, nos podemos referir a un factor
como A y al otro factor como B. Ms an, representemos el nmero de niveles en
el factor A como a, el nmero de niveles en el factor B como b, y el nmero de
rplicas como n.
- Definamos Mf como el valor que es la rplica l de la combinacin del nivel i del
factor A y el nivel j del factor B. Cada combinacin de un nivel del factor A con un
nivel del factor B se denomina una celda.
- M se denomina la media de una celda.
- La media de todos los datos (N datos) es:
Z D -
Mf
=

M. . f.

Fuentes de Varianza

- La suma de cuadrados total es una medida de la varianza dentro de todos los datos
en la muestra. Para el ANOVA de dos factores el concepto es el mismo:
Z D -

LCLZf = (Mf )" LCLZf = 1


M. . f.

- Ahora consideremos la varianza entre celdas, tratando las celdas como se trataban
a los grupos en el ANOVA unifactorial:
Z D
"
IgfZ? = M IgfZ? = ( ) 1
M. .

- Ms an, anlogamente a la suma de cuadrados dentro de grupos del ANOVA


unifactorial, se puede definir:
Z D -

g-LJC IgfZ? = (Mf M )" g-LJC IgfZ? = ( ) ( 1)


M. . f.

Los clculos indicados arriba son anlogos a aquellos para el ANOVA unifactorial, pero uno
de los deseos en el ANOVA bifactorial es evaluar los efectos de los factores independientemente
uno del otro. Esto se realiza considerando el factor A como el nico factor en un ANOVA unifactorial
y luego considerando el factor B como el nico factor.

- Para el factor A:
Z
"
ZILCJ o = M ZILCJ o = 1
M.

- Para el factor B:
D
"
ZILCJ = ZILCJ = 1
.

Generalmente la varianza entre las celdas no es igual a la varianza entre los niveles del factor
A ms la varianza entre los niveles del factor B. La cantidad de varianza que no se explica es debido
al efecto de la interaccin entre los factores A y B.

Esto se desgina como la interaccin , y su suma de cuadrados y grados de libertad se


calcula representando la diferencia entre la varianza dentro de celdas y la varianza debida a los dos
factores:

o E = IgfZ? ZILCJ o ZILCJ

y sus grados de libertad

o E = IgfZ? ZILCJ o ZILCJ

- Una interaccin entre dos factors significa que el efecto de un factor no es


independiente de la presencia de un nivel particular del otro factor. Entonces, la
interaccin entre factores es un efecto sobre la variable adicional a los efectos de
cada factor considerado por separado.

Fuente de Varianza Suma de Cuadrados Grados de Libertad Cuadrados Medios

Z D -

LCLZf = (Mf )" 1 -


M. . f.

Z D
" IgfZ?
IgfZ? = M ( ) 1
IgfZ?
M. .

Z
ZILCJ o
ZILCJ o = M " 1
ZILCJ o
M.

D
" ZILCJ
ZILCJ = 1
ZILCJ
.

o E
o E = IgfZ? ZILCJ o ZILCJ 1 ( 1)
o E

Z D -
g-LJC IgfZ?
g-LJC IgfZ? = (Mf M )" ( ) ( 1)
g-LJC IgfZ?
M. . f.