Professional Documents
Culture Documents
RPI N:153541
2
Prologo
Este libro ha sido diseado como un curso de estadstica general de acuerdo a los
programas vigentes en diferentes universidades. Est escrito en una forma general con
ejemplos aplicables a diferentes mbitos. Tiene un nfasis en las bases conceptuales y
metodolgicas de los distintos temas, sin perder el rigor matemtico de sus
fundamentos. En general se evitan las demostraciones matemticas dificultosas que
distraen del objetivo general.
El libro est dividido en seis unidades, de las cuales las primeras cuatro
corresponden a los programas habituales de los cursos de pre-grado en todas las carreras
donde el anlisis de datos es relevante.
Las unidades tres y cuatro son las ms importantes en un curso bsico, donde se
encuentran los principales mtodos usados en inferencia estadstica. Se separan en una
unidad especial el anlisis de varianza y la regresin. Para los lectores poco avezados en
matemticas, se puede pasar directamente desde la unidad 1 a la 3.
III.- PROBABILIDADES 25
Ejercicios de Probabilidades 41
V.- ESTIMACIN 67
V.1.- Estimadores 67
V.2.- Estimaciones 69
V.2.1 Intervalo de confianza para una proporcin P y para la diferencia P1-P2 69
V.2.2 Intervalo de confianza para el promedio x y para la diferencia x1-x2 70
V.3.- El tamao muestral 71
V.2.3.- Estimaciones en Medicina 72
Ejercicios de estimacin 74
VI.1.- Bases 76
VI.2.- Dcimas para una muestra 80
VI.3.- Dcimas para dos muestras 82
VI.4.- Supuestos de las dcimas 86
VII.1.- La distribucin 2 93
VII.2.- Bondad de ajuste de 2 98
VII.3. El 2 para proporciones 100
VII.4.- La prueba G 101
5
Bibliografa 190
Esta captacin del orden pasa primero por la eleccin e identificacin del
fenmeno y decidiendo el enfoque de inters. Este puede ser de tipo sistmico u holista
en el que el inters esta concentrado en la totalidad y no en las partes (el todo es mas
que la suma de las partes), o bien de tipo reduccionista en el que se estudian las
partes para entender el todo. En general ambos enfoques conducen a la construccin de
modelos, sean stos formales o de simple palabra, que representen el fenmeno. Estos
reducen la complejidad del fenmeno, hacindolo comprensible.
La ciencia, segn Kuhn (1962), puede ser entendida como una coleccin de datos
en el contexto de una forma de entender como funciona la naturaleza (paradigma). En
su conjunto, evoluciona saltando de paradigma en paradigma (revoluciones cientficas)
en la medida que se acumulan evidencias contradictorias a la luz del paradigma
existente. Esta acumulacin de evidencias obedece a un proceso constante de
proposicin de explicaciones y causalidades de fenmenos naturales que puede ir de lo
general a lo particular (deduccin) o desde lo particular a lo general (induccin).
Para Popper (1979) el mtodo consiste en una confrontacin de los datos con una
hiptesis, pudiendo sta ser solamente rechazada y no probada. As, en el mtodo de
Popper, hipottico-deductivo-refutacionista, existe una hiptesis de nulidad que
cuando es rechazada, nos permite proponer nuevas hiptesis (falsificacin de la
hiptesis).
I.- ESTADSTICA
I.2.- Definicin
i) frecuencia relativa hi ni / n
i j
i j
En este caso la tabla incluye las columnas: yi, ni, hi, Ni, y Hi.
La tabla incluye las columnas: yi-1, yi, ci, yi, ni, hi, Ni, y Hi
Histograma y polgono de frecuencias
Ejemplo 1.-
yi-1 Yi yi ci ni hi Ni hi
2 4 3 2 20 0.2 20 0.2
4 6 5 2 25 0.25 45 0.45
6 8 7 2 30 0.3 75 0.75
8 10 9 2 10 0.1 85 0.85
10 12 11 2 12 0.12 97 0.97
12 14 13 2 3 0.03 100 1.00
Medidas de posicin
x
x i
c L ( n / 2 N L 1 )
Me y ' L 1
nL
Donde L es el subndice del intervalo que contiene a la mediana, y ste intervalo
es aquel cuya frecuencia acumulada sobrepasa la mitad de la cantidad de observaciones
(cuya Nj sobrepasa a n/2).
c L ( np / 100 N L 1 )
Pp y ' L 1
nL
Es fcil ver que P50 es la mediana. A los percentiles P25, P50 y P75 se les denomina
primer, segundo y tercer cuartl (Q1, Q2 y Q3). Del mismo modo se pueden definir los
deciles, por ejemplo P10 es el primer decl.
La tercera medida de inters es la moda. Esta se define como el valor que tiene
una mayor frecuencia relativa. En el caso de series agrupadas la moda corresponde a un
intervalo, aunque se ha propuesto una frmula que en cierta manera hace perder sentido
a la definicin.
nL 1
Md y ' L 1 c L
n L 1 n L 1
Observaciones
Medidas de dispersin
xi2
s x2
2
ni yi2
En una serie agrupada s 2 y 2 hi yi2 y 2
n
s s2
Las desviaciones estndar dependen del valor del promedio, siendo ms grandes
cuanto mas grande es este ltimo, lo que hace difcil su comparacin. El coeficiente de
variacin (CV) corrige este problema y corresponde a una desviacin estndar
normalizada dividida por el promedio:
CV s / x
x Md 3( x Me)
3
s
y 5
s
Ejemplo 2.-
Si tomamos la tabla del ejemplo uno podemos calcular las siguientes medidas de
posicin:
h yi
2
i
0.2 9 0.25 25 0.3 49 0.1 81 0.12 121 0.03 169 50.44
0.008 0.018 0.056 0.055 0.135 0.052 0.077 0.026 0.440 0.300
0.025 0.036 0.043 0.100 0.120 0.110 0.100 0.350 0.100 0.300
R: i) a) promedio: 6.04; mediana: 5.78; Moda [4;6]; P 30: 4.71; desviacin estndar: 2.39;
CV: 0.395; b) promedio: 0.123; mediana: 0.089; Moda 0.1; P 30: 0.0475; desviacin
estndar: 0.120; CV: 0.979.
23
% de cambio en X
Compuesto I Compuesto
II
26.0 31.7 55.1 65.8 63.6
30.0 32.0 56.3 58.3 64.0
30.5 28.6 60.0 57.1 65.3
26.2 29.2 63.5 55.4 62.8
30.7 33.0 64.9 56.5 59.5
31.3 32.0 62.7 55.1
30.5 32.6 60.5 57.0
30.1 28.2 59.2 59.3
29.6 29.1 63.7 60.7
30.2 30.7 64.1 62.1
R: i) Compuesto I: media 30.11, mediana: 30.55; Compuesto II: media 60.5, mediana
60.5; ii) CI: V 3.52, ds 1.87; CII: V 12.04, ds 3.47; iii) CI: Rango 7, RIQ 2.35; CII:
Rango 10.7, RIQ 6.5; iv) el primero (ver coeficiente de variacin)
24
III.- PROBABILIDADES
i) Si P (subconjunto de ) , entonces P -.
ii) Si P y Q - entonces P Q -.
iii) Si P y Q - entonces P Q - .
Ejemplo1.-
Existen varias definiciones de probabilidad, cada una de las cuales tiene cierta
utilidad.
casosfavorables
P ( A)
casosposibles
nA
P ( A)
n
P ( A) lim (nA / n)
n
P: - -----------------------> {0,1}
A ----------------------------> P(A), tal que:
i) P () = 1
27
ii) P (A) > 0 A -
iii) si A B = , entonces P (A B) = P(A) +P(B) (teorema de la o)
Conjunto universo: .
Conjunto vaco (): suceso imposible.
Elemento de -: suceso.
A B: sucede A o sucede B o ambos.
A B: sucede A y sucede B.
AC: no sucede A.
I) P () = 0
Ejemplo 2.-
Ejemplo 3.-
Si tiro una vez un dado, la probabilidad que salga 5 o 6 es P(5 o 6) = P(5) + P(6)
= 1/6 +1/6 = 2/6, pues los sucesos sale 5 y sale 6 son excluyentes.
Ejemplo 4.-
Ejemplo 5.-
Ejemplo 6.-
Ejemplo 7.-
Ejemplo 8.-
P ( A) P ( A / Bi ) P( Bi )
i
P(A) = P(A B1) + P(A B2) + ... P(A Bn) = P(A Bi) y por la definicin de
probabilidad condicional,
P( A / Bi ) P( Bi )
P( Bi / A)
j P( A / B j ) P( B j )
9.- Se lanza una moneda tres veces. a) Cul es su espacio muestral? b) Cul es la
probabilidad de obtener exactamente 2 caras? c) cual es la probabilidad de obtener al
menos 2 caras d) cual es la probabilidad de que los tres lanzamientos sean iguales?
R: a) P(C) = 17/98
b) P(T2) = 28/98
c) P(C T2) = P(C/T2) P (T2) = 12/28 28/98= 12/98
d) P(C/T2) = 12/28 = P(C) = 17/98, entonces no son independientes.
12.- En una caja hay 4 huevos de gallina, 10 de pato y 8 de ganso. Si son frtiles 4 de
cada 5 de gallina, 6 de cada 7 de pato y 11 de cada 12 de ganso. Al sacar un huevo:
R.- P(G) = 4/22, P(P) = 10/22, P(Gz) = 8/22, P(F/G) = 4/5, P(F/P) = 6/7 y P(F/Gz) =
11/12.
a) Los sucesos G, P y Gz constituyen una particin de , pues G P Gz =
y G P Gz = . Entonces por teorema de la probabilidad total:
Animales con pm 13 7 20
Animales sin pm 8 32 40
Total 21 39 60
Probabilidades en el diagnstico
p
O
1 p
EXAMEN
+ - Total
ENFERMO A B a +b
NO ENFERMO C D c+d
Total a+c b+d n = a+b+c+d
En este caso, los falsos positivos seran c y los falsos negativos seran b.
a
S P( / E )
ab
d
Sp P ( / noE )
cd
a
VPP P ( E / )
ac
ad
P (C )
n
S
LR P( / E ) / P( / noE ) P( / E ) /(1 P ( / noE ))
1 Sp
LR (1 S ) / Sp
Por ejemplo es interesante saber que sucede con un paciente que a priori tiene una
probabilidad P de tener una enfermedad, cuando se hace el examen y este sale
positivo. Su chance a priori es Oo = P/(1-P). En este caso interesa P(E/+), y por el
teorema de Bayes:
Op LR Oo
EXAMEN A
+ - Total
ENFERMO de X 85 20 105
NO ENFERMO 10 200 210
de X
Total 95 220 315
Probabilidades en el tratamiento
a
CER P (evento / control ) y tasa de evento en el grupo experimental:
ac
b
EER P (evento / ex)
bd
Estas tasas miden los riesgos absolutos de presentar cierto evento en situacin
control y en situacin experimental. De aqu surgen varias medidas tiles. Primero es
interesante medir el riesgo relativo RR = EER/CER, que indicar si es mayor que 1 un
aumento en el riesgo, y si es menor que 1 una disminucin en ste:
37
RR EER / CER
Por ejemplo si la ARR = 0.01 significa que uno de cada cien saldrn beneficiados
con el tratamiento, o de otra manera habra que tratar 100 para beneficiar a uno. En otras
palabras el nmero necesario para beneficiar a uno es:
NNT 1 / ARR
Probabilidades en la etiologa
38
Muchas veces es necesario indagar en las causas de las enfermedades. A veces se
sospecha de un agente causal y se procede con estudios que pueden ser de dos tipos: i)
Seguimiento de cohortes que consiste en el seguimiento de dos grupos a lo largo del
tiempo (seguimiento longitudinal) uno expuesto al factor sospechoso y el otro no
expuesto, para estudiar despus cuantos desarrollan la enfermedad en cada grupo (por
ejemplo tabaco y cncer bronquial); e ii) Estudio de casos y controles que consiste en
la eleccin de dos grupos, el primero de enfermos y el segundo de no enfermos,
estudiando en ellos cuantos de stos estuvieron expuestos al factor. En este caso es un
estudio transversal. Cualquiera sea el tipo de estudio en general se expresa en la
siguiente tabla:
Aunque la tabla sea la misma las medidas tiles son distintas. En el caso de un
estudio de cohortes tiene sentido estudiar el riesgo de tener la enfermedad cuando se est
expuesto EER = a/(a+b) y cuando no se est expuesto CER = c/(c+d) y en este caso el
aumento absoluto del riesgo al estar expuesto:
El riesgo relativo:
RR EER / CER
En este caso el nmero necesario de expuestos para que haya 1 enfermo es:
NNH 1 / ARA
a / c ad
OR
b / d bc
Ejemplo 17.- Se piensa que el cigarrillo tiene relacin con el cncer de Vejiga,
entonces se realiza un estudio en pacientes con cncer de vejiga (casos) y en sujetos
normales, pareados por edad y sexo (controles). Se estudia en estos pacientes el
antecedente de consumo de cigarrillos, obteniendo:
En este caso la chance de fumar en pacientes con cncer de vejiga es: 56:120,
mientras que cuando no se tiene este cncer es de 26:200. As la razn de disparidades es
OR = 56x200/(26x120) = 3.59. As si por ejemplo la prevalencia de cncer de vejiga en
fumadores fuera PEER = 0.03, entonces NNH =[0.03(3.59-1)+1]/[0.03(3.59-1)(1-0.03)]
= 14.3.
41
Ejercicios de Probabilidades
1. Se tira una moneda 3 veces y se observa la secuencia de caras y sellos que aparecen.
El espacio muestral es:
= {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS}
Sea A el evento que aparezcan dos o ms caras consecutivas, y B, que sean todas cara
o todas sello. Calcular P(A), P(B) y P(AB).
R: 3/8; 1/4; 1/8.
5. Una ruleta de casino tiene 37 nmeros, del 0 al 36. Excepto por el 0, el cual es verde,
la mitad de los nmeros son rojos (pares) y la otra mitad, negros (impares). Encuentre
la probabilidad de:
i) obtener un 18 en un solo tiro de ruleta.
ii) obtener un nmero rojo en un solo tiro.
iii) obtener un 5 o un nmero negro en un solo tiro.
iv) obtener un nmero rojo en el primer tiro y el cero en el segundo tiro.
42
R: 1/37; 18/37; 18/37; 18/1369.
9. En una cierta ciudad, 40% de la gente tiene pelo castao, 25% tiene ojos pardos y un
15% tienen ambas caractersticas. Si una persona es seleccionada al azar:
i) y tiene el pelo castao, cul es la probabilidad de que tambin tenga ojos
pardos.
ii) y tiene ojos pardos, cul es la probabilidad de que no tenga pelo castao.
iii) cul es la probabilidad de que no tenga ni los ojos pardos ni el pelo castao.
R: 0.375, 0.6, 0.5.
10.Se estima que el 15% del total de la poblacin adulta padece de hipertensin. Adems
se estima que el 75% de los adultos creen no tener este problema. Se estima tambin
que el 6% de la poblacin tiene hipertensin y no es consciente de tenerla. Si un
adulto opina que no tiene hipertensin, cul es la probabilidad de que la enfermedad
de hecho exista en este individuo?
R: 0.012.
11.Un estudio indica que el 10% de la poblacin de Chile tiene 75 aos o ms, y que el
1% de la poblacin total padece de deficiencia cardiaca moderada. Adems el 10.4%
de la poblacin tiene 75 aos o ms o padece de enfermedad cardiaca.
i) hallar la probabilidad de que un individuo tenga 75 aos o ms y padezca de
deficiencia cardiaca.
43
ii) si un individuo tiene 75 aos o ms, cul es la probabilidad de que padezca
de deficiencia cardiaca?
iii) si un individuo tiene menos de 75 aos, cul es la probabilidad de que
padezca la enfermedad?
R: i) 0.006; ii) 0.0006; iii) 0.0094.
12.Se realiza un experimento de tirar tres veces al aire una moneda. Considere tres
eventos: A = {la primera moneda sale cara}, B = {segunda moneda sale cara}, C =
{salen exactamente 2 caras en forma consecutiva (CCS o SCC)}. Son estos eventos
independientes entre si (analice parejas de eventos).
R: Independientes A con B; A con C; dependientes B con C.
13.En una escuela se estudia la desnutricin infantil, tratando de ver si el hecho de estar
o no desnutrido tiene que ver con el sexo del nio. De 1000 nios examinados, 100
presentan desnutricin; y de 500 nias, 49 presentan desnutricin. Afecta el sexo de
los nios al fenmeno de desnutricin?
R: Son eventos estocsticamente dependientes.
16.En la universidad, 4% de los hombres y el 1% de las mujeres son ms altos que 1.85
m. Adems, se sabe que el 60% de los estudiantes son mujeres. Ahora, si un
estudiante es seleccionado al azar y mide ms de 1.85 m, cul es la probabilidad de
que el estudiante sea mujer?
R: 0.272.
44
17.A un grupo de individuos, algunos enfermos de cierta enfermedad (E) y otros no
(noE) se les practic cierto examen. En algunos de ellos el examen sali positivo (+)
y en otros no (-). Calcule la prevalencia (pv) de la enfermedad (proporcin de
individuos con la enfermedad), la chance a priori de estar enfermo (pv/(1-pv)), la
sensibilidad del examen, la especificidad, el VPP, el VPN, la certeza diagnstica, el
coeficiente de verosimilitud (LR), y la chance a posteriori de estar enfermo y de no
estarlo.
E NoE Total
731 270 1001
+ 78 1500 1578
- 809 1770 2579
R: O0+ = 0.45; O0-=2.22; S = 0.9; Sp = 0.85; VPP = 0.73; VPN = 0.95; P(C) = 0.87; LR+
= 6; LR-=0.12; Op+=2.7; Op-=0.27.
HT NT
Complicaciones (%) 9.6 2.8
Calcule el CER, EER, RR, ARR, RRR, y NNT. Comente sus resultados.
R: CER = 0.096, EER = 0.028, RR = 0.29, ARR = 0.068, RRR = 0.708, NNT = 15.
E NoE Total
F(+) 58 22 80
F(-) 36 44 80
94 66 160
20. Se estudia la relacin entre cierto factor de riesgo (F(+)) y una cierta enfermedad.
Para ello se toma un grupo de enfermos (E) y otro de sanos (controles: noE), midiendo
en ellos la presencia o ausencia de dicho factor. Los resultados se resumen en la
siguiente tabla:
E NoE
F(+) 58 22
F(-) 36 44
94 66
Ejemplo 1.- Sea el experimento se tira 2 veces una moneda = {cc, cs, sc,ss}
Podemos definir la variable aleatoria X = nmero de caras. As para X = 0 su preimagen
es el suceso (ss), para X = 1 su preimagen es (cs) (sc) y para X = 2 su preimagen es
(cc).
Las variables aleatorias pueden ser discretas si slo pueden tomar un nmero k N
valores distintos, en todo otro caso, son continuas.
Variables discretas
Ejemplo 2.-
X p(x) F(x)
0 0.25 0.25
1 0.50 0.75
2 0.25 1.00
47
Las caractersticas fundamentales de una variable aleatoria son la esperanza y la
varianza
E[X] = xi pi
Ejemplos 3-4.-
Sea la variable aleatoria X = retorno; entonces P(X=0) = 0.2 P(X = 100) = 0.2; P(X =
200) = 0.4 y P(X = 300) = 0.2. Entonces, E[X] = 0.0.2 + 100.0.2 + 200.0.4 + 300.0.2 =
160.
Como la esperanza del retorno (160) es mayor que la inversin (100), el negocio parece
conveniente.
48
4.- Un alumno ha dado 100 pruebas de matemticas con los siguientes resultados:
COV[X,Y] = E[XY]-E[X]E[Y].
49
Ejercicios Propuestos
a) Cul es la probabilidad de que una vaca tenga parsitos en la regin A3? R: 0.489
2.- Se lanza un dado dos veces. Cul es el espacio muestral? Cul es la probabilidad
de obtener 2 nmeros iguales? Cul es la probabilidad de sacar un 1 y un 5? Cul es
la probabilidad de sacar primero un 1 y despus un 5?
R: 1/6; 2/36; 1/36.
3.- En una pieza hay 100 cachorros. Algunos de ellos Beagle y otros Poodle.
Algunos de ellos sanos y otros enfermos.
Son independientes los sucesos el perro es sano y el perro es Beagle? R: 0.6; no.
50
4.- Se va a realizar una ciruga de esfago a 2 gatos. Se sabe que en esta ciruga muere
el 1%. Cual es la probabilidad de que: a) mueran los 2 gatos b) muera slo 1 c)
ninguno muera
R: 0.0001; 0.0198; 0.9801.
6.- La enfermedad x se puede tratar con C o con M. El 80% de los varones prefiere C;
el 90% de las mujeres prefiere M. Si el 60% de los enfermos son varones. Cul es la
probabilidad de tratar un enfermo con M? R: 0.48.
7.- Sea la variable aleatoria X = suma de los puntos al lanzar 2 veces un dado. a)
encontrar P(X=k) para todo k. b) graficar la funcin de cuanta y a funcin de
distribucin c) Encontrar E(X) y V[X] R: 7;5.83.
X P(x) F(x)
0 1-p = q 1-p = q
1 P 1
n k n k
P(X k) p (1 p)
k
Vemos que una vad con distribucin binomial es caracterizada por 2 parmetros:
n y p, entonces se abrevia B(n,p). Observamos que la distribucin binomial consta de n
ensayos fijos e independientes, cada uno dicotmico en su resultado y con una
probabilidad constante (p) de xito.
n n! (n1)!
kn kn kn
=
k0kk (1) k0kpp k!(n)pq npk1(k1)!nkpq
k nk k n k1 nk
m j m j m j m
haciendo, j k 1 y,, m n 1; np p q np(p q) np
j 0 j
Ejemplo 5.-
10 3 7
P( X 3) 0.2 0.8 0.2013
3
Observacin Si de un universo de N elementos en los cuales una proporcin p de
ellos tiene un atributo, sacamos n elementos; entonces la probabilidad que en estos n
haya k con el atributo es:
53
N NpNp
(XP k) kn k
N
n
Esta variable tiene distribucin hipergeomtrica y E[X] = np y V[X] = npq(N-n)/
(N-1). Es fcil darse cuenta que si N es muy grande (tiende a ) la toma de cada
elemento no altera la probabilidad de atributo del siguiente elemento y, entonces cada
ensayo se vuelve de tipo Bernoulli. As si en una vad con distribucin hipergeomtrica,
N , su distribucin se vuelve binomial (B(n,p)). Esto es tambin evidente al
observar que el lmite cuando N de V[X] es npq. Entonces se puede considerar a
la distribucin binomial como una distribucin asinttica para poblaciones infinitas.
Ejemplo 6.-
610
32
P(X 2)
16
5
IV.4.- Distribucin de Poisson
n k nk
P(X k) p (1 p) = n(n-1)(n-2)(n-k+1)(/n)k(1-/n)n-k/(k!) =
k
= [k/k!][1(1-1/n)(1-2/n)(1-(x-1)/n)](1-/n)n(1-/n)-k
k
P( X k ) e
k!
Se dice entonces que esta variable tiene distribucin de Poisson. En este caso,
E[X] = V[X] = .
Demostracin
Para la esperanza, se tiene que
k
k 1
k 0
k e
k!
e
k 1 ( k 1)!
e e
Para la varianza,
k
k
k
k 0
2
e
k!
E[ X ]2 (k (k 1) k ) e E[ x]2 e 2 e 2
k 0 k!
Ejemplo 7.-
0.032
P( X 2) e 0.03 0.000437
2!
Si un fenmeno ocurre X(t) veces en un intervalo [0,t), como ocurre por ejemplo
en la llegada de llamadas telefnicas, la emisin de partculas, accidentes etc... Y
adems la probabilidad de una ocurrencia de ste fenmeno es proporcional al intervalo
(P(una o ms ocurrencias en [t,t+) ) = + o(), donde o() es la probabilidad de que
ocurra ms de uno), entonces el nmero de ocurrencias (k) en un plazo fijo (t) se
conoce como un proceso de Poisson y tiene distribucin de Poisson con parmetro t:
(t ) k
Pk (t ) e t
k!
Ejemplo 8.-
(3 2) 4
P4 ( 2) e 32
0.134
4!
i) f(x) 0 x,
b
ii) P(a x b) = f(x) dx
+ a
iii) f(x) dx = 1.
-
Podemos observar que la densidad de probabilidad en un punto es 0, y que slo
tienen sentido las probabilidades de intervalos.
Tanto las funciones como las caractersticas de una vac se interpretan del mismo
modo, pero cambian sus definiciones:
+
E[X] = xf(x) dx y V[X] = E[X2]-(E[X])2
-
M x (t ) e
tx
f ( x ) dx . Observamos inmediatamente que la derivada de esta funcin, con
M y (t ) [ M x (t )]n
Teorema de De Moivre
a
59
Donde = np y 2 = npq
n k nk
Si en P(X k) p (1 p) , aplicamos la frmula de Stirling para factoriales,
k
n! n n e n 2n e / 12 n , donde es un nmero entre 0 y 1, se obtiene:
1 k np
P( X k ) , donde y el trmino R/n tiende a 0 para n
2
e / 2 R / n
2npq npq
grandes.
2
1
As, si n es grande P(k1 X k 2 ) P(1 2 )
2
e x / 2 dx , lo que define
1 2npq
una distribucin normal con = np y 2 = npq.
Este primer teorema nos dice que la distribucin normal es una distribucin lmite
de una binomial cuando n es grande. En la prctica n > 30 o bien np 5.
Teorema del lmite central (o central del lmite) (expresin general, Laplace
1812, Lyapunov 1901)
Cualesquiera que sean las distribuciones de ciertas variables Xj, con esperanzas
j y varianzas 2j, entonces X = Xj es asintticamente normal (N(,)) donde =
j y 2 = 2j .
t
obtener la fgm de Z: M Z (t ) [ M zj ( )]n y como en MZj(t) el primer y segundo
n
momentos son 0 y 2 se puede desarrollar en serie de Taylor: M Zj(t) = 1- 2t2/2 + R, y
reemplazando t por t/ n obtenemos para MZ(t):
t2 1
M Z (t ) [1 R(n, t )]n [1 R(n, t )]( 2 n / t )( t / 2 ) y tomando lmite cuando n
2 2
2n 2n / t 2
tiende a infinito se tiene que M Z (t ) e t / 2 . Como esta es la fgm de una distribucin
2
El teorema del lmite central y sus importantes corolarios nos explican porqu es
normal (habitual) encontrar distribuciones normales en las variables que estudiamos.
Adems mediante el uso de la estandarizacin (Z) de la variable X, es posible calcular
las probabilidades P(a x b)= P((a-)/ z (b-)/). Afortunadamente para
nosotros los valores de las integrales que definen las probabilidades ya se encuentran
tabulados y son accesibles en programas computacionales. Algunos valores muy
conocidos, importantes y fciles de recordar son P (z > 1.64) = 0.05 y P(z > 1.96) =
0.025.
Ejemplo 9.-
61
Supongamos que el peso (W) de los seres humanos tiene distribucin normal con
promedio = 70 Kg y desviacin estndar = 5Kg. Entonces cual es la probabilidad
que un individuo pese ms de 83 Kg?. Como W tiene distribucin normal N(70; 5),
entonces Z = (W-)/ tiene distribucin normal N(0;1) y preguntar por P(W >83) es
equivalente a preguntar por P(Z >(83-70)/5=2.6). En las tablas de reas de la
distribucin normal se puede ver que este valor es: P(Z > 2.6) = 0.0047.
Los siguientes teoremas y distribuciones tienen relacin con la funcin gama (),
de importantes aplicaciones en clculo y estadstica:
( k ) x k 1 e x dx , k > 0.
0
Basados en esta funcin, se dice que una variable aleatoria continua X, tiene una
distribucin de parmetros r y si su densidad es
f ( x) (x) r 1 e x , x >0; r > 0; > 0; y 0 en cualquier otro caso.
(r )
Demostracin Si desarrollamos:
n1 n2
( ) n1n1 / 2 n2n 2 / 2
2 x n1 / 21
f ( x)
( n1 / 2) (n2 / 2) ( n2 n1 x) ( n1 n 2) / 2
Esta es una distribucin muy til usada en las dcimas de varianza y en el anlisis
de la varianza (ANOVA).
1. Considere un experimento que consiste en tirar una vez un dado. Siendo X = el valor
obtenido en el lanzamiento una v.a.d., cul es su esperanza y su varianza?
R: 3.5; 2.92.
X 0 1 2 3 4 5 6
F (x) 0.1 0.2 0.3 0.6 0.8 0.9 1.0
3. Qu requisitos debe cumplir una variable para que en sus anlisis se utilice la
distribucin binomial?
5. Para estudiar la regulacin hormonal de una lnea metablica se inyectan ratas con un
frmaco que inhibe la sntesis de protenas del organismo. En general, 4 de cada 20
ratas mueren a causa del frmaco antes de que el experimento haya concluido. Si se
trata a 10 animales con el frmaco, cul es la probabilidad de que al menos lleguen 8
vivas al final del experimento?.
R: 0.677.
6. En Escherichia coli, una clula de cada 105 muta generando resistencia al antibitico
estreptomicina. Observando 556.000 clulas, cul es la probabilidad de que ninguna
mute? cul es la probabilidad de que al menos una mute?
R: 0.00348; 0.9965.
66
7. Se estima que slo uno de cada 50 loros capturados en el sur de Chile para su
utilizacin como animales domsticos sobrevive al cambio. Se capturan 700 pjaros
en un da. Cul es el nmero esperado de sobrevivientes? Cul es la probabilidad
de que sobrevivan entre 10 y 12?
R: 0.1545.
11.La densidad del suelo se define como la masa de materia slida seca por unidad de
volumen. Una densidad elevada implica un suelo compacto con escasos poros. Esta
densidad es un factor importante para el crecimiento de las races, la siembra
precipitada y la ventilacin. Sea X la densidad de tierra arcillosa. Los estudios
demuestran que X tiene una distribucin normal con =1.5 y =0.2 g/cm3.
a) Cul es la funcin densidad de X? Haga un esbozo de la funcin densidad.
Indique en esa grfica la probabilidad de que X est comprendida entre 1.1 y 1.9.
Halle esta probabilidad. R: 0.9544.
b) Halle la probabilidad de que tomando de forma aleatoria una muestra de tierra
arcillosa, sta tenga una densidad menor que 0.9 g/cm3. R: 0.0013.
67
c) Estara sorprendido si una muestra de este tipo de tierra, seleccionada
aleatoriamente, tuviese una densidad de 3.2 g? R: absolutamente.
12.La Escala de Inteligencia Wechsler para Nios (WISC) tiene una media de 100 y una
varianza de 225 para la poblacin general. Si un nio cae en el 10% menor de la
poblacin, generalmente los psiclogos clnicos urgen a los padres de los nios a que
les realicen exmenes en busca de posibles problemas cerebrales. Asumiendo que los
puntajes de WISC estn normalmente distribuidos, cul es el puntaje crtico que los
psiclogos utilizan para hablar con los padres?
R: 80.725.
68
V.1.- Estimadores
ii) Estimadores: stos son funciones de una variable aleatoria cuyo fin es
aproximar el valor de un parmetro a partir de las unidades de la muestra
Los ejemplos ms caractersticos son el promedio muestral x , la
proporcin muestral p, la desviacin estndar s y la varianza s 2
muestrales.
V.2.- Estimaciones
Las estimaciones o estimas son los valores que toma un estimador para una
muestra determinada. Por ejemplo, el promedio es un estimador y pero el valor
particularx = 5 es una estimacin. Las estimaciones pueden ser de dos tipos:
puntuales, por ejemplo el promedio poblacional es 3, o por intervalos, por ejemplo el
promedio poblacional est entre 2 y 5. Obviamente la primera estimacin es precisa
pero poco confiable y la segunda es ms confiable pero pierde precisin. Estas dos
ltimas, precisin y confianza son las dos caractersticas de una estimacin (no
confundir con estimador).
IC1 [ p Z / 2 pq / n ]
Notamos que Z/2 en el caso de C = 0.95 es Z/2 = 1.96, pero que para otros niveles
son otros valores que se pueden obtener directamente de la tabla de la distribucin
N(0;1) (Z).
Ejemplo 1.-
IC1 [( p1 p2 ) Z / 2 ( p1q1 / n1 p 2 q2 / n2 )]
IC1 [ x Z / 2 / n ]
Aqu t(1-/2) tiene el mismo sentido que Z/2 pero se escribe distinto por razn de
construccin de las tablas t de Student.
Ejemplo 2.-
Esta misma forma de pensamiento, permite calcular el tamao muestral para una
precisin y una confianza dadas.
Si se acepta que una medida de la precisin es la mitad del ancho del intervalo de
confianza, se observa que la precisin es d = kEs = - y, entonces equivale al valor
absoluto de la diferencia entre el valor real del parmetro y el promedio muestral
(observacin: a mayor valor de d la estimacin es menos precisa).
Entonces, por ejemplo si se desea buscar el tamao muestral con una precisin d y
una confianza C = 1- para estimar una proporcin P, es obvio que d = z /2(PQ/n), es
decir, despejando n, el tamao muestral adecuado es:
Z 2 / 2 PQ
n
d2
74
Ejemplo 3.-
t12 / 2 s 2 Z 2 / 2 s 2
n
d2 d2
Ejemplo 4.-
Si queremos estimar un promedio con un 95% de confianza, con una precisin del
5% y se tienen estimaciones previas que sugieren un promedio de 45 de una desviacin
estndar de s = 5.4, entonces el tamao muestral requerido es aproximadamente: n =
4(5.4)2/(0.05x45)2 = 51.84 = 52.
Observamos que todos los clculos de tamao muestral son slo aproximaciones y
que todos necesitan de algn conocimiento o estimaciones previas de lo que se pretende
estimar y su variabilidad.
V.2.3.- Estimaciones en Medicina
Nmeros necesarios : NNT y NNH Ambos estn definidos como los valores
inversos de ARR y ARA respectivamente, por lo que en estos casos, se calculan los
lmites de confianza para ARR y ARA y se calcula su inverso. Por ejemplo si los lmites
de confianza para ARR son [1/8 y 1/2], entonces para NNT son [2 y 8].
1 1 1 1
Para log RR: IC1 [log RR Z / 2
a b ac bd
]
1 1 1 1
Para log OR: IC1 [log OR Z / 2 ]
a b c d
1 1 1 1
Para log LR: IC1 [log LR Z / 2
a d ab cd
]
76
Ejercicios de estimacin
1. Se tom una muestra que mostr que una variable en los hombres tiene un promedio
de 9.5 mg/dcl y una varianza de 0.25 mg 2/dcl2. Cul es el intervalo de confianza del
95% si el tamao muestral es: a) 5; b) 10; c) 100; d) 1000?
R: [8.88;10.12];[9.14;9.86];[9.402;9.6];[9.47;9.53].
2. De 191 nios con dolor al pecho, 160 tienen electrocardiograma (ECG) normal.
Obtener el intervalo de confianza del 90, 95 y 99% de la proporcin de nios con
dolor al pecho que tienen ECG normal.
R: [0.794;0.882]; [0.786; 0.890]; [0.769; 0.907].
4. Se dice que el 11.4% de las vinchucas rojas estn infectadas con un parsito. Qu
tamao muestral necesito para re-estimar esta proporcin con un intervalo de
confianza de 95 % de ancho total 7 %?
R: n = 317.
9. Se cree que los jvenes adolescentes que fuman comienzan a hacerlo a una edad ms
temprana que las mujeres adolescentes fumadoras. Segn los siguientes datos, usted
apoyara esta suposicin?
Hombres: N=33 ; edad media a la que empiezan a fumar=11.3 aos ; 2=4
Mujeres: N=14 ; edad media a la que empiezan a fumar=12.6 aos ; 2=4
R: No.
VI.1.- Bases
Desde esta perspectiva una hiptesis constituye una afirmacin cuya validez o
certeza es desconocida. El fin de la estadstica es llegar a conocer o aproximar la
incerteza de tal afirmacin.
As, por ejemplo si se afirma que los hombres pesan ms que las mujeres, se
establece inmediatamente la dicotoma Ho: los hombres pesan igual o menos que las
mujeres y H1: los hombres pesan ms que las mujeres. En trminos estadsticos
paramtricos nos referimos a los promedios: Ho: H M vs. H1: H > M. Naturalmente
una u otra es verdad, pero no ambas.
Bajo esta definicin es claro que toda la estrategia estadstica est destinada al
rechazo de Ho, y que este rechazo es el que permite sostener H 1. Para esto es
estrictamente necesario que las hiptesis Ho y H1 sean complementarias.
79
Sin embargo, encontrar una regla que permita tomar una decisin adecuada no es
fcil como podemos ver en el siguiente ejemplo.
Supongamos que tomamos una muestra de 100 individuos del ave B. Entonces la
idea es encontrar un valor crtico Co para el promedio muestral xB sobre el cual
rechazar Ho (y por tanto sostener H1). Esto establece un conjunto de valores Rc =[xB /
xB > Co] que permiten rechazar Ho (zona de rechazo de Ho). Pero....cmo elegir este
valor crtico?
K() Ho
0.7 0.0668 V
0.8 0.1587 V
0.9 0.3085 V
1.0 0.5 V
1.1 0.6915 F
1.2 0.8413 F
1.3 0.9332 F
80
En esta tabla observamos que la probabilidad de rechazar Ho (K()) cuando Ho es
verdadera es muy alta, por ejemplo para = 0.9 hay una probabilidad de 0.3 (30%) y
para = 1 una probabilidad de 0.5!!. Entonces no parece adecuado escoger Co = 1.
K() Ho
0.8 0.0228 V
0.9 0.0668 V
1.0 0.1587 V
1.1 0.3085 F
1.2 0.5000 F
1.3 0.6915 F
1.4 0.8413 F
VALOR DE VERDAD de
Ho
V (H1F) F (H1V)
DECISIN Rechazo Ho ERROR I () K = 1-
Acepto Ho C = 1- ERROR II ()
En esta tabla se describen dos tipos de errores estadsticos: error de tipo I, aquel
que se comete cuando se rechaza Ho (RHo) y esta es en realidad verdadera (HoV). Su
medida es = Pmax(RHo/HoV); y el error de tipo II es el que se comete cuando se
acepta Ho (AHo) y esta es falsa. Su medida es = Pmax(AHo/H1V) = 1-Pmax(RHo/H1V) =
1-K(1).
81
Observamos que C = P(AHo/HoV) = 1-. El valor C establece la confianza de la
dcima, y a , el mximo error de tipo I que se est dispuesto a tolerar, se le denomina
nivel de significacin cuando se encuentra previamente especificado. Del mismo modo
a K(1), el valor de la funcin de potencia en 1 ,o simplemente K, se le conoce como
potencia de la dcima.
i) Planteamiento de la Hiptesis.
iii) Eleccin del nivel de significacin. En esta etapa se define a priori el nivel de
significacin con que se va a trabajar. En general en ciencias se consideran
como adecuados niveles menores que = 0.1; 0.05; 0.01 (o confianzas
mayores que 90%; 95%; 99%). El ms aceptado es lejos = 0.05. O sea en
ciencias parece aceptable cometer errores de tipo I con probabilidades
menores o a lo sumo iguales a 0.05.
Dcima para una proporcin (P) Una pregunta muy habitual en ciencias de
cualquier tipo es si cierta proporcin P corresponde o no a un valor dado. Por ejemplo es
habitual pensar que la proporcin de mujeres es mayor que 0.5 o que la prevalencia de
una cierta enfermedad sea menor que una prevalencia dada etc...
Supongamos por ejemplo que se dice que un cierto insecto se encuentra en el 30%
(p0) de las viviendas, pero en la localidad en que vivo yo lo veo en casi todas. Entonces
planteo la hiptesis: la proporcin de casas infestadas por este insecto es mayor que un
30%. En trminos estadsticos Ho: P 0.3 vs: H1: P > 0.3. Voy a trabajar con un nivel de
significacin de = 0.05.
Una segunda manera de ver esto es buscando el valor crtico Co tal que P(Z>Co)
= 0.05. Este es Co = 1.64, es decir rechazar la hiptesis Ho para todo valor calculado de
z > 1.64 (zona de rechazo Rc). Como el valor calculado de Z = 2.41, entonces cae en la
zona de rechazo de Ho.
p p0
Z
p0 q0
n
Ejemplo 1.-
Aplico el estadgrafo Z:
0.128 0.08
Z 2.48
0.08 0.92
196
x 0
t n 1
s
n
Ejemplo 2.-
En este caso se trata de hiptesis que comparan dos situaciones y por tanto para
probarlas es necesario tomar dos muestras. Por ejemplo, si se afirma que en la ciudad A
hay ms prevalencia de cncer que en la ciudad B, es necesario tomar una muestra en A
y otra en B.
En este caso, para una prueba de dos colas, las hiptesis H 0 y H1 se pueden
escribir como:
H0: (P1-P2) = P0 vs. H0: (P1-P2) P0. Lo habitual es que P0 = 0, pues en general interesa
la pregunta P1 = P2 o P1 P2? La prueba a usar en este caso es:
( p 1 p 2 ) P0
Z p n p 2 n2
1 1 donde p0 1 1
p0 q0 ( ) n1 n2
n1 n2
Ejemplo 3.-
Entonces calculo Z:
0.192 0.36
Z 2.14
1
0.303 0.697(
1
)
. Entonces ahora se debe tomar la decisin. El valor
52 100
crtico de rechazo para un mximo error de tipo I = 0.05 es 1.96, y como es una prueba
de dos colas rechazaremos H0, cuando el valor calculado de Z sea < -1.96 o > +1.96
. En nuestro caso -2.14 < -1.96 y entonces rechazo H 0 y puedo afirmar que existe
suficiente evidencia para sostener que la proporcin de insectos parasitados es diferente.
Podemos observar adems que si nuestra hiptesis H1 hubiera sido que el insecto B tiene
una mayor proporcin de parasitismo que A. La prueba habra sido de una cola, el valor
crtico habra sido 1.64, y nuevamente habramos rechazado H0, en este caso afirmando
que existe suficiente evidencia para sostener que la proporcin de insectos parasitados es
mayor en el insecto B que en A.
x1 x 2 0
t n n 2 (n1 1) s12 (n2 1) s 22
donde sc
2
1 2
1 1
sc2 ( ) n1 n2 2
n1 n2
Ejemplo 4.-
Ejemplo 5.-
Usando el mismo caso anterior, pero ahora las desviaciones estndar son: para A
6g y para B 2g. Entonces la razn entre las varianzas es 36/4=9. Entonces no podemos
suponer varianzas iguales. En este caso:
36 33 (36 / 46 4 / 50) 2
t gl 3.23 gl 54.15 55
36 4
)
y los grados de libertad: (36 / 46) 2 (4 / 50) 2
(
46 50 46 1 50 1
Entonces con = 0.05 y una cola el valor crtico de t es aproximadamente 2.
Como 3.23 > 2, entonces nuevamente rechazamos H0 y la interpretacin es la misma.
Este caso es equivalente a una dcima para promedio de una muestra. Se crea la
variable auxiliar d = x1-x2, se calcula su promedio d y su desviacin estndar sd . Las
hiptesis en este caso son referidas al parmetro D = 1- 2. Por ejemplo, proponer que
H1: 1> 2, es equivalente a H1: D > 0. Entonces el test de hiptesis a usar es:
d
t n 1
sd / n
Ejemplo 6.-
88
Se piensa que un frmaco baja la presin arterial. Entonces se estudian 10
individuos, tomndole la presin diastlica antes y despus de la administracin del
frmaco obteniendo:
Entonces se pueden plantear las hiptesis de una cola: H 0: D 0 vs H1: D > 0, ya que
pensamos que la presin antes debe ser mayor que despus ( 1> 2 , o D = 1- 2 > 0).
7 .8
Calculamos el valor del estadgrafo: t 9
3.79 . Como, para = 0.05 el valor
6.5 / 10
calculado de t (3.79) es mayor que el valor crtico de t, con 9 grados de libertad y una
cola (1.83), rechazamos H0 y entonces podemos afirmar que efectivamente el frmaco
baja la presin arterial.
Para que las dcimas tengan real validez, se deben cumplir ciertos supuestos
bsicos que provienen del uso de ciertas distribuciones como una t de Student o una
normal estandarizada Z = N(0,1). Las dcimas para una y dos muestras deben cumplir
algunos o todos los siguientes supuestos:
i) independencia
ii) normalidad
iii) homocedasticidad
s M2
F( n 1),( n 2 1)
2 2
2 , donde SM representa la varianza mayor y Sm la menor.
1
sm
Ejemplo 7.-
Poblacin A B
Nmero de rboles 46 68
Altura promedio 3.5 m 4.3 m
Desviacin estndar 0.6 m 1.26 m
Planteamos la hiptesis H1 que los rboles de la poblacin B son ms altos que los
de la poblacin A. Entonces, en trminos estadsticos H 0:B A vs H1: B > A, por lo
90
que es una hiptesis de promedios, de una cola, para dos muestras. Surge entonces la
pregunta puedo considerar las varianzas iguales? Entonces, antes de preocuparme por
mi hiptesis principal, planteo las hiptesis: Ho: 21 = 22 (homocedasticidad) vs. H1: 21
22 y aplico el test: F67,45 =(1.26)2/(0.6)2 = 4.41 y comparo este valor con el valor crtico
de la distribucin F, con 67 grados de libertad en el numerador y 45 grados de libertad
en el denominador: 1.62. Como 4.41 > 1.62, entonces rechazo la homocedasticidad (H 0)
y deber considerar las varianzas como diferentes.
1. Un cierto tipo de cncer tiene habitualmente una letalidad (nmero de muertos por
cada cien enfermos) de 30. Se experimenta una nueva droga en 80 casos, en los
cuales se producen 15 defunciones. Qu puede decir usted sobre la eficiencia de la
droga?
a) Seale la hiptesis de trabajo.
b) Seale el nivel de significacin.
c) Realice la prueba de significacin estadstica. R: Z = -2.19
d) Saque conclusiones. R: La droga disminuye la letalidad.
3. Habitualmente la ictericia fisiolgica del recin nacido dura 3.8 das. Al tratar a 100
nios con fototerapia, el perodo ictrico dura 2.8 das con una desviacin estndar de
2.7 das. Es la fototerapia un tratamiento efectivo contra la ictericia?.
R: t99 = -3.7; la fototerapia es efectiva.
Controles Tratadas
68 66
21 29
100 50
48 77
46 110
7 55
5 91
57 90
96 114
138 50
R: t9 = 0.89. No hay evidencias de variaciones de concentracin.
92
5. Se ha observado que la administracin de dosis bajas de aspirina en pacientes
sometidos a dilisis renal disminuye la frecuencia de trombosis. As, en pacientes a
los que se les administr un placebo presentaron trombosis en un 70% de los casos y
en aquellos que recibieron aspirina, se observ trombosis slo en el 50% de los
casos.
a) Si el nmero de pacientes es de 30 para ambos grupos, cul sera su conclusin
respecto al efecto de la aspirina?
b) Si el nmero de pacientes es 60, cul sera ahora su conclusin?
R: a) Z = -1.58, no hay evidencia; b) Z = -2.24, la aspirina reduce el riesgo de trombosis.
7. La contraccin (en mm) de los teros de 8 ratas usando dos hormonas distintas (A y
B) es la siguiente:
Existe efecto diferencial entre las dos hormonas? Use nivel de significacin del 1%.
R: t7 = 1.79; no hay evidencias de efecto para el nivel 1%.
8. Se desea saber si una determinada dieta produce o no aumento de peso. Para ello se
toma una muestra de 7 individuos, los cuales son pesados antes de iniciar la dieta y
despus de 3 meses de seguirla rigurosamente. Los resultados (en kg) son los
siguientes:
3 110 104
4 80 78
5 95 94
6 83 75
7 91 91
Existirn evidencias para suponer que esta dieta produce una disminucin
significativa del peso? (Use nivel de significacin del 1%).
R: t6 = 3.24; si hay evidencias de reduccin de peso.
Existe diferencia en la longitud del pelo entre ambas poblaciones? (pruebe los
supuestos y elija la dcima adecuada).
R: t38 = 1.77; no hay evidencias de diferencias.
11. Mientras paseaba por el parque, un seor se puso a contar el nmero de perros que
eran sacados a pasear por sus dueos. Los siguientes datos corresponden al nmero
de perros por persona, separando hombres de mujeres, obtenidos en esta productiva
tarde de ocio.
Hombres: 1-1-2-2-2-3-3-3-3-4-4-6-9
Mujeres: 1-1-1-2-2-2-2-2-2-3-35
Suponiendo que los datos son normales, determine si existe diferencia en el nmero
de perros sacados a pasear entre hombres y mujeres
R: t23 = 1.63; p = 0.059.
12. En un anlisis qumico de las aguas del ro Mapocho, se encontr que los valores de
concentracin de coliformes fecales presentaban mayor variabilidad cuando eran
tomados durante la maana que durante la tarde. La muestra tomada en la maana
94
presento una varianza de 23 mg2/mL2 (N=15) y la muestra de la tarde, una varianza
de 20 mg2/mL2 (N=20). Tienen razn los investigadores?.
R: no.
95
VII.1.- La distribucin 2
Veamos esto de otra forma. Supongamos que en una muestra de N individuos hay
N1 mujeres y N2 hombres y que a priori esperamos que la mitad fueran mujeres, entonces
o1 = N1, o2 = N2, e1 = N/2 = e2 y entonces X2 = (N1-N/2)2/(N/2) + (N2-N/2)2/(N/2) =
= (N1-N2)2/N = 4N(N1-N2)2/4N2 = [(N1-N2)/2N]2/(1/4N) = (N1/N 1/2)2/[((1/21/2)/N)]2
= [(p- P)/(PQ/N)]2 = Z2.
Tablas de contingencia
A B C Total marginal
Enfermos
No enfermos
C1 C2 ...... Ct T. marginal
R1 N1,1 N1,2 ...... N1,t N1,0
R2 N2,1 N2,2 ....... N2,t N2,0
.. .......
Rr Nr,1 Nr,2 Nr,t Nr,0
T. marginal N0,1 N0,2 ........ N0,t N0,0
Es fcil darse cuenta que si todos los N se comportan en forma homognea en las
distintas columnas (C), entonces se cumple que las proporciones en cada columna deben
ser semejantes a las proporciones en los totales marginales. Por ejemplo debera ocurrir
que N1,1/ No,1 N1,o/ No,o.
Entonces si la respuesta es homognea los valores esperados para cada celda se
pueden determinar como: ei,j = (Ni,o/No,o)No,j.
Existen dos tipos de diseos experimentales que conducen a una tabla de doble
entrada. En el primero se tomas muestras aleatorias sin regular los totales marginales de
ninguna de las dos entradas y lo que interesa es saber si existe asociacin entre las
variables de clasificacin (entradas) o independencia. En este caso Ho: independencia
vs. H1: asociacin. En cambio en el segundo se escoge una muestra de un mismo tamao
determinado para cada nivel de una primera entrada (total marginal regulado), y en cada
97
una se determina el nmero que se encuentra en cada nivel de la segunda entrada. En
este ltimo caso interesa la homogeneidad de la repuesta de la segunda variable de
clasificacin, dentro de la primera. En este caso Ho: homogeneidad vs. H1: diferencia.
( o e) 2
(2r 1)( c 1) donde r es el nmero de filas y c el nmero de columnas.
i, j e
Observaciones importantes
iii) Cuando se realiza una prueba de independencia vs. asociacin, una buena
medida de la asociacin es: X2/(No,o(m-1)), donde m es el menor valor
entre r y c.
Ejemplo 1.-
Supongamos que se desea saber si existe asociacin entre el color de las flores y la
presencia de abejas. Se realiza un estudio y se obtiene:
Como el valor crtico es ahora 3.84 y 0.36 < 3.84, ahora acepto H 0 y puedo
concluir que las abejas prefieren igualmente las flores blancas y amarillas, pero evitan en
cierta medida las flores rojas.
FACTO
R1
+ - TOTAL
FACTOR 2 (+) A B A+B
FACTOR 2 (-) C D C+D
TOTAL A+C B+D N
P(X= A) = (A+C)!(B+D)!(A+B)!(C+D)!/A!B!C!D!N!.
Ejemplo 2.-
10!6!10!6!
Calculamos P ( X 8) 0.084
8!2!2!4!16!
( o e) 2
n2 p 1
e
Ejemplo 3.-
Intervalo ni
2-4 20
4-6 25
6-8 30
8-10 10
10-12 12
12-14 3
Total 100
Aqu las frecuencias relativas (ni) corresponden a las frecuencias observadas (o).
Entonces debemos calcular las frecuencias esperadas suponiendo una distribucin
normal. Mediante las tcnicas aprendidas en estadstica descriptiva podemos calcular el
promedio (6.56) y la desviacin estndar (2.74). A continuacin debemos calcular las
probabilidades de que un valor de la variable pertenezca a cada intervalo. Por ejemplo
102
P(2x4) = P((2-6.56)/2.74 z (4-6.56)/2.74) = 0.1277. P(4x6) =0.2445; P(6x8)
= 0.2778; P(8x10) = 0.1977; P(10 x12) = 0.0799 y P(12 x14) = 0.0204.
Entonces las frecuencias esperadas son respectivamente:0.1227x100 = 12.3; 24.5; 27.8;
19.8; 8.0 y 2.0 .
Entonces como el valor crtico para tres grados de libertad y = 0.05 es 7.81, y el
valor calculado 12.36 > 7.81, rechazamos la hiptesis de nulidad. Es decir esta variable
no tiene distribucin normal.
n ( p p)
en donde p i ni p1 / n
i i
2
n 1
1
pq
Para iliustrar esta prueba consideremos por ejemplo que en n ensayos de Bernoulli
se obtuvieron f1 xitos y f2 fracasos y nos preguntamos si estas frecuencias corresponden
a las frecuencias esperadas de acuerdo a un cierto criterio, por ejemplo si estn en
relacin a:b. Si fuera as la probabilidad de un xito sera p = a/(a+b) y de fracaso q = b/
(a+b). Sin embargo, las proporciones observadas son: p f1 /( f1 f 2 ); q f 2 /( f1 f 2 ) .
f1 f2
f f
L 1 2 , y sacando logaritmo natural:
f f
1 2
a
ln( L) f1 ln( f1 / f1 ) f 2 ln( f 2 / f2 ) ... f i ln( f i / fi )
Entonces G = 2x5.48 = 10.96 y como sigue una distribucin 2, en este caso con 1
grado de libertad, es fcil ver que p << 0.01 y entonces rechazamos H0.
105
1. Un peluquero quiere saber si el color de pelo es dependiente del sexo de las personas
o no. Por eso acude a usted con una serie de datos sobre el sexo y color de pelo de sus
clientes (ver tabla adjunta), y le pide que por favor le resuelva su duda. Qu le dira
usted al peluquero?.
R: 23 = 8.99; p < 0.05. Existe asociacin entre el color del pelo y el sexo.
Cromosoma CD
St/St St/B1 B1/B1
Td/Td 22 96 75
Cromosoma EF St/Td 8 56 64
St/St 0 6 6
R: No. Son independientes. 24 = 6.3; p > 0.05
En esta prueba se comparan dos muestras [xi] e [yi] y se define una diferencia
poblacional i = xi-yi = + i, donde i representa el error de muestreo. Entonces las
hiptesis pueden ser a) Ho: = 0 vs H1: 0, b) Ho: 0 vs. H1: > 0 o c) Ho: .0
vs. H1: < 0. Se define adems di como la diferencia muestral di = xi-yi y una variable
auxiliar bi que es 0 si di 0 y 1 si di > 0.
El estadgrafo es: B bi
Ejemplo 1.-
Se propone que el frmaco baja la presin, es decir Ho: 0 vs. H1: > 0.
Entonces creamos las variables auxiliares d = x1-x2 y b, Obteniendo:
di Ri
-5 5
3 3
0 1
-1 2
4 4
Este valor se compara con un valor crtico tabulado Tc(,n). Si Ho es del tipo a)
rechazamos Ho si T Tc(,n) o s T n(n+1)/2 - Tc(,n), si es del tipo b) rechazamos
Ho si T Tc(,n), y si es del tipo c) cuendo T n(n+1)/2 - Tc(,n).
Ejemplo 2.-
En este caso tenemos dos muestras independientes [xi] e [yi] de tamaos n1 y n2.
Se propone que xi = i y que yi = i + , donde i es el error experimental y da cuenta
de las diferencias (efecto del tratamiento). Como antes, las hiptesis pueden ser a) Ho:
= 0 vs H1: 0, b) Ho: 0 vs. H1: > 0 o c) Ho: .0 vs. H1: < 0.
En este caso, se ordenan todos los valores juntos ( de las dos muestras) y se les
asigna un rango (Ri) y se consigna el estadgrafo:
no
T1 Ri
1
Aqu es importante indicar que la suma se realiza sobre aquella muestra de tamao
no que tiene el menor rango promedio.
Ejemplo 3.-
Dcima de McNemar
Como vemos en esta tabla slo las celdas C y B muestran el cambio (efecto)
producido por el factor de estudio. Y bajo la hiptesis de nulidad de efecto se espera que
C = B = (B+C)/2. Por lo que con estos valores esperados para stas celdas se puede
realizar un prueba 21 que despus de algn trabajo algebraico se reduce a:
(B C )2 ( B C 1) 2
12 o 2
si se quiere corregir la distorsin provocada por aplicar
(B C ) (B C)
1
Ejemplo 4.-
( 8 2 1) 2
Calculamos: 12 2 .5 y como el valor crtico para = 0.05 es 3.84 y
(8 2)
2.5 < 3.84, aceptamos H0. Es decir la campaa no tuvo xito.
114
X (antes) Y (despus) di bi
175 140
179 143
165 135
170 133
160 162
180 150
177 182
2. Se realiza una investigacin sobre los efectos del ejercicio fsico sobre pacientes
cardipatas, midiendo el mximo de oxgeno consumido por cada paciente antes de
comenzar el entrenamiento y despus de seis meses de rgimen. Se obtuvieron los
siguientes datos (suponga simetra):
EN EL TERO En la leche
0.12 0.19
0.19 0.21
0.17 0.21
0.20 0.23
0.09 0.20
0.13 0.22
0.21
Indican estos datos, a un nivel =0.05, que el contenido protenico total tiende a ser
menor entre las ratas privadas de la sustancia X en el tero que entre las privadas de ella
en la leche?
N
k
2
K 1 2 3 5 10
P(al menos 0.05 0.09 0.14 0.23 0.4
1 en Ek)
TEMPERATURA
BAJA MEDIA ALTA
HUMEDAD ALTA ------- ------- --------
BAJA ------- ------- --------
Cuando los niveles de un factor son todos los posibles, en general fijados por el
experimentador se dice que se trabaja con un modelo tipo I o de efectos fijos, cuando
los niveles son slo una muestra de las categoras posibles se dice que es un modelo II o
de efectos aleatorios. Cuando en algunos factores es de un tipo y en otros de otro, es un
modelo mixto. As por ejemplo, si nos interesa el efecto de la altitud sobre el
metabolismo, y escogemos tres localidades a diferentes alturas, se trata de un modelo de
tipo II, pues las localidades son slo una muestra de todas las posibles alturas. Si en
cambio estudiamos una variable frente a tres condiciones experimentales fijadas por el
investigador, entonces es un modelo de tipo I.
119
En este caso, el ms simple, se tiene un factor con varios niveles y una variable
respuesta. Como slo hay un factor, los niveles coinciden con los tratamientos.
Supuestos Los supuestos son normalidad de la variable respuesta, que se puede probar
mediante una prueba de bondad de ajuste de 2 o bien Kolmogorov-Smirnov;
independencia que debe asegurarla el investigador mediante un muestreo adecuado; y
homocedasticidad que se puede probar mediante una dcima de Bartlett o bien una
dcima de Hartley, habitualmente disponibles en los programas estadsticos
computacionales.
Modelo El modelo que se plantea es que cada valor de la variable repuesta y ij se puede
expresar como la suma entre un promedio paramtrico poblacional , un efecto
provocado por el tratamiento (i ) y el error experimental o residual (ij) Esto se
conoce como el supuesto de aditividad. De esta manera i = i -, mide el efecto
provocado sobre yij por el tratamiento. El modelo se escribe:
yij = + i + ij
FACTOR
T1 T2 ..... Tt TOTAL
y11 y21 ..... yt1
y12 y22 ..... yt2
.... ..... ...... .....
y1n y2n ....... ytn
TOTALES Y1o Y2o ..... Yto Yoo
PROMEDIOS y1o y2o ..... yto yoo
El esquema general del ANOVA es una tabla que incluye sucesivamente las
fuentes de variacin (FV), las sumas de cuadrados (SC), los grados de libertad (que
corresponden a los denominadores de las varianzas), las varianzas, cuadrados medios o
medias cuadrticas (CM), el valor del estadgrafo F y la probabilidad de error I (p). En
un ANOVA de una va, balanceado (igual tamao muestral en cada tratamiento), sta es:
FV SC Gl CM=SC/gl F P
T (entre) (Y 2
i0 / n) Y / nt
2
00 t-1 F =
i
CME/CMD
(dentro o yij Yi 0 / n t(n-1)
2 2
ij i
error)
TOTAL yij2 Y002 / nt
ij
nt-1
Como dato prctico, observamos que para los clculos en una tabla de ANOVA, se
necesitan tres clculos sencillos:
121
(Y
i
2
i0
/ n) y
i, j
2
ij Y002 / nt
Es posible demostrar que el valor esperado o esperanza del cuadrado medio del
error (dentro) es E[CMD] = 2, es decir es la varianza poblacional. Adems si el modelo
del diseo es de tipo I E[CME] = 2 + n (i-)2/(t-1) = 2+() y si es de tipo II
E[CME] =2+n2 .La interpretacin de esto es que se espera que la desviacin
cuadrtica entre tratamientos sea similar a la desviacin cuadrtica dentro de
tratamientos ms un componente aadido por los tratamientos (efecto del tratamiento).
Ejemplo 1.-
A B C
110 100 80
100 90 76
90 86 82
85 97 88
90 100 84
100 96 78
(Y
i
2
i0 / n) (575 2 569 2 4882 ) / 6 148755
y
i, j
2
ij
110 2 1002 ..... 1002 902 .....802 762 ...782 149430
FV SC Gl
CM=SC/gl F2,15 P
T (entre) i (Y / n) Y / nt
2
i0
2
00 787/2 = t-1 = 2
F =
= 393.5 CME/CMD
=148755-147968 = = 393.5/45 =
787 = 8.74
(dentro o yij Yi 0 / n t(n-1) = 675/15 =
2 2
ij i
error) 15 = 45
= 1462 787 = 675
TOTAL ij
yij2 Y002 / nt nt-1 = 1462/17 =
17 = 86
=149430-147968 =
1462
El valor crtico de F2,15 con = 0.05 es 3.68, y como el valor calculado 8.74 >
3.68, entonces rechazo H0 y al menos un par de promedios es diferente. Obviamente,
mirando los datos, el grupo C tiene presiones claramente diferentes de los otros dos.
Siguiendo el rigor estadstico, a continuacin habra que hacer comparaciones mltiples
a posteriori.
Transformaciones
123
dy
T f ( y) cuya varianza y esperanza son independientes. El resultado es una
( y )
En general el ANOVA no termina con el rechazo de Ho. Con esto slo sabemos
que existe un efecto de los tratamientos sobre la variable respuesta. Sin embargo a
menudo (sobre todo en modelo de efectos fijos) interesa saber cul o cuales de los
tratamientos produce el efecto. En este caso es necesario realizar comparaciones
mltiples. Estas son de dos tipos: i) definidas a priori o no sugeridas por los datos e
ii) definidas a posteriori. Aqu es importante notar que a priori o a posteriori no se
124
refiere a si se ha hecho o no primero el ANOVA, sino al diseo experimental. A veces
por diseo slo interesa comparar los tratamientos contra un control (a priori), o slo
realizar las comparaciones relevantes (a priori). En cambio otras veces nos interesan
todas las comparaciones para interpretar despus (a posteriori).
Comparaciones a priori
cij
Lineal -1 -1 1 1
Cuadrtica -1 1 1 -1
Cbica -1 1 -1 1
El estadgrafo adecuado para probar la hiptesis es una t de Student con los grados
de libertad del error (tgle):
Lj
t gle
CMD ci2 / ni
Prueba de Dunnet Muchas veces la idea del diseo es comparar los tratamientos
contra un tratamiento control. En este caso el estadgrafo adecuado es t d(t,gle,) de
Dunnet (existen tablas especiales):
125
yi 0 ycontrol
td
2CMD / n
L2
Ft 1, gle
(t 1) CMD ci2 / ni
Comparaciones a posteriori
Existen muchas pruebas para hacer comparaciones mltiples, sin embargo son dos
las ms utilizadas. Ambas estn basadas en la distribucin del rango Studentizado: Q
= (xmax-xmin)/sx.
yi 0 y j 0
Qt , gle
1 1
(CMD / 2) ( )
ni n j
Ejemplo 2.-
95.8 94.8
Q3,15 0.149
45
95.8 81.3
Q3,15 2.16
45
94.8 81.3
Q3,15 2.01
45
yijk = + i + j + k(ij)
Sin embargo, cuando existen dos factores, existe la posibilidad de que stos
provoquen un efecto conjunto sobre la variable respuesta. Por ejemplo es posible que el
factor 1 haga aumentar el valor de la variable respuesta, pero que al incorporar el factor
2 este efecto se potencie, o, a la inversa se inhiba. En este caso se habla de la existencia
de interaccin entre los factores. La variabilidad proveniente de la interaccin ()
puede ser aislada y docimada en forma independiente. En este caso el modelo se escribe:
yijk = + i + j + ij + k(ij)
127
La interpretacin de la interaccin queda clara en la siguiente figura.
En esta figura se muestra la variable respuesta (y) frente a dos factores. El factor 1
(A) con los niveles a1 y a2, y el factor 2 (B) con los niveles b1 y b2. En los grficos
superiores no existe interaccin, pues la respuesta es paralela. En el caso de la izquierda
existe efecto de ambos factores A y B sobre y, en el de la derecha slo del segundo
factor (B). En los grficos inferiores si existe interaccin. En el grfico de la derecha,
existe un aumento de y a causa de cada factor, pero este aumento se potencia en
presencia del segundo nivel del factor 2 (B). En el grfico de la izquierda existe
interaccin que podramos llamar paradojal: en el nivel a1 el factor 2 disminuye y,
pero ocurre lo contrario en el nivel a2 (en este ltimo caso lo ms probable es que el test
no arroje significacin ni en el factor 1, ni en el factor 2, pero s efecto de interaccin.
A B C
W 3 7 2
4 8 3
128
5 9 1
4 8 3
3 7 3
Z 2 4 1
3 3 2
2 4 2
1 3 2
2 2 1
Valores promedio:
A B C
W 3.8 7.8 2.4
Z 2.0 3.2 1.6
F de V SC Gl CM F P
Localidad 66.1 2 33.0 53.6 << 0.001
Especie 43.2 1 43.2 70.1 << 0.001
Interaccin 19.4 2 9.7 15.7 << 0.001
Error 14.8 24 0.62
Total 143.5 29
Del anlisis se desprende que existen diferencias entre las especies, existen
diferencias entre las localidades y este efecto no es parejo en cada especie (existe
interaccin).
C Z {6} x
B1 T1 T3 T2
B2 T3 T2 T1
B3 T2 T1 T3
130
Diseo de medidas repetidas A veces es necesario que los tratamientos los reciba
el mismo individuo u otra unidad de anlisis dependiente de la anterior. Por ejemplo 4
individuos (I) expuestos a tres estmulos (T):
T1 T2 T3
I1
I2
I3
I4
Observamos que es el mismo individuo el que recibe los tres tratamientos. En este
tipo de diseo es necesario excluir a los individuos de respuesta extraa (out-group)
pues violan un supuesto de este diseo: la simetra compuesta. Esta ltima junto a la
homocedasticidad constituyen el supuesto de esfericidad.
T1 T2 T3
N1 N2 N1 N2 N1 N2
Observamos que siempre el nivel encajado debe ser de tipo aleatorio (modelo II) y
que no se puede hacer una tabla de doble entrada porque los niveles N1 y N2 son slo
referenciales, por ejemplo, N1 puede ser el 5to piso en T1 y ser el 3er piso de T2. Si el
primer factor es de tipo aleatorio, se habla de un diseo anidado puro. Si el primer factor
es de tipo fijo (modelo I), entonces las unidades experimentales son los niveles del
factor encajado y las rplicas constituyen sub-muestras.
Estos son dos diseos especiales que a veces es necesario usar y se pueden
representar en las siguientes tablas.
131
El cuadrado latino considera un doble bloque (B y b), con sus respectivos niveles:
b1 b2 b3
B1 T1 T2 T3
B2 T2 T3 T1
B3 T3 T1 T2
B1 T1 t1 T3 t1 T2 t1
t2 t2 t2
B2 T3 t1 T2 t1 T1 t1
t2 t2 t2
B3 T2 t1 T1 t1 T3 t1
t2 t2 t2
N ( N 1) 1 n j
R0 j R0 k
Q , ,t
n( nt )( nt 1)
12
12
t2 R02 j 3b(t 1)
bt (t 1) j
R0 j R0 k
Q , ,t
b(t )(t 1)
12
Otras alternativas Existen algunas alternativas no paramtricas para una y dos vas
cuando la hiptesis H1 incorpora una tendencia u ordenacin (i.e: H 1: t1 <t2 < t3 ). En
este caso se usa para el caso de una va la prueba de Jonckheere y para dos vas la
prueba de Page. Cuando se tiene un diseo ms complejo se realiza un ANOVA sobre
rangos.
133
Ejercicios de anlisis de la varianza
A B C
1.11 2.20 0.50
1.23 1.90 0.94
0.90 2.00 0.78
0.95 1.70 0.38
1.00 1.54 0.50
1.10 1.88 0.50
1.20 1.90 0.68
1.30 2.05 0.62
1.10 1.70 0.40
RESUMEN
Grupos Cuenta Suma Promedio Varianza
Lago 1 6 192.5 32.08 10.27
Lago 2 6 241.4 40.23 6.40
Lago 3 6 264.5 44.08 9.49
Lago 4 6 246.6 41.10 13.44
Lago 5 6 349.8 58.30 9.22
ANLISIS DE VARIANZA
Origen de las variaciones SC gl CM F P FC
Entre grupos 2193.44 4 548.36 56.15 3.95E-12 2.759
Dentro de los grupos 244.13 25 9.77
Total 2437.57 29
A B C
2 6 1
3 7 2
2 8 2
4 7 3
5 8 6
R: Existen diferencias; F2,12 = 14,6; p < 0.05. La variable x responde igual en las
situaciones A y C, pero es mayor en la situacin B.
135
X.1.- Correlacin
COV [ X , Y ]
V [ X ] V [Y ]
r
( x x )( y y )
i i
x yi i nx y
( x x ) ( y y)
i
2
i
2
( x nx )( yi2 ny 2 )
i
2 2
r n2
t n 2
1 r2
X.2.- Regresin
Por ejemplo si a una relacin potencial del tipo Y = aXb le aplicamos logaritmo,
se obtiene logY = loga +blogX, y llamando w = logY, z = logX y c = loga, se obtiene la
recta w = c + bz. En el caso de una exponencial Y = C(e bX), tomando logaritmo natural
se obtiene lnY = lnC + bX y llamando w = lnY y c = lnC, se obtiene la recta w = c + bX.
El problema bsico consiste en buscar una recta que minimice las desviaciones
desde cada punto a dicha recta. Si suponemos que esta recta tiene una pendiente B 1 y un
intercepto Bo, entonces tendremos para cada xi un yi = B1xi+Bo que estima el valor real
de yi (ver figura). A la diferencia entre yi e yi: ei = yi-yi la llamamos residuo.
Observamos que la raz de la suma sobre i del residuo elevado al cuadrado: D =
( y y ) tiene la estructura de una distancia y entonces interesa la pregunta: para
i
'
i
2
B1
x y / n xy
i i
x /n x
2
i
2
139
Y adems: B0 y B1 x
S yx2 1 x ei2
V [ B1 ] y V [ B0 ] S yx ( n donde S yx2
2
)
(x i x)2 ( xi x ) 2 n2
B*
tn2
V [ B* ]
e 2
i
( yi yi' ) 2 ( yi y y yi' ) 2 ( yi y ) 2 ( yi' y ) 2 , lo que ordenado de otra
forma queda:
(y i
y ) 2 ( yi yi' ) 2 ( yi' y ) 2
Fuente de SC Gl CM F1,n-2 P
variacin
Modelo ( yi' y ) 2 B12 ( xi2 nx 2 ) 1 SC/gl CMmodelo/CMresiduo
(Regresin)
Residuo (por diferencia) n-2 SC/gl
= Syx2
Total ( y i
y ) 2 yi2 ny 2 n-1
SCregresi n
R2
SCTotal
Ejemplo 1.-
X 1 2 3 4 5 6 7 8 9 10
Y 2 5 6 7 9 13 15 15 19 20
X Y X2 Y2 XY
1 2 1 4 2
2 5 4 25 10
3 6 9 36 18
4 7 16 49 21
5 9 25 81 45
6 13 36 169 78
7 15 49 225 105
8 15 64 225 120
9 19 81 361 171
10 20 100 400 200
Total 55 111 385 1575 770
Promedio 5.5 11.1 38.5 157.5 77.0
77.0 5.5 11 .1
B1 1.93 y B0 11 .1 1.93 5.5 0.485
38.5 5.5 2
Fuente de SC Gl CM F1,8 P
142
variacin
Modelo 1.93 (385 10 5.5 ) 307.30
2 2
1 307.3 69.1 << 0.01
(Regresin)
Residuo = 342.9-307.3 = 35.6 10-2= 8 Syx2= 4.45
Total 1575 10 11 .12 342.9 10-1= 9
Por otra parte debemos observar que a partir del valor de F = 69.1 se puede
deducir el valor que habra tenido la t de Student si la hubisemos usado para probar la
misma hiptesis. Esta es simplemente: t = 69.1 = 8.3, y conduce exactamente al mismo
valor de probabilidad de error I (p).
X.4.- Predicciones
1 ( xk x ) 2
IC1- : y k t n2 S yx 1
'
n xi2 ( xi ) 2 / n
Prediccin del valor y para xk En este caso el intervalo de confianza est dado
por:
1 ( xk x ) 2
IC1- : y k t n2 S yx
'
n xi2 ( xi ) 2 / n
Ejemplo 2.-
143
1 (15 5.5) 2
29.435 1.86 2.1 29.435 10.94
10 385 (55) 2 / 10
in
6 d i2
rs 1 i 1
n n
3
Factor A
A1 A2 A3
Y X Y X Y X
yij i 1 ( xij x ) ij
Talla al 36 38 42 44 45 48 50 51 52 53 54 55 56 58
nacer
(cm)
Estatura 1.58 1.64 1.70 1.65 1.65 1.70 1.72 1.76 1.72 1.82 1.80 1.86 1.90 1.88
final
(m)
2. Se piensa que los grados de conciencia (GC: del 1 al 10) despus de un TEC estn relacionados con
la edad del paciente accidentado. Se realiza un estudio y se obtiene:
Edad 26 34 45 48 57 62 70 72 76 78 80 87
GC 10 8 10 9 7 10 5 4 4 3 1 2
R: Correlacin; r = -0.86; t10 = -5.33; p < 0.05; R =-0.89; t 10 = -6.26; p < 0.05.
Efectivamente, estn asociados negativamente, a mayor edad, menor grado de
conciencia despus de un TEC.
147
n
f donde n es el tamao muestral y N el tamao poblacional.
N
149
Por ejemplo cuando se realiza un muestreo aleatorio simple y se estima un
promedio poblacional ( Y ), entonces el promedio muestral y es un estimador insesgado
s2 N n s2
de Y , pero su varianza es V [ y] ( ) (1 f ) de manera que ahora el error
n N n
s2
estndar es Es (1 f ) . Naturalmente los intervalos de confianza varan en forma
n
semejante.
pq pq
V [ p] (1 f ) y entonces, Es (1 f )
n 1 n
El clculo del tamao muestral corresponde a una estimacin previa del tamao
necesario que debe tener una muestra para cumplir ciertos requisitos. Conviene notar
que es slo una estimacin previa y no una frmula exacta y que en general, requiere de
un conocimiento previo de algunas caractersticas de la muestra, por ejemplo la
varianza.
Las frmulas para el clculo del tamao muestral son para usarse a priori, es decir
antes de realizar el experimento. Despus de realizado ste, si se logr rechazar la
hiptesis de nulidad, la pregunta del tamao muestral es irrelevante pues la bondad de la
muestra queda medida a travs de la probabilidad de error de tipo I (p).
Entonces, por ejemplo si se desea buscar el tamao muestral con una precisin d y
una confianza C = 1- para estimar una proporcin P, es obvio que d = z /2(PQ/n), es
decir, despejando n, el tamao muestral adecuado es:
Z 2 / 2 PQ
n
d2
Tamao muestral para comparar una proporcin con otra prefijada (una muestra)
El tamao muestral adecuado para realizar una dcima de este tipo se puede
calcular definiendo previamente la precisin (d), el nivel de significacin () y el error
de tipo II () o la potencia de la dcima (K = 1-). Si uno fija 2 cualesquiera de stos
parmetros a priori se puede obtener el tercero mediante la relacin:
p0 q0 ( Z * Z ) 2
n 2
, donde * es /2 para pruebas de 2 colas y para una cola.
d
Tamao muestral para comparar un promedio con otro prefijado (una muestra)
En forma anloga al caso anterior el tamao muestral adecuado para realizar una
dcima de este tipo se puede calcular definiendo previamente la precisin (d), el nivel de
significacin () y el error de tipo II () o la potencia de la dcima (K = 1-). Si uno fija
2 cualesquiera de stos parmetros a priori se puede obtener el tercero mediante la
relacin:
s 2 (Z* Z ) 2
n 2
, donde * es /2 para pruebas de 2 colas y para una cola..
d
2sc2 (Z * Z ) 2
n , donde * es /2 para pruebas de 2 colas y para una cola. En
d 2
El tamao muestral adecuado para realizar una dcima de este tipo se puede
calcular definiendo previamente la precisin (d), el nivel de significacin () y el error
de tipo II () o la potencia de la dcima (K = 1-). Si uno fija 2 cualesquiera de stos
parmetros a priori se puede obtener el tercero mediante la relacin:
sd2 (Z* Z ) 2
n 2
, donde * es /2 para pruebas de 2 colas y para una cola..
d
Tamao muestral para el anlisis de varianza Al igual que en el caso de dos
muestras, es posible relacionar el tamao muestral, la potencia y la precisin. Sin
embargo, en el ANOVA en general es preferible usar una funcin auxiliar que se
relaciona en forma creciente con la potencia K (a mayor, mayor K). Esta funcin se
define como:
nd 2
2ts 2
(t 1)(CME CMD )
p
t CMD
152
XII.- ESTADISTICAS VITALES
Las tablas de vida son instrumentos que permiten resumir las caractersticas de
una poblacin de manera fcil y adems permiten extrapolar parmetros de utilidad para
predecir el comportamiento poblacional. Estas son de dos tipos: i) de seguimiento de
cohortes (horizontal) o ii) de estructura de edades en un momento dado (transversal o
vertical).
N
lx: proporcin de sobrevivientes al inicio de la edad x; l x N
x
d (l x l x 1 )
qx: probabilidad de morir entre la edad x y x+1; q x N
x
lx
. A veces es til
x
(l x l x 1 )
Lx: cantidad de tiempo vivido (por todos los individuos) entre x y x+1; Lx
2
T
ex: esperanza de vida a la edad x: ex l
x
x lx
153
Parmetros derivados:
Ro: Tasa reproductiva neta o bsica de una poblacin. Esta representa la contribucin en
nmero de cras que deja una hembra de una generacin a la siguiente;
R0 l x m x
0
e0: Esperanza de vida al nacer. Esta representa la edad que se espera que viva un
individuo de acuerdo a los parmetros poblacionales (rgimen demogrfico) imperantes;
e0 = e0.
G: Tiempo generacional. Este corresponde al tiempo promedio que dura una generacin;
yl mx x
G x
En este caso y representa la edad media en el intervalo.
R0
Ejemplo 1.-
E Y Nx lx dx qx Lx Tx ex mx lxmx Vx Xlx
mx
0 0. 1000 1 0 0 1 4.1 4.1 0 0 0 0
154
5 9 9
1 1. 1000 1 10 0.0 0.9 3.1 3.1 0 0 0 0
5 1 9 9 9
2 2. 990 0.9 160 0.1 0.9 2.1 2.2 13266 13133 2335 3283
5 9 6 1 9 1 7 3
3 3. 830 0.8 320 0.3 0.6 1.2 1.5 9877 8197 1203 2869
5 3 9 7 9 4 7 2
4 4. 510 0.5 150 0.2 0.4 0.6 1.2 2346 1196 4685 5384
5 1 9 4 1 1
5 5. 360 0.3 360 1.0 0.1 0.1 0.5 1656 596 1656 3278
5 6 0 8 8
6 6. 0 0 0 0 0
5
Ro = 23123 G= 3.035
Es decir esta poblacin de insectos es capaz de dejar 23123 nuevos insectos por cada
hembra, cada 3.035 das. Adems cada uno de stos insectos tiene una esperanza de vida
al nacer de 4.19 das.
t
(Oi Ei ) 2
2
t 1
1 Ei
Ejemplo 2.-
(7 4.23) 2 ( 4 6.75) 2
1
2
2.93 y como el valor crtico es 3.84 y 2.93 < 3.84, no es
4.23 6.75
posible rechazar H0.
Ejercicios de estadsticas vitales
Insecto A
Edad (das) NX Mx
156
0 100 0
1 79 1000
2 28 500
3 8 100
4 4 2
5 1 0
Insecto B
Edad (das) Nx Mx
0 100 0
1 79 100
2 65 500
3 60 500
4 50 2
5 2 0
Insecto C
Edad (das) Nx Mx
0 100 0
1 80 0
2 60 5000
3 40 10
4 20 0
5 1 0
XIII.1.- Bases
P
log( )
1 P
P 1
log( ) X P
1 P 1 e ( X )
2
W ( )
S
( m2 2 p )
R2 donde m2 es el valor del 2 del modelo, L(0) es el mximo valor del logito
2 L(0)
considerando slo la constante y p es el nmero de parmetros.
158
Ejemplo 1.-
I 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
X 1 2 3 4 5 6 8 12 13 14 11 12 13 14 15 16 17 18 19 20
1
P
1 e 7.27 0.61 X
1
P( I 1 / X 5) 0.0017
1 e 7.27 0.615
XIV.1.- Bases
En una serie temporal (Xt) o espacial (Xs) se tiene un conjunto discreto {t} (o {s})
que indica el tiempo en que se mide la variable y la variable {Xt}. Esta ltima depende
de dos factores: de la misma variable {X t-1, Xt-2..} (Autoregresin) y de fluctuaciones
o movimientos aleatorios {at, at-1, at-2,}. As en trminos generales se puede expresar
una serie de tiempo como:
p q
X t at i ( X t i ) i ( at i )
1 1
As, en este tipo de modelo interesa estimar los coeficientes i y i, junto a los
valores de p y q (orden).
Dada una serie de tiempo Xt con n elementos, es posible formar los (n k) pares
{Xt, Xt-k} y definir autocorrelacin, temporal o espacial segn el caso, como la
correlacin entre estos pares:
COV [ X t , X t k ]
k
V [ X t ]V [ X t k ]
(X t
X )( X t k X )
rk i 1
i n
(X
i 1
t
X)
X t 1 ( X t 1 ) at
En una serie de este tipo es posible demostrar que la FAC muestra un decaimiento
exponencial (directo o alternado segn el signo de 1), que en la FACP slo la primera
autocorrelacin parcial es diferente de 0, y adems 1 = r1. As estudiando la FAC y
FACP es posible calcular los parmetros del modelo.
X t at 1 ( a t 1 ) , adems r1 1 2
1
Por ejemplo, en un MA1:
1
162
En el grfico observamos que es evidente que los grupos A y B son diferentes, sin
embargo, el rango de X1 en A y en B y el rango de X2 en A y en B son prcticamente
iguales. Es decir la evidente diferenciacin de los grupos no es explicada ni por X 1 ni
por X2 en forma aislada, sino por la variacin conjunta de ambas, en este caso
probablemente por una combinacin lineal de X1 y X2 (aX1+bX2). En ciencias
encontramos muchos conjuntos de variables que intervienen en esta forma, lo que da
origen a los fenmenos que coloquialmente llamamos multifactoriales.
Cuando sospechamos que existe una relacin de este tipo donde probablemente
existe interaccin entre las variables medidas, estamos en el terreno del anlisis
multivariado.
164
XV.2.- MANOVA
En este caso los parntesis [] indican que se trata de matrices, los exponentes T
y -1 corresponden a la matriz traspuesta y la matriz inversa respectivamente, y []
corresponde a la matriz varianza-covarianza. La expresin (DM):
DM [ X 1 X 2 ]T []1 [ X 1 X 2 ] tiene la estructura de una distancia y se conoce como
distancia de Mahalanobis. El valor de T2 es finalmente un escalar que es posible docimar
mediante una distribucin F:
(n1 n2 p 1)T 2
Fp ,n1 n 2 p 1
( p (n1 n2 2))
y1 0 1 x1
y 2 0 1 x2
.
.
y n 0 1 xn
y1 1 x1 1
y 1 x
2 2 0 2
. .1 1 .
yn 1 xn n
166
O, en trminos ms simples: [Y ] [ X ] [] []
] [ X T X ]1 [ X ]T [Y ]
[
y1 1 .1 xx p1 0 1
y .1 xx
2 12 p2 1 2
. . . . .
y n 1n .1 xx pn p n
Lo que en trminos simples es completamente anlogo al caso de una regresin
univariada, una ecuacin lineal: [Y ] [ X ] [] [] .
] [ X ]T [Y ]
[ X T X ] [
] [ X T X ]1 [ X ]T [Y ]
[
La tabla de ANOVA:
SC mod elo
Del mismo modo que en la regresin simple, R2
SCT
rM R2
Cada uno de los elementos de esta matriz corresponde a una correlacin simple
entre dos variables en ausencia de las dems. Sin embargo al igual que el caso de los
coeficientes de regresin, surge la pregunta si cambiaran las correlaciones cuando se
consideran las dems variables.
b jh b jy
rj .h y en particular rj . y
b jj bhh b jj byy
Ejemplo 1.-
Y X1 X2 X3
2 1 2 1
4 2 3 2
6 3 4 1
8 4 5 2
10 4 6 1
12 5 7 2
14 6 8 1
171
16 7 9 2
19 8 10 1
20 9 11 2
22 10 12 1
24 11 14 2
25 12 15 1
28 13 16 2
30 14 17 1
32 15 18 2
34 16 19 1
36 17 19 2
37 18 20 1
40 19 21 2
44 20 22 1
Este anlisis tiene por objetivo descomponer la correlacin entre un predictor (Xk)
y una variable dependiente (Y) en los efectos directos sobre ella y los efectos indirectos.
O sea, los provocados a travs o por mediacin de algn otro predictor ({Xi}).
rUy2 1 R 2
b 2
si
2 bsi bsj rij ruy2 1
i j
1
P( I j ) ( j i xi )
1 e i
173
En este caso, se obtienen k funciones que solo difieren en la constante , una para
cada estado.
Tabla de Clasificacin
Predicho (+) Predicho(-) Total
Observado(+) A b A+b
Observado(-) C d C+d
Total a+c b+d N = a+b+c+d
Esta tabla es exactamente igual a las tablas usadas en diagnstico mdico, por lo
que pueden ser descritas con las medidas habituales de Sensibilidad, Especificidad,
Valores predictivos y Certeza, en este caso no de un examen, sino de la funcin logstica.
Adems es posible realizar un anlisis de concordancia.
Anlisis de concordancia
(a c)( a b) (b d )(c d )
n n (a c)( a b) (b d )(c d )
Cz
n n2
174
De esta manera, existe un rango de certeza restringido entre el valor de azar C =
Cz y la certeza mxima C = 1, que podra ser atribuible a la funcin. Entonces tiene
sentido el estadgrafo:
C Cz
1 Cz
z
C z (1 C z )
n
Ejemplo 2.-
Tabla de Clasificacin
Predicho (+) Predicho(-) Total
Observado(+) 16 2 18
Observado(-) 5 4 9
Total 21 6 27
Entonces C = 20/27 = 0.74. Los valores esperados por azar en la diagonal seran:
21x(18/27) = 14 y 6x(9/27) = 2, por lo que al azar se podra tener una concordancia de
0.74 0.5926
Cz =(14+2)/27 = 0.5926. Entonces:
1 0.5926
0.361
XVII.1.- Fundamento
i ,k
sus dos componentes clsicos, la suma de cuadrados dentro de grupo (W, de within) y
la suma de cuadrados entre grupos (B, de between), de manera que T = B + W, se
obtiene:
W ( Lik Li ) 2 y B ni ( Li L ) 2 n1n2 ( L1 L2 ) 2
i ,k i n1 n2
D B /W
Este es un resultado muy til pues por su estructura la matriz de coeficientes ([B]
o {i}) es muy similar a la distancia de Mahalanobis, por lo tanto a T 2 de Hottelling y,
entonces se puede docimar a travs de una F (ver MANOVA):
DM [ X 1 X 2 ]T []1 [ X 1 X 2 ] [d ]T []
pq
travs de {n 1 }ln(1 j)
2
j i
que se distribuye siguiendo a 2p+q-2j.
i 2
XVII.2.- Clasificacin
Ejemplo 1.-
X1 X2 X3
A 4 1 1
A 5 2 2
A 4 1 3
A 4 2 4
A 5 1 5
B 2 2 3
B 3 1 4
B 3 2 5
B 4 1 6
B 2 2 7
Este mismo problema se puede abordar con regresin logstica mltiple. En este
caso se obtiene:
1
P ( I A) con un 23 = 13.83, p = 0.0031 y una certeza del
1 e ( 5.7 10.1 X 1 0.7 X 2 7.6 X 3 )
100%.
179
XVIII.1.- Fundamentos
y k vk 1 X 1 vk 2 .......vkp ; k 1,2,... p
Xi X
Realizando la estandarizacin habitual Z i si
la relacin anterior se puede
escribir matricialmente:
[ ] [V ]T [ Z ] ,
donde la matriz [] corresponde a la matriz de coeficientes { k= yki
estandarizados}, [V] es la matriz de coeficientes {vki} y [Z] el vector de variables
estandarizadas.
[V [ ]]
0 [ I ] v k 0
v k
Es decir, los coeficientes buscados {vk} son los vectores propios asociados a cada
valor propio {i} de la matriz de correlacin entre las variables ([ ]). Adems la traza
180
de [ ] = i = p, y entonces la proporcin de la varianza que explica cada componente
k es k/p. As un componente con un valor propio menor que 1 es con toda seguridad
irrelevante.
1 / 1 . 0
[F ] 0 . 0 [V ]T [ Z ] [ L]1 / 2 [V ]T [ Z ] [ Fs ] [ Z ]
0 0 1 / p
1 1 1 1
[ FL ]
n
( Z i Z )( f i f ) T n Z i f i n Z i [ L1 / 2V T Z i ]T n VL1 / 2
Adems, como V V T L ,
[ FL ] VL1 / 2
[ Z ] [ FL ][ F ]
Esta expresin nos muestra que cada variable se puede expresar como
combinacin lineal de los componentes y los coeficientes o factor loadings muestran el
peso de la variable en dicho componente.
181
Con esta estandarizacin adems FLk2 representa la proporcin de la variabilidad
de Zk relacionada con los factores, por lo que se denomina comunalidad, y entonces la
fraccin no explicada 1- FLk2 es la especificidad de la variable.
1
{( n 1)
6
( 2 p 5)} ln que se distribuye como 2p(p+1)/2.
Adems despus del anlisis importa saber cuantos componentes son relevantes
para dar cuenta de la variabilidad total. Esto tiene una solucin muy prctica y usada:
usar todos los componentes cuyo valor propio es mayor que 1. Otra solucin es
considerar q componentes y someter a prueba si la correlacin residual es o no
diferente de 0: H0: residual 0 vs H1: residual 0 . En este caso se usa el estadgrafo:
residual
1 2 C
{( n 1) ( 2 p 5) q} ln C donde q p j p q
6 3
1
j (
pq
)
Ejemplo 1.-
Usando la misma tabla del captulo anterior, podramos estar interesados en cuales
son las combinaciones de variables que dan cuenta de la variabilidad de las poblaciones
A y B (no en discriminar). En este caso un anlisis de componentes principales muestra:
CP1 = 0.55X1-0.667X2+0.50X3
CP2 = -0.65X1+0.035X2+0.76X3
CP3 = 0.52X1+0.74X2+0.41X3
Esto indica que slo el primer componente es relevante ( >1). Los factor loadings
son -0.84; 0.69 y 0.63 para X 1, X2 y X3 respectivamente, por lo que CP1 est
fundamentalmente asociado a X1. Adems podran usarse los valores de los dos primeros
componentes en cada caso para graficar ambas poblaciones, ordenndolas.
2
1
1
2 2
1
var5
0
1 1
-1
1
-2
-2 -1 0 1 2
var4
U k a k 1 X 1 .........a kp X p
Vk bk 1Y1 ...........bkqYq
tales que la correlacin entre Uk y Vk sea mxima.
[ A] [C ]
[C ]
T
[ B ]
[( B 1C T A 1C I )V ] [O ]
ai [ A]1 [C ]bi
As mediante este mtodo se obtienen pares de funciones lineales que dan cuenta
de la correlacin entre las variables. Esto permite visualizar como se correlacionan las
configuraciones o combinaciones de variables. Por ejemplo si se tiene un par U 1 =
0.4X1+0.1X2+0.8X3 y V1=0.3Y1+0.6Y2+0.04Y3 con un 1=0.6; esto indica que el par
U1,V1 determina el 60% de la asociacin y que en U 1 son determinantes las variables X1
y X3 y en V1 predomina Y2. Esto sugiere una relacin entre stas.
184
1 r
2k {n ( p q 1)} ln(1 i ) donde r es el menor entre p y q, y k varia desde 0 a r.
2 i 1 k
Ejemplo 1.-
B1 B2 .. Bq
Sp1 n11 n12 . n1q
Sp2 n21 n22 . n2q
. . . .
Spp np1 np2 . npq
2
I
nOO
185
Ejemplo 2.-
K L M
A 1 2 4
B 4 3 5
C 5 6 7
D 6 4 3
Reciprocal averaging
Este mtodo permite una variacin sobre el anlisis anterior. Al igual que en el
caso anterior, se tiene una matriz de datos donde las filas se ordenan segn una variable
(X) o sus niveles, las columnas se ordenan segn otra variable o sus niveles (Y) y las
celdas de la matriz son ocupadas por las frecuencias de presentacin de las
combinaciones o bien cualquier caracterstica de inters, por ejemplo la biomasa de las
especies.
B1 B2 .. Bq
Sp1 n11 n12 . n1q
Sp2 n21 n22 . n2q
. . . .
Spp np1 np2 . npq
Se pueden buscar las races o dimensiones que maximizan la asociacin entre los
pares {Bk,Spk}. Esto se puede hacer por el mtodo de reciprocal averaging. En este
mtodo se calculan iterativamente los promedios ponderados (weighted average)
186
renormalizados de filas y columnas y hasta lograr la estabilizacin. El vector estable
corresponde a la primera dimensin y tiene asociado un eigenvalue ( k ).Se puede
demostrar que al igual que la correlacin cannica, conduce a pares de funciones
lineales con su valor propio asociado k, que corresponde a k=Rk2. Cada par de
funciones es ortogonal al anterior. Esto se logra porque una vez obtenido el primer par
de funciones, se contina con el anlisis estableciendo la correlacin con la funcin
anterior y trabajando con los residuales.
187
XX.1.- Fundamentos
Las medidas de similitud y distancia entre dos unidades (j y k), cada una
caracterizada por los valores de las variables medidas {X i}, pueden ser de diferentes
tipos dependiendo de la naturaleza de las variables: medidas de distancia, medidas de
correlacin y medidas de asociacin.
Medidas de distancia
X ij X ik
MCD i 1
Tambin en este ltimo caso es posible usar alguna distancia que incorpore la
variabilidad como la distancia de Mahalanobis o usar una distancia en coordenadas
polares como la distancia de Nei. Sin embargo, stas se utilizan menos, o tienen uso mas
restringido.
Medidas de correlacin
As como entre dos unidades se puede establecer una distancia, tambin se puede
medir la similitud entre ellas usando el coeficiente de correlacin. En el caso que las
variables sean cuantitativas continuas esta indicado el coeficiente de correlacin de
Pearson. Si en cambio algunas variables no son continuas o son simplemente ordinales,
se puede usar el coeficiente de correlacin de Spearman. En este caso la mxima
similitud es 1.
Medidas de asociacin
UNIDAD 1
1 0
UNIDAD 2 1 A B
0 C D
ad
Apareamiento simple (simple matching): SM
abcd
189
a
Coeficiente de Jaccard: J
abcd
ad
Coeficiente de Roger y Tanimoto: RT
a 2b 2c d
2a
Coeficiente de Dice: CD
2a b c
2( a d )
Coeficiente de Sokal y Sneath: SS
2(a d ) b c
(a d ) (b c )
Coeficiente de Hamann: H
abcd
Los mtodos de agrupacin parten desde la matriz [D] que contiene las distancias
o similitudes entre las unidades a agrupar. Cuando contiene similitudes es preferible
convertirlas a distancia para facilitar el uso del algoritmo. Por ejemplo si el mximo de
similitud es S = 1, se puede usar como distancia D = 1-S.
Ejemplo 1.-
190
Supongamos que se estudiaron 5 especies obteniendo la siguiente matriz de
distancias:
A B C D E
A 0 1 0.5 3 2
B 0 0.4 3 2
C 0 1 4
D 0 2
E 0
A BC D E
A 0 0.5 3 2
BC 0 1 2
D 0 2
E 0
ABC D E
ABC 0 1 2
D 0 2
E 0
ABCD E
ABCD 0 2
E 0
A BC D E
A 0 0.75 3 2
BC 0 2 3
D 0 2
E 0
Y a continuacin:
ABC D E
ABC 0 2.33 2.67
D 0 2
E 0
Notamos que para calcular las distancias desde una especie a un grupo o cluster
tenemos que volver a la matriz inicial y promediar las distancias. Ahora la distancia
menor es D(E-(ABC)) = 2. Y llegamos a la matriz:
192
ABCE D
ABCE 0 2.25
D 0
Hair JF, Anderson RE, Tatham RL & Black WC (1999) Anlisis Multivariante . Prentice
Hall, Madrid.
Hollander M & Wolf DA (1972) Nonparametric Statistical Methods. John Wiley &
Sons, New York.
Sackett DL, Strauss SS, Richardson WS, Rosenberg W & Haynes RB (2001) Medicina
Basada En La Evidencia. Harcourt, Madrid.
Siegel S & Castellan NJ (1988) Nonparametric Statistics For The Behavioral Sciences.
McGraw-Hill, New Jork.
Snedecor GW & Cochran WG (1980) Statistical Methods. The Iowa University Press,
Iowa.
Sokal RR & Rohlf FJ (1995) Biometry: The Principles And Practice Of Statistics In
Biology Research. WH Freeman, New Jork.
194
Steel RGD & Torrie JH (1980) Bioestadstica: Principios Y Procedimientos. McGraw-
Hill Latinoamericana SA, Bogot.
Frecuencia relativa hi ni / n
i j
Frecuencia acumulada N j ni
i 1
i j
x
Promedio x i
c L ( n / 2 N L 1 )
Mediana Me y ' L1 nL
c L ( np / 100 N L 1 )
Percentil de orden p Pp y ' L 1 nL
xi2
Varianza s x 2
2
n
ni yi2
Varianza en una serie agrupada s 2 y 2 hi yi2 y 2
n
Desviacin estndar s s2
Coeficiente de Variacin CV s / x
III.- PROBABILIDADES
casosfavorables
Probabilidad P( A)
casosposibles
P( A B)
Probabilidad condicional P( A / B)
P( B)
Probabilidad total P( A) i P( A / Bi ) P( Bi )
P( A / Bi ) P( Bi )
Teorema de Bayes P( Bi / A)
j P( A / B j ) P( B j )
p
Chance u odds O
1 p
a
Sensibilidad S P( / E )
ab
d
Especificidad Sp P ( / noE )
cd
a
Valor predictivo positivo VPP P ( E / )
ac
d
Valor predictivo negativo VPN P ( noE / )
bd
ad
Certeza diagnstica P (C )
n
197
S
Razn de verosimilitud (+) LR P( / E ) / P( / noE ) P( / E ) /(1 P( / noE )) 1 Sp
1 1 1 1
IC1 [log LR Z / 2 ]
a d ab cd
Chance a posteriori Op LR Oo
a
Tasa de evento en el control CER P (evento / control )
ac
b
Tasa de evento en el grupo experimental EER P(evento / ex)
bd
1 1 1 1
Riesgo relativo RR EER / CER IC1 [log RR Z / 2
a b ac bd
]
a / c ad
Razn de disparidades de la chance (Odds ratio) OR
b / d bc
1 1 1 1
IC1 [log OR Z / 2 ]
a b c d
n k n k
Distribucin binomial P(X k) p (1 p)
k
E[X] = np, V[X] = npq.
N NpNp
Distribucin Hiergeomtrica
(XP k) kn k
N
n
E[X] = np, V[X] = npq(N-n)/(N-1).
k
Distribucin de Poisson P( X k ) e
k!
E[X] = V[X] =
Distribucin exponencial f ( x ) e x
E[X] = 1/ y V[X] = 1/2
199
x 2
DISTRIBUCIN NORMAL f ( x) (1/ 2 ) e (1 / 2 )[
]
E[X] = y V[X] = 2
V.- ESTIMACIN
Si no se conoce IC1 [ x t (1 / 2 ) s / n]
Estimadores en Medicina
Nmeros necesarios : NNT y NNH Ambos estn definidos como los valores inversos de
ARR y ARA respectivamente, por lo que en estos casos, se calculan los lmites de
confianza para ARR y ARA y se calcula su inverso.
1 1 1 1
Para log RR: IC1 [log RR Z / 2
a b ac bd
]
1 1 1 1
Para log OR: IC1 [log OR Z / 2 ]
a b c d
1 1 1 1
Para log LR: IC1 [log LR Z / 2
a d ab cd
]
200
Z 2 / 2 PQ
Tamao muestral para estimar una proporcin n
d2
t12 / 2 s 2 Z 2 / 2 s 2
Tamao muestral para estimar un promedio n
d2 d2
VALOR DE VERDAD de
Ho
V (H1F) F (H1V)
DECISIN Rechazo Ho ERROR I () K = 1-
Acepto Ho C = 1- ERROR II ()
x 0
t n 1
Dcima para un promedio s
n
( p 1 p 2 ) P0
Z p n p 2 n2
Dos proporciones 1 1 donde p0 1 1
p0 q0 ( ) n1 n2
n1 n2
Muestras independientes
x1 x 2 0
t n n 2 (n1 1) s12 (n2 1) s 22
donde sc
2
1 2
1 1
sc2 ( ) n1 n2 2
n1 n2
201
x1 x2 0
t gl
s12 s 22 pero los grados de libertad gl los estimamos mediante
( )
n1 n2
2
s12 s22
n n
gl 12 2 2
s12 s22
n1 n2
n1 1 n2 1
d
Muestras dependientes (pareadas) t n 1
sd / n
s M2
Dcima de Homocedasticidad F( n 1),( n 2 1)
1
s m2
( o e) 2
La distribucin 2 para tablas de contingencia ( r 1)( c 1)
2
i, j e
N ! N ! N ! N !
Prueba exacta de Fisher PF x P ( X x ); dondeP( X x) 1, 0 2,0 0 ,1 0 ,1
(o e) 2
La distribucin 2 para bondad de ajuste n2 p 1 e
n ( p p)
en donde p i ni p1 / n
i i
La distribucin 2 para proporciones 2 1
n 1
pq
202
no
(B C )2 ( B C 1) 2
Dcima de McNemar 12 o 2
(B C ) (B C)
1
FV SC Gl CM=SC/gl F P
T (entre) (Y 2
i0 / n) Y / nt
2
00 t-1 F =
i
CME/CMD
(dentro o yij Yi 0 / n t(n-1)
2 2
ij i
error)
TOTAL yij2 Y002 / nt
ij
nt-1
Transformaciones
L
Contrastes ortogonales t gle CMD c 2 / n
j
i i
yi 0 ycontrol
Prueba de Dunnet t d
2CMD / n
203
L2
Prueba de Scheff Ft 1, gle (t 1) CMD c 2 / n
i i
yi 0 y j 0
Qt , gle
Prueba de Tukey (CMD / 2) (
1 1
)
ni n j
T1 T2 T3
N1 N2 N1 N2 N1 N2
Cuadrado latino
b1 B2 B3
B1 T1 T2 T3
B2 T2 T3 T1
B3 T3 T1 T2
204
R0 j R0 k
Q , ,t
Comparaciones mltiples de Nemenyi (post- K-W) n(nt )(nt 1)
12
12
Prueba de Friedman t
2
R02 j 3b(t 1)
bt (t 1) j
R0 j R0 k
Q , ,t
Comparaciones mltiples post-Friedman b(t )(t 1)
12
( x x )( y y ) x y nx y
Coeficiente de correlacin r
i i i i
( x x ) ( y y)
i
2
i
2
( x nx )( yi2 ny 2 )
i
2 2
r n2
Prueba de Hiptesis t n 2
1 r2
xi y i / n x y
Regresin: Pendiente e Intercepto B1 B0 y B1 x
xi2 / n x 2
S yx2 1 x ei2
V [ B1 ] y V [ B0 ] S yx2 ( ) donde S yx2
(x i x)2 n ( xi x ) 2 n2
205
B*
Pruebas de Hiptesis tn2
V [ B* ]
ANOVA de la regresin
Fuente de SC Gl CM F1,n-2 P
variacin
Modelo ( yi' y ) 2 B12 ( xi2 nx 2 ) 1 SC/gl CMmodelo/CMresiduo
(Regresin)
Residuo (por diferencia) n-2 SC/gl
= Syx2
Total ( y i
y ) 2 yi2 ny 2 n-1
SCregresi n
Coeficiente de determinacin (R2) R2
SCTotal
ei2
Error tpico de la estima S yx S yx2
n2
1 ( xk x ) 2
IC1- : y t n2 S yx 1
'
n xi2 ( xi ) 2 / n
k
1 ( xk x ) 2
IC1- : y k t n2 S yx
'
n xi2 ( xi ) 2 / n
in
6 d i2
Correlacin no-paramtrico de Spearman (rs) r 1 i 1
n n
s 3
ANCOVA
Factor A
A1 A2 A3
Y X Y X Y X
206
11 12
t n1 n 2 4 SCresiduo1 SCresiduo 2
1 1 donde
2
S yxc
2
S yxc ( ) n1 n2 4
x12i x22i
N
lx: proporcin de sobrevivientes al inicio de la edad x; l x N
x
d (l x l x 1 )
qx: probabilidad de morir entre la edad x y x+1; q x N
x
lx
. A veces es til
x
(l x l x 1 )
Lx: cantidad de tiempo vivido (por todos los individuos) entre x y x+1; Lx
2
T
ex: esperanza de vida a la edad x: ex l
x
l x mx
Vx: valor reproductivo a la edad x Vx x lx
yl m x x
G: Tiempo generacional. G x
R0
t
(Oi Ei ) 2
Prueba de Mantel-Haenszel o Logrank.
2
t 1
1 Ei
P 1
Modelo: log( ) X P
1 P 1 e ( X )
2
Estadgrafo de Wald (W) que se distribuye como 2 con un grado de libertad W ( )
S
( m2 2 p )
Seudo coeficiente de determinacin: R
2
2 L(0)
px
1 p x e ( x ) ( x x*)
La razn de chances (odds ratio) OR e .
p x* e ( x*)
1 p x*
Modelo ARIMA X t at i ( X t i ) i ( at i )
1 1
i n k
(X t
X )( X t k X )
Autocorrelacin rk
i 1
i n
(X
i 1
t
X)
AR1 X t 1 ( X t 1 ) at
208
1 12
Adems r1 r
y 2 2 1
1 2 2
X t at 1 ( X t 1 ) , adems r1 1 2
1
MA1:
1
T2 de Hotelling:
(n1 n2 p 1)T 2
Dcima Fp ,n1 n 2 p 1 ( p (n1 n2 2))
209
XVI.- REGRESION MULTIPLE
y1 1 x1 1
y 1 x
2 2 0 2
Expresin matricial de una regresin
. .1 1 .
y n 1 xn n
O, en trminos ms simples: [Y ] [ X ] [] []
Coeficientes de regresin ] [ X T X ]1 [ X ]T [Y ]
[
La tabla de ANOVA:
SC mod elo
R2
SCT
b jh b jy
Correlaciones parciales rj .h y en particular rj . y
b jj bhh b jj byy
s bi
Coeficiente de regresin parcial estandarizado o coeficiente de va bsi s
xi
y
211
bs1 r12 bs 2 r13bs 3 r1 y
bs1 r12 bs 2 r1 y
Descomposicin de la correlacin y r12 bs1 bs 2 r23bs 3 r2 y
r12 bs1 bs 2 r2 y
r13bs1 r23bs 2 bs 3 r3 y
i j
1
Regresin logstica mltiple, Modelo P( I j ) ( j i xi )
1 e i
Anlisis de concordancia
(a c)( a b) (b d )(c d )
Certeza azarosa C n n (a c)( a b) (b d )(c d )
z
n n2
C C
Concordancia 1 C
z
z
Prueba de Hiptesis C z (1 C z )
n
Discriminacin D B / W
pq
Prueba de Hiptesis {n 1 }ln(1 j)
2
j i
i 2
XVIII.- ANALISIS DE COMPONENTES PRINCIPALES
212
[V [ ]]
Maximizacin de la varianza total 0 [ I ] vk
v k
L os coeficientes buscados {vk} son los vectores propios asociados a cada valor propio
{i} de la matriz de correlacin entre las variables ([ ]). Adems la traza de [ ] = i
= p, y entonces la proporcin de la varianza que explica cada componente k es k/p.
Variables [ Z ] [ FL ][ F ]
Comunalidad FLk2
Especificidad 1- FLk2
1
{( n 1)
6
( 2 p 5)} ln que se distribuye como 2p(p+1)/2.
residual
1 2 C
{( n 1) ( 2 p 5) q} ln C donde q p j pq
6 3
1
j (
pq
)
[ A] [C ]
Matriz de Correlacin [C ]T [ B]
Los valores propios obtenidos (k) corresponden a Rk2, es decir representan la parte de la
determinacin que le corresponde al par {U k,Vk} . Adems los coeficientes {bi} de la
213
funcin V corresponden a los vectores propios de la ecuacin caracterstica y los
coeficientes {ai} de la funcin U estn dados por: ai [ A]1[C ]bi
1 r
2k {n ( p q 1)} ln(1 i ) Este estadgrafo sigue a 2(p-k)(q-k).
2 i 1 k
Distancia de Manhattan DM X ij X ik
i 1
ad
Apareamiento simple (simple matching): SM
abcd
a
Coeficiente de Jaccard: J
abcd
ad
Coeficiente de Roger y Tanimoto: RT
a 2b 2c d
2a
Coeficiente de Dice: CD
2a b c
2( a d )
Coeficiente de Sokal y Sneath: SS
2(a d ) b c
(a d ) (b c )
Coeficiente de Hamann: H
abcd
214
ANEXO II.- TABLAS SIMPLIFICADAS
rea desde z a ; Valores crticos para 1 cola () ( = 0.05) y dos colas () ( = 0.05)
Z Area
0 0.5000
0.1 0.4602
0.2 0.4207
0.3 0.3821
0.4 0.3446
0.5 0.3085
0.6 0.2743
0.7 0.2420
0.8 0.2119
0.9 0.1841
1.0 0.1587
1.1 0.1357
1.2 0.1151
1.3 0.0968
1.4 0.0808
1.5 0.0668
1.6 0.0548
1.64 () 0.0500
1.7 0.0446
1.8 0.0359
1.9 0.0287
1.96 () 0.0250
2.0 0.0228
2.5 0.0062
3.0 0.0013
215
B.- DISTRIBUCION t DE STUDENT
T
Gr. libertad 2 3 4 5 8 10
5 3.64 4.60 5.22 5.67 6.58 6.99
10 3.15 3.88 4.33 4.65 5.30 5.60
15 3.01 3.67 4.08 4.37 4.94 5.20
20 2.95 3.58 3.96 4.23 4.77 5.01
2.77 3.31 3.63 3.86 4.29 4.47
219
F.- DISTRIBUCION de WILCOXON (Rangos signados)
N Valor crtico
4 10
5 14
6 19
7 24
8 30
9 37
10 44
15 89
220
G.- DISTRIBUCION DE WILCOXON-MANN-WHITNEY (Suma de Rangos)
n2=2 3 4 5 10
n1 = 3 10 15
4 12 17 24
5 13 20 27 36
6 15 23 30 40
7 16 24 33 43
8 18 27 36 47
9 20 29 39 50
10 22 32 42 54 127