Professional Documents
Culture Documents
Apuntes de Clase # 3
Fecha: II Termino-2012
4. Estimacion
4.1. Preliminares
Objetivo: Familiarizarse con las tecnicas estadsticas que permiten extraer conclusiones acerca
de los parametros de una poblacion a partir de datos experimentales.
Definicion 4.1.1 La inferencia estadstica es el conjunto de metodos por los que se realizan
generalizaciones acerca de una poblacion.
Nota: Existen dos metodos que se utilizan para realizar inferencias estadsticas: El metodo clasico
y el metodo bayesiano, en este curso se profundizara sobre el metodo clasico.
Definicion 4.1.2 El metodo clasico de estimacion es aquel que basa la inferencia estadstica
estrictamente en la informacion que se obtiene de una muestra.
Nota: Se habla de puntual para diferenciar de la estimacion por intervalos que se estudiara mas
adelante.
Ejemplos:
Utilizar el valor que toma X para estimar la media de la poblacion.
Considerar a una proporcion muestral observada como estimador del parametro de una
distribucion bernoulli.
Nota: A menos que se indique algo diferente, por estimador se entendera estimador puntual y
por estimado se entendera punto estimado.
En esta seccion se expondra un conjunto de criterios que permitiran calificar los meritos de
cada uno de los posibles estimadores de un parametro.
4.2.1. Insesgadez
Definicion 4.2.1 Un estadstico
b es un estimador insesgado del parametro si
E()
b =
A3-1
Ejemplo 4.2.1 S 2 , definido como
Pn
X)
i=1 (Xi
S2 =
n1
es un estimador insesgado de la varianza poblacional 2
Demostracion Como parte de la demostracion del segundo postulado del teorema 3.4.7 se puede
establecer que " n #
Pn 2
(Xi X) 1 X
S2 = i=1
= (Xi )2 n (X )2
n1 n 1 i=1
a partir de este punto
Pn
X)2
i=1 (Xi
E(S 2 ) = E
n1
" n #
1 X
2 2
= E(Xi ) n E(X )
n1 i=1
y puesto que
2
E(Xi )2 = 2 y E(X )2 =
n
entonces
2
2 1 2
E(S ) = n n
n1 n
E(S 2 ) = 2 //
QED
b(, b
b ) = E()
lm b(,
b ) = 0
n
Demostracion El teorema 3.3.1 establece que E(X) = E(X). Por otro lado, se tiene que la
esperanza de X es igual a Z
E(X) = xe(x) dx = 1 +
A3-2
para demostrarlo se utilizara el metodo de integracion por partes.
Z Z
u dv = uv v du
Sea
u=x y por tanto du = dx
dv = e(x) dx y por tanto v = e(x)
entonces
Z Z
xe(x) dx = xe(x) e(x) dx
x
= (x) e(x)
e
x
= [0 1]
e(x) x=
x
Como (x) evaluado en x = es una indefinicion de la forma
se puede aplicar la regla de LHopital
e
obteniendose finalmente que
Z
1
xe(x) dx
= +1
e(x) x=
= [0 ] + 1
Z
xe(x) dx = 1+ //
QED
Por tanto X es un estimador sesgado de , que es lo que se quera demostrar. En particular, el sesgo
esta dado por
b(X, ) = E(X) = (1 + ) = 1 //
R
Ejemplo 4.2.3 Si X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una poblacion normal, en-
tonces Pn 2
2 i=1 Xi X
e =
n
2
es un estimador sesgado de , pero asintoticamente insesgado.
A3-3
e2 es un estimador asintoticamente insesgado de 2 .
Por tanto
Ejemplo 4.2.4 Dada una muestra aleatoria X1 , X2 , . . . , Xn . El estimador X
e = Xi es un estimador
insesgado de la media poblacional , para cualquier i {1, 2, 3, . . . , n}
E(Xi ) =
Teorema 4.2.1 La varianza de todos los estimadores insesgados cumple la siguiente propiedad
conocida como la Desigualdad de Cramer-Rao
b 1
Var " 2 #
ln f (X; )
nE
Teorema 4.2.2 Si
b es un estimador insesgado de y
1
Var
b = " 2 #
ln f (X; )
nE
entonces
b es un estimador insesgado de varianza mnima de
Definicion 4.2.5 Si
b es un estimador de que cumple con el teorema 4.2.2 entonces
b es el
estimador insesgado mas eficiente de .
Nota: Cuando simplemente se dice que un estimador es el mas eficiente usualmente es implcito
que se esta hablando de el estimador insesgado mas eficiente.
2 2
Se requiere calcular " 2 # " 2 #
ln f (X; ) ln f (X; , 2 )
E =E
A3-4
Para tal efecto se requiere hacer los siguientes calculos
h i 1 x 2
2
ln f (x; , ) = ln 2
2
ln f (x; , 2 )
1 x
=
Reemplazando valores
" 2 # " 2 #
ln f (X; , 2 ) 1 x 1
E = 2E =
2
Finalmente se ha obtenido que un estimador insesgado de tendra como mnimo una varianza de
1 1 2
" 2 # = 1
=
n
ln f (X; , 2 ) n 2
nE
Dado que esta es justamente la varianza del estadstico X, el cual es un estimador insesgado de
, se concluye que para poblaciones normales X es un estimador insesgado de varianza mnima de
. (Recuerdese que no se puede generalizar que X sea el estimador mas eficiente de la media de
cualquier poblacion)
lm Var()
b =0
n
La eficiencia relativa de
b 1 respecto a
b 2 no implica que
b 1 sea el estimador mas eficiente
de .
Si
b 1 es el estimador mas eficiente entonces
b 1 tambien sera asintoticamente eficiente.
Si
b 1 no es asintoticamente eficiente entonces
b 1 tampoco puede ser el mas eficiente.
Los dos puntos anteriores requieren que la informacion que la muestra provee sobre el parame-
tro sea diferente de cero.
Demostracion La varianza de X
e esta dada por
e = Var(Xi ) = 2
Var(X)
Dado que la varianza del estimador no tiende a cero a medida que n tiende a infinito se concluye
que el estimador no es eficiente.
e = lm 2 = 2 6= 0
lm Var(X)
n n
Ejemplo 4.2.7 Si X1 , X2 , . . . , Xn constituyen una muestra aleatoria de una poblacion normal, en-
tonces Pn 2
2 i=1 Xi X
S =
n1
es un estimador insesgado de 2 , su varianza no es mnima (es mayor al lmite inferior de Cramer-
Rao), pero es asintoticamente eficiente.
A3-5
Solucion: En el ejemplo 4.2.1 ya se demostro que S 2 es un estimador insesgado de 2 . Queda por
demostrar que este estimador no es de varianza mnima para una poblacion normal. En particular,
se necesitara calcular
" 2 # " 2 #
ln f (X; ) ln f (X; , 2 )
E =E
2
Para esto, se tiene que
2
1 1 (x )
ln f (x; , 2 ) = ln 2 2
2 2 2 " #
2
ln f (x) 1 1 2 1 (x )
= 2 + 4 (x ) = 1
2 2 2 2 2 2
por lo que
" ( #)2
2 # "
2
ln f (X; , 2 ) 1 (x )
E = E 1
2 2 2 2
( )
4 2
1 (x ) (x )
= E 2 +1
4 4 4 2
h i h i
4 2
1 E (x ) E (x )
= 2 + 1
4 4 4 2
4
2
1 3 1
= 2 + 1 = (2)
4 4 4 2 4 4
1
=
2 4
Se concluye que para una poblacion normal, un estimador insesgado de varianza mnima de 2
tendra una varianza de
1 1 2 4
= =
1
" 2
#
ln f (X; , 2 )
n
nE n 4
2 2
Se procede ahora a calcular la varianza de S 2 , y para tal efecto se sabe por el teorema 3.4.7 que
(n 1)S 2
h i
Var 2
= Var 2(n1)
2
(n 1)
Var(S 2 ) = 2(n 1)
4
por lo tanto
2 4 2 4
Var(S 2 ) = 6=
n1 n
finalmente se calcula el lmite de la varianza del estimador cuando n tiende a infinito.
2 4
lm Var(S 2 ) = lm =0
n n n 1
Lo cual demuestra que S 2 es un estimador insesgado que no tiene varianza mnima pero que es
asintoticamente eficiente. (o S 2 solo es eficiente asintoticamente)
A3-6
Definicion 4.2.7 El error cuadratico medio de un estimador
b se define como
2
ECM()b =E b
Observaciones 4.2.2
El ECM es diferente a la varianza de b la cual esta definida por
2
Var() = E E()
b b b
Definicion 4.2.8 El criterio de mnimo ECM consiste en seleccionar un estimador cuyo ECM
sea el menor en un conjunto de estimadores comparables.
Observaciones 4.2.3
Si el sesgo es igual a cero el critero de mnimo ECM es equivalente al criterio de mnima
varianza, pues en ese caso
ECM()b = Var()
b
En la practica el criterio de mnimo ECM se utiliza cuando los estimadores insesgados son
incapaces de cumplir con el criterio de varianza mnima.
4.2.3. Consistencia
Definicion 4.2.9 El estadstico
b es un estimador consistente del parametro si y solo si para
cada c > 0
lm P < c = 1
b
n
A3-7
l
+c
c
ng n
La clase de convergencia expresada por el lmite de la definicion 4.2.9 generalmente se llama con-
vergencia en probabilidad.
Teorema 4.2.3 Si b es un estimador insesgado del parametro y Var() b desciende hacia cero
conforme n asciende a infinito, entonces
b es un estimador consistente de .
( )
l
f
l)
Var (
l) =
E ( l
0
n
Metodo de momentos.
Metodo de maxima verosimilitud.
Estimacion bayesiana.
Metodo de mnimos cuadrados.
A3-8
Definicion 4.3.1 Si x1 , x2 , . . . , xn son los valores observados en una muestra aleatoria de una po-
blacion con parametro , la funcion de verosimilitud de esta muestra esta dada por
L() = f (x1 , x2 , . . . , xn ; )
Donde se encuentra dentro de un dominio dado y f (x1 , x2 , . . . , xn ; ) es el valor de la distribucion de
probabilidad conjunta de las variables aleatorias X1 , X2 , . . . , Xn cuando X1 = x1 , X2 = x2 , . . . , Xn =
xn .
Ejemplo 4.3.1 La probabilidad de que llueva en un da esta dada por . Hubo lluvia en 5 de los
7 das de la semana pasada. Cual es el valor de que maximiza la probabilidad de que suceda lo
observado?
Solucion: La probabilidad de que llueva en 5 de los 7 das de la semana pasada cuando la
probabilidad de lluvia para cada da es puede ser calculada a traves de la funcion de probabilidad
binomial
n x nx
(1 )
x
donde n es el total de das en analisis y x representa el numero de das en los que efectivamente
llovio. Reemplazando valores se tiene que la probabilidad en cuestion es igual a
7 5 75 2
(1 ) = 21 5 (1 )
5
Esta probabilidad es una funcion de y corresponde a la definicion de funcion de verosimilitud L().
2
L() = 21 5 (1 )
Interesa encontrar el valor que maximice esta probabilidad (que maximice la funcion de verosimi-
litud)
= arg max L() = 21 5 (1 )2
este problema de maximizacion es equivalente a
= arg max ln L() = ln 21 + 5 ln + 2 ln(1 )
para encontrar el valor de en cuestion se deriva la expresion anterior con respecto a y se iguala
a cero, obteniendo as la condicion que debe cumplir .
5 2
=0
1
y por tanto
5
=
7
Se concluye que la probabilidad de que se hayan observado 5 das con lluvia la semana pasada se
maximiza cuando la probabilidad de lluvia para un da es igual a 5/7. Al valor obtenido se lo llama
estimado de maxima verosimilitud.
Ejemplo 4.3.2 Se puede resolver el ejercicio anterior para un caso general: dado x exitos en n
intentos, encontrar el estimador de maxima verosimilitud ()
b del parametro de una poblacion
binomial.
Solucion: La funcion de verosimilitud para este caso esta dada por
n x nx
L() = (1 )
x
Para encontrar el valor que maximiza esta probabilidad es necesario maximizar la funcion de
verosimilitud con respecto a . As
n x
= arg max L() = (1 )nx
x
A3-9
lo que es equivalente a
n
= arg max ln L() = ln + x ln() + (n x) ln(1 )
x
b=X
n
Observaciones 4.3.1
es el estimado de maxima verosimilitud del parametro , es decir el valor que se hallo para
una muestra en particular.
El estimado de maxima verosimilitud del parametro es aquel valor de que maximiza la
funcion de verosimilitud o, dicho de otro modo, el valor de que hace maxima la probabilidad
de observar una muestra en particular.
b es el estimador de maxima veromilitud del parametro , es decir la formula que indica
como a partir de los datos de una muestra calcular el estimado.
A3-10
al igualar a cero ambas derivadas parciales se encuentran las condiciones que deben cumplir los
estimados de maxima verosimilitud x (para ) y s2 (para 2 )
n
1 X
: (xi x) = 0
2 i=1
n
X
xi nx = 0
i=1
Pn
i=1 xi
x = =x
n
n
n 1 X 2
2 : + (xi x) = 0
2s2 2s4 i=1
s2 1
Pn 2 =
i=1 (xi x) n
Pn 2
(xi x)
s2 = i=1
n
Pn 2
(xi x)
s2 = i=1
n
En conclusion, los estimadores de maxima verosimilitud de los parametros y 2 de una poblacion
normal son
Pn
i=1 Xi
=
n
Pn 2
i=1 Xi X
2 =
n
Observacion 4.3.2 El estimador de maxima verosimilitud del parametro de una poblacion nor-
mal es v
uX n
2
Xi X
u
u
t
i=1
=
n
por la propiedad de invarianza del metodo de maxima verosimilitud.
bL < <
bU
donde
bL y b U son estadsticos elegidos de tal forma que la probabilidad de que el parametro se
encuentre en el intervalo es un valor dado 1 .
Prob( bU) = 1
bL < <
Observaciones 4.4.1
Al igual que los estimadores puntuales, los estimadores por intervalo de un parametro no son
unicos.
Tanto
b L como b L son variables aleatorias que dependen de la muestra aleatoria y de la
probabilidad 1 .
A3-11
Definicion 4.4.2 Un intervalo de confianza del (1 )100 % para el parametro
L < < U
bL < <
bU
Definicion 4.4.4 A los lmites inferior L y superior U de un intervalo de confianza se los llama
lmites de confianza inferior y superior respectivamente.
Observaciones 4.4.2
Mientras mas alto sea 1 , mayor sera la amplitud del intervalo
Mientras mas grande sea el intervalo mas imprecisa sera la informacion que se proporciona.
Ejemplo: Que es preferible? Saber con un nivel de confianza del 90 % que un parametro
se encuentra entre 2 y 4 o saber con un nivel de confianza del 99,99 % que el mismo parametro
se encuentra entre -10000 y 10000?
Una propiedad deseable de un intervalo de confianza es que la longitud del intervalo, dado un
nivel de confianza 1 , sea la menor posible.
bU
Otra propiedad deseable es que la longitud esperada, E( b L ), sea tan corta como sea
posible.
Ejemplo 4.4.1 Para una muestra aleatoria X1 , X2 , . . . , Xn donde n > 30 se define el siguiente
estimador por intervalo para la media poblacional : L < < U , donde L = X 2 X y
U = X + 2 X Cual es la probabilidad 1 de que la media poblacional se encuentre dentro
de este intervalo? (probabilidad de que la media poblacional se encuentre dentro de dos desviaciones
estandar de la media muestral)
x 2 X < < x + 2 X
Reordenando terminos la expresion anterior tambien indica que x se encuentra a dos desviaciones
estandar de
x 2 X < < x + 2 X
x + 2 X > > x 2 X
2 X > x > 2 X
+ 2 X > x > 2 X
2 X < x < 2 X
Para determinar la probabilidad de que esto ocurra se definira la siguiente variable aleatoria
X X
Z= /n
=
X
A3-12
que se distribuye aproximadamente normal estandar dado que la muestra es mayor a 30. Por tanto
P (L < < U ) = P ( 2 X < X < 2 X )
= P (2 < Z < 2)
= 0,955 //
R
Para todos los valores de X que se encuentran fuera del rango que va desde 2 X hasta + 2 X
la estimacion por intervalo (X 2 X < < X + 2 X ) no contendra a la verdadera media de la
poblacion. Esto sucede en el 4,5 % de los casos, es decir, en el area no sombreada de la figura 1.
A3-13
Observacion 4.4.3 Por lo general se trabajara con dos tipos de intervalos de confianza:
^
Prob( < ^L)= Prob( > L)=1-
Definicion 4.4.5 Dado un estimador b del parametro , el error de estimacion es un valor d tal
que la probabilidad de que la diferencia maxima entre b y sea a lo mucho d es al menos 1 .
Esto puede ser expresado por
Prob d 1
A3-14
Demostracion Por la observacion 3.3.1 se sabe que X sigue una distribucion normal con
2 2
X = y X =
n
para muestras aleatorias de tamano n de una poblacion normal con media y varianza 2 .
Observacion 4.5.1 (el tamano del error de estimacion) Manipulando el tamano de la mues-
tra n es posible conseguir un error de estimacion arbitrariamente pequeno para un nivel de confianza
1 dado.
Teorema 4.5.2 Si la media muestral X se va a usar como un estimador de la media de una
2
poblacion normal, y la varianza
poblacional es desconocida, entonces la probabilidad de que el
error de estimacion X sea menor a t 2 ,n1 Sn es 1 ; donde S es la desviacion estandar
muestral y t 2 ,n1 es tal que la integral de la funcion de densidad t-student desde t 2 ,n1 hasta
es igual a /2.
Demostracion Para una poblacion normal, se sabe que
X
T = S/n
A3-15
Corolario 4.5.3 Para muestras grandes (n > 30) el error de estimacion puede ser aproximado por
Z/2 Sn ; donde Z/2 es como se definio en el teorema 4.5.1.
Corolario 4.5.4 Si la poblacion no se distribuye como una normal y la muestra es grande (n > 30),
entonces el error de estimacion puede ser aproximado por Z/2 Sn ; donde Z/2 es como se definio en
el teorema 4.5.1.
X
T = S/n
converge a una distribucion normal estandar cuando n tiende a infinito para cualquier distribucion
que haya generado a X y S.
X
T = /n
S
y haciendo uso de la independencia entre X y S 2 (teorema 3.4.7) se puede demostrar que el pri-
mer termino de la multiplicacion converge en distribucion a una normal estandar y que el segundo
termino converge en probabilidad a 1.
Claramente estan involucradas definiciones que no se han estudiado en el presente curso y por esto
no se desarrolla la demostracion.
Teorema 4.5.3 Si x es el valor de la media de una muestra aleatoria de tamano n de una poblacion
normal con varianza conocida 2 , entonces
x Z/2 < < x + Z/2
n n
A3-16
Lo que demuestra que
x Z/2 < < x + Z/2
n n
es el intervalo de confianza en cuestion.
Observacion 4.5.2 En general, se hacen afirmaciones de probabilidad cuando se habla de los valores
futuros de variables aleatorias (por ejemplo el error potencial de una estimacion) y afirmaciones de
confianza una vez que se han obtenido los datos.
Teorema 4.5.4 Si x y s son los valores de la media y la desviacion estandar de una muestra aleatoria
de tamano n de una poblacion normal, entonces
s s
x t 2 ,n1 < < x + t 2 ,n1
n n
Idea de la demostracion: Se procede la misma manera que en el ejercicio anterior, pero ahora
partiendo de
Prob(|T | < t 2 ,n1 ) = 1
donde T es como se definio en el teorema 4.5.2.
Se requiere conocer la
distribucion exacta de la poblacion
Las demostraciones son iguales a las de los dos teoremas anteriores mas la argumentacion de si
el tamano de la muestra es lo suficientemente grande como para aproximar la distribucion de X a
una normal.
A3-17
Demostracion Por la observacion 3.3.1 y el corolario 3.3.2 se sabe que X1 y X2 se distribuyen
normalmente y que su combinacion lineal tambien sera normal, por tanto
(X1 X2 ) (1 2 )
Z= q 2
1 22
n1 + n2
se reemplaza Z se obtendra
(X1 X2 )(1 2 )
Prob Z/2 < q < Z/2 =1
12 22
n1 + n2
q 2
22
Prob Z/2 n11 + n2 < (1 2 )
q
12 22
(X1 X2 ) < Z/2 n1 + n2 =1
q 2
22
Prob (X1 X2 ) Z/2 n11 + n2< (1 2 )
q
12 2
< (X1 X2 ) + Z/2 n1 + n22 = 1
Demostracion Haciendo uso del teorema 3.3.2 (teorema del lmite central) se sabe que para
cualquier distribucion que sigan X1 y X2
(X1 X2 ) (1 2 )
Z= q 2
1 22
n1 + n2
se distribuye aproximadamente como una normal estandar. A partir de aqu el resto de la prueba es
igual que la del teorema.
Corolario 4.6.2 Para muestras grandes (n1 y n2 mayores a 30), si las poblaciones son normales
y las varianzas poblacionales 12 y 22 no son conocidas pero se puede disponer de las varianzas
muestrales (s21 y s22 respectivamente), entonces
s s
s21 s22 s21 s2
(x1 x2 ) Z 2 + < 1 2 < (x1 x2 ) + Z 2 + 2
n1 n2 n1 n2
A3-18
Teorema 4.6.2 Si x1 , x2 , s1 y s2 son los valores de las medias y las desviaciones estandar de va-
riables aleatorias independientes de tamano n1 y n2 de poblaciones normales con varianzas iguales
(12 = 22 = 2 ), entonces
r
1 1
(x1 x2 ) t 2 ,n1 +n2 2 sp
+ < 1 2
n1 n2
r
1 1
< (x1 x2 ) + t 2 ,n1 +n2 2 sp +
n1 n2
donde s
(n1 1)s21 + (n2 1)s22
sp =
n1 + n2 2
es un intervalo de confianza al (1 )100 % de la diferencia entre las dos medias poblacionales
Demostracion Se sabe que para poblaciones normales
(X1 X2 ) (1 2 )
Z= q 2
1 22
n1 + n2
sigue una distribucion normal estandar, y por tanto si las varianzas poblaciones son iguales la misma
distribucion normal aplica para
(X1 X2 ) (1 2 )
Z= q
n11 + n12
donde es un parametro desconocido que sera estimado por Sp . Aparte se sabe que
(n1 1)S12 (n2 1)S22
y
2 2
siguen distribuciones chi-cuadrado con n1 1 y n2 1 grados de libertad, y por tanto su suma
(n1 1)S12 (n2 1)S22 (n1 + n2 2)Sp2
Y = + =
2 2 2
sigue una distribucion chi-cuadrado con n1 + n2 2 grados de libertad. Z y Y son independientes
(lo cual no se demostrara) por lo que aplicando el teorema 3.5.1 tenemos que
Z
T = q
Y
n1 +n2 2
(X1 X2 ) (1 2 )
T = q
Sp n11 + n12
de donde es facil ver que se obtiene el intervalo de confianza que propone el teorema
Observaciones:
Los resultados del teorema 4.6.2 son utilizados para muestras pequenas (n1 +n2 230).
Para muestras en donde n1 + n2 2 > 30 los resultados del teorema 4.6.2 pueden aproximarse
con un intervalo de confianza construido en base a la distribucion normal.
Si alguna de las poblaciones no es normal, entonces se aplicaran los resultados para muestras
grandes y varianzas desconocidas solo si n1 > 30 y n2 > 30.
A3-19
4.7. Estimacion de proporciones
Una proporcion puede ser entendida como el parametro de una poblacion Bernoulli con funcion
de probabilidad
f (y) = y (1 )1y y {0, 1}
representa en esta poblacion la probabilidad de exito, es decir, la probabilidad de que X = 1.
Teorema 4.7.1 Si X es una variable aleatoria que tiene una distribucion binomial con los parame-
tros n y , entonces la distribucion de
X n
Z=p
n(1 )
Teorema 4.7.2 Si X es una variable aleatoria binomial con parametros n y , n es grande y = x/n,
donde x es el valor que toma la variable aleatoria X, entonces podemos afirmar con un (1 )100 %
de confianza que el error de estimacion es menor a
s
(1 )
Z 2
n
se distribuye aproximadamente como una normal estandar. Z puede ser re-escrito de la siguiente
manera
X n X n
Z = p =q
n(1 ) n2 (1)
n
X
X n
= q = qn
(1) (1)
n n n
b
Z = q
(1)
n
A3-20
Es facil ver que (1)/n es la varianza de b = X/n lo cual implica que b tambien se distribuye
aproximadamente normal en muestras grandes. Se observa que el error de estimacion que plantea
el teorema utiliza la version muestral de la desviacion estandar de ,
b esto es (1
b )
b
/n. Si utilizamos
0
esta version tendremos una nueva variable aleatoria Z definida por
b
Z0 = q
(1
b )
b
n
La pregunta es si Z 0 sigue alguna distribucion conocida. Para responder a esta pregunta se puede
utilizar la misma argumentacion empleada en el corolario 4.5.4 y por tanto se puede decir que Z 0 se
distribuye aproximadamente como una normal estandar para muestras grandes.
sigue aproximadamente una distribucion normal estandar, y a partir de este hecho se establecio que
s
(1
b )
b
Prob < Z 2 =1
b
n
Ahora se manipulara la expresion anterior para que la desigualdad haga referencia solo a .
s
b < Z (1 ) = 1
b b
Prob
2
n
s s
b )
(1 b b )
(1 b
Prob Z 2 < b < Z =1
n 2
n
s s
b )
(1 b b )
(1 b
Prob b Z << b + Z =1
2
n 2
n
A3-21
4.8. Estimacion de diferencias entre proporciones
Para establecer intervalos de confianza para la diferencia de proporciones entre poblaciones Ber-
noulli independientes con parametros 1 y 2 es necesario primero determinar cual es la distribucion
b1
del estimador a usarse. En esta seccion se trabajara con el estimador b 2 que esta definido por
b 1 = X1
y b 2 = X2
n1 n2
donde n1 y n2 son los tamanos de las muestras aleatorias de cada poblacion y, X1 y X2 representan
el total de exitos encontrados en cada una de las dos muestras en cuestion.
De b1 b 2 se puede demostrar que
E b1
b2 = 1 2
b1
1 (1 1 ) 2 (1 2 )
Var b2 = +
n1 n2
y puesto que tanto 1 como 2 se distribuyen aproximadamente normal para muestras grandes (ver
la primera parte de la demostracion del teorema 4.7.2) entonces tambien su diferencia lo hara, esto
implica que
b1
( b 2 ) (1 2 )
Z= q
1 (11 )
n1 + 2 (1
n2
2)
sigue aproximadamente una distribucion normal estandar para muestras grandes para construir
un intervalo de confianza. Sin embargo, utilizando la misma argumentacion que en el corolario
4.5.4 podemos llegar a la conclusion de que si reemplazamos los parametros desconocidos 1 y 2
por sus versiones muestrales 1 y 2 respectivamente, la variable aleatoria resultante tambien se
distribuira aproximadamente como una normal estandar para muestras grandes. Es decir,
b1
( b 2 ) (1 2 )
Z0 = q
b 1 (1b 1)
+ 2 (1
b b 2)
n1 n2
Prob |Z 0 | < Z 2 = 1
b1
( b 2 ) (1 2 )
Prob q < Z = 1
2
b 1 (1b 1)
+
b 2 (1
b 2)
n1 n2
A3-22
Prob (1 2 ) (
b1
b 2 )
q
b 1 (1b 1)
b 2 (1b 2)
<Z
2 n1 + n2 = 1
q
b 2) Z
b1
Prob (
b 1 (1b 1)
+
b 2 (1b 2)
<
2 n1 n2
q
b 1 (1b 1)
b 2 (1b 2)
1 2 < (
b1
b 2) + Z
2 n1 + n2 = 1
(n 1)S 2
2
es una variable aleatoria que sigue una distribucion chi-cuadrado con n1 grados de libertad (revisar
la seccion 3.4, en especial el teorema 3.4.7). As
(n 1)S 2
2 2
Prob 1/2 ; n1 < < /2 ; n1 = 1
2
!
1 2 1
Prob > > 2 = 1
21/2 ; n1 (n 1)S 2 /2 ; n1
!
(n 1)S 2 (n 1)S 2
Prob 2 < 2 < 2 = 1
/2 ; n1 1/2 ; n1
s21 1 12 s21
< < f 2 ; n2 1 ; n1 1
s22 f 2 ; n1 1 ; n2 1 22 s22
A3-23
Demostracion Si S12 y S22 son las varianzas de muestras aleatorias independientes de tamano n1
y n2 de poblaciones normales, entonces
2 S 2
F = 22 12
1 S2
es una variable aleatoria que tiene una distribucion F con n1 1 y n2 2 grados de libertad (teorema
1.6.1). As, se puede decir que
22 S12
Prob f1 2 ; n1 1 ; n2 1 < 2 2 < f 2 ; n1 1 ; n2 1 = 1
1 S2
22 S12
1
Prob < 2 2 < f 2 ; n1 1 ; n2 1 = 1
f 2 ; n2 1 ; n1 1 1 S2
2
Ordenando la desigualdad para que exprese un intervalo para 1/22 se obtiene
2
12 S12
S1 1
Prob < < f
2 ; n2 1 ; n1 1
=1
S22 f 2 ; n1 1 ; n2 1 22 S22
A3-24