Professional Documents
Culture Documents
net/publication/310830407
CITATIONS READS
0 101
1 author:
Carlos N. Bouza
University of Havana
320 PUBLICATIONS 330 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
A Cuban-Flemish Training and Research Program in Data Science and Big Data Analysis View project
Modelos Matemáticos para el Estudio de Medio Ambiente, Salud y Desarrollo Humano. View project
All content following this page was uploaded by Carlos N. Bouza on 26 November 2016.
2.1. Introducción.
Múltiples razones han hecho de la estadística una herramienta con la que trabajan los
profesionales, ejecutivos políticos y la gente que debe tomar decisiones usando datos
numéricos. Estos deben conocer los fundamentos de la estadística. En el proceso de
decisión se desea generalmente inferir a partir de los datos. Para ello es necesario
utilizar métodos estadísticos basados en la probabilidad.
En la década de los 70s se dieron los pasos fundacionales del llamado Análisis
Exploratorio de Datos (EDA=Exploratory Data Analysis). Esta técnica se aprovechó
del incremento de la potencia de las computadoras, para introducir métodos gráficos
novedosos en el análisis de los datos. Esta colección de técnicas se basa en lo que podría
definirse como un enfoque o una filosofía. Su uso, junto con las diversas medidas
comúnmente usadas anteriormente en la estadística, ha elevado el rol de esta y su
interpretabilidad por no iniciados. Este enfoque es debido al trabajo seminal de
John Tukey en 1977.
1
La estadística permite generar hipótesis sobre el problema del que provienen los datos y
obtener algunas ideas sobre características generales del experimento. Es claro que
cualquiera sea el objetivo del análisis a realizar, al tener datos debemos entender tanto
estos como el mecanismo que les genera. Así, se facilita que el analista encuentre
posibles errores e intuya lo que les ha motivado. Actualmente hay desarrolladas
técnicas computacionales, Minería de Datos, que lo que hacen es precisamente procesar
grandes masas de datos para tener un visión de las regularidades que estos reflejan. El
interés casi siempre es determinar uno o varios valores típicos, medir la incertidumbre
que se asocia a estos para valorar los riesgos de utilizarles y establecer algunas
relaciones entre atributos de interés, Estos son algunas de las cuestiones que aparecen
comúnmente al lidiar con datos. En todos los casos el análisis requiere del uso de
métodos estadísticos y no se incluyen, en una primera etapa, hipótesis probabilísticas
3. ESTADISTICOS
Veamos que es un estadístico. Si tenemos la variable aleatoria (va) X que toma valores
en {, y (, } es un espacio medible auxiliar cualquiera un estadístico es una
función de la variable aleatoria definido como sigue:
Definición. 3.1 Toda aplicación T mensurable (medible) tal que T:n es un
estadístico si esta no depende de valores desconocidos.
Los problemas que aborda la estadística lleva a determinar una estructura que llamamos
modelo estadístico.
Definición 3.2. El par {, P; } donde la variable X toma valores en y P es la
ley de probabilidad que describe el comportamiento de la variable aleatoria es llamado
modelo estadístico.
Esta definición deja abierta fijar si un modelo es paramétrico o no. La noción usual es
que al hacer ciertas definiciones de este es paramétrico. O sea que si el espacio
paramétrico no es restringido se dice que es no paramétrico. Matemáticamente esto es
acotado al fijar que si contiene un conjunto convexo de dimensión infinita el modelo
es no paramétrico y que lo es si este es un abierto en .
Un resultado inmediato es que la densidad de un sub vector (𝑋(1) < 𝑋(2) < ⋯ <
𝑋(𝑘) ), 𝑘 < 𝑛 es
𝑛−𝑘
𝑛
[∫[𝑥 ] 𝑓(𝑥)𝑑𝑥]
,∞
𝑓(𝑥(1) < ⋯ < 𝑋(𝑘) ) = 𝑛! ∏ 𝑓(𝑥𝑖 )
(𝑛 − 𝑘)!
𝑖=1
Usando este resultado se deduce que la densidad de la ley de un par de estadísticos de
orden es
𝑛! 𝑓(𝑥)
𝑓(𝑘) (𝑥) = 𝐹 𝑘−1 (𝑥)[1 − 𝐹(𝑥)]𝑛−𝑘
(𝑘 − 1)! (𝑛 − 𝑘)!
𝑓(𝑘,𝑘∗) (𝑥. 𝑥 ∗)
𝑛! 𝑓(𝑥)𝑓( )𝑥 ∗ 𝐹 𝑘−1 (𝑥)[1 − 𝐹(𝑥 ∗)]𝑛−𝑘∗ [𝐹(𝑥 ∗) − 𝐹(𝑥)]𝑘∗−𝑘+1
= 1𝑘<𝑘∗
(𝑘 − 1)! (𝑘 ∗ −𝑘 + 1)! (𝑛 − 𝑘 ∗)!
Son de particular importancia los valores extremos X(1) y X(n). También se deduce
fácilmente que
3
3.3 ESTADÍSTICO SUFICIENTE
que reduce toda la información sobre a un solo valor. La pregunta es: ¿contiene T(X)
toda la información relevante que nos da X sobre F?
Definición 3.4. Sea {, P, } un modelo estadístico el estadístico T=T(X) es
suficiente para una familia de distribuciones si y solo si la distribución condicional de X
dado el valor de (x)=t es el mismo para todos sus miembros ( P(X|T(x)=t} No
depende de ).
Desde el punto de vista geométrico esto fija que si T es suficiente la superficie T(x)=t
nos informa sobre y la posición de x={x1,...,xn} no aporta nada relevante sobre el
parámetro.
Podemos fijar este concepto particularizando para los casos discreto y continuo como
sigue:
No depende de .
4
Definición 3.6. (Caso Continuo) Sea {f(x,), )}una familia de distribuciones
continuas, una muestra aleatoria X=(X1,…Xn ) de uno de sus miembros y T(X) un
estadístico con fdp fT(t). Este es suficiente para si para todo y x se cumple que
Ejemplo 3.1. Sea X una muestra aleatoria de tamaño n de una Binomial B(m, ) y
n
Como X
i 1
i se distribuye B(mn,) se tiene que
Tomemos a
es suficiente para .
5
Tomemos
T: (, )(,),
Para su demostración necesitamos de varios lemas auxiliares.
6
Lema F1. Sea las aplicaciones A-medibles T: (, , P)(,, PT), y g en . Una
condición necesaria y suficiente para la existencia de una función B-medible g* sobre
tal que g(x)=g*(T(x)) es que gT-1 ().
Demostración:
Necesidad
Como T es A-medible T-1(S), para todo SB se tiene que T-1(S) T-1(B) para todo S de
B. Tomemos g* como una función B-medible , eso es
g*: (,, PT) (*, *, P g ), g(X)-g*T(X) y Q={x| GT(x)Z}, ZA*.
T
Entonces QT-1g*-1(Z)
Suficiencia
Por tanto g toma un valor constante en Q(t) por lo que g*(t)=g(x) determina una
función g* sobre . Que g* es única se sigue de la unicidad de la transformación de
T:. Como para cualquier C, Boreliano en el espacio de definición de g*, es decir
si g*(C)B, se obtiene la B-medibilidad de g*.
Lema F2. Sean las aplicaciones A-medibles T: (, , P)(,, PT), y g (real y PT-
integrable) en . Entonces para todo SB
g * ( y) P (dy)
T
gT ( x( P(dx)
S T 1 ( S )
Demostración:
Lema F3. Sean las aplicaciones A-medibles T: (, , P)(,, PT), y g (PT-
integrable) en . Entonces si es una medida sigma-finita definida sobre (, )
mediante d -gT(dP) se cumple que dPT gdPT .
Demostración
PT (S ) (T 1(S )) T 1 ( S )
g * T ( x( P(dx) S g*.
7
Por el lema F2
g * ( y) P (dy)
T
gT ( x( P(dx)
S T 1 ( S )
Definiciones 3.7.
Sea H una clase de medidas sigma finitas y una medida sigma finita definida sobre el
mismo espacio que H.
i) Se dice que H es dominada por , H<<, , si P<< para toda PH.
ii) Si H y H* son dos clases de medidas sigma finitas definidas sobre el mismo
espacio se dice que H es dominada por H*, H<<H*, si (S)=0 para todo H*P(S)-
0 para toda PH.
iii) H se dice equivalente a H*, HH*, si H<<H* y H*<<H.
Esto se sigue del hecho de que si , SA. y Pi (S) para todo i=1,... además (S)=0 si y
si Pi (S)=0 para todo i. Por tanto =H. Sin pérdida en generalidad veamos que la
medida equivalente puede ser tomada como una finita , pues aunque (S) no lo sea
podemos considera una partición {Wi} sobre tal que (Wi)< , para i=1,2...., y tomar
(S)=(WiS)/(Wi )
Definiciones 3.8
Así
8
Lema F4. (Halmos-Savage) Si la familia de medidas H sobre (,A) dominada por la
medida sigma finita , entonces existe una subfamilia contable equivalente a P.
Demostración
Sean C={Cn} una sucesión de cadenas y C*=n-=1 Cn tal que lim n (Cn )=Sup
{C}. Entonces (C*) =Sup {Cn} es una cadena, por lo que es una unión contable de
kernels {Kn}. Tomemos P como una medida de probabilidad en H tal que Pn(Kn))>0,
n=1, 2,...
Falta ver que H<<H*. Probemos que si SA en forma tal que Pn(S)=0 para todo PnH
entonces P(S-C*)=0. Como si P(S-C*)>0 par algún PH. Tomando KP como el
soporte de P, P{(S-C*)K*P }=0, K*P complemento de KP en , P{(S-C*)KP}>0 por
lo que (S-C*)KP} es un kernel para P y [P{(S-C*)KP}>0 y
{(S-C*)KP }C*= por lo que (S-C*)(KPC*) constituye una cadena siendo [(S-
C*)(KP C*)=[(S-C*)KP ]+ (C*)>(C*). Como esto contradice el hecho de que
C* es una cadena con valor maximal de se deriva que P[(S-C*)]=0 para todo PH.
Veamos que ciertamente P{(S-C*)}=0 para todo PH.. Esto se obtiene del hecho de
que como Pn(S)=0 para todo PnH**
Pn {(SKn }= SK gn (x)(dx)=0, para todo PnH**.
Demostración
Necesidad
La cantidad es equivalente a {P1,..} y es densa en H. Por tanto para cada SA y FB
se tiene que
9
PS | T y PnT (dy)
1
S T (F ) F
PS | T y *Tn (dy) PS | T ( x) Tn (dx)
2n F T 1 ( F )
n 1
(A)
donde
*T=*(T-1(F))= )=n=1 Pn(T-1 (F))/2n =n=1 Pn(F)/2-n
P(S ) P[S | T ( x)]P(dx) P[S | T ( x)] f P ( x) * (dx) P[S | T y]E*[ f P ( X ) | T y] *T (dy)
Como E*[ f P ( X ) | T y] B
P(S ) E [I
* S (X ) fP ( X ) | T y] *T (dy) ]E*[ f P ( X ) | T ( x)] * (dy)
Donde E*[ f P ( X ) | T y] T-1(B). Por el lema F1 existe una función g*P sobre tal que
E*[ f P ( X ) | T ( X )] g PT ( X ) , cs. Y del resultado final derivado para P(S), para cada SA se
tiene que
S fP (x)*(dx)= S g*PT(x)*(dx)
Suficiencia
De ahí que
vP T (dy)=g*P(y)E *[IS(X)g*P|T=y] *T(dy)= P*[S|T=y]g*P(y)*T(dy), cs.
Dónde P*[S|T=y] no depende de H. Por otra parte como para cada S A y FB
10
P S T 1 ( F ) I S ( x) P(dx) vPS (dx) P (S | T y)P
*
T
(dy)
T 1 ( F ) T 1 ( F ) F
Demostración
Necesidad
h(x)=*(dX)/(X).
Tomemos un conjunto de medida P nula ZA para todo PH. Dado que * es denso en
H, *(Z)=0, por lo que
*(Z)=Z h(x)(dx)=0
Suficiencia
11
Considerando que H<<* por lo que H* y del lema F1 se deriva que
gPT(x)=P(dx)/*(dx) T-1(B).
Notas:
1. El lema F5 fija que la densidad generalizada de cada P respecto a * es un
fundón de T(X). O sea, que existe una función g*P independiente de P tal que
P(dx)/ (dx)=g*PT(x), cs (respecto a P).
2. La factorización es un método para separar las componentes aleatoria y no
aleatoria en una forma comprensible e identificar el ES. Por otra parte si tenemos un ES
toda información adicional será redundante.
k
f ( x | ) c( )h( x) exp j ( )T j ( x), k
j 1
n k n
f ( x1 ,..., x n | ) c n ( ) h( xi ) exp j ( ) T j ( xi ), k
i 1 j 1 i 1
n n
Entonces { T1 ( xi ) ,…, Tk ( xi ) } es un ES.
i 1 i 1
Ejemplos 3.3
1) Sea X una variable aleatoria con distribución Poisson P() y X una muestra
independientes e idénticamente distribuidas de tamaño n.
1 / si x [0, ]
f ( x, )
0 si no
1 1
f ( x, ) [ x ] f ( x1,..., xn ; , ) [sup xi ]
12
Aquí h(x)=1 y g(T,)=-n [sup. xi] por lo que el ES es el estadístico de orden n:
T(x)=sup. xi=x(n)
Por lo que tomando h(x)= (2)—n/2 y g(T, , 2 )= (2 )—n/2exp{-[n=1 xi2 +2 -
2m)//22)
n 3 x i
T
i 1
xi , m ,
m i 1
n
Para todo si y solo si T (x) = T (y). Entonces T(X ) es suficiente y minimal para
.
Definición 3.7 . Una partición n se dice que es suficiente si induce un estadístico
suficiente.
Cuando dos estadísticos definen la misma partición, se dice que son equivalentes.
Nota. Un estadístico define una única partición pero a una partición se le pueden asociar
muchos estadísticos diferentes.
Definición 3.8 (estadístico suficiente minimal) Suponga que X1, ..., Xn tiene una
distribución conjunta que depende de un vector de parámetros y que T(X) es un
13
estadístico suficiente para él . Este es minimal suficiente si T (X ) es una función de
todo S(X ) que también lo sea para .
Esto significa que si una partición n será suficiente minimal si este es suficiente y
cualquier otra partición suficiente es una subpartición de ella. O sea que un estadístico
se dice que es suficiente minimal si induce una partición suficiente minimal. Por lo que
nos interesa encontrar una partición suficiente lo menos fina posible.
Note que usando el teorema de la factorización se tiene que son estadísticos suficientes
para para una distribución normal
Demostración.
Sea T” otro estadístico suficiente. Como T es suficiente minimal para todo
Se sabe que para una medida de probabilidad discreta P definida sobre n con función
de probabilidad puntual p; entonces si Bn entonces P(B) = 0 si y solo si
̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅
B 𝑆 = {𝑥𝑝(𝑥) > 0} = 𝑆 𝑐 , complemento del soporte de p.
Esto fija que tanto en el caso discreto como en el absolutamente continuo los eventos de
probabilidad 0 ( imposibles) dependen únicamente del soporte S de p
14
T = r(X) = (r1(X); :::;rm(X));
donde
𝑝(𝑥, 𝜃𝑖 )
𝑟𝑖 =
𝑝(𝑥, 𝜃0 )
Demostración:
𝑡 𝑠𝑖 𝑖 = 1, . . , 𝑚
𝑔(𝑡, 𝜃𝑖 ) = { 𝑖
1 𝑠𝑖 𝑖 = 0
Se tiene que
Sea T’ = r’(X) otro estadístico suficiente, por el teorema de factorización se tiene que
p(x; i) =g’(r(x); í)h’(x) como
𝑝(𝑥, 𝜃𝑖 )
𝑟𝑖 =
𝑝(𝑥, 𝜃0
𝑔′ (𝑟 ′ (𝑥),𝜃𝑖 )
ℎ𝑖 (𝑡) =
𝑔′ (𝑟 ′ (𝑥),𝜃0
Cuando se trabaja con una función de densidad de probabilidad que pertenece a la
familia exponencial el siguiente Teorema da un método para su determinar un
estadístico suficiente minimal.
Demostración
15
𝜀1 = (1 0 … 0)𝑇 , … , 𝜀𝑛 = (0 0 … 1)𝑇
son vectores de m . Como i = 1 se tiene que |‖𝑖 −0 ‖ =‖0 𝜀𝑖 ‖ = 𝛿. Esto fija
que i S(0 ,} y que i B. Por lo tanto existen i, i=0,1,…,m, tales que
i = (c1( i ),…, cm( i ).
Como ya se probó, cuando =0 ={0 , 1 , ….m } un estadístico será suficiente
minimal es expresado por
donde
𝑝(𝑥, 𝜃𝑖 ) 𝐴(𝜃𝑖 )
𝑟′𝑖 = = exp (∑ (𝑐𝑗 (𝜃𝑖 ) − 𝑐𝑗 (𝜃0 )) 𝑟𝑗 (𝑥)) == 𝐾𝑖 𝑒𝑥𝑝((𝑖 − 0 )𝑇 𝑟(𝑥))
𝑝(𝑥, 𝜃0 ) 𝐴(𝜃0 )
= 𝐾𝑖 𝑒𝑥𝑝((𝛿𝜀𝑖 )𝑇 𝑟(𝑥)) = 𝐾𝑖 𝑒𝑥𝑝((𝛿𝜀𝑖 )𝑇 𝑟𝑖 (𝑥))
Tomemos una par de vectores aleatorios X;Y y supongamos que existen g y h tales que
para todo
Veamos que entonces existe un conjunto A={xh(g(x))=x} tal que P(XA) = 1, para
todo de manera que g, restringida a A será biunívoca .
Tomemos B ={Y = g(X)}; C ={X = h(Y)} entonces P(B) = P(C) = 1, cualquiera sea
y BC{XA}. Entonces {XAc } Bc Cc y por lo tanto
De ahí que
16
Teorema 3.7.Sean T y T’ dos estadísticos suficientes minimales. Entonces existen g y A
tales que P(T’ = g(T)) = 1; P(TA) = 1 y g es biunívoca sobre A.
Sea (,, P), P P, siendo P una familia de medidas de probabilidad con función de
densidad del tipo exponencial de k-parámetros
k
f ( x | ) h( x) exp ijU j ( x) V ( ), (1,..., k )T k
j 1
.
Considerando que x* es tal que f(x|)>0 y su coset al hacer la partición
f ( x, ) k
g ( x) h( x )
C ( x*) x | x , P k ( x, x*) x | x , exp ij (U j ( x) U j ( x*) h( x, x*)
g P ( x*) f ( x*, ) h ( x*) j 1
(2 X Y )n
X 1 1
Tomando 1 , 2 Y2 , 3 2 , 4 2 es evidente que esta densidad es una de
X2 Y 2 X 2 Y
la familia 4-exponencial. De ahí que es un estadístico suficiente minimal se
n n n n
T
i 1
Xi ,
i 1
Yi ,
i 1
X i2 ,
i 1
Yi2 .
n n n n
2
T*
Xi , Yi ,
i 1
X i2 Y i
.
i 1 i 1 i 1
Completitud
Proposición. 3.8. Sea (, P), P P, =]-, [y P una familia de medidas de
probabilidad con densidad respecto a una medida sigma-finita [del tipo exponencial de
k-parámetros dada por
k
f ( x | ) h( x) exp
ijU j ( x) V ( ), (1,..., k )T k
j 1
17
Un estadístico es suficiente completo si contiene el rectángulo k-dimensional es
T
k k
U ijU j ( x1),..., ijU j ( xn )
j 1 j 1
Demostración
f
(u1,..., uk ) P (du1,..., duk ) f (u1,..., uk ) P (du1,..., duk ), Q
Ahora
k
P (du1,..., duk ) exp j u j (du1,..., duk )
j 1
(du1,..., duk ) f (u1,..., uk ) (du1,..., duk ), (du1,..., duk ) f (u1,..., uk ) (du1,..., duk )
Definición 3.9. Sea X una variable aleatoria cuya distribución pertenece una familia
{F; } un estadístico V se dice que es auxiliar ( ancillary) si P(V ) es independiente
de .
Definición 3.10. Sea X una v.a. con distribución perteneciente a una familia de
distribuciones completa. Se dice que un estadístico T es completo si para cualquier
función medible g se cumple que si E(g(T)) = 0 para todo entonces g(T) = 0.
El término “completo” proviene del Análisis Funcional donde se dice que U(x) es
completo si p(U) es completo en el espacio de la funciones cuadrado integrables en el
rango de definicion de U(x), L2(U). En Álgebra Lineal consideramos las funciones de U
como vectores donde los operadores suma y producto generan nuevas funciones de U, y
no usamos sino el común análisis vectorial. Entonces la condición de completo surge de
decir que p(U) genera el conjunto de todas las funciones de U.Esto es, cualquier
función ortogonal a p(U) es cero. Note que 𝐸(𝑔(𝑈|𝜃)) = ∫ 𝑝(𝑢|𝜃)𝑔(𝑢) lo
podemos ver como un producto.
Demostración.
Sea T’ un estadístico suficiente minimal, entonces existe una función medible g tal que
T’ = g(T) pues T es suficiente. Sea h(T) = T- E(TT’ ) = T- E(Tg(T)). Dado que
Se cumple que h(T): = 0, dado que T es completo, por lo que T: = E(TT ‘) = (T’).
Entonces la partición asociada a T, (T) ,es más fina o igual a la de T, ’(T), por lo que
estas son iguales pues T’ es minimal, de ahí T también es minimal.
Ahora podemos fijar la relación entre un estadístico suficiente completo y una auxiliar
(ancillary) . El siguiente la fija..
Teorema 3.10. (Basu). Sea X una variable aleatoria. con distribución perteneciente { F
, }. Consideremos que T es un estadístico suficiente y completo y V un estadístico
auxiliar (ancillary), entonces T y V son independientes.
Demostración.
Sea
19
para A fijo, entonces g(T) es independiente de y
ya que si
1 siV ∈ A
IA = {
0 en otro caso
entonces
por ser T completo, g(T) = 0 para todo por lo que P(V A) = P(V AT), lo que
demuestra que T y V son independientes.
es porque T(x)=0 necesariamente para todo x=0,1,...,n O sea que T(x)=0 casi
seguramente para todo, P P. Este polinomio tiene a lo más n raíces no nulas pero
toma un valor igual a cero para todo , por lo que sus coeficientes tienen que ser
iguales a cero. Esto prueba que esta familia es completa pues satisface la definición de
completitud.
Consideremos la condición
C1: Si S es un estadístico suficiente
i) gBS=BS, gG.
ii) Si TS BS es quasi-invariante entonces existe una función invariante TSI BSI
equivalente a TS (TSI(X)=𝑐𝑠 TS(X))., para toda PP
Denotando la esperanza condicional de T para cualquier otro estadístico BS medible
como E(TBS) tenemos el siguiente resultado
Demostración
TSI(X) es alguna función BS-medible y como esta es también invariante tenemos que
g*TSI(X)BS)=g*E(TI(X) )BS)=TSI(X)=E (TI(X) )BS)
De estos resultados se desprende que si T es invariante toma los mismos valores para
todo x en la misma órbita.
Definición 3.14 Si T asume un valor diferente en cada órbita se dice que es invariante
maximal.
21
Ejemplo 3.5. Sea G={g: gxi=xi+c, i=1,…,n. Consideremos el estadístico determinado
por el conjunto U={(y1,…,yn-1): yi=xi-xn,i=1,…n-1} y sea U(x)= (y1,…,yn-1)T. Tomemos
dos puntos x* y x** de tales que U(x*)=U(x**) entonces x**=x*+(xn** -xn* )1n
Por lo que x* y x** están en la misma órbita y se tiene que U es maximal invariante.
Otras condiciones permiten garantizar la invarianza, vea por ejemplo Zacks ().
Consideremos una sucesión de experimentos {1 ,2 ,...} que genera la sucesión de
variables aleatorias {X1 ,X2 ,...,} con Xi , i=1,2,... Para la sucesión se tiene el espacio
muestral n, n=1,2.,.... Es un espacio Euclidiano y n es la correspondiente sigma
álgebra y Pn la familia de probabilidad. Entonces trabajamos sobre {n , n }, n=1,2..,
Consideremos además que 1 2 ....
Definición 3.15 . Una sucesión {T(X1),..., T(X1,...,Xn),...} tal que T(X1,...,Xn)n se dice
que es una sucesión transitiva para el modelo secuencial. Si para toda función g n0 –
medible e integrable para toda Pn Pn sobre n se tiene que E[g(X1 ,..,Xn ) n-1]=cs
E[g(X1 ,..,Xn ) 0n-1], Pn , n=1,2,.. donde n es la sub-sigma álgebra generada por
T(X1,...,Xn )=Tn
Note que si {Tn, n=1,2,...} es una sucesión transitiva para el modelo secuencial
{n, , Pn}
Toda versión de la distribución condicional de Tn dado (X1 ,..., Xn-1 ) depende solo de
Tn-1. O sea es equivalente a la distribución de Tn dado Tn-1.
Esta definición fija que si un experimento es suficiente para otro no tenemos que hacer
este segundo experimento. Una definición formal es la que sigue:
22
Definición 3.16. Sea { , ,P}, un espacio de probabilidad asociado al
experimento 1 y {* , * ,P*}, el asociado al experimento 2. Se dice que 1 es
suficiente para 2 si existe una transformación estocástica G: { , ,P},-->{ , ,P}
tal que , C*
P*(C )=G(Cx) P(dx),
Demostración:
𝑄(𝐶, 𝐶 ∗) = 𝑃𝜃2 (𝑥2 )𝑃𝜃4 (𝐶 ∗) = ∫ 𝐺1 (𝐶𝑥 )𝐺2 (𝐶 ∗ 𝑥∗ )𝑃𝜃1 (𝑑𝑥)𝑃𝜃3 (𝑑𝑥 ∗)
De ahí que
23
{,A,H}. H es llamada medida de probabilidad a priori de y denotamos por H la
familia de estas. Tanto H como P están dominadas por una medida sigma finita. Sean
ellas M y M* respectivamente. La densidad de la variable aleatoria X es f(x;). Esta es
una versión de la densidad de P respecto a M sobre {,} y h () es una versión de la
densidad a priori de H respecto a M*. Entonces la versión de la densidad conjunta de la
variable (X,) sobre {, A} es
El conjunto X*={x:f(x)=0} tiene medida nula con respecto a casi todas las medidas de
probabilidad P; . Note que
De ahí que
Proposición Dado algún modelo Bayesiano con espacio de probabilidad {, A,
PH} el estadístico T:{, , P}:{*, ,PT} es Bayesiano suficiente si es suficiente
para P.
Demostración:
24
Existe una medida no negativa -medible k(x) y otra función -medible no negativa
g(T(s);) la cual, para un fijo,
ℎ(𝜃)𝑔(𝑇(𝑋); 𝜃)
ℎ(𝜃𝑋) = ,
∫ ℎ()𝑔(𝑇(𝑋); )𝑀∗ (𝑑𝜃)
La densidad inducida por T(X) puede ser escrita, dada la definición de k(x) y la
estructura de 𝑓(𝑥), como
J(x) es una función non negativa constante sobre los cosets {T(x)=t}. De ahí que la
densidad a posteriori de dado T(X)=t es
ℎ(𝜃)𝑔(𝑡; 𝜃)
ℎ(𝜃𝑇(𝑋)) = ,
∫ ℎ()𝑔(𝑡; )𝑀∗ (𝑑𝜃)
𝑓(𝑥; 𝜃)ℎ(𝜃)
ℎ(𝜃𝑋) ∫ 𝑓(𝑥; )𝐻(𝑑) 𝑓(𝑥; 𝜃)ℎ(𝜃)
= ∗ ∗ =
ℎ(𝜃 ∗ 𝑋) 𝑓(𝑥; 𝜃 )ℎ(𝜃 ) 𝑓(𝑥; 𝜃 ∗ )ℎ(𝜃 ∗ )
∫ 𝑓(𝑥; )𝐻(𝑑)
25
Note que g (T(X),) es una función T-medible. Haciendo k(X)=f(X,*).que es una
función no-negativa -medible podemos escribir
𝑓(𝑋, 𝜃) = 𝑘(𝑋)exp{𝑔(𝑇(𝑋), 𝜃}
𝑃(𝑆 ∩ 𝑆`)
𝑃𝑆` (𝑆) = 𝑃(𝑆 ∩ 𝑆`), 𝑃 𝑆` (𝑆) = , 𝑆𝐴, 𝑆`𝐴, 𝑃(𝑆`) > 0
𝑃(𝑆`)
𝑔(𝑃) 𝑔(𝑃 ∗ ) 𝑈
= 𝑠𝑖 𝑃(𝑈)𝑃∗ (𝑈) > 0 𝑦 𝑃+ = 𝑃𝑈
𝑃(𝑈) 𝑃 ∗ (𝑈)
También la de la localización de un parámetro
Ejemplo 3.6.
Note que un parámetro homogéneo sobre * está localizado por * pero que el
reciproco no es cierto.
26
En particular utilizaremos la notación {X, P} y en la mayor parte de los casos
recurriremos a la función de densidad f =f(x,) que es densidad de la ley de
probabilidad P respecto a la medida de Lebesgue o la contadora.
Pn =j=1n (Xi)/n
Ejemplos 3.8.
Ejemplos 3.9.
27
𝑇 ∗ (𝑋𝑖(1) ,…,𝑋𝑖(𝛼) )
𝑈(𝑋1 , … , 𝑋𝑛 ) = ∑𝑖(1)<⋯<𝑖(𝛼) .
𝐶𝑛𝛼
Ejemplos 3.10
EJERCICIOS
a) (X1 + X2 + ··· + Xn, X1X2 ··· Xn) es suficiente para (k, b).
b) (M, U) es suficiente para (k, b) donde M es la media muestral y U la
geométrica.
28
a) La Gamma con a > 0, b > 0.
b) La exponencial trasladada con parámetro
𝑒𝑥𝑝(−(𝑥−𝜃))
𝑓(𝑥|𝜃) = , 𝑥(𝜃, ∞), 𝜃 .
2𝑏
15. Sea 𝑋𝑖1 , … , 𝑋𝑖𝑛𝑖 , 𝑖 = 1,2; 𝑋𝑖𝑗 ~𝑁(𝜇, 𝜎𝑖2 ), 𝜃 = (𝜇, 𝜎12 , 𝜎22 )(0, ∞)2 = . a)
Pruebe que la distribución conjunta es de la familia exponencial. Diga si dado un
estadístico suficiente para este es completo.
16. Sea 𝑋𝑖 , … , 𝑋𝑛 , 𝑋𝑖 ∈ {0, … , 𝑘}, 𝑖𝑖𝑑, 𝑃(𝑋 = 𝑖) = 𝑃𝑖 . Pruebe que (T1, . . . , Tk),
Tj=número de veces que se observó j, es suficiente y completo para esta familia de
distribuciones.
17. Sea X1, . . . ,Xn una muestra aleatoria independientes e idénticamente
distribuidas con función de densidad
1
𝑓(𝑥𝑖 |𝜃) = , 𝑥𝑖 ∈ (𝑖(𝜃 − 1), 𝑖(𝜃 + 1))
2𝑖𝜃
Halle un estadístico suficiente bidimensional para .
18. Sea X1, . . . ,Xn una muestra aleatoria independientes e idénticamente
distribuidas con función de densidad
𝑒 −(𝑥−𝜃) ,
𝑓(𝑥|𝜃) = , 𝑦 ∈ , 𝑦 = 𝑥,
(1 + 𝑒 −(𝑥−𝜃) )2
19. Halle un estadístico suficiente minimal para .
20. Sea X1, . . . ,Xn una muestra aleatoria independientes e idénticamente
distribuidas con función de densidad
𝑓(𝑥|𝜃) = 𝑒 −(𝑥−𝜃) , 0 < < 𝑥 < ∞ Halle un estadístico suficiente minimal para .
21. Sea X1, . . . ,Xn una muestra aleatoria independientes e idénticamente
distribuidas con función de densidad
𝑓(𝑥|𝜃) = 𝑒 −(𝑥−𝜃) , 0 < < 𝑥 < ∞ Pruebe que X(1) y S2 son independientes.
22. Si X1, ..., Xn es una sucesión de variables Bernoulli con el mismo parámetro
0<p<1 pruebe que es completo para p el estadístico y Y = X1 + ··· + Xn.
23. Pruebe que si la distribución de la sucesión definida anteriormente es Poisson o
Exponencial se mantiene la completitud para la suma respecta al parámetro.
1 1
24. Pruebe que la completitud de Y se pierde en el caso Bernoulli si 𝑝 ∈ {3 , 2}
Ejercicios Avanzados
x2
exp
2S
si x0
1 2S
1
f (x | S) si 0 x 1
1 2S
( x 1) 2
exp
2S
si x 1
1 2S
29
Si 0<S< halle un estadístico suficiente minimal si tenemos dos variables aleatorias
independientes con densidades f(x|S) y f(x*|S*). (Sugerencia: Use los cosets
correspondientes).
2. Sea G={g: gxi=cxi, 0<c<, i=1,…,n}. Consideremos el estadístico determinado
por el conjunto U={(y1,…,yn-1): yi=xixn-1,,…i=1,…n-1} . Pruebe que U es maximal
invariante.
3. Sean i, i=1,..,n, experimentos asociados a los espacios de probabilidad {i , i
,Pi} y *i, i=1,..,n, experimentos asociados a los espacios de probabilidad {*i , *i
,P*i},, respectivamente. Si *i es suficiente para *i para todo i, entonces 1 …n.
4. Sea 𝑋𝑖 , … , 𝑋𝑛 , 𝑋𝑖 ~𝑈(0, 𝜃), pruebe que:
a) T es absolutamente continuo con densidad:
𝑛𝑥 𝑛−1
𝑓(𝑥|𝜃) = , 𝑥(0, 𝜃), 𝜃
𝜃𝑛
(Calcule primero P(Tt) ).
b) Calcule el ECM de T.
c) Pruebe que T suficiente y completo en la clase de distribuciones anterior.
5. Sea una muestra ordenada X(1), < . . <X(n) i.i.d. con distribución U[0, ], > 0.
Pruebe que
a. n( − X(n) )) P Exp(1/).
b. n1/2(2X(k) −)P N(0, 2) para k = ½n+o(n1/2).
c. Que estimador prefiere? Explique su respuesta.
6. Si X tiene una distribución perteneciente a la familia exponencial k-paramétrica
y U = h(X). es el estadístico suficiente natural pruebe que es minimal. Compruebe que
también es un estadístico suficiente de las familias de distribuciones Bernoulli, Poisson,
normal, Gamma y Beta son minimales.
4. LA ESTIMACIÓN PARAMÉTRICA
Consideremos que tenemos el modelo {, P; }. El caso de la estimación puntual es
aquel en el que el espacio paramétrico cumple conque . Este es el conjunto de los
posibles estado de la naturaleza. Diremos que {, P} es la experiencia elemental y que
f(x)=f(x)=f(x;) es la densidad de la media de probabilidad P. El parámetro es la
selección de la naturaleza y es desconocido su valor *. El estadístico considera este
problema decisional y hacer n experiencias y si estas son independientes el modelo de
muestreo es {, P}n . La información que obtiene de esta experiencia es muestra la
{X1,…,Xn}. Si el interés está centrado en una aplicación g() definida sobre el
espacio de las posibles decisiones es D=g().
30
sentido al parámetro. Usar la función de pérdida nos da una idea de las bondades del
estimador. En general trataremos de que L(d,g())) sea dos veces derivable, que estas
derivadas sean continuas y estrictamente convexas en una vecindad de la decisión
correcta d*=g(*). Es decir que si V(*) es tal vecindad se cumplan las condiciones de
regularidad:
2
𝜕𝐿(𝑑∗ ,𝑔(𝜃∗ )) (𝑑−(𝑔(𝜃∗ ))
𝑃1. 𝐿(𝑑, 𝑔(𝜃 ∗ )) = 𝐿(𝑑 ∗ , 𝑔(𝜃 ∗ )) + (𝑑 − (𝑔(𝜃 ∗ )){ + },
𝜕𝑑 2
𝑑 ≤ 𝑑 + ≤ 𝑔(𝜃 ∗ ).
𝑃2. 𝐿(𝑑 ∗ , 𝑔(𝜃 ∗ )) = 0
𝜕2 𝐿(𝑑+ ,𝑔(𝜃∗ ))
P3. 𝑑+ 𝑉(𝜃 ∗ ), >0
𝜕𝑑2
En general usaremos la pérdida cuadrática
𝐿(𝑑, 𝑔()) = (𝑑 − 𝑔())2
Bajo estas condiciones de regularidad la función de pérdida puede ser aproximada por
una serie de Taylor en una vecindad de V(*).
Definición 4.2. Sean T y T* dos estimadores de g(). Se dice que T es más eficiente
que T* si .R(T, )R(T*,), para todo .
𝑇 = 𝐵0 + ∑ 𝐵1 𝑋1 , 𝐵𝑖 , 𝑖 = 0,1, … , 𝑛 𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑜𝑠
𝑖=1
Definimos la clase de los estimadores lineales.
31
𝐸(𝑇) = 𝑔(𝜃) + 𝐵(𝜃)
Se define B() como el sesgo del estimador. Es lógico buscar estimadores que tengan
sesgo cero.
32
Como se apuntara una propiedad muy popular es la de insesgadez. Note que esta
establece que el promedio del estimador coindice con el parámetro. Es decir que si
utilizamos este en forma repetida se espera que el promedio de las estimaciones esté
cerca del valor desconocido del parámetro. Sin embargo esto no es suficiente para
aceptar un estimador solo por ser insesgado. Denotemos esta clase como
Ejemplo 4.5: Sea F=N(, 2) entonces =+. Si nos interesa g(,2)=(, 2)
podemos considerar el estimador
2)
(𝑋1 − 𝑋𝑛 )2
𝑔̂(𝜇, 𝜎 = (𝑋1 , )
2
Este es insesgado pues E(X1)= y
(𝑋1 − 𝑋𝑛 )2 1 1
𝐸[ ] = 𝐸(𝑋12 + 𝑋𝑛2 − 2𝑋1 𝑋𝑛 ) = (2(𝜇 2 + 𝜎 2 ) − 2𝜇 2 ) = 𝜎 2
2 2 2
Es claro que este estimador no utiliza toda la información que provee la muestra pues
trabajamos con un estadístico no suficiente. Por tanto no parece ser un estimador
insesgado aceptable.
f ( x, )
2
Consideremos la información de Fisher I ( ) E y que se cumplen las
f ( x, )
hipótesis (condiciones de regularidad) siguientes
Q
f ( x, )dx
Q
f ( x, )dx
Una cota para el error cuadrático medio de estimadores tales que E (T)= es dada en el
teorema siguiente.
33
Teorema 4.2. Suponga que T es un estimador insesgado con varianza finita para g() y
que se cumplen H1-H4 (las hipótesis de Cramer-Rao), X=(X1 ,…,XN ), y
f ( x, )
Q
T ( x)
dx ,
Entonces
1. g() es derivable
2. , V(T)g´()/In (), (Desigualdad de Fréchet-Darmois-Cramer-Rao,
FDCR)
Demostración:
Validez de 1.
E(T)= T(x)f(x,)=g()
H5 garantiza que
f ( x, )
T ( x) f ( x, )dx T ( x)
Q Q
dx
Validez de 2.
f ( x, )
g´( ) T ( x) dx
H1 soporta que
g´()=E(TS)-E(T)E(S)=Cov (T,S).
34
Nota: BF=g´2()/In() es llamada la cota de Frèchet.
Demostración
que la verosimilitud es
𝑛 1 1 𝑛
− (𝑥 −𝜇)2 − ∑ (𝑥𝑖 −𝜇)2
𝑒 2𝜎2 𝑖 𝑒 2𝜎2 𝑖=1
𝐿(𝜇) = ∏ = 𝑛
𝑖=1
𝜎√2𝜋 (𝜎√2𝜋)
𝑛
𝑛 𝑛 1
y log 𝐿(𝜇) = − log(2𝜋) − log 𝜎 2 − 2 ∑ (𝑥𝑖 − 𝜇)2
2 2 2𝜎
𝑖=1
35
𝜎2
Como 𝑉(𝑥̅ ) = y
𝑛
𝜕 𝑛2 𝑛2 𝑛
𝐸(𝜕𝜇 (log 𝐿(𝜇)))2 = 𝜎4 𝐸(𝑥̅ − 𝜇)2 = 𝜎4 𝑉(𝑥̅ ) = =𝐼𝑛 (𝜇)
𝜎2
Teorema: Sea T* un estadístico tal que E(T*)=0. Una condición necesaria y suficiente
para que un estimador T sea optimal es que Cov(T*,T)=0.
Demostración:
Necesidad
Suficiencia
V(T´)=VD+T)=V(D)+V(T)
Entonces
V(T´)-V(T)=V(D) 0
Demostración
36
Si T es optimal y existiese otro T´ optimal tendríamos que
V(T´)=V(D)+V(T)+2Cov(D,T)
V(T´)=V(T) por lo que V(D)=0. Por tanto D-E(D)=0, CS. O sea que D=0, CS.
Log f(x,)=a()T(x)+b()+c(x)
Demostración:
Necesidad
[T-g()]q()+w()S(x,)=0, CS.
Para ello supongamos que existe * tal que w(*)=0. Como que y w no pueden
anularse al mismo tiempo q()0 por lo que T(x)=g(*), xN(), siendo N() un
conjunto de probabilidad nula.
Determinemos una ecuación diferencial del tipo precedente evaluable para todo x
excepto en un conjunto N* independiente de de probabilidad nula.
37
Sea K= y N= N().
Tenemos que
f ´(x, i )
i K , x N k ( i )T ( x) g ( i )
f ( x, i )
Como P es denso en por lo que K lo es en .
De ahí que , existe una sucesión {i }, con i , para todo i que converge a . Del
hecho de que g es derivable se sigue su continuidad por H7 y
x N
f ´(x, i ) f `( x, )
lim i
f ( x, i ) f ( x, )
lim i T ( x) g ( i ) T ( x) g ( )
Podemos garantizar la existencia de al menos un x*N tal que T(x*)-g()0, sino g()
seria constante CD lo que es imposible. Y para un x* tal que T(x*)g()
x N
f ´(x*, i ) 1 f ´(x*, )
lim i k ( i ) . [T ( x*) g ( )]1 k ( )
f ( x*, i ) T ( x*) g ( i ) f ( x*, )
De ahí que
x N
f ´(x, i ) f `( x, )
lim i lim i k ( i )[T ( x) g ( i )] k ( )[T ( x) g ( )]
f ( x, i ) f ( x, )
Hemos establecido que
f ´(x, ) f `( x*, )
k ( )[T ( x) T ( x*)]
f ( x, ) f ( x*, )
Para x* fijo, T(x)-T(x*) es integrable sobre y xNc , T(x)T(x*) por lo que k() es
integrable sobre usando el hecho de que:
Si h y v son integrables entonces hv lo es
Si h y v son integrables y v es acotada y de signo constante entonces h/v es
integrable.
38
Suficiencia
h( x, ) h( x*, )
a( )
T ( X ) T ( x*)
La derivada a´() existe . De esto se sigue que b´() también existe. Por ello
podemos escribir
f ´(x, )
S ( x, ) a`( )T ( x) b´( )
f ( x, )
Como E(S)=0
f ´(x, )
a`( )[T ( x) g ( )]
f ( x, )
V(T)=g´2()/I()
Pudiendo escribirse
E(S2(x,))=I()=a´()V(T).
Trabajar con estimadores insesgados es relativamente sencillo. Eso les han hecho muy
populares. Partiendo de uno este siempre puede ser mejorado. El Teorema de Rao-
Blackwell fija esto. A pesar de que este no permite determinar un estimador optimal es
posiblemente el resultado más importante dentro de la teoría de estimación.
Demostración
39
Como U es suficiente la ley condicional dado U=u no depende de y
H(u)=TdP(xU=u) no depende de .
V(T)=EU(E((T-g())2U=u)EU(H(u)-g())2=V(H(U)).
Demostración.
E(H(U))=EUE(TU=u)=EUE(SU=u)=E(Z(U))=g()
H es optimal.
𝑔: 𝑝
40
Podemos deducir los teoremas de Rao-Blackwell y Lehmann-Scheffè en un marco más
general lo que permitirá hacer un estudio más amplio de problemas de la insesgadez y la
optimalidad de estimadores insesgados. Veamos primero un lema auxiliar.
Lema 4.9.. Sea el modelo paramétrico {, A, F; }. : (,A)(, B) un estimador
de g() y T: {, A, F}{*, AT, FT } un estadístico y la pérdida cuadrática
L((X), g()). Entonces
Demostración
Como g*(T) es AT medible y , E( (X)- g*(T)AT))=0, aplicando l ley de las
esperanzas iteradas
Demostración
La igualdad es válida solo si (X) es AT-medible lo que implica que (X) =CS g*() por
lo que L ((X),g*())>0 solo en conjunto de medida nula.
41
de funciones de distribución {F ;}. Si g() es estimable admite un estimador
insesgado para la función de pérdida cuadrática que es AT-medible y que es
esencialmente único.
Demostración
En este contexto general se pueden deducir resultados válidos para funciones de pérdida
más generales, como las convexas, bajo ciertas condiciones adicionales.
Tomemos dos puntos de n : Xn y Xn* , una constante 0a1 y una función convexa
((aXn +(1-a)(Xn*)a(Xn+(1-a)(X*n)).
Proposición 4.12. Sean X1,…,Xn variables aleatorias con distribución F, una función
convexa sobre n integrable respecto a F y que existe E(X1,…,Xn)=E(Xn). Entonces
(E(Xn)). E((Xn)).
donde
Demostración
Se sabe que para la funciones convexas a través de un punto X0n pasa el hiperplano
(X, X0)=(X0)+((X0)T(X-X0) que se encuentra completamente por debajo de (X) y
coincide con ella en X0. (Hiperplano soporte). (X0) denota el gradiente que se supone
existe en una vecindad de X0.
Denotemos por 0(X*) el hiperplano soporte de (Xn) a través de E(Xn). Para todo
Xnn tenemos que ( Xn)( Xn )=(E(Xn ))+((( E(Xn))T(Xn-E(Xn)).
Los componentes de (( E(Xn) son finitos y como E(Xn-E(Xn))=0 se tiene que E((
Xn)E((Xn)=E(Xn ) que era lo que debíamos probar.
Proposición 4.13. Sean X1,…,Xn variables aleatorias con distribución no degenerada F,
T un estimador tal que E(T)=g() y S(Xn) un estadístico suficiente y completo en la
familia de funciones de distribuciones { F;} que induce la sigma álgebra AS . Si
g*(S(Xn))=E(T(Xn) S(Xn)) es un estimador insesgado de g(). Entonces si la pérdida es
una función convexa no constante para todo
42
E (L(g*(S(Xn)), g())E (L(g*(T(Xn)), g())
Demostración
0 𝑠𝑖 𝑧(𝑋̅, 𝑄) ≤ 0
𝑛 𝑛
𝑃∗ ((𝑋1 , … , 𝑋𝑛 )) = {𝐼𝑧(𝑋̅,𝑄) ( − 1, − 1) 𝑠𝑖 0 ≤ 𝑧(𝑋̅, 𝑄) ≤ 1
2 2
̅
1 𝑠𝑖 𝑧(𝑋, 𝑄) > 1
𝑋̅ 𝑛
1− √ 𝑧(𝑋̅ ,𝑄) 𝑛
𝑄 1/2 𝑛 − 1 𝑛 𝑛 𝑛
𝑧(𝑋̅, 𝑄) = , 𝐼𝑧(𝑋̅,𝑄) ( − 1, − 1) = ∫ 𝑢 2−2 (1 − 𝑢) 2−2
2 2 2 0
𝑛 𝑛
𝐼𝑧(𝑋̅,𝑄) (2 − 1, 2 − 1) es la distribución Beta incompleta de argumento positivo ,
𝑛−2 𝑛−2
𝛽( , ), que es independiente de (𝑋̅, 𝑄).
2 2
43
𝑛−2 𝑛−2
Como si 𝛽 ( , ) es independiente de una variable con distribución 2(n-1) la
2 2
𝑛−2 𝑛−2
distribución de 𝛽 ( , ) (2(n-1))1/2 se aproxima a una N(0,1). De la definición de
2 2
𝑧(𝑋̅, 𝑄)
se deriva que
𝑋̅ 𝑛
1− 1 √𝑛 −1
𝑛−2 𝑛−2 𝑄2
𝐸(𝑃∗ ((𝑋1 , … , 𝑋𝑛 )) = 𝐸 (𝑃 {𝛽 ( , )}) ≤ (𝑋̅, 𝑄)
2 2 2
{ }
𝑛−2 𝑛−2 𝑛
= 𝑃 {𝜎 (2𝛽 ( , ) − 1) √2 (𝑛 − 1) ≤ −𝑋̅√ }
2 2 𝑛−1
𝑛 1
= 𝑃 {𝑁1 (0, 𝜎 2 ) + 𝑁2 (𝜇√ , 𝜎2√ ) ≤ 0}
𝑛−1 𝑛−1
Proposición 4.14. Sea {, A, F; } un modelo estadístico y g una función estimable
g:a,b. * es un estimador insesgado localmente de mínima varianza de g()
en * si y solo si 𝑐𝑜𝑣𝜃∗ (𝜑 ∗ (𝑋), 𝑓(𝑋)) = 0, donde f(X) es un estimador insesgado de
0 si 𝑉𝜃∗ (𝑓(𝑋)) < .
Demostración
X debe ser un estadístico suficiente minimal pues en otro caso el teorema de Blackwell-
Rao-Lehmann-Scheffé implicaría que * no puede ser un estimador de mínima
varianza en =*. Si la clase es completa este mismo teorema soporta que * tiene esa
propiedad para todo . Por tanto consideremos que la familia no es copeta. Además
consideremos que f(X) es un estimador no trivial. Veamos ahora que la condición de que
la covarianza sea nula es necesaria y suficiente.
44
Necesidad
Si *(X) tiene la propiedad en =* y 𝑐𝑜𝑣𝜃∗ (𝜑 ∗ (𝑋), 𝑓(𝑋)) > 0 un tenemos un
estimador 𝜑1 (𝑋) = 𝜑 ∗ (𝑋) + 𝑓(𝑋) tal que −2[𝑐𝑜𝑣𝜃∗ (𝜑 ∗ (𝑋), 𝑓(𝑋))𝑉𝜃∗ (𝑓(𝑋))] <
< 0. Entonces en *
𝑉𝜃∗ (𝜑1 (𝑋)) = 𝑉𝜃∗ [𝜑 ∗ (𝑋)] + 2𝑐𝑜𝑣𝜃∗ [𝜑 ∗ (𝑋), 𝑓(𝑋)] + 2 𝑉𝜃∗ [𝑓(𝑋)]
Dada la definición de
2𝑐𝑜𝑣𝜃∗ [𝜑 ∗ (𝑋), 𝑓(𝑋)] + 2 𝑉𝜃∗ [𝑓(𝑋)]
𝑉𝜃∗ [𝑓(𝑋)]
= 2𝑐𝑜𝑣𝜃∗ [𝜑 ∗ (𝑋), 𝑓(𝑋)] (1 + )<0
𝑐𝑜𝑣𝜃∗ [𝜑 ∗ (𝑋), 𝑓(𝑋)]
Por tanto
𝑉𝜃∗ (𝜑1 (𝑋)) < 𝑉𝜃∗ [𝜑 ∗ (𝑋)]
Esto es una contradicción con respecto a lo que asumimos.
Un análisis similar nos lleva a probar que si 𝑐𝑜𝑣𝜃∗ [𝜑 ∗ (𝑋), 𝑓(𝑋)] = 0 entonces *(X)
no es un estimador localmente de mínima varianza en =*.
Suficiencia
Ejemplo 4.8. Sea Z1,…,Zn, variables iid con distribución N(,2(Z)) Z=X, Y. Tomemos
r=2(Z)/2(Z) desconocido. Sabemos que 𝑇 = (𝑋̅, 𝑄(𝑋), 𝑌̅, 𝑄(𝑌)) es un estadístico
∑𝑛 𝑍
suficiente y minimal pero su familia es no completa, 𝑍̅ = 𝑖=1 𝑖 , 𝑄(𝑍) = ∑𝑛𝑖=1(𝑍𝑖 −
𝑛
𝑍̅)2. Un estimador de es
𝑟𝑋̅ + 𝑌̅
𝜇(𝑟) =
1+𝑟
𝑟𝑋̅ + 𝑌̅ 𝑟 1
𝑐𝑜𝑣 ( , 𝑓) = 𝑐𝑜𝑣(𝑋̅, 𝑓) + 𝑐𝑜𝑣(𝑌̅, 𝑓)
1+𝑟 1+𝑟 1+𝑟
A partir de la distribución de las variables se tiene que
𝜎 2 (𝑋) 𝑟𝜎 2 (𝑋)
𝑋̅~𝑁 (𝜇, ) , 𝑌̅~𝑁 (𝜇, ) , 𝑐𝑜𝑣(𝑌̅, 𝑓) = √𝑟𝑐𝑜𝑣(𝑋̅, 𝑓)
𝑛 𝑛
45
De ahí que
𝑟𝑋̅ + 𝑌̅ (𝑋)√(1 − 𝑟)𝑟
𝑐𝑜𝑣 ( , 𝑓) = 𝑐𝑜𝑣(𝑈, 𝑓), 𝑈~𝑁(0,1)
1+𝑟 √𝑛(1 + 𝑟)
𝐸𝜃 [𝑓 ∗ (𝑋̅ − 𝑌̅; 𝑄(𝑋), 𝑄(𝑌))(𝑄(𝑋), 𝑄(𝑌)] =𝐶𝑆 0, para todo 𝜃 = (𝜎 2 (𝑋), 𝜎 2 (𝑌))
1
𝑐𝑜𝑣 (𝑢, 𝑓(𝑇) = 𝐸(𝑢𝑓 ∗ (𝑋̅ − 𝑌̅); 𝑄(𝑋), 𝑄(𝑌)) = 𝐸 {(2 (𝑓 ∗ (|𝑋̅ −
1
𝑌̅|); 𝑄(𝑋), 𝑄(𝑌))𝐸(𝑢 (|𝑋̅ − 𝑌̅|)) + 2 (𝑓 ∗ (−|𝑋̅ − 𝑌̅|); 𝑄(𝑋), 𝑄(𝑌))) × 𝐸(𝑢 |𝑋̅ −
𝑌̅|)} = 0
46
Veamos ahora bajo que condiciones existe solo un estimador insesgado de riesgo
mínimo si la función de pérdida es convexa.
Demostración
Note que la condición i) permite establecer que h-1(+iu) es analítica en la franja S por
lo que
(−𝑢)
ℎ−1 (𝜃 + 𝑖𝑢) = ∫ 𝑒 −(𝜃+𝑖𝑢)𝑡+(𝑡) 𝑑𝑡 =
𝐷 ℎ()
Entonces
𝑔( + 𝑖𝑢) (−𝑢)𝑔( + 𝑖𝑢)
=
ℎ( + 𝑖𝑢) ℎ()
Por tanto obtenemos que como w(t) es la transformada de Laplace de g(z)/h(z) definida
en el teorema
Este resultado nos permite derivar estimadores para problemas que solo pueden ser
justificados por esta vía. Veamos como se puede demostrar la validez de usar la media
muestral en la estimación de la función de densidad.
Ejemplo 4.9. Sea X1,…,Xn una sucesión de variables aleatorias iid con distribución
N(,1). La media muestral es un estadístico suficiente y completo. Busquemos un
estimador de la función de densidad
47
1 −(𝑥−𝜇)2
𝑔(𝑥, 𝜇) = √ 𝑒 2 ,
2𝜋
Derivemos 𝜑(𝑇) = 𝑒 −(𝑇) 𝑤(𝑇) para
𝑃𝑘 (, ) = 𝑃𝜇 {𝑀𝑎𝑥 (𝑋1 , … , 𝑋𝑛 ) ≤ }
La proposición anterior establece que
1 (𝑥−𝑋̅ )2
− ( 1 )
2
1−
𝑒 𝑛
𝜑(𝑥, 𝑋̅) = , 𝑥
√2𝜋 (1 − 1)
𝑛
𝑛𝜇2
−
𝑒 2 𝑡2
Entonces, haciendo 𝑇 = −𝑛𝑋̅, 𝑇~𝑁(−𝑛𝜇, 𝑛) o sea que si ℎ(𝑡) = , (𝑡) = − la
√2𝑛𝜋 2𝑛
función de densidad es
𝑓 𝑇 (𝑡, 𝜇) = ℎ(𝜇)𝑒 −𝑡𝜇+(𝑡)
𝑛𝑢2
𝑦 la función característica está dada por 𝑇 (𝑢) = 𝑒 −(𝑖𝑛𝑢𝜇+ 2
)
(𝑛−1)𝑢2
𝑇 (−𝑢)𝑔(𝑥; + 𝑖𝑢) = 𝑔(𝑥; )𝑒 − 2
+𝑖𝑢[(𝑛−1)𝜇+𝑥])
Estas dos últimas relaciones no existen si n=1, de ahí la necesidad de que se tome un
tamaño de muestra mayor que 1 para satisfacer la condición (ii) fijada en la proposición
𝑛𝑧2
−
𝑒 2
anterior. Note que ℎ(𝑧) = es analítica por lo que también lo es g(x,z) para cada
√2𝑛𝜋
x,lo que satisface la hipótesis (ii). Se comprueba que también (i) es satisfecha pues
la distribución de t posee todos sus momentos. Entonces podemos aceptar la validez de
la proposición y obtener la expresión de w(t) que es
1 𝑖∞ (𝑥 − 𝑧)2 (𝑧)2
𝑤(𝑡) = ∫ 𝑒 𝑧𝑡 (𝑒𝑥𝑝 {− }) (√2𝑛𝜋𝑒𝑥𝑝 { }) 𝑑𝑧
2𝑖𝜋 −𝑖∞ 2 2
𝑛 ∞ (𝑥 − 𝑖𝑢)2 𝑛(𝑧)2
=√ ∫ 𝑒 𝑧𝑡 (𝑒𝑥𝑝 {− − + 𝑖𝑢𝑡}) 𝑑𝑢
2𝜋 ∞ 2 2
1 𝑛 (𝑥)2 (𝑥 + 𝑢)2
=√ ( ) 𝑒𝑥𝑝 {− } 𝑒𝑥𝑝 {− }
2𝜋 𝑛 − 1 2 2(𝑛 − 1)
𝑡 2
Como 𝑇 = 𝑛𝑋̅ y multiplicando por 𝑒𝑥𝑝 {− 2𝑛} obtenmos que
48
1 (𝑥−𝑋̅ )2
− ( 1 )
2
1−
𝑒 𝑛
𝜑(𝑥, 𝑋̅) = , 𝑥
√2𝜋 (1 − 1)
𝑛
Es el estimador óptimo de la densidad.
Consideremos la norma
𝑝
‖𝑓‖𝑝 = √{∫ |𝑓(𝑥)|𝑝 𝑑𝑥}
Sean
un campo Boreliano definido sobre y * un sistema de conjuntos medibles y
acotados de con medida de Lebesgue finita.
S una aplicación de tal que si O,O** y OO* SOSO* y viceversa.
R *O* tal que SRO.
49
𝜑(𝑇) = 𝑢 (𝑒 (𝑇) )𝑒 −(𝑇)
Demostración
𝑔(𝑧)
𝑎+𝑖∞ 𝑧𝑡
∫𝑎−𝑖∞ 𝑒 ℎ(𝑧)
Como 𝑤(𝑡) = , tD, a se tiene que
2𝑖𝜋
1 𝑎+𝑖∞ 𝑒 𝑧𝑡
𝑤(𝑡) = 𝑢 (2𝑖𝜋 ∫𝑎−𝑖∞ ℎ(𝑧) 𝑑𝑧), tD, a
Estos dos resultados permiten deducir una serie de resultados muy útiles. Dos de ellos
son dos corolarios derivados simplemente de aplicando las tesis de estos.
𝜕𝑘
𝜑(𝑇) = 𝑒𝑥𝑝{(𝑇)} [𝜕𝑢𝑘 𝑒 (𝑡) ] es esencialmente el único estimador insesgado de
mínimo riesgo de g()=k..
Note que las hipótesis sobre las k+1 derivadas garantizan que se cumple que
∫ 𝑡𝑒 −𝜃𝑢+𝜑(𝑥) 𝑑𝑡 converge para todo 𝜃`, ` y 𝑔(𝑥), 𝑧 = 𝜃 + 𝑖𝑢 por lo que la
hipótesis fijada en el corolario sobre la función característica permite el uso de la
primera de las dos proposiciones vistas. Tomando el operador lineal de traslación
acotado t{f(t)}=(k /tk){f(t)} se tiene que se satisface la validez de
𝑒 𝜃+𝑖𝑡 𝑒 𝜃+𝑖𝑡
que∫ 𝑢 (ℎ(𝜃+𝑖𝑡)) 𝑑𝑡 = 𝑢 ∫ (ℎ(𝜃+𝑖𝑡)) 𝑑𝑡 . Esto implica la insesgadez de 𝜑(𝑇) =
𝜕𝑘
𝑒𝑥𝑝{(𝑇)} [𝜕𝑢𝑘 𝑒 (𝑡) ].
50
Ejemplo 4.10. Sea X1,…,Xn una sucesión de variables aleatorias iid con distribución
N(,1). La media muestral es un estadístico suficiente y completo. Busquemos un
1
estimador de una potencia de la media teórica g()=k. Como 𝑋̅~𝑁(𝜇, 𝑛)
𝑛 −(𝑥−𝜇)2
𝑓 𝑋̅ (𝑥,
𝜇) = √ 𝑒 2 = ℎ(𝜇)𝑒 −𝜇𝑇+(𝑇)
2𝜋
O sea
𝑛 −(𝜇)2 𝑇2
ℎ(𝜇) = √ 𝑒 2 , 𝑇 = −𝑋,̅ (𝑇) = −
2𝜋 2𝑛
Una clase importante de modelos estadísticos es la dada por aquellos cuya función de
densidad depende de parámetros de localización. Las clases de nuestro interés son las
definidas como sigue
Definición 4.12. Se dice que una función de densidad es del tipo de parámetro de
truncamiento I (TPTI) si su forma puede escribirse f(x;)=1()h1(x), a<x<b,
(a,b).
Se dice que es tipo II (TPTII) si
f(x;)=2()h2(x), a<x<b, (a,b).
Note que si tenemos una muestra de variables aleatorias iid X1,..,Xn y su densidad es el
tipo TPTI el estadístico de orden 1 X(1)=min{ X1,..,Xn } es suficiente y completo y si es
del TPTII lo será X(n)=Max{ X1,..,Xn }. A partir de la expresión general de la densidad
de un estadístico d orden
𝑋(1) 𝑏 𝑛−1
𝑓𝜃 (𝑥) = 𝑛1𝑛 (𝜃)ℎ1 (𝑥) (∫𝑥 ℎ1 (𝑦)𝑑𝑦) ,𝜃≤𝑥≤𝑏
51
Si queremos estimar una función estimable absolutamente continua g() tiene lógica
usar n=1 y buscar un estimador insesgado. Digamos que (x) es tal estimador y que su
varianza es finita para todo (a,b). Aplicando el teorema de Blackwell-Rao-
Lehmann-Scheffé vemos que el estimador optimal único es
𝑏
𝜑(𝑋(1) ) 𝑛 − 1 ∫𝑋(1) 𝜑(𝑦)ℎ1 (𝑦)𝑑𝑦
𝑔̂(𝑋(1) ) = 𝐸(𝜑(𝑋(1) )𝑋(1) ) = +( ) 𝑏
𝑛 𝑛 ∫𝑋 ℎ1 (𝑦)𝑑𝑦
(1)
Como sabemos debemos obtener el estimador insesgado de 𝜑(𝑋(1) ), esto es un
estadístico tal que
𝑏
𝜑(𝑥) = 1 () ∫ 𝜑(𝑦)ℎ1 (𝑦)𝑑𝑦 = 𝑔(), (𝑎, 𝑏)
La derivada de esta expresión es
𝑏
1´ () ∫ 𝜑(𝑦)ℎ1 (𝑦)𝑑𝑦 − 1 ()𝜑(𝜃)ℎ1 (𝜃) = 𝑔´ (), (𝑎, 𝑏)
Entonces tenemos que
𝑏
𝑔()
∫ 𝜑(𝑦)ℎ1 (𝑦)𝑑𝑦 = , (𝑎, 𝑏)
1 ()
Haciendo la sustitución correspondiente
𝑔() 1´ (𝑥)𝑔(𝑥) − 1 (𝑥)𝑔´ (𝑥)
1´ () −1 ()𝜑(𝜃)ℎ1 (𝜃)𝜑(𝑥) = , ∀𝑥(𝑎, 𝑏)
1 () 12 (𝑥)ℎ1 (𝑥)
Es un estimador insesgado de g() si n=1 y
𝑏
∫𝑋 𝜑(𝑦)ℎ1 (𝑦)𝑑𝑦
(1)
𝑔(𝑋(1) ) = 𝑏
∫𝑋 ℎ1 (𝑦)𝑑𝑦
(1)
Estos razonamientos llevan a establecer el resultado siguiente
Proposición 4.18. (Tate). Sea { X1,..,Xn } variables aleatorias iid con densidad TTPI
sobre el intervalo finito (a,b) y g() una función absolutamente continua definida sobe
el mismo intervalo. El estimador insesgado esencialmente único de mínimo riesgo para
una función de pérdida convexa de g() es
𝑔´ (𝑋(1) )
𝑔̂(𝑋(1) ) = 𝑔(𝑋(1) ) −
𝑛1 (𝑋(1) )ℎ1 (𝑋(1) )
Demostración
𝑏
∫𝑋 𝜑(𝑦)ℎ1 (𝑦)𝑑𝑦
´1 (𝑥)𝑔(𝑥)−1 (𝑥)𝑔´ (𝑥) (1)
Tomando 𝜑(𝑥) = y 𝑔(𝑋(1) ) = y substituyendo en
21 (𝑥)ℎ1 (𝑥) 𝑏
∫𝑋 ℎ1 (𝑦)𝑑𝑦
(1)
𝑏
𝜑(𝑋(1) ) 𝑛 − 1 ∫𝑋(1) 𝜑(𝑦)ℎ1 (𝑦)𝑑𝑦
𝑔̂(𝑋(1) ) = +( ) 𝑏
𝑛 𝑛 ∫𝑋 ℎ1 (𝑦)𝑑𝑦
(1)
Obtenemos la prueba de la proposición.
Proposición 4.19. Sea { X1,..,Xn } variables aleatorias iid con densidad TTPII sobre el
intervalo finito (a,b) y g() una función absolutamente continua definida sobe el mismo
52
intervalo. El estimador insesgado esencialmente único de mínimo riesgo para una
función de pérdida convexa de g() es
𝑔´ (𝑋(𝑛) )
𝑔̂(𝑋(𝑛) ) = 𝑔(𝑋(𝑛) ) −
𝑛2 (𝑋(𝑛) )ℎ2 (𝑋(𝑛) )
Demostración
Basta denotar por 𝛽(𝑞(𝑥); 𝑠)−1 la inversa de 𝛽(𝑞(𝑥); 𝑠) = (𝑠). Esta es determinada
en forma única casi dondequiera , (excepto en un conjunto de medida nula).
Proposición 4.20. (Tate). Sea { X1,..,Xn } variables aleatorias iid con una densidad de
parámetro de traslación f(x)=f(x-), T(X1,..,Xn ) un estadístico con la propiedad de
traslación con densidad (x-) y una función con transformada bilateral de Laplace
(). Si existe un estimador (T) de () que admite una transformada bilateral de
Laplace este es determinado únicamente CD. casi dondequiera, por 𝜑(𝑇) =
𝛽((−𝑥);𝑠)
𝛽 −1 (𝛽((−𝑥);𝑠) ; 𝑇) .
Hagamos un estudio similar para los modelos con los parámetros de escala.
53
Definición 4.15. Se dice que una función de densidad es paramétrica del tipo de escala
si su forma puede escribirse f(x;)=f(x), x, +.
Muchas distribuciones importantes son de este tipo.
Ejemplo 4.11. La distribución gamma (,p) depende del parámetro de escala , la
distribución normal N(, 2) depende del parámetro de escala +.
Consideramos la estimación de funciones que dependen de un parámetro de escala. El
marco es abierto la tomar estimadores que dependen de la muestra a través de un
estadístico homogéneo del tipo T=H(X1,…,Xn) de grado 0, conocido.
Si tenemos una función g() y (T) es un estimador insesgado de esta función es porque
∫ (𝑡)𝜃 −𝛼 (𝜃 −𝛼 𝑡)𝑑𝑡, ∀𝜃 ∈ .
+
Lema 4.21. Si X1,…,Xn son variables aleatorias iid con una función de densidad del tipo
escala f(x) y si T=H(X1,…,Xn) es un estadístico homogéneo de grado (rango) 0
𝑟
entonces un estimador insesgado de g()=r , si existe 𝐸1 (𝑡 −𝛼 ), está dado por
𝑟
𝑡 −𝛼
𝜑(𝑡) = 𝑟 , ∀𝑟, 𝛼 ≠0
−
𝐸1 (𝑡 𝛼)
Demostración.
𝑟
− 𝑟
𝑡 𝛼
Veamos que 𝐸 ( −
𝑟 ) = 𝜃 𝑟 , ∀𝑟, 𝛼 ≠ 0. Como 𝐸1 (𝑡 −𝛼 ) existe esto implica la
𝐸1 (𝑡 𝛼 )
𝑟
existencia de 𝐸 (𝑡 −𝛼 ) también para todo +. Hagamos el cambio de variable z=-
t, entonces
𝑟 𝑟
− −
𝑡 𝛼 ∫ 𝑡 𝛼 𝑓(𝜃𝛼 𝑡)𝑑𝑡
𝐸( −
𝑟)= −
𝑟 = 𝜃 𝑟 .
𝐸1 (𝑡 𝛼) ∫ 𝑡 2 𝑓( 𝑡)𝑑𝑡
54
Apliquemos este lema en la siguiente proposición. Previamente recordemos que la
trasformada de Mellin de una función, si existe, está dada por M{f(x);s}=0 xs-1f(x)dx,
s0<e{s}<s1 y su inversa es M-1{(x);s}.
Lema 4.22. Si X1,…,Xn son variables aleatorias iid con una función de densidad f(x),
0<<, T=H(X1,…,Xn) un estadístico homogéneo no-negativo con densidad
(x), 0. Si se cumple que f y admiten transformadas de Mellin y si existe un
Ejemplo 4.14. Sea X no negativa con una función de densidad paramétrica del tipo de
escala f(x), 0<<. Hallemos un estimador de la función de densidad. Si (x),
0 que posee transformada de Mellin se tiene que M{-1(1/;z);s}= M{f (x);(s-
1)+1}/z1+(s-1). Sustituyendo en la expresión de (T), de la proposición anterior tenemos
que el estimador insesgado de la densidad basado en un estadístico homogéneo no-
negativo es
f*(z,T)=T-1M-1 {M{f (x);(s-1)+1}/ M{(x);s},T-1}.
Ejemplo 4.15. Si X1,…,Xn son variables aleatorias iid con función de densidad bi-
paramétrica exponencial negativa (f (x)=exp{-(x-)}, x<) y los estadísticos de
orden X (i) i=1,…,n. Deseamos estimar una función g(,) tal que existe su derivada
parcial respecto a .
Como sabemos (X(1), T*n-1) , T*n-1 = i=2n X(i) y consideremos la función (𝑋(1) , 𝑌), , =
𝑋̅ − 𝑋(1) . Estas funciones son independientes. X(1) y Y se distribuyen +(n,1) y (n,
n-1) respectivamente. Entonces la densidad conjunta es
(𝑛𝜃)2 𝑛−2 −𝑛𝜃(𝑥+𝑦−)
𝑓, (𝑥, 𝑦) = 𝑦 𝑒 , 𝑥[𝑥, ∞[, 𝑦[𝑥, ∞[
(𝑛 − 2)!
Sea g(,) una función estimable si (X(1),Y) es un estimador insesgado continuo en X(1)
,CD, con trasformada de Laplace respecto a Y, este debe satisfacer la ecuación
55
∞ ∞ (𝑛 − 2)! 𝑔(, ) −𝑛𝜃)
∫ ∫ (𝑥, 𝑦)𝑦 𝑛−2 𝑒 −𝑛𝜃(𝑥+𝑦) 𝑑𝑥𝑑𝑦 = 𝑒 , ∀𝜃+ , ,
0 (𝑛𝜃)2
Podemos escribir
∞ ∞ ∞
∫ ∫ (𝑥, 𝑦)𝑦 𝑛−2 𝑒 −𝑛𝜃(𝑥+𝑦) 𝑑𝑥𝑑𝑦 = ∫ 𝑒 −𝑛𝜃𝑥 𝑑𝑥{(𝑥, 𝑦)𝑦 𝑛−2 ; 𝑛𝜃}
0 0
Hallando la diferencial parcial respecto a obtenemos
1 𝜕
(𝑛 − 2)! (𝑔(, ) −
𝑛𝜃 𝜕𝜃 𝑔(,
))
{(𝑥, 𝑦)𝑦 𝑛−2 ; 𝑛𝜃} =
(𝑛𝜃)𝑛−1
Entonces esencialmente el único estimador insesgado que posee uniformemente riesgo
𝑠
(𝑛−2)!𝑔(,) 𝑔(𝜃,
mínimo para una pérdida convexa es (𝑋(1) , 𝑌) = −1 { 𝑠𝑛−1𝑛 −
𝑌 𝑛−2
1 𝜕 𝑠
𝑔 (, 𝑛) ; 𝑌}
𝑠𝑛 𝜕𝜃
𝜃=𝑋(1)
56
Definición 4.18. Un estimador consistente Tn es asintóticamente eficiente para g() si
𝑒𝑓𝑓 (𝑇, 𝑈, 𝑔(𝜃))1.
no existe otro estimador consistente tal que 𝑠𝑢𝑝 ̅̅̅̅̅
Note que si 𝜑𝑛 (𝑔(𝜃): 𝑇𝑛 , 𝜀) es la probabilidad de cubrimiento de g() por el intervalo
aleatorio (Tn-, Tn +) como -1(Q) es el Qth-fractil de la normal estándar
1 𝜑𝑛 (𝑔(𝜃): 𝑇𝑛 , 𝜀)
𝜏 2 (𝑇𝑛 , 𝜀, 𝑔(𝜃)) = 𝜀 −1 ( + )
2 2
Por lo que
2 1 + 0(1)
log 𝑃𝜃 [|𝑍𝑛 − 𝑔(𝜃)| ≥ 𝜀] = 2 si 𝑛 → ∞
𝜀 𝜏 (𝑇𝑛 , 𝜀, 𝑔(𝜃))
Si g es diferenciable
(𝑔´(𝜃))2
𝑙𝑖𝑚𝜀→0 𝑙𝑖𝑚𝑛→∞ (𝑛𝜏 2 (𝑇𝑛 , 𝜀, 𝑔(𝜃))) ≥
𝐼(𝜃)
Entonces si Un fuera asintóticamente eficiente
𝑛 𝐼 (𝜃)
𝑃𝜃 [|𝑈𝑛 − 𝑔(𝜃)| ≥ 𝜀] = 𝑒𝑥𝑝 [− 𝜀 2 (1 + 𝛿𝑛 (𝜀, 𝜃))] lim 𝑙𝑖𝑚𝑛→∞ 𝛿𝑛 (𝜀, 𝜃)
2 (𝑔´(𝜃))2 𝜀→0
=0
57
EJERCICIOS
1. Sean X1,…,Xn(x) y Y1,…,Yn(y) variables aleatorias iid con funciones de distribución
absolutamente continuas respectivas F(x) y G(y). Si las varianzas existen, hallen
estimadores insesgados óptimos para V(X), V(Y) y V(X+Y).
5. Pruebe que si X1,…,Xn es una sucesión de variables aleatorias iid con distribución
paramétrica truncada del tipo I entonces X(1) es un estadístico suficiente y completo.
6. Pruebe que si X1,…,Xn es una sucesión de variables aleatorias iid con distribución
paramétrica truncada del tipo II entonces X(n) es un estadístico suficiente y completo.
7. Sea X1,…,Xn una sucesión de variables aleatorias iid con densidad Pareto
𝜎 𝛼 𝜎+1
𝑓(𝑥; 𝛼, 𝜎) = {𝛼 (𝑥 ) 𝑠𝑖 𝑥[𝛼, ∞[, 𝜎+ , +
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
9. . Suponga que las variables muestreadas (X1, X2, ..., Xn) son normales e iid. Pruebe
que
58
10. Suponga que las variables muestreadas (X1, X2, ..., Xn) son normales e iid.
Pruebe que
11. . Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Uniforme U(0,)
siendo >0 pruebe que
a) 𝑉(2𝑋̅) = 𝛼 2 /3𝑛 por lo que 𝛼̂ = 2𝑋̅es un estimador consistente de .
𝛼2 (𝑛+1)𝑋(𝑛)
b) 𝑉(𝜎̂ 2 ) = (𝑛+2)𝑛 por lo que 𝜎̂ 2 = 𝑛
es consistente.
𝑛𝛼 2
c) Derive la inconsistencia de 𝛼̂ ̂
(1) = (𝑛 + 1)𝑋(1) probando que 𝑉𝛼(1) ) = 𝑛+2.
Ejercicios avanzados
1. Si X1,…,Xn es una sucesión de variables aleatorias iid con distribución N(,1) pruebe que
𝜏−𝑋̅
𝑃(𝜏, 𝑋̅) = ( 1
) es el mejor estimador insesgado de P(X<) donde (.) es la
√2𝜋(1− )
𝑛
|𝑥−𝜃|
−
𝑒 𝜎 1
4. Si 𝑋~𝑓(𝑥 |𝜃, 𝜎) = 2𝜎
𝑠𝑖 𝑥 ∈ y conocido compruebe que 𝜎̂ = 𝑛 ∑𝑛𝑖=1|𝑥𝑖 − 𝜃| es
(a) Insesgado
(b) Consistente
59
(c) Eficiente
(d) √𝑛(𝜎̂ − 𝜎) tiene un distribución aproximadamente N(0,2) si n.
El método de máxima verosimilitud fue usado desde los 20’s del siglo pasado. Su
pionero fue, como en tantas otras cosas de la estadística, Sir. R. Fisher. Este método
soporta muchos procedimientos que utilizan criterios de convergencia para usar
modelos inferenciales basados en la normalidad asintótica. A pesar de sus propiedades
este no es una panacea pues no siempre provee de métodos aceptables. Este puede ser
ineficiente comparado con otras alternativas. Sin embargo bajo ciertas condiciones de
regularidad se puede aceptar la normalidad asintótica y provee de óptimos en diversos
procedimientos existentes. En muchos casos es simple desarrollar métodos MV y por
eso se puede presentar toda la teoría estadística usando este principio como un enfoque
para desarrollar métodos particulares en la regresión, por ejemplo. Además el PMV
posee la propiedad de invariancia, así que los métodos derivados usándole, bajo
ciertas hipótesis, permite construir estimadores de funciones paramétricas que poseen
las propiedades derivadas para los estimadores del parámetro.
5.2.2. Estimadores MV
Definición 5.1. Sea X1,..,Xn una muestra aleatoria independiente de f(x;) y x1,…,xn
los valores observados. La verosimilitud de la muestra es la función de densidad
conjunta evaluada en el punto x1,…,xn : f(x1 ,...,xn; )=f(x:)
La función de verosimilitud es una función real valuada definida sobre que es
proporcional a la densidad. Esto es
60
La inferencia estadística puede enfocarse usando el hecho de que el método debe ser
consistente con la aceptación de que la mejor descripción de los datos es dada por la
maximización de L(:x). En estimación puntual el problema de hallar un valor
(estimado) de =MV de que maximice L(:x). El valor dado como aproximado a
es el estimado máximo verosímil (EMV). Una definición formal es la siguiente
Ejemplo 5.1. Se lanza 100 veces una moneda y se observa la sucesión de resultados
¨Cara¨ (C), Cruz¨ (X). Denotemos las correspondientes probabilidades como P(C )=p,
P(X)=1-p=q. La moneda fue seleccionada de un grupo de 6 aleatoriamente. Estas están
numeradas en forma tal que la moneda j tiene probabilidad p= j/20 de que aparezca la
C. Si la C aparece 25 veces nuestro estimador MV de p es pMV=0,25. De ahí que
podamos considerar que lo mas verosímil sea que la moneda seleccionada fuera la j=5.
Definición 5.4. Sea X una v.a. que sigue una distribución f(x), 𝐾 y
𝑛
Cabe señalar que, aunque hablamos del estimador máximo verosímil de un parámetro,
puede suceder que la ecuación de verosimilitud (la derivada de la función de
61
verosimilitud, o su logaritmo, igualada a cero) tenga más de una solución y, por tanto,
tendríamos varios posibles estimadores posibles para un mismo parámetro.
Es frecuente que sea imposible obtener una solución analítica del problema de
optimización que plantea la estimación MV. Este es el caso cuando el modelo es
complejo dado el numero de parámetros o la función de probabilidad tiene una
expresión complicad para hallar extremos. En tales situaciones no hay una solución
factible en todos los puntos del espacio paramétrico .
Además cuando están envueltos varios parámetros puede crecer mucho y evaluar la
función de verosimilitud se puede hacer muy difícil e incluso imposible de ahí que
entren en juego modelos de optimización numérica. Estos pueden identificar, con
relativa rapidez, conjuntos de parámetros que sean verosímiles para los datos
observados.
Podemos apuntar que una ventaja es que el estimador MV tiene propiedades asintóticas
óptimas entre todos los estimadores consistentes y normales asintóticamente. Una seria
desventaja es que cometeremos un grave error si nos utilizamos una distribución
equivocada, pues el estimador depende de la distribución en el proceso de
optimización. Por otra parte no podremos asegurar que las propiedades de estos
estimadores sean válidas en el caso de muestras pequeñas.
Teorema 5.1.. Sea P={P ; }, definida sobre {, }, dominada por una medida de
Lebesgue . y g: una aplicación de en el intervalo r-dimensional, (kr1),
Entonces si MV es un EMV de también lo es g(MV) para g()
Demostración:
L(MV ,x)Sup G(w*) L(, x)=M(w*,x) Sup w M(w,x)=Sup L(, x)= L(MV ,x)
Se tiene que M(w*,x)=Sup w M(w,x) por lo que w* es EMV de g(). Notando que
MV G(w*), g(MV)-w*
Ejemplo 5.2. Sea Xi una variable iid log normal (log XiN(, 2)). Entonces como
62
E(log Xi)=exp2), V(log Xi)=2(exp (2 )-1)
Los EMV son
n exp mS), nn2(exp (S )-1)
tomando
m=i=1n log Xi/n, S=i=1n (log Xi-m)2/n
Demostración
L( x, )
Nota 5.3. 0 es llamada ecuación de verosimilitud
63
Ejemplo 5.3.Sea la distribución uniforme en el intervalo (0:).
L(x:) es
n 0 xi
L ; x1 ,..., x n
0 en otro caso
Como -n es una función decreciente en en [0,], L() es maximizada para el valor
mínimo de .tal que las variables están en el rango de definición dado. Por tanto
MV X (n) , el estadístico de orden n de la muestra, es el EMV.
Ejemplos 5.4.
En la práctica puede ser más conveniente el utilizar el logaritmo de L() si f(x,)>0 para
todo . Pues en tales casos
[ L( x, )] log[ L( x, )]
0 0
2 log[ L( x, )] 2 [ L( x, )] [ L( x, )] 2 2 [ L( x, )]
0
2
n L ( x, ) L ( x, ) L ( x, ) n
n
Entonces
2 [ L( x, )] 2 log[ L( x, )]
0 0
L( x, ) n 2 n
La FMV es
𝑛 𝑛
𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ) = ∏ 𝑒 −𝑥𝑖 = 𝜃 𝑛 𝑒 −𝜃 ∑𝑖=1 𝑥𝑖
𝑖=1
Su logaritmo es
𝑛
𝐿∗ (𝜃) = 𝑛𝑙𝑛(𝜃) − 𝜃 ∑ 𝑥𝑖
𝑖=1
y
64
𝐿∗ (𝜃) 𝑛 𝑛
= −∑ 𝑥𝑖 = 0
𝜃 𝑖=1
Por lo que
𝑛
𝜃𝑀𝑉 =
∑𝑛𝑖=1 𝑥𝑖
iii) Sea X una variable con distribución normal
𝑥−𝜇
−( )
𝑒 2𝜎2
𝑓(𝑥; 𝜃) = , −∞ < 𝑥 < ∞
√2𝜋𝜎 2
Como la FMV es
1 𝑥−𝜇 2
− ( ) 𝑛 1 𝑥 −𝜇 2
𝑛 𝑒 2 𝜎 −
2 − ∑𝑛 ( 𝑖 )
𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ) = ∏ = (√2𝜋𝜎 2 ) 𝑒 2 𝑖=1 𝜎
𝑖=1 √2𝜋𝜎 2
𝑛 1 𝑛 𝑥𝑖 − 𝜇 2
𝐿∗ () = 𝐿∗ (𝜇, 𝜎 ) = − 𝑙𝑛(√2𝜋) − 𝑛𝑙𝑛(𝜎) − ∑ ( )
2 2 𝑖=1 𝜎
Ahora tenemos un vector de parámetros por lo que calculamos las derivadas parciales
respecto a cada parámetro:
𝐿(𝜃 ∗ ) ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)
= =0
𝜎2
( )
Nota 5.4. El logaritmo de L() está muy relacionado con el concepto de entropía en la
Teoría de la Información a través de la medida de información de Fisher.
El Principio de Máxima Verosimilitud es usado también en el desarrollo de Pruebas de
Hipótesis.
Nota 5.5. Un EMV no tiene que ser un estimador insesgado y tampoco tiene que ser
único.
Al no tener un expresión explicita del EMV se debe recurrir a resolver el problema de
optimización usando algoritmos computacionales. El método de Newton-Raphson es
muy utilizado en las rutinas en uso en los diferentes softwares.
Sn Sn ( n )
0 MV *
1 Sn
1
Esta relación es la base de los métodos iterativos al definir una sucesión recurrente
MV
t
,n , t 0 de orden 1 que ligue MV,n con MV,n diferenciado por la evaluación de
t t-1
S n
. En todos los casos el punto de partida *MV,n debe ser un estimador convergente
de *.
66
ln L( ; X 1 ,..., X n ) n ln
n
i 1
ln 1 ( X i ) 2 , X i ,
Como ln 1 ( X i ) 2 tiene un máximo en =Xi hay n máximos locales. Por tanto la
solución de este problema pasa por el uso de un método numérico.
2
ln L( ; X ,..., X ) ( ) ln L( v( ); X ,..., X ),
1 1 n MV 1
2 1 MV 1 1 n
v [0,1]
1 es una solución inicial. Si v=0 se obtiene un aproximación. Sea la sucesión
t 1 S n ( MV
t
,n )
MV ,n MV
t
,n
S n
MV
t
,n
Par evitar las irregularidades se puede usar una de las siguiese variantes
67
t 1 S n ( MV
t
,n ) 1
MV , n MV , n at
t
, at
n S n
MV
0
,n
Esta sucesión puede es más estable que el método general si se elige adecuadamente a
sucesión {at}. La raíz va a ser cubierto en forma mas regular por este método pero si la
curva de verosimilitud no es suave es muy es muy frecuente que se encuentre atrapada a
búsqueda en un máximo local. Este evita calcular la derivada de Sn en cada etapa y se
garantiza su convergencia a un máximo relativo.
1 t
Si ln L( t ; X 1 ,..., X n ) 0 t
t2 t21
1 t11
Si ln L( t ; X 1 ,..., X n ) 0 t
t2 t
Este método de iteración continúa hasta converger un máximo local.
Se consideran dos puntos a* y b*, a*<b*, tales que Sn (a*)>0, Sn (b*)<0. La recta que
une (a*,Sn (a*)) y (b*, Sn (b*)) corta el eje horizontal en un punto
a * S n (b*) b * S n (a*)
*
S n (b*) S n (a*)
Cuando Sn(0)>0 se procede a iterar a partir del punto (0, b*). Si Sn(0)>0 se itera a
partir del punto (a*,0). Así que el algoritmo trabaja como sigue
Fijar a0 , b0 , Sn (a0 ) 0, Sn (b0 ) 0 a0 b0
at S n (bt ) bt S n (at )
0 t 1
S n (bt ) S n (at )
S n ( nt ) 0 at nt , bt bt 1
S n ( nt ) 0 at at 1 , bt 1 nt
a bt
Si at bt MV t
2
En la práctica se escogen a0 y b0 como valores alrededor de un estimador convergente.
Lo mas usual es tomar (a0, b0)(*-, *+), >0, con Sn(*-)>0 y Sn (*+)<0.
68
2Sn
Sup
(bt at ) 2 ( at ,bt ) 2
0 nt ,
8 2Sn
inf
( at ,bt ) 2
Este es un caso particular del método de Newton con derivada fija con at=1, para todo
t=1. La sucesión recurrente utilizada en este método es
t 1
MV ,n MV ,n S n ( MV ,n )
t t
En este se calcula una raíz de la ecuación ()=0. Tomemos dos funciones arbitrarias
tales que ()=01()=2(). El método es sugerido por el gráfico de las curvas
1() y 2() la raíz buscada esta en su intersección. Comúnmente se usa 1()= y
2()=Sn()+.
69
Teorema 5.3. Si existe una estadístico suficiente para el modelo
(, P )n el EMV MV es función de este.
Demostración
Como es suficiente factorizamos y tenemos que L(x, )=-h(x) (T,) y
MaxL( x,) Max (T,)
Buscamos un valor tal que (T,n) (T,), para todo por lo que este tiene que ser
función de T.
que no es suficiente.
Veamos la eficiencia.
Teorema 5.4. Si existe un estimador eficiente de este es
idéntico al único EMV cs-P ( casi seguramente para P)
Demostración
Si T es eficiente usando la desigualdad de Frechet-Darmois-Cramer-Rao y aplicando
L(x, )
Cauchy-Schwarz a y a T-
L( x, )
k ( )(T ), cs P
Por lo que T=MV, cs.
70
n(x1,...,xn,...)=- n(x)
n LogL( x, )
0 0
Veamos que si existe N(o)n de medida nula P*= P o ( N ( o )) 0 tal que x N(o) y
>0, existe una solución n(x) [0 -, 0 +] de la ecuación de verosimilitud cuando
n+.
Tomando ={w, w=0 1/m, m1} se tiene que [0 –1,o+1].. Denotemos para
todo w L=Log f(u, w)/f(u,0 ), u.
Note que
es una media por lo que converge a E [Log f(u, w)/f(u,0 )] que es negativa excepto en
un conjunto de medida P*-nula.
Sea una sucesión que no pertenezca a N(0). Para cualquier >0 podemos hallar w’ y
w’’ de para los cuales 0 -<w’< 0 <w’’< 0 +
71
𝜃 𝑋 (1 − 𝜃)1−𝑋 𝑠𝑖 𝜃 𝑒𝑠 𝑟𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝑓 (𝑋; 𝜃) = { 1−𝑋 ,0 < 𝜃 < 1
𝜃 (1 − 𝜃) 𝑋 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
∑ 𝑛
𝑋𝑖
El EMV es 𝜃̂𝑛 = 𝑖=1 pero
𝑛
𝜃 𝑠𝑖 𝜃 𝑒𝑠 𝑟𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝜃̂𝑛 𝜃 𝑐𝑠 { ,0 < 𝜃 < 1
1 − 𝜃 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Por lo que es inconsistente.
72
|Cn|<Supx 2 Log[f(xi, ’’)/ 2 ]-[2 Log[f(xi, 0)/ 2]
A+Bn+Cn- I(0)
Entonces podemos escribir
Como se vio en anteriormente n (x,0)n1/2 tiende en Ley a la normal N(0, I(0)) por lo
que
Notas 5.8.
i) En la practica si n entonces MV se distribuye asintóticamente N(0, 1/nI(o)).
ii) La convergencia en Ley no soporta necesariamente que E(MV)o y que V(MV) ,
1/nI(o) pues tal esperanza puede no existir.
Ejemplo 5.8. Sea X una v.a. N(,1) con =-1 y la muestra iid (X1 ,..,Xn ). Un EMV es
1
MV n
X
i 1
i
n
y
n
X i
i 1
N(,1/n)
n
Ahora
2
n
exp u
E MV
n 2 du
2
u
Esta integral no existe sin embargo
n
X
i 1
i
n 0
n
Se distribuye N(0,1). Tomando f(u)=1/u como se sabe:
73
“Si f:N+ y limn f(n)=+, se tiene una constante real Q y para la sucesión (Xn),
n>1, f (n)X n Q
ley
N (0, 2 ) , siendo la función g : derivable , entonces
f (n)g ( X n ) g (Q)
ley
N (0, g ' 2 (Q) 2 ) ’’
n
Xi
n f i 1
f ( 0 )
ley
N 0, f ' 0
n
De ahí que en este problema (n-0)n1/2 leyN(0, 0) pues I(0)= 02
{∑𝑘 𝜃𝑗 𝑇𝑗 (𝑥)+𝑤(𝜃)}
Proposición 5.7. Sea la familia 𝑓(𝑥; 𝜃) = ℎ(𝑥)𝑒 𝑗=1 ,𝑎 < 𝑥 <
𝑏, 𝜃𝑘 y que se cumplen las hipótesis
∑𝑛𝑖=1 𝑇( 𝑋𝑖 ) 𝜕𝑤()
– = , 𝑖 = 1, … , 𝑘
𝑛 𝜕𝜃𝑖
Demostración
En este caso
𝑛 𝑘 𝑛
74
Hallando sus derivadas obtenemos que el EMV sea una de las raíces del sistema de
∑𝑛
𝑖=1 𝑇(𝑋𝑖 ) 𝜕𝑤()
ecuaciones – = , 𝑖 = 1, … , 𝑘. Por otra parte por H2, como
𝑛 𝜕𝜃𝑖
𝜕2 𝑙𝑜𝑔𝐿(𝑋1 ,…,𝑋𝑛 ,)
, la raíz del sistema es única y es un punto de máximo. Además dado
𝜕𝜃𝑖 𝜕𝜃𝑗
que
𝑛 𝑛
(∑ T1 (𝑋𝑖 ) , … , ∑ Tk (𝑋𝑖 ))
𝑖=1 𝑖=1
Es un estadístico suficiente minimal la unicidad del estimador implica que 𝜃̂ =
(𝜃̂1 , . . , 𝜃̂𝑘 ) es suficiente y por tanto minimal.
H3 garantiza que 𝐸(∇𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )) = 0, . De ahí que se cumpla lo
∑𝑛
𝑖=1 𝑇(𝑋𝑖 ) 𝜕𝑤()
establecido en la proposición que 𝐸 ( ) = −𝐸 ( ) , 𝑖 = 1, … , 𝑘 .
𝑛 𝜕𝜃𝑖
Note que el EMV puede existir incluso cuando H1 no es válida. En el caso analizado de
una distribución de la familia exponencial con el radio () de curvatura de
𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , ) en satisface la relación
𝜕 2 𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )
−
()−1 = 𝜕𝜃 2
3
2 2
𝜕 𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )
[1 + ( ) ]
𝜕𝜃
𝜕 𝑙𝑜𝑔𝐿(𝑋1 ,…,𝑋𝑛 ,)
Como = 0 el radio de curvatura del EMV está determinado por
𝜕𝜃
−1 𝜕 2 𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )
(𝜃̂) = −
𝜕𝜃 2
Considerando las condiciones de la proposición anterior la información de Fisher fija
que
−1
−1 𝜕 2 𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )
(𝜃̂) = 𝐼(𝜃̂) = − [ ]
𝜕𝜃 2
Otro razonamiento sostenido por este resultado es que dado la invarianza de los EMV si
j() =j(1,…,k) es la inversa de j(1,…,k) y tenemos el EMV
𝜃̂𝑗 = 𝜃𝑗 (𝜑̂1 , … , 𝜑̂𝑘 ), 𝑗 = 1, … , 𝑘
Reparametrizando tenemos que
{∑𝑘 (𝑥)+𝛾(𝜑)}
𝑓(𝑥; 𝜃) = ℎ(𝑥)𝑒 𝑗=1 𝜑𝑗𝑇𝑗 ,
𝜑 = (𝜑1 , … , φk ), 𝛾(𝜑) = 𝑤(𝜃1 (𝜑̂1 , … , 𝜑̂𝑘 ), … , 𝜃𝑘 (𝜑̂1 , … , 𝜑̂𝑘 ))
La proposición anterior fija que necesariamente posee derivada continuas respecto a
cada j, j=1,…,k. La matriz de derivada generada por las transformaciones es
𝜕𝑗 (𝜑)
𝐻=‖ , 𝑗 = 1, … , 𝑘‖
𝜕𝜑𝑗
Consideremos que esta es no singular, esto es 1 ,…k son linealmente independientes.
El gradiente es ahora
75
M=- HT w().
∑𝑛
𝑖=1 𝑇𝑗 (𝑋𝑖 )
donde M= ‖𝑀𝑗 = , 𝑗 = 1, … , 𝑘‖ , 𝛻𝜃 w(θ(φ)) es el vector gradiente evaluado
𝑛
en (). Las correspondientes matrices de información de Fisher son determinadas
como
I()=HTI()H y I()=(H-1)T- I()H-1.
Ejemplo 5.9. Sea la muestra normal bivariada independiente {(Xi, Yi), i=1,…,n} con
E(Z)=0, Z=X, Y. y matriz de correlación
1 𝜌
𝑉=[ ],
𝜌 1
La densidad de la normal bivariada la podemos escribir en términos de la familia
exponencial como
1
𝑓(𝑥, 𝑦) = 𝑒𝑥𝑝{𝜑1 𝑇1 (𝑥, 𝑦) + 𝜑2 𝑇2 (𝑥, 𝑦) + 𝛾(𝜑1 , 𝜑2 )},
2𝜋
1 𝜌 ln(4𝜑12 −𝜑22 )
𝑇1 (𝑥, 𝑦) = 𝑥 2 + 𝑦 2 , 𝑇2 = 𝑥𝑦, 𝜑1 = − 2𝜎2 (1−𝜌2 ) , 𝜑2 = 𝜎2 (1−𝜌2 ) , 𝛾(𝜑1 , 𝜑2 ) = 2
Derivando obtenemos
𝜕 4𝜑1 𝜕 𝜑2
𝛾(𝜑1 , 𝜑2 ) = , 𝛾(𝜑1 , 𝜑 2 ) = −
𝜕𝜑1 4𝜑12 − 𝜑22 𝜕𝜑2 4𝜑12 − 𝜑22
2𝜑 𝜑2
Dado que 𝜎 2 = − 4𝜑2 −𝜑
1
2,𝜌 = − aplicando el hecho de los EMV son invariantes
1 2 2𝜑1
𝑛 2
∑
2 𝑖=1 𝑋𝑖 + 𝑌𝑖2
4𝜑̂1
𝜎̂ =
2𝑛 4𝜑̂12 − 𝜑̂22
∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖
𝜌̂ = 2 𝑛
∑𝑖=1 𝑋𝑖2 + 𝑌𝑖2
La matriz de información de Fisher en términos de 1 y 2 es obtenida al calcular
76
8(𝜑1 𝜑2 )
4(4𝜑12 + 𝜑22 ) −
1 (4𝜑12 − 𝜑22 )2
𝐼(𝜑) =
(4𝜑12 − 𝜑22 )2 8(𝜑1 𝜑2 )
− 4𝜑12 + 𝜑22
[ (4𝜑12 − 𝜑22 )2 ]
µi() = E(X i | )
a los muestrales
77
Mi(X) = nj=1 Xji / n
que utiliza los estimadores W1, W2, ..., Wk de los momentos desconocidos al resolver el
sistema de ecuaciones
Tenemos k ecuaciones con k incógnitas por lo que el sistema puede ser resuelto.
Como se sabe Mi(X) tiene una distribución que converge a una normal. Por tanto un
estimador de momentos es asintóticamente normal.
Por ejemplo, si tenemos la muestra (X1, X2, ..., Xn) de la misma distribución con media
y varianza desconocidas
𝑛
𝑋𝑖
𝑀1 = ∑ ,
𝑛
𝑖=1
𝑛
(𝑋𝑖 − 𝑀1 )2
2
𝑆𝑛 = ∑ = 𝑀2 − 𝑀12
𝑛
𝑖=1
Ejemplo 5.10. Si X(P,) como E(X)=P/ y V(X)=P/2 tenemos que son estimadores
de ellos: Sn2 =M2-M12 por lo que P/Sn2 estima a 2 y Sn22 a P; =Mn estima a P.
Sustituyendo obtenemos como estimadores de momento a p*=Mn2 /Sn2 y *= Mn /Sn2.
Los estimadores de momento pueden ser una opción mejor que la de utilizar Estimador
Máximo Verosímil.
78
𝜃2
̂𝑀𝑉 )
𝑉(𝜃 𝑛(𝑛+2) 3
Entonces la eficiencia relativa es ̂𝑛 )
= 𝜃2
= 𝑛+2 ≤ 1. Por tanto el estimador de
𝑉(𝜃
3𝑛
momentos es más eficiente que el Estimador Máximo Verosímil.
De ahí que
√3𝑛(𝜃̂𝑛 − 𝜃)
~𝑁(0,1) 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒
𝜃
La velocidad de convergencia es rápida pues se usa directamente el TCL.
Sea X una VA con una ley de probabilidad P, y una muestra iid. La VA es
discretizada haciendo una partición C1,…,Ck de su espacio de definición. Sea ni el
número de observaciones clasificadas en la clase Ci. El vector (n1,…,nk)T es una variable
con distribución multinomial
𝑘 𝑘 𝑘
𝑛! 𝑛
𝑀(𝑛, 𝑝1 , … , 𝑝𝑘 ) = ∏ 𝑝𝑖 𝑖 , ∑ 𝑛𝑖 = 𝑛, ∑ 𝑝𝑖 = 1.
∏𝑘𝑖=1 𝑛𝑖 !
𝑖=1 𝑖=1 𝑖=1
Algunas medidas Chi cuadradas son
𝑘
(𝑛𝑖 − 𝑛𝑝𝑖 )2 2
𝐷𝑃 (𝜃) = ∑ , 𝑑𝑒 𝑃𝑒𝑎𝑟𝑠𝑜𝑛
𝑛𝑝𝑖
𝑖=1
𝑘
(𝑛𝑖 − 𝑛𝑝𝑖 )2 2
𝐷𝑁 (𝜃) = ∑ , 𝑑𝑒 𝑁𝑒𝑦𝑚𝑎𝑛
𝑛𝑝𝑖
𝑖=1
𝑘
𝑛𝑖 2
𝐷𝑉 (𝜃) = 2 ∑ 𝑛𝑖 log , 𝑑𝑒 𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑
𝑛𝑝𝑖
𝑖=1
𝑘
𝑛𝑝𝑖 2
𝐷𝐾 (𝜃) = 2𝑛 ∑ 𝑛𝑖 log , 𝑑𝑒 𝐾𝑢𝑙𝑙𝑏𝑎𝑐𝑘
𝑛𝑖
𝑖=1
𝑘
𝑓𝑖 𝑝𝑖 2 𝑛𝑖
𝐷𝐿𝐵 (𝜃) = ∑ 𝑛𝑓𝑖 (1 − 𝑓𝑖 ) ( log − 𝑙𝑜𝑔 ) , 𝑓𝑖 = ,
1 − 𝑓𝑖 1 − 𝑝𝑖 𝑛
𝑖=1
2 𝑑𝑒 𝐿𝑜𝑔𝑖𝑡 𝑑𝑒 𝐵𝑒𝑟𝑘𝑠𝑜𝑛
79
𝑘 𝑘
𝑓𝑖2 𝑓2
∑ ∑ 𝑖 ,
𝑝𝑖 ( ) 𝑝𝑖 ( )
𝑖=1 𝑖=1
El estimador es la solución del sistema
𝑘
𝜕 𝑓𝑖2 𝜕𝑝𝑖 ()
𝐷𝑃 (𝜃) = 0, ∑ 2 = 0, 𝑖 = 1, … , 𝑘
𝜕𝜃𝑖 𝑝 𝑖 ( ) 𝜕𝜃𝑖
𝑖=1
Como
𝜕2
( ) 𝐷 (𝜃) 𝑒𝑠 𝑑𝑒𝑓𝑖𝑛𝑖𝑑𝑎 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎 𝑒𝑛 𝜃𝑃
𝜕𝜃𝑗 𝜃𝑖 𝑃
Este tiene una serie de propiedades similares a los de los EMV. Esto es obtenido al
analizar la relación entre los problemas de minimización de las medidas Chi-cuadradas
𝑛! 𝑘
y la maximización de log log 𝑘 ∏𝑘𝑖=1 𝑝𝑖𝑛𝑖 = log 𝑛! + ∑𝑖=1 log 𝑛𝑖 +
∏𝑖=1 𝑛𝑖 !
𝑘
∑𝑖=1 𝑛𝑖 log 𝑝𝑖
Entonces tenemos
Ejemplo 5.12. Sea X una variable con distribución de Poisson. Debemos minimizar
𝑓𝑥2
D()=∑𝑛𝑥=0 𝑝
𝑥 ()
𝑛 𝑛
𝑦 − ℎ𝑥 (𝑋̅) 𝜕
= ( ℎ𝑥 ())
− 𝑋̅ 𝜕 =𝑋̅
ℎ𝑥 (𝑋̅)
+ 𝑋̅ =
𝜕
( ℎ𝑥 ())
𝜕 =𝑋̅
Como
80
𝑛
𝜕 𝑥 2 𝑥
ℎ𝑥 () = ∑ ((1 − ) + 2 ) 𝛾𝑥 ()
𝜕
𝑥=0
Propiedades
i) Es un estimador insesgado de
ii) 𝑋̅ →𝑐𝑠 𝜃
𝑉(𝑋)
iii) Si las variables son iid 𝑉(𝑋̅) = →𝑛→∞ 0
𝑛
Si la muestra no es independiente
81
𝑇(𝑋1 − 𝑋𝑖 , … . , 0, 𝑋𝑖+1 − 𝑋𝑖 , … , 𝑋𝑛 − 𝑋𝑖 ) + 𝑋𝑖 = 𝑇(𝑋1 , … . , 𝑋𝑛 ) = 𝑋𝑖 + 𝑖 (𝑌)
Demostración
Demostración
Tomemos 𝑇(𝑋1 , … . , 𝑋𝑛 ) = 𝑈𝑎 (𝑋1 , … . , 𝑋𝑛 )𝐸0 (𝑈𝑎 𝑌) + (𝑌) se sigue que T,
T=TP +(Y). Para que sea un estimador de Pitman debe cumplirse que R(TP,)
R(T,), T.
Como
El último término es
E0(TP(T-TP))= E0(TP(Y))=EY E0Y(TP(Y))= EY((Y) E0Y(TP)=0
82
Por tanto, como
E0(T2)=E0(T-TP)2+ E0(TP)2
Ejemplo 5.13. Sea X una variable con distribución N(,1) y {X1,..,Xn} una muestra iid
y la transformación A:nn tal que
𝑋̅
𝑋1
𝑋 − 𝑋1 𝑈
( ⋮ )→( 2 )=( )
⋮ 𝑌
𝑋𝑛
𝑋𝑛 − 𝑋1
La distribución conjunta de (X1,..,Xn)T es
1 00 ⋯ 0
010 ⋯ 0
𝑁 (⋮) , ⋮⋮⋮⋮∙ ⋯ ⋮
𝜃 𝑛×1 00 ⋯ 1
( ( )𝑛×𝑛 )
La matriz de la aplicación lineal es
83
1 1 1
⋯
𝑛 𝑛 𝑛
−1 1⋯0
𝐴=
⋮ ⋱ 0
⋮ ⋱0
( 1 01 )
Entonces podemos decir que
1
0⋯0
𝜃 𝑛
0 2 1⋯
𝑈 0
( ) ~𝑁 ( ) , 𝐴𝐴𝑇 , 𝐴𝐴𝑇 = ⋮ 1 ⋱ 0
𝑌 ⋮
⋮ 0 ⋱ 0
0
( ) ⋮ 1
( 0 ⋯ 0 12 )
Este no es insesgado. Sin embargo podemos hacer una pequeña transformación para
obtener uno que si lo sea. Frecuentemente usamos
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
𝑆 2 𝑛−1 =
𝑛−1
2
∑𝑛𝑖=1 𝐸(𝑋𝑖 )2 − 𝑛𝐸(𝑋̅)2 𝑛(𝐸(𝑋 )2 + 𝜃) − 𝑛(𝐸(𝑋̅)2 + 𝑉(𝑋̅))
𝐸(𝑆 𝑛−1 ) = =
𝑛−1 𝑛 −1
𝑛𝜇 2 + 𝑛𝜃 − (1 + (𝑛 − 1)𝜌𝜃 − 𝑛𝜇 2 )
= = (1 − 𝜌)𝜃
𝑛−1
Por tanto
84
𝜃̂ = 𝑆 2 𝑛−1 /(1 − 𝜌)
es insesgado.
Ejemplo 5.14. Sea X una variable con distribución Poisson y tomemos una muestra iid
de esta distribución. En este caso tenemos dos estimadores intuitivos de .
𝜃̂𝑚 = 𝑋̅, 𝜃̂𝑣 = 𝑆𝑛2
Ahora
𝜃 𝑛𝜃(1 + 2𝜃)
𝑉(𝜃̂𝑚 ) = 𝑉(𝑋̅) = , 𝑉(𝜃̂𝑣 ) = 𝑉(𝑆𝑛2 ) =
𝑛 (𝑛 − 1)2
La eficiencia relativa es
𝑉(𝜃̂𝑚 ) (𝑛 + 1)2
= 2 <1
𝑉(𝑋̅) 𝑛 (1 + 2𝜃)
Por lo que es preferible estimar usando la media que usando la varianza muestral.
5.6.2. Estimación de la desviación típica
En particular
2
(𝑛 − 1)𝑆𝑛−1 𝑛−1
𝑌= 2
~( , 1)
2𝜎 2
2𝑌
Haciendo el cambio de variable 𝑆𝑛−1 = 𝜎√𝑛−1
𝑛−1
𝑛−1 2
𝑛−1 2 − 𝑠
2𝜎2 𝑠 𝑛−2
( 2 ) 𝑒
𝑓𝑆𝑛−1 (𝑠) = 2𝜎 , 𝑠+
𝑛−1
( 2 )
85
𝑛−1
( 2 + 𝑘)
𝑘)
∀𝑘 > 0, 𝐸(𝑌 =
𝑛−1
( 2 )
Considerando
𝑛−1
2𝑘
(𝑛 − 1)𝑘 𝑆𝑛−1 ( 2 + 𝑘)
𝐸( )=
2𝑘 𝜎 2𝑘 𝑛−1
( 2 )
Si k=1/2
𝑛
√𝑛 − 1 𝑆𝑛−1 (2)
𝐸( )=
𝑛−1
√2 𝜎 ( 2 )
De ahí que
√2 𝜎 (𝑛)
𝐸(𝑆𝑛−1 ) = 2
𝑛−1
√𝑛 − 1 ( 2 )
√2 (𝑛)
𝐵(𝑆𝑛−1 ) = ( 2 − 1) 𝜎
𝑛−1
√𝑛 − 1 ( 2 )
Se sabe que
S2n-1cs2 si n.
86
2
√𝑛(𝑆𝑛−1 − 𝜎 2 ) →𝐿𝑒𝑦 𝑁(0, √𝜇4 − 𝜇2 2 ) y en el caso normal 4=34 y 22=4
Propiedades
i) 𝑆𝑛−1 →𝑐𝑠 𝜎
2
ii) √𝑛(𝑆𝑛−1 − 𝜎 ) →𝐿𝑒𝑦 𝑁(0, 𝐼()), 𝐼() = 𝜎2
√2 (𝑛)
2
iii) 𝐵(𝑆𝑛−1 ) = ( 𝑛−1 − 1) 𝜎 →𝑛→∞ 0
√𝑛−1( 2 )
−1
√2 (𝑛)
2
iv) 𝑇 = 𝑆𝑛−1 ( 𝑛−1 ) →𝑛→∞ 𝜎
√𝑛−1( 2 )
f ( x) f ( x | ) f ( )d
87
Como deseamos hacer una decisión sobre el valor de el problema de estimación
puntual Bayesiana no es sino el de buscar una regla Bayesiana, que como vimos
consiste en, fijar una función de pérdida L ( ˆ, ) dada la distribución a priori (). Es
decir, debemos minimizar al esperanza a posteriori, o sea resolver el problema de
optimización
si L(ˆ, ) (ˆ ) 2
p q p 1
1
f ( x) f x | f d C xn x (1 ) n x (1 ) q 1 d
0
p q
p q p q p x n q x
1
C xn
p q 0
x p 1 (1 ) nq x1 d C xn
p q n p q
f ( x | ) f ( ) p q n q x
f ( | x) x p 1 (1 ) n q x 1
f ( x) n p q
Xp
Entonces f ( | x) p x, n p x ˆ
n pq
0 1
x 1
x!
X 1
(1 ) x1 exp (1 ) d
1 x1
ˆB ( X , )
x! 1
El EMV de es =X-1 por lo que
X 1
ˆBE ArgMinˆ f ( | x, * ( X ))d X
1
1
X
89
{,V,()}. Las densidades respectivas las designamos por f(x;), respecto a la medida
sigma finita M, y f(, respecto a la medida sigma finita M*). En general k, k1.
Tomando D como el conjunto de las posible decisiones (estimadores )tal que todo dD,
d:, es una función A-medible sobre . Fijamos una función de pérdida L(,d)
definida sobre D como L(,d)=()Wd(x)-. La función de riesgo de la regla
(estimador ) d es
Este riesgo es considerado una función sobre para cada estimador d. El riesgo a
priori de d respecto a () es
Como L (, d)=() Wd(x)-. Es acotada en para cada también lo está R (, d)
para cada d. Dado que W ()0 podemos fijar que R (, d) puede expresarse como
El principio Bayesiano considera que una vez que tenemos la realización de la variable
aleatoria X=x solo es relevante analizar el riesgo a posteriori.
O sea que
Demostración
90
El problema práctico más importante es determinar la distribución a priori para los
modelos que aparecen más frecuentemente en la práctica. Este plantea la selección de
las llamadas distribuciones apriori conjugadas.
Se puede probar que se puede mejorar las decisiones Bayesianas tomando en cuenta
una clase más amplia de estimadores que contenga reglas aleatorizadas. Los
estimadores aleatorizados son la distribuciones condicionales definidas sobre el espacio
paramétrico . El estadístico condiciona al resultado X=x y genera aleatoriamente un
valor del parámetro usando la distribución condicional (X=x). en este contexto un
estimador no aleatorizado no es más que aquel en que el punto 𝜃̂(𝑋) tiene probabilidad
uno. Esto es lo que soporta el uso de métodos intensivos de computación en la practica
de la aplicaciones en el contexto del principio bayesiano. En todo caso si la función de
perdida es convexa, y se tiene pleno conocimiento del problema es preferible usar el
estimador no aleatorizado pues partiendo de la función de riesgo
91
∫ (𝑑𝜃̂𝑥)𝐿(𝜃, 𝜃̂) 𝑐𝑠(𝑀) 𝐿(, 𝐸𝜋 (𝜃̂𝑋)
Los coeficientes an,i son denominados scores y son generados por un medida positiva M
sobre I=0,1. Si le particionamos en
𝑖−1 𝑖
𝐼(𝑖) = [ , ] , 𝑖 = 1, … , 𝑛
𝑛 𝑛
Son L-estimadores
1
𝑇 = 𝑋̅, 𝑎𝑛,𝑖 = 𝑛 , 𝑖 = 1, … , 𝑛, la media aritmética
𝑋 1 𝑛
𝑇(𝑟) = ∑𝑖∈{𝑟+1,…,𝑛−𝑟} 𝑛−2𝑟𝑖
, 𝑎𝑛,𝑖 = 𝑛−2𝑟 , 𝑟 = 1, … , ⌊2 ⌋ la media r-truncada
𝑋(𝑖) +𝑀(𝑗) 0 𝑠𝑖 𝑡 ≠ 𝑖, 𝑗
𝑇 = 𝑀(𝑖, 𝑗) = 𝑎𝑛,𝑡 = { 1 , estimador de Hodges-Lehmann
2
2
𝑝𝑎𝑟𝑎 𝑡 = 𝑖, 𝑗
92
Definición5.12. T es un M-estimador del parámetro si para la función objetivo (a)
está definido como
A esta pertenecen
Los scores an(Ri) son generados por una función genérica 𝐽: ]0,1[ → .
Es frecuente usar
𝑖−0,5
𝑎𝑛 (𝑅𝑖 ) = 𝐽 ([ 𝑛
])
𝑖
𝑎𝑛 (𝑅𝑖 ) = 𝐽 ([𝑛+1])
𝑎𝑛 (𝑅𝑖 ) = 𝑛 ∫[𝑖−1, 𝑖 [ 𝐽(𝑡)𝑑𝑡
𝑛 𝑛
Ejercicios
8. En una urna tenemos N bolas numeradas pero N no se conoce. Un decisor desea
saber cuantas bolas hay. Selecciona una bola anota su número (uno entre 1 y N) y la reemplaza
y repite el experimento n veces. basándose en los números observados X1,..,Xn. halle el
estimador
a) De momentos
b) El EMV.
93
1 𝑠𝑖 𝑝 = 1
1 1 𝑛+1 1
𝐸(𝑝𝑛 ) = { + ( ) 𝑠𝑖 𝑝 =
2 2 2
𝑎𝑏 2
𝑠𝑖 𝑎 > 2 ∃𝑉(𝑋) =
(𝑎 − 2)(𝑎 − 1)2
Los resultados que se poseen son los siguientes en cientos de la unidades monetaria:
15, 11, 16, 71, 10, 27, 32, 10, 31, 11, 12, 18, 16, 10, 10, 14
Use los datos y si
a) b= 10 .
(i) Determine el EMV de a y calcule su estimado..
(ii) Derive el EMV `para E(X).
(ii)i Derive el estimador de momentos para E(X).
b) Si a = 2,1
(i) Pruebe que el EMV de b es T = min(X1,…,Xn) y de el estimado
(ii) Use el método de los momentos para construir un estimador
de b y calcule el estimado.
(iii) Compare los dos estimados.
18. Sea una variable aleatoria con momento de segundo orden
94
𝜋
∫−𝜋 𝑡 2 (1 + cos(𝑡))𝑑𝑡
𝜇2 =
2𝜋
∑𝑛 2
𝑖=1 𝑋𝑖 𝜋2
Pruebe que 𝛼̂ = 0,5 ( 𝑛
− 3
)
19. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Uniforme U(0,) siendo
>0 Derive que 𝛼𝑀 = 2𝑋̅.
20. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Gamma (, ),
𝑋̅
pruebe usando del método de momentos que los estimadores 𝛼̂ = 2 , 𝛽̂ = 𝛼̂ −1 𝑆𝑛
21. Si tenemos la muestra 1,25 3,45 1,03, 1,29 3,21 4,01 3,29 1,12 y las
distribución es la dada en el ejercicio anterior estime sus parámetros.
22. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Beta (,1) pruebe
usando el método de los momentos que estima el estimador M= M1 / (1 – M1 ).
23. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Pareto Par(), >
1 diga si le estima U = M1/ (M1 - 1).
24. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Uniforme U(0,) siendo
>0 Derive que 𝛼𝑀 = 2𝑋̅.
25. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Gamma (, ), pruebe
𝑋̅
usando del método de momentos que los estimadores de estos son 𝛼̂ = 2 , 𝛽̂ = 𝛼̂ −1
𝑆𝑛
26. Sea X1, . . . ,Xn una muestral aleatoria iid con función de densidad
𝑓(𝑥|𝜃) = 𝑒 −(𝑥−𝜃) , 𝑥>0
(a) Pruebe que X(1)=Min (X1, . . . ,Xn) es EMV de .
(b) Pruebe que este estimador es sesgado y consistente (halle su densidad y compruebe
que su esperanza es +1/n).
(c) Halle es estimador de momentos y compare los dos estimadores.
|𝑥−𝑎|
𝑒𝑥𝑝(− )
27. Sea la distribución doble exponencial (𝑓(𝑥|𝑎, 𝑏)) = 2𝑏
𝑏
, 𝑥, 𝑎, 𝑏 >
0, 𝐸(𝑋) = 𝑎 = 1, 𝑉(𝑋) = 𝑏 2
a) De momentos
b) El EMV.(considere la muestra ordenada y considere los casos n par e impar por
separado.).
20 Sea X1, . . . ,Xn una muestra aleatoria iid con función de densidad
𝜃 3 𝑥 2 𝑒 −𝜃𝑥
𝑓(𝑥|𝜃) = , 𝑥>0
2
(a)Halle un EMV para y halle su esperanza.
1
(b) pruebe que es insesgado 𝜃̂ = 2 ∑𝑛𝑖=1 𝑛𝑋 .
𝑖
(c) Halle 𝑉(𝜃̂).
21. Sea X1, . . . ,Xn una muestral aleatoria iid con función de densidad Poisson, E(Xi)=mi,
>0, mi conocidas, i=1,…,n. y *= log .Halle su media y varianza.
Y el EMV de *.
22. Si X1, ..., Xn es una sucesión de variables Bernoulli con el mismo parámetro 0<p<1 y Y=
X1 + ··· + Xn pruebe que es un estimador insesgado de mínima varianza para 𝜎 2 = 𝑝(1 −
𝑌 𝑌2
𝑝) 𝑒𝑠 𝜎̂ 2 = − .
𝑛 𝑛(𝑛−1)
95
23. Si X1, ..., Xn es una sucesión de variables Poisson y Y= X1 + ··· + Xn pruebe que es un
𝑛 −𝑌
estimador insesgado de mínima varianza para 𝑃(𝑋 = 0) 𝑒𝑠 (𝑛−1)
24. Si X=A+BZ+e, E(e )=0, V(e )=Q y A, B son parámetros desconocidos halle estimadores
de A y B usando el método de los mínimos cuadrados. Derive si este es insesgado.
EJERCICIOS AVANZADOS
Bibliografía
Andersen, E. (1970): Sufficiency and Exponential Families for Discrete Sample Spaces.
Journal of the American Statistical Association, Vol. 65, 1248–1255..
Bickel, P. J. & Doksum, K.l A. (2001): Mathematical statistics, Volume 1: Basic and
selected topics Pearson Prentice–Hall.
Baburaj C. (2011): Statistical Estimation: Theory of Estimation, P LAMBERT
Academic Publishing,
Darmois, G. (1935): Sur les lois de probabilites a estimation exhaustive (in French):
C.R. Acad. Sci. Paris 200: 1265–1266
Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, Oxfor University Press,
Oxford.
96
Dominick, S. (2003): Estadística y Econometría, Mc Graw Hill, N. York.
Fieller, N. (2003): Lecture notes on Statistical Theory, Universiy of Sheffield, Sheffield
Fisher, R.A. (1922): On the mathematical foundations of theoretical statistics.
Philosophical Transactions of the Royal Society of London. Series A 222: 309–368.
Johnson, N.L., S. Kotz, & N. Balakrishnan (1994): Continuous Univariate
Distributions, Volume 1, 2nd edition, Wiley and sons, N. York.
Keener, R. W. (2006): Statistical Theory: Notes for a Course in Theoretical
Statistics.Springer, Berlin.
Kholevo, A.S. (2001), Sufficient statistic, in Hazewinkel, Michiel, Encyclopedia of
Mathematics, Springer, Berlin.
Koopman, B (1936): On distribution admitting a sufficient statistic. Transactions of the
American Mathematical Society, 39, 399–409.
Kupperman, M. (1958) Probabilities of Hypotheses and Information-Statistics in
Sampling from Exponential-Class Populations, Annals of Mathematical Statistics, 9 ,
571–575.
Lehmann, E. L. & Casella, G. (1998): Theory of Point Estimation (2nd ed.): Springer,
N. York.
Lehmann, E.L. & Scheffé, H. (1950): Completeness, similar regions, and unbiased
estimation. I.. Sankhyā: the Indian Journal of Statistics 10 , 305–340.
Mittelhammer, R.C. (1996):Mathematical Statistics for Economics and Business,
Volume 78. Springer, Berlin.
Montgomery, D.C. & G. C. Runger (2006): , Applied Statistics and Probability for
Engineers, 3rd edition, Wiley and Sons, N. York.
Nikulin, M.S. (2001), Consistent estimator, in Hazewinkel, Michiel, Encyclopedia of
Mathematics, Springer, N. York.
Nogales, A.G.; Oyola, J.A. & Perez, P. (2000): On conditional independence and the
relationship between sufficiency and invariance under the Bayesian point of view.
Statistics & Probability Letters 46 (1): 75–84.
Stigler, S. (1973): Studies in the History of Probability and Statistics. XXXII: Laplace,
Fisher and the Discovery of the Concept of Sufficiency. Biometrika 60 (3): 439–445.
Pitman, E. & Wishart, J. (1936): Sufficient statistics and intrinsic accuracy.
Mathematical Proceedings of the Cambridge Philosophical Society 32 , 567–579.
Shao, J; (2003): Mathematical Statistics. ( 2nd edition): Springer;
Stat 543 Spring (2005): Minimal Sufficient Statistics in Exponential families,
http://www.public.iastate.edu/~vardeman/stat543/Handouts/Bahadur.pdf, consultado
Septiembre 12, 2012.
Young, G. A. & Smith, R. L. (2005): Essentials of Statistical Inference. Cambridge
University Press.
97