You are on page 1of 98

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/310830407

Notas de Teoría de Estimación

Presentation · October 2016


DOI: 10.13140/RG.2.2.34007.88484

CITATIONS READS

0 101

1 author:

Carlos N. Bouza
University of Havana
320 PUBLICATIONS   330 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

A Cuban-Flemish Training and Research Program in Data Science and Big Data Analysis View project

Modelos Matemáticos para el Estudio de Medio Ambiente, Salud y Desarrollo Humano. View project

All content following this page was uploaded by Carlos N. Bouza on 26 November 2016.

The user has requested enhancement of the downloaded file.


Notas de Teoría de Estimación
Carlos N. Bouza Herrera

1. ELEMENTOS DE LA TEORIA DE DECISION

1.1 Elementos Básicos

En la vida el hombre se enfrenta a la necesidad de tomar constantemente decisiones.


Este utiliza reglas que fijan su comportamiento tras observar, repetidamente, los
fenómenos del mundo circundante. El éxito de ellas es evaluado al considerar en que
proporción estas han sido acertadas. Las ciencias del comportamiento modelan este, y
establecen la cordura de los individuos, al considerar su aptitud para fijar reglas que le
lleven a ser racional y exitoso Esto ha conllevado la necesidad de establecer teorías que
modelen la toma de decisiones en diversas ciencias particulares. Piense en la Sicología y
las Ciencias Políticas, por ejemplo. La racionalidad de los individuos se mide de
acuerdo a ciertos modelos de comportamiento desarrollados en estas ciencias. Al
considerar el problema general, el punto de vista matemático ha conllevado a desarrollar
modelos que conforman la Teoría de Decisión. Esta se imbrica con la Teoría de Juegos
por lo que un campo fértil de su uso está en la variopinta de problemas que se planteada
en el diseño de sistemas inteligentes para los videojuegos y en la Economía.

2. ELEMENTOS DEL ANÁLISIS ESTADÍSTICO DE DATOS

2.1. Introducción.
Múltiples razones han hecho de la estadística una herramienta con la que trabajan los
profesionales, ejecutivos políticos y la gente que debe tomar decisiones usando datos
numéricos. Estos deben conocer los fundamentos de la estadística. En el proceso de
decisión se desea generalmente inferir a partir de los datos. Para ello es necesario
utilizar métodos estadísticos basados en la probabilidad.

La estadística trabaja con individuos y números. Para la mayoría de las personas la


estadística se dedica a recoger los datos y brindar información condensada y presentar
gráficos. Esta acepción es lo que fue llamada tradicionalmente “Estadística
Descriptiva” y más contemporáneamente, al incorporar el uso de los softwares
especializados, “Análisis Estadístico de Datos”.

En la década de los 70s se dieron los pasos fundacionales del llamado Análisis
Exploratorio de Datos (EDA=Exploratory Data Analysis). Esta técnica se aprovechó
del incremento de la potencia de las computadoras, para introducir métodos gráficos
novedosos en el análisis de los datos. Esta colección de técnicas se basa en lo que podría
definirse como un enfoque o una filosofía. Su uso, junto con las diversas medidas
comúnmente usadas anteriormente en la estadística, ha elevado el rol de esta y su
interpretabilidad por no iniciados. Este enfoque es debido al trabajo seminal de
John Tukey en 1977.

1
La estadística permite generar hipótesis sobre el problema del que provienen los datos y
obtener algunas ideas sobre características generales del experimento. Es claro que
cualquiera sea el objetivo del análisis a realizar, al tener datos debemos entender tanto
estos como el mecanismo que les genera. Así, se facilita que el analista encuentre
posibles errores e intuya lo que les ha motivado. Actualmente hay desarrolladas
técnicas computacionales, Minería de Datos, que lo que hacen es precisamente procesar
grandes masas de datos para tener un visión de las regularidades que estos reflejan. El
interés casi siempre es determinar uno o varios valores típicos, medir la incertidumbre
que se asocia a estos para valorar los riesgos de utilizarles y establecer algunas
relaciones entre atributos de interés, Estos son algunas de las cuestiones que aparecen
comúnmente al lidiar con datos. En todos los casos el análisis requiere del uso de
métodos estadísticos y no se incluyen, en una primera etapa, hipótesis probabilísticas

3. ESTADISTICOS

3.1 NOCIONES BÁSICAS

Veamos que es un estadístico. Si tenemos la variable aleatoria (va) X que toma valores
en {, y (, } es un espacio medible auxiliar cualquiera un estadístico es una
función de la variable aleatoria definido como sigue:

Definición. 3.1 Toda aplicación T mensurable (medible) tal que T:n  es un
estadístico si esta no depende de valores desconocidos. 

Note que un estadístico no es más que una regla de decisión.

Los problemas que aborda la estadística lleva a determinar una estructura que llamamos
modelo estadístico.

Definición 3.2. El par {, P; } donde la variable X toma valores en  y P es la
ley de probabilidad que describe el comportamiento de la variable aleatoria es llamado
modelo estadístico. 

Esta definición deja abierta fijar si un modelo es paramétrico o no. La noción usual es
que al hacer ciertas definiciones de  este es paramétrico. O sea que si el espacio
paramétrico no es restringido se dice que es no paramétrico. Matemáticamente esto es
acotado al fijar que si  contiene un conjunto convexo de dimensión infinita el modelo
es no paramétrico y que lo es si este es un abierto en .

3.2. ESTADÍSTICOS DE ORDEN

Los estadísticos de orden juegan un papel muy importante en la teoría estadística. Su


uso es esencial en la teoría de la estadística no paramétrica. Estos son esenciales en
muchos métodos particulares de estimación.

Consideremos el modelo {, 𝑃}𝑛 que genera la muestra de variable independientes e


idénticamente distribuidas {𝑋1 , … , 𝑋𝑛 }. La definición de estadístico de orden es la
siguiente
2
Definición. 3.3. Una aplicación T:nn tal que para la sucesión de variables
independientes e idénticamente distribuidas (iid) {𝑋1 , … , 𝑋𝑛 } {𝑋(1) , … , 𝑋(𝑛) } donde
𝑋(1) ≤ 𝑋(2) ≤ ⋯ ≤ 𝑋(𝑛) , 𝑋(𝑖) es llamado estadístico de orden “i”.

Cuando X es una variable continua P admite una densidad respecto a la medida de


Lebesgue y la desigualdad será estricta pues
𝐶
𝐴 = (𝑋(1) < 𝑋(2) < ⋯ < 𝑋(𝑛) ) =∪𝑖≠𝑗 {𝑋𝑖 − 𝑋𝑗 = 0}

Como la medida P es subaditiva y dominada por la medida de Lebesgue


𝑃(𝐴) ≤ ∑ 𝑃{𝑋𝑖 − 𝑋𝑗 = 0} = 0
𝑖≠𝑗

Si f(x) es la densidad de X la ley de T, PT; admite la densidad


𝑛

𝑓 𝑇 (𝑡) = 𝑛! 1{𝑥1 <⋯<𝑥𝑛} ∏ 𝑓(𝑥𝑖 )


𝑖=1

Un resultado inmediato es que la densidad de un sub vector (𝑋(1) < 𝑋(2) < ⋯ <
𝑋(𝑘) ), 𝑘 < 𝑛 es
𝑛−𝑘
𝑛
[∫[𝑥 ] 𝑓(𝑥)𝑑𝑥]
,∞
𝑓(𝑥(1) < ⋯ < 𝑋(𝑘) ) = 𝑛! ∏ 𝑓(𝑥𝑖 )
(𝑛 − 𝑘)!
𝑖=1
Usando este resultado se deduce que la densidad de la ley de un par de estadísticos de
orden es

𝑛! 𝑓(𝑥)
𝑓(𝑘) (𝑥) = 𝐹 𝑘−1 (𝑥)[1 − 𝐹(𝑥)]𝑛−𝑘
(𝑘 − 1)! (𝑛 − 𝑘)!

De ahí que para un estadístico de orden particular

𝑓(𝑘,𝑘∗) (𝑥. 𝑥 ∗)
𝑛! 𝑓(𝑥)𝑓( )𝑥 ∗ 𝐹 𝑘−1 (𝑥)[1 − 𝐹(𝑥 ∗)]𝑛−𝑘∗ [𝐹(𝑥 ∗) − 𝐹(𝑥)]𝑘∗−𝑘+1
= 1𝑘<𝑘∗
(𝑘 − 1)! (𝑘 ∗ −𝑘 + 1)! (𝑛 − 𝑘 ∗)!

Son de particular importancia los valores extremos X(1) y X(n). También se deduce
fácilmente que

𝑓(1) (𝑥) = 𝑛𝑓(𝑥)[1 − 𝐹(𝑥)]𝑛−1

𝑓(𝑛) (𝑥) = 𝑛𝑓(𝑥)[𝐹(𝑥)]𝑛−1

Un estudio más amplio de ellos es desarrollado cuando sea necesario. Si es de destacar


que diversos parámetros de localización , como la mediana, los quantiles, fractiles y
percentiles, y de dispersión. Por ejemplo el rango, el recorrido intercuartílico, se
definen a partir de estadísticos de orden. Por ejemplo si n=5 la mediana es X(3) y el
rango X(5)-X(1).

3
3.3 ESTADÍSTICO SUFICIENTE

La noción de suficiencia es debida a Fisher, quien le enunció en 1922. Esta se asocia al


concepto intuitivo de que al procesar los datos la función utilizada (estadístico) debe ser
tal que el resultado contenga, en cierto sentido todo la información contenida en estos.
Es decir, que contenga toda la información necesaria sobre la distribución que generó
las observaciones.

La idea de suficiencia lleva a considerar es que al observar la va , al hacer un


muestreo, y considerar la muestra {X1,...,Xn}=X de la fd F deseamos reducir la
información que provee X usando alguna función T manteniendo toda la información
relevante respecto a  que nos da X. Un ejemplo es la media muestral

que reduce toda la información sobre  a un solo valor. La pregunta es: ¿contiene T(X)
toda la información relevante que nos da X sobre F?

Si al calcular T(X) no se pierde información se dice que este es un estadístico


suficiente. La suficiencia implica que conocer las n observaciones no aportan más
información sobre  que la que obtenemos mediante el análisis de T(X). Por tanto
nuestros procedimientos inferenciales serán más simples. Una definición formal es la
siguiente:

Definición 3.4. Sea {, P, } un modelo estadístico el estadístico T=T(X) es
suficiente para una familia de distribuciones si y solo si la distribución condicional de X
dado el valor de (x)=t es el mismo para todos sus miembros ( P(X|T(x)=t} No
depende de ). 

Desde el punto de vista geométrico esto fija que si T es suficiente la superficie T(x)=t
nos informa sobre  y la posición de x={x1,...,xn} no aporta nada relevante sobre el
parámetro.

Podemos fijar este concepto particularizando para los casos discreto y continuo como
sigue:

Definición 3.5. (Caso Discreto) Sea {f(x,), )}una familia de distribuciones


discretas y una muestra aleatoria X=(X1,…Xn ) de uno de sus miembros y T(X) un
estadístico. Este es suficiente para  si para todo  y x se cumple que

No depende de . 

4
Definición 3.6. (Caso Continuo) Sea {f(x,), )}una familia de distribuciones
continuas, una muestra aleatoria X=(X1,…Xn ) de uno de sus miembros y T(X) un
estadístico con fdp fT(t). Este es suficiente para  si para todo  y x se cumple que

no depende de , para cualquier valor fijo t. 

Nota: La no-dependencia de  incluye no solo la función si no el espacio de definición


también.

El parámetro  representa la información no aleatoria en los datos por lo que si T es


suficiente para , al condicionar los datos a fT(t), se remueve toda la información no
estocástica que provee la muestra x.

Veamos algunos ejemplos

Ejemplo 3.1. Sea X una muestra aleatoria de tamaño n de una Binomial B(m, ) y

A partir de la definición tenemos que

n
Como X
i 1
i se distribuye B(mn,) se tiene que

Tomemos a

Esta expresión no depende de  , ni del espacio de definición de las variables. Por


tanto

es suficiente para . 

Ejemplo 3.2. Si X es una muestra aleatoria de la fdp exponencial truncada

5
Tomemos

Calculemos la fd del estadístico de orden 1. Esta es

A partir de la fórmula general de la distribución de un estadístico de orden para el del


primer orden, mínimo, Y1 =min. {X} es

La densidad condicional de X dado es

que no depende de para cada y1 fijo. Como

es independiente tanto del espacio de definición de las variables aleatorias como de ,


Por tanto el estadístico de orden 1: Y1=min. {X} es suficiente para . 

Fisher primero y Neyman después desarrollaron un criterio que en general permite


determinar la existencia de un estadístico suficiente no trivial para una familia de
medidas de probabilidad. Este es conocido como el Teorema de la Factorización y se
enuncia a continuación.

Teorema 3.1. (Factorización de Fisher-Neymann). Sea {, P, } un modelo


estadístico y X una muestra de la distribución F con fdp f(x; ). Tomemos el
estadístico

T: (, )(,),

T=t(X) es suficiente para  si y solo si podemos hallar dos funciones medibles


g:+ y h: : + tales que podemos factorizar la densidad como


Para su demostración necesitamos de varios lemas auxiliares.

6
Lema F1. Sea las aplicaciones A-medibles T: (, , P)(,, PT), y g en . Una
condición necesaria y suficiente para la existencia de una función B-medible g* sobre 
tal que g(x)=g*(T(x)) es que gT-1 ().

Demostración:

Necesidad

Como T es A-medible T-1(S), para todo SB se tiene que T-1(S) T-1(B) para todo S de
B. Tomemos g* como una función B-medible , eso es
g*: (,, PT) (*, *, P g ), g(X)-g*T(X) y Q={x| GT(x)Z}, ZA*.
T

Entonces QT-1g*-1(Z)

Suficiencia

Tomemos t arbitrario, Q(t)=T-1(t), un xQ(t) y Q*={y|g(y)=g(x)}. Note que gT-


1
(B) por lo que S=T(Q*)B, xQ(t) y T(Q(t))=t por lo que tS. Entonces
Q(t)T-1(S)=Q*.

Por tanto g toma un valor constante en Q(t) por lo que g*(t)=g(x) determina una
función g* sobre . Que g* es única se sigue de la unicidad de la transformación de
T:. Como para cualquier C, Boreliano en el espacio de definición de g*, es decir
si g*(C)B, se obtiene la B-medibilidad de g*. 

Lema F2. Sean las aplicaciones A-medibles T: (, , P)(,, PT), y g (real y PT-
integrable) en . Entonces para todo SB

 g * ( y) P (dy)  
T
gT ( x( P(dx)
S T 1 ( S )

Demostración:

Usando el lema F1 se tiene que gTT-1(B). Como g es integrable respecto a PT


obtenemos el término a la derecha de la igualdad aplicando los pasos necesarios para
integrar el término a la izquierda. 

Lema F3. Sean las aplicaciones A-medibles T: (, , P)(,, PT), y g (PT-
integrable) en . Entonces si  es una medida sigma-finita definida sobre (, )
mediante d -gT(dP) se cumple que dPT  gdPT .

Demostración

Para todo SB

PT (S )   (T 1(S ))   T 1 ( S )
g * T ( x( P(dx) S g*.

7
Por el lema F2

 g * ( y) P (dy)  
T
gT ( x( P(dx)
S T 1 ( S )

y usando esta expresión en la deducida anteriormente se obtiene el lema. 

Introduzcamos unas definiciones necesarias en lo que sigue

Definiciones 3.7.

Sea H una clase de medidas sigma finitas y  una medida sigma finita definida sobre el
mismo espacio que H.
i) Se dice que H es dominada por , H<<, , si P<< para toda PH.
ii) Si H y H* son dos clases de medidas sigma finitas definidas sobre el mismo
espacio se dice que H es dominada por H*, H<<H*, si (S)=0 para todo H*P(S)-
0 para toda PH.
iii) H se dice equivalente a H*, HH*, si H<<H* y H*<<H. 

De aquí se deduce que si P es una familia contable de medidas, P={Pn } ella es


equivalente a la de la medida sigma finita (S)=i=1  Pi(S)/2-i , SA.

Esto se sigue del hecho de que si , SA. y Pi (S) para todo i=1,... además (S)=0 si y
si Pi (S)=0 para todo i. Por tanto =H. Sin pérdida en generalidad veamos que la
medida equivalente  puede ser tomada como una finita , pues aunque (S) no lo sea
podemos considera una partición {Wi} sobre  tal que (Wi)< , para i=1,2...., y tomar

(S)=(WiS)/(Wi )

Entonces diremos que  es densa en  y podemos completar estas definiciones


insertando:

Definiciones 3.8

iv) Una subfamilia H** de H, contable es densa en H si y solo si H** es


equivalente H.

Así

(S)=i=1  qi Pi(S) , SA, qi, . i=1  qi=1

v) Sea H una familia dominada por una medida sigma finita  y


fP(x)=P(dx)/(dx) cs una función de densidad generalizada para P (derivada de Radon
Nykodym de P respecto a ). KP={x| gP (x)>0} es llamado soporte de P.
vi) Un K, es un kernel si para algún P en H, KKP y P(K)>0.
vii) Una cadena es una unión de kernel disjuntos. 

Note que como P<< para cada kernel K, la medida  es positiva.

8
Lema F4. (Halmos-Savage) Si la familia de medidas H sobre (,A) dominada por la
medida sigma finita , entonces existe una subfamilia contable equivalente a P.

Demostración

Sean C={Cn} una sucesión de cadenas y C*=n-=1 Cn tal que lim n (Cn )=Sup
{C}. Entonces (C*) =Sup {Cn} es una cadena, por lo que es una unión contable de
kernels {Kn}. Tomemos P como una medida de probabilidad en H tal que Pn(Kn))>0,
n=1, 2,...

Veamos que la subfamilia contable H* es densa en P. Como H*H tenemos que


H*<<H.

Falta ver que H<<H*. Probemos que si SA en forma tal que Pn(S)=0 para todo PnH
entonces P(S-C*)=0. Como si P(S-C*)>0 par algún PH. Tomando KP como el
soporte de P, P{(S-C*)K*P }=0, K*P complemento de KP en  , P{(S-C*)KP}>0 por
lo que (S-C*)KP} es un kernel para P y [P{(S-C*)KP}>0 y
{(S-C*)KP }C*= por lo que (S-C*)(KPC*) constituye una cadena siendo [(S-
C*)(KP C*)=[(S-C*)KP ]+ (C*)>(C*). Como esto contradice el hecho de que
C* es una cadena con valor maximal de  se deriva que P[(S-C*)]=0 para todo PH.

Veamos que ciertamente P{(S-C*)}=0 para todo PH.. Esto se obtiene del hecho de
que como Pn(S)=0 para todo PnH**
Pn {(SKn }= SK gn (x)(dx)=0, para todo PnH**. 

Lema F5. (Halmos-Savage) Sean (,A, P) un espacio de probabilidad, P de H una


distribución de probabilidad que es dominada por una la medida sigma finita  y un
estadístico.
T: (, , P)(, , PT)
Una condición necesaria y suficiente para la suficiencia de T respecto a H es la
existencia de una medida de probabilidad *, densa en H, tal que P(dx)/ *(dx)T (B)
para todo PH..

Demostración

Necesidad

T es un ES para H por su definición

P[ST-1 (F)]= F P(S|T=y)PTd(y), SA y FB

donde la probabilidad condicional no depende de P.

El lema F4 H<<* y existe en ella una subfamilia contable densa. Tomemos en

*(S)=n=1  Pn(S)/2n , SA.

La cantidad  es equivalente a {P1,..} y es densa en H. Por tanto para cada SA y FB
se tiene que

9
 PS | T  y PnT (dy)
  

1
 S  T (F )  F
  PS | T  y  *Tn (dy)   PS | T ( x) Tn (dx)
2n F T 1 ( F )
n 1
(A)
donde
*T=*(T-1(F))= )=n=1  Pn(T-1 (F))/2n =n=1  Pn(F)/2-n

Usando (A) se tiene que P(S|T(X)) es también la probabilidad condicional respecto a ,


para S dado T

Tomando la derivada de Radon Nikodym de P respecto a , fP(x)=P(dx)/(dx), para


cada SA tenemos que

  
P(S )  P[S | T ( x)]P(dx)  P[S | T ( x)] f P ( x) * (dx)  P[S | T  y]E*[ f P ( X ) | T  y] *T (dy)

Como E*[ f P ( X ) | T  y] B

P(S )   E [I
* S (X ) fP ( X ) | T  y] *T (dy)   ]E*[ f P ( X ) | T ( x)] * (dy)

Donde E*[ f P ( X ) | T  y] T-1(B). Por el lema F1 existe una función g*P sobre  tal que
E*[ f P ( X ) | T ( X )]  g PT ( X ) , cs. Y del resultado final derivado para P(S), para cada SA se
tiene que

S fP (x)*(dx)= S g*PT(x)*(dx)

Por tanto fP(x)=g*PT(x) cs. De ahí que fP(x)T-1(B)

Suficiencia

Si dP/d*T-1(B) por el lema F1 se garantiza la existencia de g*P sobre  tal que


fP(X)=g*PT(X) cs, donde fP= dP/d* . De ahí que dP=g*P Td* y dPT =g*P d*T. Sea S
un Boreliano de A y dvP =ISdP. De las ecuaciones deducidas anteriormente tenemos
que

vP T (dy)=E *[IS(X)g*P T(X)|T=y] *T(dy), cs

Como además g*PTT-1(B)

E *[IS(X)g*P T(X)|T=y]= g*P (y)E*[IS(X)|T=y], cs.

De ahí que
vP T (dy)=g*P(y)E *[IS(X)g*P|T=y] *T(dy)= P*[S|T=y]g*P(y)*T(dy), cs.

Dónde P*[S|T=y] no depende de H. Por otra parte como para cada S  A y FB

10
  
P S  T 1 ( F )  I S ( x) P(dx)   vPS (dx)   P (S | T  y)P
*
T
(dy)
T 1 ( F ) T 1 ( F ) F

La probabilidad condicional no depende de H. Por tanto T es suficiente. 

Ahora podemos demostrar formalmente el teorema de la factorización. Para ello es


preferible dejar explicitas algunas de las hipótesis envueltas en el mismo e implícitas en
la formulación anterior

Teorema de la Factorización 3.2 Sea H una familia de medidas de probabilidad


definida sobre (, A) y dominada por , tomemos fP=dP/d (cs para PH). Un
estadístico T:(, A, P)(, B. PT) es suficiente para H si y solo si fP(x)=g*PT(x)h(x),
donde
i) g*PT, h(x) ,.
ii) hA y g*PTT-1(B).
iii) H y g son -integrables.
iv) H(x)=0 solo sobre un conjunto H-nulo.

Demostración

Necesidad

T es un ES para H entonces por el lema F5 existe un medida de probabilidad * densa


en H tal que para cada PH, dP/dT -1(B) por lo que también g*PT T-1(B). Además
dP d *
como f P es un densidad generalizada de PH ( f P  , cs.(respecto a P) esto se
d * d
puede expresara como fP(x)= g*PT T(x)h(x), cs (respecto a *) siendo

h(x)=*(dX)/(X).

Tomemos un conjunto de medida P nula ZA para todo PH. Dado que * es denso en
H, *(Z)=0, por lo que

*(Z)=Z h(x)(dx)=0

Si (Z)=0 tomamos h(x)=0 sobre Z. Si no lo fuese la integral anteriormente dada es se


anula por ser h(X)=0 sobre Z.

Suficiencia

Si la factorización es válida y tomamos una medida sigma finita d*=hd. Como


h(X)=0 sobre un conjunto Z={x| fP(x)=0} para todo PH, *<<. Por otra pare si SA
es tal que (S)=0. Entonces

PS    g*P T ( x)h( x) * (dx)   g* P T ( x) * (dx)  0, P  H


S S

11
Considerando que H<<* por lo que H* y del lema F1 se deriva que
gPT(x)=P(dx)/*(dx) T-1(B). 

Notas:
1. El lema F5 fija que la densidad generalizada de cada P respecto a * es un
fundón de T(X). O sea, que existe una función g*P independiente de P tal que
P(dx)/ (dx)=g*PT(x), cs (respecto a P).
2. La factorización es un método para separar las componentes aleatoria y no
aleatoria en una forma comprensible e identificar el ES. Por otra parte si tenemos un ES
toda información adicional será redundante.

Usamos directamente la definición de ES para examinar la pdf conjunta f(x; ) y ver si


la podemos factorizar en términos de alguna función t(x) que será el ES/ Por otra parte
es difícil usar el teorema de la factorización para probar que un cierto estadístico no es
ES..

Note que la familia exponencial es caracterizada porque las densidades


correspondientes tienen la estructura

k 
f ( x |  )  c( )h( x) exp  j ( )T j ( x),      k
 j 1 

Su estructura en una muestra aleatoria independiente con la misma distribución es

n k n 
f ( x1 ,..., x n |  )  c n ( ) h( xi ) exp j ( ) T j ( xi ),      k
i 1  j 1 i 1 
n n
Entonces {  T1 ( xi ) ,…,  Tk ( xi ) } es un ES.
i 1 i 1

Ejemplos 3.3

1) Sea X una variable aleatoria con distribución Poisson P() y X una muestra
independientes e idénticamente distribuidas de tamaño n.

.f(x1 ,…,xn ;)=ni=1f(xi, )=exp{-n) xi./ni=1ni!

Tenemos que h(x)= 1/ni=1ni! y g(t(x))= exp{-n) T por lo que T= ni=1 xi

2) Sea X una variable uniforme en [0, ] o sea que

1 /  si x [0, ]
f ( x, )  
0 si no
1 1
f ( x, )   [ x   ]  f ( x1,..., xn ; , )  [sup xi ]
 

12
Aquí h(x)=1 y g(T,)=-n [sup. xi] por lo que el ES es el estadístico de orden n:
T(x)=sup. xi=x(n)

3) Si X tiene distribución exponencial tenemos que f(x, )=-nexp{-n=1 xi/) por lo


que h(x)=1 y g(T, )=-nexp{-n=1 xi/) y T=-n=1 xi

4) Si X es normal f(x, )=(22 )—n/2exp{-n=1 (xi-)2 /22) =)=(22 )—n/2exp{-[n=1


xi2 +2 -2m)//22)

Por lo que tomando h(x)= (2)—n/2 y g(T, , 2 )= (2 )—n/2exp{-[n=1 xi2 +2 -
2m)//22)

 n 3  x i
T 
 
 i 1
xi , m ,


m i 1
n

Note que si las escribimos en términos de su estructura como densidades de la familia


exponencial es inmediata lo obtención de los ES.

Teorema 3.3: (Lehmann-Scheffe ) Suponga que X1 , ..., Xn tiene una distribución


conjunta que depende de un vector de parámetros  y cx, y constante y que existe
una función T (x) tal que para dos los puntos muestrales x y y,

Rxy() = f(y|)/f(x|) = cx, y

Para todo  si y solo si T (x) = T (y). Entonces T(X ) es suficiente y minimal para
.

3.4. ESTADÍSTICO SUFICIENTE MINIMAL

La propiedad de suficiencia no depende de los valores concretos que toma el estadístico,


sino de que resultados muestrales tienen la misma imagen, es decir,
de la que define el estadístico sobre el espacio muestral. Cuando dos estadísticos
definen la misma partición, son equivalentes. Tiene sentido determinar un estadístico
suficiente que particione el espacio muestral en el mínimo de particiones.

Definición 3.7 . Una partición n se dice que es suficiente si induce un estadístico
suficiente.

Cuando dos estadísticos definen la misma partición, se dice que son equivalentes.

Nota. Un estadístico define una única partición pero a una partición se le pueden asociar
muchos estadísticos diferentes.

Veamos una de estadístico suficiente minimal.

Definición 3.8 (estadístico suficiente minimal) Suponga que X1, ..., Xn tiene una
distribución conjunta que depende de un vector de parámetros  y que T(X) es un

13
estadístico suficiente para él . Este es minimal suficiente si T (X ) es una función de
todo S(X ) que también lo sea para .

Esto significa que si una partición n será suficiente minimal si este es suficiente y
cualquier otra partición suficiente es una subpartición de ella. O sea que un estadístico
se dice que es suficiente minimal si induce una partición suficiente minimal. Por lo que
nos interesa encontrar una partición suficiente lo menos fina posible.

Note que usando el teorema de la factorización se tiene que son estadísticos suficientes
para  para una distribución normal

T(1)= (X1; :::;Xn); T(2)= (𝑇(2) = (∑2𝑖=1 𝑋𝑖 , 𝑋3 , … , 𝑋𝑛 ), 𝑇(𝑗) =


𝑗
(∑𝑖=1 𝑋𝑖 , 𝑋3 , … , 𝑋𝑛 ),… 𝑇(𝑛) = ∑𝑛𝑖=1 𝑋𝑖𝑛

y todos contienen toda la información de la muestra que es relevante para el


conocimiento de . Sin embargo ellos tienen un distinto grado de simplificación al
analizar su dimensión. Es lógico que se busque aquel de menos dimensión que es T(n)

Lamentablemente no es único este tipo de estadístico pues muchas funciones de él


también lo serán, como lo son las funciones biunívocas

Teorema 3.4. Si T = (r1(X),...,rk(X)) un estadístico suficiente minimal y g una función


medible biunívoca, entonces T’=g(v(T)) también lo es.

Demostración.

Como g es biunívoca T’ es suficiente.

Sea T” otro estadístico suficiente. Como T es suficiente minimal para todo 

P (T = u(T’)) = 1 por lo que P (T = g(u(T’’))) = 1

Se sabe que para una medida de probabilidad discreta P definida sobre n con función
de probabilidad puntual p; entonces si Bn entonces P(B) = 0 si y solo si
̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅
B 𝑆 = {𝑥𝑝(𝑥) > 0} = 𝑆 𝑐 , complemento del soporte de p.

Si P es una función de probabilidad absolutamente continua en n con densidad p; P(B)


= 0 si y solo si la medida de Lebesgue de BS es 0. 

Esto fija que tanto en el caso discreto como en el absolutamente continuo los eventos de
probabilidad 0 ( imposibles) dependen únicamente del soporte S de p

En muchos problemas  es discreto. Bajo esta consideración caracterizáremos un


estadístico suficiente minimal.

Veamos como establecer si T es suficiente minimal

Teorema 3.5. Sea  = {𝜃0 , 𝜃1 , … , 𝜃𝑚 } y el soporte de P independiente de . Un


estadístico suficiente minimal está dado por

14
T = r(X) = (r1(X); :::;rm(X));

donde
𝑝(𝑥, 𝜃𝑖 )
𝑟𝑖 =
𝑝(𝑥, 𝜃0 )
Demostración:

T es suficiente pues al definir para t =(t1; :::; tm). Sea

𝑡 𝑠𝑖 𝑖 = 1, . . , 𝑚
𝑔(𝑡, 𝜃𝑖 ) = { 𝑖
1 𝑠𝑖 𝑖 = 0

Se tiene que

𝑟 (𝑥, 𝜃0 )𝑝(𝑥, 𝜃0 ) = 𝑝(𝑥, 𝜃𝑖 ) 𝑠𝑖 𝑖 = 1, . . , 𝑚


𝑔(𝑟(𝑥), 𝜃𝑖 )𝑝(𝑥, 𝜃0 ) = { 𝑖
𝑟0 (𝑥, 𝜃0 )𝑝(𝑥, 𝜃0 ) = 𝑝(𝑥, 𝜃0 ) 𝑠𝑖 𝑖 = 0

Por lo que por el Teorema de factorización sostiene que T es suficiente.

Veamos que T es minimal.

Sea T’ = r’(X) otro estadístico suficiente, por el teorema de factorización se tiene que
p(x; i) =g’(r(x); í)h’(x) como
𝑝(𝑥, 𝜃𝑖 )
𝑟𝑖 =
𝑝(𝑥, 𝜃0

𝑔′ (𝑟 ′ (𝑥),𝜃𝑖 )
ℎ𝑖 (𝑡) = 
𝑔′ (𝑟 ′ (𝑥),𝜃0
Cuando se trabaja con una función de densidad de probabilidad que pertenece a la
familia exponencial el siguiente Teorema da un método para su determinar un
estadístico suficiente minimal.

Teorema 3.6 . Sea la familia exponencial


𝑝(𝑥, 𝜃) = 𝐴(𝜃) exp(∑𝑚𝑖=1 𝑐1 (𝜃 )𝑟𝑖 (𝑥, 𝜃)) ℎ(𝑥),
 y 𝐵 = { = (𝑐1 (𝜃), … , 𝑐𝑚 (𝜃) |}𝑚 . Supongamos que existen * B y
>0 tales que

𝑆(0 , ) = {|‖ −0 ‖}𝐵, ‖𝑌 ‖ = √∑ 𝑌𝑖2

Entonces T=(r1(x),…,rm (x)) es suficiente minimal.

Demostración

El teorema de factorización establece que T es suficiente si .

Tomemos 𝑖 = 0 + 𝜀𝑖 , i=1,…,n donde

15
𝜀1 = (1 0 … 0)𝑇 , … , 𝜀𝑛 = (0 0 … 1)𝑇
son vectores de m . Como i = 1 se tiene que |‖𝑖 −0 ‖ =‖0 𝜀𝑖 ‖ = 𝛿. Esto fija
que i S(0 ,} y que i B. Por lo tanto existen i, i=0,1,…,m, tales que
i = (c1( i ),…, cm( i ).
Como ya se probó, cuando =0 ={0 , 1 , ….m } un estadístico será suficiente
minimal es expresado por

T’ =( r(X) =(r’1(X),…., rm(X)),

donde
𝑝(𝑥, 𝜃𝑖 ) 𝐴(𝜃𝑖 )
𝑟′𝑖 = = exp (∑ (𝑐𝑗 (𝜃𝑖 ) − 𝑐𝑗 (𝜃0 )) 𝑟𝑗 (𝑥)) == 𝐾𝑖 𝑒𝑥𝑝((𝑖 − 0 )𝑇 𝑟(𝑥))
𝑝(𝑥, 𝜃0 ) 𝐴(𝜃0 )
= 𝐾𝑖 𝑒𝑥𝑝((𝛿𝜀𝑖 )𝑇 𝑟(𝑥)) = 𝐾𝑖 𝑒𝑥𝑝((𝛿𝜀𝑖 )𝑇 𝑟𝑖 (𝑥))

Hemos denotado A(i )/A(0 )=Ki y como

log(𝑟𝑖′ (𝑥) − log(𝐾𝑖 )


𝑟𝑖 (𝑥) =
𝛿
entonces T=(r1(x),…,rm (x))=g(T’) si g es biunívoca y se soporta que es suficiente y
minimal cuando 0. 

Hagamos un estudio de la función biunívoca g.

Tomemos una par de vectores aleatorios X;Y y supongamos que existen g y h tales que
para todo 

P(Y = g(X)) = 1 y P(X = h(Y)) = 1

Veamos que entonces existe un conjunto A={xh(g(x))=x} tal que P(XA) = 1, para
todo  de manera que g, restringida a A será biunívoca .

Sean xA y x’A y supongamos que g(x) =g(x’). En tales casos

x =h( g(x))=h( g(x’)) = x’

Por lo que g restringida a A es biunívoca.

Tomemos B ={Y = g(X)}; C ={X = h(Y)} entonces P(B) = P(C) = 1, cualquiera sea
 y BC{XA}. Entonces {XAc } Bc  Cc y por lo tanto

P(XAc) P(Bc) + P(Cc) =0 para todo .

De ahí que

P (XA) = 1, para todo .

Esto permite demostrar la validez del siguiente teorema :

16
Teorema 3.7.Sean T y T’ dos estadísticos suficientes minimales. Entonces existen g y A
tales que P(T’ = g(T)) = 1; P(TA) = 1 y g es biunívoca sobre A. 

3.5. MINIMALIDAD Y LA FAMILIA EXPONENCIAL

Sea (,, P), P P, siendo P una familia de medidas de probabilidad con función de
densidad del tipo exponencial de k-parámetros

 k 

f ( x |  )  h( x) exp  ijU j ( x)  V ( ),  (1,..., k )T  k
 j 1 
.
Considerando que x* es tal que f(x|)>0 y su coset al hacer la partición
   f ( x, )  k  


g ( x) h( x )
C ( x*)   x | x   , P  k ( x, x*)   x | x   ,  exp   ij (U j ( x)  U j ( x*)  h( x, x*)
 g P ( x*)   f ( x*, ) h ( x*)  j 1  

Sean las variables aleatorias X y Y de las distribuciones N (Z,Z2), Z=X, Y, y las


muestras independientes correspondientes Zi, i=1,..., n. La densidad conjunta es
  n Y n n n
n   2 X  2Y 
   
1 1 
exp 2 X
xi  2 yi  2 xi 2
2
yi
2
 2
     2  2 Y 
 
f ( x1,..., xn , y1,..., yn ;  X ,  X2 , Y ,  Y2 )  
X i 1 Y i 1 X i 1 Y i 1 X

(2 X  Y )n

X  1 1
Tomando 1  , 2  Y2 , 3   2 , 4   2 es evidente que esta densidad es una de
 X2 Y 2 X 2 Y
la familia 4-exponencial. De ahí que es un estadístico suficiente minimal se
 n n n n 
T  
 i 1
Xi , 
i 1
Yi , 
i 1
X i2 , 
i 1
Yi2  .


Se tendrá que la función de densidad sigue siendo de la familia 4-exponencial si X=Y


y X2 Y2 pero es del 3-exponencial cuando XY y X2 =Y2. Entonces si las medias
son iguales pero las varianzas no T siegue siendo minimal pero en el segundo caso lo es



n n  n n 
2 
T*  

 Xi ,  Yi , 
 
 i 1
X i2  Y i 


.
 i 1 i 1 i 1

Completitud

Proposición. 3.8. Sea (, P), P P, =]-, [y P una familia de medidas de
probabilidad con densidad respecto a una medida sigma-finita [del tipo exponencial de
k-parámetros dada por


k 


f ( x |  )  h( x) exp 

ijU j ( x)  V ( ),  (1,..., k )T  k

 j 1 

17
Un estadístico es suficiente completo si  contiene el rectángulo k-dimensional es
T
k k 
U    ijU j ( x1),...,  ijU j ( xn )
 j 1 j 1 

Demostración

La suficiencia y necesidad de U ya h sido demostrada para esta familia. Pues si 


contiene k vectores linealmente independientes esto implica su Minimalidad. Sea
Q={jj[-a, a], j=1,.., k, 0<a<}. Si n lo fuese una reparametrizaciòn reduce el
espacio paramétrico a * que contenga Q. La prueba se obtiene probando que P es tal
que toda función medible F definida en el espacio de definición de U para la que

 f (u ,...,u )P (du ,..., du )  0,   


1 k 1 k

se cumple que f (u1,…, uk)=0. casi seguramente para PU.

Sea f (u1,…, uk)= f (u1,…, uk)+- f (u1,…, uk)-

A partir de que f (u1,…, uk)=0

f 

(u1,..., uk ) P (du1,..., duk )  f  (u1,..., uk ) P (du1,..., duk ),   Q

Ahora


k 



P (du1,..., duk )  exp   j u j  (du1,..., duk )

 j 1 

Tomemos las medidas sigma finitas

 (du1,..., duk )  f  (u1,..., uk ) (du1,..., duk ),  (du1,..., duk )  f  (u1,..., uk ) (du1,..., duk )

3.6. ESTADÍSTICO COMPLETO

La noción de completitud se asocia a de los estadísticos auxiliares (ancillary). Su


distribución es independiente del parámetro.

Definición 3.9. Sea X una variable aleatoria cuya distribución pertenece una familia
{F; } un estadístico V se dice que es auxiliar ( ancillary) si P(V ) es independiente
de . 

Es decir que no contienen ninguna información acerca . Por lo que un estadístico


suficiente minimal es independiente de los auxiliares. Si esto no fuera cierto en un
cierto caso habría una contradicción. Por ello es necesario establecer condiciones
necesarias para evitarla. Esto motiva la defunción de estadístico completo. Veremos
que los estadísticos suficientes y completos son también suficientes minimales
18
Veamos la definición de un familia completa de distribuciones
.
Definición 3.9a. Sea X una v.a. con distribución perteneciente a una familia {F; }.
Se dice que la familia de distribuciones es completa si para toda función medible g tal
que si E(g(X)) = 0 para todo , entoncesg =cs 0 , ( P(g(X) = 0) = 1.) 

Esta nos permite dar la definición de estadístico completo

Definición 3.10. Sea X una v.a. con distribución perteneciente a una familia de
distribuciones completa. Se dice que un estadístico T es completo si para cualquier
función medible g se cumple que si E(g(T)) = 0 para todo  entonces g(T) = 0. 

El término “completo” proviene del Análisis Funcional donde se dice que U(x) es
completo si p(U) es completo en el espacio de la funciones cuadrado integrables en el
rango de definicion de U(x), L2(U). En Álgebra Lineal consideramos las funciones de U
como vectores donde los operadores suma y producto generan nuevas funciones de U, y
no usamos sino el común análisis vectorial. Entonces la condición de completo surge de
decir que p(U) genera el conjunto de todas las funciones de U.Esto es, cualquier
función ortogonal a p(U) es cero. Note que 𝐸(𝑔(𝑈|𝜃)) = ∫ 𝑝(𝑢|𝜃)𝑔(𝑢) lo
podemos ver como un producto.

Veremos ahora algunos resultados que implican trabajar con distribuciones

Teorema. 3.9. Si existe un estadístico suficiente minimal y T es suficiente y completo


entonces también es suficiente minimal.

Demostración.

Sea T’ un estadístico suficiente minimal, entonces existe una función medible g tal que
T’ = g(T) pues T es suficiente. Sea h(T) = T- E(TT’ ) = T- E(Tg(T)). Dado que

E(Y)=E(E(YZ)) E(h(T)) = E(T)=E[E(TT’ )] = E(T)-E(T) = 0,

Se cumple que h(T): = 0, dado que T es completo, por lo que T: = E(TT ‘) = (T’).
Entonces la partición asociada a T, (T) ,es más fina o igual a la de T, ’(T), por lo que
estas son iguales pues T’ es minimal, de ahí T también es minimal.

Ahora podemos fijar la relación entre un estadístico suficiente completo y una auxiliar
(ancillary) . El siguiente la fija..

Teorema 3.10. (Basu). Sea X una variable aleatoria. con distribución perteneciente { F
, }. Consideremos que T es un estadístico suficiente y completo y V un estadístico
auxiliar (ancillary), entonces T y V son independientes.

Demostración.

Sea

g(T) = P(V A)- P( V AT)

19
para A fijo, entonces g(T) es independiente de  y

E(g(T)) = E[P(V2 A)]- E[P(V AS)] = E[P(V A)]- E[P(V  A)] = 0

ya que si
1 siV ∈ A
IA = {
0 en otro caso

entonces

E[P(V  AT)] = E[E(IA(V )T)] = E(IA(V )) = P(V  A)

por ser T completo, g(T) = 0 para todo  por lo que P(V A) = P(V AT), lo que
demuestra que T y V son independientes.

Ejemplo 3.4. Sea la familia de distribuciones binomiales


 n  x n x
  (1   ) , x  0,1,..., n
f ( x |  )   x  , [0,1]
0
 en otro caso

Si T(x) es una función real tal que


n
 n
T ( x) x 
x 0
x
(1   )n  x  0   

es porque T(x)=0 necesariamente para todo x=0,1,...,n O sea que T(x)=0 casi
seguramente para todo, P P. Este polinomio tiene a lo más n raíces no nulas pero
toma un valor igual a cero para todo , por lo que sus coeficientes tienen que ser
iguales a cero. Esto prueba que esta familia es completa pues satisface la definición de
completitud.

3.7. ESTADÍSTICOS INVARIANTES

Una propiedad importante es la de invarianza así en muchas ocasiones buscamos


procedimientos que sean invariantes para un cierto grupo de transformaciones. Por
ejemplo si c es una constante real
∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2
𝜎𝑋2 =
𝑛
Y Y=X-c
2
∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2
𝜎𝑋 = = 𝜎𝑌2
𝑛
Por lo que la varianza es invariante para la traslación.

Consideremos un grupo de transformaciones G que induce una partición de  en órbitas


(cosets).

Definición 3.11. Una órbita de x*, relativa a un grupo de transformaciones G es el


conjunto G(x*)={xg(x*)=x, gG} 
20
De ella se desprende que un estadístico es invariante si asume el mimo valor para todo
valor en una misma órbita .

Definición 3.12. T es un estadístico invariante sobre {, B} es una función B-medible


sobre  tal que 𝑇(𝑥) = 𝑇(𝑔𝑥), ∀𝑥 ∈ , ∀𝑔 ∈ 𝐺 

De aquí se deduce la quasi-invarianza como sigue.

Definición 3.13. T es un estadístico quasi-invariante sobre {, B} es una función B-


medible sobre  tal que
𝑇(𝑥) =𝑐𝑠 𝑇(𝑔𝑥), ∀𝑃𝜃 ∈ 𝑃, ∀𝑥 ∈ , ∀𝑔 ∈ 𝐺 

Veamos condiciones que garantizan la invarianza.

Consideremos la condición
C1: Si S es un estadístico suficiente
i) gBS=BS, gG.
ii) Si TS BS es quasi-invariante entonces existe una función invariante TSI BSI
equivalente a TS (TSI(X)=𝑐𝑠 TS(X))., para toda PP
Denotando la esperanza condicional de T para cualquier otro estadístico BS medible
como E(TBS) tenemos el siguiente resultado

Lema. 3.11. Si se cumple (i) de la condición C1 y TI es invariante toda versión de


E(TBS) es quasi-invariante.

Demostración

Como gG produce un isomorfismo de {, B, P , } en {g,g B,g P , }

Sea T una función B-medible y P-integrable y g* una transformación de T inducida por


g (g*(T(x)=T(gx)), x). Es claro que g*T es g*P-integrable. Ahora

g* TI(x)= TIgx)= TI(x), x, gG,


E(g*TI(X)BS)=E(TI(X) )BS)=csTSI(X)

para toda medida de probabilidad g*Pg*P.

TSI(X) es alguna función BS-medible y como esta es también invariante tenemos que
g*TSI(X)BS)=g*E(TI(X) )BS)=TSI(X)=E (TI(X) )BS)

De estos resultados se desprende que si T es invariante toma los mismos valores para
todo x en la misma órbita.

Definición 3.14 Si T asume un valor diferente en cada órbita se dice que es invariante
maximal.

21
Ejemplo 3.5. Sea G={g: gxi=xi+c, i=1,…,n. Consideremos el estadístico determinado
por el conjunto U={(y1,…,yn-1): yi=xi-xn,i=1,…n-1} y sea U(x)= (y1,…,yn-1)T. Tomemos
dos puntos x* y x** de  tales que U(x*)=U(x**) entonces x**=x*+(xn** -xn* )1n
Por lo que x* y x** están en la misma órbita y se tiene que U es maximal invariante.

Otras condiciones permiten garantizar la invarianza, vea por ejemplo Zacks ().

3.8. SUFICIENCIA Y EXPERIMENTOS

Consideremos una sucesión de experimentos {1 ,2 ,...} que genera la sucesión de
variables aleatorias {X1 ,X2 ,...,} con Xi , i=1,2,... Para la sucesión se tiene el espacio
muestral n, n=1,2.,.... Es un espacio Euclidiano y n es la correspondiente sigma
álgebra y Pn la familia de probabilidad. Entonces trabajamos sobre {n , n }, n=1,2..,
Consideremos además que 1 2 ....

Un procedimiento secuencial está provisto de un conjunto de n –medibles estadísticos


que constituyen las reglas de parada {Rn(X1,...,Xn); n=1,2...} del procedimiento
secuencial.. Estas están definidas como

Si Rn(X1,...,Xn)=n parar sino ejecutar un nuevo experimento.

Consideremos que Pn está definida sobre {n , n } admite al menos un estadístico


suficiente para n>0. Esto se satisface al imponer que Pn la medida sigma finita Mn. Si
T(X1,...,Xn) es suficiente minimal la sucesión {T(X1),..., T(X1,...,Xn),...} es suficiente
minimal para el modelo secuencial.

Definición 3.15 . Una sucesión {T(X1),..., T(X1,...,Xn),...} tal que T(X1,...,Xn)n se dice
que es una sucesión transitiva para el modelo secuencial. Si para toda función g n0 –
medible e integrable para toda Pn Pn sobre n se tiene que E[g(X1 ,..,Xn ) n-1]=cs
E[g(X1 ,..,Xn ) 0n-1],  Pn , n=1,2,.. donde n es la sub-sigma álgebra generada por
T(X1,...,Xn )=Tn 

Note que si {Tn, n=1,2,...} es una sucesión transitiva para el modelo secuencial
{n, , Pn}

Toda versión de la distribución condicional de Tn dado (X1 ,..., Xn-1 ) depende solo de
Tn-1. O sea es equivalente a la distribución de Tn dado Tn-1.

Consideremos ahora un experimento 1 que genera una variable aleatoria X1 y otro 2


que genera X2.

Si podemos generar X2 usando un experimento de Monte Carlo a partir de X1 entonces


1 es un experimento suficiente para 2.

Esta definición fija que si un experimento es suficiente para otro no tenemos que hacer
este segundo experimento. Una definición formal es la que sigue:

22
Definición 3.16. Sea { ,  ,P},  un espacio de probabilidad asociado al
experimento 1 y {* , * ,P*},  el asociado al experimento 2. Se dice que 1 es
suficiente para 2 si existe una transformación estocástica G: { ,  ,P},-->{ ,  ,P}
tal que , C*
P*(C )=G(Cx) P(dx),

Otra definición importante en este contexto es cuando combinar experimentos nos es


suficiente . Esto nos lleva a la definición de experimentos combinados suficientes

Definición 3.17. Sea {i , i ,Pi},  un espacio de probabilidad asociado al


experimento suficiente i , i=1,..n que genera la variable aleatoria Xi. Si estos
experimentos son independientes.{i=1n i , .i=1ni ,i=1n Pi} el experimento .i=1n
i. se dice que es un experimento combinado suficiente. 

Un resultado muy importante es el dado la siguiente proposición.

Proposición. 3.12. Sean i, i=1,..,4, experimentos asociados a los espacios de


probabilidad {i , i ,Pi}, respectivamente. Si 1 es suficiente para 2 y 3 lo es para 4
Entonces i3 es suficiente para 24.

Demostración:

La función de experimento suficiente establece la existencia de una transformación G1:


{1 , 1 ,P1}{2 , 2 ,P2} tal que P2(C )=G1(Cx) P1(dx),C  2. Similarmente
existeG2 tal que para todo C*  4, P4(C* )=G2 (*Cx) P3(dx).

Sea Q una medida de probabilidad


𝑄(𝐶, 𝐶 ∗) = ∫ 𝐼𝐶×𝐶∗ (𝑥3 , 𝑥4 )𝑃𝜃2 (𝑥2 )𝑃𝜃4 (𝑥4 ) = ∫ 𝑄 (𝐶 × 𝐶 ∗ 𝑥1 , 𝑥3 )𝑃𝜃1 (𝑥1 )𝑃𝜃3 (𝑥3 )
𝑄(𝐶 × 𝐶 ∗ 𝑥1 , 𝑥3 es 1  3- medible para CC* fijas, y es la probabilidad
condicional de CC* dado 1  3 . Entonces como tenemos una medida producto

𝑄(𝐶, 𝐶 ∗) = 𝑃𝜃2 (𝑥2 )𝑃𝜃4 (𝐶 ∗) = ∫ 𝐺1 (𝐶𝑥 )𝐺2 (𝐶 ∗ 𝑥∗ )𝑃𝜃1 (𝑑𝑥)𝑃𝜃3 (𝑑𝑥 ∗)
De ahí que

∫ 𝑄 (𝐶 × 𝐶 ∗ 𝑥1 , 𝑥3 ) =𝑐𝑠 𝐺1 (𝐶𝑥 )𝐺2 (𝐶 ∗ 𝑥 ∗ )

Tomando la transformación G sobre (24)(1 3 ) 𝐺(𝐶 × 𝐶 ∗


𝑥1 , 𝑥3 ) =𝑐𝑠 𝐺1 (𝐶𝑥 )𝐺2 (𝐶 ∗ 𝑥∗ ), 𝐶2 , 𝐶 ∗ 𝛽4 , ∀𝑥 ∈ 1, 𝑥 ∗ 3 . Esta
transformación es estocástica y como 𝑄(𝐶, 𝐶 ∗) = 𝑃𝜃2 (𝑥2 )𝑃𝜃4 (𝐶 ∗) implica que i3
es suficiente para 24. Por tanto se obtiene el resultado enunciado. 

3.9. SUFICIENCIA BAYESIANA

Sea el espacio de probabilidad usualmente utilizado: {, , P; } . El enfoque


Bayesiano considera que  es una variable aleatoria siendo su espacio de probabilidad

23
{,A,H}. H es llamada medida de probabilidad a priori de  y denotamos por H la
familia de estas. Tanto H como P están dominadas por una medida sigma finita. Sean
ellas M y M* respectivamente. La densidad de la variable aleatoria X es f(x;). Esta es
una versión de la densidad de P respecto a M sobre {,} y h () es una versión de la
densidad a priori de H respecto a M*. Entonces la versión de la densidad conjunta de la
variable (X,) sobre {, A} es

𝑔(𝑥, 𝜃) = 𝑓(𝑥; 𝜃)ℎ(𝜃), 𝑥 ∈ , 

A partir del Teorema de Bayes, al fijar (X=x), la densidad a posteriori de  es


𝑓(𝑥; 𝜃)ℎ(𝜃)
ℎ(𝜃𝑋 = 𝑥) = , ,  𝑡𝑎𝑙 𝑞𝑢𝑒 𝑓(𝑥) = ∫ 𝑓(𝑥; )ℎ()𝑀∗ (𝑑𝜏)
∫ 𝑓(𝑥; )𝐻(𝑑) 
>0

El conjunto X*={x:f(x)=0} tiene medida nula con respecto a casi todas las medidas de
probabilidad P; . Note que

𝑃𝑀∗ (𝑋 ∗ 𝑀∗ ) = ∫ 𝑓𝑀∗ (𝑥)𝑀(𝑑𝑥) = ∫ (∫ 𝑓(𝑥; ) 𝑀(𝑑𝑥))ℎ()𝑀∗ (𝑑) = 0


𝑋 ∗ 𝑀∗  𝑋 ∗ 𝑀∗

De ahí que

𝑃 (𝑋 ∗ 𝑀∗ ) = ∫ 𝑓(𝑥; ) 𝑀(𝑑𝑥) =𝑐𝑠 0


𝑋 ∗ 𝑀∗
Por tanto h(x)0 sobre el conjunto XM**.

Si tenemos un estadístico Y:{, , P}:{*, , PY}, PY la transformación de la


medida de probabilidad P, con una versión de la densidad fY(y, ), la densidad a
posteriori de  dado {Y(X)=y} es
𝑓 𝑌 (𝑦; 𝜃)ℎ(𝜃)
ℎ (𝜃𝑌 = 𝑦) =
𝑌
, 
∫ 𝑓 𝑌 (𝑥; 𝜃)ℎ(𝜃)𝑀∗ (𝑑𝜃)
Una definición Bayesiana de estadístico suficiente es la siguiente

Definición 3.18. Dado el espacio producto de probabilidad {, A, PH} un


estadístico T:{, , P}:{*, ,PT} se dice que es Bayesiano para H si
ℎ𝑇 (𝜃𝑇(𝑋)) =𝑐𝑠 ℎ (𝜃𝑋), ∀𝐻 ∈H

Es decir que un ES genera una densidad a posteriori de  equivalente al posteriori de 


dada la observación original x.
Veamos la equivalencia de esta definición con la de la clásica.

Proposición Dado algún modelo Bayesiano con espacio de probabilidad {, A,
PH} el estadístico T:{, , P}:{*, ,PT} es Bayesiano suficiente si es suficiente
para P.

Demostración:

a) Si T es suficiente entonces es Bayesiano Suficiente

24
Existe una medida no negativa -medible k(x) y otra función -medible no negativa
g(T(s);) la cual, para un  fijo,

𝑓(𝑥) =𝑐𝑠 𝑘(𝑥)𝑔(𝑇(𝑥))

y k(x)=0 solo en un conjunto de medida nula para P.

Por lo tanto la densidad a posteriori de  dado X es

ℎ(𝜃)𝑔(𝑇(𝑋); 𝜃)
ℎ(𝜃𝑋) = , 
∫ ℎ()𝑔(𝑇(𝑋); )𝑀∗ (𝑑𝜃)

La densidad inducida por T(X) puede ser escrita, dada la definición de k(x) y la
estructura de 𝑓(𝑥), como

𝑓 𝑇 (𝑥) = 𝐽(𝑥)𝑔(𝑥), 𝑥∗ , 

J(x) es una función non negativa constante sobre los cosets {T(x)=t}. De ahí que la
densidad a posteriori de  dado T(X)=t es

ℎ(𝜃)𝑔(𝑡; 𝜃)
ℎ(𝜃𝑇(𝑋)) = , 
∫ ℎ()𝑔(𝑡; )𝑀∗ (𝑑𝜃)

Esto da como resultado que h(X)=csh(T(X))T es Bayesiano suficiente.

b) Si T es Bayesiano suficiente es suficiente en el sentido clásico

Dada la definición si T es Bayesiano suficiente h(x) es T-medible. Tomemos  tal


que h()>0. Fijemos * para el cual h(*)>0 y hallemos la razón

𝑓(𝑥; 𝜃)ℎ(𝜃)
ℎ(𝜃𝑋) ∫ 𝑓(𝑥; )𝐻(𝑑) 𝑓(𝑥; 𝜃)ℎ(𝜃)
= ∗ ∗ =
ℎ(𝜃 ∗ 𝑋) 𝑓(𝑥; 𝜃 )ℎ(𝜃 ) 𝑓(𝑥; 𝜃 ∗ )ℎ(𝜃 ∗ )
∫ 𝑓(𝑥; )𝐻(𝑑)

Aplicando logaritmos tenemos que

ℎ(𝜃𝑋) 𝑓(𝑥; 𝜃) ℎ(𝜃)


𝑙𝑜𝑔 ( ) = 𝑙𝑜𝑔 ( ∗
) + 𝑙𝑜𝑔 ( )
ℎ(𝜃 ∗ 𝑋) 𝑓(𝑥; 𝜃 ) ℎ(𝜃 ∗ )
Entonces
ℎ(𝜃𝑋) ℎ(𝜃)
𝑔(𝑇(𝑋), ) = 𝑙𝑜𝑔 ( ) − 𝑙𝑜𝑔 ( )
ℎ(𝜃 ∗ 𝑋) ℎ(𝜃 ∗ )
y
log(𝑓(𝑥; 𝜃)) = 𝑔(𝑇(𝑋), ) − log(𝑓(𝑥; 𝜃 ∗ )).

25
Note que g (T(X),) es una función T-medible. Haciendo k(X)=f(X,*).que es una
función no-negativa -medible podemos escribir

𝑓(𝑋, 𝜃) = 𝑘(𝑋)exp{𝑔(𝑇(𝑋), 𝜃}

El Teorema de Badahaur garantiza que esto soporta la suficiencia de T.

3.10. ESTADÍSTICOS FUNCIONALES

Consideramos que  es un espacio vectorial y g un parámetro que toma valores en otro


espacio vectorial H y {, A, P; }. Tomemos P tal que

𝑃(𝑆 ∩ 𝑆`)
𝑃𝑆` (𝑆) = 𝑃(𝑆 ∩ 𝑆`), 𝑃 𝑆` (𝑆) = , 𝑆𝐴, 𝑆`𝐴, 𝑃(𝑆`) > 0
𝑃(𝑆`)

Fijemos algunas definiciones.

Tenemos la de homogeneidad de un parámetro

Definición 3.19. Se dice que el parámetro g es homogéneo sobre la clausura * de  si


para todo abierto U tal que para * , P y P*

𝑔(𝑃) = 0𝑠𝑖 𝑃(𝑈) = 0

𝑔(𝑃) 𝑔(𝑃 ∗ ) 𝑈
= 𝑠𝑖 𝑃(𝑈)𝑃∗ (𝑈) > 0 𝑦 𝑃+ = 𝑃𝑈 
𝑃(𝑈) 𝑃 ∗ (𝑈)
También la de la localización de un parámetro

Definición 3.20. Se dice que el parámetro g es localizado por la clausura * de  si para


todo abierto U que le contenga se verifica que 𝑔(𝑃) = 0𝑠𝑖 𝑃(𝑈) = 0 y que, P y P*
𝑈
𝑔(𝑃) = 𝑔(𝑃∗ ) 𝑠𝑖 𝑃+ = 𝑃𝑈 

Estas permiten fijar un concepto muy utilizado

Definición 3.21. Se dice que el parámetro es local g si es localizado por un pnto y


global si lo es solo por .

Ejemplo 3.6.

1. 𝑔(𝑃) = 𝑃(∗ ) es homogéneo sobre el cerrado *.


2. Sea M la medida de Lebesgue y FM la función de distribución correspondiente y
p0,1 entonces 𝑔(𝑃) = 𝐹𝑀−1 (𝑝) es global.

Note que un parámetro homogéneo sobre * está localizado por * pero que el
reciproco no es cierto.

Definición 3.22. Se dice que  es el grado de un parámetro real  si


={in kE(T(X1,…,Xk)=}.

26
En particular utilizaremos la notación {X, P} y en la mayor parte de los casos
recurriremos a la función de densidad f =f(x,) que es densidad de la ley de
probabilidad P respecto a la medida de Lebesgue o la contadora.

Un estadístico funcional es la contraparte del parámetro funcional. Si consideramos el


parámetro funcional =T(P) que toma valores en  tenemos la contrapartida al definir
la ley de probabilidad empírica a partir de la función de Dirac (Xi) como

Pn =j=1n (Xi)/n

Definición 3.23. Un estadístico T(X1 ,…,Xn ) es funcional si puede expresarse como


Tn=T(Pn). 

Ejemplo 3.7 Sea el parámetro funcional media teórica T(F)== xF(x). Un


estadístico es m=j=1n Xj /n. Este es funcional pues Pn=1/n: .m=xPn.. 

Es muy frecuente el uso de estimadores basados en núcleos. Veamos la definición de


núcleo (kernel).

Definición 3.24. El núcleo de un parámetro real  de grado  al estadístico T definido


sobre una muestra de tamaño  tal que
𝑇:  → , 𝐸(𝑇) = 
con E (𝑇(𝑋𝑖(1) , … , 𝑋𝑖(𝛼) )) =θ, (𝑖(1), … , 𝑖(𝛼)){1, . . , 𝑛}{1,…,n}

Ejemplos 3.8.

1. Si =E(X), =1, T(Xi)=Xi por lo que E(T)=E(X).


2. Si =V(X), =2, T(Xi,Xj )=Xi2 –Xi Xj por lo que E(T)=V(X).
Por otra parte son muy utilizados los núcleos simétricos

Definición 3.25. Tomando  como el conjunto de las ! permutaciones de


(𝑖(1), … , 𝑖(𝛼)){1, . . , 𝑛}, el núcleo simétrico es el estadístico T* definido sobre 
dado por:
𝑇 ∗ (𝑋𝑖(1) ,…,𝑋𝑖(𝛼) )
𝑇 ∗ (𝑋𝑖(1) , … , 𝑋𝑖(𝛼) ) = ∑𝜋 
𝑚!

Ejemplos 3.9.

1. Si =E(X), T(Xi,Xj )= ½(Xi+Xj ).


2. Si =V(X), T(Xi,Xj )=½(Xi – Xj )2 .
Entre los estimadores de núcleo simétricos el llamado U-estadístico juega un papel muy
importante en las inferencias. Su definición es la siguiente

Definición 3.26. Se dice que T es un U-estadístico si  es un parámetro de grado  de


núcleo simétrico T* y es dado por

27
𝑇 ∗ (𝑋𝑖(1) ,…,𝑋𝑖(𝛼) )
𝑈(𝑋1 , … , 𝑋𝑛 ) = ∑𝑖(1)<⋯<𝑖(𝛼) .
𝐶𝑛𝛼

Estos poseen propiedades de convergencia que le hacen muy útiles en muchos


problemas inferenciales.

Ejemplos 3.10

1. Si =E(X), =1, T(Xi)=Xi , T=T* y


𝑇 ∗ (𝑋𝑖(1) ,…,𝑋𝑖(𝛼) ) 𝑋
𝑈(𝑋1 , … , 𝑋𝑛 ) = ∑𝑖(1)<⋯<𝑖(𝛼) = ∑𝑛𝑖=1 𝐶 1𝑖 = 𝑋̅.
𝐶𝑛𝛼 𝑛

2. Si =V(X), =2, T(Xi,Xj )= )=½(Xi – Xj )2


2
1 𝑇 ∗ (𝑋𝑖(1) ,…,𝑋𝑖(𝛼) ) 1 (𝑋𝑖 −𝑋𝑗 ) (𝑋𝑖 −𝑋̅ )2
𝑈(𝑋1 , … , 𝑋𝑛 ) = 2 ∑𝑖<𝑗 = 2 ∑𝑖<𝑗 𝑛(𝑛−1) = ∑𝑛𝑖=1 = 𝑆𝑋2 .
𝐶𝑛2 𝑛−1
2

EJERCICIOS

1. Sean U = h(X), f(x | a) y g(u | a) las funciones de densidad de probabilidad de X


y U pruebe que U es suficiente para a si y solo si f(x | a) / g(h(x) | a) es independiente
de a para todo X..
2. Pruebe que si U y V son estadísticos equivalentes y U es suficiente para a
entonces también lo es V para a.
3. Pruebe que si X tiene una función de densidad de probabilidad de la familia k-
paramétrica exponencial con el estadístico natural h(X) este es suficiente para a.
4. Pruebe que si 𝑋1 , 𝑋2 son variables aleatorias independientes e idénticamente
distribuidas Poisson(𝜆). 𝑇 = 𝑋1 – 𝑋2 no es suficiente.
5. Pruebe. 𝑋1 , . . . , 𝑋𝑛 ∼ 𝑁 (𝜃, 1), 𝜃 = 1, 2, no es complete.
6. Pruebe. 𝑋1 , . . . , 𝑋𝑛 ∼ 𝑁 (𝜃, 1), −∞ < 𝜃 < ∞, es complete.
7. Pruebe. {Bin(2,𝑝), p = 1/2, p = 1/4} no es complete.
8. Pruebe. The family {Bin(2,p), 0 < p < 1} es complete.
9. Si X1, X2, ..., Xn es una muestral aleatoria de una distribución Gamma con
parámetro de forma k > 0 y de escala b > 0 pruebe que

a) (X1 + X2 + ··· + Xn, X1X2 ··· Xn) es suficiente para (k, b).
b) (M, U) es suficiente para (k, b) donde M es la media muestral y U la
geométrica.

10. Sea f(x | a) la función de densidad de probabilidad de X y U = h(X). Pruebe que


U es un estadístico suficiente minimal para a si f(x | a) / f(y | a) no depende de a si y
solo si h(x) = h(y).
11. Pruebe que si U y V son equivalentes y U es suficiente minimal para a
entonces también lo es V.\
12. Si X tiene una distribución de la familia exponencial con k parámetros con
estadístico suficiente natural U = h(X) demuestre que este es minimal para a.
13. Pruebe que los estadísticos suficientes deducidos para las distribuciones
Bernoulli, Poisson, Normal, Gamma y Beta son también minimales.
14. Diga si son de la familia exponencial probándolo

28
a) La Gamma con a > 0, b > 0.
b) La exponencial trasladada con parámetro
𝑒𝑥𝑝(−(𝑥−𝜃))
𝑓(𝑥|𝜃) = , 𝑥(𝜃, ∞), 𝜃 .
2𝑏

15. Sea 𝑋𝑖1 , … , 𝑋𝑖𝑛𝑖 , 𝑖 = 1,2; 𝑋𝑖𝑗 ~𝑁(𝜇, 𝜎𝑖2 ), 𝜃 = (𝜇, 𝜎12 , 𝜎22 )(0, ∞)2 =  . a)
Pruebe que la distribución conjunta es de la familia exponencial. Diga si dado un
estadístico suficiente para  este es completo.
16. Sea 𝑋𝑖 , … , 𝑋𝑛 , 𝑋𝑖 ∈ {0, … , 𝑘}, 𝑖𝑖𝑑, 𝑃(𝑋 = 𝑖) = 𝑃𝑖 . Pruebe que (T1, . . . , Tk),
Tj=número de veces que se observó j, es suficiente y completo para esta familia de
distribuciones.
17. Sea X1, . . . ,Xn una muestra aleatoria independientes e idénticamente
distribuidas con función de densidad
1
𝑓(𝑥𝑖 |𝜃) = , 𝑥𝑖 ∈ (𝑖(𝜃 − 1), 𝑖(𝜃 + 1))
2𝑖𝜃
Halle un estadístico suficiente bidimensional para .
18. Sea X1, . . . ,Xn una muestra aleatoria independientes e idénticamente
distribuidas con función de densidad
𝑒 −(𝑥−𝜃) ,
𝑓(𝑥|𝜃) = , 𝑦 ∈ , 𝑦 = 𝑥, 
(1 + 𝑒 −(𝑥−𝜃) )2
19. Halle un estadístico suficiente minimal para .
20. Sea X1, . . . ,Xn una muestra aleatoria independientes e idénticamente
distribuidas con función de densidad
𝑓(𝑥|𝜃) = 𝑒 −(𝑥−𝜃) , 0 <  < 𝑥 < ∞ Halle un estadístico suficiente minimal para .
21. Sea X1, . . . ,Xn una muestra aleatoria independientes e idénticamente
distribuidas con función de densidad
𝑓(𝑥|𝜃) = 𝑒 −(𝑥−𝜃) , 0 <  < 𝑥 < ∞ Pruebe que X(1) y S2 son independientes.
22. Si X1, ..., Xn es una sucesión de variables Bernoulli con el mismo parámetro
0<p<1 pruebe que es completo para p el estadístico y Y = X1 + ··· + Xn.
23. Pruebe que si la distribución de la sucesión definida anteriormente es Poisson o
Exponencial se mantiene la completitud para la suma respecta al parámetro.
1 1
24. Pruebe que la completitud de Y se pierde en el caso Bernoulli si 𝑝 ∈ {3 , 2}

Ejercicios Avanzados

1. Sea la función de densidad

  x2 
 exp  
  2S 
 si x0
 1  2S
 1
f (x | S)   si 0  x  1
1  2S
  ( x  1) 2 
 exp  
  2S 
 si x 1
 1  2S

29
Si 0<S< halle un estadístico suficiente minimal si tenemos dos variables aleatorias
independientes con densidades f(x|S) y f(x*|S*). (Sugerencia: Use los cosets
correspondientes).
2. Sea G={g: gxi=cxi, 0<c<, i=1,…,n}. Consideremos el estadístico determinado
por el conjunto U={(y1,…,yn-1): yi=xixn-1,,…i=1,…n-1} . Pruebe que U es maximal
invariante.
3. Sean i, i=1,..,n, experimentos asociados a los espacios de probabilidad {i , i
,Pi} y *i, i=1,..,n, experimentos asociados a los espacios de probabilidad {*i , *i
,P*i},, respectivamente. Si *i es suficiente para *i para todo i, entonces 1 …n.
4. Sea 𝑋𝑖 , … , 𝑋𝑛 , 𝑋𝑖 ~𝑈(0, 𝜃), pruebe que:
a) T es absolutamente continuo con densidad:
𝑛𝑥 𝑛−1
𝑓(𝑥|𝜃) = , 𝑥(0, 𝜃), 𝜃 
𝜃𝑛
(Calcule primero P(Tt) ).
b) Calcule el ECM de T.
c) Pruebe que T suficiente y completo en la clase de distribuciones anterior.
5. Sea una muestra ordenada X(1), < . . <X(n) i.i.d. con distribución U[0, ],  > 0.
Pruebe que
a. n( − X(n) )) P Exp(1/).
b. n1/2(2X(k) −)P N(0, 2) para k = ½n+o(n1/2).
c. Que estimador prefiere? Explique su respuesta.
6. Si X tiene una distribución perteneciente a la familia exponencial k-paramétrica
y U = h(X). es el estadístico suficiente natural pruebe que es minimal. Compruebe que
también es un estadístico suficiente de las familias de distribuciones Bernoulli, Poisson,
normal, Gamma y Beta son minimales.

4. LA ESTIMACIÓN PARAMÉTRICA

4.1. EL PROBLEMA DE LA ESTIMACIÓN PUNTUAL

Consideremos que tenemos el modelo {, P; }. El caso de la estimación puntual es
aquel en el que el espacio paramétrico cumple conque . Este es el conjunto de los
posibles estado de la naturaleza. Diremos que {, P} es la experiencia elemental y que
f(x)=f(x)=f(x;) es la densidad de la media de probabilidad P. El parámetro  es la
selección de la naturaleza y es desconocido su valor *. El estadístico considera este
problema decisional y hacer n experiencias y si estas son independientes el modelo de
muestreo es {, P}n . La información que obtiene de esta experiencia es muestra la
{X1,…,Xn}. Si el interés está centrado en una aplicación g() definida sobre  el
espacio de las posibles decisiones es D=g().

Definición4.1: 𝑇: 𝑛 𝐷, ((𝑋1 , . . , 𝑋𝑛 )𝑇 𝑇(𝑋1 , . . , 𝑋𝑛 )) es una regla de decisión


pura llamada estimador de g(). ={} es el conjunto de todos los estimadores posibles
y al observar la realización de la muestra (𝑥1 , . . , 𝑥𝑛 ) el valor T(𝑥1 , . . , 𝑥𝑛 ) = 𝑡 = 𝑔̂(𝜃)
es la estimación realizada.

Al definir una pérdida L(d,g())), 𝐿: 𝐷 × 𝑔()+ podemos medir la efectividad de


un estimador. Es lógico preferir aquellos cuyos valores sean similares en un cierto

30
sentido al parámetro. Usar la función de pérdida nos da una idea de las bondades del
estimador. En general trataremos de que L(d,g())) sea dos veces derivable, que estas
derivadas sean continuas y estrictamente convexas en una vecindad de la decisión
correcta d*=g(*). Es decir que si V(*) es tal vecindad se cumplan las condiciones de
regularidad:
2
𝜕𝐿(𝑑∗ ,𝑔(𝜃∗ )) (𝑑−(𝑔(𝜃∗ ))
𝑃1. 𝐿(𝑑, 𝑔(𝜃 ∗ )) = 𝐿(𝑑 ∗ , 𝑔(𝜃 ∗ )) + (𝑑 − (𝑔(𝜃 ∗ )){ + },
𝜕𝑑 2
𝑑 ≤ 𝑑 + ≤ 𝑔(𝜃 ∗ ).
𝑃2. 𝐿(𝑑 ∗ , 𝑔(𝜃 ∗ )) = 0
𝜕2 𝐿(𝑑+ ,𝑔(𝜃∗ ))
P3. 𝑑+ 𝑉(𝜃 ∗ ), >0
𝜕𝑑2
En general usaremos la pérdida cuadrática
𝐿(𝑑, 𝑔()) = (𝑑 − 𝑔())2
Bajo estas condiciones de regularidad la función de pérdida puede ser aproximada por
una serie de Taylor en una vecindad de V(*).

Ejemplo 4.1. 𝐿(𝑑, 𝑔()) = |𝑑 − 𝑔()| no es derivable en una vecindad de g(*).

Al definir una función de riesgo R(T,)=E(L(d,g()) la utilizaremos para ordenar los


posibles estimadores. Así preferiremos T a T´ si R(T,)R(T´,). Este no permitirá
eliminar ciertos estimadores al ver si las reglas de decisión asociadas son admisibles o
no. Para formalizar fijemos esta en la siguiente:

Definición 4.2. Sean T y T* dos estimadores de g(). Se dice que T es más eficiente
que T* si .R(T, )R(T*,), para todo .

Tiene sentido que se busque en  la regla de decisión * más eficiente. En general se


trabaja con una subclase de estimadores C y se busca hallar

𝑇𝑜 𝑡𝑎𝑙 𝑞𝑢𝑒 𝑅(𝑇𝑜 , 𝜃) = 𝑀𝑖𝑛 𝑅(𝑇, 𝜃𝑇 ∈ 𝐶)

Trabajar sobre C para hallar un óptimo es excesivamente ambicioso. Lo que hacemos es


definir subclases conniventemente determinadas. Un forma de hacerlo puede ser
usando la estructura del estimador. Por ejemplo si usamos
𝑛

𝑇 = 𝐵0 + ∑ 𝐵1 𝑋1 , 𝐵𝑖 , 𝑖 = 0,1, … , 𝑛 𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑜𝑠
𝑖=1
Definimos la clase de los estimadores lineales.

Definición 4.3. La clase 𝐶𝐿 = {𝑇 = 𝐵0 + ∑𝑛𝑖=1 𝐵1 𝑋1 , 𝐵𝑖 , 𝑖 = 0,1, … , 𝑛 𝑐𝑜𝑛𝑜𝑐𝑖𝑑𝑜𝑠}


Es conocida como la de los estimadores lineales. Si B0=0 se dice que la de los
estimadores lineales homogéneos.

Más importancia tiene el definir propiedades deseables de los estimadores y detentar


clases particular. Una vez definidas estas buscar condiciones de optimalidad dentro de
ellas.

Consideramos la esperanza de un estimador. Esta se puede expresar como

31
𝐸(𝑇) = 𝑔(𝜃) + 𝐵(𝜃)
Se define B() como el sesgo del estimador. Es lógico buscar estimadores que tengan
sesgo cero.

Definición 4.5. Si 𝐸(𝑇) = 𝑔(𝜃) se dice que T es un estimador insesgado (centrado) de


g(). 

Ejemplo 4.2. Si f=N(,1) y tomamos una muestra (𝑋1 , . . , 𝑋𝑛 ) un estimador insesgado


es (X1+2X3)/3. Sin embargo no tiene sentido desperdiciar la información que proveen el
resto de las variables aleatorias. Es intuitivo que será mas recomendable usar una
función de un estadístico suficiente.

En particular se puede trabajar con la insesgadez asintótica

Definición 4.6. Tn es un estimador asintóticamente insesgado de g() si


lim 𝐸(𝑇𝑛 ) = 𝑔(𝜃) 
𝑛→∞

Ejemplo 4.3. Si f=N(,1) y tomamos una muestra (𝑋1 , . . , 𝑋𝑛 ) también es


asintóticamente insesgado (X1+2X3)/3.

Otra propiedad es la de convergencia

Definición 4.7.. Tn es un estimador convergente de g() si este converge en


probabilidad a este. Es decir si ∀𝛼 ∈ + , ∃𝜀 ∈ + , P{|𝑇𝑛 − 𝑔(𝜃)| < 𝛼} ≥ 1 − 𝜀

Ejemplo 4.4. Si f=N(,1) y tomamos una muestra (𝑋1 , . . , 𝑋𝑛 ) tenemos que


(X1+2X3)/3 no es convergente. Esto nos hace también dudar de sus bondades. 
.
Esto lo podemos denotar también como lim 𝑃 {|𝑇𝑛 − 𝑔(𝜃)| < 𝛼} = 1 o P(lim{𝑇𝑛 }) =
𝑛→∞ 𝑛→∞
𝑔(𝜃).

Es fácilmente deducible aplicando el teorema de convergencia en probabilidad casi


segura que :

Proposición 4.1. Si E(Tn)g() y V(Tn)0 es convergente para g().

Otra propiedad importante es la de consistencia.

Definición4.8.Sea Fn la función de distribución empírica asociada al modelo de


muestreo {, P}n y Tn=T(Fn)=T(𝑋1 , . . , 𝑋𝑛 ) se dice que es consistente si T(F)=g(). 

4.2. ESTIMADORES INSESGADOS

4.2.1. El caso unidimensional

32
Como se apuntara una propiedad muy popular es la de insesgadez. Note que esta
establece que el promedio del estimador coindice con el parámetro. Es decir que si
utilizamos este en forma repetida se espera que el promedio de las estimaciones esté
cerca del valor desconocido del parámetro. Sin embargo esto no es suficiente para
aceptar un estimador solo por ser insesgado. Denotemos esta clase como

𝐶𝐼 = {𝑇: , 𝐸(𝑇) = 𝑔(𝜃)}

Veamos un estimador insesgado claramente inaceptable.

Ejemplo 4.5: Sea F=N(, 2) entonces =+. Si nos interesa g(,2)=(, 2)
podemos considerar el estimador
2)
(𝑋1 − 𝑋𝑛 )2
𝑔̂(𝜇, 𝜎 = (𝑋1 , )
2
Este es insesgado pues E(X1)= y
(𝑋1 − 𝑋𝑛 )2 1 1
𝐸[ ] = 𝐸(𝑋12 + 𝑋𝑛2 − 2𝑋1 𝑋𝑛 ) = (2(𝜇 2 + 𝜎 2 ) − 2𝜇 2 ) = 𝜎 2
2 2 2

Es claro que este estimador no utiliza toda la información que provee la muestra pues
trabajamos con un estadístico no suficiente. Por tanto no parece ser un estimador
insesgado aceptable.

 f ( x, ) 
2

 
Consideremos la información de Fisher I ( )  E    y que se cumplen las
 f ( x,  ) 
 
hipótesis (condiciones de regularidad) siguientes

H1:  es un abierto de  y f(x,)>0x, .

H2: f(x, )/ y 2 f(x,)/2 existen y son finitas CS, .

H3: QA es válida la operación

 
 
Q
f ( x, )dx  
Q 
f ( x, )dx

H4: Para todo , I()[0, 1].

Estas son conocidas como hipótesis de Cramer-Rao.

H3 determina que tanto f(x, )/ como 2 f(x,)/2 son integrables.

Una cota para el error cuadrático medio de estimadores tales que E (T)=  es dada en el
teorema siguiente.

33
Teorema 4.2. Suponga que T es un estimador insesgado con varianza finita para g() y
que se cumplen H1-H4 (las hipótesis de Cramer-Rao), X=(X1 ,…,XN ), y

H5: QA, Q T(x)f(x,)dx es derivable respecto a  bajo el signo de integración y

f ( x, )

Q
T ( x)

dx  ,   

Entonces

1. g() es derivable
2. , V(T)g´()/In (), (Desigualdad de Fréchet-Darmois-Cramer-Rao,
FDCR)

Demostración:

Validez de 1.

E(T)=  T(x)f(x,)=g()

H5 garantiza que

 f ( x, )

  T ( x) f ( x, )dx   T ( x)
Q Q

dx  

Por lo que existe la derivada de g() y es finita.

Validez de 2.

f ( x, )
g´( )   T ( x) dx


H1 soporta que

g´( )   T ( x)S ( x, ) f ( x, )dx  E(T ( X )S ( X ))

Mientras que H2 lo hace con la E(S(X))=0. De ahí que

g´()=E(TS)-E(T)E(S)=Cov (T,S).

Aplicando la desigualdad d Cauchy-Schwarz

g´2()=Cov2 (T,S)V(T)V(S)V(T)g´2 ()/V(S)

Como V(S)=In () se obtiene el resultado.

34
Nota: BF=g´2()/In() es llamada la cota de Frèchet.

Nada garantiza la existencia de un estimador cuya varianza sea igual a BF.

La cota es atribuida al trabajo de Cramer presentado en 1946 pero Rao la había


obtenido en 1945. Sin embargo el primero en derivarla fue Frèchet en el periodo
1937-1938 y Darmois hizo aportes en su generalización y establecimiento de
condiciones de regularidad.

Es evidente el siguiente resultado:

Corolario 4.3. Si se estima a  la cota de CR fija que V(T)In()

Veamos ahora otro asociado a la sesgadez

Corolario 4.4.Si T es un estimador sesgado de g(),

E (T-g())2 =V(T)+B2 ()B2 ()+[du()/d()] 2In-1()

Demostración

Se sigue del hecho de que T es un estimador insesgado de g*()=g()+B() y de la


desigualdad de FDCR.

Definición4.9. Diremos que un estimador es eficiente si su error es igual a la cota de


FDCR. Si el estimador es insesgado se dice que es de mínima varianza (EIMV). 

La eficiencia de un estimador insesgado T es definida como

(T)2 =[V(T)+B2 ()] -1 [B2 ()+[du()/d()] 2In-1()] 1

Ejemplo 4.6: Sea una distribución normal de media  y varianza desconocida .


Hallemos el EIMV. La varianza mínima es In() =IX() , X=(X1 , ,Xn )). Tenemos
-1 -1

que la verosimilitud es

𝑛 1 1 𝑛
− (𝑥 −𝜇)2 − ∑ (𝑥𝑖 −𝜇)2
𝑒 2𝜎2 𝑖 𝑒 2𝜎2 𝑖=1
𝐿(𝜇) = ∏ = 𝑛
𝑖=1
𝜎√2𝜋 (𝜎√2𝜋)
𝑛
𝑛 𝑛 1
y log 𝐿(𝜇) = − log(2𝜋) − log 𝜎 2 − 2 ∑ (𝑥𝑖 − 𝜇)2
2 2 2𝜎
𝑖=1

Entonces hallando la derivada respecto a la media teórica


𝑛
𝜕 1 𝑛
(log 𝐿(𝜇)) = − 2 ∑ (𝑥𝑖 − 𝜇) = − (𝑥̅ − 𝜇)
𝜕𝜇 𝜎 𝜎2
𝑖=1

35
𝜎2
Como 𝑉(𝑥̅ ) = y
𝑛

𝜕 𝑛2 𝑛2 𝑛
𝐸(𝜕𝜇 (log 𝐿(𝜇)))2 = 𝜎4 𝐸(𝑥̅ − 𝜇)2 = 𝜎4 𝑉(𝑥̅ ) = =𝐼𝑛 (𝜇)
𝜎2

la media aritmética es EIMV en este caso. 

4.2.2. Estimador insesgado óptimo

Tomemos la clase I(T) como la clase de los estimadores insesgados de .

Determinemos criterios de optimalidad en esta clase

Teorema: Sea T* un estadístico tal que E(T*)=0. Una condición necesaria y suficiente
para que un estimador T sea optimal es que Cov(T*,T)=0.

Demostración:

Necesidad

Si T es optimal para todo a tomemos a T+aT*I La varianza de T esta acotada


V(T)V(T+aT*), a

Lo que equivale a decir que

a2 V(T*)+2aCov(T, T*)0, a

Por tanto la covarianza es cero.

Suficiencia

Si T´I , y T es insesgado y Cov(T*,T)=0, para todo T* se tiene que E(T*)=0.


Tomemos D=T´-T. Es claro que E(D)=0 y Cov(T´,D)=0. Si no

V(T´)=VD+T)=V(D)+V(T)

Entonces

V(T´)-V(T)=V(D) 0

o sea que V(T´)V(T)

Muy importante es la unicidad de tal estimador

Teorema 4. 5. (El EIMV es único). Si existe un estimador optimal este es único CS


para P

Demostración

36
Si T es optimal y existiese otro T´ optimal tendríamos que

V(T´)=V(D)+V(T)+2Cov(D,T)

Siendo E(D)=0. Del teorema anterior se tiene que

V(T´)=V(T) por lo que V(D)=0. Por tanto D-E(D)=0, CS. O sea que D=0, CS.

Es útil e importante establecer condiciones para la existencia de un EIMV. El teorema


de Koopman fija como establecerle.

Teorema 4. 6. (Koopman). Sea g() a función a estimar y la medida de probabilidad P


satisface las hipótesis de Cramer Rao y además

H6: g() no es constante


H7: f´(x,) es continua en .

Un condición necesaria y suficiente para la existencia de una EIMV de g() es la


existencia de tres funciones a(), b(), derivables, y c(x) tales que

Log f(x,)=a()T(x)+b()+c(x)

Siendo a´()0 y g()=-b´()/a´()

Demostración:

Necesidad

Si V(T)=g´2()/I(),  se pueden determinar q() y w(), no nulas


simultáneamente, tales que

[T-g()]q()+w()S(x,)=0, CS.

Veamos que w()0, 

Para ello supongamos que existe * tal que w(*)=0. Como que y w no pueden
anularse al mismo tiempo q()0 por lo que T(x)=g(*), xN(), siendo N() un
conjunto de probabilidad nula.

Como P* (N())=0 si f(x,)>0, x y , P (N(*))=0.

Tendríamos que T(x)=g(*) CD lo que conllevaría a que g()=E(T(x)) CD lo que es


imposible. De ahí que w()0, . Entonces podemos escribir

S(x, )=f´(x,)/f(x,)=k()[t(x)-g()], xN().

Determinemos una ecuación diferencial del tipo precedente evaluable para todo x
excepto en un conjunto N* independiente de  de probabilidad nula.

37
Sea K= y N= N().

Tenemos que
f ´(x, i )
 i  K , x  N  k ( i )T ( x)  g ( i )
f ( x, i )
Como P es denso en  por lo que K lo es en .
De ahí que , existe una sucesión {i }, con i , para todo i que converge a . Del
hecho de que g es derivable se sigue su continuidad por H7 y
x  N
f ´(x, i ) f `( x, )
lim i  
f ( x, i ) f ( x, )
lim i  T ( x)  g ( i )  T ( x)  g ( )

Podemos garantizar la existencia de al menos un x*N tal que T(x*)-g()0, sino g()
seria constante CD lo que es imposible. Y para un x* tal que T(x*)g()

x  N
f ´(x*, i ) 1 f ´(x*, )
lim i  k ( i )  .  [T ( x*)  g ( )]1  k ( )
f ( x*, i ) T ( x*)  g ( i ) f ( x*, )
De ahí que
x  N
f ´(x, i ) f `( x, )
lim i    lim i  k ( i )[T ( x)  g ( i )]  k ( )[T ( x)  g ( )]
f ( x, i ) f ( x, )
Hemos establecido que

k(), N, P(N), tal que xNc : f´(x,)/f(x,)=k()[T(x)-g()]

Integremos esta relación

Sea x*Nc, por los razonamientos anteriores T(x)T(x*), y

f ´(x, ) f `( x*, )
  k ( )[T ( x)  T ( x*)]
f ( x, ) f ( x*, )

Para x* fijo, T(x)-T(x*) es integrable sobre  y xNc , T(x)T(x*) por lo que k() es
integrable sobre  usando el hecho de que:
 Si h y v son integrables entonces hv lo es
 Si h y v son integrables y v es acotada y de signo constante entonces h/v es
integrable.

Log f(x,)-Log f(x,)=a()T(x)+b*()+c(x)

De lo que se deduce que

xNc , f(x,)=a()T(x)+b()+c(x), P(N())

38
Suficiencia

H2 conlleva la existencia de la derivada respecto a  de h(x,)=a()T(x)+b(). Si g()


es constante el caso seria trivial. Si no lo es, T(x) tampoco pues en caso contrario
T(x)constante  g() lo es. Sea T(x*)T(x) entonces a() se puede expresar como la
diferencia entre dos funciones derivables en 

h( x, )  h( x*, )
a( )  
T ( X )  T ( x*)
La derivada a´() existe . De esto se sigue que b´() también existe. Por ello
podemos escribir

f ´(x, )
 S ( x, )  a`( )T ( x)  b´( )
f ( x, )

Como E(S)=0

 `[a`( )T ( x)  b´( )] f ( x, )dx  a`( ) E[T ( x)]  b´( )

De ahí se deduce que a`( ) g ( )  b´( )  0 de lo que se sigue que T(x)-g() es


proporcional a la razón f´(x,)/f(x,)=S(x,) pues

f ´(x, )
 a`( )[T ( x)  g ( )]
f ( x, )

Usando la desigualdad de Cauchy Schwarz en la igualdad

V(T)=g´2()/I()

Pudiendo escribirse

E(S2(x,))=I()=a´()V(T).

I() es estrictamente creciente y positiva , V(T) es positiva por ser T no constante.

Entonces a´()0 lo que implica que g()=-b´()/a´() 

Trabajar con estimadores insesgados es relativamente sencillo. Eso les han hecho muy
populares. Partiendo de uno este siempre puede ser mejorado. El Teorema de Rao-
Blackwell fija esto. A pesar de que este no permite determinar un estimador optimal es
posiblemente el resultado más importante dentro de la teoría de estimación.

Teorema 4. 7. (Rao Blackwell). Sea T un estimador insesgado de g() y que la ley P


admite un estadístico suficiente U. Es preferible el uso del estimador insesgado
H(u)=E(TU=u) pues , V(T)V(H(U)).

Demostración

39
Como U es suficiente la ley condicional dado U=u no depende de  y
H(u)=TdP(xU=u) no depende de .

Este es insesgado pues


𝑔(𝜃) = 𝐸(𝑇) = 𝐸𝑈 𝐸(𝑇𝑈 = 𝑢) = 𝐸𝑈 (𝐻(𝑢)) = 𝐸(𝐻(𝑈))
La varianza de T es dada por V(T)=E(T-g())2=EU(E((T-g())2U=u)
La desigualdad de Jensen fija que

E((T-g())2U=u) E((T-g())U=u)xE((T-g())U=u)= (H(u)-g())2)

Entonces H(U) es preferido a T porque

V(T)=EU(E((T-g())2U=u)EU(H(u)-g())2=V(H(U)). 

El teorema de Lehmann-Scheffé usa el de Rao-Blackwell para determinar un estimador


optimal dentro de la clase de los estimadores insesgados.

Teorema 4. 8. (Lehmann-Scheffè). Bajo las hipótesis del teorema de Rao Blackwell si


U es además completo H(U) es optimal para g().

Demostración.

Sea H(U) el estimador mejorado usando el teorema de Rao-Blackwell, SCI y


Z(U)=E(SU=u). Es claro que

E(H(U))=EUE(TU=u)=EUE(SU=u)=E(Z(U))=g()

Entonces EUE(TU=u)-EUE(SU=u)=0 y como U es completo

E(H(U)) =CS E(Z(U)) H(U) =CS Z(U).

Por tanto V(H(U)) =CS V(Z(U)). Como SCI se tiene que


∀𝑆 ∈ 𝐶𝐼 , 𝑉(𝑍) ≤ 𝑉(𝑆) 𝑦 ∀𝑆 ∈ 𝐶𝐼 , 𝑉(𝐻) ≤ 𝑉(𝑆)

H es optimal. 

4.2.3. El caso general

Consideremos el caso más general en que g() es una aplicación

𝑔: 𝑝

Sea rxr una matriz definida positiva, : (,A)(, B) un estadístico y la pérdida


cuadrática
L((X), g())=((X)-g()T((X)-g()

40
Podemos deducir los teoremas de Rao-Blackwell y Lehmann-Scheffè en un marco más
general lo que permitirá hacer un estudio más amplio de problemas de la insesgadez y la
optimalidad de estimadores insesgados. Veamos primero un lema auxiliar.

Lema 4.9.. Sea el modelo paramétrico {, A, F; }. : (,A)(, B) un estimador
de g() y T: {, A, F}{*, AT, FT } un estadístico y la pérdida cuadrática
L((X), g()). Entonces

E(L((X), g())=E(L(g*(T), g())+E( E( L((X), g*(T)AT)), , g*(T)=E(


L((X)AT ).

Demostración

L((X), g())= ((X)- g*(T))T((X)- g*(T))+2((X)- g*(T))T( g*(T)- g ())+


(g*(T)- g ())T(g*(T)- g ())

Como g*(T) es AT medible y , E( (X)- g*(T)AT))=0, aplicando l ley de las
esperanzas iteradas

E {L((X),g())}=E{E((X), g ()AT )}=E {E (L((X),g*(T)AT}+ E {E


(L(g*(T),g ())}. 

Veamos el Teorema de Blackwell-Lehmann.Scheffè-

Teorema 4.10. (General de Blackwell-Lehmann.Scheffè) Si AT es un subcampo


suficiente para la familia paramétrica {F , } y (x) es un estimador insesgado de
g(), se tiene que g*(T)=E((X)AT)CI(g()) y si L((X), g())=((X)-g()T((X)-
g() entonces

, E {L(g*(T),g ())}E {L((X),g())}


Solo si (X)AT , E {L(g*(T),g ())}=E {L((X),g())}.

Demostración

Como AT es suficiente g*(T) no depende de  y es un estimador insesgado de g() dado


que (X) es insesgado. Esto es obtenido al aplicar la ley de las esperanzas iteradas
como en el lema anterior. E (L((X), g*(T)AT))0, por lo que usando el resultado del
lema anterior se tiene que

E(L((X), g())E(L(g*(T), g()).

La igualdad es válida solo si (X) es AT-medible lo que implica que (X) =CS g*() por
lo que L ((X),g*())>0 solo en conjunto de medida nula. 

En este contexto el papel del estadístico suficiente y completo es dado en el Teorema.


que se presenta a continuación.

Teorema 4.11. (General de Lehmann-Scheffé). Sea el modelo paramétrico {, A, F;


} y T: {, A, F}{*, B, FT } un estadístico suficiente y completo para la familia

41
de funciones de distribución {F ;}. Si g() es estimable admite un estimador
insesgado para la función de pérdida cuadrática que es AT-medible y que es
esencialmente único.

Demostración

Sea (X) un estimador insesgado de g() y el estimador g*(T)=E((X)AT). El riesgo


de g*(T) no puede ser mayor que el de (X). Como esto es valido ara un  arbitrario
g*(T) tiene un riesgo uniformemente mínimo. Si existiese otro estimador U con la
misma propiedad entonces

∫ (𝑔∗ (𝑇) − 𝑈(𝑇))𝑑𝐹 𝑇 𝜃 (𝑡) = 0. , 


∗
Dada la completitud de la familia g*(T) =CSU(T), lo que establece la unicidad esencial
de g*(T). 

En este contexto general se pueden deducir resultados válidos para funciones de pérdida
más generales, como las convexas, bajo ciertas condiciones adicionales.
Tomemos dos puntos de n : Xn y Xn* , una constante 0a1 y  una función convexa
((aXn +(1-a)(Xn*)a(Xn+(1-a)(X*n)).

Proposición 4.12. Sean X1,…,Xn variables aleatorias con distribución F,  una función
convexa sobre n integrable respecto a F y que existe E(X1,…,Xn)=E(Xn). Entonces

(E(Xn)). E((Xn)).
donde

E(Xn)={ X1dF(X),…, XndF(X))T, E((Xn))= XndF(Xn))

Demostración

Se sabe que para la funciones convexas a través de un punto X0n pasa el hiperplano
(X, X0)=(X0)+((X0)T(X-X0) que se encuentra completamente por debajo de (X) y
coincide con ella en X0. (Hiperplano soporte). (X0) denota el gradiente que se supone
existe en una vecindad de X0.

Denotemos por 0(X*) el hiperplano soporte de (Xn) a través de E(Xn). Para todo
Xnn tenemos que ( Xn)( Xn )=(E(Xn ))+((( E(Xn))T(Xn-E(Xn)).
Los componentes de (( E(Xn) son finitos y como E(Xn-E(Xn))=0 se tiene que E((
Xn)E((Xn)=E(Xn ) que era lo que debíamos probar. 

Con este resultado podemos probar un resultado del tipo Blackwell-Rao-Lehmann-


Scheffé.

Proposición 4.13. Sean X1,…,Xn variables aleatorias con distribución no degenerada F,
T un estimador tal que E(T)=g() y S(Xn) un estadístico suficiente y completo en la
familia de funciones de distribuciones { F;} que induce la sigma álgebra AS . Si
g*(S(Xn))=E(T(Xn) S(Xn)) es un estimador insesgado de g(). Entonces si la pérdida es
una función convexa no constante para todo 

42
E (L(g*(S(Xn)), g())E (L(g*(T(Xn)), g())

La igualdad es válida si y solo si T(Xn)), es AS medible y g*(S(Xn)) es esencialmente


único.

Demostración

Es claro que g*(S(Xn)) es insesgado y es esencialmente único dado que S(Xn) es un


estadístico suficiente completo. Como g*(S(Xn)),AS usamos la ley de la esperanza
iterada y escribimos

E (L(((Xn)), g())=E (L((Xn)), g()S(Xn)

Dada la convexidad de la función de pérdida y el lema anterior en la familia


determinada para todo 

L(g*(S(Xn)), g())CS E(L((Xn)), g()S(Xn))

aplicando esperanza se obtiene la desigualdad fijada en la tesis del lema. Además,


S(Xn)ASg*(S(Xn)), casi seguramente (CS) en {F;}. Si la igualdad se cumple
L(g*(S(Xn)), g())=CS E(L(T(Xn)), g()S(Xn)). Como L(T(Xn)), g()) es convexa para
cada  y g*(S (Xn))=E(T(Xn) S(Xn)) esta igualdad es válida si todas la
distribuciones en {F;}. Son degeneradas o si (L(T (Xn)) es constante independiente
de Xn pero estos casos son excluidos. Entonces solo es válido si T(Xn)AS .

Ejemplo 4.7. Tomemos X=(X1,…,Xn)T , Xi con distribución N(, 2), entonces


=+. Sea nuestro interés estimar P(X<-/)=(-/). Sabemos que
𝑛
∑𝑛𝑖=1 𝑋𝑖
̅
(𝑋, 𝑄) = ( , ∑(𝑋𝑖 − 𝑋̅)2 )
𝑛
𝑖=1
es el estadístico suficiente minimal y completo para =(, 2) . Debemos probar que es
esencialmente único para que sea válido el Teorema de Lehmann-Scheffé.
Sabemos que Q-1/2 se distribuye (22(n-1))1/2 , entonces

0 𝑠𝑖 𝑧(𝑋̅, 𝑄) ≤ 0
𝑛 𝑛
𝑃∗ ((𝑋1 , … , 𝑋𝑛 )) = {𝐼𝑧(𝑋̅,𝑄) ( − 1, − 1) 𝑠𝑖 0 ≤ 𝑧(𝑋̅, 𝑄) ≤ 1
2 2
̅
1 𝑠𝑖 𝑧(𝑋, 𝑄) > 1

𝑋̅ 𝑛
1− √ 𝑧(𝑋̅ ,𝑄) 𝑛
𝑄 1/2 𝑛 − 1 𝑛 𝑛 𝑛
𝑧(𝑋̅, 𝑄) = , 𝐼𝑧(𝑋̅,𝑄) ( − 1, − 1) = ∫ 𝑢 2−2 (1 − 𝑢) 2−2
2 2 2 0

𝑛 𝑛
𝐼𝑧(𝑋̅,𝑄) (2 − 1, 2 − 1) es la distribución Beta incompleta de argumento positivo ,
𝑛−2 𝑛−2
𝛽( , ), que es independiente de (𝑋̅, 𝑄).
2 2

43
𝑛−2 𝑛−2
Como si 𝛽 ( , ) es independiente de una variable con distribución 2(n-1) la
2 2
𝑛−2 𝑛−2
distribución de 𝛽 ( , ) (2(n-1))1/2 se aproxima a una N(0,1). De la definición de
2 2
𝑧(𝑋̅, 𝑄)
se deriva que

𝑋̅ 𝑛
1− 1 √𝑛 −1
𝑛−2 𝑛−2 𝑄2
𝐸(𝑃∗ ((𝑋1 , … , 𝑋𝑛 )) = 𝐸 (𝑃 {𝛽 ( , )}) ≤ (𝑋̅, 𝑄)
2 2 2
{ }
𝑛−2 𝑛−2 𝑛
= 𝑃 {𝜎 (2𝛽 ( , ) − 1) √2 (𝑛 − 1) ≤ −𝑋̅√ }
2 2 𝑛−1
𝑛 1
= 𝑃 {𝑁1 (0, 𝜎 2 ) + 𝑁2 (𝜇√ , 𝜎2√ ) ≤ 0}
𝑛−1 𝑛−1

Las variables normales son independientes por lo que


𝑛 1 𝑛 𝑛 𝜇
𝑁1 (0, 𝜎 2 ) + 𝑁2 (𝜇√ , 𝜎2√ ) ~𝑁 {𝜇√ . 𝜎 2√ } =  {− }
𝑛−1 𝑛−1 𝑛−1 𝑛−1 𝜎

Entonces la insesgadez es establecida pudiendo afirmarse es el estimador es insesgado


de mínima varianza y esencialmente único.
Lo esencial en la determinación de los estimadores de mínima varianza se centra en la
completitud de la familia de distribuciones definida por el modelo estadístico. Si esto no
es aceptable puede buscarse estimadores que tengan esta propiedad en forma local.
Estos son definidos como sigue

Definición 4.10. Si g() es un vector paramétrico y (X) un estimador de este decimos


que este es locamente insesgado de mínima varianza en * si para cualquier otro
estimador (X) de g() se tiene que 𝑉𝜃∗ (𝜑(𝑋)) ≤ 𝑉𝜃∗ ((𝑋)). 

Una forma de identificar tales estimadores es dada en la proposición siguiente

Proposición 4.14. Sea {, A, F; } un modelo estadístico y g una función estimable
g:a,b. * es un estimador insesgado localmente de mínima varianza de g()
en * si y solo si 𝑐𝑜𝑣𝜃∗ (𝜑 ∗ (𝑋), 𝑓(𝑋)) = 0, donde f(X) es un estimador insesgado de
0 si 𝑉𝜃∗ (𝑓(𝑋)) < .

Demostración

X debe ser un estadístico suficiente minimal pues en otro caso el teorema de Blackwell-
Rao-Lehmann-Scheffé implicaría que * no puede ser un estimador de mínima
varianza en =*. Si la clase es completa este mismo teorema soporta que * tiene esa
propiedad para todo . Por tanto consideremos que la familia no es copeta. Además
consideremos que f(X) es un estimador no trivial. Veamos ahora que la condición de que
la covarianza sea nula es necesaria y suficiente.

44
Necesidad
Si *(X) tiene la propiedad en =* y 𝑐𝑜𝑣𝜃∗ (𝜑 ∗ (𝑋), 𝑓(𝑋)) > 0 un tenemos un
estimador 𝜑1 (𝑋) = 𝜑 ∗ (𝑋) + 𝑓(𝑋) tal que −2[𝑐𝑜𝑣𝜃∗ (𝜑 ∗ (𝑋), 𝑓(𝑋))𝑉𝜃∗ (𝑓(𝑋))] <
 < 0. Entonces en *
𝑉𝜃∗ (𝜑1 (𝑋)) = 𝑉𝜃∗ [𝜑 ∗ (𝑋)] + 2𝑐𝑜𝑣𝜃∗ [𝜑 ∗ (𝑋), 𝑓(𝑋)] + 2 𝑉𝜃∗ [𝑓(𝑋)]
Dada la definición de 
2𝑐𝑜𝑣𝜃∗ [𝜑 ∗ (𝑋), 𝑓(𝑋)] + 2 𝑉𝜃∗ [𝑓(𝑋)]
 𝑉𝜃∗ [𝑓(𝑋)]
= 2𝑐𝑜𝑣𝜃∗ [𝜑 ∗ (𝑋), 𝑓(𝑋)] (1 + )<0
𝑐𝑜𝑣𝜃∗ [𝜑 ∗ (𝑋), 𝑓(𝑋)]
Por tanto
𝑉𝜃∗ (𝜑1 (𝑋)) < 𝑉𝜃∗ [𝜑 ∗ (𝑋)]
Esto es una contradicción con respecto a lo que asumimos.
Un análisis similar nos lleva a probar que si 𝑐𝑜𝑣𝜃∗ [𝜑 ∗ (𝑋), 𝑓(𝑋)] = 0 entonces *(X)
no es un estimador localmente de mínima varianza en =*.

Suficiencia

Si 𝑐𝑜𝑣𝜃∗ [𝜑 ∗ (𝑋), 𝑓(𝑋)] = 0 para todo estimador insesgado o de 0, f(X) y 1(X) es


insesgado `para g() y U(X)= *(X)- 1(X) como E(U(X))=0

𝑐𝑜𝑣𝜃∗ [𝜑 ∗ (𝑋), 𝑈(𝑋)] = 𝑐𝑜𝑣𝜃∗ [𝜑 ∗ (𝑋), 𝜑 ∗ (𝑋) − 𝜑1 (𝑋)]


= 𝑉𝜃∗ [𝜑 ∗ (𝑋)] − 𝑐𝑜𝑣𝜃∗ [𝜑 ∗ (𝑋), 𝜑1 (𝑋)] = 0
Aplicando Cauchy –Schwarz

𝑐𝑜𝑣𝜃∗ [𝜑 ∗ (𝑋), 𝜑1 (𝑋)] ≤ √𝑉𝜃∗ [𝜑 ∗ (𝑋)]𝑉𝜃∗ [𝜑1 (𝑋)]

A partir de estas dos últimas ecuaciones se deriva que


𝑉𝜃∗ [𝜑 ∗ (𝑋)] ≤ 𝑉𝜃∗ [𝜑1 (𝑋)]
Esto implica que necesariamente *(X) es un estimador insesgado localmente de
mínima varianza. 

Ejemplo 4.8. Sea Z1,…,Zn, variables iid con distribución N(,2(Z)) Z=X, Y. Tomemos
r=2(Z)/2(Z) desconocido. Sabemos que 𝑇 = (𝑋̅, 𝑄(𝑋), 𝑌̅, 𝑄(𝑌)) es un estadístico
∑𝑛 𝑍
suficiente y minimal pero su familia es no completa, 𝑍̅ = 𝑖=1 𝑖 , 𝑄(𝑍) = ∑𝑛𝑖=1(𝑍𝑖 −
𝑛
𝑍̅)2. Un estimador de  es
𝑟𝑋̅ + 𝑌̅
𝜇(𝑟) =
1+𝑟

Tomemos f(T) un estadístico con E(f(T))=0. Ahora

𝑟𝑋̅ + 𝑌̅ 𝑟 1
𝑐𝑜𝑣 ( , 𝑓) = 𝑐𝑜𝑣(𝑋̅, 𝑓) + 𝑐𝑜𝑣(𝑌̅, 𝑓)
1+𝑟 1+𝑟 1+𝑟
A partir de la distribución de las variables se tiene que
𝜎 2 (𝑋) 𝑟𝜎 2 (𝑋)
𝑋̅~𝑁 (𝜇, ) , 𝑌̅~𝑁 (𝜇, ) , 𝑐𝑜𝑣(𝑌̅, 𝑓) = √𝑟𝑐𝑜𝑣(𝑋̅, 𝑓)
𝑛 𝑛

45
De ahí que
𝑟𝑋̅ + 𝑌̅ (𝑋)√(1 − 𝑟)𝑟
𝑐𝑜𝑣 ( , 𝑓) = 𝑐𝑜𝑣(𝑈, 𝑓), 𝑈~𝑁(0,1)
1+𝑟 √𝑛(1 + 𝑟)

Como f(T) invariante para la traslación y un estimador insesgado de cero

𝑓(𝑋̅, 𝑌̅, 𝑄(𝑋)𝑄(𝑌)) = 𝑓 ∗ (𝑋̅ − 𝑌̅; 𝑄(𝑋), 𝑄(𝑌))

Dada la independencia de las sumas de cuadrados de la diferencia de medias y su


familia es completa

𝐸𝜃 [𝑓 ∗ (𝑋̅ − 𝑌̅; 𝑄(𝑋), 𝑄(𝑌))(𝑄(𝑋), 𝑄(𝑌)] =𝐶𝑆 0, para todo 𝜃 = (𝜎 2 (𝑋), 𝜎 2 (𝑌))

Esto implica que

𝑓 ∗ ((𝑋̅ − 𝑌̅; 𝑄(𝑋), 𝑄(𝑌)) =𝐶𝑆 − 𝑓 ∗ (−(𝑋̅ − 𝑌̅); 𝑄(𝑋), 𝑄(𝑌))

La distribución de 𝑋̅ − 𝑌̅ es simétrica por lo que podemos escribir

1
𝑐𝑜𝑣 (𝑢, 𝑓(𝑇) = 𝐸(𝑢𝑓 ∗ (𝑋̅ − 𝑌̅); 𝑄(𝑋), 𝑄(𝑌)) = 𝐸 {(2 (𝑓 ∗ (|𝑋̅ −
1
𝑌̅|); 𝑄(𝑋), 𝑄(𝑌))𝐸(𝑢 (|𝑋̅ − 𝑌̅|)) + 2 (𝑓 ∗ (−|𝑋̅ − 𝑌̅|); 𝑄(𝑋), 𝑄(𝑌))) × 𝐸(𝑢 |𝑋̅ −
𝑌̅|)} = 0

La proposición anterior sostiene entonces que (r) es insesgado y es localmente de


mínima varianza. Como esto es válido para todo r este es de mínima varianza siempre
que r sea conocida.

4.2.4. Insesgadez y la familia exponencial uniparamétrica

Consideremos que trabajamos con una función de densidad de la familia exponencial


uniparamétrica en su forma natural . Esto es que
𝑓(𝑥; 𝜃) = ℎ(𝜃)𝑒 −𝜃𝑡(𝑥)+𝑤(𝑥)
 es un intervalo abierto en  y sin pérdida en generalidad se utilizarán distribuciones
absolutamente continuas respecto a la medida de Lebesgue M. Sea (t) una medida
sigma-finita definida por d(t)=e(t)du, donde (t) es obtenida de W(x) al hacer la
transformación T(x)=t. Es una hipótesis básica que {𝑥 ∈ 𝑒 𝑤(𝑥) > 0 } no depende de
.
Note que si Ft(t;) es la función de distribución del estadístico suficiente y completo T
en esta familia
𝑑𝐹 𝑡 (𝑡; ) = ℎ()𝑒 −𝜃𝑡 𝑑𝑀(𝑡), 
Entonces
∞ −1
ℎ(𝜃) = (∫−∞ 𝑒 −𝜃𝑡 𝑑𝑀(𝑡)) , ∀ .
Esto va a permitir utilizar la transformada de Laplace-Stiejels de g()/h() para
determinar un estimador insesgado () de g().

46
Veamos ahora bajo que condiciones existe solo un estimador insesgado de riesgo
mínimo si la función de pérdida es convexa.

Proposición 4.15. Sea T un estadístico suficiente y completo para la familia


exponencial uniparamétrica. Suponga que
i) ∫ 𝑡𝑒 −𝜃𝑢+𝜑(𝑥) 𝑑𝑡 converge para todo 𝜃`, `.
ii) 𝑔(𝑧), 𝑧 = 𝜃 + 𝑖𝑢
 (𝑢) = ∫ ℎ(
)𝑒 −𝜃𝑢+𝑖𝑢𝑡 𝑑𝑀(𝑡) (𝑙𝑎 𝑓𝑢𝑛𝑐𝑖ò𝑛 𝑐𝑎𝑟𝑎𝑐𝑡𝑒𝑟𝑖𝑠𝑡𝑖𝑐𝑎) 𝑠𝑎𝑡𝑖𝑠𝑓𝑎𝑐𝑒 𝑞𝑢𝑒
iii)

| (−𝑢)𝑔( + 𝑖𝑢)|𝑑𝑢, , 𝑙𝑖𝑚𝑢→∞  (−𝑢)𝑔( + 𝑖𝑢) = 0



uniformemente en todo subintervalo de .


Entonces el estimador insesgado esencialmente único de riesgo convexo de una función
de pérdida convexa de g () es
𝑎+𝑖∞ 𝑔(𝑧)
∫𝑎−𝑖∞ 𝑒 𝑧𝑡 ℎ(𝑧) 𝑑𝑧
𝜑(𝑇) = 𝑒 −(𝑇) 𝑤(𝑇), 𝑤(𝑡) = , 𝑎, 𝑡𝐷 = {𝑡`𝑒 (𝑡) > 0}
2𝑖𝜋

Demostración

Si (T) es insesgado aplicando el teorema de Blackwell-Rao-Lehmann-Scheffè se


obtiene el resultado.

Note que la condición i) permite establecer que h-1(+iu) es analítica en la franja S por
lo que
 (−𝑢)
ℎ−1 (𝜃 + 𝑖𝑢) = ∫ 𝑒 −(𝜃+𝑖𝑢)𝑡+(𝑡) 𝑑𝑡 = 
𝐷 ℎ()
Entonces
𝑔( + 𝑖𝑢)  (−𝑢)𝑔( + 𝑖𝑢)
=
ℎ( + 𝑖𝑢) ℎ()
Por tanto obtenemos que como w(t) es la transformada de Laplace de g(z)/h(z) definida
en el teorema

𝑔(𝜃) = ℎ() ∫ 𝑒 −(𝜃𝑡) 𝑤(𝑡)𝑑𝑡, 


𝐷
Dada la definición de (T) y la expresión deducida de g()

𝑔(𝜃) = ℎ() ∫ (𝑡)𝑒 −(𝜃𝑡+(𝑡)) 𝑑𝑡, 


𝐷
Entonces la insesgadez es válida.

Este resultado nos permite derivar estimadores para problemas que solo pueden ser
justificados por esta vía. Veamos como se puede demostrar la validez de usar la media
muestral en la estimación de la función de densidad.

Ejemplo 4.9. Sea X1,…,Xn una sucesión de variables aleatorias iid con distribución
N(,1). La media muestral es un estadístico suficiente y completo. Busquemos un
estimador de la función de densidad

47
1 −(𝑥−𝜇)2
𝑔(𝑥, 𝜇) = √ 𝑒 2 , 
2𝜋
Derivemos 𝜑(𝑇) = 𝑒 −(𝑇) 𝑤(𝑇) para
𝑃𝑘 (, ) = 𝑃𝜇 {𝑀𝑎𝑥 (𝑋1 , … , 𝑋𝑛 ) ≤ }
La proposición anterior establece que
1 (𝑥−𝑋̅ )2
− ( 1 )
2
1−
𝑒 𝑛
𝜑(𝑥, 𝑋̅) = , 𝑥
√2𝜋 (1 − 1)
𝑛
𝑛𝜇2

𝑒 2 𝑡2
Entonces, haciendo 𝑇 = −𝑛𝑋̅, 𝑇~𝑁(−𝑛𝜇, 𝑛) o sea que si ℎ(𝑡) = , (𝑡) = − la
√2𝑛𝜋 2𝑛
función de densidad es
𝑓 𝑇 (𝑡, 𝜇) = ℎ(𝜇)𝑒 −𝑡𝜇+(𝑡)
𝑛𝑢2
𝑦 la función característica está dada por 𝑇 (𝑢) = 𝑒 −(𝑖𝑛𝑢𝜇+ 2
)

Entonces para x real

(𝑛−1)𝑢2
𝑇 (−𝑢)𝑔(𝑥;  + 𝑖𝑢) = 𝑔(𝑥; )𝑒 − 2
+𝑖𝑢[(𝑛−1)𝜇+𝑥])

Para todo n2 y x


𝑇
lim  (−𝑢)𝑔(𝑥;  + 𝑖𝑢) = 𝑔(𝑥; )
|𝑢|→∞ 
(𝑛−1)𝑢2
− +𝑖𝑢[(𝑛−1)𝜇+𝑥])
pues lim 𝑒 2 = 0. Ademas podemos derivar que
|𝑢|→∞
(𝑛−1)𝑢2 2𝜋 1/2
∫ |  (−𝑢)𝑔(𝑥;  + 𝑖𝑢)| 𝑑𝑢 = 𝑔(𝑥; ) ∫
𝑇
𝑒 −
2 𝑑𝑢 = 𝑔(𝑥; ) ( )
  𝑛−1
<∞

Estas dos últimas relaciones no existen si n=1, de ahí la necesidad de que se tome un
tamaño de muestra mayor que 1 para satisfacer la condición (ii) fijada en la proposición
𝑛𝑧2

𝑒 2
anterior. Note que ℎ(𝑧) = es analítica por lo que también lo es g(x,z) para cada
√2𝑛𝜋
x,lo que satisface la hipótesis (ii). Se comprueba que también (i) es satisfecha pues
la distribución de t posee todos sus momentos. Entonces podemos aceptar la validez de
la proposición y obtener la expresión de w(t) que es
1 𝑖∞ (𝑥 − 𝑧)2 (𝑧)2
𝑤(𝑡) = ∫ 𝑒 𝑧𝑡 (𝑒𝑥𝑝 {− }) (√2𝑛𝜋𝑒𝑥𝑝 { }) 𝑑𝑧
2𝑖𝜋 −𝑖∞ 2 2
𝑛 ∞ (𝑥 − 𝑖𝑢)2 𝑛(𝑧)2
=√ ∫ 𝑒 𝑧𝑡 (𝑒𝑥𝑝 {− − + 𝑖𝑢𝑡}) 𝑑𝑢
2𝜋 ∞ 2 2
1 𝑛 (𝑥)2 (𝑥 + 𝑢)2
=√ ( ) 𝑒𝑥𝑝 {− } 𝑒𝑥𝑝 {− }
2𝜋 𝑛 − 1 2 2(𝑛 − 1)
𝑡 2
Como 𝑇 = 𝑛𝑋̅ y multiplicando por 𝑒𝑥𝑝 {− 2𝑛} obtenmos que

48
1 (𝑥−𝑋̅ )2
− ( 1 )
2
1−
𝑒 𝑛
𝜑(𝑥, 𝑋̅) = , 𝑥
√2𝜋 (1 − 1)
𝑛
Es el estimador óptimo de la densidad. 

Otro resultado general es el asociado a operadores de traslación lineales. Vale fijar el


marco de la definición de tales operadores. Definiendo el espacio Lp de funciones

𝐿𝑝 = {𝑓 ∫ |𝑓(𝑥)|𝑝 𝑑𝑥 < ∞, 1 ≤ 𝑝 < ∞}


Consideremos la norma
𝑝
‖𝑓‖𝑝 = √{∫ |𝑓(𝑥)|𝑝 𝑑𝑥}

Sean
 un campo Boreliano definido sobre  y * un sistema de conjuntos medibles y
acotados de  con medida de Lebesgue finita.
S una aplicación de  tal que si O,O** y OO* SOSO* y viceversa.
R *O* tal que SRO.

Definición 4.11. Un operador t: LpLp es un operador lineal de traslación acotado


si satisface
1. Para todo par de valores complejos 1, 2
𝑡 {𝜏1 𝑓 + 𝜏2 𝑓} = 𝑐1 𝑡 (𝑓) + 𝑐2 𝑡 (𝑓), para casi todo -∞<t<∞ (es un operador
aditivo).
2. Si a es un operador de traslación (a(f(t)=f(t+a)) a y t son conmutativos casi
dondequiera (at=ta, CD).
3.  es acotado en el sentido de que existe una aplicación S de * asociada a  tal que
para cada O* y una constante real positiva (O,) tal que para toda fLp
𝑝
‖𝑡 (𝑓)‖𝑝,𝑂 ≤ 𝜏(𝑂, )‖𝑓‖𝑝,𝑆  𝑂, 𝑂𝛽 ∗ , ‖𝑓‖𝑝,𝑂 = √{∫ |𝑓(𝑥)|𝑝 𝑑𝑥 }
𝑂

Un criterio general para resolver problemas donde el operador es lineal de traslación


acotado es dado por considerar condiciones que garantizan la optimalidad de un
estimador en este contexto.

Proposición 4.16. (Kitakawa). Si existe un operador lineal de traslación acotado u tal


que
1. u(eu)=g()eu, , es válida.
𝑒 𝜃+𝑖𝑡 𝑒 𝜃+𝑖𝑡
2. ∫ 𝑢 (ℎ(𝜃+𝑖𝑡)) 𝑑𝑡 = 𝑢 ∫ (ℎ(𝜃+𝑖𝑡)) 𝑑𝑡 es válida.

Entonces el estimador insesgado de riesgo mínimo (óptimo) para una función de


pérdida convexa es

49
𝜑(𝑇) = 𝑢 (𝑒 (𝑇) )𝑒 −(𝑇)

Demostración
𝑔(𝑧)
𝑎+𝑖∞ 𝑧𝑡
∫𝑎−𝑖∞ 𝑒 ℎ(𝑧)
Como 𝑤(𝑡) = , tD, a se tiene que
2𝑖𝜋
1 𝑎+𝑖∞ 𝑒 𝑧𝑡
𝑤(𝑡) = 𝑢 (2𝑖𝜋 ∫𝑎−𝑖∞ ℎ(𝑧) 𝑑𝑧), tD, a

Dado que 1/h(z) es la transformada de Laplace de 𝑒 (𝑡) de la relación anterior se deduce


que 𝑤(𝑡) = 𝑢 (𝑒 (𝑡) ), tD, a. De la relación 𝜑(𝑇) = 𝑒 −(𝑇) 𝑤(𝑇) se deduce que
la expresión apuntada es cierta. 

Estos dos resultados permiten deducir una serie de resultados muy útiles. Dos de ellos
son dos corolarios derivados simplemente de aplicando las tesis de estos.

Corolario 4.17. Si k(T), k=1,2,…, es esencialmente el único estimador de riesgo


mínimo de gk() cuando las condiciones de las dos proposiciones anteriores son
satisfechas para todo k=1,2,…., {ak} es una sucesión de constantes y se garantiza la
convergencia, para todo  de

𝑔(𝜃 + 𝑖𝑡) = ∑ 𝑎𝑘 𝑔𝑘 (𝜃 + 𝑖𝑡), 


𝑘=1

entonces (𝑇) = ∑∞𝑘=1 𝑎𝑘 𝑘 (𝑇) es esencialmente el único estimador insesgado de


mínimo riesgo de g(). 

Corolario 4.18. Sea T un estadístico suficiente minimal y completo con función de


densidad 𝑓(𝑥; 𝜃) = ℎ(𝜃)𝑒 −𝜃𝑡(𝑥)+𝑤(𝑥) . Para valores enteros negativos k existen y son
continuas las k+1 primeras derivadas para ella respecto a t. Si además se satisface la
hipótesis  (𝑢) = ∫ ℎ()𝑒 −𝜃𝑢+𝑖𝑢𝑡 𝑑𝑀(𝑡) (la función característica) satisface que
| (−𝑢)𝑔( + 𝑖𝑢)|𝑑𝑢, , 𝑙𝑖𝑚𝑢→∞  (−𝑢)𝑔( + 𝑖𝑢) = 0

𝜕𝑘
𝜑(𝑇) = 𝑒𝑥𝑝{(𝑇)} [𝜕𝑢𝑘 𝑒 (𝑡) ] es esencialmente el único estimador insesgado de
mínimo riesgo de g()=k.. 

Note que las hipótesis sobre las k+1 derivadas garantizan que se cumple que
∫ 𝑡𝑒 −𝜃𝑢+𝜑(𝑥) 𝑑𝑡 converge para todo 𝜃`, ` y 𝑔(𝑥), 𝑧 = 𝜃 + 𝑖𝑢 por lo que la
hipótesis fijada en el corolario sobre la función característica permite el uso de la
primera de las dos proposiciones vistas. Tomando el operador lineal de traslación
acotado t{f(t)}=(k /tk){f(t)} se tiene que se satisface la validez de
𝑒 𝜃+𝑖𝑡 𝑒 𝜃+𝑖𝑡
que∫ 𝑢 (ℎ(𝜃+𝑖𝑡)) 𝑑𝑡 = 𝑢 ∫ (ℎ(𝜃+𝑖𝑡)) 𝑑𝑡 . Esto implica la insesgadez de 𝜑(𝑇) =
𝜕𝑘
𝑒𝑥𝑝{(𝑇)} [𝜕𝑢𝑘 𝑒 (𝑡) ].

Veamos el uso de estos corolarios en la solución de un problema práctico

50
Ejemplo 4.10. Sea X1,…,Xn una sucesión de variables aleatorias iid con distribución
N(,1). La media muestral es un estadístico suficiente y completo. Busquemos un
1
estimador de una potencia de la media teórica g()=k. Como 𝑋̅~𝑁(𝜇, 𝑛)
𝑛 −(𝑥−𝜇)2
𝑓 𝑋̅ (𝑥,
𝜇) = √ 𝑒 2 = ℎ(𝜇)𝑒 −𝜇𝑇+(𝑇)
2𝜋
O sea
𝑛 −(𝜇)2 𝑇2
ℎ(𝜇) = √ 𝑒 2 , 𝑇 = −𝑋,̅ (𝑇) = −
2𝜋 2𝑛

A partir del segundo corolario en estimador óptimo de k es simplemente


𝜕𝑘 𝑡2 𝜕𝑘
𝜑(𝑋̅) = 𝑒𝑥𝑝{(−𝑛𝑋̅)} [ 𝑘 𝑒 (𝑡) ] = 𝑒𝑥𝑝 {(− )} [ 𝑘 𝑒 (𝑡) ]
𝜕𝑢 𝑡=𝑛𝑥̅
2𝑛 𝜕𝑢 𝑡=𝑛𝑥̅
De ahí que
1
𝜑1 (𝑋̅) = 𝑋̅, 𝜑2 (𝑋̅) = 𝑋̅ 2 −
𝑛
Es fácilmente comprobable la insesgadez de ambos. En general es necesario usar
polinomios de Hermite para dar solución a este problema pues la expresión que nos
queda en general es
1 𝑘 1
− (𝑋̅ √𝑛)2 𝑑𝑘 1
− (𝑋̅ √𝑛)2
̅
𝜑𝑘 (𝑋) = (− ) ((−1) 𝑒 2 𝑘
{𝑒 2 })
√𝑛 𝑑(𝑋̅√𝑛)𝑘
O sea que es función del polinomio de Hermite 𝐻𝑘 (−𝑋̅√𝑛).

4.2.5. Estimación Insesgada para el Modelo de localización.

Una clase importante de modelos estadísticos es la dada por aquellos cuya función de
densidad depende de parámetros de localización. Las clases de nuestro interés son las
definidas como sigue

Definición 4.12. Se dice que una función de densidad es del tipo de parámetro de
truncamiento I (TPTI) si su forma puede escribirse f(x;)=1()h1(x), a<x<b,
(a,b).
Se dice que es tipo II (TPTII) si
f(x;)=2()h2(x), a<x<b, (a,b). 

Dada la definición de función de densidad se tiene que


1. La funciones hc(x), c=1,2, son no negativas y absolutamente continuas en (, b) si y
(a,) respectivamente.
𝑟 −1 (𝜃, 𝑏)𝑠𝑖 𝑐 = 1
2. 𝑐 () = (∫𝑑 ℎ𝑐 (𝑥)𝑑𝑥 ) , 𝑐 = 1,2, (𝑑, 𝑎) = { , 𝑎 < 𝜃 < 𝑏.
(𝑎, 𝜃)𝑠𝑖 𝑐 = 2
3. c() es diferenciable dondequiera, c=1,2.

Note que si tenemos una muestra de variables aleatorias iid X1,..,Xn y su densidad es el
tipo TPTI el estadístico de orden 1 X(1)=min{ X1,..,Xn } es suficiente y completo y si es
del TPTII lo será X(n)=Max{ X1,..,Xn }. A partir de la expresión general de la densidad
de un estadístico d orden
𝑋(1) 𝑏 𝑛−1
𝑓𝜃 (𝑥) = 𝑛1𝑛 (𝜃)ℎ1 (𝑥) (∫𝑥 ℎ1 (𝑦)𝑑𝑦) ,𝜃≤𝑥≤𝑏

51
Si queremos estimar una función estimable absolutamente continua g() tiene lógica
usar n=1 y buscar un estimador insesgado. Digamos que (x) es tal estimador y que su
varianza es finita para todo (a,b). Aplicando el teorema de Blackwell-Rao-
Lehmann-Scheffé vemos que el estimador optimal único es
𝑏
𝜑(𝑋(1) ) 𝑛 − 1 ∫𝑋(1) 𝜑(𝑦)ℎ1 (𝑦)𝑑𝑦
𝑔̂(𝑋(1) ) = 𝐸(𝜑(𝑋(1) )𝑋(1) ) = +( ) 𝑏
𝑛 𝑛 ∫𝑋 ℎ1 (𝑦)𝑑𝑦
(1)
Como sabemos debemos obtener el estimador insesgado de 𝜑(𝑋(1) ), esto es un
estadístico tal que
𝑏
𝜑(𝑥) = 1 () ∫ 𝜑(𝑦)ℎ1 (𝑦)𝑑𝑦 = 𝑔(), (𝑎, 𝑏)

La derivada de esta expresión es
𝑏
1´ () ∫ 𝜑(𝑦)ℎ1 (𝑦)𝑑𝑦 − 1 ()𝜑(𝜃)ℎ1 (𝜃) = 𝑔´ (), (𝑎, 𝑏)

Entonces tenemos que
𝑏
𝑔()
∫ 𝜑(𝑦)ℎ1 (𝑦)𝑑𝑦 = , (𝑎, 𝑏)
 1 ()
Haciendo la sustitución correspondiente
𝑔() 1´ (𝑥)𝑔(𝑥) − 1 (𝑥)𝑔´ (𝑥)
1´ () −1 ()𝜑(𝜃)ℎ1 (𝜃)𝜑(𝑥) = , ∀𝑥(𝑎, 𝑏)
1 () 12 (𝑥)ℎ1 (𝑥)
Es un estimador insesgado de g() si n=1 y
𝑏
∫𝑋 𝜑(𝑦)ℎ1 (𝑦)𝑑𝑦
(1)
𝑔(𝑋(1) ) = 𝑏
∫𝑋 ℎ1 (𝑦)𝑑𝑦
(1)
Estos razonamientos llevan a establecer el resultado siguiente

Proposición 4.18. (Tate). Sea { X1,..,Xn } variables aleatorias iid con densidad TTPI
sobre el intervalo finito (a,b) y g() una función absolutamente continua definida sobe
el mismo intervalo. El estimador insesgado esencialmente único de mínimo riesgo para
una función de pérdida convexa de g() es
𝑔´ (𝑋(1) )
𝑔̂(𝑋(1) ) = 𝑔(𝑋(1) ) −
𝑛1 (𝑋(1) )ℎ1 (𝑋(1) )
Demostración
𝑏
∫𝑋 𝜑(𝑦)ℎ1 (𝑦)𝑑𝑦
´1 (𝑥)𝑔(𝑥)−1 (𝑥)𝑔´ (𝑥) (1)
Tomando 𝜑(𝑥) = y 𝑔(𝑋(1) ) = y substituyendo en
21 (𝑥)ℎ1 (𝑥) 𝑏
∫𝑋 ℎ1 (𝑦)𝑑𝑦
(1)
𝑏
𝜑(𝑋(1) ) 𝑛 − 1 ∫𝑋(1) 𝜑(𝑦)ℎ1 (𝑦)𝑑𝑦
𝑔̂(𝑋(1) ) = +( ) 𝑏
𝑛 𝑛 ∫𝑋 ℎ1 (𝑦)𝑑𝑦
(1)
Obtenemos la prueba de la proposición.

Un resultado similar se deriva para las densidades TPTII.

Proposición 4.19. Sea { X1,..,Xn } variables aleatorias iid con densidad TTPII sobre el
intervalo finito (a,b) y g() una función absolutamente continua definida sobe el mismo

52
intervalo. El estimador insesgado esencialmente único de mínimo riesgo para una
función de pérdida convexa de g() es
𝑔´ (𝑋(𝑛) )
𝑔̂(𝑋(𝑛) ) = 𝑔(𝑋(𝑛) ) −
𝑛2 (𝑋(𝑛) )ℎ2 (𝑋(𝑛) )
Demostración

Basta replantearse el análisis realizado para la proposición anterior usando el máximo


en vez del mínimo.

Tiene sentido considerar que el parámetro de localización posee la propiedad de


traslación. Estos pueden ser caracterizados como sigue

Definición 4.13. T(X1,..,Xn ) es un estadístico con la propiedad de traslación si para todo


a(-, )) se tiene que T(X1+a,..,Xn +a)= a+T(X1,..,Xn ).
Consideremos la muestra { X1,..,Xn } de variables aleatorias iid con densidad f(x)=f(x-
) y T(X1,..,Xn ) un estadístico con la propiedad de traslación. Su densidad es del tipo
𝑇𝜃 (𝑥) = (𝑥 − 𝜃). Si analizamos una función arbitraria g() y nos interesa la ecuación

() = ∫ (𝑡)(𝑡 − )𝑑𝑡


La transformación integral correspondiente es del tipo convolución y si la transformada


bilateral de Laplace de (t) y  (z) existe la convolución correspondiente  ∗  es el
producto de las transformadas por lo que

∫ 𝑒 −𝑠𝜃 (∫ (−𝑡)(−𝑡 + )𝑑𝑡) 𝑑 = (∫ 𝑒 −𝑠𝑢 (−𝑡)𝑑𝑡) (∫ 𝑒 −𝑠𝑢 (𝑧)𝑑𝑧)


   

Sustituyendo t por –t y  por - en () y dada la relación anterior la transformada


bilateral de Laplace (𝛽(𝑞(𝑥); 𝑠) = ∫ 𝑒 −𝑠𝑥 𝑞(𝑥)𝑑𝑥), es
𝛽((−𝑡); 𝑠)𝛽((𝑡); 𝑠) = 𝛽((−𝑡); 𝑠)

Basta denotar por 𝛽(𝑞(𝑥); 𝑠)−1 la inversa de 𝛽(𝑞(𝑥); 𝑠) = (𝑠). Esta es determinada
en forma única casi dondequiera , (excepto en un conjunto de medida nula).

Estos razonamientos nos demuestran la siguiente proposición

Proposición 4.20. (Tate). Sea { X1,..,Xn } variables aleatorias iid con una densidad de
parámetro de traslación f(x)=f(x-), T(X1,..,Xn ) un estadístico con la propiedad de
traslación con densidad (x-) y una función con transformada bilateral de Laplace
(). Si existe un estimador (T) de () que admite una transformada bilateral de
Laplace este es determinado únicamente CD. casi dondequiera, por 𝜑(𝑇) =
𝛽((−𝑥);𝑠)
𝛽 −1 (𝛽((−𝑥);𝑠) ; 𝑇) .

4.2.6. Estimación Insesgada para el Modelo de escala

Hagamos un estudio similar para los modelos con los parámetros de escala.

53
Definición 4.15. Se dice que una función de densidad es paramétrica del tipo de escala
si su forma puede escribirse f(x;)=f(x), x, +. 
Muchas distribuciones importantes son de este tipo.

Ejemplo 4.11. La distribución gamma (,p) depende del parámetro de escala , la
distribución normal N(, 2) depende del parámetro de escala +.
Consideramos la estimación de funciones que dependen de un parámetro de escala. El
marco es abierto la tomar estimadores que dependen de la muestra a través de un
estadístico homogéneo del tipo T=H(X1,…,Xn) de grado 0, conocido.

Ejemplo 4.12. H(X1,…,Xn)=i=1n Xi.

Note que la densidad de X sigue siendo f(x) y si T()=H(X1 ,…,Xn) es un estadístico


homogéneo de grado , T=- T(). La densidad de T dado , + es (t,)=- (-
t), t+.

Si tenemos una función g() y (T) es un estimador insesgado de esta función es porque
∫ (𝑡)𝜃 −𝛼 (𝜃 −𝛼 𝑡)𝑑𝑡, ∀𝜃 ∈  .
+

Veamos el problema de estimación de una función de g().

Lema 4.21. Si X1,…,Xn son variables aleatorias iid con una función de densidad del tipo
escala f(x) y si T=H(X1,…,Xn) es un estadístico homogéneo de grado (rango) 0
𝑟
entonces un estimador insesgado de g()=r , si existe 𝐸1 (𝑡 −𝛼 ), está dado por
𝑟
𝑡 −𝛼
𝜑(𝑡) = 𝑟 , ∀𝑟, 𝛼 ≠0

𝐸1 (𝑡 𝛼)

Demostración.
𝑟
− 𝑟
𝑡 𝛼
Veamos que 𝐸 ( −
𝑟 ) = 𝜃 𝑟 , ∀𝑟, 𝛼 ≠ 0. Como 𝐸1 (𝑡 −𝛼 ) existe esto implica la
𝐸1 (𝑡 𝛼 )
𝑟
existencia de 𝐸 (𝑡 −𝛼 ) también para todo +. Hagamos el cambio de variable z=-
t, entonces
𝑟 𝑟
− −
𝑡 𝛼 ∫ 𝑡 𝛼 𝑓(𝜃𝛼 𝑡)𝑑𝑡
𝐸( −
𝑟)= −
𝑟 = 𝜃 𝑟 . 
𝐸1 (𝑡 𝛼) ∫ 𝑡 2 𝑓( 𝑡)𝑑𝑡

Note que en general (t) no es óptimo pues no es función de un estadístico suficiente y


completo. Veremos un caso en que lo es

Ejemplo 4.13. Un estadístico suficiente y completo para la densidad de Weibull


−(𝛼 𝛼
𝑓𝜃𝑋 (𝑥) = 𝛼𝜃 𝛼 𝑒 −𝜃 𝑥 ) , 𝑥+ , +
es t=i=1n Xi , 1. Haciendo *=- y Z=X- la densidad de Z es la (*,1). Esto
implica que T se distribuye de acuerdo a una (,n) . De ahí que si n>r/ el único
𝑟

𝑇 𝛼
estimador insesgado de mínima varianza de  es 𝜑(𝑇) = rr
𝑛−𝑟 
( 𝛼
)

54
Apliquemos este lema en la siguiente proposición. Previamente recordemos que la
trasformada de Mellin de una función, si existe, está dada por M{f(x);s}=0 xs-1f(x)dx,
s0<e{s}<s1 y su inversa es M-1{(x);s}.

Lema 4.22. Si X1,…,Xn son variables aleatorias iid con una función de densidad f(x),
0<<, T=H(X1,…,Xn) un estadístico homogéneo no-negativo con densidad 
(x), 0. Si se cumple que f y  admiten transformadas de Mellin y si existe un

estimador insesgado (T) de g()=r , con transformada de Mellin, entonces este es


determinado únicamente CD por
(T)=T-1 M-1{ M{(1/x)g(x1/ );s}/ M{(x);s};T-1}
Demostración

Cambiando  por 1/ y haciendo la transformación z=1/t se obtiene ahora que


1
1 𝜃 𝑑𝑧 𝑔 (𝜃 𝛼 )
∫ ( )( ) = ,
+ 𝑧 𝑧 𝑧 𝜃
Como
1 𝜃 𝑑𝑧
M{∫+  (𝑧)  ( 𝑧 ) 𝑧 }= M{(1/x)(1/x);s} M{(x)s;}
de la hipótesis de la proposición se tiene que
M{(1/x)(1/x);s}= M{(1/x)g (x1/);s}/ M{(x);s}, s0<e{s}<s
Hallando la inversa de esta y sustituyendo x=1/T obtenemos el estimador insesgado de
(T).

Ejemplo 4.14. Sea X no negativa con una función de densidad paramétrica del tipo de
escala f(x), 0<<. Hallemos un estimador de la función de densidad. Si  (x),
0 que posee transformada de Mellin se tiene que M{-1(1/;z);s}= M{f (x);(s-
1)+1}/z1+(s-1). Sustituyendo en la expresión de (T), de la proposición anterior tenemos
que el estimador insesgado de la densidad basado en un estadístico homogéneo no-
negativo es
f*(z,T)=T-1M-1 {M{f (x);(s-1)+1}/ M{(x);s},T-1}.

Veamos otro ejemplo de como podemos deducir estimadores insesgados para un


problema general

Ejemplo 4.15. Si X1,…,Xn son variables aleatorias iid con función de densidad bi-
paramétrica exponencial negativa (f (x)=exp{-(x-)}, x<) y los estadísticos de
orden X (i) i=1,…,n. Deseamos estimar una función g(,) tal que existe su derivada
parcial respecto a .

Como sabemos (X(1), T*n-1) , T*n-1 = i=2n X(i) y consideremos la función (𝑋(1) , 𝑌), , =
𝑋̅ − 𝑋(1) . Estas funciones son independientes. X(1) y Y se distribuyen +(n,1) y (n,
n-1) respectivamente. Entonces la densidad conjunta es
(𝑛𝜃)2 𝑛−2 −𝑛𝜃(𝑥+𝑦−)
𝑓, (𝑥, 𝑦) = 𝑦 𝑒 , 𝑥[𝑥, ∞[, 𝑦[𝑥, ∞[
(𝑛 − 2)!
Sea g(,) una función estimable si (X(1),Y) es un estimador insesgado continuo en X(1)
,CD, con trasformada de Laplace respecto a Y, este debe satisfacer la ecuación

55
∞ ∞ (𝑛 − 2)! 𝑔(, ) −𝑛𝜃)
∫ ∫ (𝑥, 𝑦)𝑦 𝑛−2 𝑒 −𝑛𝜃(𝑥+𝑦) 𝑑𝑥𝑑𝑦 = 𝑒 , ∀𝜃+ , ,
 0 (𝑛𝜃)2
Podemos escribir
∞ ∞ ∞
∫ ∫ (𝑥, 𝑦)𝑦 𝑛−2 𝑒 −𝑛𝜃(𝑥+𝑦) 𝑑𝑥𝑑𝑦 = ∫ 𝑒 −𝑛𝜃𝑥 𝑑𝑥{(𝑥, 𝑦)𝑦 𝑛−2 ; 𝑛𝜃}
 0 0
Hallando la diferencial parcial respecto a  obtenemos
1 𝜕
(𝑛 − 2)! (𝑔(, ) −
𝑛𝜃 𝜕𝜃 𝑔(, 
))
{(𝑥, 𝑦)𝑦 𝑛−2 ; 𝑛𝜃} =
(𝑛𝜃)𝑛−1
Entonces esencialmente el único estimador insesgado que posee uniformemente riesgo
𝑠
(𝑛−2)!𝑔(,) 𝑔(𝜃,
mínimo para una pérdida convexa es (𝑋(1) , 𝑌) = −1 { 𝑠𝑛−1𝑛 −
𝑌 𝑛−2
1 𝜕 𝑠
𝑔 (, 𝑛) ; 𝑌} 
𝑠𝑛 𝜕𝜃
𝜃=𝑋(1)

4.3. ESTIMADORES CONSISTENTES

En muchas ocasiones un estimador ineficiente puede converger a estimadores que


obtienen la cota de Cramer-Rao. Lo más común es trabajar con estimadores consistentes
y asintóticamente normales.
Denotemos por 0p() la razón de convergencia en probabilidad
𝑋
Xn=0n(Yn) 𝑌𝑛 →𝑃 0, 𝑠𝑖 𝑛 → ∞
𝑛
Usemos la siguiente definición:

Definición 4. 16. (consistencia y normalidad asintótica). La sucesión Tn: n=1,.2,… se


dice es asintóticamente consistente (AC) para g()si
𝑇𝑛 − 𝑔(𝜃) = 0𝑝 (1), 𝑠𝑖 𝑛 → ∞
Se dice que es asintóticamente consistente normal (ACN) si
lim 𝑃𝜃 {√𝑛(𝑇𝑛 − 𝑔(𝜃)) ≤ 𝑥√𝑉(𝑔(𝜃)) } = (𝑥)∀𝑥 ∈ (−∞, ∞), 𝜃 ∈ .
𝑛→∞

Si además V(g())=I-1(g()) se dice que el estimador es el mejor estimador


asintóticamente normal (MACN). 

Como es usual (x) es la integral de la normal estándar.

La eficiencia asintótica es derivada partir de la cota de superior de la eficiencia dada


como sigue:

Definición 4.17. La eficiencia superior asintótica del estimador Tn respecto otro Un ,


senda ambas sucesiones de estimadores consistentes para g(), es
𝜏 2 (𝑈𝑛 , 𝜀, 𝑔(𝜃))
̅̅̅̅̅ ̅̅̅̅̅̅̅̅̅̅ ̅̅̅̅̅̅̅̅̅̅̅
𝑒𝑓𝑓 (𝑇, 𝑈, 𝑔(𝜃)) = 𝑙𝑖𝑚𝜀→0 𝑙𝑖𝑚𝑛→∞ 2
𝜏 (𝑇𝑛 , 𝜀, 𝑔(𝜃))
𝜀
Donde 𝜏 2 (𝑍𝑛 , 𝜀, 𝑔(𝜃)) = 𝜏 es la raíz de 𝑃𝜃 [|𝑍𝑛 − 𝑔(𝜃)| ≥ 𝜀] = 2 [1 −  (𝜏)] , 𝜀 > 0
Entonces tenemos que

56
Definición 4.18. Un estimador consistente Tn es asintóticamente eficiente para g() si
𝑒𝑓𝑓 (𝑇, 𝑈, 𝑔(𝜃))1.
no existe otro estimador consistente tal que 𝑠𝑢𝑝 ̅̅̅̅̅
Note que si 𝜑𝑛 (𝑔(𝜃): 𝑇𝑛 , 𝜀) es la probabilidad de cubrimiento de g() por el intervalo
aleatorio (Tn-, Tn +) como -1(Q) es el Qth-fractil de la normal estándar
1 𝜑𝑛 (𝑔(𝜃): 𝑇𝑛 , 𝜀)
𝜏 2 (𝑇𝑛 , 𝜀, 𝑔(𝜃)) = 𝜀 −1 ( + )
2 2
Por lo que
2 1 + 0(1)
log 𝑃𝜃 [|𝑍𝑛 − 𝑔(𝜃)| ≥ 𝜀] = 2 si 𝑛 → ∞
𝜀 𝜏 (𝑇𝑛 , 𝜀, 𝑔(𝜃))
Si g es diferenciable
(𝑔´(𝜃))2
𝑙𝑖𝑚𝜀→0 𝑙𝑖𝑚𝑛→∞ (𝑛𝜏 2 (𝑇𝑛 , 𝜀, 𝑔(𝜃))) ≥
𝐼(𝜃)
Entonces si Un fuera asintóticamente eficiente
𝑛 𝐼 (𝜃)
𝑃𝜃 [|𝑈𝑛 − 𝑔(𝜃)| ≥ 𝜀] = 𝑒𝑥𝑝 [− 𝜀 2 (1 + 𝛿𝑛 (𝜀, 𝜃))]  lim 𝑙𝑖𝑚𝑛→∞ 𝛿𝑛 (𝜀, 𝜃)
2 (𝑔´(𝜃))2 𝜀→0
=0

57
EJERCICIOS
1. Sean X1,…,Xn(x) y Y1,…,Yn(y) variables aleatorias iid con funciones de distribución
absolutamente continuas respectivas F(x) y G(y). Si las varianzas existen, hallen
estimadores insesgados óptimos para V(X), V(Y) y V(X+Y).

2. Considere que trabajamos con una familia absolutamente continua de distribuciones


tales que E(Y(x))=+x, , 0, V(Y(x))=2< para cada xD. Se observa
{(Xi,Yi ), i=1,…,n}. Halle los estimadores insesgado óptimos de ,  y 2.

3. Sea una variable con distribución de la familia de Pareto 𝑓(𝑥; 𝛼, 𝜎) =


𝜎 𝛼 𝜎+1
{𝛼 ( 𝑥 ) 𝑠𝑖 𝑥[𝛼, ∞[, 𝜎+ ,  +
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜

Halle el estimador insesgado optimo de  si X1,…,Xn es una sucesión de variables


aleatorias iid con  conocida .
4. Sean X1,…,Xn variables aleatorias iid con una densidad del tipo +(1,1) descrita como
−(𝑥−𝛼)
𝑓(𝑥; 𝛼) = {𝑒 𝑠𝑖 𝑥 ≥ 𝛼 ,  
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Derive el estimador insesgado óptimo de la función de distribución.

5. Pruebe que si X1,…,Xn es una sucesión de variables aleatorias iid con distribución
paramétrica truncada del tipo I entonces X(1) es un estadístico suficiente y completo.

6. Pruebe que si X1,…,Xn es una sucesión de variables aleatorias iid con distribución
paramétrica truncada del tipo II entonces X(n) es un estadístico suficiente y completo.

7. Sea X1,…,Xn una sucesión de variables aleatorias iid con densidad Pareto
𝜎 𝛼 𝜎+1
𝑓(𝑥; 𝛼, 𝜎) = {𝛼 (𝑥 ) 𝑠𝑖 𝑥[𝛼, ∞[, 𝜎+ ,  +
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜

Halle el estimador insesgado óptimo de r .


̅ 𝟐
8. Sean 𝑴𝟏 = 𝑿 ̅ , 𝑺𝟐𝒌 = ∑𝒌𝒊=𝟏 (𝑿𝒊 −𝑿) , 𝒌 ≥ 𝟏
𝒌

a) . Probar que Sn2 tiene un sesgo negativo..

b). Probar que Sn2 es asintóticamente insesgado.

c). Hallar MSE(Sn2)

9. . Suponga que las variables muestreadas (X1, X2, ..., Xn) son normales e iid. Pruebe
que

a) MSE(Sn2) = (2n - 1)4 / n2.


b) MSE(Sn-12) = 24 / (n - 1).
c)MSE(Sn-12) < MSE(Sn2) para n = 2, 3, ...

58
10. Suponga que las variables muestreadas (X1, X2, ..., Xn) son normales e iid.
Pruebe que

a) MSE(Sn2) = (2n - 1)4 / n2.


b) MSE(Sn-12) = 24 / (n - 1).
c) MSE(Sn-12) < MSE(Sn2) para n = 2, 3, ...

11. . Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Uniforme U(0,)
siendo  >0 pruebe que
a) 𝑉(2𝑋̅) = 𝛼 2 /3𝑛 por lo que 𝛼̂ = 2𝑋̅es un estimador consistente de .
𝛼2 (𝑛+1)𝑋(𝑛)
b) 𝑉(𝜎̂ 2 ) = (𝑛+2)𝑛 por lo que 𝜎̂ 2 = 𝑛
es consistente.
𝑛𝛼 2
c) Derive la inconsistencia de 𝛼̂ ̂
(1) = (𝑛 + 1)𝑋(1) probando que 𝑉𝛼(1) ) = 𝑛+2.

Ejercicios avanzados
1. Si X1,…,Xn es una sucesión de variables aleatorias iid con distribución N(,1) pruebe que
𝜏−𝑋̅
𝑃(𝜏, 𝑋̅) =  ( 1
) es el mejor estimador insesgado de P(X<) donde (.) es la
√2𝜋(1− )
𝑛

función de distribución de la N(0,1). (Sugerencia use el resultado derivado sobre la


estimación de la densidad ).
2. . Sea 𝑋𝑖 , … , 𝑋𝑛 , 𝑋𝑖 ~𝑈(0, 𝜃), pruebe que:
a) T es absolutamente continuo con densidad:
𝑛𝑥 𝑛−1
𝑓(𝑥|𝜃) = , 𝑥(0, 𝜃), 𝜃 
𝜃𝑛
(Calcule primero P(Tt) ).
b) Calcule el ECM de T.
c)Pruebe que T suficiente y completo en la clase de distribuciones anterior.
d) Construya un “mejor estimador insesgado” de  y compare se ECM con el de T. Use
𝜕 𝜃
el hecho de que (∫ 𝑓(𝑥)𝑑𝑥 ) = 𝑓(𝜃) excepto en conjunto numerable si f es
𝜕𝜃 0
medible)
3. Sea X no negativa con una función de densidad paramétrica del tipo de escala f(x),
0<<. Halle un estimador de la función de distribución F(x) que posee transformada de
Mellin. Solución:
usando el hecho de que el estimador insesgado de la densidad basado en un estadístico
homogéneo no-negativo es

f*(z,T)=T-1M-1 {M{f (x);(s-1)+1}/ M{(x);s},T-1} este se obtiene integrando en (-.


X).

|𝑥−𝜃|

𝑒 𝜎 1
4. Si 𝑋~𝑓(𝑥 |𝜃, 𝜎) = 2𝜎
𝑠𝑖 𝑥 ∈  y  conocido compruebe que 𝜎̂ = 𝑛 ∑𝑛𝑖=1|𝑥𝑖 − 𝜃| es

(a) Insesgado
(b) Consistente

59
(c) Eficiente
(d) √𝑛(𝜎̂ − 𝜎) tiene un distribución aproximadamente N(0,2) si n.

5. MÉTODOS PARA OBTENER ESTIMADORES

5.2. MÉTODO DE MÁXIMA VEROSIMILITUD (MV) EN LA ESTIMACIÓN


PUNTUAL

5.2.1 El principio de máxima verosimilitud (PMV)

El método de máxima verosimilitud fue usado desde los 20’s del siglo pasado. Su
pionero fue, como en tantas otras cosas de la estadística, Sir. R. Fisher. Este método
soporta muchos procedimientos que utilizan criterios de convergencia para usar
modelos inferenciales basados en la normalidad asintótica. A pesar de sus propiedades
este no es una panacea pues no siempre provee de métodos aceptables. Este puede ser
ineficiente comparado con otras alternativas. Sin embargo bajo ciertas condiciones de
regularidad se puede aceptar la normalidad asintótica y provee de óptimos en diversos
procedimientos existentes. En muchos casos es simple desarrollar métodos MV y por
eso se puede presentar toda la teoría estadística usando este principio como un enfoque
para desarrollar métodos particulares en la regresión, por ejemplo. Además el PMV
posee la propiedad de invariancia, así que los métodos derivados usándole, bajo
ciertas hipótesis, permite construir estimadores de funciones paramétricas que poseen
las propiedades derivadas para los estimadores del parámetro.

Como se verá, la estimación derivada usando el metidos Máxima Verosimilitud es un


método de optimización, en el que supone que la distribución de probabilidad de las
observaciones es conocida.

5.2.2. Estimadores MV

El modelo estadístico lo representamos a partir de una familia de medidas de


probabilidad P={P ;  }, definida sobre {, }, dominada por una medida de
Lebesgue . La función de densidad de P respecto esta medida se denota f(x; ).  es
un intervalo multidimensional de k, k1

Definición 5.1. Sea X1,..,Xn una muestra aleatoria independiente de f(x;) y x1,…,xn
los valores observados. La verosimilitud de la muestra es la función de densidad
conjunta evaluada en el punto x1,…,xn : f(x1 ,...,xn; )=f(x:)

La función de verosimilitud  es una función real valuada definida sobre  que es
proporcional a la densidad. Esto es

Definición 5.2. Sea X1,…,Xn una muestra aleatoria independiente de f(x;). La


función de verosimilitud en el punto x1,…,xn es L(; x)=kf(x:)

Nota 5.1: para simplificar se usará L(:x)=L()

60
La inferencia estadística puede enfocarse usando el hecho de que el método debe ser
consistente con la aceptación de que la mejor descripción de los datos es dada por la
maximización de L(:x). En estimación puntual el problema de hallar un valor
(estimado) de =MV de que maximice L(:x). El valor dado como aproximado a
es el estimado máximo verosímil (EMV). Una definición formal es la siguiente

Definición 5.3. Sea L() la verosimilitud en el punto  (espacio paramétrico). Un


estimador Máximo Verosímil de  es el estadístico MV:n, x=(x1,..,xn)
(x1,..,xn)= MV ,tal que  se tiene que L(x;n) L(x;  )

La función de verosimilitud se obtiene a partir de la función de densidad,


intercambiando los papeles entre parámetro y estimador. En una función de
verosimilitud consideramos que las observaciones, están fijadas. Está claro que si, para
un determinado valor de θ, la verosimilitud es pequeña, es poco probable que ese sea el
valor correcto para el parámetro que ha generado los datos que observamos. Si por el
contrario la verosimilitud es grande, es porque es muy probable que ese sea el valor
correcto. De ahí la lógica de considerar como una buena estimación de θ aquel valor
que maximizas la función de verosimilitud.

Ejemplo 5.1. Se lanza 100 veces una moneda y se observa la sucesión de resultados
¨Cara¨ (C), Cruz¨ (X). Denotemos las correspondientes probabilidades como P(C )=p,
P(X)=1-p=q. La moneda fue seleccionada de un grupo de 6 aleatoriamente. Estas están
numeradas en forma tal que la moneda j tiene probabilidad p= j/20 de que aparezca la
C. Si la C aparece 25 veces nuestro estimador MV de p es pMV=0,25. De ahí que
podamos considerar que lo mas verosímil sea que la moneda seleccionada fuera la j=5.

La estimación MV la podemos algoritmizar como sigue:

𝑆𝑒𝑙𝑒𝑐𝑐𝑖𝑜𝑛𝑎𝑟 𝑢𝑛𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑦 𝑜𝑏𝑡𝑒𝑛𝑒𝑟 (𝑥1 , … , 𝑥𝑛 )𝐿(𝑥1 , … , 𝑥𝑛 |𝜃) = 𝑓(𝑥1 , … , 𝑥𝑛 |𝜃)


𝜃̂ = 𝐴𝑟𝑔𝑀𝑎𝑥  𝐿(𝑥1 , … , 𝑥𝑛 |𝜃)

Como MV =Arg Max L(x; ) es el estimador máximo verosímil de , el problema de


estimar el parámetro de interés es un problema de optimización y su solución provee de
los estimados de este para unos datos x.

En el caso de tener varios parámetros el procedimiento es similar.

Definición 5.4. Sea X una v.a. que sigue una distribución f(x), 𝐾 y
𝑛

𝐿(𝑥1 , … . , 𝑥𝑛 ) = ∏ 𝑓( 𝑥𝑖 )


𝑖=1
la función de verosimilitud para una muestra aleatoria simple de tamaño n. El vector
𝑇
𝜃̂ = (𝜃̂1 , … , 𝜃̂𝐾 ) = 𝐴𝑟𝑔𝑀𝑎𝑥𝜃∈ 𝐿 (𝑥1 , … , 𝑥𝑛 )
recibe el nombre de estimación máximo-verosímil de . La función de la muestra
𝜃̂(𝑥1 , … , 𝑥𝑛 ) se denomina entonces estimador máximo-verosímil de .

Cabe señalar que, aunque hablamos del estimador máximo verosímil de un parámetro,
puede suceder que la ecuación de verosimilitud (la derivada de la función de

61
verosimilitud, o su logaritmo, igualada a cero) tenga más de una solución y, por tanto,
tendríamos varios posibles estimadores posibles para un mismo parámetro.

Es frecuente que sea imposible obtener una solución analítica del problema de
optimización que plantea la estimación MV. Este es el caso cuando el modelo es
complejo dado el numero de parámetros o la función de probabilidad tiene una
expresión complicad para hallar extremos. En tales situaciones no hay una solución
factible en todos los puntos del espacio paramétrico .

Además cuando están envueltos varios parámetros  puede crecer mucho y evaluar la
función de verosimilitud se puede hacer muy difícil e incluso imposible de ahí que
entren en juego modelos de optimización numérica. Estos pueden identificar, con
relativa rapidez, conjuntos de parámetros que sean verosímiles para los datos
observados.

Podemos apuntar que una ventaja es que el estimador MV tiene propiedades asintóticas
óptimas entre todos los estimadores consistentes y normales asintóticamente. Una seria
desventaja es que cometeremos un grave error si nos utilizamos una distribución
equivocada, pues el estimador depende de la distribución en el proceso de
optimización. Por otra parte no podremos asegurar que las propiedades de estos
estimadores sean válidas en el caso de muestras pequeñas.

Un resultado clave es el de la invarianza de la estimación máximo verosímil dado en


siguiente teorema

Teorema 5.1.. Sea P={P ;  }, definida sobre {, }, dominada por una medida de
Lebesgue . y g:  una aplicación de  en el intervalo r-dimensional, (kr1),
Entonces si MV es un EMV de  también lo es g(MV) para g()

Demostración:

Tomemos G(w)={; , g()-w} como el conjunto asociado (coset) g en  y la


función inducida por la función de verosimilitud de g().

M(w, X)=SupG(w) L(, x) .

Este coset es una partición de  y MV es un EMV de  el que pertenece a un solo


conjunto G(w*) de esta partición. Como

L(MV ,x)Sup G(w*) L(, x)=M(w*,x) Sup w M(w,x)=Sup L(, x)= L(MV ,x)

Se tiene que M(w*,x)=Sup w M(w,x) por lo que w* es EMV de g(). Notando que
MV G(w*), g(MV)-w*

Nota 5.2. En muchas demostraciones del principio de la invarianza se utiliza la


hipótesis de que g es biunívoca pero en esta se obvia esta al usar otros recursos basados
en los cosets.

Ejemplo 5.2. Sea Xi una variable iid log normal (log XiN(, 2)). Entonces como

62
E(log Xi)=exp2), V(log Xi)=2(exp (2 )-1)
Los EMV son
n exp mS), nn2(exp (S )-1)
tomando
m=i=1n log Xi/n, S=i=1n (log Xi-m)2/n

La estimación máximo verosímil y los estadísticos suficientes se vinculan mediante el


siguiente teorema:

Teorema 5.2.: Sea X1,…,Xn un muestra independiente y aleatoria de f(x;). Si existe


T=t(x), estadístico suficiente para y el problema
ˆ
  ArgMaxL( , x)
tiene solución el EMV de también existe y es único siendo función de .

Demostración

Sea g(t(x; )) la fd de T. Tomemos la función de verosimilitud

𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ) = 𝐿() = 𝑔(𝑡(𝑥1 , … , 𝑥𝑛 ); 𝜃)ℎ(𝑥1 , … , 𝑥𝑛 )

Dada la suficiencia h(x1 ,...,xn) no depende de y g es función de . Estas van a


ser maximizadas simultáneamente. Como solo hay un valor de que maximiza L()
y 𝑔(𝑡(𝑥1 , … , 𝑥𝑛 ); 𝜃), este valor tiene que ser función del ES 𝑡(𝑥1 , … , 𝑥𝑛 ) . Por lo que el
EMV es función del ES T . 

Idealmente ˆ  ArgMaxL( , x) tiene una expresión analítica pero este no es


generalmente el caso. Si lo fuera vale aplicar los métodos del Análisis Matemático y
diferenciar L(x:) con respecto a igualar a cero. En este caso tenemos dos posible
casos: problemáticos:

(i) L(x:) no es diferenciable sobre el espacio de definición de X.


(ii) L(x:) es diferenciable, pero el máximo se alcanza en la frontera el espacio
de definición de X

El problema de derivar un EMV no es simplemente buscar el máximo aunque


frecuentemente podemos obtenerle hallando la solución del sistema:
L( x,  )
0

  2 L( x,  ) 
  0
  2 
   n

L( x,  )
Nota 5.3.  0 es llamada ecuación de verosimilitud


63
Ejemplo 5.3.Sea la distribución uniforme en el intervalo (0:).
L(x:) es

 n 0  xi  
L ; x1 ,..., x n   

0 en otro caso

Como -n es una función decreciente en en [0,], L() es maximizada para el valor
mínimo de .tal que las variables están en el rango de definición dado. Por tanto
 MV  X (n) , el estadístico de orden n de la muestra, es el EMV.

Ejemplos 5.4.

i) Sea X una variable aleatoria con fdp exponencial truncada


−(𝑥−𝜃)
𝑓(𝑥; 𝜃) = {𝑒 𝑠𝑖 0 < 𝑥 < ∞
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
La FM es
𝑛 𝑛
𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ) = ∏ 𝑒 −(𝑥𝑖 −𝜃) = 𝑒 −(∑𝑖=1 𝑥𝑖 −𝑛𝜃)
𝑖=1

Esta es un función creciente del exponente por lo que su EMV es el EO 1, o sea


𝜃̂𝑀𝑉 =Min{x1,…,xn}=X(1)

En la práctica puede ser más conveniente el utilizar el logaritmo de L() si f(x,)>0 para
todo . Pues en tales casos

[ L( x,  )]  log[ L( x,  )]
0 0
 
  2 log[ L( x,  )]    2 [ L( x,  )]  [ L( x,  )]  2    2 [ L( x,  )] 
           0
 2         
    n  L ( x, )  L ( x, )      L ( x, )    n
n

Entonces
  2 [ L( x,  )]    2 log[ L( x,  )] 
   0    0
 L( x,  )    n   2    n

ii) Sea X una variable con distribución exponencial


−𝜃𝑥
𝑓(𝑥; 𝜃) = {𝜃𝑒 𝑠𝑖 0 < 𝑥 < ∞
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜

La FMV es
𝑛 𝑛
𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ) = ∏  𝑒 −𝑥𝑖 = 𝜃 𝑛 𝑒 −𝜃 ∑𝑖=1 𝑥𝑖
𝑖=1

Su logaritmo es
𝑛
𝐿∗ (𝜃) = 𝑛𝑙𝑛(𝜃) − 𝜃 ∑ 𝑥𝑖
𝑖=1
y

64
𝐿∗ (𝜃) 𝑛 𝑛
= −∑ 𝑥𝑖 = 0
 𝜃 𝑖=1
Por lo que
𝑛
𝜃𝑀𝑉 =
∑𝑛𝑖=1 𝑥𝑖
iii) Sea X una variable con distribución normal

𝑥−𝜇
−( )
𝑒 2𝜎2
𝑓(𝑥; 𝜃) = , −∞ < 𝑥 < ∞
√2𝜋𝜎 2

Como la FMV es
1 𝑥−𝜇 2
− ( ) 𝑛 1 𝑥 −𝜇 2
𝑛 𝑒 2 𝜎 −
2 − ∑𝑛 ( 𝑖 )
𝐿(𝜃; 𝑥1 , … , 𝑥𝑛 ) = ∏ = (√2𝜋𝜎 2 ) 𝑒 2 𝑖=1 𝜎
𝑖=1 √2𝜋𝜎 2

𝑛 1 𝑛 𝑥𝑖 − 𝜇 2
𝐿∗ () = 𝐿∗ (𝜇, 𝜎 ) = − 𝑙𝑛(√2𝜋) − 𝑛𝑙𝑛(𝜎) − ∑ ( )
2 2 𝑖=1 𝜎

Ahora tenemos un vector de parámetros por lo que calculamos las derivadas parciales
respecto a cada parámetro:

𝐿(𝜃 ∗ ) ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)
= =0
 𝜎2

𝐿(𝜃 ∗ ) 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)2


=− + =0
 𝜎 𝜎3

Resolviendo del sistema se obtiene que


2
∑𝑛
𝑛 𝑖=1 𝑥𝑖 )
∑𝑛
𝑖=1 𝑥𝑖
√∑𝑖=1(𝑥𝑖− 𝑛
𝜃𝑀𝑉 = 𝑛
, 𝑛
= (𝑥̅ , 𝑆𝑛 )

( )

Nota 5.4. El logaritmo de L() está muy relacionado con el concepto de entropía en la
Teoría de la Información a través de la medida de información de Fisher.
El Principio de Máxima Verosimilitud es usado también en el desarrollo de Pruebas de
Hipótesis.

Nota 5.5. Un EMV no tiene que ser un estimador insesgado y tampoco tiene que ser
único.
Al no tener un expresión explicita del EMV se debe recurrir a resolver el problema de
optimización usando algoritmos computacionales. El método de Newton-Raphson es
muy utilizado en las rutinas en uso en los diferentes softwares.

5.2.3. Estimación EMV mediante el cómputo numérico


65
Como se ha señalado es muy difícil en ocasiones resolver la ecuación de verosimilitud
incluso cuando la teoría nos asegura la existencia y unicidad del EMV optimo.
Tomemos como ejemplo el caso de la familia exponencial de k parámetros en el que
esta ecuación, como se ha visto, es

 T ( X i ) 
n
 i 1 
E   w( 1 ,..., k ), j  1,..., k
 n   j
 
Este sistema es en la práctica no lineal con mucha frecuencia. Por ello se han
desarrollado diversos algoritmos para resolver casos particulares que han aparecido en
las aplicaciones.

En particular el comportamiento de los métodos iterativos envueltos plantea un


problema de estudio. El análisis del comportamiento de la sucesión de estimadores,
cuando n es grande es importante para establecer si es adecuado aceptar las
aproximaciones normales, la insesgadez asintótica etc. En particular recibe mucha
atención el argüir bajo condiciones de regularidad es suficiente hacer solo una iteración
para obtener una aproximación adecuada para la solución, el EMV.

Bajo la ciertas condiciones de regularidad si * es el verdadero valor de  podemos


hacer un desarrollo limite de su score en una vecindad de este.
 S 
 , S n ( )  S n ( *)  (   *) n  ,  1   *
   1
Tomemos =MV
 S 
0  S n ( MV )  S n ( *)  ( MV   *) n  ,  *   1   MV
   1
Si

 Sn  Sn ( n )
   0   MV   * 
   1  Sn 
 
   1
Esta relación es la base de los métodos iterativos al definir una sucesión recurrente

 MV
t

,n , t  0 de orden 1 que ligue  MV,n con  MV,n diferenciado por la evaluación de
t t-1

S n
. En todos los casos el punto de partida *MV,n debe ser un estimador convergente

de *.

Un caso que has sido muy estudiado es el de la distribución de Cauchy.


1
f ( x;  )   

 1  (x  ) 2  , x  ,
Para ella
 2( X i   )

n
L( ; X 1 ,..., X n )  , X i  ,  
 i 1 1  ( X i  ) 2
no haya solución analítica de la ecuación de verosimilitud
2( xi   )

n
0
i 1 1  ( xi   ) 2
Esta tiene varios máximos locales. Tomando el logaritmo de la función de verosimilitud
observamos que

66
ln L( ; X 1 ,..., X n )  n ln   
n
i 1
 
ln 1  ( X i  ) 2 , X i  ,  
 
Como ln 1  ( X i   ) 2 tiene un máximo en =Xi hay n máximos locales. Por tanto la
solución de este problema pasa por el uso de un método numérico.

Veamos varios de estos métodos,

5.2.3.1. Método de Newton-Raphson

Este se basa en la expansión alrededor de la ecuación d verosimilitud alrededor de la


raíz de la ecuación de verosimilitud MV . El método consiste en aproximar las curva
y=Sn() por su tangente. Sea (tMV,n, Sn((tMV,n) un punto de la curva. La ecuación
tangente es
S n t
y  S n ( MV
t
,n )  (   MV ,n )
t
( MV ,n )

Haciendo y=0 se obtiene la fórmula de Newton-Raphson
t 1 S n ( MV
t
,n )
 MV , n   MV , n 
t
 S n 
 
   1tMV , n
Tomemos el desarrollo en series

0 ln L( ; X ,..., X ) 
 1 n

 2
 ln L( ; X ,..., X )  (  ) ln L(  v(   ); X ,..., X ),
 1 1 n MV 1
 2 1 MV 1 1 n
v [0,1]
1 es una solución inicial. Si v=0 se obtiene un aproximación. Sea la sucesión
t 1 S n ( MV
t
,n )
 MV ,n   MV
t
,n 
 S n 
 
    MV
t
,n

Comenzando con un valor 1 cerca de la raíz y si es acotada


2
ln L( t ; X 1 ,..., X n ), t  1,..., T
 2
es frecuente que la secuencia generada converja a la raíz. Por ello tiene sentido que 1
sea computada usando un estimador consistente de . En tales casos es aceptable
aceptar que con un solo ciclo se obtiene una solución adecuada. Puede haber problemas
de convergencia si en una de las iteraciones se cae en un punto de inflexión de la
verosimilitud. Otro problema es que converja un mínimo relativo en vez de a un
máximo.

Par evitar las irregularidades se puede usar una de las siguiese variantes

1. Método de Newton de la derivada fija


La sucesión es dada por

67
t 1 S n ( MV
t
,n ) 1
 MV , n   MV , n  at
t
, at 
n  S n 
 
    MV
0
,n

Esta sucesión puede es más estable que el método general si se elige adecuadamente a
sucesión {at}. La raíz va a ser cubierto en forma mas regular por este método pero si la
curva de verosimilitud no es suave es muy es muy frecuente que se encuentre atrapada a
búsqueda en un máximo local. Este evita calcular la derivada de Sn en cada etapa y se
garantiza su convergencia a un máximo relativo.

5.2.3.2 Método de los Scores

La sucesión en este método es


t 1 S n ( MV
t
,n ) 1
 MV , n   MV ,n  at
t
, at 
n I ( MV
t
,n )

Una decisión usual es usar la información de Fisher I(). En la iteración t se tiene


 
 t11 ln L( 2 t 1 ; X 1 ,..., X n )   t11 ln L( 1t 1 ; X 1 ,..., X n )
t   
ln L( t 1 ; X 1 ,..., X n )  ln L( 1t 1 ; X 1 ,..., X n
2

  1   t
Si ln L( t ; X 1 ,..., X n )  0   t
  t2   t21

  1   t11
Si ln L( t ; X 1 ,..., X n )  0   t
  t2   t
Este método de iteración continúa hasta converger un máximo local.

5.2.3.3. Método de substitución

Se consideran dos puntos a* y b*, a*<b*, tales que Sn (a*)>0, Sn (b*)<0. La recta que
une (a*,Sn (a*)) y (b*, Sn (b*)) corta el eje horizontal en un punto
a * S n (b*)  b * S n (a*)
* 
S n (b*)  S n (a*)
Cuando Sn(0)>0 se procede a iterar a partir del punto (0, b*). Si Sn(0)>0 se itera a
partir del punto (a*,0). Así que el algoritmo trabaja como sigue
Fijar a0 , b0 , Sn (a0 )  0, Sn (b0 )  0 a0  b0
at S n (bt )  bt S n (at )
 0 t 1 
S n (bt )  S n (at )
S n ( nt )  0  at   nt , bt  bt 1
S n ( nt )  0  at  at 1 , bt 1   nt
a  bt
Si at  bt     MV  t
2
En la práctica se escogen a0 y b0 como valores alrededor de un estimador convergente.
Lo mas usual es tomar (a0, b0)(*-, *+), >0, con Sn(*-)>0 y Sn (*+)<0.

El error de aproximación en el ciclo t es acotado por

68
 2Sn
Sup
 (bt  at ) 2 ( at ,bt )  2
 0   nt  , 
8  2Sn
inf
( at ,bt )  2

5.2.3.4. Métodos de Whittaker-Robinson

Este es un caso particular del método de Newton con derivada fija con at=1, para todo
t=1. La sucesión recurrente utilizada en este método es
t 1
 MV ,n   MV ,n  S n ( MV ,n )
t t

En este se calcula una raíz de la ecuación ()=0. Tomemos dos funciones arbitrarias
tales que ()=01()=2(). El método es sugerido por el gráfico de las curvas
1() y 2() la raíz buscada esta en su intersección. Comúnmente se usa 1()= y
2()=Sn()+.

Ejemplo 5.5. Sea la distribución de Cauchy.


1
f ( x;  )   

 1  (x  ) 2  , x  ,
Para ella como

  
1 1 0 du
dx 
 
 1  (x  ) 2
 1  u   0,5
 2

es razonable usar como punto inicial la mediana de la muestra.

5.2.4. Algunas propiedades de los EMV

Los EMV poseen una serie de propiedades intrínsecas.

Los estimadores de máxima verosimilitud tienen ciertas propiedades deseables


adicionales pues son:

 .Son consistentes (𝜃̂ →𝑛→ ).


 Son invariantes frente a transformaciones biunívocas, (si T es unl estimador máximo
verosímil de y g es una función biunívoca g(T) es el estimador máximo verosímil de g().
 Si T es un estadístico suficiente de , su estimador máximo verosímil, es función de la
muestra a través de T.
 Son asintóticamente normales; (f (T) tiende a ser una N(E(T), V(T) ) si n)
 Son asintóticamente eficientes, ( entre todos los estimadores consistentes de , los
de máxima verosimilitud son los de varianza mínima,).
 No siempre son insesgados pero en general se pueden derivar de ellos.

Algunas de ellas las veremos a continuación.

69
Teorema 5.3. Si existe una estadístico suficiente para el modelo
(, P )n el EMV MV es función de este.

Demostración
Como es suficiente factorizamos y tenemos que L(x, )=-h(x) (T,) y
MaxL( x,) Max  (T,)

Buscamos un valor tal que (T,n) (T,), para todo  por lo que este tiene que ser
función de T. 

Nota 5.6. Un EMV no tiene que ser suficiente.


Ejemplo 5.6. Sea X con distribución U(, 2), como f(x;)=1(, 2) (x)/  tenemos que
L(X, )=1(0Inf XSup X 2) (x)/ n.

(Inf X, Sup X) es suficiente pero el EMV es la solución de

ArgMax L(X; )= ArgMin =MV=Sup X/2=0,5X(n)

que no es suficiente.

Veamos la eficiencia.
Teorema 5.4. Si existe un estimador eficiente de  este es
idéntico al único EMV cs-P ( casi seguramente para P)

Demostración
Si T es eficiente usando la desigualdad de Frechet-Darmois-Cramer-Rao y aplicando
L(x,  )
Cauchy-Schwarz a y a T-

L( x,  )
 k ( )(T  ), cs  P

Por lo que T=MV, cs.

Teorema 5.5. (Consistencia): Si se cumplen


H1:  es un abierto de .
H2. * P P*.
H3. f(x, )>0, x, .
L(x,  )
H4  x, .

Si adicionalmente o es el valor particular de  , existe una sucesión de soluciones de la
ecuación de verosimilitud que converge ( n o , cs, si n+.).
Demostración
Sea (x1,...,xn,...) una sucesión y n el conjunto de ellas y

70
n(x1,...,xn,...)=- n(x)

n (x,)=Log[L(x, )/L(x,o)]=ni=1 Log[L(xi, )/f(xi,o)]

Por H3 tenemos que

 n LogL( x,  )
0 0
 

Veamos que si existe N(o)n de medida nula P*= P o ( N ( o ))  0 tal que x N(o) y
>0, existe una solución n(x) [0 -, 0 +] de la ecuación de verosimilitud cuando
n+.

Tomando ={w, w=0 1/m, m1} se tiene que [0 –1,o+1].. Denotemos para
todo w L=Log f(u, w)/f(u,0 ), u.

Como Log es cóncava de la desigualdad de Jensen obtenemos usando H2 y H3 que


E 0 L  0 .

Note que

ni=1 Log f(xi, w)/f(xi,0 )/n=n(x, w)/n

es una media por lo que converge a E [Log f(u, w)/f(u,0 )] que es negativa excepto en
un conjunto de medida P*-nula.

Note que  es un conjunto numerable y que N(0)=  w Nw es de probabilidad P*-


nula.

Sea una sucesión que no pertenezca a N(0). Para cualquier >0 podemos hallar w’ y
w’’ de  para los cuales 0 -<w’< 0 <w’’< 0 +

De ahí que n* tal que n>n*


n(x,w’)<0
n(x,w’’)<0
Por lo que n(x, 0 )=0. De ahí que n(x,w) obtiene su máximo en el compacto [w’, w’’]
en un punto 0. Entonces tenemos que n es diferente de w’ y de w’’ pues n(x, 0 )=0
 n ( x,  n )
y MV. Es la solución de 0

Notas 5.7.
1. MV es un máximo local de la verosimilitud
2. Toda raíz de la ecuación de verosimilitud converge.

Veamos que existen EMV que no son consistentes

Ejemplo 5.7. Si X1,…,Xn. X i=1,0, es una muestra de la distribución de Bernoulli


𝜃 𝑠𝑖 𝜃 𝑒𝑠 𝑟𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝑃𝜃 (𝑋 = 1) = { ,0 < 𝜃 < 1
1 − 𝜃 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
La familia de funciones de densidad es

71
𝜃 𝑋 (1 − 𝜃)1−𝑋 𝑠𝑖 𝜃 𝑒𝑠 𝑟𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝑓 (𝑋; 𝜃) = { 1−𝑋 ,0 < 𝜃 < 1
𝜃 (1 − 𝜃) 𝑋 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
∑ 𝑛
𝑋𝑖
El EMV es 𝜃̂𝑛 = 𝑖=1 pero
𝑛
𝜃 𝑠𝑖 𝜃 𝑒𝑠 𝑟𝑎𝑐𝑖𝑜𝑛𝑎𝑙
𝜃̂𝑛 𝜃  𝑐𝑠 { ,0 < 𝜃 < 1
1 − 𝜃 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Por lo que es inconsistente.

Teorema 5.6.(Normalidad Asintótica): Si a las hipótesis del teorema anterior le


adicionamos
H5. x, , existe la segunda derivada de f(x,)=f, (f’’(x,)=f’’).
H6 x, , 2 Log[f(x,)]/ 2.
H7 . , 0<I()<+.
H8 , podemos derivar dos veces bajo el signo integral.
Se tiene que E(f’/f)=E(f’’/f)=0 y toda raíz de la ecuación de verosimilitud tal que n0
 
es asintóticamente normal  n n    
ley 1 
N (0,
 I ( 0 ) 

Demostración
Sea
Sn()/n=n (x,)=ni=1 fLog[f(xi, )//n
Para todo ,
n (x,)= n (x,0)+(-o) [n (x,’)/
con ’]Min (, o), Max (, o)[

Para n = tenemos que


n (x,n)= 0=n (x,0)+(n-o) [n (x,’’)/
con ’’]Min (n, o), Max (n, o)[ obteniéndose que si
  LogL( x, 0  
E 0   =A=-I(0)
  2 
 
Bn= [n (x,0)/ -A
Cn= n (x,’’)/ -n (x,0)/

Como se cumplen las hipótesis que soportan la existencia de la información de Fisher


tenemos que

Bn=[ni=1 2 Log[f(xi, 0)/ 2 ]/n+I(0)= =ni=1 Zi/n

Entonces La Ley Fuerte de los Grandes números soporta la convergencia BnE(Zi).

Por otra parte H8 permite establecer que para todo i

E(Zi)= I(0)- I(0)=0


Y

Cn=[ni=1 2 Log[f(xi, ’’)/ 2 ]- 2 [Log[f(xi, 0)/ 2 ]/n

Podemos comprobar que

72
|Cn|<Supx 2 Log[f(xi, ’’)/ 2 ]-[2 Log[f(xi, 0)/ 2]

y usando H6 se evidencia que ’’0, cs y de ahí que Cn 0 cs para 0 por lo que

A+Bn+Cn- I(0)
Entonces podemos escribir

(n-o)n1/2 =[n (x,0)n1/2 ]/[I(0)-Bn-Cn]

Como se vio en anteriormente n (x,0)n1/2 tiende en Ley a la normal N(0, I(0)) por lo
que

I(0)-Bn-Cn- I(0) cs y en probabilidad

En virtud de que si XnX en Ley y Yna en probabilidad entonces


XnYn-1Ley X/a

(MV-0)n1/2 Ley N(0, 1/I(o)

Notas 5.8.
i) En la practica si n entonces MV se distribuye asintóticamente N(0, 1/nI(o)).
ii) La convergencia en Ley no soporta necesariamente que E(MV)o y que V(MV) ,
1/nI(o) pues tal esperanza puede no existir.

Ejemplo 5.8. Sea X una v.a. N(,1) con =-1 y la muestra iid (X1 ,..,Xn ). Un EMV es

1
 MV  n

X
i 1
i

n
y
n

X i
i 1
N(,1/n)
n
Ahora
2
 n 
exp  u   
E  MV  
n   2  du
2
  u
Esta integral no existe sin embargo
 n 

 X
i 1
i


n  0 
 n 
 
 
Se distribuye N(0,1). Tomando f(u)=1/u como se sabe:

73
“Si f:N+ y limn f(n)=+, se tiene una constante real Q y para la sucesión (Xn),
n>1, f (n)X n  Q 
ley
N (0,  2 ) , siendo la función g : derivable , entonces
f (n)g ( X n )  g (Q) 
ley
N (0, g ' 2 (Q) 2 ) ’’

Usando este resultado

  n  
 
   Xi 



n f  i 1
  f ( 0 )  
ley
N 0, f '  0  
  n  
   
 
   

De ahí que en este problema (n-0)n1/2 leyN(0, 0) pues I(0)= 02

5.2.4. La familia exponencial

Es un método de uso común buscar un EMV y tratar de hallar un estimador insesgado


que sea función de este. Se supone que haciendo esto se obtiene un estimador insesgado
de mínima varianza, considerando, erróneamente, que este es función de un estadístico
suficiente y minimal. Esto no es cierto excepto en ciertas familias de distribuciones.
Una de ellas es la exponencial. Cuando se trabaja con una densidad de la familia
exponencial se garantiza que el EMV sea función del estadístico suficiente minimal
garantizándose su unicidad. Consideremos esta familia .

{∑𝑘 𝜃𝑗 𝑇𝑗 (𝑥)+𝑤(𝜃)}
Proposición 5.7. Sea la familia 𝑓(𝑥; 𝜃) = ℎ(𝑥)𝑒 𝑗=1 ,𝑎 < 𝑥 <
𝑏, 𝜃𝑘 y que se cumplen las hipótesis

H1. Son continuas las derivadas parciales de w()


𝜕2
H2. − ‖𝜕𝜃 𝜕𝜃 𝑤(𝜃), 𝑖, 𝑗 = 1, … , 𝑘‖ es definida positiva para todo .
𝑖 𝑗
H3. E(Ti(X))<+, i=1,…,k, .

Entonces el EMV de  es la solución del sistema de ecuaciones

∑𝑛𝑖=1 𝑇( 𝑋𝑖 ) 𝜕𝑤()
– = , 𝑖 = 1, … , 𝑘
𝑛 𝜕𝜃𝑖

Además la solución ̂ es única y es un estadístico suficiente minimal. Si ∇𝑤(𝜃) es


𝜕𝑤()
vector gradiente de ‖ 𝜕𝜃 , 𝑖 = 1, … , 𝑘‖ entonces 𝐸(∇𝑤(𝜃)) = ∇𝑤(𝜃), 
𝑖

Demostración

En este caso
𝑛 𝑘 𝑛

𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , ) = ∑ log h(𝑋𝑖 ) + ∑ 𝜃𝑗 ∑ Tj (𝑋𝑖 ) + 𝑛∇(𝜃)


𝑖=1 𝑗=1 𝑖=1

74
Hallando sus derivadas obtenemos que el EMV sea una de las raíces del sistema de
∑𝑛
𝑖=1 𝑇(𝑋𝑖 ) 𝜕𝑤()
ecuaciones – = , 𝑖 = 1, … , 𝑘. Por otra parte por H2, como
𝑛 𝜕𝜃𝑖
𝜕2 𝑙𝑜𝑔𝐿(𝑋1 ,…,𝑋𝑛 ,)
, la raíz del sistema es única y es un punto de máximo. Además dado
𝜕𝜃𝑖 𝜕𝜃𝑗
que
𝑛 𝑛

(∑ T1 (𝑋𝑖 ) , … , ∑ Tk (𝑋𝑖 ))
𝑖=1 𝑖=1
Es un estadístico suficiente minimal la unicidad del estimador implica que 𝜃̂ =
(𝜃̂1 , . . , 𝜃̂𝑘 ) es suficiente y por tanto minimal.
H3 garantiza que 𝐸(∇𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )) = 0, . De ahí que se cumpla lo
∑𝑛
𝑖=1 𝑇(𝑋𝑖 ) 𝜕𝑤()
establecido en la proposición que 𝐸 ( ) = −𝐸 ( ) , 𝑖 = 1, … , 𝑘 . 
𝑛 𝜕𝜃𝑖

Note que el EMV puede existir incluso cuando H1 no es válida. En el caso analizado de
una distribución de la familia exponencial con  el radio () de curvatura de
𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , ) en  satisface la relación
𝜕 2 𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )

()−1 = 𝜕𝜃 2
3
2 2
𝜕 𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )
[1 + ( ) ]
𝜕𝜃
𝜕 𝑙𝑜𝑔𝐿(𝑋1 ,…,𝑋𝑛 ,)
Como = 0 el radio de curvatura del EMV está determinado por
𝜕𝜃
−1 𝜕 2 𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )
(𝜃̂) = −
𝜕𝜃 2
Considerando las condiciones de la proposición anterior la información de Fisher fija
que
−1
−1 𝜕 2 𝑙𝑜𝑔𝐿(𝑋1 , … , 𝑋𝑛 , )
(𝜃̂) = 𝐼(𝜃̂) = − [ ]
𝜕𝜃 2
Otro razonamiento sostenido por este resultado es que dado la invarianza de los EMV si
j() =j(1,…,k) es la inversa de j(1,…,k) y tenemos el EMV
𝜃̂𝑗 = 𝜃𝑗 (𝜑̂1 , … , 𝜑̂𝑘 ), 𝑗 = 1, … , 𝑘
Reparametrizando tenemos que
{∑𝑘 (𝑥)+𝛾(𝜑)}
𝑓(𝑥; 𝜃) = ℎ(𝑥)𝑒 𝑗=1 𝜑𝑗𝑇𝑗 ,
𝜑 = (𝜑1 , … , φk ), 𝛾(𝜑) = 𝑤(𝜃1 (𝜑̂1 , … , 𝜑̂𝑘 ), … , 𝜃𝑘 (𝜑̂1 , … , 𝜑̂𝑘 ))
La proposición anterior fija que necesariamente  posee derivada continuas respecto a
cada j, j=1,…,k. La matriz de derivada generada por las transformaciones es
𝜕𝑗 (𝜑)
𝐻=‖ , 𝑗 = 1, … , 𝑘‖
𝜕𝜑𝑗
Consideremos que esta es no singular, esto es 1 ,…k son linealmente independientes.
El gradiente es ahora

() =HTw(1(1,…,k),…, (k (1,…,k))= HT w().

El EMV * es la solución del sistema

75
M=- HT w().
∑𝑛
𝑖=1 𝑇𝑗 (𝑋𝑖 )
donde M= ‖𝑀𝑗 = , 𝑗 = 1, … , 𝑘‖ , 𝛻𝜃 w(θ(φ)) es el vector gradiente evaluado
𝑛
en (). Las correspondientes matrices de información de Fisher son determinadas
como
I()=HTI()H y I()=(H-1)T- I()H-1.

Estos razonamientos son útiles en muchas ocasiones en la derivación de estimadores y


errores.

Ejemplo 5.9. Sea la muestra normal bivariada independiente {(Xi, Yi), i=1,…,n} con
E(Z)=0, Z=X, Y. y matriz de correlación
1 𝜌
𝑉=[ ],
𝜌 1
La densidad de la normal bivariada la podemos escribir en términos de la familia
exponencial como
1
𝑓(𝑥, 𝑦) = 𝑒𝑥𝑝{𝜑1 𝑇1 (𝑥, 𝑦) + 𝜑2 𝑇2 (𝑥, 𝑦) + 𝛾(𝜑1 , 𝜑2 )},
2𝜋
1 𝜌 ln(4𝜑12 −𝜑22 )
𝑇1 (𝑥, 𝑦) = 𝑥 2 + 𝑦 2 , 𝑇2 = 𝑥𝑦, 𝜑1 = − 2𝜎2 (1−𝜌2 ) , 𝜑2 = 𝜎2 (1−𝜌2 ) , 𝛾(𝜑1 , 𝜑2 ) = 2

Derivando obtenemos

𝜕 4𝜑1 𝜕 𝜑2
𝛾(𝜑1 , 𝜑2 ) = , 𝛾(𝜑1 , 𝜑 2 ) = −
𝜕𝜑1 4𝜑12 − 𝜑22 𝜕𝜑2 4𝜑12 − 𝜑22

El sistema de ecuaciones a resolver es


∑𝑛𝑖=1 𝑋𝑖2 + 𝑌𝑖2 4𝜑̂1
=
𝑛 4𝜑̂12 − 𝜑̂22
∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 𝜑̂2
=
𝑛 4𝜑̂1 − 𝜑̂22
2

2𝜑 𝜑2
Dado que 𝜎 2 = − 4𝜑2 −𝜑
1
2,𝜌 = − aplicando el hecho de los EMV son invariantes
1 2 2𝜑1
𝑛 2

2 𝑖=1 𝑋𝑖 + 𝑌𝑖2
4𝜑̂1
𝜎̂ =
2𝑛 4𝜑̂12 − 𝜑̂22
∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖
𝜌̂ = 2 𝑛
∑𝑖=1 𝑋𝑖2 + 𝑌𝑖2
La matriz de información de Fisher en términos de 1 y 2 es obtenida al calcular

𝜕2 4(4𝜑12 + 𝜑22 ) 𝜕 2 4𝜑12 + 𝜑22


𝛾(𝜑1 , 𝜑 2 ) = − , 𝛾(𝜑 1 , 𝜑 2 ) = − ,
𝜕𝜑12 (4𝜑12 − 𝜑22 )2 𝜕𝜑22 (4𝜑12 − 𝜑22 )2
𝜕2 8(𝜑1 𝜑2 )
𝛾(𝜑1 , 𝜑2 ) =
𝜕𝜑1 𝜕𝜑2 (4𝜑12 − 𝜑22 )2
Esta es

76
8(𝜑1 𝜑2 )
4(4𝜑12 + 𝜑22 ) −
1 (4𝜑12 − 𝜑22 )2
𝐼(𝜑) =
(4𝜑12 − 𝜑22 )2 8(𝜑1 𝜑2 )
− 4𝜑12 + 𝜑22
[ (4𝜑12 − 𝜑22 )2 ]

Para obtenerla en términos de los parámetros de la densidad consideremos que las


marginales son N(0,2) y las condicionales N(Z,2(1-2)), Z= X,Y. Entonces

𝐸(𝑋 2 𝑌 ) = 𝐸(𝑋 𝑌 2 ) = 3𝜌𝜎 4 ; 𝐸(𝑋 2 𝑌 2 ) = 𝜎 4 (1 + 2𝜌2 ),


𝐸(𝑍 4 ) = 3𝜎 4 , 𝑍 = 𝑋, 𝑌;
𝐸(𝑇1 (𝑋 , 𝑌 ) − 2𝜌𝑇2 (𝑋 𝑌 ))2 = 8𝜎 4 (1 − 𝜌2 );
𝐸(𝑇1 (𝑋 , 𝑌 ) − 2𝜌𝑇2 (𝑋 𝑌 )) = 2𝜎 2 (1 − 𝜌2 );

Por tanto , dado que =(2, )


2
𝜕 (𝑙𝑛𝐿(𝑋1 , … , 𝑋𝑛 , )) 1
𝐸 [( ) ]= 4
𝜕 2 𝜎
2
𝜕 𝑙𝑛𝐿(𝑋1 , … , 𝑋𝑛 , )
𝐸 [( ) ]
𝜕𝜌
1 + 𝜌2 𝜕 𝑙𝑛𝐿(𝑋1 , … , 𝑋𝑛 , ) 𝜕 𝑙𝑛𝐿(𝑋1 , … , 𝑋𝑛 , )
= 2 2
𝐸 [( × ) ]
(1 − 𝜌 ) 𝜕𝜎 2 𝜕𝜌
𝜌
=−
(1 − 𝜌2 )𝜎 2
De ahí que la matriz de información de Fisher en términos de los parámetros de la
distribución es
1 𝜌
− (1−𝜌2 )𝜎2
2 𝜎4
𝐼(𝜎 , 𝜌) = [ ]
𝜌 1+𝜌2
− (1−𝜌2 )𝜎2 (1−𝜌2 )2

5.3. EL MÉTODO DE LOS MOMENTOS


Suponga que hacemos un experimento aleatorio en el que podemos observar la VA X.
con una distribución con parámetros desconocidos k . El experimento es
repetido independientemente y se observa.

(X1, X2, ..., Xn).

El método de los momentos consiste en construir estimadores de los parámetros


igualando los momentos poblacionales

µi() = E(X i | )

a los muestrales

77
Mi(X) = nj=1 Xji / n

Definición 5.5. :Un estimador de momentos del parámetro g()=g(1 ,.,k ) es el


estadístico

( µ1(W1, W2, ..., Wk), …, µk(W1, W2, ..., Wk))= *M

que utiliza los estimadores W1, W2, ..., Wk de los momentos desconocidos al resolver el
sistema de ecuaciones

µ1(W1, W2, ..., Wk) = M1(X1, X2, ..., Xn)


µ2(W1, W2, ..., Wk) = M2(X1, X2, ..., Xn)
···
µk(W1, W2, ..., Wk) = Mk(X1, X2, ..., Xn) 

Tenemos k ecuaciones con k incógnitas por lo que el sistema puede ser resuelto.

Como se sabe Mi(X) tiene una distribución que converge a una normal. Por tanto un
estimador de momentos es asintóticamente normal.

Las propiedades más notables de ellos son:

Propiedad 1. (Consistencia) *M  casi seguramente si n

Propiedad 2. (Normalidad Asintótica) (*M -)n1/2 N(0, ) en ley si n+, donde la


matriz  depende de los momentos utilizados para construir el estimador de momentos.

Por ejemplo, si tenemos la muestra (X1, X2, ..., Xn) de la misma distribución con media
y varianza desconocidas
𝑛
𝑋𝑖
𝑀1 = ∑ ,
𝑛
𝑖=1
𝑛
(𝑋𝑖 − 𝑀1 )2
2
𝑆𝑛 = ∑ = 𝑀2 − 𝑀12
𝑛
𝑖=1

Son los estimadores de momentos de la media y la varianza respectivamente.

Ejemplo 5.10. Si X(P,) como E(X)=P/ y V(X)=P/2 tenemos que son estimadores
de ellos: Sn2 =M2-M12 por lo que P/Sn2 estima a 2 y Sn22 a P; =Mn estima a P.
Sustituyendo obtenemos como estimadores de momento a p*=Mn2 /Sn2 y *= Mn /Sn2.
Los estimadores de momento pueden ser una opción mejor que la de utilizar Estimador
Máximo Verosímil.

Ejemplo5.11. Si XU (0,) su esperanza es 𝐸(𝑋) = /2 . Al tomar una muestra de


𝜃2
tamaño n 𝐸(𝑋̅) = 𝜃/2. Entonces 𝜃̂𝑛 = 2𝑋̅ cuya varianza es 𝑉(𝜃̂𝑛 ) = 4𝑉(𝑋̅) = . 3𝑛

78
𝜃2
̂𝑀𝑉 )
𝑉(𝜃 𝑛(𝑛+2) 3
Entonces la eficiencia relativa es ̂𝑛 )
= 𝜃2
= 𝑛+2 ≤ 1. Por tanto el estimador de
𝑉(𝜃
3𝑛
momentos es más eficiente que el Estimador Máximo Verosímil.

A partir del Teorema Central del Límite


𝜃
√𝑛(𝑋̅ −2 )
𝜃 𝑠𝑒 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑦𝑒 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒 𝑁(0,1).
2√3

De ahí que
√3𝑛(𝜃̂𝑛 − 𝜃)
~𝑁(0,1) 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒
𝜃
La velocidad de convergencia es rápida pues se usa directamente el TCL. 

5.4. MÉTODO DE MÍNIMA DISTANCIA CHI CUADRADA.

Sea X una VA con una ley de probabilidad P,  y una muestra iid. La VA es
discretizada haciendo una partición C1,…,Ck de su espacio de definición. Sea ni el
número de observaciones clasificadas en la clase Ci. El vector (n1,…,nk)T es una variable
con distribución multinomial
𝑘 𝑘 𝑘
𝑛! 𝑛
𝑀(𝑛, 𝑝1 , … , 𝑝𝑘 ) = ∏ 𝑝𝑖 𝑖 , ∑ 𝑛𝑖 = 𝑛, ∑ 𝑝𝑖 = 1.
∏𝑘𝑖=1 𝑛𝑖 !
𝑖=1 𝑖=1 𝑖=1
Algunas medidas Chi cuadradas son
𝑘
(𝑛𝑖 − 𝑛𝑝𝑖 )2 2
𝐷𝑃 (𝜃) = ∑ ,  𝑑𝑒 𝑃𝑒𝑎𝑟𝑠𝑜𝑛
𝑛𝑝𝑖
𝑖=1
𝑘
(𝑛𝑖 − 𝑛𝑝𝑖 )2 2
𝐷𝑁 (𝜃) = ∑ ,  𝑑𝑒 𝑁𝑒𝑦𝑚𝑎𝑛
𝑛𝑝𝑖
𝑖=1
𝑘
𝑛𝑖 2
𝐷𝑉 (𝜃) = 2 ∑ 𝑛𝑖 log ,  𝑑𝑒 𝑉𝑒𝑟𝑜𝑠𝑖𝑚𝑖𝑙𝑖𝑡𝑢𝑑
𝑛𝑝𝑖
𝑖=1
𝑘
𝑛𝑝𝑖 2
𝐷𝐾 (𝜃) = 2𝑛 ∑ 𝑛𝑖 log ,  𝑑𝑒 𝐾𝑢𝑙𝑙𝑏𝑎𝑐𝑘
𝑛𝑖
𝑖=1
𝑘
𝑓𝑖 𝑝𝑖 2 𝑛𝑖
𝐷𝐿𝐵 (𝜃) = ∑ 𝑛𝑓𝑖 (1 − 𝑓𝑖 ) ( log − 𝑙𝑜𝑔 ) , 𝑓𝑖 = ,
1 − 𝑓𝑖 1 − 𝑝𝑖 𝑛
𝑖=1
2 𝑑𝑒 𝐿𝑜𝑔𝑖𝑡 𝑑𝑒 𝐵𝑒𝑟𝑘𝑠𝑜𝑛

Definición 5.6.. Un estimador  se dice que Chi-cuadrado mínimo si DA()DA()


para todo . O sea es la solución del problema de optimización =argmin DA().

Para el caso del DP().


𝑘 𝑘 𝑘
(𝑛𝑖 − 𝑛𝑝𝑖 )2 𝑛𝑓𝑖2 𝑘 𝑘 𝑓𝑖2
𝐷𝑃 (𝜃) =∑ =∑ + 𝑛 ∑ 𝑝𝑖 − ∑ 𝑛𝑖 = 𝑛 (∑ − 1)
𝑛𝑝𝑖 𝑝𝑖 𝑖=1 𝑖=1 𝑝𝑖
𝑖=1 𝑖=1 𝑖=1
Entonces tenemos que

79
𝑘 𝑘
𝑓𝑖2 𝑓2
∑  ∑ 𝑖 , 
𝑝𝑖 ( ) 𝑝𝑖 ( )
𝑖=1 𝑖=1
El estimador es la solución del sistema
𝑘
𝜕 𝑓𝑖2 𝜕𝑝𝑖 ()
𝐷𝑃 (𝜃) = 0,  ∑ 2 = 0, 𝑖 = 1, … , 𝑘
𝜕𝜃𝑖 𝑝 𝑖 ( ) 𝜕𝜃𝑖
𝑖=1
Como
𝜕2
( ) 𝐷 (𝜃) 𝑒𝑠 𝑑𝑒𝑓𝑖𝑛𝑖𝑑𝑎 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑎 𝑒𝑛 𝜃𝑃
𝜕𝜃𝑗 𝜃𝑖 𝑃

Este tiene una serie de propiedades similares a los de los EMV. Esto es obtenido al
analizar la relación entre los problemas de minimización de las medidas Chi-cuadradas
𝑛! 𝑘
y la maximización de log log 𝑘 ∏𝑘𝑖=1 𝑝𝑖𝑛𝑖 = log 𝑛! + ∑𝑖=1 log 𝑛𝑖 +
∏𝑖=1 𝑛𝑖 !
𝑘
∑𝑖=1 𝑛𝑖 log 𝑝𝑖
Entonces tenemos

Propiedad 3. P0, el verdadero valor del parámetro.

Propiedad 4.  es asintóticamente normal (√𝑛(𝜃 − 𝜃0 ) →𝐿𝑒𝑦 𝑁(0, 𝐼 −1 (𝜃0 ))

Ejemplo 5.12. Sea X una variable con distribución de Poisson. Debemos minimizar

𝑓𝑥2
D()=∑𝑛𝑥=0 𝑝
𝑥 ()
𝑛 𝑛

𝐷() = ∑ 𝑥! 𝑓𝑥2 𝑒 −𝑥𝑙𝑜𝑔 = ∑ 𝛾𝑥 ()


𝑥=0 𝑥=0
𝑛
𝜕 𝑥
𝐷() = ∑ (1 − ) 𝛾𝑥 () = ℎ𝑥 ()
𝜕 
𝑥=0
Entonces el estimador Chi-cuadrado es la raíz de hx()=0.
Este es un problema numérico que podemos resolver usando un método como el de
Newton usando como punto inicial 𝑋̅.

La ecuación de la tangente a la curva y=hx() es

𝑦 − ℎ𝑥 (𝑋̅) 𝜕
= ( ℎ𝑥 ())
 − 𝑋̅ 𝜕 =𝑋̅

Su intersección con el eje horizontal y=0 es en

ℎ𝑥 (𝑋̅)
+ 𝑋̅ = 
𝜕
( ℎ𝑥 ())
𝜕 =𝑋̅

Como

80
𝑛
𝜕 𝑥 2 𝑥
ℎ𝑥 () = ∑ ((1 − ) + 2 ) 𝛾𝑥 ()
𝜕  
𝑥=0

tenemos que la primera aproximación


𝑥
∑𝑛𝑥=0 (1 − ̅ ) 𝑥! 𝑓𝑥2 𝑒 𝑋̅−𝑥𝑙𝑜𝑔𝑋̅
𝑃 = 𝑋̅ − 𝑋
𝑥 2 𝑥
∑𝑛𝑥=0 [(1 − ̅ ) + ] 𝑥! 𝑓𝑥2 𝑒 𝑋̅−𝑥𝑙𝑜𝑔𝑋̅
𝑋 𝑋̅ 2

La que puede usarse como estimación de 

5.5. MÉTODOS PARA DERIVAR ESTIMADORES DE UN PARÁMETRO DE


POSICIÓN

5.5.1 Estimación de E(X)

El problema es estimar =E(X) es el más frecuentemente usado en la estadística.


Diversos métodos llevan a derivar el mismo estimador como adecuado.
∑𝑛𝑖=1 𝑋𝑖
𝑋̅ =
𝑛
A partir de su definición misma se tiene que es

Propiedades
i) Es un estimador insesgado de 
ii) 𝑋̅ →𝑐𝑠 𝜃
𝑉(𝑋)
iii) Si las variables son iid 𝑉(𝑋̅) = →𝑛→∞ 0
𝑛

O sea que es determinado fácilmente que es un estimador insesgado, convergente y


eficiente (consistente en el sentido de Fisher).

Si la muestra no es independiente

∑𝑛𝑖=1 𝑉(𝑋𝑖 ) ∑𝑛𝑖=1 ∑𝑛−1𝑖≠𝑗 𝐶𝑜𝑣(𝑋𝑖 , 𝑋𝑗 ) 𝑛𝜎 2 + 𝑛(𝑛 − 1)𝜌𝜎 2


̅̅̅ =
𝑉(𝑋) + = ,𝜌
𝑛2 𝑛2 𝑛2
𝐶𝑜𝑣(𝑋𝑖 , 𝑋𝑗 )
=
𝜎2
Note que la propiedad iii se sigue manteniendo válida.

5.5.2. Estimador Equivariante

Sea  un parámetro de posición y la densidad f(x,) de la medida de probabilidad


P tal que esta puede escribirse como f(x-) y sea {X1,…,Xn} una muestra iid de esta
densidad.

Definición5.7.. Se dice que = {T:∀𝜏, 𝑇(𝑋1 − 𝜏, … . , 𝑋𝑛 − 𝜏) = 𝑇(𝑋1 , … . , 𝑋𝑛 ) − }


es la clase de un estimadores Equivariantes de  .

Podemos representar un estimador Equivariante usando la expresión alternativa

81
𝑇(𝑋1 − 𝑋𝑖 , … . , 0, 𝑋𝑖+1 − 𝑋𝑖 , … , 𝑋𝑛 − 𝑋𝑖 ) + 𝑋𝑖 = 𝑇(𝑋1 , … . , 𝑋𝑛 ) = 𝑋𝑖 + 𝑖 (𝑌)

Si {a1,…,an} es una sucesión de constantes reales tales que a1+…+an =1


𝑛 𝑛

𝑇(𝑋1 , … . , 𝑋𝑛 ) = ∑ 𝑎𝑖 𝑋𝑖 + ∑ 𝑖 (𝑌) = 𝑈𝑎 (𝑋1 , … . , 𝑋𝑛 ) + (𝑌)


𝑖=1 𝑖=1
Si consideramos la pérdida cuadrática tenemos el siguiente resultado en la clase.

Proposición 5.8. Para todo T el riesgo R (T,) no depende de.

Demostración

Tomemos =- entonces

R(T,)=(T(x1,..,xn)-)2 f(x1-,…, xn-))dx1… dxn

Lo podemos escribir como

R(T)=T2(x1-,..,xn-) f(x1-,…, xn-))dx1… dxn=T2(u1,..,un) f(u1,…,un))du1…


dun=R(T,0)
5.5.3. Estimador de Pitman

Estos estimadores son muy útiles en el desarrollo de estimadores de parámetros de


posición usando estadísticos lineales. Estos se relacionan con los estimadores
equivariante.

Definición 5.8.. Se dice que TP es un estimador de Pitman del parámetro de posición 


si R(TP,) R(T,), para todo T. (TP=arg minT R(T,0))

Consideremos 𝑇(𝑋1 , … . , 𝑋𝑛 ) = ∑𝑛𝑖=1 𝑎𝑖 𝑋𝑖 + ∑𝑛𝑖=1 𝑖 (𝑌) = 𝑈𝑎 (𝑋1 , … . , 𝑋𝑛 ) + (𝑌)


. 𝑈𝑎 (𝑋1 , … . , 𝑋𝑛 ), ∑𝑛𝑖=1 𝑎𝑖 = 1 es un estadístico lineal. Veamos como obtener un
estimador de Pitman

Proposición 5.9. TP es el estimador de Pitman de  si tiene la forma 𝑇𝑃 = 𝑈𝑎 −


𝐸=0 (𝑈𝑎 𝑌) y E0(TPY)=.

Demostración

Tomemos 𝑇(𝑋1 , … . , 𝑋𝑛 ) = 𝑈𝑎 (𝑋1 , … . , 𝑋𝑛 )𝐸0 (𝑈𝑎 𝑌) + (𝑌) se sigue que T,
T=TP +(Y). Para que sea un estimador de Pitman debe cumplirse que R(TP,)
R(T,), T.

Como

R(T,0)=E0(T2)=E0(TTP)2= E0(T-TP)2+ E0(TP)2+ 2E0(TP(T-TP))

El último término es
E0(TP(T-TP))= E0(TP(Y))=EY E0Y(TP(Y))= EY((Y) E0Y(TP)=0
82
Por tanto, como

E0(T2)=E0(T-TP)2+ E0(TP)2

Se tiene que R(TP,0) R(T,0),  T. 

Nota 5.9. En la práctica lo usual es que se utilice 𝑈𝑎 = 𝑋, ̅ 𝑋1 𝑜 𝑋(1)


Si X es continua y su densidad es del tipo f(x-) tenemos la densidad conjunta
𝑓𝑥1 ,…,𝑥𝑛 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥) = 𝑓𝑋1 ,𝑌 (𝑥, 𝑦)
La marginal

𝑓𝑦 (𝑦2 , … , 𝑦𝑛 ) = ∫ 𝑓𝑥1 ,…,𝑥𝑛 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥)𝑑𝑥


Y la condicional
𝑓𝑥1 ,…,𝑥𝑛 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥)
𝑓𝑋1 𝑌 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥) =
∫ 𝑓𝑥1 ,…,𝑥𝑛 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥)𝑑𝑥
Entonces
∫ 𝑥 𝑓𝑥1 ,…,𝑥𝑛 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥)𝑑𝑥
𝐸0 (𝑋1 𝑌) =
∫ 𝑓𝑥1 ,…,𝑥𝑛 (𝑥, 𝑦2 + 𝑥, … , 𝑦𝑛 + 𝑥)𝑑𝑥
Tomando x=x1-u
∫ (𝑥1 − 𝑢) 𝑓𝑥1 ,…,𝑥𝑛 (𝑥1 − 𝑢, … , 𝑥𝑛 − 𝑢)𝑑𝑢
𝐸0 (𝑋1 𝑌) = =
∫ 𝑓𝑥1 ,…,𝑥𝑛 (𝑥1 − 𝑢, … , 𝑥𝑛 − 𝑢)𝑑𝑢
∫ 𝑢 𝑓𝑥1 ,…,𝑥𝑛 (𝑥1 − 𝑢, … , 𝑥𝑛 − 𝑢)𝑑𝑢
= 𝑥1 −
∫ 𝑓𝑥1 ,…,𝑥𝑛 (𝑥1 − 𝑢, … , 𝑥𝑛 − 𝑢)𝑑𝑢
Esto justifica el siguiente resultado

Proposición 5.10. Si X es continua y la densidad es f(x-) entonces


∫ 𝑢𝑓𝑥1 ,…,𝑥𝑛 (𝑥1 −𝑢,…,𝑥𝑛 −𝑢)𝑑𝑢
𝑇𝑃 = 
∫ 𝑓𝑥1 ,…,𝑥𝑛 (𝑥1 −𝑢,…,𝑥𝑛 −𝑢)𝑑𝑢

Ejemplo 5.13. Sea X una variable con distribución N(,1) y {X1,..,Xn} una muestra iid
y la transformación A:nn tal que
𝑋̅
𝑋1
𝑋 − 𝑋1 𝑈
( ⋮ )→( 2 )=( )
⋮ 𝑌
𝑋𝑛
𝑋𝑛 − 𝑋1
La distribución conjunta de (X1,..,Xn)T es
1 00 ⋯ 0
 010 ⋯ 0
𝑁 (⋮) , ⋮⋮⋮⋮∙ ⋯ ⋮
𝜃 𝑛×1 00 ⋯ 1
( ( )𝑛×𝑛 )
La matriz de la aplicación lineal es

83
1 1 1

𝑛 𝑛 𝑛
−1 1⋯0
𝐴=
⋮ ⋱ 0
⋮ ⋱0
( 1 01 )
Entonces podemos decir que
1
0⋯0
𝜃 𝑛
0 2 1⋯
𝑈 0
( ) ~𝑁 ( ) , 𝐴𝐴𝑇 , 𝐴𝐴𝑇 = ⋮ 1 ⋱ 0
𝑌 ⋮
⋮ 0 ⋱ 0
0
( ) ⋮ 1
( 0 ⋯ 0 12 )

De ahí que 𝑋̅ es independiente de Y por lo que 𝐸𝜃 (𝑋̅𝑌) = 𝐸𝜃 (𝑋̅) = , 𝑦 𝐸0 (𝑋̅𝑌) =


0.

Entonces el estimador de Pitman de  es 𝑇𝑃 = 𝑋̅ que es un estimador eficiente.

5.6. MÉTODOS PARA DERIVAR ESTIMADORES DE UN PARÁMETRO DE ESCALA

5.6.1 Estimación de V(X)=

A partir de la definición de la varianza se tiene una motivación intuitiva utilizar la


varianza muestral

∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2 ∑𝑛𝑖=1 𝑋 2 𝑖 − 𝑛𝑋̅ 2


𝑆 2𝑛 = =
𝑛 𝑛

Este es un estimador desarrollado al aplicar el método de los momentos. Al aplicar el


método de máxima verosimilitud aparece en algunas distribuciones. Sin embargo como

∑𝑛𝑖=1 𝐸(𝑋 2 𝑖 ) − 𝑛𝐸(𝑋̅ 2


) 𝜃 𝑛−1
𝐸(𝑆 2 𝑛 ) = = 𝜃 + 𝐸(𝑋)2 − 𝐸(𝑋)2 − = 𝜃
𝑛 𝑛 𝑛

Este no es insesgado. Sin embargo podemos hacer una pequeña transformación para
obtener uno que si lo sea. Frecuentemente usamos
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
𝑆 2 𝑛−1 =
𝑛−1

Note que en el caso en que no se mantiene la independencia de las variables

2
∑𝑛𝑖=1 𝐸(𝑋𝑖 )2 − 𝑛𝐸(𝑋̅)2 𝑛(𝐸(𝑋 )2 + 𝜃) − 𝑛(𝐸(𝑋̅)2 + 𝑉(𝑋̅))
𝐸(𝑆 𝑛−1 ) = =
𝑛−1 𝑛 −1
𝑛𝜇 2 + 𝑛𝜃 − (1 + (𝑛 − 1)𝜌𝜃 − 𝑛𝜇 2 )
= = (1 − 𝜌)𝜃
𝑛−1

Por tanto

84
𝜃̂ = 𝑆 2 𝑛−1 /(1 − 𝜌)

es insesgado.

En el que se corrige el sesgo que aparece en S2n.

En varias distribuciones aparece la posibilidad de utilizar otro estimador de la varianza


y será necesaria hacer las comparaciones requeridas para establecer que estimador es
preferible.

Ejemplo 5.14. Sea X una variable con distribución Poisson y tomemos una muestra iid
de esta distribución. En este caso tenemos dos estimadores intuitivos de .
𝜃̂𝑚 = 𝑋̅, 𝜃̂𝑣 = 𝑆𝑛2
Ahora
𝜃 𝑛𝜃(1 + 2𝜃)
𝑉(𝜃̂𝑚 ) = 𝑉(𝑋̅) = , 𝑉(𝜃̂𝑣 ) = 𝑉(𝑆𝑛2 ) =
𝑛 (𝑛 − 1)2
La eficiencia relativa es
𝑉(𝜃̂𝑚 ) (𝑛 + 1)2
= 2 <1
𝑉(𝑋̅) 𝑛 (1 + 2𝜃)
Por lo que es preferible estimar  usando la media que usando la varianza muestral.
5.6.2. Estimación de la desviación típica 

Si la distribución de X es una N(, ) y queremos estimar = tenemos que


2
(𝑛 − 1)𝑆𝑛−1
~2 (𝑛 − 1)
𝜎2

En particular
2
(𝑛 − 1)𝑆𝑛−1 𝑛−1
𝑌= 2
~( , 1)
2𝜎 2

Consideremos la ley de Sn-1. La densidad de Y es


𝑛−3
𝑒 −𝑦 𝑦 2
𝑓𝑌 (𝑦) = , 𝑦+
𝑛−1
( 2 )

2𝑌
Haciendo el cambio de variable 𝑆𝑛−1 = 𝜎√𝑛−1

𝑛−1
𝑛−1 2
𝑛−1 2 − 𝑠
2𝜎2 𝑠 𝑛−2
( 2 ) 𝑒
𝑓𝑆𝑛−1 (𝑠) = 2𝜎 , 𝑠+
𝑛−1
( 2 )

Se sabe que para la ley gamma

85
𝑛−1
( 2 + 𝑘)
𝑘)
∀𝑘 > 0, 𝐸(𝑌 =
𝑛−1
( 2 )

Considerando
𝑛−1
2𝑘
(𝑛 − 1)𝑘 𝑆𝑛−1  ( 2 + 𝑘)
𝐸( )=
2𝑘 𝜎 2𝑘 𝑛−1
( 2 )
Si k=1/2
𝑛
√𝑛 − 1 𝑆𝑛−1  (2)
𝐸( )=
𝑛−1
√2 𝜎 ( 2 )

De ahí que
√2 𝜎 (𝑛)
𝐸(𝑆𝑛−1 ) = 2
𝑛−1
√𝑛 − 1 ( 2 )

Entonces es un estimador sesgado con sesgo

√2  (𝑛)
𝐵(𝑆𝑛−1 ) = ( 2 − 1) 𝜎
𝑛−1
√𝑛 − 1 ( 2 )

Estos resultados nos permiten establecer la proposición siguiente:

Proposición 5.11. Si X se distribuye N (,2) un estimador insesgado de  es


−1
√2  (𝑛)
𝑇 = 𝑆𝑛−1 ( 2 )
𝑛−1
√𝑛 − 1 ( 2 )
y
−2
√2  (𝑛)
𝑉(𝑇) = 𝜎 2 [( 2 ) − 1]
𝑛−1
√𝑛 − 1 ( 2 )
Demostración

Usando los resultados anteriores y como


𝑛
22 (2)
2
𝑉(𝑆𝑛−1 ) = 𝜎 (1 − )
𝑛−1
(𝑛 − 1) 2 ( 2 )
Se prueba la proposición.

Se sabe que
 S2n-1cs2 si n.

86
 2
√𝑛(𝑆𝑛−1 − 𝜎 2 ) →𝐿𝑒𝑦 𝑁(0, √𝜇4 − 𝜇2 2 ) y en el caso normal 4=34 y 22=4

Entonces, como la aplicación √𝑢 es continua tenemos las siguientes propiedades

Propiedades
i) 𝑆𝑛−1 →𝑐𝑠 𝜎
2
ii) √𝑛(𝑆𝑛−1 − 𝜎 ) →𝐿𝑒𝑦 𝑁(0, 𝐼()), 𝐼() = 𝜎2
√2 (𝑛)
2
iii) 𝐵(𝑆𝑛−1 ) = ( 𝑛−1 − 1) 𝜎 →𝑛→∞ 0
√𝑛−1( 2 )
−1
√2 (𝑛)
2
iv) 𝑇 = 𝑆𝑛−1 ( 𝑛−1 ) →𝑛→∞ 𝜎
√𝑛−1( 2 )

Si aplicamos el método de MV se tiene 𝜎̂𝑀𝑉 = 𝑆𝑛 el que tiene por esperanza y varianza


a
𝑛 𝑛
2  (2) 𝑛−1 22 (2)
𝐸(𝜎̂𝑀𝑉 ) = √ 𝜎, 𝑉(𝜎̂𝑀𝑉 ) = ( − ) 𝜎2
𝑛  (𝑛 − 1) 𝑛 𝑛 −
𝑛2 ( 2 )
1
2
Este estimador es idéntico al obtenido por el método de los momentos
En el caso no normal vale aplicar el método de los momentos. Como se apuntó 𝜎̂𝑀𝑉 =
𝜎̂𝑛 en el caso normal. Usando este método tenemos que el estimador sigue siendo 𝜎̂𝑀 =
𝑛
𝑆𝑛 . Puede utilizarse la transformación 𝜎̂𝑛−1 = √𝑛−1 𝜎̂𝑛 = 𝑆𝑛−1. En ambos casos se
tienen las propiedades siguientes
Propiedades
i) Convergen a 
ii) Son asintóticamente normales con varianza 2/2

Ejemplo 5.15. Si X se distribuye 2(K) entonces como 4=12K(K+4)


√𝑛(𝜎̂𝑛−1 − 𝜎) →𝐿𝑒𝑦 𝑁(0, √𝐾 + 6)
5.7. MÉTODO BAYESIANO

5.7.1 El Principio de la estimación Bayesiana

Consideremos que  y que la medida de probabilidad que describe la aleatoriedad


de X, P. Esta es generada como la ley marginal de () la que describe el
comportamiento de . El estudio del problema de la estimación de  es llevado a
cabo a través de considerar las densidades asociadas a estas medidas: f () y f (x|).
Dado el marco que utilizamos podemos escribir
f ( x, )  f ( x |  ) f ( )  f ( | x) f ( x)

f ( x)   f ( x |  ) f ( )d

Donde f (|x) es llamada ley posteriori de  al observar la realización x de X y f(x) es la


ley marginal de X.

87
Como deseamos hacer una decisión sobre el valor de  el problema de estimación
puntual Bayesiana no es sino el de buscar una regla Bayesiana, que como vimos
consiste en, fijar una función de pérdida L ( ˆ, ) dada la distribución a priori (). Es
decir, debemos minimizar al esperanza a posteriori, o sea resolver el problema de
optimización

Minˆ  L(ˆ, ) f ( | x)d



Es simple determinar que

ArgMinˆ  L(ˆ, ) f ( | x)d    f ( | x)d


 

si L(ˆ, )  (ˆ   ) 2

De ahí que se tenga la validez del siguiente resultado

Proposición5.12. Si  y la distribución a priori del parámetro es (), cuya


densidad es f (), el estimador de Bayes es la esperanza de  calculada usando a ley
condicional a posteriori de (|X=x), f (|x)

Ejemplo 5.16. Si X es una variable con distribución binomial, B(n,), y


 p  q  p 1
 ( )  f ( )   (1   ) q 1
 p q 
f x |   f  
f  | x  
f x 
Es decir si asumimos que la densidad a priori es una Beta con p y q conocidos

 p  q  p 1
1
f ( x)   f x |   f  d  C xn x (1   ) n x  (1   ) q 1 d 
 0
 p q 
 p  q   p  q  p  x n  q  x 
1
 C xn 
 p q  0
 x p 1 (1   ) nq  x1 d  C xn
 p q n  p  q 

Busquemos a la ley a posteriori, esta es

f ( x |  ) f ( )  p  q n  q  x 
f ( | x)    x  p 1 (1   ) n q  x 1
f ( x) n  p  q 
Xp
Entonces f ( | x)    p  x, n  p  x   ˆ 
n pq

Este es bien diferente del EMV e insesgado *=X/n.

Ante el desconocimiento de () debemos recurrir a la información suministrada por la


distribución empírica. Esto lleva a los métodos de estimación Bayesianos-empíricos.
Consideremos que la densidad a priori es f (,),  desconocido. Regresando a la
expresión básica
88
f  ( x, )   f ( x |  ) f ( ,  )d

y
f x |   f  ,  
f  | x   cs(M)
f  x 
El estimador de Bayes es, para la función de pérdida cuadrática,

ˆB  ArgMinˆ    f ( | x,  )d



Esta depende de las observaciones X y de. Este parámetro se estimará usando algún
otro método usando el modelo marginal y f(x) y se obtiene *(X). Entonces, usando la
regla de la substitución (plug-in-rule) el estimador Bayesiano empírico es

ˆBE  ArgMinˆ    f ( | x,  * ( X ))d



Ejemplo5.17. Si X se distribuye Poisson P() y  es una variable con distribución
exponencial (1,), + la marginal de X es

x
f  ( x)   f x |   f  d  exp( ) exp( )d 
 0
x!

 x
 exp (1   ) 1    d ((1   ) )d
x

0 1   
x 1
x!

La a posteriori es calculada y se obtiene


f ( x |  ) f ( ,  ) 1 x
f ( | x,  )    (1   ) x1 exp (1   ) 
f  ( x) x!
De ahí que f(|x, ) es la densidad de una variable con distribución exponencial (x+1,
+1), +. Calculemos la regla de Bayes. Esta es

X 1
 (1   ) x1 exp (1   ) d 
1 x1
ˆB ( X ,  )  

x!  1
El EMV de  es =X-1 por lo que
X 1
ˆBE  ArgMinˆ    f ( | x,  * ( X ))d  X
1
 1
X

Este es un método muy usado en la práctica.

Otra forma de enfrentar este problema es a través del uso de la simulación.

5.7.2. Estructura de los estimadores Bayesianos

Podemos establecer, usando el principio de Bayes, que no solo es esencial poseer un


modelo estadístico {,A,P; } sino que también requerimos del espacio medible

89
{,V,()}. Las densidades respectivas las designamos por f(x;), respecto a la medida
sigma finita M, y f(, respecto a la medida sigma finita M*). En general k, k1.

Tomando D como el conjunto de las posible decisiones (estimadores )tal que todo dD,
d:, es una función A-medible sobre . Fijamos una función de pérdida L(,d)
definida sobre D como L(,d)=()Wd(x)-. La función de riesgo de la regla
(estimador ) d es

R (, d)=()W d(x)-f(x;) M (dx).

Este riesgo es considerado una función sobre  para cada estimador d. El riesgo a
priori de d respecto a () es

R (, d)= (d) R (, d).

Como L (, d)=() Wd(x)-. Es acotada en  para cada también lo está R (, d)
para cada d. Dado que W ()0 podemos fijar que R (, d) puede expresarse como

𝑅(𝜋, 𝑑) = ∫ ()(𝑑) ∫ 𝑊(|𝑑(𝑥) − 𝜃|) 𝑓(𝑥; 𝜃)𝑀(𝑑𝑥)


 

= ∫ 𝑓𝜋 (𝑥)𝑀(𝑑𝑥) ∫ ()𝑊(|𝑑(𝑥) − 𝜃|)(𝑑𝑥)


 
Definición 5.9. El riesgo a posteriori de d dada la distribución a priori () dado que
X=x es 𝑅(, 𝑑) = ∫ ()𝑊(|𝑑(𝑥) − 𝜃|)(𝑑𝑥).

El principio Bayesiano considera que una vez que tenemos la realización de la variable
aleatoria X=x solo es relevante analizar el riesgo a posteriori.

Definición 5.10. El estimador Bayesiano de  respecto a la distribución a priori () es


la reglas dD que minimiza el riesgo a posteriori al observar X=x.

O sea que

𝜃𝜋 = 𝐴𝑟𝑔𝑖𝑛𝑓𝑑∈𝐷 ∫ ()𝑊(|𝑑(𝑥) − 𝜃|)(𝑑𝑥)



Proposición 5.13. El estimador de Bayes también minimiza el riesgo a priori.

Demostración

Usando el Lema de Fatou tenemos la relación siguiente


𝑖𝑛𝑓𝑑∈𝐷 ∫ 𝑓𝜋 (𝑥)𝑀(𝑑𝑥) ∫ ()𝑊(|𝑑(𝑥) −
𝜃|)(𝑑𝑥)  ∫ 𝑓𝜋 (𝑥)𝑀(𝑑𝑥) 𝑖𝑛𝑓𝑑∈𝐷 ∫ ()𝑊(|𝑑(𝑥) − 𝜃|)(𝑑𝑥) =
∫ 𝑓𝜋 (𝑥)𝑀(𝑑𝑥) ∫ ()𝑊(|𝜃𝜋 − 𝜃|)(𝑑𝑥) = 𝑅(𝜋, 𝜃𝜋 ) ≥ 𝑖𝑛𝑓𝑑∈𝐷 𝑅(𝜋, 𝑑)

90
El problema práctico más importante es determinar la distribución a priori para los
modelos que aparecen más frecuentemente en la práctica. Este plantea la selección de
las llamadas distribuciones apriori conjugadas.

Ejemplo5.18. Sea la muestra {X1,…, Xn} iid de acuerdo a una N (,1),


0 𝑠𝑖 |𝑑 − 𝜇| > ∆
𝐿(𝜃, 𝑑) = 𝑊(|𝑑 − 𝜇|) = {
1 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜

Consideremos el estadístico suficiente y completo Tn=ni=1Xi y que la densidad a priori


f ()= (2)-1/2exp {-2/2}. Entonces la distribución a posteriori de  es
𝑇𝑛 1
𝑁( 1 , 1 ). Entonces
𝑛+ 𝑛+
𝜏 𝜏

𝑅(, 𝑑(𝑇𝑛 )) = ∫ 𝑊(|𝑑(𝑥) − 𝜇|)𝑓(𝜇)𝑑𝜇 = ∫ 𝑓(𝜇)𝑑𝜇


 
= 1 − 𝑃(𝜇 ∈ ]𝑑(𝑇𝑛 − ∆, 𝑑(𝑇𝑛 + ∆[)
𝑇𝑛 𝑇𝑛
𝑑(𝑇𝑛 + ∆ − 1 𝑑(𝑇𝑛 − ∆ − 1
𝑛+ 𝑛+
= 1−  𝜏 − 𝜏
1 1
√ 1 √ 1
𝑛+ 𝑛+
[ ( 𝜏 ) ( 𝜏 )]
De ahí que el estimador Bayesiano es aquel que maximiza el término entre corchetes.
Diferenciando obtenemos las densidades respectivas y el máximo T0 debe satisfacer la
ecuación 𝜑(𝑇0 + ∆ − 𝜀) = 𝜑(𝑇0 − ∆ − 𝜀). De la condición de simetría de la densidad
de una normal se tiene que T0= es la única raíz. Como la segunda derivada del sistema
𝑑(𝑇𝑛) 𝑇𝑛
en T0 es -2() este es un punto de máximo. Denotando 𝑇 = 1
,𝜀 = 1 el
√𝑛+ 𝑛+
𝜏 𝜏
𝑇𝑛
estimador Bayesiano es 𝜇̂ 𝜏 (𝑇𝑛 ) = 1 y es único. 
𝑛+
𝜏
Nota5.10. lim 𝜇̂ 𝜏 (𝑇𝑛 ) = 𝑋̅.
𝑛→∞

Se puede probar que se puede mejorar las decisiones Bayesianas tomando en cuenta
una clase más amplia de estimadores que contenga reglas aleatorizadas. Los
estimadores aleatorizados son la distribuciones condicionales definidas sobre el espacio
paramétrico . El estadístico condiciona al resultado X=x y genera aleatoriamente un
valor del parámetro  usando la distribución condicional (X=x). en este contexto un
estimador no aleatorizado no es más que aquel en que el punto 𝜃̂(𝑋) tiene probabilidad
uno. Esto es lo que soporta el uso de métodos intensivos de computación en la practica
de la aplicaciones en el contexto del principio bayesiano. En todo caso si la función de
perdida es convexa, y se tiene pleno conocimiento del problema es preferible usar el
estimador no aleatorizado pues partiendo de la función de riesgo

𝑅(𝜃, 𝜋) = ∫ 𝑓(𝑥; )𝑀(𝑑𝑥) ∫ (𝑑𝜃̂𝑥)𝐿(𝜃, 𝜃̂ )


 

Dada la convexidad de la pérdida

91
∫ (𝑑𝜃̂𝑥)𝐿(𝜃, 𝜃̂) 𝑐𝑠(𝑀) 𝐿(, 𝐸𝜋 (𝜃̂𝑋)

Sea el estimador no aleatorizado 𝜃̂𝜋 =𝑐𝑠(𝑀) 𝐸𝜋 (𝜃̂𝑋) sustituyendo tenemos que

𝑅(𝜃, 𝜋) ∫ 𝑓(𝑥; )𝑀(𝑑𝑥)𝐿(𝜃, 𝜃̂𝜋 ) = 𝑅(𝜃, 𝜃̂𝜋 )



Esto soporta el siguiente resultado

Proposición 5.14. Si el estimador Bayesiano existe y la pérdida es convexa este pude


ser hallado en la clase de los estimadores no aleatorizados.

5.8. GRANDES CLASES DE ESTIMADORES

5.8.1 La Clase de los L-Estimadores

Los L-estimadores se basan en los estadísticos de orden. Al tomar la muestra esta se


ordena: (X1,…,Xn) (X(1),…,X(n)), X(1)…X(n). El prefijo “L” es fijado por el sentido
de que estos son estimadores lineales

Definición5.11. T es un L-estimador si su forma funcional es

𝑇 = ∑ 𝑎𝑛,𝑖 ℎ(𝑥(𝑖) ), 𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑖𝑖𝑑 𝑑𝑒 𝑡𝑎𝑚𝑎ñ𝑜 𝑛


𝑖∈𝑠
Donde h: es una aplicación medible.

Los coeficientes an,i son denominados scores y son generados por un medida positiva M
sobre I=0,1. Si le particionamos en

𝑖−1 𝑖
𝐼(𝑖) = [ , ] , 𝑖 = 1, … , 𝑛
𝑛 𝑛

Tenemos que si m es una densidad de probabilidad generada por M

𝑎𝑛,𝑖 = ∫ 𝑚(𝑠)𝑑𝑠 = 𝑀(𝐼(𝑖))


𝐼(𝑖)

Son L-estimadores
1
 𝑇 = 𝑋̅, 𝑎𝑛,𝑖 = 𝑛 , 𝑖 = 1, … , 𝑛, la media aritmética
𝑋 1 𝑛
 𝑇(𝑟) = ∑𝑖∈{𝑟+1,…,𝑛−𝑟} 𝑛−2𝑟𝑖
, 𝑎𝑛,𝑖 = 𝑛−2𝑟 , 𝑟 = 1, … , ⌊2 ⌋ la media r-truncada
𝑋(𝑖) +𝑀(𝑗) 0 𝑠𝑖 𝑡 ≠ 𝑖, 𝑗
 𝑇 = 𝑀(𝑖, 𝑗) = 𝑎𝑛,𝑡 = { 1 , estimador de Hodges-Lehmann
2
2
𝑝𝑎𝑟𝑎 𝑡 = 𝑖, 𝑗

5.8.2. La Clase de los M-Estimadores

La clase de los M-estimadores se conforma por aquellos basados en la solución de un


problema de optimización. De ahí su denominación de M pues plantean un problema de
minimización o de maximización. Su definición formal es la que sigue:

92
Definición5.12. T es un M-estimador del parámetro  si para la función objetivo (a)
está definido como

𝑇 = 𝑎𝑟𝑔𝑚𝑖𝑛 ∑𝑖∈𝑠 𝜌(𝑥𝑖 , 𝜃), 𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑖𝑖𝑑 𝑑𝑒 𝑡𝑎𝑚𝑎ñ𝑜 𝑛

A esta pertenecen

Los EMV si (x,)=-log f(x;), donde f es la función de densidad de X.


 Chi-cuadrados al minimizar la distancia D().

Mínimos cuadrados en la que se minimiza la norma L2: (x,)=(x-)2

Mínima distancia absoluta en la que se minimiza la norma L1: (x,)=x-

5.8.3 La clase de los R-estimadores

Su nombre proviene del uso de los rangos. Si Xi ocupa el lugar Ri en la muestra


ordenada. O sea si 𝑋𝑖 = 𝑋(𝑅𝑖 ) podemos usar los rangos como substitutos de los valores
de X. Los estadísticos que se basan en ellos son denominados estadísticos de rango.

Definición 5.13. T es un R-estimador del parámetro  si su forma funcional es


𝑇 = ∑𝑖∈𝑠 𝑐𝑛,𝑖 𝑎𝑛 (𝑅𝑖 ), 𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎 𝑖𝑖𝑑 𝑑𝑒 𝑡𝑎𝑚𝑎ñ𝑜 𝑛.

Los scores an(Ri) son generados por una función genérica 𝐽: ]0,1[ → .

Es frecuente usar
𝑖−0,5
 𝑎𝑛 (𝑅𝑖 ) = 𝐽 ([ 𝑛
])
𝑖
 𝑎𝑛 (𝑅𝑖 ) = 𝐽 ([𝑛+1])
 𝑎𝑛 (𝑅𝑖 ) = 𝑛 ∫[𝑖−1, 𝑖 [ 𝐽(𝑡)𝑑𝑡
𝑛 𝑛

Estos caracterizan la mayor parte de los estadísticos usados en la estadística no


paramétrica como los del tipo Wilcoxon.

Ejercicios
8. En una urna tenemos N bolas numeradas pero N no se conoce. Un decisor desea
saber cuantas bolas hay. Selecciona una bola anota su número (uno entre 1 y N) y la reemplaza
y repite el experimento n veces. basándose en los números observados X1,..,Xn. halle el
estimador
a) De momentos
b) El EMV.

9. Si X se distribuye B(p) y p {1/2, 1} pruebe que el EMV de p es


1 𝑠𝑖 𝑋̅ = 𝑛
𝑝𝑛 = {1 ̅
𝑠𝑖 𝑋 < 𝑛
2
Analice su significado y pruebe que en este caso particular es mejor que 𝑋̅.
10. Considerando pn definido en el ejercicio anterior pruebe que

93
1 𝑠𝑖 𝑝 = 1
1 1 𝑛+1 1
𝐸(𝑝𝑛 ) = { + ( ) 𝑠𝑖 𝑝 =
2 2 2

11. Pruebe que


0 𝑠𝑖 𝑝 = 1
𝑛+2
1 1
𝐸(𝑝𝑛 − 𝑝)2 = {( ) 𝑠𝑖 𝑝 =
2 2

Calcule su sesgo y diga si este es asintóticamente insesgado y consistente.


12. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Gamma (, ) siendo  el
𝑋̅
parámetro de forma conocido pero el de escala >0 no. Derive que 𝛽𝑀𝑉 = 𝛼
13. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Beta (, b) siendo  >0 y
𝑛
b=1. Derive que 𝛼𝑀𝑉 = − ∑𝑛
𝑖=1 ln 𝑋𝑖
14. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Pareto Par () siendo el
𝑛
parámetro de forma >0 .Derive que 𝛼𝑀𝑉 = ∑𝑛
𝑖=1 ln 𝑋𝑖
𝐼[𝑐−𝑑𝑐+𝑑] (𝑥)
15. Si X1,..,Xn son va i.i.d. U[c − d, c + d] con densidad 𝑓(𝑥|𝑐, 𝑑) = 2𝑑
halle el estimador de (𝑐, 𝑑)(0, )
a) De momentos
b) El EMV.
16. En una cafetería hay dos entradas. Se estudia el número de arribos cada 10 minutos.
Se cree que el parámetro de esta es 1=5 para la primera y 2=1 para la segunda.
a) Número de clientes que entran a la cafetería en 10 minutos.
b) Si no se conocen los parámetros tomamos muestras en 7 días consecutivos y se
obtienen los resultados 2, 4, 6, 5, 8, 6, 4.
c) Bajo la hipótesis de independencia plantee un modelo con esos datos
d) Estime la esperanza usando el EMV del parámetro.
e) Estime la varianza el EMV y el de momentos. Compárelos.
17. Las reclamaciones por choques de autos a una compañía de seguros es una
distribución de Pareto.
𝑎𝑏 𝑎 𝑎𝑏
(𝑓(𝑥|𝑎, 𝑏)) = { 𝑥 𝑎+1 𝑥 ≥ 𝑏 , 𝑎 > 1, 𝑏 > 0, 𝐸(𝑋) = ,
𝑎−1
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜

𝑎𝑏 2
𝑠𝑖 𝑎 > 2 ∃𝑉(𝑋) =
(𝑎 − 2)(𝑎 − 1)2
Los resultados que se poseen son los siguientes en cientos de la unidades monetaria:
15, 11, 16, 71, 10, 27, 32, 10, 31, 11, 12, 18, 16, 10, 10, 14
Use los datos y si
a) b= 10 .
(i) Determine el EMV de a y calcule su estimado..
(ii) Derive el EMV `para E(X).
(ii)i Derive el estimador de momentos para E(X).
b) Si a = 2,1
(i) Pruebe que el EMV de b es T = min(X1,…,Xn) y de el estimado
(ii) Use el método de los momentos para construir un estimador
de b y calcule el estimado.
(iii) Compare los dos estimados.
18. Sea una variable aleatoria con momento de segundo orden

94
𝜋
∫−𝜋 𝑡 2 (1 + cos(𝑡))𝑑𝑡
𝜇2 =
2𝜋
∑𝑛 2
𝑖=1 𝑋𝑖 𝜋2
Pruebe que 𝛼̂ = 0,5 ( 𝑛
− 3
)
19. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Uniforme U(0,) siendo 
>0 Derive que 𝛼𝑀 = 2𝑋̅.
20. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Gamma (, ),
𝑋̅
pruebe usando del método de momentos que los estimadores 𝛼̂ = 2 , 𝛽̂ = 𝛼̂ −1 𝑆𝑛
21. Si tenemos la muestra 1,25 3,45 1,03, 1,29 3,21 4,01 3,29 1,12 y las
distribución es la dada en el ejercicio anterior estime sus parámetros.
22. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Beta (,1) pruebe
usando el método de los momentos que estima  el estimador M= M1 / (1 – M1 ).
23. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Pareto Par(),  >
1 diga si le estima U = M1/ (M1 - 1).
24. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Uniforme U(0,) siendo 
>0 Derive que 𝛼𝑀 = 2𝑋̅.
25. Si (X1, X2, ..., Xn) es una muestra aleatoria de la distribución Gamma (, ), pruebe
𝑋̅
usando del método de momentos que los estimadores de estos son 𝛼̂ = 2 , 𝛽̂ = 𝛼̂ −1
𝑆𝑛
26. Sea X1, . . . ,Xn una muestral aleatoria iid con función de densidad
𝑓(𝑥|𝜃) = 𝑒 −(𝑥−𝜃) , 𝑥>0
(a) Pruebe que X(1)=Min (X1, . . . ,Xn) es EMV de .
(b) Pruebe que este estimador es sesgado y consistente (halle su densidad y compruebe
que su esperanza es +1/n).
(c) Halle es estimador de momentos y compare los dos estimadores.
|𝑥−𝑎|
𝑒𝑥𝑝(− )
27. Sea la distribución doble exponencial (𝑓(𝑥|𝑎, 𝑏)) = 2𝑏
𝑏
, 𝑥, 𝑎, 𝑏 >
0, 𝐸(𝑋) = 𝑎 = 1, 𝑉(𝑋) = 𝑏 2

a) De momentos
b) El EMV.(considere la muestra ordenada y considere los casos n par e impar por
separado.).
20 Sea X1, . . . ,Xn una muestra aleatoria iid con función de densidad
𝜃 3 𝑥 2 𝑒 −𝜃𝑥
𝑓(𝑥|𝜃) = , 𝑥>0
2
(a)Halle un EMV para  y halle su esperanza.
1
(b) pruebe que es insesgado 𝜃̂ = 2 ∑𝑛𝑖=1 𝑛𝑋 .
𝑖
(c) Halle 𝑉(𝜃̂).
21. Sea X1, . . . ,Xn una muestral aleatoria iid con función de densidad Poisson, E(Xi)=mi,
>0, mi conocidas, i=1,…,n. y *= log .Halle su media y varianza.
Y el EMV de *.

22. Si X1, ..., Xn es una sucesión de variables Bernoulli con el mismo parámetro 0<p<1 y Y=
X1 + ··· + Xn pruebe que es un estimador insesgado de mínima varianza para 𝜎 2 = 𝑝(1 −
𝑌 𝑌2
𝑝) 𝑒𝑠 𝜎̂ 2 = − .
𝑛 𝑛(𝑛−1)

95
23. Si X1, ..., Xn es una sucesión de variables Poisson y Y= X1 + ··· + Xn pruebe que es un
𝑛 −𝑌
estimador insesgado de mínima varianza para 𝑃(𝑋 = 0) 𝑒𝑠 (𝑛−1)
24. Si X=A+BZ+e, E(e )=0, V(e )=Q y A, B son parámetros desconocidos halle estimadores
de A y B usando el método de los mínimos cuadrados. Derive si este es insesgado.

EJERCICIOS AVANZADOS

5. . Sea 𝑋𝑖 , … , 𝑋𝑛 , 𝑋𝑖 ~𝑈(0, 𝜃), pruebe que 𝑇 = 𝑀𝑎𝑥(𝑋𝑖 , … , 𝑋𝑛 ) es el EMV de .


6. Considere que trabajamos con una familia absolutamente continua de
distribuciones tales que E(Y(x))=+x, , 0, V(Y(x))=2< para cada xD.
Se observa {(Xi,Yi ), i=1,…,n}. Halle los estimadores insesgado óptimos de ,  y 2.
7. Sea una variable con distribución de la familia de Pareto 𝑓(𝑥; 𝛼, 𝜎) =
𝜎 𝛼 𝜎+1
{𝛼 ( 𝑥 ) 𝑠𝑖 𝑥[𝛼, ∞[, 𝜎+ ,  +
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Halle el estimador insesgado optimo de  si X1,…,Xn es una sucesión de variables
aleatorias iid con  conocida .
8. Sean X1,…,Xn variables aleatorias iid con una densidad del tipo +(1,1) descrita
−(𝑥−𝛼)
como 𝑓(𝑥; 𝛼) = {𝑒 𝑠𝑖 𝑥 ≥ 𝛼 ,  
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Derive el estimador insesgado óptimo de la función de distribución.
9. Sea X1,…,Xn una sucesión de variables aleatorias iid con densidad Pareto
𝜎 𝛼 𝜎+1
𝑓(𝑥; 𝛼, 𝜎) = {𝛼 (𝑥 ) 𝑠𝑖 𝑥[𝛼, ∞[, 𝜎+ ,  +
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Halle el estimador insesgado óptimo de r
10. Sea X1, . . . ,Xn una muestra aleatoria iid con función de densidad
𝑒 −𝜃 𝜃 𝑥
𝑓(𝑥|𝜃) = , 𝑥 = 1,2, ..
(1 − 𝑒 −𝜃 )𝑥!
𝑋 𝑠𝑖 𝑋𝑖 ≥ 2
Tomando 𝑌𝑖 = { 𝑖
0 𝑒𝑛 𝑜𝑡𝑟𝑜 𝑐𝑎𝑠𝑜
Pruebe que 𝑌̅ es un estimador insesgado y eficiente con eficiencia con
1 − 𝑒 −𝜃
𝐸𝑓(𝑍̅) =
1 − (𝜃𝑒 −𝜃 (1 − 𝑒 −𝜃 ))−2

Bibliografía

Andersen, E. (1970): Sufficiency and Exponential Families for Discrete Sample Spaces.
Journal of the American Statistical Association, Vol. 65, 1248–1255..
Bickel, P. J. & Doksum, K.l A. (2001): Mathematical statistics, Volume 1: Basic and
selected topics Pearson Prentice–Hall.
Baburaj C. (2011): Statistical Estimation: Theory of Estimation, P LAMBERT
Academic Publishing,
Darmois, G. (1935): Sur les lois de probabilites a estimation exhaustive (in French):
C.R. Acad. Sci. Paris 200: 1265–1266
Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, Oxfor University Press,
Oxford.

96
Dominick, S. (2003): Estadística y Econometría, Mc Graw Hill, N. York.
Fieller, N. (2003): Lecture notes on Statistical Theory, Universiy of Sheffield, Sheffield
Fisher, R.A. (1922): On the mathematical foundations of theoretical statistics.
Philosophical Transactions of the Royal Society of London. Series A 222: 309–368.
Johnson, N.L., S. Kotz, & N. Balakrishnan (1994): Continuous Univariate
Distributions, Volume 1, 2nd edition, Wiley and sons, N. York.
Keener, R. W. (2006): Statistical Theory: Notes for a Course in Theoretical
Statistics.Springer, Berlin.
Kholevo, A.S. (2001), Sufficient statistic, in Hazewinkel, Michiel, Encyclopedia of
Mathematics, Springer, Berlin.
Koopman, B (1936): On distribution admitting a sufficient statistic. Transactions of the
American Mathematical Society, 39, 399–409.
Kupperman, M. (1958) Probabilities of Hypotheses and Information-Statistics in
Sampling from Exponential-Class Populations, Annals of Mathematical Statistics, 9 ,
571–575.
Lehmann, E. L. & Casella, G. (1998): Theory of Point Estimation (2nd ed.): Springer,
N. York.
Lehmann, E.L. & Scheffé, H. (1950): Completeness, similar regions, and unbiased
estimation. I.. Sankhyā: the Indian Journal of Statistics 10 , 305–340.
Mittelhammer, R.C. (1996):Mathematical Statistics for Economics and Business,
Volume 78. Springer, Berlin.
Montgomery, D.C. & G. C. Runger (2006): , Applied Statistics and Probability for
Engineers, 3rd edition, Wiley and Sons, N. York.
Nikulin, M.S. (2001), Consistent estimator, in Hazewinkel, Michiel, Encyclopedia of
Mathematics, Springer, N. York.
Nogales, A.G.; Oyola, J.A. & Perez, P. (2000): On conditional independence and the
relationship between sufficiency and invariance under the Bayesian point of view.
Statistics & Probability Letters 46 (1): 75–84.
Stigler, S. (1973): Studies in the History of Probability and Statistics. XXXII: Laplace,
Fisher and the Discovery of the Concept of Sufficiency. Biometrika 60 (3): 439–445.
Pitman, E. & Wishart, J. (1936): Sufficient statistics and intrinsic accuracy.
Mathematical Proceedings of the Cambridge Philosophical Society 32 , 567–579.
Shao, J; (2003): Mathematical Statistics. ( 2nd edition): Springer;
Stat 543 Spring (2005): Minimal Sufficient Statistics in Exponential families,
http://www.public.iastate.edu/~vardeman/stat543/Handouts/Bahadur.pdf, consultado
Septiembre 12, 2012.
Young, G. A. & Smith, R. L. (2005): Essentials of Statistical Inference. Cambridge
University Press.

97

View publication stats

You might also like