Estad3d PDF

Estadstica
Jose Manuel Corcuera.

ii J.M. Corcuera
Indice
1 Estimacion puntual 3
1.1 Modelos estadsticos . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Estadsticos y estimadores. . . . . . . . . . . . . . . . . . . . . . 5
1.3 Sesgo y error cuadratico. . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Metodos de estimacion . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1 Metodo de maxima verosimilitud . . . . . . . . . . . . . . 8
1.4.2 Metodo de los momentos . . . . . . . . . . . . . . . . . . 10
1.5 Modelos estadsticos regulares. Cota de Cramer-Rao. . . . . . . . 15
1.6 Modelos exponenciales . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7 Propiedades asintoticas de los metodos de estimacion. . . . . . . 25
1.8 Muestras de una poblacion normal . . . . . . . . . . . . . . . . . 29
2 Intervalos de confianza 35
2.1 Construccion de intervalos a partir de la verosimilitud . . . . . . 35
2.2 Construccion de intervalos a partir de funciones pivotantes. . . . 37
2.3 Problemas de dos muestras. . . . . . . . . . . . . . . . . . . . . . 39
2.3.1 Muestras independientes . . . . . . . . . . . . . . . . . . . 39
2.3.2 Muestras relacionadas . . . . . . . . . . . . . . . . . . . . 41
2.4 Algunos metodos para obtener pivotes . . . . . . . . . . . . . . . 41
2.4.1 Un metodo bastante general . . . . . . . . . . . . . . . . . 41
2.4.2 Familias de posicion y escala . . . . . . . . . . . . . . . . 42
2.4.3 Metodos aproximados . . . . . . . . . . . . . . . . . . . . 43
2.4.4 Un metodo especial . . . . . . . . . . . . . . . . . . . . . 45
2.4.5 Regiones de confianza, intervalos simultaneos . . . . . . . 46
3 Test de hipotesis 49
3.1 Test de hipotesis simples . . . . . . . . . . . . . . . . . . . . . . . 50
3.2 Hipotesis compuestas . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.1 Construccion de test a partir de intervalos de confianza . 58
3.2.2 Test de la razon de verosimilitudes. . . . . . . . . . . . . . 60
4 Test Ji-cuadrado 69
4.1 El modelo multinomial . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2 Test de ajuste en el modelo multinomial . . . . . . . . . . . . . . 70
iii
iv INDICE
4.2.1 Ajuste a una mutinomial concreta . . . . . . . . . . . . . 70

4.2.2 Ajuste a una familia de mutinomiales . . . . . . . . . . . 73
4.2.3 Test de independencia de dos multinomiales . . . . . . . . 75
4.3 Test Ji-cuadrado de ajuste, independencia y homogeneidad. . . . 79
4.4 Test de ajuste y homogeneidad no parametricos. . . . . . . . . . 82
4.4.1 La distribucion emprica . . . . . . . . . . . . . . . . . . . 82
4.4.2 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . 83
5 El modelo lineal 87
5.1 Estimacion de los parametros . . . . . . . . . . . . . . . . . . . . 88
5.1.1 Propiedades del estimador mnimo-cuadratico . . . . . . . 89
5.1.2 Estimacion mnimo cuadratica de 2 . . . . . . . . . . . . 90
5.2 El modelo lineal normal . . . . . . . . . . . . . . . . . . . . . . . 92
5.2.1 Estimacion maximo verosmil . . . . . . . . . . . . . . . . 93
5.2.2 Prediccion . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.2.3 Contraste de hipotesis . . . . . . . . . . . . . . . . . . . . 94
INDICE J.M. Corcuera
2 INDICE
Captulo 1
Estimacion puntual
1.1 Modelos estadsticos

En Estadstica nos encontraremos con observaciones o datos de la forma: x =
(x1 , x2 , ..., xn ) que supondremos corresponden a un cierto objeto aleatorio X =
(X1 , X2 , ..., Xn ). El proposito sera conocer algun valor relacionado con X.
Supondremos que X toma valores en un espacio medible (X ,F) y que de la ley
de X solo se sabe que es una posible dentro de un conjunto de leyes: {P , }.
Todo esto modelara un situacion de incertidumbre.
Ejemplo 1.1.1 Suponemos que queremos saber cual es la probabilidad de que

salga cara al lanzar una moneda. Podemos suponer que el fenomeno se puede
describir con variables Xi , i = 1, .., n Bernoullis independientes de parametro p.
Queremos saber p.
Definicion 1.1.1 Un modelo estadstico es una terna (X , F, {P , }).
Observacion 1.1.1 X se denomina espacio muestral. n sera el tamano mues-

tral. x = (x1 , xn , ..., xn ) se dira que es una muestra concreta de tamano n.
X = (X1 , X2 , ..., Xn ) se dira que es muestra generica y a veces hablaremos
de modelo inducido por X. Normalmente X =Rn . Si las Xi son independi-
entes e identicamente distribuidas (iid) diremos que la muestra es una muestra
aleatoria simple. se denomina espacio de parametros.
Observacion 1.1.2 Notemos que
X
(, A) (X , F).
La ley de X normalmente se denota PX para distinguirla de la ley P en (, A)

pero salvo que de lugar a confusion omitiremos este subndice, en cambio como
la ley de X depende de lo resaltaremos escribiendo P .
3
4 CAPITULO 1. ESTIMACION PUNTUAL
Ejemplo 1.1.2 (Modelo Bernoulli) Modelo inducido por n Bernoullis indepen-

dientes de parametro p:
X = {0, 1}n ,
F = P({0, 1}n )
= p
Pn Pn
Pp (x1 , xn , ..., xn ) = p i=1 xi (1 p)n i=1 xi
= (0, 1)
Definicion 1.1.2 Diremos que un modelo estadstico es parametrico si Rd

para algun d.
Observacion 1.1.3 El modelo Bernoulli es parametrico con d = 1.
Ejemplo 1.1.3 Modelo Poisson: modelo inducido por n Poissons independi-

entes de parametro .
X = (Z+ )n ,
F = P((Z+ )n )
= P n
xi
n
i=1
P (x1 , xn , ..., xn ) = e
ni=1 xi !
= (0, +)
Ejemplo 1.1.4 Modelo normal con media y varianza desconocidas: modelo

inducido por n normales independientes de parametros (, 2 ).
X = Rn ,
F = B(Rn )
= (, )
n
1 1 X
f(,) (x1 , xn , ..., xn ) = n exp{ 2 (xi )2 }
2 n 2 i=1
= (, +) (0, +)
Observacion 1.1.4 Los modelos anteriores son obviamente parametricos. Nos

centraremos en ellos. Notemos tambien que al ser las observaciones iid (X , F, {P ,
}) = (X1n , F1n , {P1
n
, })
Ejemplo 1.1.5 (Modelo no parametrico)

R Las Xi son observaciones iid con den-
sidad. En tal caso = {f : f 0, R f (x)dx = 1}.
1.2. ESTADISTICOS Y ESTIMADORES. J.M. Corcuera
1.2 Estadsticos y estimadores.

Definicion 1.2.1 Un estadstico T es una aplicacion de (X , F) en Rk , B(Rk )
T : X Rk ,
k es la dimension del estadstico.
Ejemplo 1.2.1 Media muestral:

Pn
i=1
xi
T (x1 , x2 , ..., xn ) = := x
n
Ejemplo 1.2.2 Varianza muestral:
Pn
i=1
(xi x)2
T (x1 , x2 , ..., xn ) = := s2
n
Ejemplo 1.2.3 Varianza muestral corregida:
Pn
i=1
(xi x)2
T (x1 , x2 , ..., xn ) = := s2
n1
Ejemplo 1.2.4 Si ordenamos la muestra (x1 , x2 , ..., xn ) de menor a mayor
podemos escribir la muestra ordenada (x(1) , x(2) , ..., x(n) ), tenemos as el es-
tadstico de orden i-esimo
T (x1 , x2 , ..., xn ) = x(i)
Ejemplo 1.2.5 Rango
T (x1 , x2 , ..., xn ) = x(n) x(1)
Observacion 1.2.1 En todos estos ejemplos el estadstico es de dimension 1,

que sera lo habitual.
Observacion 1.2.2 Fijada la ley de probabilidad de X, T es un variable o

vector aleatorio que por construccion tiene la misma ley que T (X):
PT (B) = PX (T 1 (B)) = P (X 1 (T 1 (B)))

= P ((T (X))1 (B)) = PT (X) (B).
Por ejemplo si las Xi son

Pniid Bernoullis de parametro p, y T es la suma de las
observaciones T (X) = i=1 Xi , de manera que T tendra una ley Binomial de
parametros n y p.
El proposito de la estimacion puntual es dar un valor razonable del verdadero

valor de o de una funcion del parametro g(), dada la muestra x.
Definicion 1.2.2 Un estimador de g() es un estadstico que se usa para esti-

mar (dar valores razonables) g().
Ejemplo 1.2.6 En modelo Bernoulli de parametro p, podemos utilizar la media

muestral para estimar el parametro p,
Pn
i=1
xi
T (x) = := p(x) p
n
sabemos que la aproximacion es buena si n es grande.
1.3 Sesgo y error cuadratico.

Definicion 1.3.1 Diremos que un estimador T (integrable) de g() R, es un
estimador insesgado si
E (T ) = g(),
Definicion 1.3.2 El sesgo de un estimador de g() R se define como la

funcion de
Sesgo (T ) = E (T ) g(),
Ejemplo 1.3.1 Consideremos el modelo Bernoulli, p es un estimador insesgado

de p:
Pn
i=1
Xi
Ep (p) = Ep (p(X)) = Ep ( )
n
1 n
P np
= Ep (Xi ) = =p
n i=1 n
Definicion 1.3.3 Denominaremos error cuadratico medio del estimador T (de
cuadrado integrable) de g() R, a la funcion de .
ECM (T ) = E (T g())2 ,
Ejemplo 1.3.2
ECMp (p) = Ep (p p)2 = V arp (p)

1 P n np(1 p)
= V arp (Xi ) =
n2 i=1 n2
p(1 p)
=
n
Proposicion 1.3.1 Sea T un estimador (con momento de segundo orden)
ECM (T ) = V ar (T ) + Sesgo2 (T ),
Definicion 1.3.4 Diremos que un estimador T (de cuadrado integrable), de

g() R, es uniformemente de mnima varianza (UMV) si minimiza el error
cuadratico medio en la clase de estimadores insesgados.
1.3. SESGO Y ERROR CUADRATICO. J.M. Corcuera
Proposicion 1.3.2 El estimador UMV es unico casi seguramente para todo

. Esto es, si T1 , T2 son estimadores UMV de g() R entonces
P {T1 6= T2 } = 0, .
Demostracion. Bastara ver que E ((T1 T2 )2 ) = 0, . En efecto, por

Chebichef
E ((T1 T2 )2 )
P {|T1 T2 | > } =0
2
y

1 X 1
6 0} = P (
P {|T1 T2 | = n=1 {|T1 T2 | > } P ({|T1 T2 | > } = 0.
n n=1
n
T1 +T2
Veamos entonces que E ((T1 T2 )2 ) = 0. Primero notemos que 2 sera un
estimador insesgado de g():

T1 + T2 E (T1 ) + E (T2 ) g() + g()
E = = .
2 2 2
Por tanto
T1 + T2
V ar (T1 ) V ar ( )
2
1
= (V ar (T1 ) + V ar (T2 ) + 2Cov(T1 , T2 ))
4
1
= (2V ar (T1 ) + 2Cov (T1 , T2 )).
4
Por la desigualdad de Cauchy-Schwarz
p p
|Cov (T1 , T2 )| V ar (T1 ) V ar (T2 ) = V ar (T1 ),
por tanto
T 1 + T2 1
V ar (T1 ) V ar ( ) (2V ar (T1 ) + 2V ar (T1 )) = V ar (T1 ).
2 4
De manera que V ar ( T1 +T
2
2
) = V ar (T1 ) y por tanto Cov (T1 , T2 ) = V ar (T1 ).
Finalmente
E ((T1 T2 )2 ) = V ar (T1 T2 )
= V ar (T1 ) + V ar (T2 ) 2Cov (T1 , T2 )
= 2V ar (T1 ) 2V ar (T1 ) = 0
Desigualdad de Cauchy-Schwarz
Sean X, Y dos variables aleatorias, no constantes, de cuadrado integrable, en-
tonces R
0 var(Y + X) = 2 var(Y ) + 2cov(X, Y ) + var(X)
implica que el discriminante de la ecuacion de segundo grado en
2 var(Y ) + 2cov(X, Y ) + var(X) = 0
es menor o igual que cero, esto es
4cov(X, Y )2 4var(Y )var(X) 0,
con lo que p p
|cov(X, Y )| var(X) var(Y ).
1.4 Metodos de estimacion

Supongamos un modelo estadstico parametrico (X , F, {P , }). El proposito
sera encontrar metodos para estimar g().
1.4.1 Metodo de maxima verosimilitud

Supongamos que el modelo tiene densidad y sea f (x) la densidad correspondi-
ente.
Definicion 1.4.1 Dada una muestra x X , se denomina funcion de verosimil-

itud a la aplicacion
L(x; ) : R
7 L(x; ) = f (x)
Ejemplo 1.4.1 Supongamos que tenemos un modelo de n observaciones iid

Exponenciales de parametro > 0.Dada x = (x1 , x2 , ...xn ) Rn+ la densidad
sera
n P
f (x) = ni=1 exi = n e i=1 xi ,
de manera que P n
L(x; ) = n e i=1 xi
, x Rn+

Uniformes en (0, ). Dada x = (x1 , x2 , ...xn ) Rn+ la densidad sera
1 1
f (x) = ni=1 1[0,] (xi ) = n 1[0,] (x(n) )

1.4. METODOS DE ESTIMACION J.M. Corcuera
de manera que
1
L(x; ) = 1[0,] (x(n) )
n
1
= 1[x ,+) ()
n (n)
Definicion 1.4.2 Se denomina estimador maximo verosmil (EMV) de a :
X Rd tal que
L(x; (x)) = sup L(x; ), x X \N

donde P (N ) = 0, .
Exponenciales de parametro > 0. Para hallar hay que hallar el maximo de
la funcion de verosimilitud
Pn
L(x; ) = n e i=1 xi
o lo que es lo mismo el maximo de la log-verosimilitud

n
X
l(x; ) := log L(x; ) = n log xi .
i=1
Como
n
l(x; ) n X
= xi = 0
i=1
el extremo es
n
(x) = Pn .
i=1 xi
Es un maximo local:
2 l(x; ) n
2 = 2 < 0.

Como la funcion es derivable y el maximo local unico tenemos un maximo global.
Uniformes en (0, ). La verosimilitud es
1
L(x; ) = 1[x ,+) ().
n (n)
Es inmediato que
(x) = x(n) .
Proposicion 1.4.1 Sea
g:
= g()
una biyeccion (medible). Entonces = g().

Demostracion. Tenemos que
L(x; ) = L(x; g 1 ()) := L(x; ).
Por definicion
L(x; ) = sup L(x; ).

Ahora bien
L(x; g()) = L(x; g 1 (g())) = L(x; )

= sup L(x; ) = sup L(x; g 1 ())

= sup L(x; ).


Exponenciales de parametro > 0. Sea = 1 , entonces
Pn
1 i=1 xi
= = = x.
n
1.4.2 Metodo de los momentos

Definicion 1.4.3 Supongamos que nuestro modelo es el inducido por n vari-
ables iid: (X1 , X2 , ..., Xn ). Sean i () = E (X1i ), esto es, los momentos de orden
i-esimo de las variables. Supongamos que quiero estimar g() R y que puedo
escribir
g() = h(1 (), 2 (), ..., k ()),
entonces el estimador por el metodo de los momentos de g(), que escribiremos
T, viene dado por
n n n
1X 1X 2 1X k
T (x) = h( xi , xi , ..., x ).
n i=1 n i=1 n i=1 i
Ejemplo 1.4.6 Sea un modelo de n observaciones iid Uniformes en (0, ).

1 () = E (X1 ) = .
2
Por tanto
= 21 (),
y el estimador de por el metodo de los momentos sera
n
1X
T (x) = 2 xi = 2x.
n i=1
Recordemos que el EMV era (x) = x(n) . En primer lugar
x 1
fX(n) (x) = n( )n1 1[0,](x) ,

entonces Z
x 1 n
E () = E (X(n) ) = xn( )n1 dx = ,
0 n+1
de manera que el estimador tiene sesgo, pero podemos corregirlo si consideramos
el estimador
n+1
= .
n
La varianza de sera
var( ) = E(2 ) 2
2
n+1 2
= E( ) 2
n
2
n+1 n 2
= 2
n n+2
2
= ,
n(n + 2)
que es mas pequena, para todo valor de , que la varianza de T,
4Var(X1 ) 2
var(T ) = =
n 3n
Observacion 1.4.1 P Es inmediato que el estimador por el metodo de los mo-
n
mentos de k () es n1 i=1 xki su llamado estimador emprico. En general
Pn (en el
contexto iid) el estimador emprico de E (f (X1 )) se define como n1 i=1 f (xi ).
Ejemplo 1.4.7 Consideremos un modelo de observaciones iid N(, 2 ) con

(, ) desconocidos.
n
1 1 X
L(x; , ) = n exp{ (xi )2 },
2 2 2 i=1
de manera que la log-verosimilitud viene dada por

n
1 X
l(x; , ) = log L(x; , ) = n log (xi )2 + Cte.
2 2 i=1
Vamos a buscar el maximo de manera iterativa. Fijado , buscamos el maximo

en :
n
1 X
l(x; , ) = 2 (xi ) = 0
i=1
implica que
n
1X
(x) = xi = x.
n i=1
Es claro que es un maximo local

n
2 l(x; , ) = <0
2
y por su unicidad y la derivabilidad de l(x, , ) resulta un maximo absoluto, de
manera que para todo
l(x; , ) l(x; x, ).
Buscamos ahora el maximo de
n
1 X
l(x; x, ) = n log (xi x)2 + Cte.
2 2 i=1
n
n 1 X
l(x; , ) = + 3 (xi x)2 = 0,
i=1
de manera que
n
1X
2 = (xi x)2 .
n i=1
Ademas
n
n 3 X
2 l(x; , )|= = (xi x)2
2 4 i=1
2n
= <0
2
con lo que se trata de un maximo local y absoluto. As tenemos
l(x; , ) l(x; x, ) l(x; x, )
con lo que T (x) = (x, ) es el estimador maximo verosmil de (, ). Notemos

que 2 , estimador maximo verosmil de 2 , tiene sesgo. Primero notemos que :
n
X n
X
(xi )2 = (xi x + x )2
i=1 i=1
n
X n
X
= (xi x)2 + 2(x ) (xi x)
i=1 i=1
+n(x )2
Xn
= (xi x)2 + n(x )2 ,
i=1
Pn
ya que i=1 (xi x) = 0. De manera que
n n
2 1X 1X
E(,) ( ) = E(Xi X)2 = E(Xi )2
n i=1 n i=1
E(X )2
n 2 2 n1 2
= = .
n n n
Podemos corregir el sesgo si tomamos como estimador de 2 .
n
n1 2 1 X
S 2 (x) = (x) = (xi x)2 .
n n 1 i=1
Notemos tambien que este resultado es general, para cualquier modelo (de ob-
servaciones iid) con varianza desconocida, el estimador 2 (varianza muestral),
tiene sesgo y S 2 (varianza muestral corregida).
Metodo de mnimos cuadrados

Definicion 1.4.4 Supongamos que las observaciones (genericas) en nuestro
modelo son de la forma
Xi = gi () + i
donde las i son variables aleatorias. Entonces el estimador por mnimos cuadra-
dos de se define como (x) tal que
X X
(xi gi ())2 = min (xi gi ())2 .

Ejemplo 1.4.8 Supongamos que las observaciones son normales de media gi (, ) =

+ ri (ri numeros conocidos y no iguales) y varianza 2 . Podemos escribir
Xi = + ri + i ,
con i normales de media cero y varianza 2 . Entonces

n
X n
X
(xi ( + ri ))2 = min (xi ( + ri ))2 = 0.
,
i=1 i=1
n
X n
X
(xi ( + ri ))2 = 2 (xi ( + ri ))
i=1 i=1
Xn
2 (xi ( + ri ))2 = 2n > 0, r
i=1
Por tanto el mnimo, fijado , se alcanza para
= x r.
Ahora podemos tratar de minimizar

n
X n
X
2
(xi ( + ri )) = (xi x (ri r))2 .
i=1 i=1
n
X n
X
(xi ( + ri ))2 = 2 (xi x (ri r))(ri r) = 0,
i=1 i=1
de manera que Pn
(x x)(ri r)
Pn i
= i=1 2
,
i=1 ((ri r)
ya que
n
X n
X
2 (xi ( + ri ))2 = 2 ((ri r)2 > 0.
i=1 i=1
1.5. MODELOS ESTADISTICOS REGULARES. COTA DE CRAMER-RAO.J.M. Corcuera
1.5 Modelos estadsticos regulares. Cota de Cramer-

Rao.
Consideraremos que es un intervalo abierto de R.
Definicion 1.5.1 Diremos que un modelo estadstico es regular si se verifican

las tres condiciones siguientes:
i) L(x; ) > 0, x X \N donde P (N ) = 0, .

R R
ii) P X
L(x; )dx = P L(x; )dx (en el caso absolutamente contnuo)
X
X L(x; )dx = X L(x; )dx (en el caso discreto), .
iii) (Informacion de Fisher) 0 < In () := E(( log L)2 ) < , (n

indica el tamano muestral).
Proposicion 1.5.1 La condicion ii) de regularidad es equivalente a
E ( log L) = 0,
R R
Demostracion. Puesto que X
L(x; )dx = 1, X
L(x; )dx = 0 y la
condicion ii) equivale a
Z Z
L(x; )
0 = L(x; )dx = L(x; )dx
L(x; )
ZX X
= log L(x; )L(x; )dx = E ( log L).

X
Corolario 1.5.1
In () = var ( log L), .
Observacion 1.5.1 A la funcion del parametro y la muestra log L(x; ) se

le suele denominar funcion score. Fijado , log L es una variable aleatoria
de esperanza cero y varianza la informacion de Fisher.
Supongamos la condicion de regularidad adicional
2
L(x; )dx = X 2 L(x; )dx (en caso absolutamente continuo) 2 X L(x; )dx =
R R P
iv) X
2 L(x; )dx (en el caso discreto), .
P
X
Proposicion 1.5.2 Si el modelo cumple i) ii) y iii), iv) es equivalente a
In () = E (2 log L)
Demostracion. La condicion iv) es equivalente a

Z
0= 2 L(x; )dx
X
y como
2
2 L(x; ) = 2 log L(x; )L(x; ) + ( log L(x; )) L(x; )
el resultado se sigue integrando ambos miembros y de que

Z
2
In () = ( log L(x; )) L(x; )dx <
X
Proposicion 1.5.3 Si el modelo corresponde a n observaciones iid y el modelo

correspondiente a una observacion es regular, el modelo correspondiente a n
observaciones es regular y
In () = nI1 ()
donde I1 () es la informacion del modelo con una observacion.
Demostracion. Ln (x1 , ..., xn ; ) = ni=1 L1 (xi ; ). Con lo que la condicion

i) de regularidad es evidente. La condicion ii) se deduce de que
n
X
log Ln (x1 , ..., xn ; ) = log L1 (xi ; ),
i=1
con lo que
n
X
log Ln (x1 , ..., xn ; ) = log L1 (xi ; ),
i=1
n
X
E ( log Ln (X)) = E ( log L1 (Xi )) = 0.
i=1
Finalmente
In () = var ( log Ln ) = var ( log Ln (X1 , ..., Xn ; ))

Xn Xn
= var ( log L1 (Xi ; )) = var ( log L1 (Xi ; ))
i=1 i=1
= nI1 ().
Ejemplo 1.5.1 Sea el modelo de n Xi iid con ley Exp(), > 0.
L1 (x; ) = exp{x}
log L1 (x; ) = log x,

1
log L1 (x; ) = x.

1
E ( log L1 ) = E (X).

Pero
Z Z
E (X) = x exp{x}dx = [x exp{x}]
0 + exp{x}dx
0 0
Z
1 1
= exp{x}dx = [ exp{x}]
0 =
0
con lo que
E ( log L1 ) = 0.
Ademas
I1 () = var ( log L1 ) = var (X)

= E (X 2 ) E (X)2
2 1 1
= 2 2 = 2.

Con lo que el modelo es regular y
n
In () = .
2
Ademas
1
2 log L1 (x; ) = .
2
y el modelo tambien cumple iv).
Definicion 1.5.2 Diremos que T es un estadstico regular si

Z Z
T (x)L(x; )dx = T (x) L(x; )dx, .
X X
Teorema 1.5.1 (Cota de Cramer-Rao). Consideremos un modelo regular y sea

T un estimador insesgado de g() y regular, esto es entonces,
g 0 ()2
var (T ) , .
In ()
Demostracion.
Z
T (x)L(x; )dx = E (T ) = g 0 ()
X
Z Z
L(x; )
T (x) L(x; )dx = T (x) L(x; )dx
X L(x; )
ZX
= T (x) log L(x; )L(x; )dx
X
= cov (T, log L).
Ya que E ( log L) = 0. Por tanto

Z Z
T (x)L(x; )dx = T (x) L(x; )dx
X X
es equivalente a escribir
g 0 () = cov (T, log L).
Si ahora aplicamos la desigualdad de Cauchy-Schwarz
g 0 ()2 var (T )var ( log L)
Definicion 1.5.3 En el contexto anterior si T es un estimador insesgado de

g() tal que
g 0 ()2
var (T ) = ,
In ()
se dice que es un estimador eficiente de g().
Proposicion 1.5.4 Si T es un estimador eficiente entonces es UMV (en la

clase de estimadores regulares).
Observacion 1.5.2 La condicion de eficiencia es equivalente a la condicion de

igualdad en la desigualdad de Cauchy-Schwarz y por tanto a la co-linealidad
entre T E (T ) y log L, P - casi seguramente. Esto es, tendremos eficiencia
si y solo si, , existe () tal que
T E (T ) = () log L, x X \N , P (N ) = 0.
Notemos que
(T E (T )) log L = ()( log L)2 ,
y por tanto
g() = E ((T E (T )) log L) =

= ()E (( log L)2 ) = ()In ().
En definitiva
g 0 ()
() = .
In ()
Ejemplo 1.5.2 Sean n Xi iid Bernoulli(p). Entonces

Px Px
L(x1 , x2 , ..., xn ; p) = p i
(1 p)n i
, p (0, 1).
El modelo es regular y
P P
xi n xi
p log L =
p 1p
P
xi n
= ,
p(1 p) (1 p)
con lo que
P
xi p(1 p)
p= p log L.
n n
Resulta as que
P
xi
T (x) =
n
es un estimador eficiente de p y
p(1 p)
(p) =
n
con lo que
n
In (p) = .
p(1 p)
Ejemplo 1.5.3 Sean n Xi iid Exp(), ya vimos que el modelo era regular,
X
L(x1 , x2 , ..., xn ; ) = n exp{ xi }
de manera que
n X
log L = xi ,

y
P
xi 1 1
= log L.
n n
Px i 1
Por tanto n es un estimador eficiente de y
1 g() 12
= =
n In () In ()
de manera que
n
In () = .
2
1.6 Modelos exponenciales

Supongamos que para todo x X se cumple la condicion de eficiencia
T (x) g() = () log L(x, ),
integrando la ecuacion anterior obtenemos que
L(x, ) = exp{a()T (x) + b() + s(x)},
con Z Z
1 g()
a() = d, b() = d
() ()
y s(x) una constante de integracion que puede depender de x.
Definicion 1.6.1 Un modelo con verosimilitud de la forma
L(x, ) = exp{a()T (x) + b() + s(x)},
se dice que es un modelo exponencial. T (x) se denomina estadstico privilegiado.
Observacion 1.6.1 Es inmediato ver que si el modelo correspondiente a una

observacion es exponencial el correspondiente a n observaciones iid tambien lo
es. En efecto
Ln (x1 , x2 , ...xn ; ) = ni=1 L1 (xi ; )

= ni=1 exp{a1 ()T1 (xi ) + b1 () + s1 (xi )}
X n n
X
= exp{a1 () T1 (xi ) + nb1 () + s1 (xi )}
i=1 i=1
= exp{a()T (x) + b() + s(x)}
con
n
X n
X
a() = a1 (), T (x) = T1 (xi ), b() = nb1 (), s(x) = s1 (xi ).
i=1 i=1
Ejemplo 1.6.1 Supongamos un modelo de n, observaciones iid Bernoulli(p).

Entonces
P n
xi
P n
L(x1 , x2 , ...xn ; p) = p i=1 (1 p)n i=1 xi
n
p X
= exp{log xi + n log(1 p)},
1p i=1
con lo que podemos escribir

n
p X
a(p) = log , T (x) = xi , b(p) = n log(1 p), s(x) = 0,
1p i=1
1.6. MODELOS EXPONENCIALES J.M. Corcuera
Ejemplo 1.6.2 Supongamos un modelo de n, observaciones iid Exp(). En-

tonces
n
X
L(x1 , x2 , ...xn ; ) = n exp{ xi }
i=1
n
X
= exp{ xi + n log }
i=1
con lo que podemos tomar

n
X
a() = , T (x) = xi , b() = n log , s(x) = 0,
i=1
Ejemplo 1.6.3 Supongamos un modelo de n, observaciones iid N(, 2 ), cono-

cida. Entonces
n
1 1 X
L(x1 , x2 , ...xn ; ) = n exp{ 2 (xi )2 }
2 n 2 i=1
n n
X n2 1 X 2
= exp{ x i x
2 i=1 2 2 2 2 i=1 i
n
n log log(2)}
2
con lo que podemos tomar
n
X n2
a() = 2
, T (x) = xi , b() = 2 ,
i=1
2
n
1 X 2 n
s(x) = 2
xi n log log(2).
2 i=1 2
Si el modelo es exponencial obviamente, se cumple la condicion i) de regular-

idad. Para que se cumplan las condiciones ii) y iii) vamos a exigir que a() sea
derivable con a0 () 6= 0. Necesitamos un resultado que nos permita intercambiar
lmites e integrales (o sumas):
Teorema 1.6.1 (convergencia dominada) Sea {fn (x)}n1 un sucesion de fun-

ciones en Rd tal que | fn (x)| g(x) n 1, donde g(x) es integrable, supong-
amos que f (x) = limn fn (x). Entonces
Z Z
lim fn (x)dx = f (x)dx.
n Rd Rd
y analogamente para sumas.
Observacion 1.6.2 El resultado sigue siendo cierto si cambiamos dx por otra

medida en Rd .
Teorema 1.6.2 Un modelo exponencial con a() derivable y a0 () 6= 0 es reg-

ular.
Demostracion. Veamos que podemos intercambiar la derivada respecto a

y la integral.
Z
exp{a()T (x) + b()} exp{s(x)}dx
X
Z
= exp{b()}a0 ()a() exp{a()T (x)} exp{s(x)}dx
X
+b0 ().
Entonces si demostramos que

Z
a() exp{a()T (x)} exp{s(x)}dx
X
Z
= a() exp{a()T (x)} exp{s(x)}dx
ZX
= T (x) exp{a()T (x)} exp{s(x)}dx, (1.1)
X
con Z
|T (x)| exp{a()T (x)} exp{s(x)}dx < . (1.2)
X
ya estara. Notese que b0 () estara tambien bien definido ya que como

R
X
L(x; )dx =
0, resultara que
Z
0 0
b () = exp{b()}a ()a() exp{a()T (x)} exp{s(x)}dx
X
y ultimo que el termino de la derecha esta bien definido ya estara.

Para ver que (1.1) y (1.2) son ciertos notemos en primer lugar que podemos
tomar, sin perdida de generalidad, s(x) 0. Sea de un entorno de , por la
desigualdad triangular
Z
|T (x)| exp{a()T (x)}dx
X
Z
exp{a()T (x)} exp{a()T (x)}

T (x) exp{a()T (x)} dx

X a() a()
Z

+ dx.
X a() a()
Veamos que

T (x) exp{a()T (x)}

a() a()
1.6. MODELOS EXPONENCIALES J.M. Corcuera
esta acotado para todo en un entorno de , suficientemente pequeno, por una

funcion integrable:

T (x) exp{a()T (x)}

a() a()

exp{(a() a())T (x)} 1
= exp{a()T (x)} T (x)

a() a()

X |a() a()|k1 |T (x)|k
exp{a()T (x)} .
k!
k=2
De manera que

T (x) exp{a()T (x)}

a() a()

X hk |T (x)|k
1
exp{a()T (x)}
h k!
k=2
1
(exp{(a() + h)T (x)} + exp{(a() h)T (x)}),
h
siempre que
|a() a()| h.
Si tomamos h suficientemente pequeno, como a0 () 6= 0, existiran 1 , 2
tales que
a() + h = a(1 )
a() h = a(2 )
y como Z
exp{b(i )} = exp{a(i )T (x)}dx, i = 1, 2,
X
resultara que h1 (exp{(a() + h)T (x)} + exp{(a() h)T (x)}) es integrable y esta
cota no depende de en el entorno de . Tenemos entonces que se cumple (1.2)
y podemos aplicar ahora convergencia dominada en
!
Z Z
lim dx T (x) exp{a()T (x)}dx

X a() a() X
Z
Z
= lim dx T (x) exp{a()T (x)}dx

X a() a() X

Z
lim T (x) exp{a()T (x)} dx

X a() a()

Z exp{a()T (x)} exp{a()T (x)}
= lim T (x) exp{a()T (x)} dx = 0.

X a() a()
De manera que
Z Z
a() exp{a()T (x)}dx = a() exp{a()T (x)}dx.
X X
Si volvieramos a derivar otra vez respecto a a() la expresion

Z
T (x) exp{a()T (x)} exp{s(x)}dx
X
deduciramos que
Z
a() T (x) exp{a()T (x)} exp{s(x)}dx
X
Z
= T (x)a() exp{a()T (x)} exp{s(x)}dx
X
Z
= T 2 (x) exp{a()T (x)} exp{s(x)}dx < (1.3)
X
De manera que
In () = var ( log L) = var (a0 ()T + b0 ())
= a0 ()2 var (T (x)) < .
Como a0 () 6= 0 y T (x) no es constante tambien se cumple que In () > 0. Con
lo que el modelo cumple las condiciones i), ii) y iii) de regularidad.
Observacion 1.6.3 Si a() es dos veces derivable entonces se puede ver, sigu-
iendo el mismo procedimiento que en la demostracion anterior, que se cumple
la condicion iv) de regularidad de manera que
In () = E (2 log L)
= E (a00 ()T b00 ())
= a00 ()E (T ) b00 ().
Como
0 = E ( log L) = a0 ()E (T ) + b0 (),
resultara finalmente que
b0 ()
In () = a00 () b00 ().
a0 ()
Observacion 1.6.4 Como
log L = a0 ()T (x) + b0 (),
tendremos que
b0 () 1
T (x) = 0 log L,
a0 () a ()
b0 ()
con lo que T sera un estimador eficiente de a0 () .
1.7. PROPIEDADES ASINTOTICAS DE LOS METODOS DE ESTIMACION.J.M. Corcuera
1.7 Propiedades asintoticas de los metodos de

estimacion.
Por simplicidad vamos a considerar modelos parametricos correspondientes a
observaciones iid y con un intervalo abierto de R. Si tenemos muestras de
tamano n tendremos una espacio muestral X y dado un metodo de estimacion
tendremos el correspondiente estimador que denotaremos Tn :
Tn : X R
(x1 , x2 , ..., xn ) Tn (x1 , x2 , ..., xn ).
El proposito sera estudiar el comportamiento de Tn cuando n . A tal

efecto estudiaremos el comportamiento de la sucesion de variables
{Tn (X1 , X2 , ..., Xn )}n1 .
Definicion 1.7.1 Diremos que Tn es un estimador (asintoticamente) fuerte-

mente consistente de g() si
c.s.
Tn (X1 , X2 , ..., Xn ) g(),
n
si la convergencia es en probabilidad se dice que es debilmente consistente.
Definicion 1.7.2 Diremos que Tn es un estimador asintoticamente insesgado

de g() si
E(Tn (X1 , X2 , ..., Xn )) g(),
n
Definicion 1.7.3 Diremos que Tn es un estimador asintoticamente normal de

2
g() y varianza asintotica n si
L
n(Tn (X1 , X2 , ..., Xn ) g()) N(0, 2 ),
n
2
a veces se denota Tn AN (g(), n )
Observacion 1.7.1 Notemos que si Tn es asintoticamente normal de g() esto

significa
2
Ley(Tn ) N(g(), )
n
y la aproximacion es tanto mas cierta cuanto mas grande es n.
2
Definicion 1.7.4 Si Tn AN (g(), n ) con
g 0 ()2
2 =
I1 ()
se dice que es un estimador asintoticamente eficiente de g().

Teorema 1.7.1 Supongamos que el modelo cumple las condiciones de regular-

idad i) ii) iii) y iv). Y que ademas v): 2 log L1 (x; ) es una funcion con-
tinua en y vi) | 2 log L1 (x; )| < h (x) para todo de un entorno de ,
R
con X h (x)L1 (x; )dx < . Entonces si n (x) es una solucion fuertemente
consistente de las ecuaciones de verosimilitud:
log Ln (x; )|=n (x) = 0, 2 log Ln (x; )|=n (x) < 0
resultara que
L 1
n(n (X1 , X2 , ..., Xn ) ) N(0, ).
n I1 ()
Demostracion.
log Ln (x; ) = 2 log Ln (x; )|=n ( n ),
donde n es un punto intermedio entre y n . De esta manera

log Ln (x; )
n(n ) = n
2 log Ln (x; )|=n
1 log Ln (x; )
n
= 1 2 . (1.4)
n log Ln (x; )|=n
Ahora bien
n
1 1 X
log Ln (X1 , X2 , ..., Xn ; ) = log L1 (Xi ; ).
n n i=1
Para todo las log L1 (Xi ; ) son variables aleatorias iid de media cero
y varianza E (( log L1 (Xi ; ))2 ) = I1 (). Entonces por el teorema central del
lmite
n
1 X L
log L1 (Xi ; ) N(0, I1 ()).
n i=1 n
Por otro lado,

n
1 1X
2 log Ln (X1 , X2 , ..., Xn ; ) = 2 log L1 (Xi ; ),
n n i=1
y las variables 2 log L1 (Xi ; ) son iid de esperanza I1 (), de manera que por
la ley fuerte de los grandes numeros
1 c.s.
2 log Ln (X1 , X2 , ..., Xn ; ) I1 ().
n n
Entonces si demostramos que

1 2 P
log Ln (X1 , X2 , ..., Xn ; ) 2 log Ln (X1 , X2 , ..., Xn ; n ) 0 (1.5)
n n
1.7. PROPIEDADES ASINTOTICAS DE LOS METODOS DE ESTIMACION.J.M. Corcuera
tendremos que
1 P
2 log Ln (X1 , X2 , ..., Xn ; n ) I1 ()
n n
y aplicando el teorema de Slutsky a (1.4) tendremos
1 log Ln (x; )
n L N(0, I1 ()) 1
n(n ) = = N(0, ). (1.6)
n1 2 log Ln (x; )|=n n I1 () I1 ()
Para probar (1.5), notemos que

1 2
log Ln (X1 , X2 , ..., Xn ; ) 2 log Ln (X1 , X2 , ..., Xn ; n )

n
n
1 X 2
log L1 (Xi ; ) 2 log L1 (Xi ; n )

n i=1
n
1X
sup 2 log L1 (Xi ; ) 2 log L1 (Xi ; 1 ) , (con probabilidad uno)

n i=1 |1 |<
ya que como n es fuertemente consistente y n esta entre y n , para todo

> 0 si n es suficientemente grande
| n | <
con probabilidad uno. Tendremos entonces que

1 2
log Ln (X1 , X2 , ..., Xn ; ) 2 log Ln (X1 , X2 , ..., Xn ; n )

lim sup
n
n
1X
sup 2 log L1 (Xi ; ) 2 log L1 (Xi ; 1 )

lim
n i=1 |1 |<
!
2 2

= E sup log L1 (Xi ; ) log L1 (Xi ; 1 ) ,

| 1 |<
donde hemos podemos aplicar la ley fuerte de los grandes numeros ya que
!
2 2

E sup log L1 (Xi ; ) log L1 (Xi ; 1 )
| 1 |<
2E (h (Xi )).
El resultado se sigue haciendo que 0, aplicando convergencia dominada y

la continuidad de las derivadas segundas de la verosimilitud.
Proposicion 1.7.1 Supongamos que nuestro modelo parametrico, correspondi-

ente a observaciones iid, y tal que es un intervalo abierto de R, es localmente
identificable, esto es la aplicacion
7 P
es inyectiva en el entorno de cualquier punto y que

Z
L1 (x; )
| log |L1 (x; )dx <
X L1 (x; )
para todo de un entorno de , . Entonces las ecuaciones de verosimilitud

tienen a partir de un cierto valor de n una solucion fuertemente consistente.
Demostracion. Consideremos la funcion

n
1X L1 (Xi ; )
n (X1 , X2 , ..., Xn ; ) = log .
n i=1 L1 (Xi ; )
Por la ley fuerte de los grandes numeros
c.s. L1 (X1 ; )
n (X1 , X2 , ..., Xn ; ) E (log )
n L1 (X1 ; )
Sea k N suficientemente grande para que L1 (X1 ; ) sea una variable diferente
de L1 (X1 ; ) si [ + k1 , k1 ]. Esto queda garantizado por la hipotesis de
identificabilidad local. Entonces por la desigualdad de Jensen como log es una
funcion estrictamente concava y L 1 (X1 ;)
L1 (X1 ;) 6= 1, resultara que
L1 (X1 ; ) L1 (X1 ; )
E (log ) < log E ( )
L1 (X1 ; ) L1 (X1 ; )
Z
L1 (x; )
= log L1 (x; )dx
L (x; )
ZX 1
= log L1 (x; )dx
X
= log 1 = 0
Fijado k, si n es suficiente grande tendremos que

1
n (X1 , X2 , ..., Xn ; + ) < 0
k
1
n (X1 , X2 , ..., Xn ; ) < 0
k
con probabilidad uno salvo en un conjunto Nk tal que P (Nk ) = 0. Por definicion
n (X1 , X2 , ..., Xn ; ) = 0. Por tanto en el intervalo [+ k1 , k1 ] habra un maximo
local, podemos tomar este valor como n , es obvio que entonces | n | < k1 .
El resultado se sigue tendiendo k a infinito.
1.8. MUESTRAS DE UNA POBLACION NORMAL J.M. Corcuera
1.8 Muestras de una poblacion normal

En esta seccion vamos a estudiar las distribuciones de determinados estadsticos
cuando los datos que observamos siguen una distribucion normal. Estos re-
sultados nos seran de gran ayuda en los calculos que hagamos en el siguiente
captulo.
Sea A una matriz cuadrada no singular n n y b Rn . Sea X un vector
aleatorio n-dimensional con densidad. Consideremos el vector Y = AX + b,
sabemos que entonces Y tiene densidad
fY (y) = fX (g 1 (y))|Jg1 (y)|
donde g(x) = Ax + b, esto es
fY (y) = fX (A1 (y b))| det A1 |
ya que
x1 xn
y1 yn

= det A1 .

Jg1 (y) =
xn xn

y1 yn

Si ahora X1 , X2 , ..., Xn son iid N (0, 1)

n
1 1X 2
fX (x) = n exp{ x }
2 2 i=1 i
1 1
= n exp{ x0 x},
2 2
donde x = (x1 , x2 , ..., xn )0 y la prima indica traspuesta, entonces
1 1
fY (y) = n exp{ (y b)0 (A1 )0 A1 (y b)}
2 | det A| 2
y si escribimos = AA0 , resultara que

1 1
fY (y) = n exp{ (y b)0 1 (y b)}.
2 | det |1/2 2
Se dice entonces que Y tiene una distribucion normal n-dimensional de media b

y matriz de varianzas-covarianzas , se escribe Y Nn (b, ). Notemos que en
efecto
E(Y ) = AE(X) + b = b
Cov(Y ) = E((Y b)(Y b)0 )
= AE(XX 0 )A0
= AA0 =
y que es definida positiva:
y 0 y = y 0 AA0 y = ||A0 y||2 > 0 para todo y 6= 0,
ya que A es no singular.
Proposicion 1.8.1 Si Y Nn (b, ), B es una matriz n n no singular y

c Rn entonces Z = BY + c Nn (Bb + c, BB 0 ).
Demostracion. Podemos suponer que Y = AX + b con A no singular,

= AA0 y X un vector de N (0, 1) independientes, entonces
Z = BAX + Bb + c
con lo que la nueva media sera Bb+c y la nueva matriz de varianzas-covarianzas

BAA0 B 0 = BB 0 .
Corolario 1.8.1 Si X es un vector n-dimensional de N (0, 1) independientes y

T es una matriz ortogonal n n, Y := T X es tambien un vector n-dimensional
de N (0, 1) independientes.
Demostracion. X Nn (0, In ) y por la proposicion anterior Y := T X

Nn (0, T T 0 ) y T T 0 = In ya que T es ortogonal.

Y(1) }m
Proposicion 1.8.2 Si Y = tiene una ley normal n-dimensional
Y(2) }n m
y Cov(Y(1) , Y(2) ) = 0, entonces Y(1) e Y(2) son independientes y con ley normal.
Demostracion. Es inmediata a partir de la factorizacion de la densidad

conjunta.
Proposicion 1.8.3 Cualquier marginal de una normal multidimensional es

normal.

Y(1) }m
Demostracion. Sea Y = , Y Nn (b, ), con =
Y(2) }n m

11 12 }m
. Hagamos el cambio
21 22 }n m

Y(1) Z(1) Im 0 Y(1)
Y = Z= = .
Y(2) Z(2) 12 1
11 Inm Y(2)
Entonces Cov(Z(1) , Z(2) ) = 0, de hecho

11 0
Cov(Z) = ,
0 22 21 1
11 12
y podemos aplicar la proposicion anterior.

Proposicion 1.8.4 Si L es una matriz m n con m < n y m filas linealmente

independientes e Y Nn (b, ) entonces LY Nm (Lb, LL0 ).
Demostracion. Basta completar L con n m filas linealmente independi-

entes y aplicar la proposicion anterior.
Corolario 1.8.2 Si X = (X1 , ..., Xn )0 es tal que las Xi son iid con ley N (, 2 )
2
entonces X N (, n ).
Demostracion. X Nn (1, 2 In ), con 1 = (1,...,

n)
1)0 . Por tanto si tomamos
L = (1/n, ..., 1/n) tendremos, por la proposicion anterior, que
X = LX N (L1, 2 LL0 ),
y
1
L1 =(1/n, ..., 1/n) ... = 1

1

1/n
1
LL0 = (1/n, ..., 1/n) ... =

n
1/n
Definicion 1.8.1 Sean Z1 , ..., Zn iid N (0, 1), entonces Z12 + .. + Zn2 sigue una
ley que se conoce como Ji-cuadrado con n-grados de libertad, se escribe Xn2 . Esto
es
Ley
Xn2 = Z12 + .. + Zn2 , Zi iid N (0, 1).
Observacion 1.8.1 Si Z1 N (0, 1)

1 1
fZ12 (u) = fZ1 ( u) 1(0,) (u) + fZ1 ( u) 1(0,) (u)
2 u 2 u
u
1 e 2 1 u
= 1(0,) (u) = u1/21 e 2 1(0,) (u),
2 u 2
esto es
Z12 Gamma(1/2, 1/2).
Es facil ver que si W1 Gamma(1 , ) y W2 Gamma(2 , ) y son indepen-
dientes entonces W1 + W2 Gamma(1 + 2 , ), de esta manera la ley Xn2 es
una ley Gamma(n/2, 1/2).
Teorema 1.8.1 (Fisher) Si X1 , ..., Xn son iid con ley N (, 2 ) entonces U :=

Pn (Xi X)2 2
i=1 2 Xn1 independiente de X.
Xi Pn
Demostracion. Tomemos Yi = , entonces U = i=1 (Yi Y )2 con Yi
iid N (0, 1). Tenemos que,
n n
!2
Y
i
X X
0
U= Yi2 2
nY = Y Y ,
i=1 i=1
n
donde Y = (Y1 , ..., Yn )0 . Sea T una matriz ortogonal n n con su primera fila
( 1n , ...,
n) 1
n
) esto es
1
1n

n
T = . . ,
. .
Pn
Sea Z = T Y, entonces Z1 = i=1 Yin y Z 0 Z = Y 0 T 0 T Y = Y 0 Y, as
n
!2
Y
i
X
U = Y 0Y
i=1
n
= Z 0 Z Z12 = Z22 + .. + Zn2 ,
y sabemos por el corolario (1.8.1) que Z es un vector de N (0, 1) independientes,

de manera que U es independiente de Z1 = n X
2
y U Xn1 .
Definicion 1.8.2 Si X N (0, 1) e Y Xn2 y X e Y son independientes

entonces la ley de
X
q
Y
n
se conoce como ley t de Student con n grados de libertad, la escribiremos tn .

Esto es
X Ley
q = tn
Y
n
Observacion 1.8.2 Se puede ver que
1 1 ( n+1
2 ) x2 n+1
ftn (x) = n (1 + ) 2 .
n ( 2 ) 2
Notemos tambien que por la ley de los grandes numeros y el teorema de Slutsky
X Ley
q N (0, 1),
Y n
n
la tn es una distribucion simetrica como la N (0, 1) pero con las colas mas pe-
sadas.
Corolario 1.8.3 (del teorema de Fisher) Si X1 , ..., Xn son iid con ley N (, 2 )
entonces
X
n tn1
S
donde
n
1 X
S 2 = (Xi X)2 .
n 1 i=1
X Pn 1 2 2
Demostracion. n N (0, 1) y i=1 2 (Xi X) Xn1 y son
independientes, entonces por la definicion de t de Student

n X

q Pn tn1
1 1
n1 i=1 2 (Xi X)2
pero

n X

X
q Pn = n
1 1
X)2 S
n1 i=1 2 (Xi
Captulo 2
Intervalos de confianza
Dado un modelo parametrico (X , F, {P , }), con Rd la idea es dar

una region de Rd en la que se pueda encontrar el verdadero valor de . Vamos a
concentrarnos en el caso d = 1 con lo que nuestras regiones seran intervalos.
2.1 Construccion de intervalos a partir de la verosimil-

itud
Sea x = (x1 , x2 , ..., xn ) una muestra de tamano n y L(x; ) la verosimilitud. En
estimacion puntual utilizamos (x) como estimacion de , sin embargo sabemos
que (x) no es exactamente sino que oscila, al cambiar la muestra, alrededor
de . Entonces una manera alternativa o complementaria de localizar sera
dar un conjunto de puntos en lugar de un punto. Podramos as decir que se
encuentra en [1 (x), 2 (x)], con cierta seguridad o verosimilitud. Notemos que
1 y 2 estiman los extremos del intervalo y por tanto este va cambiando de
muestra a muestra, podemos escribir
I(x) = [1 (x), 2 (x)].
Es evidente que nos gustara tener un intervalo de longitud 2 (x)1 (x) pequena
(mas preciso) frente a uno de longitud grande (impreciso) pero si lo tomamos
mas pequeno la seguridad de que el intervalo contenga a tambien disminuira,
por tanto debemos buscar un compromiso entre ambas cosas.
Para controlar la seguridad o verosimilitud del intervalo podemos tomar
el conjunto de valores de tales que
L(x; )
K
L(x; )
para un valor de K no muy grande. Si embargo queda por saber como fijar K.
35
36 CAPITULO 2. INTERVALOS DE CONFIANZA
Una manera podra ser tomar K tal que
L(x; )
PX {x, K}
L(x; )
con un proximo a 1.
Definicion 2.1.1 Diremos que los intervalos I(x) para R tienen (coefi-
ciente) de confianza si
PX ( I)
esto es PX {x, I(x)} .
Observacion 2.1.1 Habitualmente se suele tomar 0.95 o 0.99 (si la muestra

es muy grande).
Observacion 2.1.2 Notemos que PX ( I) = P ( I(X))
Observacion 2.1.3 Analogamente diramos que los intervalos I(x) para g()
R tienen (coeficiente) de confianza si
PX (g() I)
y podra ser multidimensional.
Ejemplo 2.1.1 Sean n observaciones iid con distribucion N (, 2 ), conocida.

n
1 1 X
L(x; ) = n exp{ (xi )2 }
2 2 2 i=1
n
1 1 X n
= n exp{ (xi x)2 } exp{ 2 (x )2 }
2 2 2 i=1 2
n
= h(x) exp{ (x )2 }
2 2
entonces, puesto que (x) = x
L(x; ) n
K exp{ 2 (x )2 } K
L(x; ) 2
o equivalentemente

|x | CK
n
donde CK es una constante que depende del valor de verosimilitud elegido, K,
pero no de o n. Finalmente obtenemos

x CK x + CK .
n n
2.2. CONSTRUCCION DE INTERVALOS A PARTIR DE FUNCIONES PIVOTANTES.J.M. Corcuera
Sin embargo, no hay una manera clara de como fijar K o CK . Podemos mirar
como se comporta el intervalo [x CK n , x + CK n ] cuando cambiamos la
muestra, en particular

P ( [X CK , X + CK ])
n n
Ahora bien

P {X CK X + CK ]}
n n

n(X )
= P CK .

2
Sabemos que X N (, n ) de manera que

n(X )
N (0, 1)

y la probabilidad anterior No depende de y as podemos encontrar CK inde-
pendiente de tal que

n(X )
P CK

para un valor de prefijado. Por ejemplo, si tomamos = 0.95, como (muy

aproximadamente)
P {|N (0, 1)| 1, 96} = 0.95
bastara tomar CK = 1, 96. Tendremos as dada una muestra x el intervalo

x 1.96 x + 1.96 ,
n n
de coeficiente de confianza 0.95.
2.2 Construccion de intervalos a partir de fun-

ciones pivotantes.
Como hemos visto en el ejemplo anterior obtener el intervalo para de coefi-
ciente ha sido posible por la circunstancia de que

n(X )
N (0, 1)

es decir la distribucion de n(X)
no depende del valor de . Esto nos lleva a
la siguiente definicion general.
Definicion 2.2.1 Sea (X , F, {PX , }), con Rd un modelo parametrico,

una funcion pivotante para g() R es una aplicacion medible
: X g() R
(x, g()) 7 (x, g())
y tal que la ley de (, g()) no depende de .
Ejemplo 2.2.1 Sea un modelo de n observaciones iid con distribucion N (, 2 )

entonces
x
(x, ) = n
s
donde
n
1 X
s2 = (xi x)2
n 1 i=1
es una funcion pivotante para . En efecto sabemos que (por el teorema de
Fisher) que
(, ) tn1 de Student.
Asimismo Pn
i=1 (xi x)2
(x, ) =
2
es una funcion pivotante ya que (tambien por el teorema de Fisher)
2
(, ) Xn1
Proposicion 2.2.1 Sea (x, g()) una funcion pivotante para g() y B B(R)
tal que
PX {(, g()) B}
entonces
I(x) = {g(), (x, g()) B}
es una region de coeficiente de confianza .
Demostracion. Tenemos que ver que
PX {x, g() I(x)} ,
pero decir que g() I(x) es lo mismo que decir que (x, g()) B, entonces
PX {x, g() I(x)} = PX {x, (x, g()) B}

= PX {(, g()) B} .
Observacion 2.2.1 Normalmente B sera un intervalo [a, b] de manera que

(x, g()) B equivaldra a a (x, g()) b, entonces si (x, ) es una
funcion estrictamente monotona creciente tendremos que esto equivale a decir
que 1 (x, )(a) g() 1 (x, )(b).
2.3. PROBLEMAS DE DOS MUESTRAS. J.M. Corcuera
Ejemplo 2.2.2 (Intervalo para , desconocida) Sea un modelo de n obser-

vaciones iid con distribucion N (, 2 ) entonces (x, ) = n x
s es un piv-
ote para con distribucion tn1 de Student entonces si tomamos el intervalo
[tn1;/2 ; tn1;/2 ] donde tn1;/2 es un valor tal que
P (tn1 > tn1;/2 ) = /2
con = 1 , y donde tn1 denota una variable con ley tn1 de Student,
resultara que
X
P(,) (tn1;/2 n tn1;/2 ) =
s
y de aqui,
x
tn1;/2 n tn1;/2
s
proporcionara un intervalo de confianza . Si aislamos tendremos que lo an-
terior equivale a
s s
x tn1;/2 x + tn1;/2
n n
P
Ejemplo 2.2.3 (Intervalo para ) Sea de nuevo un modelo de n observaciones
n
(x x)2
normales independientes N (, 2 ) entonces (x, ) = i=1 2i es una funcion
2 2
pivotante para con distribucion Xn1 entonces si tomamos los puntos Xn1;1/2
2
y Xn1;/2 (con la misma notacion de antes) tendremos que
Pn
2 i=1 (xi x)2 2
Xn1;1/2 Xn1;/2
2
proporciona un intervalo de confianza . En efecto, de aqu aislando 2 obten-

emos
n 2 2 n 2
2 2
Xn1;/2 Xn1;1/2
Pn
con 2 = 1
n i=1 (xi x)2 .
2.3 Problemas de dos muestras.

2.3.1 Muestras independientes
Supongamos un modelo correspondiente a observaciones X1 , X2 , ..., Xn1 , Y1 , Y2 , ..., Yn2
donde las X son iid con distribucion N (1 , 21 ) y las Y son iid con ley N (2 , 22 ).
Asumimos tambien que (las dos muestras) las X y las Y son independientes.
Intervalo de confianza para la diferencia de medias.

Supongamos que 1 = 2 . Entonces, como (por le teorema de Fisher y la inde-
pendencia de X e Y s)
1 1
X Y N (1 2 , 2 ( + ))
n1 n2
y Pn1 Pn2
i=1 (Xi X)2 i=1 (Yi Y )2
+ Xn21 +n2 2
2 2
y ademas son independientes, resultara que
X Y (1 2 )
q Pn1 Pn2 tn1 +n2 2 .
1 1
n1 +n2 2 ( n1 + n12 )( i=1 (Xi X)2 + i=1 (Yi Y )2 )
De aqu tendremos que

x y (1 2 )
(x, y, 1 2 ) = q Pn1 Pn2
1 1
n1 +n2 2 ( n1 + n12 )( i=1 (xi x)2 + i=1 (yi y)2 )
es una funcion pivotante para 1 2 . Y obtendremos un intervalo de confianza

para 1 2 dado por
s
n1 + n2 2 2
x y tn1 +n2 2;/2 ( 1 + 2 ) 1 2
n1 + n 2 2 n 2 n1
s
n1 + n2 2 2
x y + tn1 +n2 2;/2 ( 1 + 2 ).
n1 + n2 2 n2 n1
Si 1 6= 2 lo anterior no proporciona un pivote para 1 2 ya que no
hay manera de eliminar 21 y 22 . Hay diversas soluciones aproximadas, la mas
sencilla se basa en el hecho de que
X Y (1 2 )
q 2 N (0, 1)
1 22
n1 + n2
de manera que aproximadamente

X Y (1 2 )
q 2 N (0, 1)
1 22
n1 + n2
y tenemos el intervalo de confianza aproximadamente

s s
21 22 21 2
x y k/2 + 1 2 x y + k/2 + 2
n1 n2 n1 n2
donde P (N (0, 1) > k/2 ) = /2 y, como siempre, = 1 .

2.4. ALGUNOS METODOS PARA OBTENER PIVOTES J.M. Corcuera
Intervalo para el cociente de varianzas

Como Pn1
i=1 (Xi X)2
= Xn21 1
21
y
Pn1
i=1 (Yi Y )2
= Xn22 1
22
son independientes, si definimos la distribucion Fn1 ,n2 de Fisher (con n1 y n2
grados de libertad) como la que se obtiene al hacer el cociente
Xn21 /n1
Xn22 /n2
donde numerador y denominador son independientes, tendremos que
s21 / 21
Fn11 ,n2 1
s22 / 22
y esto nos dara el intervalo de confianza
s22 22 s22
Fn11 ,n2 1;1/2 Fn ,n 1;/2 .
s21 21 11 2
s21
2.3.2 Muestras relacionadas

Supongamos un modelo correspondiente a observaciones X1 , X2 , ..., Xn , Y1 , Y2 , ..., Yn
donde las X e Y son dependientes, pero Xi Yi son iid con distribucion
N (1 2 , 2 ) (siendo 1 la media comun de las X y 2 la media comun de
las Y ) entonces utilizando el teorema de Fisher, un intervalo de confianza de
coeficiente para 1 2 vendra dado por
s s
x y tn1;/2 1 2 x y + tn1;/2
n n
1 n
con s2 = n1 2
P
i=1 (xi yi (x y)) .
2.4 Algunos metodos para obtener pivotes

2.4.1 Un metodo bastante general
Supongamos un modelo asociado a observaciones iid X1 , X2 , ..., Xn con funcion
de distribucion F continua, R. Sabemos que entonces F (Xi ) U (0, 1)
y consecuentemente log F (Xi ) Exp(1) =Gamma(1, 1). Finalmente por la
independencia,
n
X 2n
log F (Xi ) Gamma(n, 1) = Gamma( , 1)
i=1
2
y como 2Gamma( 2n 2n 1 2
2 , 1) =Gamma( 2 , 2 ) = X2n , resultara que
n
X
2
2 log F (Xi ) X2n
i=1
y por tanto
n
X
(x, ) = 2 log F (xi )
i=1
sera una funcion pivotante para con una distribucion que esta tabulada.
2.4.2 Familias de posicion y escala

Supongamos un modelo asociado a observaciones iid X1 , X2 , ..., Xn con densi-
dad de la forma
f (x; ) = f0 (x )
se dice que en tal caso es una familia de posicion generada por f0 . En tal caso
Yi = Xi tiene densidad f0 (y) y por tanto
(x; ) = g(x1 , x2 , ..., xn )
es una funcion pivotante para cualquiera que sea la funcion g.

Si las Xi tienen densidad
1 x
f (x; ) = f0 ( )

se dice que es una familia de escala generada por f0 . En tal caso Yi = Xi /
tiene densidad f0 (y) y por tanto
x1 x2 xn
(x; ) = g( , ..., )

es una funcion pivotante para cualquiera que sea la funcion g.
Por ultimo si las Xi tienen densidad
1 x
f (x; ) = f0 ( )

se dice que es una familia de posicion y escala generada por f0 . En tal caso
Yi = (Xi )/ tiene densidad f0 (y) y por tanto
x1 x2 xn
(x; , ) = g( , ..., )

es una funcion pivotante para (, ) cualquiera que sea la funcion g.
Ejemplo 2.4.1 Algunas familias de posicion y escala

Distribucion Densidad
Normal: N (, 2 ) 1
2
exp{ 12 ( x 2
) }
1 x
Laplace: La(, ) 2 exp{| |}
1 1
Cauchy: Cau(, ) 1+( x )2

1 x x
Exponencial: Exp(, ) exp{ }1(0,) ( )
1 x
Uniforme: U (, + ) 1(0,1) ( )
2.4.3 Metodos aproximados

Utilizando la desigualdad de Chebichef.
Supongamos que queremos obtener un intervalo de confianza para g() = E (T ),
T un estadstico de cuadrado integrable. Por al desigualdad de Chebichef
V ar (T )
PX (|T g()| > ) ,
2
V ar (T )
por tanto si tomamos 1 = 2 resultara que
PX (|T g()| )
con s
V ar (T )
=
1
de manera que s
V ar (T )
|T (x) g()|
1
proporciona un intervalo de confianza , despejando g() obtenemos
s s
V ar (T ) V ar (T )
T (x) g() T (x) + .
1 1
El problema es que no conocemos V ar (T ) ya que depende de podemos

entonces estimarla por V ar (T ) donde es un estimador de . El intervalo
obtenido sera ahora solo de confianza aproximadamente . En algunos casos
esto se puede evitar.
Ejemplo 2.4.2 Supongamos que nuestras observaciones son Bernoullis(p) y
queremos dar un intervalo de confianza para p. Podemos tomar T (x) = x.
Sabemos que entonces
n
1 X
V arp (T ) = V arp (T (X)) = V ar p ( Xi )
n2 i=1
nV arp (X1 ) p(1 p)
= 2
=
n n
1
de manera que el valor maximo que puede tomar V arp (T ) es 4n . As
1 1
x p p x + p
2 n(1 ) 2 n(1 )
tiene confianza , aunque
es de longitud demasiado grande. Para = 0.95 el
radio es aprox 2.24/ n
Metodo basado en el comportamiento asintotico del EMV

Sabemos que en condiciones de regularidad y en el esquema iid, aproximada-
mente
n( )
q N (0, 1)
1
I1 ()
con lo que
k/2 k/2
q + q
nI1 () nI1 ()
sera un intervalo de confianza aproximadamente , donde P {N (0, 1) > k/2 } =
/2, y, como siempre, = 1 .
Ejemplo 2.4.3 Supongamos, como antes, que nuestras observaciones son Bernoullis(p)
y queremos dar un intervalo de confianza para p. Sabemos que el EMV es
1
p(x) = x, tambien sabemos que I1 (p) = p(1p). . De manera que
r r
x(1 x) x(1 x)
x k/2 p x + k/2
n n
sera un intervalo para de confianza aproximada . En lugar de estimar p(1p)
podemos acotarlo por 41 y tendramos
1 1
x k/2 p x + k/2 .
2 n 2 n
Si = 0.95, k0.025 = 1.96 de manera que aproximadamente
1 1
x p x +
n n
nos da un intervalo de confianza 0.95 (aprox.). Su radio es la mitad del obtenido
por Chebichef !. Notemos que si queremos un error inferior al 3% necesitaremos
que
1
0.03
n
esto es 2
1
n = 1111, 11.
0.03
En la practica, por ejemplo, para saber la proporcion teorica de individuos con
una determinada caracterstica de una poblacion muy grande, se suele tomar un
tamano muestral de 1200, 1500.
2.4.4 Un metodo especial

El metodo se basa en el siguiente resultado:
Proposicion 2.4.1 Supongamos un modelo dependiente de un parametro

R, un estadstico T (x) y funciones a1 () y a2 (), monotonas estrictamente cre-
cientes, tales que, fijado (0, 1)
PX {x, a1 () T (x) a2 ()} ,
entonces
a1 1
2 (T (x)) a1 (T (x))
nos proporciona un intervalo de confianza para .

Demostracion. Si x verifica
a1 1
2 (T (x)) a1 (T (x))
resultara que
T (x) a2 ()
a1 () T (x)
o lo que es lo mismo a1 () T (x) a2 (), con lo que
PX {x, a1 1 X
2 (T (x)) a1 (T (x))} = P {x, a1 () T (x) a2 ()}
Ejemplo 2.4.4 Supongamos el modelo del ejemplo anterior y T (x) = x, ten-

emos que buscar a1 (p) y a2 (p) tales que
PpX {x, a1 (p) x a2 (p)}
o equivalentemente
Pp {a1 (p) X a2 (p)}
donde nX Binomial(n, p). Para determinar a1 (p) buscamos, con ayuda de la
distribucion Binomial(n, p), el valor mas grande que verifique
Pp {nX < na1 (p)} /2
se puede ver que a1 (p) es estrictamente creciente con p, y analogamente para

a2 (p), buscamos el valor mas pequeno tal que
Pp {nX > na2 (p)} /2.
Existen graficos para a1 (p) y a2 (p) (haces de Clopper-Pearson) para diferentes

valores de y n que nos permiten obtener los intervalos. Si miramos el ejemplo
anterior tambien tenamos que aproximadamente
n(x p)2
PpX {x, 2
k/2 } = ,
p(1 p)
Ahora bien
n(x p)2 2
k/2 n(x2 2px + p2 ) k/2
2
(p p2 )
p(1 p)
2 2
k/2 k/2
(1 + )p2 (2x + )p + x2 0
n n
Las soluciones de la ecuacion que se obtiene igualando a cero son
q
2 2 /4)/(n + k 2 )
d(x) = (nx + k/2 /2 k/2 nx(1 x) + k/2 /2
q
2 2 /4)/(n + k 2 )
u(x) = (nx + k/2 /2 + k/2 nx(1 x) + k/2 /2
de manera que un intervalo aproximado de confianza viene dado por
d(x) p u(x).
Si np y n(1 p) valen al menos 5 estos intervalos son satisfactorios en la

practica.
2.4.5 Regiones de confianza, intervalos simultaneos

Region para la media y la desviacion tpica de observaciones normales
Supongamos que el modelo corresponde a n observaciones iid N (, 2 ), y
desconocidos, queremos dar una region de confianza para (, ) , es decir un
subconjunto B(x) (dependera de la muestra x) R R+ de manera que
X
P(,) {x, (, ) B(x)} = .
Por el teorema de Fisher

Pn
(X ) i=1 (Xi X)2 2
n N (0, 1), Xn1
2
y son independientes. Entonces, utilizando la notacion habitual, tendremos que
(X )
P(,) {k1 n k1 } = ,
2
Pn 2
2
i=1 (Xi X)
P(,) {X 2
X2 } =

n1; 2 2 n1;1 2
y por la independencia
(X )

P(,) k1 n k1 ,
2 2
Pn 2

(Xi X)
X 2 i=1 2 X2
=
n1; 2 n1;1 2
de manera que
(x )
k1 n k1 ,
2
Pn 2
2
(x
i=1 i x)
X2
X2

n1; 2 2 n1;1 2
nos da una region de confianza . Mas explcitamente,

x k1 x + k1 ,
2 n 2 n

n n
q q
X 2 X 2

n1;1 2 n1; 2
de manera que obtenemos una region trapezoidal.
El principio de union-interseccion
El llamado principio de union-interseccion consiste en un metodo general,
basado en una desigualdad elemental, para obtener intervalos simultaneos, es
decir regiones rectangulares, para diferentes parametros. Sea una muestra de
observaciones X1 , X2 , ..., Xn cuya ley depende de dos parametros 1 y 2 y
supongamos que sabemos encontrar intervalos de confianza 1 y 2 para 1 y
2 respectivamente, y sean estos [S1 (X), S2 (X)] y [T1 (X), T2 (X)], esto es
P1 ,2 (S1 (X) 1 S2 (X)) 1 , P1 ,2 (T1 (X) 2 T2 (X)) 2 .
Pero cuanto vale
P1 ,2 (S1 (X) 1 S2 (X), T1 (X) 2 T2 (X)).
Dados dos eventos A1 y A2
P (A1 A2 ) = 1 P (Ac1 Ac2 ) 1 P (Ac1 ) P (Ac2 )

P (A1 ) + P (A2 ) 1.
Por tanto
P1 ,2 (S1 (X) 1 S2 (X), T1 (X) 2 T2 (X)) 1 + 2 1.
Entonces si tomamos 1 = 2 = 1+2 tendremos intervalos simultaneos de coe-

ficiente . Si escribimos i = 1 i , i = 1, 2 y = 1 la condicion anterior
se puede escribir 1 = 2 = /2. La generalizacion es evidente para el caso de
d parametros: 1 = 2 = ... = d = /d.
Captulo 3
Test de hipotesis
Hasta ahora hemos utilizado la muestra x para sugerir un valor o un conjunto de

valores posibles de , el parametro de nuestro modelo (X , F, {P , }), pero
ahora lo que queremos es validar o rechazar un valor o un conjunto de valores
de . Por ejemplo, sean 0 y 1 una particion de . Queremos saber si 0
y nos ayudaremos de la muestra para decidir si es razonable suponer que 0
o no. Lo formularemos en terminos de hipotesis, la hipotesis que llamaremos
nula, que denotaremos H0 , y que sera que 0 y la hipotesis que llamaremos
alternativa, que denotaremos H1 y que sera que 1 . Escribiremos que
nuestro problema es contrastar
H0 : 0
H1 : 1 .
Un test (o contraste) de hipotesis sera una aplicacion
: X {H0 , H1 }
x 7 (x).
Todo test de hipotesis establece entonces una particion de X en dos conjuntos:
A0 = 1 (H0 ) y A1 = 1 (H1 ). A0 es el conjunto de muestras que nos llevaran
a aceptar H0 segun y A1 el conjunto de muestras que nos llevaran a rechazar
H0 (y aceptar H1 entonces). A A0 se le llama region de aceptacion y a A1 region
crtica. Como vemos todo test queda definido por su region de aceptacion (o
su region crtica).
Buscaremos test o regiones crticas optimos en el sentido que nos equivoque-
mos lo menos posible al apostar por una u otra hipotesis. Pero que significa
equivocarse?, pues rechazar H0 cuando es cierta (lo llamaremos error de primera
especie o tipo I) o aceptar H0 cuando es falsa (lo llamaremos error de segunda
especie o tipo II). En sntesis, dada una muestra x, puede ocurrir lo siguiente
0 1
x A0 acertamos error tipo II
x A1 error tipo I acertamos.
49
50 CAPITULO 3. TEST DE HIPOTESIS
Es evidente que, salvo casos triviales no podremos eliminar los dos errores
a la vez y si tratamos de disminuir la frecuencia de uno la del otro en general
aumentara. Como veremos vamos a dar mas importancia a los errores del tipo
I de manera que solo rechacemos la hipotesis nula cuando haya mucha evidencia
en este sentido.
3.1 Test de hipotesis simples

Consideremos la situacion sencilla donde 0 = {0 } y 1 = {1 }. Cuando,
como aqu, solo hay un posible valor en las hipotesis se dice que las hipotesis
son simples si no se dice que son compuestas. En el caso de hipotesis simples
podemos calcular las probabilidades de error de tipos I y II:
Prob de rechazar H0 cuando es cierta = P0 (A1 )

Prob de aceptar H0 cuando es falsa= P1 (A0 ).
Adoptaremos el llamado enfoque de Neyman que consiste en tomar A1 de man-

era que P0 (A1 ) (normalmente = 0.05 o 0.01 (si la muestra es grande)) y
buscar entre todas estas regiones cticas A1 las que minimizan P1 (A0 ). Como
P1 (A0 ) = 1 P1 (A1 ),
esto equivale a maximizar P1 (A1 ) := .
Definicion 3.1.1 Dado un test con region crtica A1 diremos que es de tamano
si P0 (A1 ) = .
Definicion 3.1.2 Dado un test con region crtica A1 diremos que es de nivel
(de significacion) si P0 (A1 ) .
Definicion 3.1.3 Dado un test con region crtica A1 diremos que es de poten-
cia si P1 (A1 ) = .
El proposito es buscar entre los test de nivel el de mayor potencia. Sea

L(x; ) la verosimilitud de nuestro modelo, en el caso que consideramos solo
puede tomar dos valores 0 y 1 . Escribamos
L0 (x) = L(x; 0 )
L1 (x) = L(x; 1 ),
Una region crtica razonable sera
A1 = {x, L1 (x) > KL0 (x)},
con K > 0 y suficientemente grande, es decir nos quedamos con la hipotesis de

que = 1 si 1 es mucho mas verosmil que 0 . En realidad esto nos va a dar
test optimos. Tenemos el siguiente teorema conocido mas bien como Lema de
Neyman-Pearson
3.1. TEST DE HIPOTESIS SIMPLES J.M. Corcuera
Teorema 3.1.1 ( Lema de Neyman-Pearson) Sea un test con region crtica A1

tal que
{x, L1 (x) > KL0 (x)} A1 (3.1)

{x, L1 (x) < KL0 (x)} A0 ,
donde K 0, supongamos que P0 (A1 ) = , entonces es de maxima potencia

entre los test de nivel de significacion .
Demostracion. Vamos a suponer que nuestro modelo es de observaciones
con densidad. Sea A1 otra region crtica, tenemos que
Z
(1A1 (x) 1A1 (x))(L1 (x) KL0 (x))dx 0
X
ya que el integrando es siempre no negativo:
Si x A1 ,
L1 (x) KL0 (x) 0 y 1A1 (x) 1A1 (x) = 1 1A1 (x) 0
Si x A0 ,
L1 (x) KL0 (x) 0 y 1A1 (x) 1A1 (x) = 0 1A1 (x) 0.
Por tanto
Z Z
(1A1 (x) 1A1 (x))L1 (x)dx K (1A1 (x) 1A1 (x))L0 (x)dx,
X X
equivalentemente
P1 (A1 ) P1 (A1 ) K(P0 (A1 ) P0 (A1 )) 0
ya que K 0 y P0 (A1 ) P0 (A1 ) = P0 (A1 ) 0 ya que A1 es de nivel .
Observacion 3.1.1 Los test anteriores, que verifican (3.1), los llamaremos
test de Neyman.
Tambien tenemos cierta unicidad de los test de maxima potencia.
Teorema 3.1.2 Todos los test de maxima potencia son test de Neyman.
Demostracion. Sea un test de maxima potencia a nivel con region crtica

A1 . Sea A1 la region crtica de un test de Neyman. Entonces sabemos, por la
demostracion anterior, que
Z
(1A1 (x) 1A1 (x))(L1 (x) KL0 (x))dx 0
X
pero al ser A1 de maxima potencia, la desigualdad no puede ser estricta ya que

llegaramos a que
P1 (A1 ) P1 (A1 ) > 0.
Por tanto se debe verificar que
Z
(1A1 (x) 1A1 (x))(L1 (x) KL0 (x))dx = 0
X
pero el integrando es no negativo (lo hemos visto en la demostracion anterior)

y por tanto, salvo conjuntos de medida de Lebesgue cero (longitud cero)
(1A1 (x) 1A1 (x))(L1 (x) KL0 (x)) = 0,
de manera que si L1 (x) KL0 (x) > 0, 1A1 (x) 1A1 (x) = 0 y como entonces
x A1 x tambien esta en A1 . As que
A1 {x, L1 (x) KL0 (x) > 0}.
Analogamente si L1 (x) KL0 (x) < 0, 1A1 (x) 1A1 (x) = 0 y como entonces
x
/ A1 (es decir x A0 ) x tampoco esta en A1 (es decir x A0 ), as
A0 {x, L1 (x) KL0 (x) < 0}
Ejemplo 3.1.1 Supongamos un modelo de observaciones iid con distribucion

N (, 2 ) donde es conocida y puede valer 0 o 1 (1 > 0 ). Queremos
test optimos para contrastar
H0 : = 0 versus
H1 : = 1 .
Tenemos que
n
1 1 X
L1 (x) = n exp{ (xi 1 )2 }
2 2 2 i=1
n
1 1 X n
= n exp{ 2
(xi x)2 } exp{ 2 (x 1 )2 }
2 2 i=1 2
n
1 1 X n
L0 (x) = n . exp{ (xi x)2 } exp{ 2 (x 0 )2 }
2 2 2 i=1 2
Entonces, como
L1 (x) > KL0 (x)

exp{ 2n2 (x 1 )2 }
>K (x 0 )2 (x 1 )2 > Cte
exp{ 2n2 (x 0 )2 }
(1 0 )x > Cte x > C
3.1. TEST DE HIPOTESIS SIMPLES J.M. Corcuera
Una region crtica optima vendra dada por
A1 = {x, x > C}.
Ahora la constante C se puede determinar de manera que
P0 {X > C} = .
Como, bajo 0 ,
2
X N (0 , )
n

n(X 0 ) n(C 0 )
P0 {X > C} = P0 { > }

n(C 0 )
= P0 {N (0, 1) > }=

Y utilizando la notacion habitual

n(C 0 )
= k ,

con lo que finalmente

C = 0 + k ,
n
y

A1 = {x, x > 0 + k }
n
Podemos ahora calcular la potencia del test

= P1 (A1 ) = P1 {X > 0 + k }
n

n(X 1 ) n(0 1 )
= P1 { > k + }

n(0 1 )
= P1 {N (0, 1) > k + }

n(0 1 )
= 1 (k + )

donde es la funcion de distribucion de una normal estandar. Notemos que
lim = 1,
n
cuando esto ocurre se dice que el test en cuestion es consistente.
Observacion 3.1.2 Notar que si hacemos el contraste anterior pero con 1 <
0 entonces la region crtica optima de nivel es

A1 = {x, x < 0 k }
n
Observacion 3.1.3 Una vez construido un test para ver si aceptamos o rechaz-
amos H0 se toma una muestra x y se mira si esta en la region de aceptacion o
en la region crtica correspondientes a un nivel de significacion prefijado . Otra
manera de indicar que tan significativa es la muestra observada para rechazar
la hipotesis nula es dar su p-valor, consiste en el nivel de significacion del test a
partir del cual la muestra observada estara en la region crtica. Si el p-valor es
mas pequeno que 0.05 nuestra muestra estara en la region crtica de nivel 0.05.
Esto es, cuanto mas pequeno es su p-valor menos se valida la hipotesis nula.
Ejemplo 3.1.2 Sea un modelo de observaciones iid con densidad U (0, ) donde
puede ser 0 o 1 . 1 > 0 . Queremos construir test optimos para contrastar
H0 : = 0 versus
H1 : = 1 .
1
L1 (x) = 1[0,1 ] (x(n) )
n1
1
L0 (x) = 1[0,0 ] (x(n) )
n0
de manera que los test con region crtica
1 K
A1 {x, 1[0,1 ] (x(n) ) > 1[0,0 ] (x(n) )} (3.2)
n1 n0
1 K
A0 {x, n 1[0,1 ] (x(n) ) < 1[0,0 ] (x(n) )}, (3.3)
1 n0
son optimos. En particular si tomamos
A1 = {x, x(n) > C}

n
con C 0 , sera un test optimo. En efecto, basta tomar K = 0
n , entonces si
1
si x(n) C resultara que

1[0,1 ] (x(n) ) = 1[0,0 ] x(n) ,
con lo que
1 K
A0 {x, n 1[0, 1 ] (x(n) ) = n 1[0, 0 ] (x(n) )},
1 0
lo que implica que
1 K
A1 {x, 1[0,1 ] (x(n) ) > n 1[0,0 ] (x(n) )}.
n1 0
Podemos bucar ahora C para un nivel de significacion . Se debera cumplir que
P0 (X(n) > C) = ,
3.2. HIPOTESIS COMPUESTAS J.M. Corcuera
ahora bien
P0 {X(n) > C} = 1 P0 {X(n) C}

= 1 ni=1 P0 {Xi C}
n
C
= 1 =
0
con lo que

n
C = 0 1 .
Podemos ahora calcular la potencia del test
= P1 (X(n) > C) = 1 P1 {X(n) C}

n
C
= 1 ni=1 P1 {Xi C} = 1
1
n
0
= 1 (1 )
1
Notemos que
lim = 1,
n
con lo que el test es consistente.
3.2 Hipotesis compuestas

En el caso de hipotesis compuestas tenemos probabilidades de error de primera
especie, en plural:
P (A1 ), 0
y lo mismo para el error de segunda especie
P (A1 ), 1 .
Definicion 3.2.1 Llamaremos tamano del test (con region crtica A1 ) al valor
sup P (A1 )
0
Definicion 3.2.2 Diremos que un test es de nivel (de significacion) si
sup P (A1 )
0
Definicion 3.2.3 Llamaremos funcion de potencia del test a
() = P (A1 ), 1
Siguiendo el enfoque de Neyman, buscaremos entre los test de nivel pre-

fijado los que son uniformemente mas potentes (UMP), es decir que para todo
valor de 1 su potencia es superior.
Desafortunadamente no tenemos un resultado general que nos permita con-
struir test UMP, pero veremos que en muchos casos los test de Neyman nos
permiten construir test UMP.
Proposicion 3.2.1 Fijemos un nivel [0, 1], y sea A1 un test de Neyman

de nivel para contrastar
H0 : = 0 versus
H1 : = 1 .
y que A1 no cambia al variar 1 1 . Supongamos tambien que sup0 P (A1 ) =

P0 (A1 ) (donde 0 0 ). Entonces el test con region crtica A1 es UMP al
nivel para contrastar
H0 : 0 versus
H1 : 1 .
Demostracion. Sea A1 una region crtica en el contraste
H0 : 0 versus
H1 : 1 .
y que tiene las propiedades anteriores.

Supongamos que NO es UMP a nivel , esto implicara que existe algun
valor de la alternativa, pongamos 1 , tal que su potencia es superada por otra
region crtica (otro test), pongamos A1 , de nivel . Si restringimos ambos test
a constrastar
H0 : = 0 versus
H1 : = 1 .
resultara que son de nivel y que (A1 ) > (A1 ) pero A1 es un test de Neyman
por tanto llegamos a una contradiccion.
Ejemplo 3.2.1 Consideremos un modelo de observaciones iid con distribucion

N (, 2 ) donde es conocida. Queremos contrastar
H0 : 0
H1 : > 0 .
Sabemos por el ejemplo (3.1.1) que un test de Neyman de nivel para contrastar
H0 : = 0
H1 : = 1 .
con 1 > 0 viene dado por la region crtica

A1 = {x, x > 0 + k }
n
y esta region crtica No depende de 1 . Por otro lado si tomamos 0 tenemos

P (A1 ) = P {X > 0 + k }
n

n(X ) n
= P { > (0 ) + k }

n
= P {N (0, 1) > (0 ) + k }

P {N (0, 1) > k } (ya que 0 > 0)
= .
Con lo que sup0 P (A1 ) = P0 (A1 ). Por tanto A1 es una region crtica (de
un test) UMP.
Observacion 3.2.1 Notemos que No podemos utilizar el procedimiento ante-

rior para construir un test UMP para el contraste
H0 : = 0
H1 : =6 0 ,
con observaciones iid N (, 2 ) donde es conocida. De hecho podemos deducir

que no existe test UMP, ya que el test UMP, a nivel , para contrastar
H0 : = 0
H1 : > 0 ,
tiene region crtica

A1 = {x, x > 0 + k }
n
y el test UMP para contrastar
H0 : = 0
H1 : < 0 ,
tiene region crtica

A1 = {x, x < 0 k }.
n
No coinciden, de manera que si quisieramos maxima potencia por la derecha
no la tendramos por la izquierda (de la unicidad del test de maxima potencia
en simple contra simple) y viceversa.
A priori no sabemos como construir una region crtica en le caso de hipotesis

compuestas. En algunos casos la metodologa de intervalos de confianza nos
permite construir test de hipotesis.
3.2.1 Construccion de test a partir de intervalos de confi-

anza
Supongamos que tenemos que contrastar
H0 : g() = 0 versus
H1 6 0 .
: g() =
Notemos que en este tipo de contrastes tanto la hipotesis nula como la alterna-
tiva pueden ser compuestas. Sean I(x), x X intervalos de confianza para
g(). Definamos la region crtica
A1 = {x, 0 6 I(x)}
entonces se trata de una region crtica de nivel = 1 . En efecto, por

construccion
P {x, g() I(x)} ,
Esto es
P {x, g() 6 I(x)} 1 = ,
en particular
P {x, g() 6 I(x)} , tal que g() = 0
Por tanto
P (A1 ) = P {x, 0 6 I(x)} , tal que g() = 0
y al region crtica A1 es de nivel = 1. Notemos que en principio no podemos

concluir nada acerca de la potencia del test correspondiente, necesitaramos
saber
P {x, 0 6 I(x)} para g() 6= 0 .
Ejemplo 3.2.2 Supongamos un modelo n de observaciones iid N (, 2 ),

conocida. Queremos contrastar
H0 : = 0
H1 : =6 0 ,
En este caso la hipotesis nula es simple. Ya vimos que los intervalos de confianza
para , venan dados por

x k/2 x + k/2 .
n n
De manera que una crtica de nivel vendra dada por

A1 = {x, 0 < x k/2 o 0 > x + k/2 }.
n n
En este caso podemos calcular facilmente la funcion de potencia ().

P (A1 ) = P (X k/2 > 0 ) + P (X + k/2 < 0 )
n n

n(X ) n
= P > (0 ) + k/2

n(X ) n
+P < (0 ) k/2

n
= P N (0, 1) > (0 ) + k/2

n
+P N (0, 1) < (0 ) k/2

n n
= 1 ( (0 ) + k/2 ) + ( (0 ) k/2 )

Ejemplo 3.2.3 Supongamos un modelo n de observaciones iid N (, 2 ), de-
sconocida. Queremos contrastar
H0 : = 0
H1 : =6 0 ,
En este caso la hipotesis nula es compuesta. Ya vimos que los intervalos de
confianza para , venan dados por
s(x) s(x)
x tn1;/2 x + tn1;/2 .
n n
De manera que una crtica de nivel vendra dada por
s(x) s(x)
A1 = {x, 0 < x tn1;/2 o 0 > x + tn1;/2 }.
n n
Si intentamos calcular la funcion de potencia () solo obtenemos in valor
aproximado:
s s
P, (A1 ) = P, (X tn1;/2 > 0 ) + P, (X + tn1;/2 < 0 )
n n

n(X ) n
= P, > (0 ) + tn1;/2
s s

n(X ) n
+P, < (0 ) tn1;/2
s s

n
= P, tn1 > (0 ) + tn1;/2
s

n
+P, tn1 < (0 ) tn1;/2
s

n n
1 Ftn1 ( (0 ) + tn1;/2 ) + Ftn1 ( (0 ) tn1;/2 ),
s s
donde Ftn1 es la funcion de distribucion de una tn1 de Student.
Observacion 3.2.2 Podramos utilizar los intervalos que vimos en los proble-
mas de dos muestras para obtener los test de hipotesis correspondientes.
Si las hipotesis no tienen la forma anterior no podemos utilizar los inter-

valos de confianza para obtener test. Sin embargo vamos a ver que existe un
procedimiento general para construir test cuando las hipotesis son compuestas.
3.2.2 Test de la razon de verosimilitudes.

Supongamos el problema de contrastar
H0 : 0 versus
H1 : 1 .
el test de la razon de verosimilitudes (abreviaremos TRV) es el que tiene por

region crtica
A1 = {x, (x) K}
donde
sup0 L(x; )
(x) = ,
sup L(x; )
y 0 < K < 1. Notemos que (x) 1 para todo x y que si es el estimador
maximo verosmil tambien podemos escribir
sup0 L(x; )
(x) = ,
L(x; (x))
incluso si es el estimador maximo verosmil con la restriccion de que 0

podemos escribir mas simplemente
L(x; (x))
(x) = ,
L(x; (x))
Proposicion 3.2.2 Si las hipotesis son simples el test de la razon de verosimil-

itudes es un test de Neyman.
Demostracion.
L(x; 0 )) L0 (x)
(x) = = ,
L(x; 0 ) L(x; 1 ) L0 (x) L1 (x)
de manera que
L0 (x)
(x) K K
L0 (x) L1 (x)
L0 (x) K(L0 (x) L1 (x)) L0 (x) KL1 (x)),
ya que K < 1. En efecto si x es tal que L0 (x) L1 (x) la equivalencia es

inmediata y si x es tal que L0 (x) > L1 (x) no se puede cumplir ni la condicion
de la izquierda ni la de la derecha. Por tanto
1
A1 = {x, L1 (x)) L0 (x)}
K
con lo que se trata de un test de Neyman.
Ejemplo 3.2.4 Consideremos un modelo de observaciones iid con distribucion

N (, 2 ) donde es conocida. Queremos contrastar
H0 : 0
H1 : > 0 .
como en el ejemplo (3.2.1). Vamos a construir el test de la razon de verosimil-

itudes.
n
1 1 X
L(x; ) = n exp{ (xi )2 }
2 2 2 i=1
n
1 1 X n
= n exp{ (xi x)2 } exp{ 2 (x )2 }
2 2 2 i=1 2
de manera que el denominador del TRV

n
1 1 X
L(x; ) = n exp{ (xi x)2 }
2 2 2 i=1
y el numerador
n
1 1 X n
sup L(x; ) = n exp{ 2
(xi x)2 } sup exp{ 2 (x )2 }.
0 2 2 i=1 0 2
de manera que
n
(x) = sup exp{ (x )2 }.
0 2 2
Ahora bien
n n
sup exp{ (x )2 } = exp{ 2 inf (x )2 }
0 2 2 2 0
y
(x 0 )2

2 si x 0
inf (x ) =
0 0 si x < 0
de manera que
exp{ 2n2 (x 0 ))2 }

si x 0
(x) = .
1 si x < 0
As la region crtica vendra dada por

A1 = {x, (x) K}
n
= {x, x 0 y exp{ (x 0 )2 } K}
2 2
= {x, x 0 y x C}
donde C es una constante mayor que 0 ya que K < 1. de manera que final-
mente
A1 = {x, x C}.
Obtenemos las mismas regiones que en el ejemplo (3.2.1) donde ya vimos que
eran optimas.
Ejemplo 3.2.5 Supongamos un modelo n de observaciones iid N (, 2 ), ,
desconocidas. Queremos contrastar
H0 : = 0
H1 : =6 0 ,
Vamos a construir el TRV.
n
1 1 X
L(x; , ) = n exp{ (xi )2 }
2 2 2 i=1
n
1 1 X n
= n exp{ (xi x)2 } exp{ 2 (x )2 }
2 2 2 i=1 2
El numerador sera
n
1 1 X
sup L(x; , 0 ) = n exp{ 2 (xi x)2 }
2 0 2 0 i=1
1 n 2
= n exp{ }
2 0 2 20
y el denominador
n
1 1 X
L(x; , ) = n exp{ (xi x)2 }
2 2 2 i=1
1 n
= n exp{ }
2 2
de manera que n
n 2

n
(x) = exp{ 2 + }
0 2 0 2
y (x) > K (region de aceptacion) equivale a que
2 2
2 exp{ 2 } C
0 0
y resolviendo la inecuacion tendremos
2
c1 < < c2
20
donde c1 y c2 son las soluciones de la ecuacion
u exp{u} = C.
Notemos que obtendramos lo mismo a partir de intervalos de confianza. Sin

embargo aqu dado , c1 y c2 quedan fijados, en cambio los intervalos de coefi-
ciente = 1 se pueden escoger de muchas maneras, de hecho ya vimos que
el procedimiento mas simple era dejar /2 en cada cola y en la practica esto
es lo que se utiliza.
Comportamiento asintotico del test de la razon de verosimilitudes

Consideremos los siguiente ejemplos
Ejemplo 3.2.6 Sea un modelo de n observaciones iid N (, 2 ), conocida y

queremos constrastar
H0 : = 0
H1 : =6 0 ,
L(x; 0 )
(x) =
L(x; )
1n exp{ 21 2 (xi x)2 } exp{ 2n2 (x 0 )2 }
P
( 2 ) n
=
1n 1
P
exp{ 2 2 (xi x)2 }
( 2) n
n
= exp{ (x 0 )2 }
2 2
de manera que
2
n(x 0 )
W (x) := 2 log (x) =

y consecuentemente bajo H0
W (X) (N (0, 1))2 = X12 .
Ejemplo 3.2.7 Sea un modelo asociado a variables iid
X1 , X2 , ..., Xn1 N (1 , 21 ),
Xn1 +1 , Xn1 +2 , ..., Xn1 +n2 N (2 , 22 ), ...,

Xn1 +n2 +...+nm1 +1 , Xn1 +n2 +...+nm1 +2 , ..., Xn1 +n2 +...+nm1 +nm N (m , 2m )
es decir m muestras independientes de variables normales independientes con

medias diferentes y varianzas conocidas. Supongamos el contraste
H0 : (1 , 2 , ..., m ) = (01, 02 , ..., 0m )

H1 : (1 , 2 , ..., m ) 6= (01, 02 , ..., 0m ).
Es facil ver que

m 2
X ni (xi 0i ) 2
2 log (x) = Xm (bajo H0 ).
i=1
i
Si ahora hacemos el contraste
H0 : (1 , 2 ) = (01, 02 )
H1 : (1 , 2 ) 6= (01, 02 ).
obtenemos
2 2
X ni (xi 0i )
2 log (x) = X22 (bajo H0 )
i=1
i
notemos que los grados de libertad de la Ji cuadrado coinciden con la dimension

del espacio total de parametros con la dimension del espacio de parametros bajo
la hipotesis nula:
dim = m
dim 0 = m 2.
Lo mismo ocurre en el caso anterior. De manera que la regla es:

2
2 log (x) Xdim dim 0 .
El resultado general que vamos a ver a continuacion es que si el tamano muestral

es grande esto se cumple aproximadamente.
Proposicion 3.2.3 (Wilks) Supongamos el problema de contraste
H0 : 0 versus
H1 : 1 .
y que el modelo es regular (en el sentido del comportamiento del EMV). Sea
dim = d y dim 0 = l. Vamos a suponer asimismo que cualquier punto
se puede coordenar de la forma
= (1 , 2 , ..., l , l+1 , ..., d )
de manera que
0 = { , l+1 = kl+1 , .., d = kd }
para ciertas constantes ki . Sea n el tamano de la muestra iid x y n (x) la razon

de verosimilitudes correspondiente entonces, bajo H0 ,
2 L
2 log n (X) Xdim dim 0
n
Demostracion. Sea el EMV de ,

d
X
i log L(X; ) = i j log L(X; (X))(j (X) j ), i = 1, ..., d
j=1
donde (X) = (X) + (1 ), 0 1, esto es

d 1
X 1 1
n(j (X) j ) = log L(X; (X)) k log L(X; ),
n jk n
k=1
j = 1, ..., d
que el modelo sea regular va a significar que es un estimador consistente de

y que
1 P
log L(X; (X)) I()
n n
donde
2
I() = E ( log L1 )
matriz d d que se conoce como matriz de informacion de Fisher. Como con-
secuencia y ya que, tambien debido a la regularidad,
1 L
log L(X; ) Nd (0, I())
n n
tendremos que
L
n((X) ) Nd (0, I 1 ())
n
Escribamos
= (1 , 2 , ..., l ), = (l+1 , ..., d ), 0 = (kl+1 , .., kd )
de manerna que 0 = {(, ), = 0 }, y

I I
I() = ,
I I
vamos a suponer tambien, sin perdida de generalidad, que la parametrizacion
es ortogonal de manera que
I = 0, I = 0
y por tanto 1
I 0
I 1 () = 1 .
0 I
Entonces, sea 0 (x) = (1 (x), 2 (x), ..., l (x)) el EMV bajo H0 , tendremos
l
X
i log L(X; 1 , ..., l, 0 ) = 2i j log L(X; (X), 0 )(j (X) j ),
j=1
i = 1, ..., l

donde = j + (1 )j (X), j = 1, ..., l, 0 1, esto es
j (X)

n(j (X) j )
l
X 1 1
2 1
= log L(X; (X), 0 ) k log L(X; 1 , ..., l, 0 ),
n jk n
k=1
j = 1, ..., l,
por la regularidad del modelo, bajo H0

1 2 P
log L(X; (X), 0 ) I (, 0 )
n n
y
L 1
n( 0 (X) ) Nl (0, I ).
n
Ahora bien
log L(X; , 0 ) = log L(X; (X), (X))
d
1 X 2
+ log L(X; (X))(j (X) j )(i (X) i )
2 i,j=1 i j
log L(X; , 0 ) = log L(X; 0 (X), 0 )

l
1 X 2
+ i j log L(X; (X))(j (X) j )(i (X) i )
2 i,j=1

where and son puntos intermedios, de aqu obtenemos restando las dos
expresiones, que bajo H0
2 log n (X) = 2(log L(X; 0 (X), 0 ) log L(X; (X), (X)))
d
X
= 2i j log L(X; (X))(j (X) j )(i (X) i )
i,j=1
l
X
2i j log L(X; (X))(j (X) j )(i (X) i )
i,j=1
d l
L
X X
Iij Zi Zj (I )ij Zi Zj
n
i,j=1 i,j=1
d
X
= (I )ij Zi Zj
i,j=l+1
1
y donde (Zi )l+1i,jd Nd (0, I ()), por tanto
d
X
2
(I )ij Zi Zj Xdl
i,j=l+1
Observacion 3.2.3 Notemos que del resultado anterior para calcular la region
crtica del TRV lo haremos en funcion del estadstico de Wilks W (x) = 2 log (x),
as
A1 = {x, (x) K}
= {x, 2 log (x) C}
= {x, W (x) C},
entonces hallaremos C con la condicion sup0 P (A1 ) = . Pero

2
sup P (A1 ) P {Xdim dim 0 C} = ,
0
de manera que se toma como region crtica

2
A1 = {x, W (x) Xdim dim 0 ; }
que tendra aproximadamente nivel .

Captulo 4
Test Ji-cuadrado
4.1 El modelo multinomial

Sea X una variable aleatoria que puede tomar m valores distintos, z1 , z2 , ..., zm
con
Pm probabilidades respectivas p1 , p2 , ..., pm , tales que pi > 0 y por supuesto
i=1 pi = 1, diremos que X es una variable multinomial. Sea ahora el modelo
correspondiente a n observaciones iid con la ley X, diremos que nuestro modelo
es un modelo multinomial. La verosimilitud, dada una muestra x vendra dada
por
L(x; p1 , p2 , ..., pm )
= P (X1 = x1 , X2 = x2 , ..., Xn = xn )
1{zj } (xi ) Nj (x)
= ni=1 P (Xi = xi ) = ni=1 m
j=1 pj = m
j=1 pj .
Pn
Notemos que Nj (x) = i=1 1{zj } (xi ) cuenta el numero de veces que ha ocurrido
el resultado zj en los n experimentos. Es facil ver que
n!
P (N1 = n1 , ..., Nm = nm ) = pn1 pn2 ...pnmm ,
n1 !n2 !...nm ! 1 2
esta distribucion se conoce como distribucion multinomial. Observemos asimismo

que el espacio de parametros del modelo multinomial
n
X
= {(p1 , p2 , ..., pm ), pi > 0, pi = 1}
i=1
de manera que su dimension es m 1.
69
70 CAPITULO 4. TEST JI-CUADRADO
4.2 Test de ajuste en el modelo multinomial

4.2.1 Ajuste a una mutinomial concreta
En el modelo multinomial queremos hacer el contraste
H0 : (p1 , p2 , ..., pm ) = (p01, p02 , ..., p0m )

H1 : (p1 , p2 , ..., pm ) 6= (p01, p02 , ..., p0m ).
Vamos a construir el TRV,
L(x; p0 ) L(x; p0 )
(x) = =
sup L(x, p) L(x, p)
donde utilizamos notacion vectorial: p = (p1, p2 , ..., pm ). Tenemos que
Ni (x) ni
L(x; p) = m
i=1 pi = m
i=1 pi
de manera que, tomando como variables libres, p1, p2 , ..., pm1 y como pm =
1 p1, p2 ... pm1 , las condiciones de extremo son
ni nm
pi log L(x; p) = = 0, i = 1, ..., m
pi pm
esto da
ni
pi = , i = 1, ..., m.
n
Como, por la ley fuerte de los grandes numeros,
ni c.s.
pi > 0
n
ni
podemos suponer que todos los ni son positivos, entonces L(x; p) = m i=1 pi
sera cero si algun pi es cero con lo que el maximo estara en el interior de y
correspondera a la unica solucion que hemos encontrado. Tenemos entonces que
ni npi
m pn0ii

p0i p0i
(x) = i=1 m
ni = i=1 = m
i=1
m
i=1 pi pi pi
y, bajo H0
m
X p0i 2
W (x) = 2 log (x) = 2n pi log Xm1 (aprox.)
i=1
pi
ya que dim = m 1 y dim 0 = 0. La region crtica de nivel sera

2
A1 = {x, W (x) Xm1; }
4.2. TEST DE AJUSTE EN EL MODELO MULTINOMIAL J.M. Corcuera
Sin embargo en la practica se utiliza otro estadstico para construir la region

critica. Tenemos que
m
X p0i
W (x) = 2n pi log
i=1
pi
m
X pi pi
= 2n p0i log ,
i=1
p0i p0i
c.s
sabemos que pp0ii 1 y si desarrollamos la funcion u log u en torno del valor
n
u = 1, tenemos
1 1 1
u log u = u 1 + (u 1)2 (u 1)3
2 6 u2
con u un punto entre 1 y u. Tenemos as que

m m 2
X pi X pi
= 2n p0i 1 +n p0i 1
i=1
p0i i=1
p0i
m 3
nX 1 pi
p0i 2 1 ,
3 i=1 ui p0i
pi
donde los ui son puntos entre 1 y p0i . El primer sumando se anula
m m m m
X pi X X X
p0i 1 = (pi p0i ) = pi p0i = 1 1 = 0,
i=1
p0i i=1 i=1 i=1
el tercero se va a cero cuando n tiende a infinito:
m 3 m !3
1 X (1 p0i )3/2

X 1 pi n(pi p0i ) P
n p0i 2 1 = 0
n i=1 u2 p1/2
p
i=1
ui p0i p0i (1 p0i ) n
i 0i
ya que

c.s. n(pi p0i ) L
ui 1 y p N (0, 1).
p0i (1 p0i )
En definitiva W (x) y
m 2
X pi
Dn (x) := n p0i 1
i=1
p0i
2
tienen el mismo comportamiento asintotico, se acercan a una Xm1 . Este ultimo
estadstico se llama estadstico de Pearson, que se puede escribir

m 2
X pi
Dn (x) = n p0i 1
i=1
p0i
m 2
X (pi p0i )
= n
i=1
p0i
m 2
X (npi np0i )
=
i=1
np0i
m 2
X (ni np0i )
=
i=1
np0i
m 2
X (Oi Ei )
= ,
i=1
Ei
donde Oi es la frecuencia observada y Ei la esperada bajo H0 . Entonces la

region crtica de nivel (aproximado) sera
A1 = {x, Dn (x) Xm1; }.
La aproximacion funciona bien si np0i 5 para todo i.
Ejemplo 4.2.1 Ejemplo 4.2.2 Se lanza un dado 2000 veces con los siguientes
resultados:
1 2 3 4 5 6
388 322 314 316 344 316
Se puede pensar que el dado esta equilibrado? Es decir queremos hacer el con-
traste:
1 1 1 1 1 1
H0 : p=( , , , , , )
6 6 6 6 6 6
1 1 1 1 1 1
H1 : p 6= ( , , , , , )
6 6 6 6 6 6
Calculamos
6
X (pi 61 )2
Dn (x) = n 1 (4.1)
i=1 6
donde
388 322 314
p1 = = 0.194, p2 = = 0.161, p3 = = 0.157,
2000 2000 2000
316 344 316
p4 = = 0.158, p5 = = 0.172, p6 = = 0.158.
2000 2000 2000
Esto da un valor
6
X 1
Dn (x) = 2000 (pi )2 6 = 12.6. (4.2)
i=1
6
La aproximacion asintotica funciona bien ya que np0i = 2000

6 5. Si miramos
las tablas de una 25 obtenemos que 25;0.05 = 11.07. Por tanto Dn (x) > 25;0.05
y rechazamos H0 .Los datos haban sido simulados con una distribucion teorica
p01 = 0.2, p02 = p03 = p04 = p05 = p06 = 0.16. Notemos que 1/6 = 0.167.
4.2.2 Ajuste a una familia de mutinomiales

En el modelo multinomial anterior podemos contrastar si nuestra multinomial
pertenece a una familia de mutinomiales. Es decir podemos contrastar las
hipotesis
H0 : (p1 , p2 , ..., pm ) = (p1 (), p2 (), ..., pm ())

H1 : (p1 , p2 , ..., pm ) 6= (p1 (), p2 (), ..., pm ()).
donde Rl , l < m 1 donde p() es una subvariedad de dimension l
(de manera que podemos coordenar todos los valores de p con los valores de
y m 1 l coordenadas adicionales), sabemos que en tal caso y bajo H0 el
estadstico de Wilks W (x) = 2 log (x) tiene una distribucion aproximada (si
2
n es grande) Xml1 . Tenemos que
!npi
sup mi=1 pi ()
ni
m
i=1 pi ()
ni
pi ()
(x) = n = n = m
i=1
supp mi=1 pi
i
mi=1 pi
i
pi
ni
con pi = n. Haciendo desarrollos de Taylor analogos a los anteriores, se puede
ver que
2
m
X pi npi ()
W (x) = 2 log (x) = n + oP (1)
i=1 pi ()
donde oP (1) indica terminos que convergen en probabilidad a cero cuando n va
a infinito. En la practica se utiliza entonces el estadstico de Pearson
2
Xm pi npi ()
Dn (x) = n
i=1 pi ()
2
para construir la region crtica del test, y como Dn (x) Xml1 (aprox.) si n
es grande tendremos que una region crtica de nivel aproximadamente vendra
dada por
2
A1 = {x, Dn (x) Xml1; }
y la aproximacion funciona bien si npi ( ni ) 5.
Ejemplo 4.2.3 Queremos contrastar:

2+ 1 1
H0 : p() = , , , , (0, 1)
4 4 4 4
H1 : p 6= p()
en la muestra se obtuvieron los siguientes resultados:
n1 n2 n3 n4
1997 906 904 32
Necesitamos calcular . La verosimilitud bajo H0 viene dada por

n n n n
2+ 1 1 2 1 3 4
L(x; ) = (4.3)
4 4 4 4
de manera que
n1 n2 + n 3 n4
log L(x; ) = + =0 (4.4)
2+ 1
implica
(n1 + n2 + n3 + n4 ) 2 (n1 2n2 2n3 n4 ) 2n4 = 0. (4.5)
Esto es:
3839 2 + 1665 64 = 0. (4.6)
Las soluciones son: = 0.0355281 y = 0.469235. Por tanto = 0.0355281
y
2 + 0.0355281
np1 () = 3839 = 1953.77
4
1 0.0355281
np2 () = np3 () = 3839 = 925.652
4
0.0355281
np4 () = 3839 = 34.0981
4
Entonces:
Dn (x)
4
X (ni npi ())2
=
i=1 npi ()
(1997 1953.77)2 (906 925.652)2 (904 925.652)2 (32 34.0981)2
= + + +
1953.77 925.652 925.652 34.0981
= 2.00931,
y si miramos las tablas de una 22 obtenemos 22;0.05 = 5.9914 por tanto estamos
en la region de aceptacion.
4.2.3 Test de independencia de dos multinomiales

Sean X e Y dos variables con r y s valores distintos respectivamente. Supong-
amos n observaciones independientes del par (X, Y ) queremos saber si X e
Y son independientes y esto lo traduciremos en un problema de contraste de
hipotesis. En primer lugar notemos que podemos indicar que el resultado de la
observacion de (X, Y ) ha sido (xi , yj ) de la siguiente forma
XY y1 ... yj ... ys

x1 0 0 0
..
.
xi 0 1 0
..
.
xr 0 0 0
de manera que podemos pensar que observamos una muestra de tamano n de

una Bernoulli r s-dimensional, con probabilidades
pij = P (X = xi , Y = yj ), i = 1, .., r; j = 1, ..., s.
El resultado de las n-observaciones independientes se puede escribir en la forma

de lo que se llama una tabla de contingencia
XY y1 ... yj ... ys

x1 n11 n1j n1s n1
..
.
xi ni1 nij nis ni
..
.
xr nr1 nrj nrs nr
n1 nj ns n
Escribamos
pi = P (X = xi ), pj = P (Y = yj ), i = 1, .., r; j = 1, ..., s.
Entonces X e Y seran independientes si y solo si
pij = pi pj , i = 1, .., r; j = 1, ..., s.
de manera que contrastar esta condicion de independencia es equivalente a con-

siderar en el modelo multinomial r s-dimensional asociado, el contraste
H0 : (pij ) 1ir = (pi pj ) 1ir

1js 1js
H1 : (pij ) 1ir 6= (pi pj ) 1ir .
1js 1js
Notemos que se trata de un test de ajuste a una familia de multinomiales.

Utilizaremos entonces el estadstico de Pearson
r X s 2
X (nij ncpi pc
j )
Dn (x, y) =
i=1 j=1
nc
pi pc
j
donde pci y p
c j son los EMV de pi y pj respectivamente. Para calcularlos hay
que escribir la verosimilitud bajo H0 que vendra dada por
n nij
L(x, y; (pij )) = ri=1 sj=1 pijij = ri=1 sj=1 (pi pj )
n
= ri=1 pnii sj=1 pjj
P P
donde ni = j nij y nj = i nij . Entonces es inmediato que
ni nj
pc
i = , pc
j = .
n n
De manera que finalmente
r X s 2
X (nij ni nj /n)
Dn (x, y) = .
i=1 j=1
ni nj /n
Este estadstico, cuando n es grande (la regla es que nij 5) se comportara

como una Ji-cuadrado con grados de libertad dim dim 0 ,pero
dim = rs 1
y
dim 0 = r 1 + s 1,
de manera que
dim dim 0 = rs 1 r + 1 s + 1
= rs r s + 1
= (r 1)(s 1)
y la region crtica de nivel (aprox.) vendra dada por
2
A1 = {(x, y), Dn (x, y) X(r1)(s1); }
Ejemplo 4.2.4 La siguiente tabla nos da el numero de mujeres, de un grupo de
7477, de edades comprendidas entre 30 y 40 anos con un grado de vision entre
1 y 4 en cada uno de los ojos. Queremos contrastar, a nivel = 0.05 si hay
independencia entre la vision de ambos ojos.
Ojo izquierdo
1 2 3 4 Totales
Ojo derecho
1 n11 = 1520 n12 = 266 n13 = 124 n14 = 66 n1 = 1976
2 n21 = 234 n22 = 1512 n23 = 432 n24 = 78 n2 = 2256
3 n31 = 117 n32 = 362 n33 = 1772 n34 = 205 n3 = 2456
4 n41 = 36 n42 = 82 n43 = 179 n44 = 492 n4 = 789
Totales n1 = 1907 n2 = 2222 n3 = 2507 n4 = 841 n = 7477
Queremos hacer el contraste de hipotesis:
H0 : pij = pi pj (independencia) (4.7)

H1 6 pi pj
: pij = (4.8)
Por tanto
XX c c XX
Dn (x, y)
cc
4 4 4 4
(nij npi pj )2 (nij ni nj /n)2
= =
i=1 j=1
npi pj i=1 j=1
ni nj /n
19761907 2
(1520 7477
) (266 19762222
7477
)2 (124 19762507
7477
)2 (66 1976841
7477
)2
= 19761907 + 19762222 + 19762507 + 1976841
7477 7477 7477 7477
2 22562222 2 22562507 2 2256841 2
(234 22561907
7477
) (1512 7477
) (432 7477
) (78 7477
)
+ 22561907 + 22562222 + 22562507 + 2256841
7477 7477 7477 7477
2 24562222 2 24562507 2 2456841 2
(117 24561907
7477
) (362 7477
) (1772 7477
) (205 7477
)
+ 24561907 + 24562222 + 24562507 + 2456841
7477 7477 7477 7477
2 7892222 2 7892507 2 789841 2
(36 7891907
7477
) (82 7477
) (179 7477
) (492 7477
)
+ 7891907 + 7892222 + 7892507 + 789841
7477 7477 7477 7477
= 8096.88
Sabemos que Dn tiene aproximadamente una distribucion 29 y si vamos a las

tablas obtenemos que P {29 > 16.92} = 0.05 y el valor de Dn es muy superior
a 16.92, de hecho solo con calcular el primer sumando hubieramos obtenido
2048.32 y esto ya nos hubiera conducido a rechazar la hipotesis nula, esto es la
hipotesis de independencia.
Antes de continuar adelante notemos que la razon de verosimilitudes en el

caso del contraste anterior de independencia viene dado por
ni s nj ni s n nj
ri=1 pc
i j=1 pc j ri=1 nni j=1 nj
(x, y) = n = n nij
ri=1 sj=1 pijij ri=1 sj=1 nij
ri=1 ni ni sj=1 nj nj
= nn
ri=1 sj=1 nij nij
Test de homogeneidad de varias multinomiales.

Supongamos r variables multinomiales independientes, Z1 , Z2 , ..., Zr que pueden
tomar cada una s valores z1 , z2 , ..., zs con probabilidades (desconocidas obvia-
mente) X
P (Zi = zj ) = pij , pij > 0, pij = 1,
j
queremos saber si las variables Zi tienen la misma distribucion, esto es si
pij = pj , i, j
de manera que la probabilidad de observar el valor zj es la misma para todas

las variables Zi esto es, P (Zi = zj ) solo depende del ndice j. Supongamos que
tenemos una muestra con ni observaciones de la variable Zi . Escribiremos ni en
lugar de ni ; nuestro modelo estadstico sera el de r mutinomiales s-dimensionales
independientes con parametros pij , j = 1, ..., s, y tamanos muestrales ni , re-
spectivamente. Se trata de un problema de r muestras. La verosimilitud del
modelo sera
n
L(x; (pij )) = ri=1 sj=1 pijij
P P
donde j pij = 1 y j nij = ni . El resultado de las observaciones se puede
escribir tambien en forma de tabla de contingencia
V ariableresultado z1 ... zj ... zs

Z1 n11 n1j n1s n1
..
.
Zi ni1 nij nis ni
..
.
Zr nr1 nrj nrs nr
n1 nj ns n
En este modelo queremos hacer el contraste
H0 : (pij )1jn = (pj )1jn , i = 1, ..., r

H1 : para algun i , (pij )1jn 6= (pj )1jn .
La verosimilitud bajo la hipotesis nula es

n
ri=1 sj=1 pj ij
Pn
L(x; (pj )1jn ) =
n
= sj=1 pj i ij
= sj=1 pj j .
Podemos construir el TRV y obtenemos
sj=1 pbj nj
(x) = nij
ri=1 sj=1 pcij
n nj
sj=1 nj
= nij
n
ri=1 sj=1 nij i
ri=1 nnii sj=1 nj nj

= nn n
ri=1 sj=1 nijij
la misma expresion que en el caso del contraste de independencia!. Si aplicamos

el teorema de Wilks tendremos que 2 log (X), si los tamanos muestrales
son grandes, tendra un distribucion ji-cuadrado con grados de libertad dim
dim 0 ,pero
dim = r(s 1)
4.3. TEST JI-CUADRADO DE AJUSTE, INDEPENDENCIA Y HOMOGENEIDAD.J.M. Corcuera
y
dim 0 = s 1,
de manera que
dim dim 0 = r(s 1) (s 1)
= (r 1)(s 1),
igual que en el caso del contraste de independencia!. Al igual que en el caso de
independencia se utiliza el estadstico de Pearson en lugar de 2 log (x), por
comparacion con el caso de independencia, tendremos que
r X s 2
X (nij ni nj /n)
Dn (x) = .
i=1 j=1
ni nj /n
seguira aproximadamente una ji-cuadrado con (r 1)(s 1) grados de libertad.

Ejemplo 4.2.5 Disponemos de dos muestras de estudiantes, la primera de es-
cuelas privadas, la segunda de escuelas publicas. Los resultados son relativos a
un determinado test de conocimientos.
Puntuacion del test
0-275 276-350 351-425 426-450 Totales
Tipo de escuela
Privada 6 14 17 9 46
Publica 30 32 17 3 82
Totales 36 46 34 12 128
Como hemos visto, contrastar la hipotesis de homogeneidad corresponde a con-
trastar la independencia entre las variables Puntuacion del test y Tipo de
escuela. Por tanto hay que calcular
XX
Dn (x)
2 4
(nij ni nj /n)2
=
i=1 j=1
ni nj /n
4636 2 4646 2 4634 2 4612 2
(6 128
) (14 128
) (17 128
) (9 128
)
= 4636 + 4646 + 4634 + 4612
128 128 128 128
(30 8236
128
)2 (32 8246
128
)2 (17 8234
128
)2 (3 8212
128
)2
+ 8236 + 8246 + 8234 + 8212
128 128 128 128
= 17.2858
Entonces como P {23 > 7.815} = 0.05 resulta que estamos en la region crtica y
rechazamos la hipotesis de homogeneidad.
4.3 Test Ji-cuadrado de ajuste, independencia y

homogeneidad.
Si partimos de la observacion de variables iid cualesquiera siempre podemos
substituirlas por variables multinomiales de manera aproximada agrupando los
datos cuando sea necesario. Una vez aproximadas las variables por multinomi-
ales podemos hacer los test anteriores y tendremos los llamados test Ji-cuadrado.
Vamos a ver un ejemplo de test Ji-cuadrado de ajuste a una familia.
Ejemplo 4.3.1 Disponemos de los tiempos de vida de 50 componentes electronicos

del mismo tipo, queremos ver si se ajusta a una distribucion exponencial.
262.8 1.0 36.4 4.0 59.4 35.3 70.5 22.6 3.7 5.8
32.1 0.5 17.4 77.6 46.7 182.4 76.7 3.5 13.4 29.7
6.1 15.1 110.5 45.9 31.7 22.4 27.8 10.0 33.0 26.7
8.0 6.8 63.0 70.9 30.0 12.2 29.6 3.3 32.2 12.3
128.2 24.6 7.0 39.8 71.1 19.4 5.4 4.4 54.4 24.8
Hacemos una particion del intervalo [0, ) mirando que el numero de observa-
ciones en cada intervalo sea superior o igual a 5. Una posible es
I1 = [0, 20), I2 = [20, 40), I3 = [40, 70), I4 = [70, ) (4.9)
entonces el numero de observaciones en cada intervalo es, respectivamente,
n1 = 20, n2 = 16, n3 = 5, n4 = 9. (4.10)
Bajo la hipotesis nula de que los datos siguen una exponencial de parametro
de manera que la probabilidad de observar resultados en un intervalo (a, b) viene
por
Z b
p((a, b)) = ex dx = ea eb (4.11)
a
As las probabilidades de observar resultados en los intervalos I1 , I2 , I3 ,y I4 , bajo

H0 , seran, respectivamente,
p1 () = 1 e20 , p2 () = e20 e40 , p3 () = e40 e70 , p4 () = e70 .

(4.12)
Para estimar utilizaremos los datos sin agrupar, esto es calcularemos la esti-
macion maximo-verosmil de suponiendo que los 50 datos son exponenciales
en lugar de que los cuatro datos, ni , i = 1, 2, 3, 4, son multinomiales con
parametros pi (), i = 1, 2, 3, 4. Esto no cambia el comportamiento asintotico del
estadstico de Pearson:
4
X (ni npi ())2
Dn (x) = , (4.13)
i=1
npi ()
L P4
esto es Dn 22 , donde n = i=1 ni = 50 es el tamano muestral. La
n
P
estimacion maximo-verosmil de es = 50n x = 0.0243. Esto hace que
i=1 i
np1 () = 19.25, p2 () = 11.8, p3 () = 6.35, p4 () = 12.6. (4.14)

4.3. TEST JI-CUADRADO DE AJUSTE, INDEPENDENCIA Y HOMOGENEIDAD.J.M. Corcuera
Dn (x)
4
X (ni npi ())2
=
i=1
npi ()
(20 19.25)2 (16 11.8)2 (5 6.35)2 (9 12.6)2
= + + +
19.25 11.8 6.35 12.6
= 2.80162.
Como P {22 > 5.99} = 0.05, resulta que 22; 0.05 = 5.99 con lo que Dn (x) <
22; 0.05 y estamos en al region de aceptacion. As es razonable pensar que los
datos siguen una distribucion exponencial.
4.4 Test de ajuste y homogeneidad no parametricos.

4.4.1 La distribucion emprica
Los test de ajuste y homogeneidad anteriores se basan en discretizar la variable
original, entonces uno se pregunta si no podramos crear test que no requieran
este paso. Una funcion que caracteriza la ley de las observaciones es la funcion
de distribucion y tenemos el equivalente emprico.
Definicion 4.4.1 Sean n observaciones iid denominaremos funcion de dis-

tribucion emprica a la funcion de distribucion, que depende de la muestra
x = (x1 , x2 , ..., xn ), dada por
n
1X
Fn (x, y) = 1(,y] (xi ), y R
n i=1
Es una funcion escalonada continua por la derecha, que pega un salto n1 en

x(1) , otro del mismo tamano en x(2) y as sucesivamente hasta llegar al valor 1.
Si las n observaciones iid tienen funcion de distribucion F , tenemos las
siguientes propiedades de Fn (x, y).
Proposicion 4.4.1
c.s.
Fn (X, y) F (y), y R
n
Demostracion. Por la ley fuerte de los grandes numeros

c.s.
Fn (X, y) EF (1(,y] (X1 ))) = PF (X1 y) = F (y).
n
Observacion 4.4.1 Notemos que tambien tenemos que

n
1X c.s.
Fn (X, y) = 1(,y) (Xi ) EF (1(,y) (X1 ))) = PF (X1 < y) = F (y)
n i=1 n
Incluso la convergencia es uniforme. Definamos el estadstico

n (x) = sup Fn (x, y) F (y) ,

yR
tenemos el siguiente resultado,
Teorema 4.4.1 (Glivenko-Cantelli)

c.s.
n (X) 0
n
4.4. TEST DE AJUSTE Y HOMOGENEIDAD NO PARAMETRICOS.J.M. Corcuera
Demostracion. Utilizamos el convenio habitual F () := limy F (y).

Escribamos
F 1 (z) := inf{x, F (x) z}
Sea m 2 entero y consideremos los puntos
(m) k
yk = F 1 ( ), k = 0, ..., m.
m
(m) (m)
Notemos que y0 = y que Fn (X, y) = F (y) = 1 (c.s.) si y ym . Sea
(m) (m)
entonces y [yk , yk+1 ), k = 1, .., m 1. Tenemos
(m) (m)
Fn (x, y) F (y) Fn (x, yk+1 ) F (yk )
(m) (m) (m) (m)
Fn (x, yk+1 ) F (yk+1 ) + F (yk+1 ) F (yk )
(m) (m) k+1 k
Fn (x, yk+1 ) F (yk+1 ) +
m m
(m) (m) 1
Fn (x, yk+1 ) F (yk+1 ) + .
m
y
(m) (m)
Fn (x, y) F (y) Fn (x, yk ) F (yk+1 )
(m) (m) (m) (m)
Fn (x, yk ) F (yk ) + F (yk ) F (yk+1 )
(m) (m) k k+1
Fn (x, yk ) F (yk ) +
m m
(m) (m) 1
Fn (x, yk ) F (yk )
m
En definitiva
n o
(m) (m) (m) (m)
Fn (x, y) F (y) max max Fn (x, yk ) F (yk ) , Fn (x, yk+1 ) F (yk+1 )

0km1
1
+ .
m
De manera que, con probabilidad uno,
1
lim sup sup Fn (X, y) F (y) ,

y m
el resultado se sigue tendiendo m a infinito.
4.4.2 Test de Kolmogorov-Smirnov

A la vista de estas propiedades parece razonable comparar la funcion de dis-
tribucion emprica con la que suponemos es la teorica para ver si realmente lo
es. Por ejemplo, supongamos que en un modelo de observaciones iid con funcion
de distribucion F queremos contrastar
H0 : F = F0
H1 : F 6= F0
donde F0 representa una funcion de distribucion concreta. Entonces una region
crtica razonable consistira en
A1 = {x, n (x) K}
donde
n (x) = sup Fn (x, y) F0 (y)

y
es decir, si la funcion de distribucion emprica difiere mucho de la teorica rechaz-

amos la hipotesis nula. Pero para poder aplicar este test necesitamos conocer
la distribucion de n al menos bajo F0 y as poder calcular K para que
PF0 (n K) =
y as poder tener un tets de nivel . Afortunadamente tenemos la proposicion:
Proposicion 4.4.2 Si tenemos una muestra iid de tamano n de una variable
con una distribucion continua F0 , n tiene una distribucion que no depende de
F0 .
Demostracion. Como F0 (y) y Fn (x, y) son ambas crecientes

sup Fn (X, y) F0 (y) = sup Fn (X, X(i) ) F0 (X(i) ) , Fn (X, X(i) ) F0 (X(i) )

y i

i i 1
= sup F0 (X(i) ) ,
F0 (X(i) )
i n n

i i 1
= sup F0 (X)(i) , F0 (X)(i) ,
i n n
pero F0 (X) U (0, 1) de manera que

i i 1
sup Fn (y) F0 (y) sup U(i) , U(i)

y i n n
donde Ui son observaciones iid de una variable U con ley uniforme en (0, 1).
Esta distribucion esta tabulada y permite construir lo que se llama el test

de ajuste de Kolmogorov-Smirnov.
Ejemplo 4.4.1 Queremos contrastar si el conjunto de datos siguiente se ajusta
a una distribucion N(2, 1),
0.3, 0.7, 0.9, 1.2, 1.3, 1.4, 1.5, 1.6, 1.9, 2.0, 2.1, 2.2, 2.3, 2.5, 2.6,
2.7, 3.0, 3.8, 3.9, 4.0.
4.4. TEST DE AJUSTE Y HOMOGENEIDAD NO PARAMETRICOS.J.M. Corcuera
En este caso n = 20. Escribamos

(x(i) ) = max Fn (x, x(i) ) F0 (x(i) ) , Fn (x, x(i) ) F0 (x(i) )

y para indicar la funcion de distribucion de una N(0, 1). Tendremos

x2 -1.7 -1.3 -1.1 -0.8 -0.7 -0.6 -0.5 -0.4 -0.1 0
10Fn (x(i) ) 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
10(x(i) ) 0.4 1 1.3 2.1 2.4 2.7 3.1 3.4 4.6 5
100(x(i) ) 4 5 3 6 4 3 4 6 6 5
x2 0.1 0.2 0.3 0.5 0.6 0.7 1 1.8 1.9 2
10Fn (x(i) ) 5.5 5.6 6.5 7 7.5 8 8.5 9 9.5 10
10(x(i) ) 5.4 5.8 6.2 6.9 7.3 7.6 8.4 9.6 9.7 9.8
100(x(i) ) 4 3 3 4 3 4 4 11 7 3
Por tanto 20 (x) = 0.11, si vamos a las tablas obtenemos que 20;0.05 = 0.291
por tanto estamos en la region de aceptacion.
Tambien se puede contrastar la homogeneidad si tenemos dos muestras inde-
pendientes X1 , X2 , ..., Xn1 y Y1 , Y2 , ..., Yn2 con distribuciones continuas F1 , F2 ,
esto es
H0 : F1 = F2
H1 : F1 6= F2
entonces la region crtica que propone el test de Kolmogorov-Smirnov es
A1 = {(x, y), n1 ,n2 (x, y) K}
donde
n1 ,n2 (x, y) = sup Fn(1) (x, z) F (2)
(y, z)

1 n2
z
Ejemplo 4.4.2 Los datos siguientes corresponden a las longitudes en cm de

plantes obtenidas en dos cultivos de manera independiente, fertilizadas con dos
tipos de adobe. Se quiere contrastar la hipotesis de que la distribucion de las
longitudes es las misma en ambos casos.
Ejemplo 4.4.3
Adobe A 7 8 10 12 10 13 9 10
Adobe B 11 10 12 13 10 15 17 16
Tenemos entonces
y 7 8 9 10 11 12 13 14 15 16 17
(1) 1 2 3 6 6 7
Fn1 (y) 8 8 8 8 8 8 1 1 1 1 1
(2) 2 3 4 5 5 6 7
Fn2 (y) 0 0 0 8 8 8 8 8 8 8 1
(1) (2) 1 2 3 4 3 3 3 3 2 1
Fn1 (y) Fn2 (y) 0

8 8 8 8 8 8 8 8 8 8
por tanto 8,8 (x, y) = 84 . En las tablas se obtiene que 8,8;0.05 = 68 , con lo
que estamos en la region de aceptacion y podemos decir que ambos fertlizantes
producen el mismo efecto.
Captulo 5
El modelo lineal
Supongamos un modelo estadstico que corresponde a n observaciones Y1 , Y2 , ..., Yn

independientes y tales que
E(Yi ) = 0 + 1 xi1 + ... + p1 xip1
y V ar(Yi ) = 2 , i = 1, ..., n(n > p). Donde los j son parametros desconoci-
dos (coeficientes de regresion, parametros,...) y los xij (regresores, covariables,
factores,...) son valores conocidos. Esto es
Yi = 0 + 1 xi1 + ... + p1 xip1 + i ,
E(i ) = 0, V ar(i ) = 2 , i = 1, ..., n
Diremos que tal modelo es un modelo lineal. Con notacion vectorial
Y = X +
donde

Y1 1 x11 x1p1
Y = ... , X = ... ... .. ..
,

. .
Yn 1 xnp1 xnp1

1 1
= ... , = ... .

n n
Si la variable respuesta, Y, y las covariables x, son cuantitativas, diremos que
se trata de un modelo de regresion, si las covariables son cualitativas (0 o 1)
el modelo se suele llamar de analisis de la varianza, si en las covariables hay
variables cuantitativas y cualitativas se suele llamar modelo de analisis de la
covarianza.
Estos modelos fueron introducidos por Legendre en 1805 (obtuvo lo que se
llama las ecuaciones normales) estudiados por Gauss (1823) y Fisher (1922) que
introdujo los modelos de analisis de la varianza.
87
88 CAPITULO 5. EL MODELO LINEAL
5.1 Estimacion de los parametros

Notemos que no hay verosimilitud ya que solo esta definida la estructura de la
media de las Y pero no su ley (modelo semiparametrico). Sin embargo podemos
buscar de manera que las observaciones yi difieran de 0 + 1 xi1 + ... +
p1 xip1 lo mnimo posible. Mas concretamente
X
(yi ( 0 + 1 xi1 + ... + p1 xip1 ))2 = min
Tambien podemos escribir, la condicion anterior como
||y X||2 = min,
donde || || representa la norma eucldea en Rn .Notemos que

1 x11 x1p1
.. .. .
X = 0 . + 1 . + ... + p1 ..

1 xn1 xnp1
De manera que {X, Rn } es el subespacio vectorial de Rn generado por las

columnas de X := R(X). Entonces es una solucion a nuestro problema si X
es la proyeccion ortogonal de y en R(X), en efecto
y X R(X)
implica que
||y X||2 = ||y X + X X||2

= ||y X ||2 + ||X X||2 + 2hy X , X X|i
= ||y X ||2 + ||X X||2 ||y X ||2 .
Si X es de rango pleno, es decir sus p columnas son linealmente independientes,

se puede determinar de manera unica:
y X R(X)
equivale a
X 0 (y X ) = 0
donde la prima indica traspuesta. De manera que
X 0 X = X 0 y
y como X 0 X es no singular al ser X de rango pleno, resulta

1
= (X 0 X) X 0 y.
Esta estimacion se denomina mnimo-cuadratica.

5.1. ESTIMACION DE LOS PARAMETROS J.M. Corcuera
5.1.1 Propiedades del estimador mnimo-cuadratico

1
= (X 0 X) X 0Y
es lineal en Y :
1
= BY, con B = (X 0 X) X 0,
es insesgado:
1
E () = E ((X 0 X) X 0Y )
1
= (X 0 X) X 0 E (Y )
1
= (X 0 X) X 0 X = .
Su matriz de varianzas-covarianzas viene dada por
V ar () = V ar (BY ) = BV ar (Y )B 0
1 1
= 2 (X 0 X) X 0 X (X 0 X)
1
= 2 (X 0 X) .
Teorema 5.1.1 (Gauss-Markov) Sea c Rp , consideremos la funcion lineal de

, c0 , donde la prima indica traspuesta. Entonces c0 es el mejor estimador
lineal insesgado (BLUE: Best linear unbiased estimator).
Demostracion. Sea 0 Y un estimador lineal insesgado de c0 , se debera
cumplir que
E (0 Y ) = c0 , ,
de manera que
0 E (Y ) = 0 X = c0 ,
de manera que
0 X = c0 .
Comparemos su varianza con la de c0 ,
V ar (0 Y ) = 0 V ar (Y )
= 2 0 ,
por otra parte
V ar (c0 ) = c0 V ar ()c
1
= 2 c0 (X 0 X) c.
Por tanto
1
V ar (0 Y ) V ar (c0 ) = 2 (0 c0 (X 0 X) c)
2 0 0 0 1
= ( X (X X) c)
2 0 1 2
= || X (X X) c|| 0,
en efecto
1 1 1
|| X (X 0 X) c||2 = ( X (X 0 X) c)0 ( X (X 0 X) c)
0
1 1
= 0 0 X (X 0 X) c X (X 0 X) c
0
1 1
+ X (X 0 X) c X (X 0 X) c
1 1 1
= 0 20 X (X 0 X) c + c0 (X 0 X) X 0 X (X 0 X) c
0 0 0 1 0 0 1
= 2 X (X X) c + c (X X) c
0 0 0 1 0 0 1
= 2 X (X X) c + X (X X) c
0 0 0 1
= X (X X) c.
1
Observacion 5.1.1 Notemos que habra igualdad si y solo si X (X 0 X) c=
1
0, de manera que 0 Y = c0 (X 0 X) X 0 Y = c0 .
5.1.2 Estimacion mnimo cuadratica de 2 .

Vamos a suponer que es tambien un parametro a estimar. Notemos primero
ciertas propiedades. En primer lugar e := Y X , es una estimacion de los
errores, y como X es la proyeccion de Y sobre R(X) , tenemos en particular
que

1
Y X ... ,

1
con lo que
X X
ei = Yi X = 0.
i
Asimismo
1
X = X (X 0 X) X 0Y = P Y
donde
1
P = X (X 0 X) X0
1
Proposicion 5.1.1 P = X (X 0 X) X 0 es la matriz proyeccion ortogonal sobre
R(X). Es por tanto una matriz, simetrica, idempotente y existira una matriz
ortogonal Q, (n n) tal que

Ip 0
P =Q Q0
0 0
donde Ip es la matriz identidad de dimension p.

5.1. ESTIMACION DE LOS PARAMETROS J.M. Corcuera
Demostracion. Sea u Rn , entonces

1
P u = X (X 0 X) X 0 u = Xh R(X)
1
con h = (X 0 X) X 0 u Rp , ademas
1
X 0 (u P u) = X 0 (In X (X 0 X) X 0 )u

1
= X 0 X 0 X (X 0 X) X 0 u
= (X 0 X 0 ) u = 0.
Por tanto es la matriz de proyeccion ortogonal sobre R(X).

Sea Q una matriz ortogonal cuyas p primeras columnas son vectores ortonor-
males que constituyen una base de R(X). Obviamente tendremos

Ip 0
Q0 P Q = .
0 0
Observacion 5.1.2 Es obvio que In P sera la matriz proyeccion ortogonal

sobre R(X) (el complementario ortogonal) y existira una matriz ortogonal R
tal que
Inp 0
In P = R R0
0 0
Lema 5.1.1 Sea A una matriz n n determinista y Z un vector aleatorio n-

dimensional con E(Z) = y matriz de varianzas-covarianzas V ar(Z) = .
Entonces
E(Z 0 AZ) = traza(A) + 0 A
Demostracion.
0
E(Z 0 AZ) = E((Z ) A (Z )) + 0 A
0
= E(traza((Z ) A (Z )) + 0 A,
ahora bien
0
X
traza((Z ) A (Z ) = (Z )1i Aij (Z )j1
i,j
X
= Aij (Z )j1 (Z )1i
i,j
X X
= il Alj (Z )j1 (Z )1i
i,l j
0
= traza(A (Z ) (Z ) ),
de manera que
0
E(Z 0 AZ) = E(traza(A (Z ) (Z ) ) + 0 A
0
= traza AE((Z ) (Z ) ) + 0 A
= traza (A) + 0 A.
Proposicion 5.1.2 (Gauss)
||Y X ||2
2 :=
np
es un estimador insesgado de 2 .
Demostracion.

E ||Y X ||2 = E(||(In P )Y ||2 )
= E(Y 0 (In P )0 (In P )Y )
= E(Y 0 (In P )Y )
= traza( 2 (In P )In ) + 0 X 0 (In P )X
= 2 (n p)
ya que al ser X R(X), (I P )X = 0.
5.2 El modelo lineal normal

Hasta ahora las hipotesis en el modelo lineal sobre eran E() = 0 y matriz
de varianzas-covarianzas V () = 2 In . Si anadimos que tiene distribucion
Gaussiana tendremos el modelo lineal normal. Notemos que como Y = X + ,
resultara que Y Nn (X, 2 In ). Tenemos una generalizacion del teorema de
Fisher.
i) Np (, 2 (X 0 X)1 )
0
ii) ( )0 X2X ( ) Xp2
iv) y 2 son independientes

(np) 2 2
v) 2 Xnp
Demostracion. i) es trivial. ii):

X 0X
( )0 ( ) = ( )0 V ()1 ( )
2
= ( )0 V ()1/20 V ()1/2 ( )
= Z 0Z
5.2. EL MODELO LINEAL NORMAL J.M. Corcuera
con
Z = V ()1/2 ( ) Np (0, Ip ).
iii): Si demostramos que y = Y X son independientes ya esta entonces
como la conjunta de y cualquier subconjunto de las i es normal, bastara ver
que la covarianza es cero.
1
Cov(, Y X ) = Cov((X 0 X) X 0 Y, (I P )Y )
1 0
= (X 0 X) X 0 Cov(Y, Y )(I P )
1 0
= 2 (X 0 X) X 0 (I P ) = 0.
iv)
||Y X ||2 Y 0 (I P )Y
2 = =
np np
0
(Y X) (I P )(Y X)
= ,
np
ahora bien
Inp 0
I P =R R0
0 0
con R ortogonal y
1
U := (Y X) Nn (0, In )

por tanto
np
(n p) 2 X
2
= Ui2 Xnp
2
i=1
5.2.1 Estimacion maximo verosmil

Es inmediato comprobar que el EMV de y el estimador mnimo-cuadratico
coinciden. Y que el EMV de 2 es
1
2 = ||Y X ||2
n
y que por tanto tiene sesgo.
5.2.2 Prediccion
2
Sabemos que Np (, 2 (X 0 X)1 ) y (np)
2
2
Xnp independiente de . De
esta manera ai queremos dar un intervalo para la media de las observaciones
cuando los regresores son (1, x1 , x2 , .., xp1 ) := x0 bastara tener en cuenta que
x0 N (x0 , 2 x0 (X 0 X)1 x),

y as
x0 x0
2 x0 (X 0 X)1 x
q tnp
(np) 2
(np) 2
esto es
x0 x0
q tnp .
2 x0 (X 0 X)1 x
Esto nos dara intervalos de confianza para x0 :
q
x0 tnp;/2 2 x0 (X 0 X)1 x.
Si quisieramos dar un intervalo para una observacion futura Yn+1 = x0 + n+1 ,

entonces
Yn+1 x0 = x0 x0 + n+1
de manera que
Yn+1 x0 N (0, 2 (x0 (X 0 X)1 x + 1))
tendremos as que un intervalo de prediccion para Yn+1 vendra dado por

q
x0 tnp;/2 2 (1 + x0 (X 0 X)1 x).
5.2.3 Contraste de hipotesis

Sea H una matriz q p de rango q y c Rq . Consideremos el problema de
contrastar
H0 : H = c
H1 : H 6= c.
Vamos a calcular el TRV.

1 1 X
L(y; , ) = n exp{ (yi (X)i )2 }.
( 2 ) 2 2
entonces
sup,;H=c L(y; , )
(x) =
L(y; , )
L(y; H , H )
=
L(y; , )
donde H es el EMV con la restriccion H = c.Es inmediato que

1
2H = ||Y X H ||2 ,
n
5.2. EL MODELO LINEAL NORMAL J.M. Corcuera
y que
n2
2

(x) = .
2H
Se acostumbra a escribir
RSS = ||Y X ||2 y RSSH = ||Y X H ||2 (RSS: residual sum of squares),
de manera que
n2
2

(x) =
2H
n2 ! n2
RSS 1
= = RSSH RSS
RSSH 1+ RSS
n2
1
= q (RSSH RSS)/q

1+ np RSS/(np)
Entonces
(RSSH RSS) /q
(x) K C
RSS/ (n p)
De manera que la region crtica del TRV sera
(RSSH RSS) /q
A1 = {x, C},
RSS/ (n p)
resulta que C lo podemos calcular facilmente si fijamos el nivel de significacion
por le siguiente resultado.
Proposicion 5.2.1 Bajo H0
(RSSH RSS) /q
Fq,np ,
RSS/ (n p)
Lema 5.2.1 Si U Xr2 y V Xl2 con r > l y V y U V son independientes,
2
entonces U V Xrl .
Demostracion. Sea U () la funcion generatriz de momentos de U. En-
tonces U () = h()r para una cierta funcion h. Entonces V () = h()l .Por
otro lado, al ser V y U V independientes U () = U V ()V () con lo que
U V () = h()rl .
Demostracion. (De la proposicion). Sabemos que RSS/ 2 Xnp 2
(esto
se cumple bajo la hipotesis general en particular bajo H0 ). Veamos que bajo
H0 , RSSH / 2 Xn(pq)
2
. Basta considerar el caso c = 0, si c 6= 0 podemos
tomar 0 tal que H 0 = c y tomar
Y : = Y X 0 = X( 0 ) +
= X +
y ahora H0 : H = 0, ademas ||Y X H ||2 = ||Y X 0 X(

b )||2 = ||Y
b
H 0
2
X H || = RSSH . Notemos ahora que H := {X, H = 0} es un subespacio de
b
dimension p q de R(X), por tanto el estimador mnimo-cuadratico )(=EMV)
sera un b tal que X
H
b = PH Y y tendremos
H
= ||(In PH )Y ||2
= Y 0 (In PH )Y
= (Y X H )0 (In PH )(Y X H )

0 In(pq) 0
= (Y X H ) L L0 (Y X H ),
0 0
Y X H
con L ortogonal, y como bajo H0 , N (0, In ), resultara que
||Y X b ||2
H 2
2
Xn(pq) .

Por ultimo,
RSSH b ||2 = ||Y X ||

= ||Y X b 2 + ||X b ||2
b X
H H
b 2
= RSS + ||(In PH )X ||
de manera que
b 2
RSSH RSS = ||(In PH )X ||
independiente de RSS (por el teorema de Fisher) de manera que por el lema
anterior RSSH RSS Xq2 y como es independiente de RSS,
(RSSH RSS) /q
Fq,np
RSS/ (n p)
Observacion 5.2.1 Particularmente interesante es el llamado test de la re-

gresion
H0 : 1 = 2 = ... = p1 = 0
H1 : no todos los i , i 1 son cero.
Es un caso particular de los anteriores con c = 0 y H = (0, Ip1 ) (toda la

primera columna ceros). De esta manera q = p 1. Bajo H0 el modelo es
Y = 0 +
y 0H = Y , de manera que RSSH = ||Y Y ||2 y RSSH = RSS + ||X

b Y ||2 .
Una medida del ajuste de la regresion es
RSSH RSS
R2 = .
RSSH

Estad3d PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Estad3d PDF

Uploaded by

Copyright:

Available Formats

Estadstica

Jose Manuel Corcuera.

4.2.1 Ajuste a una mutinomial concreta . . . . . . . . . . . . . 70

1.1 Modelos estadsticos

Ejemplo 1.1.1 Suponemos que queremos saber cual es la probabilidad de que

Definicion 1.1.1 Un modelo estadstico es una terna (X , F, {P , }).

Observacion 1.1.1 X se denomina espacio muestral. n sera el tamano mues-

Observacion 1.1.2 Notemos que

La ley de X normalmente se denota PX para distinguirla de la ley P en (, A)

Ejemplo 1.1.2 (Modelo Bernoulli) Modelo inducido por n Bernoullis indepen-

Definicion 1.1.2 Diremos que un modelo estadstico es parametrico si Rd

Observacion 1.1.3 El modelo Bernoulli es parametrico con d = 1.

Ejemplo 1.1.3 Modelo Poisson: modelo inducido por n Poissons independi-

Ejemplo 1.1.4 Modelo normal con media y varianza desconocidas: modelo

Observacion 1.1.4 Los modelos anteriores son obviamente parametricos. Nos

Ejemplo 1.1.5 (Modelo no parametrico)

1.2 Estadsticos y estimadores.

k es la dimension del estadstico.

Ejemplo 1.2.1 Media muestral:

T (x1 , x2 , ..., xn ) = x(i)

Ejemplo 1.2.5 Rango

T (x1 , x2 , ..., xn ) = x(n) x(1)

Observacion 1.2.1 En todos estos ejemplos el estadstico es de dimension 1,

Observacion 1.2.2 Fijada la ley de probabilidad de X, T es un variable o

PT (B) = PX (T 1 (B)) = P (X 1 (T 1 (B)))

Por ejemplo si las Xi son

El proposito de la estimacion puntual es dar un valor razonable del verdadero

Definicion 1.2.2 Un estimador de g() es un estadstico que se usa para esti-

Ejemplo 1.2.6 En modelo Bernoulli de parametro p, podemos utilizar la media

1.3 Sesgo y error cuadratico.

Definicion 1.3.2 El sesgo de un estimador de g() R se define como la

Ejemplo 1.3.1 Consideremos el modelo Bernoulli, p es un estimador insesgado

ECMp (p) = Ep (p p)2 = V arp (p)

Definicion 1.3.4 Diremos que un estimador T (de cuadrado integrable), de

Proposicion 1.3.2 El estimador UMV es unico casi seguramente para todo

Demostracion. Bastara ver que E ((T1 T2 )2 ) = 0, . En efecto, por

0 var(Y + X) = 2 var(Y ) + 2cov(X, Y ) + var(X)

implica que el discriminante de la ecuacion de segundo grado en

2 var(Y ) + 2cov(X, Y ) + var(X) = 0

es menor o igual que cero, esto es

4cov(X, Y )2 4var(Y )var(X) 0,

1.4 Metodos de estimacion

1.4.1 Metodo de maxima verosimilitud

Definicion 1.4.1 Dada una muestra x X , se denomina funcion de verosimil-

Ejemplo 1.4.1 Supongamos que tenemos un modelo de n observaciones iid

Ejemplo 1.4.2 Supongamos que tenemos un modelo de n observaciones iid

o lo que es lo mismo el maximo de la log-verosimilitud

una biyeccion (medible). Entonces = g().

Demostracion. Tenemos que

L(x; ) = L(x; g 1 ()) := L(x; ).

L(x; g()) = L(x; g 1 (g())) = L(x; )

Ejemplo 1.4.5 Supongamos que tenemos un modelo de n observaciones iid

1.4.2 Metodo de los momentos

Ejemplo 1.4.6 Sea un modelo de n observaciones iid Uniformes en (0, ).

Recordemos que el EMV era (x) = x(n) . En primer lugar

que es mas pequena, para todo valor de , que la varianza de T,

Ejemplo 1.4.7 Consideremos un modelo de observaciones iid N(, 2 ) con

de manera que la log-verosimilitud viene dada por

Vamos a buscar el maximo de manera iterativa. Fijado , buscamos el maximo

Es claro que es un maximo local

l(x; , ) l(x; x, ) l(x; x, )

con lo que T (x) = (x, ) es el estimador maximo verosmil de (, ). Notemos

Metodo de mnimos cuadrados