You are on page 1of 100

Estadstica

Jose Manuel Corcuera.


ii J.M. Corcuera
Indice

1 Estimacion puntual 3
1.1 Modelos estadsticos . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Estadsticos y estimadores. . . . . . . . . . . . . . . . . . . . . . 5
1.3 Sesgo y error cuadratico. . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Metodos de estimacion . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1 Metodo de maxima verosimilitud . . . . . . . . . . . . . . 8
1.4.2 Metodo de los momentos . . . . . . . . . . . . . . . . . . 10
1.5 Modelos estadsticos regulares. Cota de Cramer-Rao. . . . . . . . 15
1.6 Modelos exponenciales . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7 Propiedades asintoticas de los metodos de estimacion. . . . . . . 25
1.8 Muestras de una poblacion normal . . . . . . . . . . . . . . . . . 29

2 Intervalos de confianza 35
2.1 Construccion de intervalos a partir de la verosimilitud . . . . . . 35
2.2 Construccion de intervalos a partir de funciones pivotantes. . . . 37
2.3 Problemas de dos muestras. . . . . . . . . . . . . . . . . . . . . . 39
2.3.1 Muestras independientes . . . . . . . . . . . . . . . . . . . 39
2.3.2 Muestras relacionadas . . . . . . . . . . . . . . . . . . . . 41
2.4 Algunos metodos para obtener pivotes . . . . . . . . . . . . . . . 41
2.4.1 Un metodo bastante general . . . . . . . . . . . . . . . . . 41
2.4.2 Familias de posicion y escala . . . . . . . . . . . . . . . . 42
2.4.3 Metodos aproximados . . . . . . . . . . . . . . . . . . . . 43
2.4.4 Un metodo especial . . . . . . . . . . . . . . . . . . . . . 45
2.4.5 Regiones de confianza, intervalos simultaneos . . . . . . . 46

3 Test de hipotesis 49
3.1 Test de hipotesis simples . . . . . . . . . . . . . . . . . . . . . . . 50
3.2 Hipotesis compuestas . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.1 Construccion de test a partir de intervalos de confianza . 58
3.2.2 Test de la razon de verosimilitudes. . . . . . . . . . . . . . 60

4 Test Ji-cuadrado 69
4.1 El modelo multinomial . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2 Test de ajuste en el modelo multinomial . . . . . . . . . . . . . . 70

iii
iv INDICE

4.2.1 Ajuste a una mutinomial concreta . . . . . . . . . . . . . 70


4.2.2 Ajuste a una familia de mutinomiales . . . . . . . . . . . 73
4.2.3 Test de independencia de dos multinomiales . . . . . . . . 75
4.3 Test Ji-cuadrado de ajuste, independencia y homogeneidad. . . . 79
4.4 Test de ajuste y homogeneidad no parametricos. . . . . . . . . . 82
4.4.1 La distribucion emprica . . . . . . . . . . . . . . . . . . . 82
4.4.2 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . 83

5 El modelo lineal 87
5.1 Estimacion de los parametros . . . . . . . . . . . . . . . . . . . . 88
5.1.1 Propiedades del estimador mnimo-cuadratico . . . . . . . 89
5.1.2 Estimacion mnimo cuadratica de 2 . . . . . . . . . . . . 90
5.2 El modelo lineal normal . . . . . . . . . . . . . . . . . . . . . . . 92
5.2.1 Estimacion maximo verosmil . . . . . . . . . . . . . . . . 93
5.2.2 Prediccion . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.2.3 Contraste de hipotesis . . . . . . . . . . . . . . . . . . . . 94
INDICE J.M. Corcuera
2 INDICE
Captulo 1

Estimacion puntual

1.1 Modelos estadsticos


En Estadstica nos encontraremos con observaciones o datos de la forma: x =
(x1 , x2 , ..., xn ) que supondremos corresponden a un cierto objeto aleatorio X =
(X1 , X2 , ..., Xn ). El proposito sera conocer algun valor relacionado con X.
Supondremos que X toma valores en un espacio medible (X ,F) y que de la ley
de X solo se sabe que es una posible dentro de un conjunto de leyes: {P , }.
Todo esto modelara un situacion de incertidumbre.

Ejemplo 1.1.1 Suponemos que queremos saber cual es la probabilidad de que


salga cara al lanzar una moneda. Podemos suponer que el fenomeno se puede
describir con variables Xi , i = 1, .., n Bernoullis independientes de parametro p.
Queremos saber p.

Definicion 1.1.1 Un modelo estadstico es una terna (X , F, {P , }).

Observacion 1.1.1 X se denomina espacio muestral. n sera el tamano mues-


tral. x = (x1 , xn , ..., xn ) se dira que es una muestra concreta de tamano n.
X = (X1 , X2 , ..., Xn ) se dira que es muestra generica y a veces hablaremos
de modelo inducido por X. Normalmente X =Rn . Si las Xi son independi-
entes e identicamente distribuidas (iid) diremos que la muestra es una muestra
aleatoria simple. se denomina espacio de parametros.

Observacion 1.1.2 Notemos que

X
(, A) (X , F).

La ley de X normalmente se denota PX para distinguirla de la ley P en (, A)


pero salvo que de lugar a confusion omitiremos este subndice, en cambio como
la ley de X depende de lo resaltaremos escribiendo P .

3
4 CAPITULO 1. ESTIMACION PUNTUAL

Ejemplo 1.1.2 (Modelo Bernoulli) Modelo inducido por n Bernoullis indepen-


dientes de parametro p:

X = {0, 1}n ,
F = P({0, 1}n )
= p
Pn Pn
Pp (x1 , xn , ..., xn ) = p i=1 xi (1 p)n i=1 xi
= (0, 1)

Definicion 1.1.2 Diremos que un modelo estadstico es parametrico si Rd


para algun d.

Observacion 1.1.3 El modelo Bernoulli es parametrico con d = 1.

Ejemplo 1.1.3 Modelo Poisson: modelo inducido por n Poissons independi-


entes de parametro .

X = (Z+ )n ,
F = P((Z+ )n )
= P n
xi
n
i=1
P (x1 , xn , ..., xn ) = e
ni=1 xi !
= (0, +)

Ejemplo 1.1.4 Modelo normal con media y varianza desconocidas: modelo


inducido por n normales independientes de parametros (, 2 ).

X = Rn ,
F = B(Rn )
= (, )
n
1 1 X
f(,) (x1 , xn , ..., xn ) = n exp{ 2 (xi )2 }
2 n 2 i=1
= (, +) (0, +)

Observacion 1.1.4 Los modelos anteriores son obviamente parametricos. Nos


centraremos en ellos. Notemos tambien que al ser las observaciones iid (X , F, {P ,
}) = (X1n , F1n , {P1
n
, })

Ejemplo 1.1.5 (Modelo no parametrico)


R Las Xi son observaciones iid con den-
sidad. En tal caso = {f : f 0, R f (x)dx = 1}.
1.2. ESTADISTICOS Y ESTIMADORES. J.M. Corcuera

1.2 Estadsticos y estimadores.



Definicion 1.2.1 Un estadstico T es una aplicacion de (X , F) en Rk , B(Rk )

T : X Rk ,

k es la dimension del estadstico.

Ejemplo 1.2.1 Media muestral:


Pn
i=1
xi
T (x1 , x2 , ..., xn ) = := x
n
Ejemplo 1.2.2 Varianza muestral:
Pn
i=1
(xi x)2
T (x1 , x2 , ..., xn ) = := s2
n
Ejemplo 1.2.3 Varianza muestral corregida:
Pn
i=1
(xi x)2
T (x1 , x2 , ..., xn ) = := s2
n1
Ejemplo 1.2.4 Si ordenamos la muestra (x1 , x2 , ..., xn ) de menor a mayor
podemos escribir la muestra ordenada (x(1) , x(2) , ..., x(n) ), tenemos as el es-
tadstico de orden i-esimo

T (x1 , x2 , ..., xn ) = x(i)

Ejemplo 1.2.5 Rango

T (x1 , x2 , ..., xn ) = x(n) x(1)

Observacion 1.2.1 En todos estos ejemplos el estadstico es de dimension 1,


que sera lo habitual.

Observacion 1.2.2 Fijada la ley de probabilidad de X, T es un variable o


vector aleatorio que por construccion tiene la misma ley que T (X):

PT (B) = PX (T 1 (B)) = P (X 1 (T 1 (B)))


= P ((T (X))1 (B)) = PT (X) (B).

Por ejemplo si las Xi son


Pniid Bernoullis de parametro p, y T es la suma de las
observaciones T (X) = i=1 Xi , de manera que T tendra una ley Binomial de
parametros n y p.

El proposito de la estimacion puntual es dar un valor razonable del verdadero


valor de o de una funcion del parametro g(), dada la muestra x.
6 CAPITULO 1. ESTIMACION PUNTUAL

Definicion 1.2.2 Un estimador de g() es un estadstico que se usa para esti-


mar (dar valores razonables) g().

Ejemplo 1.2.6 En modelo Bernoulli de parametro p, podemos utilizar la media


muestral para estimar el parametro p,
Pn
i=1
xi
T (x) = := p(x) p
n
sabemos que la aproximacion es buena si n es grande.

1.3 Sesgo y error cuadratico.


Definicion 1.3.1 Diremos que un estimador T (integrable) de g() R, es un
estimador insesgado si
E (T ) = g(),

Definicion 1.3.2 El sesgo de un estimador de g() R se define como la


funcion de
Sesgo (T ) = E (T ) g(),

Ejemplo 1.3.1 Consideremos el modelo Bernoulli, p es un estimador insesgado


de p:
Pn
i=1
Xi
Ep (p) = Ep (p(X)) = Ep ( )
n
1 n
P np
= Ep (Xi ) = =p
n i=1 n
Definicion 1.3.3 Denominaremos error cuadratico medio del estimador T (de
cuadrado integrable) de g() R, a la funcion de .

ECM (T ) = E (T g())2 ,

Ejemplo 1.3.2

ECMp (p) = Ep (p p)2 = V arp (p)


1 P n np(1 p)
= V arp (Xi ) =
n2 i=1 n2
p(1 p)
=
n
Proposicion 1.3.1 Sea T un estimador (con momento de segundo orden)

ECM (T ) = V ar (T ) + Sesgo2 (T ),

Definicion 1.3.4 Diremos que un estimador T (de cuadrado integrable), de


g() R, es uniformemente de mnima varianza (UMV) si minimiza el error
cuadratico medio en la clase de estimadores insesgados.
1.3. SESGO Y ERROR CUADRATICO. J.M. Corcuera

Proposicion 1.3.2 El estimador UMV es unico casi seguramente para todo


. Esto es, si T1 , T2 son estimadores UMV de g() R entonces

P {T1 6= T2 } = 0, .

Demostracion. Bastara ver que E ((T1 T2 )2 ) = 0, . En efecto, por


Chebichef
E ((T1 T2 )2 )
P {|T1 T2 | > } =0
2
y

1 X 1
6 0} = P (
P {|T1 T2 | = n=1 {|T1 T2 | > } P ({|T1 T2 | > } = 0.
n n=1
n

T1 +T2
Veamos entonces que E ((T1 T2 )2 ) = 0. Primero notemos que 2 sera un
estimador insesgado de g():
 
T1 + T2 E (T1 ) + E (T2 ) g() + g()
E = = .
2 2 2

Por tanto
T1 + T2
V ar (T1 ) V ar ( )
2
1
= (V ar (T1 ) + V ar (T2 ) + 2Cov(T1 , T2 ))
4
1
= (2V ar (T1 ) + 2Cov (T1 , T2 )).
4
Por la desigualdad de Cauchy-Schwarz
p p
|Cov (T1 , T2 )| V ar (T1 ) V ar (T2 ) = V ar (T1 ),

por tanto

T 1 + T2 1
V ar (T1 ) V ar ( ) (2V ar (T1 ) + 2V ar (T1 )) = V ar (T1 ).
2 4

De manera que V ar ( T1 +T
2
2
) = V ar (T1 ) y por tanto Cov (T1 , T2 ) = V ar (T1 ).
Finalmente

E ((T1 T2 )2 ) = V ar (T1 T2 )
= V ar (T1 ) + V ar (T2 ) 2Cov (T1 , T2 )
= 2V ar (T1 ) 2V ar (T1 ) = 0
8 CAPITULO 1. ESTIMACION PUNTUAL

Desigualdad de Cauchy-Schwarz
Sean X, Y dos variables aleatorias, no constantes, de cuadrado integrable, en-
tonces R

0 var(Y + X) = 2 var(Y ) + 2cov(X, Y ) + var(X)

implica que el discriminante de la ecuacion de segundo grado en

2 var(Y ) + 2cov(X, Y ) + var(X) = 0

es menor o igual que cero, esto es

4cov(X, Y )2 4var(Y )var(X) 0,

con lo que p p
|cov(X, Y )| var(X) var(Y ).

1.4 Metodos de estimacion


Supongamos un modelo estadstico parametrico (X , F, {P , }). El proposito
sera encontrar metodos para estimar g().

1.4.1 Metodo de maxima verosimilitud


Supongamos que el modelo tiene densidad y sea f (x) la densidad correspondi-
ente.

Definicion 1.4.1 Dada una muestra x X , se denomina funcion de verosimil-


itud a la aplicacion

L(x; ) : R
7 L(x; ) = f (x)

Ejemplo 1.4.1 Supongamos que tenemos un modelo de n observaciones iid


Exponenciales de parametro > 0.Dada x = (x1 , x2 , ...xn ) Rn+ la densidad
sera
n P
f (x) = ni=1 exi = n e i=1 xi ,
de manera que P n
L(x; ) = n e i=1 xi
, x Rn+

Ejemplo 1.4.2 Supongamos que tenemos un modelo de n observaciones iid


Uniformes en (0, ). Dada x = (x1 , x2 , ...xn ) Rn+ la densidad sera

1 1
f (x) = ni=1 1[0,] (xi ) = n 1[0,] (x(n) )

1.4. METODOS DE ESTIMACION J.M. Corcuera

de manera que
1
L(x; ) = 1[0,] (x(n) )
n
1
= 1[x ,+) ()
n (n)
Definicion 1.4.2 Se denomina estimador maximo verosmil (EMV) de a :
X Rd tal que
L(x; (x)) = sup L(x; ), x X \N

donde P (N ) = 0, .
Ejemplo 1.4.3 Supongamos que tenemos un modelo de n observaciones iid
Exponenciales de parametro > 0. Para hallar hay que hallar el maximo de
la funcion de verosimilitud
Pn
L(x; ) = n e i=1 xi

o lo que es lo mismo el maximo de la log-verosimilitud


n
X
l(x; ) := log L(x; ) = n log xi .
i=1

Como
n
l(x; ) n X
= xi = 0
i=1
el extremo es
n
(x) = Pn .
i=1 xi
Es un maximo local:
2 l(x; ) n
2 = 2 < 0.

Como la funcion es derivable y el maximo local unico tenemos un maximo global.
Ejemplo 1.4.4 Supongamos que tenemos un modelo de n observaciones iid
Uniformes en (0, ). La verosimilitud es
1
L(x; ) = 1[x ,+) ().
n (n)
Es inmediato que
(x) = x(n) .
Proposicion 1.4.1 Sea
g:
= g()

una biyeccion (medible). Entonces = g().


10 CAPITULO 1. ESTIMACION PUNTUAL

Demostracion. Tenemos que

L(x; ) = L(x; g 1 ()) := L(x; ).

Por definicion
L(x; ) = sup L(x; ).

Ahora bien

L(x; g()) = L(x; g 1 (g())) = L(x; )


= sup L(x; ) = sup L(x; g 1 ())

= sup L(x; ).

Ejemplo 1.4.5 Supongamos que tenemos un modelo de n observaciones iid


Exponenciales de parametro > 0. Sea = 1 , entonces
Pn
1 i=1 xi
= = = x.
n

1.4.2 Metodo de los momentos


Definicion 1.4.3 Supongamos que nuestro modelo es el inducido por n vari-
ables iid: (X1 , X2 , ..., Xn ). Sean i () = E (X1i ), esto es, los momentos de orden
i-esimo de las variables. Supongamos que quiero estimar g() R y que puedo
escribir
g() = h(1 (), 2 (), ..., k ()),
entonces el estimador por el metodo de los momentos de g(), que escribiremos
T, viene dado por
n n n
1X 1X 2 1X k
T (x) = h( xi , xi , ..., x ).
n i=1 n i=1 n i=1 i

Ejemplo 1.4.6 Sea un modelo de n observaciones iid Uniformes en (0, ).


1 () = E (X1 ) = .
2
Por tanto
= 21 (),
y el estimador de por el metodo de los momentos sera
n
1X
T (x) = 2 xi = 2x.
n i=1
1.4. METODOS DE ESTIMACION J.M. Corcuera

Recordemos que el EMV era (x) = x(n) . En primer lugar

x 1
fX(n) (x) = n( )n1 1[0,](x) ,

entonces Z
x 1 n
E () = E (X(n) ) = xn( )n1 dx = ,
0 n+1
de manera que el estimador tiene sesgo, pero podemos corregirlo si consideramos
el estimador
n+1
= .
n
La varianza de sera

var( ) = E(2 ) 2
 2
n+1 2
= E( ) 2
n
 2
n+1 n 2
= 2
n n+2
2
= ,
n(n + 2)

que es mas pequena, para todo valor de , que la varianza de T,

4Var(X1 ) 2
var(T ) = =
n 3n
Observacion 1.4.1 P Es inmediato que el estimador por el metodo de los mo-
n
mentos de k () es n1 i=1 xki su llamado estimador emprico. En general
Pn (en el
contexto iid) el estimador emprico de E (f (X1 )) se define como n1 i=1 f (xi ).

Ejemplo 1.4.7 Consideremos un modelo de observaciones iid N(, 2 ) con


(, ) desconocidos.
n
1 1 X
L(x; , ) = n exp{ (xi )2 },
2 2 2 i=1

de manera que la log-verosimilitud viene dada por


n
1 X
l(x; , ) = log L(x; , ) = n log (xi )2 + Cte.
2 2 i=1

Vamos a buscar el maximo de manera iterativa. Fijado , buscamos el maximo


en :
n
1 X
l(x; , ) = 2 (xi ) = 0
i=1
12 CAPITULO 1. ESTIMACION PUNTUAL

implica que
n
1X
(x) = xi = x.
n i=1

Es claro que es un maximo local


n
2 l(x; , ) = <0
2
y por su unicidad y la derivabilidad de l(x, , ) resulta un maximo absoluto, de
manera que para todo
l(x; , ) l(x; x, ).
Buscamos ahora el maximo de
n
1 X
l(x; x, ) = n log (xi x)2 + Cte.
2 2 i=1

n
n 1 X
l(x; , ) = + 3 (xi x)2 = 0,
i=1

de manera que
n
1X
2 = (xi x)2 .
n i=1

Ademas
n
n 3 X
2 l(x; , )|= = (xi x)2
2 4 i=1
2n
= <0
2
con lo que se trata de un maximo local y absoluto. As tenemos

l(x; , ) l(x; x, ) l(x; x, )

con lo que T (x) = (x, ) es el estimador maximo verosmil de (, ). Notemos


que 2 , estimador maximo verosmil de 2 , tiene sesgo. Primero notemos que :
n
X n
X
(xi )2 = (xi x + x )2
i=1 i=1
n
X n
X
= (xi x)2 + 2(x ) (xi x)
i=1 i=1
+n(x )2
Xn
= (xi x)2 + n(x )2 ,
i=1
1.4. METODOS DE ESTIMACION J.M. Corcuera

Pn
ya que i=1 (xi x) = 0. De manera que
n n
2 1X 1X
E(,) ( ) = E(Xi X)2 = E(Xi )2
n i=1 n i=1
E(X )2
n 2 2 n1 2
= = .
n n n
Podemos corregir el sesgo si tomamos como estimador de 2 .
n
n1 2 1 X
S 2 (x) = (x) = (xi x)2 .
n n 1 i=1

Notemos tambien que este resultado es general, para cualquier modelo (de ob-
servaciones iid) con varianza desconocida, el estimador 2 (varianza muestral),
tiene sesgo y S 2 (varianza muestral corregida).
14 CAPITULO 1. ESTIMACION PUNTUAL

Metodo de mnimos cuadrados


Definicion 1.4.4 Supongamos que las observaciones (genericas) en nuestro
modelo son de la forma
Xi = gi () + i
donde las i son variables aleatorias. Entonces el estimador por mnimos cuadra-
dos de se define como (x) tal que
X X
(xi gi ())2 = min (xi gi ())2 .

Ejemplo 1.4.8 Supongamos que las observaciones son normales de media gi (, ) =


+ ri (ri numeros conocidos y no iguales) y varianza 2 . Podemos escribir

Xi = + ri + i ,

con i normales de media cero y varianza 2 . Entonces


n
X n
X
(xi ( + ri ))2 = min (xi ( + ri ))2 = 0.
,
i=1 i=1

n
X n
X
(xi ( + ri ))2 = 2 (xi ( + ri ))
i=1 i=1
Xn
2 (xi ( + ri ))2 = 2n > 0, r
i=1

Por tanto el mnimo, fijado , se alcanza para

= x r.

Ahora podemos tratar de minimizar


n
X n
X
2
(xi ( + ri )) = (xi x (ri r))2 .
i=1 i=1

n
X n
X
(xi ( + ri ))2 = 2 (xi x (ri r))(ri r) = 0,
i=1 i=1

de manera que Pn
(x x)(ri r)
Pn i
= i=1 2
,
i=1 ((ri r)
ya que
n
X n
X
2 (xi ( + ri ))2 = 2 ((ri r)2 > 0.
i=1 i=1
1.5. MODELOS ESTADISTICOS REGULARES. COTA DE CRAMER-RAO.J.M. Corcuera

1.5 Modelos estadsticos regulares. Cota de Cramer-


Rao.
Consideraremos que es un intervalo abierto de R.

Definicion 1.5.1 Diremos que un modelo estadstico es regular si se verifican


las tres condiciones siguientes:

i) L(x; ) > 0, x X \N donde P (N ) = 0, .


R R
ii) P X
L(x; )dx = P L(x; )dx (en el caso absolutamente contnuo)
X
X L(x; )dx = X L(x; )dx (en el caso discreto), .

iii) (Informacion de Fisher) 0 < In () := E(( log L)2 ) < , (n


indica el tamano muestral).

Proposicion 1.5.1 La condicion ii) de regularidad es equivalente a

E ( log L) = 0,
R R
Demostracion. Puesto que X
L(x; )dx = 1, X
L(x; )dx = 0 y la
condicion ii) equivale a
Z Z
L(x; )
0 = L(x; )dx = L(x; )dx
L(x; )
ZX X

= log L(x; )L(x; )dx = E ( log L).


X

Corolario 1.5.1
In () = var ( log L), .

Observacion 1.5.1 A la funcion del parametro y la muestra log L(x; ) se


le suele denominar funcion score. Fijado , log L es una variable aleatoria
de esperanza cero y varianza la informacion de Fisher.

Supongamos la condicion de regularidad adicional

2
L(x; )dx = X 2 L(x; )dx (en caso absolutamente continuo) 2 X L(x; )dx =
R R P
iv) X
2 L(x; )dx (en el caso discreto), .
P
X

Proposicion 1.5.2 Si el modelo cumple i) ii) y iii), iv) es equivalente a

In () = E (2 log L)
16 CAPITULO 1. ESTIMACION PUNTUAL

Demostracion. La condicion iv) es equivalente a


Z
0= 2 L(x; )dx
X

y como
2
2 L(x; ) = 2 log L(x; )L(x; ) + ( log L(x; )) L(x; )

el resultado se sigue integrando ambos miembros y de que


Z
2
In () = ( log L(x; )) L(x; )dx <
X

Proposicion 1.5.3 Si el modelo corresponde a n observaciones iid y el modelo


correspondiente a una observacion es regular, el modelo correspondiente a n
observaciones es regular y
In () = nI1 ()
donde I1 () es la informacion del modelo con una observacion.

Demostracion. Ln (x1 , ..., xn ; ) = ni=1 L1 (xi ; ). Con lo que la condicion


i) de regularidad es evidente. La condicion ii) se deduce de que
n
X
log Ln (x1 , ..., xn ; ) = log L1 (xi ; ),
i=1

con lo que
n
X
log Ln (x1 , ..., xn ; ) = log L1 (xi ; ),
i=1
n
X
E ( log Ln (X)) = E ( log L1 (Xi )) = 0.
i=1

Finalmente

In () = var ( log Ln ) = var ( log Ln (X1 , ..., Xn ; ))


Xn Xn
= var ( log L1 (Xi ; )) = var ( log L1 (Xi ; ))
i=1 i=1
= nI1 ().

Ejemplo 1.5.1 Sea el modelo de n Xi iid con ley Exp(), > 0.

L1 (x; ) = exp{x}
1.5. MODELOS ESTADISTICOS REGULARES. COTA DE CRAMER-RAO.J.M. Corcuera

log L1 (x; ) = log x,


1
log L1 (x; ) = x.

1
E ( log L1 ) = E (X).

Pero
Z Z
E (X) = x exp{x}dx = [x exp{x}]
0 + exp{x}dx
0 0
Z
1 1
= exp{x}dx = [ exp{x}]
0 =
0

con lo que
E ( log L1 ) = 0.
Ademas

I1 () = var ( log L1 ) = var (X)


= E (X 2 ) E (X)2
2 1 1
= 2 2 = 2.

Con lo que el modelo es regular y
n
In () = .
2
Ademas
1
2 log L1 (x; ) = .
2
y el modelo tambien cumple iv).

Definicion 1.5.2 Diremos que T es un estadstico regular si


Z Z
T (x)L(x; )dx = T (x) L(x; )dx, .
X X

Teorema 1.5.1 (Cota de Cramer-Rao). Consideremos un modelo regular y sea


T un estimador insesgado de g() y regular, esto es entonces,

g 0 ()2
var (T ) , .
In ()

Demostracion.
Z
T (x)L(x; )dx = E (T ) = g 0 ()
X
18 CAPITULO 1. ESTIMACION PUNTUAL
Z Z
L(x; )
T (x) L(x; )dx = T (x) L(x; )dx
X L(x; )
ZX
= T (x) log L(x; )L(x; )dx
X
= cov (T, log L).

Ya que E ( log L) = 0. Por tanto


Z Z
T (x)L(x; )dx = T (x) L(x; )dx
X X

es equivalente a escribir

g 0 () = cov (T, log L).

Si ahora aplicamos la desigualdad de Cauchy-Schwarz

g 0 ()2 var (T )var ( log L)

Definicion 1.5.3 En el contexto anterior si T es un estimador insesgado de


g() tal que
g 0 ()2
var (T ) = ,
In ()
se dice que es un estimador eficiente de g().

Proposicion 1.5.4 Si T es un estimador eficiente entonces es UMV (en la


clase de estimadores regulares).

Observacion 1.5.2 La condicion de eficiencia es equivalente a la condicion de


igualdad en la desigualdad de Cauchy-Schwarz y por tanto a la co-linealidad
entre T E (T ) y log L, P - casi seguramente. Esto es, tendremos eficiencia
si y solo si, , existe () tal que

T E (T ) = () log L, x X \N , P (N ) = 0.

Notemos que
(T E (T )) log L = ()( log L)2 ,
y por tanto

g() = E ((T E (T )) log L) =


= ()E (( log L)2 ) = ()In ().

En definitiva
g 0 ()
() = .
In ()
1.5. MODELOS ESTADISTICOS REGULARES. COTA DE CRAMER-RAO.J.M. Corcuera

Ejemplo 1.5.2 Sean n Xi iid Bernoulli(p). Entonces


Px Px
L(x1 , x2 , ..., xn ; p) = p i
(1 p)n i
, p (0, 1).

El modelo es regular y
P P
xi n xi
p log L =
p 1p
P
xi n
= ,
p(1 p) (1 p)

con lo que
P
xi p(1 p)
p= p log L.
n n
Resulta as que
P
xi
T (x) =
n
es un estimador eficiente de p y

p(1 p)
(p) =
n
con lo que
n
In (p) = .
p(1 p)

Ejemplo 1.5.3 Sean n Xi iid Exp(), ya vimos que el modelo era regular,
X
L(x1 , x2 , ..., xn ; ) = n exp{ xi }

de manera que
n X
log L = xi ,

y
P
xi 1 1
= log L.
n n
Px i 1
Por tanto n es un estimador eficiente de y

1 g() 12
= =
n In () In ()

de manera que
n
In () = .
2
20 CAPITULO 1. ESTIMACION PUNTUAL

1.6 Modelos exponenciales


Supongamos que para todo x X se cumple la condicion de eficiencia

T (x) g() = () log L(x, ),

integrando la ecuacion anterior obtenemos que

L(x, ) = exp{a()T (x) + b() + s(x)},

con Z Z
1 g()
a() = d, b() = d
() ()
y s(x) una constante de integracion que puede depender de x.

Definicion 1.6.1 Un modelo con verosimilitud de la forma

L(x, ) = exp{a()T (x) + b() + s(x)},

se dice que es un modelo exponencial. T (x) se denomina estadstico privilegiado.

Observacion 1.6.1 Es inmediato ver que si el modelo correspondiente a una


observacion es exponencial el correspondiente a n observaciones iid tambien lo
es. En efecto

Ln (x1 , x2 , ...xn ; ) = ni=1 L1 (xi ; )


= ni=1 exp{a1 ()T1 (xi ) + b1 () + s1 (xi )}
X n n
X
= exp{a1 () T1 (xi ) + nb1 () + s1 (xi )}
i=1 i=1
= exp{a()T (x) + b() + s(x)}

con
n
X n
X
a() = a1 (), T (x) = T1 (xi ), b() = nb1 (), s(x) = s1 (xi ).
i=1 i=1

Ejemplo 1.6.1 Supongamos un modelo de n, observaciones iid Bernoulli(p).


Entonces
P n
xi
P n
L(x1 , x2 , ...xn ; p) = p i=1 (1 p)n i=1 xi

n
p X
= exp{log xi + n log(1 p)},
1p i=1

con lo que podemos escribir


n
p X
a(p) = log , T (x) = xi , b(p) = n log(1 p), s(x) = 0,
1p i=1
1.6. MODELOS EXPONENCIALES J.M. Corcuera

Ejemplo 1.6.2 Supongamos un modelo de n, observaciones iid Exp(). En-


tonces
n
X
L(x1 , x2 , ...xn ; ) = n exp{ xi }
i=1
n
X
= exp{ xi + n log }
i=1

con lo que podemos tomar


n
X
a() = , T (x) = xi , b() = n log , s(x) = 0,
i=1

Ejemplo 1.6.3 Supongamos un modelo de n, observaciones iid N(, 2 ), cono-


cida. Entonces
n
1 1 X
L(x1 , x2 , ...xn ; ) = n exp{ 2 (xi )2 }
2 n 2 i=1
n n
X n2 1 X 2
= exp{ x i x
2 i=1 2 2 2 2 i=1 i
n
n log log(2)}
2
con lo que podemos tomar
n
X n2
a() = 2
, T (x) = xi , b() = 2 ,
i=1
2
n
1 X 2 n
s(x) = 2
xi n log log(2).
2 i=1 2

Si el modelo es exponencial obviamente, se cumple la condicion i) de regular-


idad. Para que se cumplan las condiciones ii) y iii) vamos a exigir que a() sea
derivable con a0 () 6= 0. Necesitamos un resultado que nos permita intercambiar
lmites e integrales (o sumas):

Teorema 1.6.1 (convergencia dominada) Sea {fn (x)}n1 un sucesion de fun-


ciones en Rd tal que | fn (x)| g(x) n 1, donde g(x) es integrable, supong-
amos que f (x) = limn fn (x). Entonces
Z Z
lim fn (x)dx = f (x)dx.
n Rd Rd

y analogamente para sumas.

Observacion 1.6.2 El resultado sigue siendo cierto si cambiamos dx por otra


medida en Rd .
22 CAPITULO 1. ESTIMACION PUNTUAL

Teorema 1.6.2 Un modelo exponencial con a() derivable y a0 () 6= 0 es reg-


ular.

Demostracion. Veamos que podemos intercambiar la derivada respecto a


y la integral.
Z
exp{a()T (x) + b()} exp{s(x)}dx
X
Z
= exp{b()}a0 ()a() exp{a()T (x)} exp{s(x)}dx
X
+b0 ().

Entonces si demostramos que


Z
a() exp{a()T (x)} exp{s(x)}dx
X
Z
= a() exp{a()T (x)} exp{s(x)}dx
ZX
= T (x) exp{a()T (x)} exp{s(x)}dx, (1.1)
X

con Z
|T (x)| exp{a()T (x)} exp{s(x)}dx < . (1.2)
X

ya estara. Notese que b0 () estara tambien bien definido ya que como


R
X
L(x; )dx =
0, resultara que
Z
0 0
b () = exp{b()}a ()a() exp{a()T (x)} exp{s(x)}dx
X

y ultimo que el termino de la derecha esta bien definido ya estara.


Para ver que (1.1) y (1.2) son ciertos notemos en primer lugar que podemos
tomar, sin perdida de generalidad, s(x) 0. Sea de un entorno de , por la
desigualdad triangular
Z
|T (x)| exp{a()T (x)}dx
X
Z
exp{a()T (x)} exp{a()T (x)}

T (x) exp{a()T (x)} dx


X a() a()
Z
exp{a()T (x)} exp{a()T (x)}

+ dx.
X a() a()

Veamos que

exp{a()T (x)} exp{a()T (x)}
T (x) exp{a()T (x)}


a() a()
1.6. MODELOS EXPONENCIALES J.M. Corcuera

esta acotado para todo en un entorno de , suficientemente pequeno, por una


funcion integrable:

exp{a()T (x)} exp{a()T (x)}
T (x) exp{a()T (x)}


a() a()

exp{(a() a())T (x)} 1
= exp{a()T (x)} T (x)

a() a()

X |a() a()|k1 |T (x)|k
exp{a()T (x)} .
k!
k=2

De manera que

exp{a()T (x)} exp{a()T (x)}
T (x) exp{a()T (x)}


a() a()

X hk |T (x)|k
1
exp{a()T (x)}
h k!
k=2
1
(exp{(a() + h)T (x)} + exp{(a() h)T (x)}),
h
siempre que
|a() a()| h.
Si tomamos h suficientemente pequeno, como a0 () 6= 0, existiran 1 , 2
tales que
a() + h = a(1 )
a() h = a(2 )
y como Z
exp{b(i )} = exp{a(i )T (x)}dx, i = 1, 2,
X
resultara que h1 (exp{(a() + h)T (x)} + exp{(a() h)T (x)}) es integrable y esta
cota no depende de en el entorno de . Tenemos entonces que se cumple (1.2)
y podemos aplicar ahora convergencia dominada en
!
exp{a()T (x)} exp{a()T (x)}
Z Z
lim dx T (x) exp{a()T (x)}dx

X a() a() X
Z
exp{a()T (x)} exp{a()T (x)}
Z
= lim dx T (x) exp{a()T (x)}dx

X a() a() X

exp{a()T (x)} exp{a()T (x)}
Z
lim T (x) exp{a()T (x)} dx


X a() a()

Z exp{a()T (x)} exp{a()T (x)}
= lim T (x) exp{a()T (x)} dx = 0.

X a() a()
24 CAPITULO 1. ESTIMACION PUNTUAL

De manera que
Z Z
a() exp{a()T (x)}dx = a() exp{a()T (x)}dx.
X X

Si volvieramos a derivar otra vez respecto a a() la expresion


Z
T (x) exp{a()T (x)} exp{s(x)}dx
X

deduciramos que
Z
a() T (x) exp{a()T (x)} exp{s(x)}dx
X
Z
= T (x)a() exp{a()T (x)} exp{s(x)}dx
X
Z
= T 2 (x) exp{a()T (x)} exp{s(x)}dx < (1.3)
X

De manera que
In () = var ( log L) = var (a0 ()T + b0 ())
= a0 ()2 var (T (x)) < .
Como a0 () 6= 0 y T (x) no es constante tambien se cumple que In () > 0. Con
lo que el modelo cumple las condiciones i), ii) y iii) de regularidad.
Observacion 1.6.3 Si a() es dos veces derivable entonces se puede ver, sigu-
iendo el mismo procedimiento que en la demostracion anterior, que se cumple
la condicion iv) de regularidad de manera que
In () = E (2 log L)
= E (a00 ()T b00 ())
= a00 ()E (T ) b00 ().
Como
0 = E ( log L) = a0 ()E (T ) + b0 (),
resultara finalmente que
b0 ()
In () = a00 () b00 ().
a0 ()
Observacion 1.6.4 Como
log L = a0 ()T (x) + b0 (),
tendremos que
b0 () 1
T (x) = 0 log L,
a0 () a ()
b0 ()
con lo que T sera un estimador eficiente de a0 () .
1.7. PROPIEDADES ASINTOTICAS DE LOS METODOS DE ESTIMACION.J.M. Corcuera

1.7 Propiedades asintoticas de los metodos de


estimacion.
Por simplicidad vamos a considerar modelos parametricos correspondientes a
observaciones iid y con un intervalo abierto de R. Si tenemos muestras de
tamano n tendremos una espacio muestral X y dado un metodo de estimacion
tendremos el correspondiente estimador que denotaremos Tn :

Tn : X R
(x1 , x2 , ..., xn ) Tn (x1 , x2 , ..., xn ).

El proposito sera estudiar el comportamiento de Tn cuando n . A tal


efecto estudiaremos el comportamiento de la sucesion de variables

{Tn (X1 , X2 , ..., Xn )}n1 .

Definicion 1.7.1 Diremos que Tn es un estimador (asintoticamente) fuerte-


mente consistente de g() si
c.s.
Tn (X1 , X2 , ..., Xn ) g(),
n

si la convergencia es en probabilidad se dice que es debilmente consistente.

Definicion 1.7.2 Diremos que Tn es un estimador asintoticamente insesgado


de g() si
E(Tn (X1 , X2 , ..., Xn )) g(),
n

Definicion 1.7.3 Diremos que Tn es un estimador asintoticamente normal de


2
g() y varianza asintotica n si
L
n(Tn (X1 , X2 , ..., Xn ) g()) N(0, 2 ),
n

2
a veces se denota Tn AN (g(), n )

Observacion 1.7.1 Notemos que si Tn es asintoticamente normal de g() esto


significa
2
Ley(Tn ) N(g(), )
n
y la aproximacion es tanto mas cierta cuanto mas grande es n.
2
Definicion 1.7.4 Si Tn AN (g(), n ) con

g 0 ()2
2 =
I1 ()

se dice que es un estimador asintoticamente eficiente de g().


26 CAPITULO 1. ESTIMACION PUNTUAL

Teorema 1.7.1 Supongamos que el modelo cumple las condiciones de regular-


idad i) ii) iii) y iv). Y que ademas v): 2 log L1 (x; ) es una funcion con-
tinua en y vi) | 2 log L1 (x; )| < h (x) para todo de un entorno de ,
R
con X h (x)L1 (x; )dx < . Entonces si n (x) es una solucion fuertemente
consistente de las ecuaciones de verosimilitud:

log Ln (x; )|=n (x) = 0, 2 log Ln (x; )|=n (x) < 0

resultara que
L 1
n(n (X1 , X2 , ..., Xn ) ) N(0, ).
n I1 ()
Demostracion.

log Ln (x; ) = 2 log Ln (x; )|=n ( n ),

donde n es un punto intermedio entre y n . De esta manera


log Ln (x; )
n(n ) = n
2 log Ln (x; )|=n
1 log Ln (x; )
n
= 1 2 . (1.4)
n log Ln (x; )|=n

Ahora bien
n
1 1 X
log Ln (X1 , X2 , ..., Xn ; ) = log L1 (Xi ; ).
n n i=1

Para todo las log L1 (Xi ; ) son variables aleatorias iid de media cero
y varianza E (( log L1 (Xi ; ))2 ) = I1 (). Entonces por el teorema central del
lmite
n
1 X L
log L1 (Xi ; ) N(0, I1 ()).
n i=1 n

Por otro lado,


n
1 1X
2 log Ln (X1 , X2 , ..., Xn ; ) = 2 log L1 (Xi ; ),
n n i=1

y las variables 2 log L1 (Xi ; ) son iid de esperanza I1 (), de manera que por
la ley fuerte de los grandes numeros
1 c.s.
2 log Ln (X1 , X2 , ..., Xn ; ) I1 ().
n n

Entonces si demostramos que


1 2 P
log Ln (X1 , X2 , ..., Xn ; ) 2 log Ln (X1 , X2 , ..., Xn ; n ) 0 (1.5)
n n
1.7. PROPIEDADES ASINTOTICAS DE LOS METODOS DE ESTIMACION.J.M. Corcuera

tendremos que
1 P
2 log Ln (X1 , X2 , ..., Xn ; n ) I1 ()
n n

y aplicando el teorema de Slutsky a (1.4) tendremos

1 log Ln (x; )
n L N(0, I1 ()) 1
n(n ) = = N(0, ). (1.6)
n1 2 log Ln (x; )|=n n I1 () I1 ()

Para probar (1.5), notemos que


1 2
log Ln (X1 , X2 , ..., Xn ; ) 2 log Ln (X1 , X2 , ..., Xn ; n )

n
n
1 X 2
log L1 (Xi ; ) 2 log L1 (Xi ; n )


n i=1
n
1X
sup 2 log L1 (Xi ; ) 2 log L1 (Xi ; 1 ) , (con probabilidad uno)


n i=1 |1 |<

ya que como n es fuertemente consistente y n esta entre y n , para todo


> 0 si n es suficientemente grande

| n | <

con probabilidad uno. Tendremos entonces que


1 2
log Ln (X1 , X2 , ..., Xn ; ) 2 log Ln (X1 , X2 , ..., Xn ; n )

lim sup
n
n
1X
sup 2 log L1 (Xi ; ) 2 log L1 (Xi ; 1 )

lim
n i=1 |1 |<
!
2 2

= E sup log L1 (Xi ; ) log L1 (Xi ; 1 ) ,

| 1 |<

donde hemos podemos aplicar la ley fuerte de los grandes numeros ya que
!
2 2

E sup log L1 (Xi ; ) log L1 (Xi ; 1 )
| 1 |<

2E (h (Xi )).

El resultado se sigue haciendo que 0, aplicando convergencia dominada y


la continuidad de las derivadas segundas de la verosimilitud.

Proposicion 1.7.1 Supongamos que nuestro modelo parametrico, correspondi-


ente a observaciones iid, y tal que es un intervalo abierto de R, es localmente
identificable, esto es la aplicacion

7 P
28 CAPITULO 1. ESTIMACION PUNTUAL

es inyectiva en el entorno de cualquier punto y que


Z
L1 (x; )
| log |L1 (x; )dx <
X L1 (x; )

para todo de un entorno de , . Entonces las ecuaciones de verosimilitud


tienen a partir de un cierto valor de n una solucion fuertemente consistente.

Demostracion. Consideremos la funcion


n
1X L1 (Xi ; )
n (X1 , X2 , ..., Xn ; ) = log .
n i=1 L1 (Xi ; )

Por la ley fuerte de los grandes numeros

c.s. L1 (X1 ; )
n (X1 , X2 , ..., Xn ; ) E (log )
n L1 (X1 ; )

Sea k N suficientemente grande para que L1 (X1 ; ) sea una variable diferente
de L1 (X1 ; ) si [ + k1 , k1 ]. Esto queda garantizado por la hipotesis de
identificabilidad local. Entonces por la desigualdad de Jensen como log es una
funcion estrictamente concava y L 1 (X1 ;)
L1 (X1 ;) 6= 1, resultara que

L1 (X1 ; ) L1 (X1 ; )
E (log ) < log E ( )
L1 (X1 ; ) L1 (X1 ; )
Z
L1 (x; )
= log L1 (x; )dx
L (x; )
ZX 1
= log L1 (x; )dx
X
= log 1 = 0

Fijado k, si n es suficiente grande tendremos que


1
n (X1 , X2 , ..., Xn ; + ) < 0
k
1
n (X1 , X2 , ..., Xn ; ) < 0
k
con probabilidad uno salvo en un conjunto Nk tal que P (Nk ) = 0. Por definicion
n (X1 , X2 , ..., Xn ; ) = 0. Por tanto en el intervalo [+ k1 , k1 ] habra un maximo
local, podemos tomar este valor como n , es obvio que entonces | n | < k1 .
El resultado se sigue tendiendo k a infinito.
1.8. MUESTRAS DE UNA POBLACION NORMAL J.M. Corcuera

1.8 Muestras de una poblacion normal


En esta seccion vamos a estudiar las distribuciones de determinados estadsticos
cuando los datos que observamos siguen una distribucion normal. Estos re-
sultados nos seran de gran ayuda en los calculos que hagamos en el siguiente
captulo.
Sea A una matriz cuadrada no singular n n y b Rn . Sea X un vector
aleatorio n-dimensional con densidad. Consideremos el vector Y = AX + b,
sabemos que entonces Y tiene densidad

fY (y) = fX (g 1 (y))|Jg1 (y)|

donde g(x) = Ax + b, esto es

fY (y) = fX (A1 (y b))| det A1 |

ya que
x1 xn
y1 yn

= det A1 .

Jg1 (y) =
xn xn

y1 yn

Si ahora X1 , X2 , ..., Xn son iid N (0, 1)


n
1 1X 2
fX (x) = n exp{ x }
2 2 i=1 i
1 1
= n exp{ x0 x},
2 2

donde x = (x1 , x2 , ..., xn )0 y la prima indica traspuesta, entonces

1 1
fY (y) = n exp{ (y b)0 (A1 )0 A1 (y b)}
2 | det A| 2

y si escribimos = AA0 , resultara que


1 1
fY (y) = n exp{ (y b)0 1 (y b)}.
2 | det |1/2 2

Se dice entonces que Y tiene una distribucion normal n-dimensional de media b


y matriz de varianzas-covarianzas , se escribe Y Nn (b, ). Notemos que en
efecto

E(Y ) = AE(X) + b = b
Cov(Y ) = E((Y b)(Y b)0 )
= AE(XX 0 )A0
= AA0 =
30 CAPITULO 1. ESTIMACION PUNTUAL

y que es definida positiva:

y 0 y = y 0 AA0 y = ||A0 y||2 > 0 para todo y 6= 0,

ya que A es no singular.

Proposicion 1.8.1 Si Y Nn (b, ), B es una matriz n n no singular y


c Rn entonces Z = BY + c Nn (Bb + c, BB 0 ).

Demostracion. Podemos suponer que Y = AX + b con A no singular,


= AA0 y X un vector de N (0, 1) independientes, entonces

Z = BAX + Bb + c

con lo que la nueva media sera Bb+c y la nueva matriz de varianzas-covarianzas


BAA0 B 0 = BB 0 .

Corolario 1.8.1 Si X es un vector n-dimensional de N (0, 1) independientes y


T es una matriz ortogonal n n, Y := T X es tambien un vector n-dimensional
de N (0, 1) independientes.

Demostracion. X Nn (0, In ) y por la proposicion anterior Y := T X


Nn (0, T T 0 ) y T T 0 = In ya que T es ortogonal.
 
Y(1) }m
Proposicion 1.8.2 Si Y = tiene una ley normal n-dimensional
Y(2) }n m
y Cov(Y(1) , Y(2) ) = 0, entonces Y(1) e Y(2) son independientes y con ley normal.

Demostracion. Es inmediata a partir de la factorizacion de la densidad


conjunta.

Proposicion 1.8.3 Cualquier marginal de una normal multidimensional es


normal.
 
Y(1) }m
Demostracion. Sea Y = , Y Nn (b, ), con =
Y(2) }n m
 
11 12 }m
. Hagamos el cambio
21 22 }n m
      
Y(1) Z(1) Im 0 Y(1)
Y = Z= = .
Y(2) Z(2) 12 1
11 Inm Y(2)

Entonces Cov(Z(1) , Z(2) ) = 0, de hecho


 
11 0
Cov(Z) = ,
0 22 21 1
11 12

y podemos aplicar la proposicion anterior.


1.8. MUESTRAS DE UNA POBLACION NORMAL J.M. Corcuera

Proposicion 1.8.4 Si L es una matriz m n con m < n y m filas linealmente


independientes e Y Nn (b, ) entonces LY Nm (Lb, LL0 ).

Demostracion. Basta completar L con n m filas linealmente independi-


entes y aplicar la proposicion anterior.

Corolario 1.8.2 Si X = (X1 , ..., Xn )0 es tal que las Xi son iid con ley N (, 2 )
2
entonces X N (, n ).

Demostracion. X Nn (1, 2 In ), con 1 = (1,...,


n)
1)0 . Por tanto si tomamos
L = (1/n, ..., 1/n) tendremos, por la proposicion anterior, que

X = LX N (L1, 2 LL0 ),

y
1
L1 =(1/n, ..., 1/n) ... = 1

1

1/n
1
LL0 = (1/n, ..., 1/n) ... =

n
1/n

Definicion 1.8.1 Sean Z1 , ..., Zn iid N (0, 1), entonces Z12 + .. + Zn2 sigue una
ley que se conoce como Ji-cuadrado con n-grados de libertad, se escribe Xn2 . Esto
es
Ley
Xn2 = Z12 + .. + Zn2 , Zi iid N (0, 1).

Observacion 1.8.1 Si Z1 N (0, 1)


1 1
fZ12 (u) = fZ1 ( u) 1(0,) (u) + fZ1 ( u) 1(0,) (u)
2 u 2 u
u
1 e 2 1 u
= 1(0,) (u) = u1/21 e 2 1(0,) (u),
2 u 2
esto es
Z12 Gamma(1/2, 1/2).
Es facil ver que si W1 Gamma(1 , ) y W2 Gamma(2 , ) y son indepen-
dientes entonces W1 + W2 Gamma(1 + 2 , ), de esta manera la ley Xn2 es
una ley Gamma(n/2, 1/2).

Teorema 1.8.1 (Fisher) Si X1 , ..., Xn son iid con ley N (, 2 ) entonces U :=


Pn (Xi X)2 2
i=1 2 Xn1 independiente de X.
32 CAPITULO 1. ESTIMACION PUNTUAL

Xi Pn
Demostracion. Tomemos Yi = , entonces U = i=1 (Yi Y )2 con Yi
iid N (0, 1). Tenemos que,

n n
!2
Y
i
X X
0
U= Yi2 2
nY = Y Y ,
i=1 i=1
n

donde Y = (Y1 , ..., Yn )0 . Sea T una matriz ortogonal n n con su primera fila
( 1n , ...,
n) 1
n
) esto es
1
1n


n
T = . . ,
. .
Pn
Sea Z = T Y, entonces Z1 = i=1 Yin y Z 0 Z = Y 0 T 0 T Y = Y 0 Y, as

n
!2
Y
i
X
U = Y 0Y
i=1
n
= Z 0 Z Z12 = Z22 + .. + Zn2 ,

y sabemos por el corolario (1.8.1) que Z es un vector de N (0, 1) independientes,



de manera que U es independiente de Z1 = n X
2
y U Xn1 .

Definicion 1.8.2 Si X N (0, 1) e Y Xn2 y X e Y son independientes


entonces la ley de
X
q
Y
n

se conoce como ley t de Student con n grados de libertad, la escribiremos tn .


Esto es
X Ley
q = tn
Y
n

Observacion 1.8.2 Se puede ver que

1 1 ( n+1
2 ) x2 n+1
ftn (x) = n (1 + ) 2 .
n ( 2 ) 2

Notemos tambien que por la ley de los grandes numeros y el teorema de Slutsky

X Ley
q N (0, 1),
Y n
n

la tn es una distribucion simetrica como la N (0, 1) pero con las colas mas pe-
sadas.
1.8. MUESTRAS DE UNA POBLACION NORMAL J.M. Corcuera

Corolario 1.8.3 (del teorema de Fisher) Si X1 , ..., Xn son iid con ley N (, 2 )
entonces
X
n tn1
S
donde
n
1 X
S 2 = (Xi X)2 .
n 1 i=1
X Pn 1 2 2
Demostracion. n N (0, 1) y i=1 2 (Xi X) Xn1 y son
independientes, entonces por la definicion de t de Student

n X

q Pn tn1
1 1
n1 i=1 2 (Xi X)2

pero

n X

X
q Pn = n
1 1
X)2 S
n1 i=1 2 (Xi
34 CAPITULO 1. ESTIMACION PUNTUAL
Captulo 2

Intervalos de confianza

Dado un modelo parametrico (X , F, {P , }), con Rd la idea es dar


una region de Rd en la que se pueda encontrar el verdadero valor de . Vamos a
concentrarnos en el caso d = 1 con lo que nuestras regiones seran intervalos.

2.1 Construccion de intervalos a partir de la verosimil-


itud
Sea x = (x1 , x2 , ..., xn ) una muestra de tamano n y L(x; ) la verosimilitud. En
estimacion puntual utilizamos (x) como estimacion de , sin embargo sabemos
que (x) no es exactamente sino que oscila, al cambiar la muestra, alrededor
de . Entonces una manera alternativa o complementaria de localizar sera
dar un conjunto de puntos en lugar de un punto. Podramos as decir que se
encuentra en [1 (x), 2 (x)], con cierta seguridad o verosimilitud. Notemos que
1 y 2 estiman los extremos del intervalo y por tanto este va cambiando de
muestra a muestra, podemos escribir

I(x) = [1 (x), 2 (x)].

Es evidente que nos gustara tener un intervalo de longitud 2 (x)1 (x) pequena
(mas preciso) frente a uno de longitud grande (impreciso) pero si lo tomamos
mas pequeno la seguridad de que el intervalo contenga a tambien disminuira,
por tanto debemos buscar un compromiso entre ambas cosas.
Para controlar la seguridad o verosimilitud del intervalo podemos tomar
el conjunto de valores de tales que

L(x; )
K
L(x; )

para un valor de K no muy grande. Si embargo queda por saber como fijar K.

35
36 CAPITULO 2. INTERVALOS DE CONFIANZA

Una manera podra ser tomar K tal que

L(x; )
PX {x, K}
L(x; )

con un proximo a 1.

Definicion 2.1.1 Diremos que los intervalos I(x) para R tienen (coefi-
ciente) de confianza si
PX ( I)
esto es PX {x, I(x)} .

Observacion 2.1.1 Habitualmente se suele tomar 0.95 o 0.99 (si la muestra


es muy grande).

Observacion 2.1.2 Notemos que PX ( I) = P ( I(X))

Observacion 2.1.3 Analogamente diramos que los intervalos I(x) para g()
R tienen (coeficiente) de confianza si

PX (g() I)

y podra ser multidimensional.

Ejemplo 2.1.1 Sean n observaciones iid con distribucion N (, 2 ), conocida.


n
1 1 X
L(x; ) = n exp{ (xi )2 }
2 2 2 i=1
n
1 1 X n
= n exp{ (xi x)2 } exp{ 2 (x )2 }
2 2 2 i=1 2
n
= h(x) exp{ (x )2 }
2 2
entonces, puesto que (x) = x

L(x; ) n
K exp{ 2 (x )2 } K
L(x; ) 2

o equivalentemente

|x | CK
n
donde CK es una constante que depende del valor de verosimilitud elegido, K,
pero no de o n. Finalmente obtenemos

x CK x + CK .
n n
2.2. CONSTRUCCION DE INTERVALOS A PARTIR DE FUNCIONES PIVOTANTES.J.M. Corcuera

Sin embargo, no hay una manera clara de como fijar K o CK . Podemos mirar
como se comporta el intervalo [x CK n , x + CK n ] cuando cambiamos la
muestra, en particular

P ( [X CK , X + CK ])
n n

Ahora bien

P {X CK X + CK ]}
n n
 
n(X )
= P CK .

2
Sabemos que X N (, n ) de manera que

n(X )
N (0, 1)

y la probabilidad anterior No depende de y as podemos encontrar CK inde-
pendiente de tal que
 
n(X )
P CK

para un valor de prefijado. Por ejemplo, si tomamos = 0.95, como (muy


aproximadamente)
P {|N (0, 1)| 1, 96} = 0.95
bastara tomar CK = 1, 96. Tendremos as dada una muestra x el intervalo

x 1.96 x + 1.96 ,
n n

de coeficiente de confianza 0.95.

2.2 Construccion de intervalos a partir de fun-


ciones pivotantes.
Como hemos visto en el ejemplo anterior obtener el intervalo para de coefi-
ciente ha sido posible por la circunstancia de que

n(X )
N (0, 1)


es decir la distribucion de n(X)
no depende del valor de . Esto nos lleva a
la siguiente definicion general.
38 CAPITULO 2. INTERVALOS DE CONFIANZA

Definicion 2.2.1 Sea (X , F, {PX , }), con Rd un modelo parametrico,


una funcion pivotante para g() R es una aplicacion medible

: X g() R
(x, g()) 7 (x, g())

y tal que la ley de (, g()) no depende de .

Ejemplo 2.2.1 Sea un modelo de n observaciones iid con distribucion N (, 2 )


entonces
x
(x, ) = n
s
donde
n
1 X
s2 = (xi x)2
n 1 i=1
es una funcion pivotante para . En efecto sabemos que (por el teorema de
Fisher) que
(, ) tn1 de Student.
Asimismo Pn
i=1 (xi x)2
(x, ) =
2
es una funcion pivotante ya que (tambien por el teorema de Fisher)
2
(, ) Xn1

Proposicion 2.2.1 Sea (x, g()) una funcion pivotante para g() y B B(R)
tal que
PX {(, g()) B}
entonces
I(x) = {g(), (x, g()) B}
es una region de coeficiente de confianza .

Demostracion. Tenemos que ver que

PX {x, g() I(x)} ,

pero decir que g() I(x) es lo mismo que decir que (x, g()) B, entonces

PX {x, g() I(x)} = PX {x, (x, g()) B}


= PX {(, g()) B} .

Observacion 2.2.1 Normalmente B sera un intervalo [a, b] de manera que


(x, g()) B equivaldra a a (x, g()) b, entonces si (x, ) es una
funcion estrictamente monotona creciente tendremos que esto equivale a decir
que 1 (x, )(a) g() 1 (x, )(b).
2.3. PROBLEMAS DE DOS MUESTRAS. J.M. Corcuera

Ejemplo 2.2.2 (Intervalo para , desconocida) Sea un modelo de n obser-


vaciones iid con distribucion N (, 2 ) entonces (x, ) = n x
s es un piv-
ote para con distribucion tn1 de Student entonces si tomamos el intervalo
[tn1;/2 ; tn1;/2 ] donde tn1;/2 es un valor tal que

P (tn1 > tn1;/2 ) = /2

con = 1 , y donde tn1 denota una variable con ley tn1 de Student,
resultara que

X
P(,) (tn1;/2 n tn1;/2 ) =
s
y de aqui,
x
tn1;/2 n tn1;/2
s
proporcionara un intervalo de confianza . Si aislamos tendremos que lo an-
terior equivale a

s s
x tn1;/2 x + tn1;/2
n n

P
Ejemplo 2.2.3 (Intervalo para ) Sea de nuevo un modelo de n observaciones
n
(x x)2
normales independientes N (, 2 ) entonces (x, ) = i=1 2i es una funcion
2 2
pivotante para con distribucion Xn1 entonces si tomamos los puntos Xn1;1/2
2
y Xn1;/2 (con la misma notacion de antes) tendremos que
Pn
2 i=1 (xi x)2 2
Xn1;1/2 Xn1;/2
2

proporciona un intervalo de confianza . En efecto, de aqu aislando 2 obten-


emos
n 2 2 n 2
2 2
Xn1;/2 Xn1;1/2
Pn
con 2 = 1
n i=1 (xi x)2 .

2.3 Problemas de dos muestras.


2.3.1 Muestras independientes
Supongamos un modelo correspondiente a observaciones X1 , X2 , ..., Xn1 , Y1 , Y2 , ..., Yn2
donde las X son iid con distribucion N (1 , 21 ) y las Y son iid con ley N (2 , 22 ).
Asumimos tambien que (las dos muestras) las X y las Y son independientes.
40 CAPITULO 2. INTERVALOS DE CONFIANZA

Intervalo de confianza para la diferencia de medias.


Supongamos que 1 = 2 . Entonces, como (por le teorema de Fisher y la inde-
pendencia de X e Y s)
1 1
X Y N (1 2 , 2 ( + ))
n1 n2
y Pn1 Pn2
i=1 (Xi X)2 i=1 (Yi Y )2
+ Xn21 +n2 2
2 2
y ademas son independientes, resultara que
X Y (1 2 )
q Pn1 Pn2 tn1 +n2 2 .
1 1
n1 +n2 2 ( n1 + n12 )( i=1 (Xi X)2 + i=1 (Yi Y )2 )

De aqu tendremos que


x y (1 2 )
(x, y, 1 2 ) = q Pn1 Pn2
1 1
n1 +n2 2 ( n1 + n12 )( i=1 (xi x)2 + i=1 (yi y)2 )

es una funcion pivotante para 1 2 . Y obtendremos un intervalo de confianza


para 1 2 dado por
s
n1 + n2 2 2
x y tn1 +n2 2;/2 ( 1 + 2 ) 1 2
n1 + n 2 2 n 2 n1
s
n1 + n2 2 2
x y + tn1 +n2 2;/2 ( 1 + 2 ).
n1 + n2 2 n2 n1
Si 1 6= 2 lo anterior no proporciona un pivote para 1 2 ya que no
hay manera de eliminar 21 y 22 . Hay diversas soluciones aproximadas, la mas
sencilla se basa en el hecho de que
X Y (1 2 )
q 2 N (0, 1)
1 22
n1 + n2

de manera que aproximadamente


X Y (1 2 )
q 2 N (0, 1)
1 22
n1 + n2

y tenemos el intervalo de confianza aproximadamente


s s
21 22 21 2
x y k/2 + 1 2 x y + k/2 + 2
n1 n2 n1 n2

donde P (N (0, 1) > k/2 ) = /2 y, como siempre, = 1 .


2.4. ALGUNOS METODOS PARA OBTENER PIVOTES J.M. Corcuera

Intervalo para el cociente de varianzas


Como Pn1
i=1 (Xi X)2
= Xn21 1
21
y
Pn1
i=1 (Yi Y )2
= Xn22 1
22
son independientes, si definimos la distribucion Fn1 ,n2 de Fisher (con n1 y n2
grados de libertad) como la que se obtiene al hacer el cociente
Xn21 /n1
Xn22 /n2
donde numerador y denominador son independientes, tendremos que
s21 / 21
Fn11 ,n2 1
s22 / 22
y esto nos dara el intervalo de confianza
s22 22 s22
Fn11 ,n2 1;1/2 Fn ,n 1;/2 .
s21 21 11 2
s21

2.3.2 Muestras relacionadas


Supongamos un modelo correspondiente a observaciones X1 , X2 , ..., Xn , Y1 , Y2 , ..., Yn
donde las X e Y son dependientes, pero Xi Yi son iid con distribucion
N (1 2 , 2 ) (siendo 1 la media comun de las X y 2 la media comun de
las Y ) entonces utilizando el teorema de Fisher, un intervalo de confianza de
coeficiente para 1 2 vendra dado por
s s
x y tn1;/2 1 2 x y + tn1;/2
n n
1 n
con s2 = n1 2
P
i=1 (xi yi (x y)) .

2.4 Algunos metodos para obtener pivotes


2.4.1 Un metodo bastante general
Supongamos un modelo asociado a observaciones iid X1 , X2 , ..., Xn con funcion
de distribucion F continua, R. Sabemos que entonces F (Xi ) U (0, 1)
y consecuentemente log F (Xi ) Exp(1) =Gamma(1, 1). Finalmente por la
independencia,
n
X 2n
log F (Xi ) Gamma(n, 1) = Gamma( , 1)
i=1
2
42 CAPITULO 2. INTERVALOS DE CONFIANZA

y como 2Gamma( 2n 2n 1 2
2 , 1) =Gamma( 2 , 2 ) = X2n , resultara que

n
X
2
2 log F (Xi ) X2n
i=1

y por tanto
n
X
(x, ) = 2 log F (xi )
i=1

sera una funcion pivotante para con una distribucion que esta tabulada.

2.4.2 Familias de posicion y escala


Supongamos un modelo asociado a observaciones iid X1 , X2 , ..., Xn con densi-
dad de la forma
f (x; ) = f0 (x )
se dice que en tal caso es una familia de posicion generada por f0 . En tal caso
Yi = Xi tiene densidad f0 (y) y por tanto

(x; ) = g(x1 , x2 , ..., xn )

es una funcion pivotante para cualquiera que sea la funcion g.


Si las Xi tienen densidad

1 x
f (x; ) = f0 ( )

se dice que es una familia de escala generada por f0 . En tal caso Yi = Xi /
tiene densidad f0 (y) y por tanto
x1 x2 xn
(x; ) = g( , ..., )

es una funcion pivotante para cualquiera que sea la funcion g.
Por ultimo si las Xi tienen densidad

1 x
f (x; ) = f0 ( )

se dice que es una familia de posicion y escala generada por f0 . En tal caso
Yi = (Xi )/ tiene densidad f0 (y) y por tanto

x1 x2 xn
(x; , ) = g( , ..., )

es una funcion pivotante para (, ) cualquiera que sea la funcion g.
2.4. ALGUNOS METODOS PARA OBTENER PIVOTES J.M. Corcuera

Ejemplo 2.4.1 Algunas familias de posicion y escala


Distribucion Densidad
Normal: N (, 2 ) 1
2
exp{ 12 ( x 2
) }
1 x
Laplace: La(, ) 2 exp{| |}
1 1
Cauchy: Cau(, ) 1+( x )2

1 x x
Exponencial: Exp(, ) exp{ }1(0,) ( )
1 x
Uniforme: U (, + ) 1(0,1) ( )

2.4.3 Metodos aproximados


Utilizando la desigualdad de Chebichef.
Supongamos que queremos obtener un intervalo de confianza para g() = E (T ),
T un estadstico de cuadrado integrable. Por al desigualdad de Chebichef
V ar (T )
PX (|T g()| > ) ,
2
V ar (T )
por tanto si tomamos 1 = 2 resultara que

PX (|T g()| )
con s
V ar (T )
=
1
de manera que s
V ar (T )
|T (x) g()|
1
proporciona un intervalo de confianza , despejando g() obtenemos
s s
V ar (T ) V ar (T )
T (x) g() T (x) + .
1 1

El problema es que no conocemos V ar (T ) ya que depende de podemos


entonces estimarla por V ar (T ) donde es un estimador de . El intervalo
obtenido sera ahora solo de confianza aproximadamente . En algunos casos
esto se puede evitar.
Ejemplo 2.4.2 Supongamos que nuestras observaciones son Bernoullis(p) y
queremos dar un intervalo de confianza para p. Podemos tomar T (x) = x.
Sabemos que entonces
n
1 X
V arp (T ) = V arp (T (X)) = V ar p ( Xi )
n2 i=1
nV arp (X1 ) p(1 p)
= 2
=
n n
44 CAPITULO 2. INTERVALOS DE CONFIANZA

1
de manera que el valor maximo que puede tomar V arp (T ) es 4n . As
1 1
x p p x + p
2 n(1 ) 2 n(1 )
tiene confianza , aunque
es de longitud demasiado grande. Para = 0.95 el
radio es aprox 2.24/ n

Metodo basado en el comportamiento asintotico del EMV


Sabemos que en condiciones de regularidad y en el esquema iid, aproximada-
mente
n( )
q N (0, 1)
1
I1 ()

con lo que
k/2 k/2
q + q
nI1 () nI1 ()
sera un intervalo de confianza aproximadamente , donde P {N (0, 1) > k/2 } =
/2, y, como siempre, = 1 .
Ejemplo 2.4.3 Supongamos, como antes, que nuestras observaciones son Bernoullis(p)
y queremos dar un intervalo de confianza para p. Sabemos que el EMV es
1
p(x) = x, tambien sabemos que I1 (p) = p(1p). . De manera que
r r
x(1 x) x(1 x)
x k/2 p x + k/2
n n
sera un intervalo para de confianza aproximada . En lugar de estimar p(1p)
podemos acotarlo por 41 y tendramos
1 1
x k/2 p x + k/2 .
2 n 2 n
Si = 0.95, k0.025 = 1.96 de manera que aproximadamente
1 1
x p x +
n n
nos da un intervalo de confianza 0.95 (aprox.). Su radio es la mitad del obtenido
por Chebichef !. Notemos que si queremos un error inferior al 3% necesitaremos
que
1
0.03
n
esto es  2
1
n = 1111, 11.
0.03
En la practica, por ejemplo, para saber la proporcion teorica de individuos con
una determinada caracterstica de una poblacion muy grande, se suele tomar un
tamano muestral de 1200, 1500.
2.4. ALGUNOS METODOS PARA OBTENER PIVOTES J.M. Corcuera

2.4.4 Un metodo especial


El metodo se basa en el siguiente resultado:

Proposicion 2.4.1 Supongamos un modelo dependiente de un parametro


R, un estadstico T (x) y funciones a1 () y a2 (), monotonas estrictamente cre-
cientes, tales que, fijado (0, 1)

PX {x, a1 () T (x) a2 ()} ,

entonces
a1 1
2 (T (x)) a1 (T (x))

nos proporciona un intervalo de confianza para .


Demostracion. Si x verifica

a1 1
2 (T (x)) a1 (T (x))

resultara que

T (x) a2 ()
a1 () T (x)

o lo que es lo mismo a1 () T (x) a2 (), con lo que

PX {x, a1 1 X
2 (T (x)) a1 (T (x))} = P {x, a1 () T (x) a2 ()}

Ejemplo 2.4.4 Supongamos el modelo del ejemplo anterior y T (x) = x, ten-


emos que buscar a1 (p) y a2 (p) tales que

PpX {x, a1 (p) x a2 (p)}

o equivalentemente
Pp {a1 (p) X a2 (p)}
donde nX Binomial(n, p). Para determinar a1 (p) buscamos, con ayuda de la
distribucion Binomial(n, p), el valor mas grande que verifique

Pp {nX < na1 (p)} /2

se puede ver que a1 (p) es estrictamente creciente con p, y analogamente para


a2 (p), buscamos el valor mas pequeno tal que

Pp {nX > na2 (p)} /2.

Existen graficos para a1 (p) y a2 (p) (haces de Clopper-Pearson) para diferentes


valores de y n que nos permiten obtener los intervalos. Si miramos el ejemplo
anterior tambien tenamos que aproximadamente
n(x p)2
PpX {x, 2
k/2 } = ,
p(1 p)
46 CAPITULO 2. INTERVALOS DE CONFIANZA

Ahora bien
n(x p)2 2
k/2 n(x2 2px + p2 ) k/2
2
(p p2 )
p(1 p)
2 2
k/2 k/2
(1 + )p2 (2x + )p + x2 0
n n
Las soluciones de la ecuacion que se obtiene igualando a cero son
q
2 2 /4)/(n + k 2 )
d(x) = (nx + k/2 /2 k/2 nx(1 x) + k/2 /2
q
2 2 /4)/(n + k 2 )
u(x) = (nx + k/2 /2 + k/2 nx(1 x) + k/2 /2

de manera que un intervalo aproximado de confianza viene dado por

d(x) p u(x).

Si np y n(1 p) valen al menos 5 estos intervalos son satisfactorios en la


practica.

2.4.5 Regiones de confianza, intervalos simultaneos


Region para la media y la desviacion tpica de observaciones normales
Supongamos que el modelo corresponde a n observaciones iid N (, 2 ), y
desconocidos, queremos dar una region de confianza para (, ) , es decir un
subconjunto B(x) (dependera de la muestra x) R R+ de manera que
X
P(,) {x, (, ) B(x)} = .

Por el teorema de Fisher


Pn
(X ) i=1 (Xi X)2 2
n N (0, 1), Xn1
2
y son independientes. Entonces, utilizando la notacion habitual, tendremos que

(X )
P(,) {k1 n k1 } = ,
2
Pn 2
2
i=1 (Xi X)
P(,) {X 2
X2 } =

n1; 2 2 n1;1 2

y por la independencia

(X )

P(,) k1 n k1 ,
2 2
Pn 2

(Xi X)
X 2 i=1 2 X2
=
n1; 2 n1;1 2
2.4. ALGUNOS METODOS PARA OBTENER PIVOTES J.M. Corcuera

de manera que
(x )
k1 n k1 ,
2
Pn 2
2
(x
i=1 i x)
X2
X2

n1; 2 2 n1;1 2

nos da una region de confianza . Mas explcitamente,



x k1 x + k1 ,
2 n 2 n

n n
q q
X 2 X 2

n1;1 2 n1; 2

de manera que obtenemos una region trapezoidal.

El principio de union-interseccion
El llamado principio de union-interseccion consiste en un metodo general,
basado en una desigualdad elemental, para obtener intervalos simultaneos, es
decir regiones rectangulares, para diferentes parametros. Sea una muestra de
observaciones X1 , X2 , ..., Xn cuya ley depende de dos parametros 1 y 2 y
supongamos que sabemos encontrar intervalos de confianza 1 y 2 para 1 y
2 respectivamente, y sean estos [S1 (X), S2 (X)] y [T1 (X), T2 (X)], esto es

P1 ,2 (S1 (X) 1 S2 (X)) 1 , P1 ,2 (T1 (X) 2 T2 (X)) 2 .

Pero cuanto vale

P1 ,2 (S1 (X) 1 S2 (X), T1 (X) 2 T2 (X)).

Dados dos eventos A1 y A2

P (A1 A2 ) = 1 P (Ac1 Ac2 ) 1 P (Ac1 ) P (Ac2 )


P (A1 ) + P (A2 ) 1.

Por tanto

P1 ,2 (S1 (X) 1 S2 (X), T1 (X) 2 T2 (X)) 1 + 2 1.

Entonces si tomamos 1 = 2 = 1+2 tendremos intervalos simultaneos de coe-


ficiente . Si escribimos i = 1 i , i = 1, 2 y = 1 la condicion anterior
se puede escribir 1 = 2 = /2. La generalizacion es evidente para el caso de
d parametros: 1 = 2 = ... = d = /d.
48 CAPITULO 2. INTERVALOS DE CONFIANZA
Captulo 3

Test de hipotesis

Hasta ahora hemos utilizado la muestra x para sugerir un valor o un conjunto de


valores posibles de , el parametro de nuestro modelo (X , F, {P , }), pero
ahora lo que queremos es validar o rechazar un valor o un conjunto de valores
de . Por ejemplo, sean 0 y 1 una particion de . Queremos saber si 0
y nos ayudaremos de la muestra para decidir si es razonable suponer que 0
o no. Lo formularemos en terminos de hipotesis, la hipotesis que llamaremos
nula, que denotaremos H0 , y que sera que 0 y la hipotesis que llamaremos
alternativa, que denotaremos H1 y que sera que 1 . Escribiremos que
nuestro problema es contrastar
H0 : 0
H1 : 1 .
Un test (o contraste) de hipotesis sera una aplicacion
: X {H0 , H1 }
x 7 (x).
Todo test de hipotesis establece entonces una particion de X en dos conjuntos:
A0 = 1 (H0 ) y A1 = 1 (H1 ). A0 es el conjunto de muestras que nos llevaran
a aceptar H0 segun y A1 el conjunto de muestras que nos llevaran a rechazar
H0 (y aceptar H1 entonces). A A0 se le llama region de aceptacion y a A1 region
crtica. Como vemos todo test queda definido por su region de aceptacion (o
su region crtica).
Buscaremos test o regiones crticas optimos en el sentido que nos equivoque-
mos lo menos posible al apostar por una u otra hipotesis. Pero que significa
equivocarse?, pues rechazar H0 cuando es cierta (lo llamaremos error de primera
especie o tipo I) o aceptar H0 cuando es falsa (lo llamaremos error de segunda
especie o tipo II). En sntesis, dada una muestra x, puede ocurrir lo siguiente
0 1
x A0 acertamos error tipo II
x A1 error tipo I acertamos.

49
50 CAPITULO 3. TEST DE HIPOTESIS

Es evidente que, salvo casos triviales no podremos eliminar los dos errores
a la vez y si tratamos de disminuir la frecuencia de uno la del otro en general
aumentara. Como veremos vamos a dar mas importancia a los errores del tipo
I de manera que solo rechacemos la hipotesis nula cuando haya mucha evidencia
en este sentido.

3.1 Test de hipotesis simples


Consideremos la situacion sencilla donde 0 = {0 } y 1 = {1 }. Cuando,
como aqu, solo hay un posible valor en las hipotesis se dice que las hipotesis
son simples si no se dice que son compuestas. En el caso de hipotesis simples
podemos calcular las probabilidades de error de tipos I y II:

Prob de rechazar H0 cuando es cierta = P0 (A1 )


Prob de aceptar H0 cuando es falsa= P1 (A0 ).

Adoptaremos el llamado enfoque de Neyman que consiste en tomar A1 de man-


era que P0 (A1 ) (normalmente = 0.05 o 0.01 (si la muestra es grande)) y
buscar entre todas estas regiones cticas A1 las que minimizan P1 (A0 ). Como

P1 (A0 ) = 1 P1 (A1 ),

esto equivale a maximizar P1 (A1 ) := .

Definicion 3.1.1 Dado un test con region crtica A1 diremos que es de tamano
si P0 (A1 ) = .

Definicion 3.1.2 Dado un test con region crtica A1 diremos que es de nivel
(de significacion) si P0 (A1 ) .

Definicion 3.1.3 Dado un test con region crtica A1 diremos que es de poten-
cia si P1 (A1 ) = .

El proposito es buscar entre los test de nivel el de mayor potencia. Sea


L(x; ) la verosimilitud de nuestro modelo, en el caso que consideramos solo
puede tomar dos valores 0 y 1 . Escribamos

L0 (x) = L(x; 0 )
L1 (x) = L(x; 1 ),

Una region crtica razonable sera

A1 = {x, L1 (x) > KL0 (x)},

con K > 0 y suficientemente grande, es decir nos quedamos con la hipotesis de


que = 1 si 1 es mucho mas verosmil que 0 . En realidad esto nos va a dar
test optimos. Tenemos el siguiente teorema conocido mas bien como Lema de
Neyman-Pearson
3.1. TEST DE HIPOTESIS SIMPLES J.M. Corcuera

Teorema 3.1.1 ( Lema de Neyman-Pearson) Sea un test con region crtica A1


tal que

{x, L1 (x) > KL0 (x)} A1 (3.1)


{x, L1 (x) < KL0 (x)} A0 ,

donde K 0, supongamos que P0 (A1 ) = , entonces es de maxima potencia


entre los test de nivel de significacion .
Demostracion. Vamos a suponer que nuestro modelo es de observaciones
con densidad. Sea A1 otra region crtica, tenemos que
Z
(1A1 (x) 1A1 (x))(L1 (x) KL0 (x))dx 0
X

ya que el integrando es siempre no negativo:

Si x A1 ,
L1 (x) KL0 (x) 0 y 1A1 (x) 1A1 (x) = 1 1A1 (x) 0

Si x A0 ,
L1 (x) KL0 (x) 0 y 1A1 (x) 1A1 (x) = 0 1A1 (x) 0.

Por tanto
Z Z
(1A1 (x) 1A1 (x))L1 (x)dx K (1A1 (x) 1A1 (x))L0 (x)dx,
X X

equivalentemente

P1 (A1 ) P1 (A1 ) K(P0 (A1 ) P0 (A1 )) 0

ya que K 0 y P0 (A1 ) P0 (A1 ) = P0 (A1 ) 0 ya que A1 es de nivel .

Observacion 3.1.1 Los test anteriores, que verifican (3.1), los llamaremos
test de Neyman.

Tambien tenemos cierta unicidad de los test de maxima potencia.

Teorema 3.1.2 Todos los test de maxima potencia son test de Neyman.

Demostracion. Sea un test de maxima potencia a nivel con region crtica


A1 . Sea A1 la region crtica de un test de Neyman. Entonces sabemos, por la
demostracion anterior, que
Z
(1A1 (x) 1A1 (x))(L1 (x) KL0 (x))dx 0
X
52 CAPITULO 3. TEST DE HIPOTESIS

pero al ser A1 de maxima potencia, la desigualdad no puede ser estricta ya que


llegaramos a que
P1 (A1 ) P1 (A1 ) > 0.
Por tanto se debe verificar que
Z
(1A1 (x) 1A1 (x))(L1 (x) KL0 (x))dx = 0
X

pero el integrando es no negativo (lo hemos visto en la demostracion anterior)


y por tanto, salvo conjuntos de medida de Lebesgue cero (longitud cero)

(1A1 (x) 1A1 (x))(L1 (x) KL0 (x)) = 0,

de manera que si L1 (x) KL0 (x) > 0, 1A1 (x) 1A1 (x) = 0 y como entonces
x A1 x tambien esta en A1 . As que

A1 {x, L1 (x) KL0 (x) > 0}.

Analogamente si L1 (x) KL0 (x) < 0, 1A1 (x) 1A1 (x) = 0 y como entonces
x
/ A1 (es decir x A0 ) x tampoco esta en A1 (es decir x A0 ), as

A0 {x, L1 (x) KL0 (x) < 0}

Ejemplo 3.1.1 Supongamos un modelo de observaciones iid con distribucion


N (, 2 ) donde es conocida y puede valer 0 o 1 (1 > 0 ). Queremos
test optimos para contrastar

H0 : = 0 versus
H1 : = 1 .

Tenemos que
n
1 1 X
L1 (x) = n exp{ (xi 1 )2 }
2 2 2 i=1
n
1 1 X n
= n exp{ 2
(xi x)2 } exp{ 2 (x 1 )2 }
2 2 i=1 2
n
1 1 X n
L0 (x) = n . exp{ (xi x)2 } exp{ 2 (x 0 )2 }
2 2 2 i=1 2

Entonces, como

L1 (x) > KL0 (x)


exp{ 2n2 (x 1 )2 }
>K (x 0 )2 (x 1 )2 > Cte
exp{ 2n2 (x 0 )2 }
(1 0 )x > Cte x > C
3.1. TEST DE HIPOTESIS SIMPLES J.M. Corcuera

Una region crtica optima vendra dada por

A1 = {x, x > C}.

Ahora la constante C se puede determinar de manera que

P0 {X > C} = .

Como, bajo 0 ,
2
X N (0 , )
n

n(X 0 ) n(C 0 )
P0 {X > C} = P0 { > }

n(C 0 )
= P0 {N (0, 1) > }=

Y utilizando la notacion habitual

n(C 0 )
= k ,

con lo que finalmente

C = 0 + k ,
n
y

A1 = {x, x > 0 + k }
n
Podemos ahora calcular la potencia del test

= P1 (A1 ) = P1 {X > 0 + k }
n

n(X 1 ) n(0 1 )
= P1 { > k + }

n(0 1 )
= P1 {N (0, 1) > k + }

n(0 1 )
= 1 (k + )

donde es la funcion de distribucion de una normal estandar. Notemos que

lim = 1,
n

cuando esto ocurre se dice que el test en cuestion es consistente.

Observacion 3.1.2 Notar que si hacemos el contraste anterior pero con 1 <
0 entonces la region crtica optima de nivel es

A1 = {x, x < 0 k }
n
54 CAPITULO 3. TEST DE HIPOTESIS

Observacion 3.1.3 Una vez construido un test para ver si aceptamos o rechaz-
amos H0 se toma una muestra x y se mira si esta en la region de aceptacion o
en la region crtica correspondientes a un nivel de significacion prefijado . Otra
manera de indicar que tan significativa es la muestra observada para rechazar
la hipotesis nula es dar su p-valor, consiste en el nivel de significacion del test a
partir del cual la muestra observada estara en la region crtica. Si el p-valor es
mas pequeno que 0.05 nuestra muestra estara en la region crtica de nivel 0.05.
Esto es, cuanto mas pequeno es su p-valor menos se valida la hipotesis nula.

Ejemplo 3.1.2 Sea un modelo de observaciones iid con densidad U (0, ) donde
puede ser 0 o 1 . 1 > 0 . Queremos construir test optimos para contrastar

H0 : = 0 versus
H1 : = 1 .

1
L1 (x) = 1[0,1 ] (x(n) )
n1
1
L0 (x) = 1[0,0 ] (x(n) )
n0
de manera que los test con region crtica
1 K
A1 {x, 1[0,1 ] (x(n) ) > 1[0,0 ] (x(n) )} (3.2)
n1 n0
1 K
A0 {x, n 1[0,1 ] (x(n) ) < 1[0,0 ] (x(n) )}, (3.3)
1 n0
son optimos. En particular si tomamos

A1 = {x, x(n) > C}


n
con C 0 , sera un test optimo. En efecto, basta tomar K = 0
n , entonces si
1
si x(n) C resultara que

1[0,1 ] (x(n) ) = 1[0,0 ] x(n) ,

con lo que
1 K
A0 {x, n 1[0, 1 ] (x(n) ) = n 1[0, 0 ] (x(n) )},
1 0
lo que implica que
1 K
A1 {x, 1[0,1 ] (x(n) ) > n 1[0,0 ] (x(n) )}.
n1 0
Podemos bucar ahora C para un nivel de significacion . Se debera cumplir que

P0 (X(n) > C) = ,
3.2. HIPOTESIS COMPUESTAS J.M. Corcuera

ahora bien

P0 {X(n) > C} = 1 P0 {X(n) C}


= 1 ni=1 P0 {Xi C}
 n
C
= 1 =
0

con lo que

n
C = 0 1 .
Podemos ahora calcular la potencia del test

= P1 (X(n) > C) = 1 P1 {X(n) C}


 n
C
= 1 ni=1 P1 {Xi C} = 1
1
 n
0
= 1 (1 )
1

Notemos que
lim = 1,
n

con lo que el test es consistente.

3.2 Hipotesis compuestas


En el caso de hipotesis compuestas tenemos probabilidades de error de primera
especie, en plural:
P (A1 ), 0
y lo mismo para el error de segunda especie

P (A1 ), 1 .

Definicion 3.2.1 Llamaremos tamano del test (con region crtica A1 ) al valor

sup P (A1 )
0

Definicion 3.2.2 Diremos que un test es de nivel (de significacion) si

sup P (A1 )
0

Definicion 3.2.3 Llamaremos funcion de potencia del test a

() = P (A1 ), 1
56 CAPITULO 3. TEST DE HIPOTESIS

Siguiendo el enfoque de Neyman, buscaremos entre los test de nivel pre-


fijado los que son uniformemente mas potentes (UMP), es decir que para todo
valor de 1 su potencia es superior.
Desafortunadamente no tenemos un resultado general que nos permita con-
struir test UMP, pero veremos que en muchos casos los test de Neyman nos
permiten construir test UMP.

Proposicion 3.2.1 Fijemos un nivel [0, 1], y sea A1 un test de Neyman


de nivel para contrastar

H0 : = 0 versus
H1 : = 1 .

y que A1 no cambia al variar 1 1 . Supongamos tambien que sup0 P (A1 ) =


P0 (A1 ) (donde 0 0 ). Entonces el test con region crtica A1 es UMP al
nivel para contrastar

H0 : 0 versus
H1 : 1 .

Demostracion. Sea A1 una region crtica en el contraste

H0 : 0 versus
H1 : 1 .

y que tiene las propiedades anteriores.


Supongamos que NO es UMP a nivel , esto implicara que existe algun
valor de la alternativa, pongamos 1 , tal que su potencia es superada por otra
region crtica (otro test), pongamos A1 , de nivel . Si restringimos ambos test
a constrastar

H0 : = 0 versus
H1 : = 1 .

resultara que son de nivel y que (A1 ) > (A1 ) pero A1 es un test de Neyman
por tanto llegamos a una contradiccion.

Ejemplo 3.2.1 Consideremos un modelo de observaciones iid con distribucion


N (, 2 ) donde es conocida. Queremos contrastar

H0 : 0
H1 : > 0 .

Sabemos por el ejemplo (3.1.1) que un test de Neyman de nivel para contrastar

H0 : = 0
H1 : = 1 .
3.2. HIPOTESIS COMPUESTAS J.M. Corcuera

con 1 > 0 viene dado por la region crtica



A1 = {x, x > 0 + k }
n
y esta region crtica No depende de 1 . Por otro lado si tomamos 0 tenemos

P (A1 ) = P {X > 0 + k }
n

n(X ) n
= P { > (0 ) + k }

n
= P {N (0, 1) > (0 ) + k }

P {N (0, 1) > k } (ya que 0 > 0)
= .

Con lo que sup0 P (A1 ) = P0 (A1 ). Por tanto A1 es una region crtica (de
un test) UMP.

Observacion 3.2.1 Notemos que No podemos utilizar el procedimiento ante-


rior para construir un test UMP para el contraste

H0 : = 0
H1 : =6 0 ,

con observaciones iid N (, 2 ) donde es conocida. De hecho podemos deducir


que no existe test UMP, ya que el test UMP, a nivel , para contrastar

H0 : = 0
H1 : > 0 ,

tiene region crtica



A1 = {x, x > 0 + k }
n
y el test UMP para contrastar

H0 : = 0
H1 : < 0 ,

tiene region crtica



A1 = {x, x < 0 k }.
n
No coinciden, de manera que si quisieramos maxima potencia por la derecha
no la tendramos por la izquierda (de la unicidad del test de maxima potencia
en simple contra simple) y viceversa.

A priori no sabemos como construir una region crtica en le caso de hipotesis


compuestas. En algunos casos la metodologa de intervalos de confianza nos
permite construir test de hipotesis.
58 CAPITULO 3. TEST DE HIPOTESIS

3.2.1 Construccion de test a partir de intervalos de confi-


anza
Supongamos que tenemos que contrastar

H0 : g() = 0 versus
H1 6 0 .
: g() =

Notemos que en este tipo de contrastes tanto la hipotesis nula como la alterna-
tiva pueden ser compuestas. Sean I(x), x X intervalos de confianza para
g(). Definamos la region crtica

A1 = {x, 0 6 I(x)}

entonces se trata de una region crtica de nivel = 1 . En efecto, por


construccion
P {x, g() I(x)} ,
Esto es
P {x, g() 6 I(x)} 1 = ,
en particular

P {x, g() 6 I(x)} , tal que g() = 0

Por tanto

P (A1 ) = P {x, 0 6 I(x)} , tal que g() = 0

y al region crtica A1 es de nivel = 1. Notemos que en principio no podemos


concluir nada acerca de la potencia del test correspondiente, necesitaramos
saber
P {x, 0 6 I(x)} para g() 6= 0 .

Ejemplo 3.2.2 Supongamos un modelo n de observaciones iid N (, 2 ),


conocida. Queremos contrastar

H0 : = 0
H1 : =6 0 ,

En este caso la hipotesis nula es simple. Ya vimos que los intervalos de confianza
para , venan dados por

x k/2 x + k/2 .
n n

De manera que una crtica de nivel vendra dada por



A1 = {x, 0 < x k/2 o 0 > x + k/2 }.
n n
3.2. HIPOTESIS COMPUESTAS J.M. Corcuera

En este caso podemos calcular facilmente la funcion de potencia ().



P (A1 ) = P (X k/2 > 0 ) + P (X + k/2 < 0 )
n n
 
n(X ) n
= P > (0 ) + k/2

 
n(X ) n
+P < (0 ) k/2

 
n
= P N (0, 1) > (0 ) + k/2

 
n
+P N (0, 1) < (0 ) k/2


n n
= 1 ( (0 ) + k/2 ) + ( (0 ) k/2 )

Ejemplo 3.2.3 Supongamos un modelo n de observaciones iid N (, 2 ), de-
sconocida. Queremos contrastar
H0 : = 0
H1 : =6 0 ,
En este caso la hipotesis nula es compuesta. Ya vimos que los intervalos de
confianza para , venan dados por
s(x) s(x)
x tn1;/2 x + tn1;/2 .
n n
De manera que una crtica de nivel vendra dada por
s(x) s(x)
A1 = {x, 0 < x tn1;/2 o 0 > x + tn1;/2 }.
n n
Si intentamos calcular la funcion de potencia () solo obtenemos in valor
aproximado:
s s
P, (A1 ) = P, (X tn1;/2 > 0 ) + P, (X + tn1;/2 < 0 )
n n
 
n(X ) n
= P, > (0 ) + tn1;/2
s s
 
n(X ) n
+P, < (0 ) tn1;/2
s s
 
n
= P, tn1 > (0 ) + tn1;/2
s
 
n
+P, tn1 < (0 ) tn1;/2
s

n n
1 Ftn1 ( (0 ) + tn1;/2 ) + Ftn1 ( (0 ) tn1;/2 ),
s s
60 CAPITULO 3. TEST DE HIPOTESIS

donde Ftn1 es la funcion de distribucion de una tn1 de Student.

Observacion 3.2.2 Podramos utilizar los intervalos que vimos en los proble-
mas de dos muestras para obtener los test de hipotesis correspondientes.

Si las hipotesis no tienen la forma anterior no podemos utilizar los inter-


valos de confianza para obtener test. Sin embargo vamos a ver que existe un
procedimiento general para construir test cuando las hipotesis son compuestas.

3.2.2 Test de la razon de verosimilitudes.


Supongamos el problema de contrastar

H0 : 0 versus
H1 : 1 .

el test de la razon de verosimilitudes (abreviaremos TRV) es el que tiene por


region crtica
A1 = {x, (x) K}
donde
sup0 L(x; )
(x) = ,
sup L(x; )
y 0 < K < 1. Notemos que (x) 1 para todo x y que si es el estimador
maximo verosmil tambien podemos escribir

sup0 L(x; )
(x) = ,
L(x; (x))

incluso si es el estimador maximo verosmil con la restriccion de que 0


podemos escribir mas simplemente

L(x; (x))
(x) = ,
L(x; (x))

Proposicion 3.2.2 Si las hipotesis son simples el test de la razon de verosimil-


itudes es un test de Neyman.

Demostracion.
L(x; 0 )) L0 (x)
(x) = = ,
L(x; 0 ) L(x; 1 ) L0 (x) L1 (x)

de manera que

L0 (x)
(x) K K
L0 (x) L1 (x)
L0 (x) K(L0 (x) L1 (x)) L0 (x) KL1 (x)),
3.2. HIPOTESIS COMPUESTAS J.M. Corcuera

ya que K < 1. En efecto si x es tal que L0 (x) L1 (x) la equivalencia es


inmediata y si x es tal que L0 (x) > L1 (x) no se puede cumplir ni la condicion
de la izquierda ni la de la derecha. Por tanto
1
A1 = {x, L1 (x)) L0 (x)}
K
con lo que se trata de un test de Neyman.

Ejemplo 3.2.4 Consideremos un modelo de observaciones iid con distribucion


N (, 2 ) donde es conocida. Queremos contrastar

H0 : 0
H1 : > 0 .

como en el ejemplo (3.2.1). Vamos a construir el test de la razon de verosimil-


itudes.
n
1 1 X
L(x; ) = n exp{ (xi )2 }
2 2 2 i=1
n
1 1 X n
= n exp{ (xi x)2 } exp{ 2 (x )2 }
2 2 2 i=1 2

de manera que el denominador del TRV


n
1 1 X
L(x; ) = n exp{ (xi x)2 }
2 2 2 i=1

y el numerador
n
1 1 X n
sup L(x; ) = n exp{ 2
(xi x)2 } sup exp{ 2 (x )2 }.
0 2 2 i=1 0 2

de manera que
n
(x) = sup exp{ (x )2 }.
0 2 2
Ahora bien
n n
sup exp{ (x )2 } = exp{ 2 inf (x )2 }
0 2 2 2 0
y
(x 0 )2

2 si x 0
inf (x ) =
0 0 si x < 0
de manera que

exp{ 2n2 (x 0 ))2 }



si x 0
(x) = .
1 si x < 0
62 CAPITULO 3. TEST DE HIPOTESIS

As la region crtica vendra dada por


A1 = {x, (x) K}
n
= {x, x 0 y exp{ (x 0 )2 } K}
2 2
= {x, x 0 y x C}
donde C es una constante mayor que 0 ya que K < 1. de manera que final-
mente
A1 = {x, x C}.
Obtenemos las mismas regiones que en el ejemplo (3.2.1) donde ya vimos que
eran optimas.
Ejemplo 3.2.5 Supongamos un modelo n de observaciones iid N (, 2 ), ,
desconocidas. Queremos contrastar
H0 : = 0
H1 : =6 0 ,
Vamos a construir el TRV.
n
1 1 X
L(x; , ) = n exp{ (xi )2 }
2 2 2 i=1
n
1 1 X n
= n exp{ (xi x)2 } exp{ 2 (x )2 }
2 2 2 i=1 2

El numerador sera
n
1 1 X
sup L(x; , 0 ) = n exp{ 2 (xi x)2 }
2 0 2 0 i=1
1 n 2
= n exp{ }
2 0 2 20

y el denominador
n
1 1 X
L(x; , ) = n exp{ (xi x)2 }
2 2 2 i=1
1 n
= n exp{ }
2 2

de manera que n
n 2

n
(x) = exp{ 2 + }
0 2 0 2
y (x) > K (region de aceptacion) equivale a que
2 2
2 exp{ 2 } C
0 0
3.2. HIPOTESIS COMPUESTAS J.M. Corcuera

y resolviendo la inecuacion tendremos

2
c1 < < c2
20

donde c1 y c2 son las soluciones de la ecuacion

u exp{u} = C.

Notemos que obtendramos lo mismo a partir de intervalos de confianza. Sin


embargo aqu dado , c1 y c2 quedan fijados, en cambio los intervalos de coefi-
ciente = 1 se pueden escoger de muchas maneras, de hecho ya vimos que
el procedimiento mas simple era dejar /2 en cada cola y en la practica esto
es lo que se utiliza.

Comportamiento asintotico del test de la razon de verosimilitudes


Consideremos los siguiente ejemplos

Ejemplo 3.2.6 Sea un modelo de n observaciones iid N (, 2 ), conocida y


queremos constrastar

H0 : = 0
H1 : =6 0 ,

L(x; 0 )
(x) =
L(x; )
1n exp{ 21 2 (xi x)2 } exp{ 2n2 (x 0 )2 }
P
( 2 ) n
=
1n 1
P
exp{ 2 2 (xi x)2 }
( 2) n

n
= exp{ (x 0 )2 }
2 2
de manera que
 2
n(x 0 )
W (x) := 2 log (x) =

y consecuentemente bajo H0

W (X) (N (0, 1))2 = X12 .

Ejemplo 3.2.7 Sea un modelo asociado a variables iid

X1 , X2 , ..., Xn1 N (1 , 21 ),

Xn1 +1 , Xn1 +2 , ..., Xn1 +n2 N (2 , 22 ), ...,


Xn1 +n2 +...+nm1 +1 , Xn1 +n2 +...+nm1 +2 , ..., Xn1 +n2 +...+nm1 +nm N (m , 2m )
64 CAPITULO 3. TEST DE HIPOTESIS

es decir m muestras independientes de variables normales independientes con


medias diferentes y varianzas conocidas. Supongamos el contraste

H0 : (1 , 2 , ..., m ) = (01, 02 , ..., 0m )


H1 : (1 , 2 , ..., m ) 6= (01, 02 , ..., 0m ).

Es facil ver que


m  2
X ni (xi 0i ) 2
2 log (x) = Xm (bajo H0 ).
i=1
i

Si ahora hacemos el contraste

H0 : (1 , 2 ) = (01, 02 )
H1 : (1 , 2 ) 6= (01, 02 ).

obtenemos
2  2
X ni (xi 0i )
2 log (x) = X22 (bajo H0 )
i=1
i

notemos que los grados de libertad de la Ji cuadrado coinciden con la dimension


del espacio total de parametros con la dimension del espacio de parametros bajo
la hipotesis nula:

dim = m
dim 0 = m 2.

Lo mismo ocurre en el caso anterior. De manera que la regla es:


2
2 log (x) Xdim dim 0 .

El resultado general que vamos a ver a continuacion es que si el tamano muestral


es grande esto se cumple aproximadamente.

Proposicion 3.2.3 (Wilks) Supongamos el problema de contraste

H0 : 0 versus
H1 : 1 .

y que el modelo es regular (en el sentido del comportamiento del EMV). Sea
dim = d y dim 0 = l. Vamos a suponer asimismo que cualquier punto
se puede coordenar de la forma

= (1 , 2 , ..., l , l+1 , ..., d )

de manera que
0 = { , l+1 = kl+1 , .., d = kd }
3.2. HIPOTESIS COMPUESTAS J.M. Corcuera

para ciertas constantes ki . Sea n el tamano de la muestra iid x y n (x) la razon


de verosimilitudes correspondiente entonces, bajo H0 ,
2 L
2 log n (X) Xdim dim 0
n

Demostracion. Sea el EMV de ,


d
X
i log L(X; ) = i j log L(X; (X))(j (X) j ), i = 1, ..., d
j=1

donde (X) = (X) + (1 ), 0 1, esto es


d  1
X 1 1
n(j (X) j ) = log L(X; (X)) k log L(X; ),
n jk n
k=1
j = 1, ..., d

que el modelo sea regular va a significar que es un estimador consistente de


y que
1 P
log L(X; (X)) I()
n n
donde
2
I() = E ( log L1 )
matriz d d que se conoce como matriz de informacion de Fisher. Como con-
secuencia y ya que, tambien debido a la regularidad,
1 L
log L(X; ) Nd (0, I())
n n

tendremos que
L
n((X) ) Nd (0, I 1 ())
n
Escribamos

= (1 , 2 , ..., l ), = (l+1 , ..., d ), 0 = (kl+1 , .., kd )

de manerna que 0 = {(, ), = 0 }, y


 
I I
I() = ,
I I
vamos a suponer tambien, sin perdida de generalidad, que la parametrizacion
es ortogonal de manera que

I = 0, I = 0

y por tanto  1 
I 0
I 1 () = 1 .
0 I
66 CAPITULO 3. TEST DE HIPOTESIS

Entonces, sea 0 (x) = (1 (x), 2 (x), ..., l (x)) el EMV bajo H0 , tendremos
l
X
i log L(X; 1 , ..., l, 0 ) = 2i j log L(X; (X), 0 )(j (X) j ),
j=1
i = 1, ..., l

donde = j + (1 )j (X), j = 1, ..., l, 0 1, esto es
j (X)

n(j (X) j )
l
X 1 1
2 1
= log L(X; (X), 0 ) k log L(X; 1 , ..., l, 0 ),
n jk n
k=1
j = 1, ..., l,
por la regularidad del modelo, bajo H0
 
1 2 P
log L(X; (X), 0 ) I (, 0 )
n n

y
L 1
n( 0 (X) ) Nl (0, I ).
n
Ahora bien
log L(X; , 0 ) = log L(X; (X), (X))
d
1 X 2
+ log L(X; (X))(j (X) j )(i (X) i )
2 i,j=1 i j

log L(X; , 0 ) = log L(X; 0 (X), 0 )


l
1 X 2
+ i j log L(X; (X))(j (X) j )(i (X) i )
2 i,j=1

where and son puntos intermedios, de aqu obtenemos restando las dos
expresiones, que bajo H0
2 log n (X) = 2(log L(X; 0 (X), 0 ) log L(X; (X), (X)))
d
X
= 2i j log L(X; (X))(j (X) j )(i (X) i )
i,j=1
l
X
2i j log L(X; (X))(j (X) j )(i (X) i )
i,j=1
d l
L
X X
Iij Zi Zj (I )ij Zi Zj
n
i,j=1 i,j=1
d
X
= (I )ij Zi Zj
i,j=l+1
3.2. HIPOTESIS COMPUESTAS J.M. Corcuera

1
y donde (Zi )l+1i,jd Nd (0, I ()), por tanto

d
X
2
(I )ij Zi Zj Xdl
i,j=l+1

Observacion 3.2.3 Notemos que del resultado anterior para calcular la region
crtica del TRV lo haremos en funcion del estadstico de Wilks W (x) = 2 log (x),
as

A1 = {x, (x) K}
= {x, 2 log (x) C}
= {x, W (x) C},

entonces hallaremos C con la condicion sup0 P (A1 ) = . Pero


2
sup P (A1 ) P {Xdim dim 0 C} = ,
0

de manera que se toma como region crtica


2
A1 = {x, W (x) Xdim dim 0 ; }

que tendra aproximadamente nivel .


68 CAPITULO 3. TEST DE HIPOTESIS
Captulo 4

Test Ji-cuadrado

4.1 El modelo multinomial


Sea X una variable aleatoria que puede tomar m valores distintos, z1 , z2 , ..., zm
con
Pm probabilidades respectivas p1 , p2 , ..., pm , tales que pi > 0 y por supuesto
i=1 pi = 1, diremos que X es una variable multinomial. Sea ahora el modelo
correspondiente a n observaciones iid con la ley X, diremos que nuestro modelo
es un modelo multinomial. La verosimilitud, dada una muestra x vendra dada
por

L(x; p1 , p2 , ..., pm )
= P (X1 = x1 , X2 = x2 , ..., Xn = xn )
1{zj } (xi ) Nj (x)
= ni=1 P (Xi = xi ) = ni=1 m
j=1 pj = m
j=1 pj .

Pn
Notemos que Nj (x) = i=1 1{zj } (xi ) cuenta el numero de veces que ha ocurrido
el resultado zj en los n experimentos. Es facil ver que

n!
P (N1 = n1 , ..., Nm = nm ) = pn1 pn2 ...pnmm ,
n1 !n2 !...nm ! 1 2

esta distribucion se conoce como distribucion multinomial. Observemos asimismo


que el espacio de parametros del modelo multinomial

n
X
= {(p1 , p2 , ..., pm ), pi > 0, pi = 1}
i=1

de manera que su dimension es m 1.

69
70 CAPITULO 4. TEST JI-CUADRADO

4.2 Test de ajuste en el modelo multinomial


4.2.1 Ajuste a una mutinomial concreta
En el modelo multinomial queremos hacer el contraste

H0 : (p1 , p2 , ..., pm ) = (p01, p02 , ..., p0m )


H1 : (p1 , p2 , ..., pm ) 6= (p01, p02 , ..., p0m ).

Vamos a construir el TRV,

L(x; p0 ) L(x; p0 )
(x) = =
sup L(x, p) L(x, p)

donde utilizamos notacion vectorial: p = (p1, p2 , ..., pm ). Tenemos que

Ni (x) ni
L(x; p) = m
i=1 pi = m
i=1 pi

de manera que, tomando como variables libres, p1, p2 , ..., pm1 y como pm =
1 p1, p2 ... pm1 , las condiciones de extremo son
ni nm
pi log L(x; p) = = 0, i = 1, ..., m
pi pm

esto da
ni
pi = , i = 1, ..., m.
n
Como, por la ley fuerte de los grandes numeros,
ni c.s.
pi > 0
n
ni
podemos suponer que todos los ni son positivos, entonces L(x; p) = m i=1 pi
sera cero si algun pi es cero con lo que el maximo estara en el interior de y
correspondera a la unica solucion que hemos encontrado. Tenemos entonces que
ni npi
m pn0ii
 
p0i p0i
(x) = i=1 m
ni = i=1 = m
i=1
m
i=1 pi pi pi

y, bajo H0
m
X p0i 2
W (x) = 2 log (x) = 2n pi log Xm1 (aprox.)
i=1
pi

ya que dim = m 1 y dim 0 = 0. La region crtica de nivel sera


2
A1 = {x, W (x) Xm1; }
4.2. TEST DE AJUSTE EN EL MODELO MULTINOMIAL J.M. Corcuera

Sin embargo en la practica se utiliza otro estadstico para construir la region


critica. Tenemos que
m
X p0i
W (x) = 2n pi log
i=1
pi
m
X pi pi
= 2n p0i log ,
i=1
p0i p0i

c.s
sabemos que pp0ii 1 y si desarrollamos la funcion u log u en torno del valor
n
u = 1, tenemos

1 1 1
u log u = u 1 + (u 1)2 (u 1)3
2 6 u2

con u un punto entre 1 y u. Tenemos as que


m   m  2
X pi X pi
= 2n p0i 1 +n p0i 1
i=1
p0i i=1
p0i
m   3
nX 1 pi
p0i 2 1 ,
3 i=1 ui p0i

pi
donde los ui son puntos entre 1 y p0i . El primer sumando se anula

m   m m m
X pi X X X
p0i 1 = (pi p0i ) = pi p0i = 1 1 = 0,
i=1
p0i i=1 i=1 i=1

el tercero se va a cero cuando n tiende a infinito:

m 3 m !3
1 X (1 p0i )3/2

X 1 pi n(pi p0i ) P
n p0i 2 1 = 0
n i=1 u2 p1/2
p
i=1
ui p0i p0i (1 p0i ) n
i 0i

ya que

c.s. n(pi p0i ) L
ui 1 y p N (0, 1).
p0i (1 p0i )

En definitiva W (x) y

m  2
X pi
Dn (x) := n p0i 1
i=1
p0i

2
tienen el mismo comportamiento asintotico, se acercan a una Xm1 . Este ultimo
72 CAPITULO 4. TEST JI-CUADRADO

estadstico se llama estadstico de Pearson, que se puede escribir


m  2
X pi
Dn (x) = n p0i 1
i=1
p0i
m 2
X (pi p0i )
= n
i=1
p0i
m 2
X (npi np0i )
=
i=1
np0i
m 2
X (ni np0i )
=
i=1
np0i
m 2
X (Oi Ei )
= ,
i=1
Ei

donde Oi es la frecuencia observada y Ei la esperada bajo H0 . Entonces la


region crtica de nivel (aproximado) sera
A1 = {x, Dn (x) Xm1; }.
La aproximacion funciona bien si np0i 5 para todo i.
Ejemplo 4.2.1 Ejemplo 4.2.2 Se lanza un dado 2000 veces con los siguientes
resultados:
1 2 3 4 5 6
388 322 314 316 344 316
Se puede pensar que el dado esta equilibrado? Es decir queremos hacer el con-
traste:
1 1 1 1 1 1
H0 : p=( , , , , , )
6 6 6 6 6 6
1 1 1 1 1 1
H1 : p 6= ( , , , , , )
6 6 6 6 6 6
Calculamos
6
X (pi 61 )2
Dn (x) = n 1 (4.1)
i=1 6

donde
388 322 314
p1 = = 0.194, p2 = = 0.161, p3 = = 0.157,
2000 2000 2000
316 344 316
p4 = = 0.158, p5 = = 0.172, p6 = = 0.158.
2000 2000 2000
Esto da un valor
6
X 1
Dn (x) = 2000 (pi )2 6 = 12.6. (4.2)
i=1
6
4.2. TEST DE AJUSTE EN EL MODELO MULTINOMIAL J.M. Corcuera

La aproximacion asintotica funciona bien ya que np0i = 2000


6  5. Si miramos
las tablas de una 25 obtenemos que 25;0.05 = 11.07. Por tanto Dn (x) > 25;0.05
y rechazamos H0 .Los datos haban sido simulados con una distribucion teorica
p01 = 0.2, p02 = p03 = p04 = p05 = p06 = 0.16. Notemos que 1/6 = 0.167.

4.2.2 Ajuste a una familia de mutinomiales


En el modelo multinomial anterior podemos contrastar si nuestra multinomial
pertenece a una familia de mutinomiales. Es decir podemos contrastar las
hipotesis

H0 : (p1 , p2 , ..., pm ) = (p1 (), p2 (), ..., pm ())


H1 : (p1 , p2 , ..., pm ) 6= (p1 (), p2 (), ..., pm ()).
donde Rl , l < m 1 donde p() es una subvariedad de dimension l
(de manera que podemos coordenar todos los valores de p con los valores de
y m 1 l coordenadas adicionales), sabemos que en tal caso y bajo H0 el
estadstico de Wilks W (x) = 2 log (x) tiene una distribucion aproximada (si
2
n es grande) Xml1 . Tenemos que
!npi
sup mi=1 pi ()
ni
m
i=1 pi ()
ni
pi ()
(x) = n = n = m
i=1
supp mi=1 pi
i
mi=1 pi
i
pi
ni
con pi = n. Haciendo desarrollos de Taylor analogos a los anteriores, se puede
ver que
 2
m
X pi npi ()
W (x) = 2 log (x) = n + oP (1)
i=1 pi ()
donde oP (1) indica terminos que convergen en probabilidad a cero cuando n va
a infinito. En la practica se utiliza entonces el estadstico de Pearson
 2
Xm pi npi ()
Dn (x) = n
i=1 pi ()
2
para construir la region crtica del test, y como Dn (x) Xml1 (aprox.) si n
es grande tendremos que una region crtica de nivel aproximadamente vendra
dada por
2
A1 = {x, Dn (x) Xml1; }
y la aproximacion funciona bien si npi ( ni ) 5.
Ejemplo 4.2.3 Queremos contrastar:
 
2+ 1 1
H0 : p() = , , , , (0, 1)
4 4 4 4
H1 : p 6= p()
74 CAPITULO 4. TEST JI-CUADRADO

en la muestra se obtuvieron los siguientes resultados:

n1 n2 n3 n4
1997 906 904 32

Necesitamos calcular . La verosimilitud bajo H0 viene dada por


 n  n  n   n
2+ 1 1 2 1 3 4
L(x; ) = (4.3)
4 4 4 4

de manera que
n1 n2 + n 3 n4
log L(x; ) = + =0 (4.4)
2+ 1
implica

(n1 + n2 + n3 + n4 ) 2 (n1 2n2 2n3 n4 ) 2n4 = 0. (4.5)

Esto es:
3839 2 + 1665 64 = 0. (4.6)
Las soluciones son: = 0.0355281 y = 0.469235. Por tanto = 0.0355281
y
2 + 0.0355281
np1 () = 3839 = 1953.77
4
1 0.0355281
np2 () = np3 () = 3839 = 925.652
4
0.0355281
np4 () = 3839 = 34.0981
4
Entonces:

Dn (x)
4
X (ni npi ())2
=
i=1 npi ()
(1997 1953.77)2 (906 925.652)2 (904 925.652)2 (32 34.0981)2
= + + +
1953.77 925.652 925.652 34.0981
= 2.00931,

y si miramos las tablas de una 22 obtenemos 22;0.05 = 5.9914 por tanto estamos
en la region de aceptacion.
4.2. TEST DE AJUSTE EN EL MODELO MULTINOMIAL J.M. Corcuera

4.2.3 Test de independencia de dos multinomiales


Sean X e Y dos variables con r y s valores distintos respectivamente. Supong-
amos n observaciones independientes del par (X, Y ) queremos saber si X e
Y son independientes y esto lo traduciremos en un problema de contraste de
hipotesis. En primer lugar notemos que podemos indicar que el resultado de la
observacion de (X, Y ) ha sido (xi , yj ) de la siguiente forma

XY y1 ... yj ... ys


x1 0 0 0
..
.
xi 0 1 0
..
.
xr 0 0 0

de manera que podemos pensar que observamos una muestra de tamano n de


una Bernoulli r s-dimensional, con probabilidades

pij = P (X = xi , Y = yj ), i = 1, .., r; j = 1, ..., s.

El resultado de las n-observaciones independientes se puede escribir en la forma


de lo que se llama una tabla de contingencia

XY y1 ... yj ... ys


x1 n11 n1j n1s n1
..
.
xi ni1 nij nis ni
..
.
xr nr1 nrj nrs nr
n1 nj ns n

Escribamos

pi = P (X = xi ), pj = P (Y = yj ), i = 1, .., r; j = 1, ..., s.

Entonces X e Y seran independientes si y solo si

pij = pi pj , i = 1, .., r; j = 1, ..., s.

de manera que contrastar esta condicion de independencia es equivalente a con-


siderar en el modelo multinomial r s-dimensional asociado, el contraste

H0 : (pij ) 1ir = (pi pj ) 1ir


1js 1js
H1 : (pij ) 1ir 6= (pi pj ) 1ir .
1js 1js
76 CAPITULO 4. TEST JI-CUADRADO

Notemos que se trata de un test de ajuste a una familia de multinomiales.


Utilizaremos entonces el estadstico de Pearson
r X s 2
X (nij ncpi pc
j )
Dn (x, y) =
i=1 j=1
nc
pi pc
j

donde pci y p
c j son los EMV de pi y pj respectivamente. Para calcularlos hay
que escribir la verosimilitud bajo H0 que vendra dada por
n nij
L(x, y; (pij )) = ri=1 sj=1 pijij = ri=1 sj=1 (pi pj )
n
= ri=1 pnii sj=1 pjj
P P
donde ni = j nij y nj = i nij . Entonces es inmediato que
ni nj
pc
i = , pc
j = .
n n
De manera que finalmente
r X s 2
X (nij ni nj /n)
Dn (x, y) = .
i=1 j=1
ni nj /n

Este estadstico, cuando n es grande (la regla es que nij 5) se comportara


como una Ji-cuadrado con grados de libertad dim dim 0 ,pero
dim = rs 1
y
dim 0 = r 1 + s 1,
de manera que
dim dim 0 = rs 1 r + 1 s + 1
= rs r s + 1
= (r 1)(s 1)
y la region crtica de nivel (aprox.) vendra dada por
2
A1 = {(x, y), Dn (x, y) X(r1)(s1); }
Ejemplo 4.2.4 La siguiente tabla nos da el numero de mujeres, de un grupo de
7477, de edades comprendidas entre 30 y 40 anos con un grado de vision entre
1 y 4 en cada uno de los ojos. Queremos contrastar, a nivel = 0.05 si hay
independencia entre la vision de ambos ojos.
Ojo izquierdo
1 2 3 4 Totales
Ojo derecho
1 n11 = 1520 n12 = 266 n13 = 124 n14 = 66 n1 = 1976
2 n21 = 234 n22 = 1512 n23 = 432 n24 = 78 n2 = 2256
3 n31 = 117 n32 = 362 n33 = 1772 n34 = 205 n3 = 2456
4 n41 = 36 n42 = 82 n43 = 179 n44 = 492 n4 = 789
Totales n1 = 1907 n2 = 2222 n3 = 2507 n4 = 841 n = 7477
4.2. TEST DE AJUSTE EN EL MODELO MULTINOMIAL J.M. Corcuera

Queremos hacer el contraste de hipotesis:

H0 : pij = pi pj (independencia) (4.7)


H1 6 pi pj
: pij = (4.8)

Por tanto

XX c c XX
Dn (x, y)

cc
4 4 4 4
(nij npi pj )2 (nij ni nj /n)2
= =
i=1 j=1
npi pj i=1 j=1
ni nj /n
19761907 2
(1520 7477
) (266 19762222
7477
)2 (124 19762507
7477
)2 (66 1976841
7477
)2
= 19761907 + 19762222 + 19762507 + 1976841
7477 7477 7477 7477
2 22562222 2 22562507 2 2256841 2
(234 22561907
7477
) (1512 7477
) (432 7477
) (78 7477
)
+ 22561907 + 22562222 + 22562507 + 2256841
7477 7477 7477 7477
2 24562222 2 24562507 2 2456841 2
(117 24561907
7477
) (362 7477
) (1772 7477
) (205 7477
)
+ 24561907 + 24562222 + 24562507 + 2456841
7477 7477 7477 7477
2 7892222 2 7892507 2 789841 2
(36 7891907
7477
) (82 7477
) (179 7477
) (492 7477
)
+ 7891907 + 7892222 + 7892507 + 789841
7477 7477 7477 7477
= 8096.88

Sabemos que Dn tiene aproximadamente una distribucion 29 y si vamos a las


tablas obtenemos que P {29 > 16.92} = 0.05 y el valor de Dn es muy superior
a 16.92, de hecho solo con calcular el primer sumando hubieramos obtenido
2048.32 y esto ya nos hubiera conducido a rechazar la hipotesis nula, esto es la
hipotesis de independencia.

Antes de continuar adelante notemos que la razon de verosimilitudes en el


caso del contraste anterior de independencia viene dado por
ni s nj ni s n nj
ri=1 pc
i j=1 pc j ri=1 nni j=1 nj
(x, y) = n = n nij
ri=1 sj=1 pijij ri=1 sj=1 nij
ri=1 ni ni sj=1 nj nj
= nn
ri=1 sj=1 nij nij

Test de homogeneidad de varias multinomiales.


Supongamos r variables multinomiales independientes, Z1 , Z2 , ..., Zr que pueden
tomar cada una s valores z1 , z2 , ..., zs con probabilidades (desconocidas obvia-
mente) X
P (Zi = zj ) = pij , pij > 0, pij = 1,
j

queremos saber si las variables Zi tienen la misma distribucion, esto es si

pij = pj , i, j
78 CAPITULO 4. TEST JI-CUADRADO

de manera que la probabilidad de observar el valor zj es la misma para todas


las variables Zi esto es, P (Zi = zj ) solo depende del ndice j. Supongamos que
tenemos una muestra con ni observaciones de la variable Zi . Escribiremos ni en
lugar de ni ; nuestro modelo estadstico sera el de r mutinomiales s-dimensionales
independientes con parametros pij , j = 1, ..., s, y tamanos muestrales ni , re-
spectivamente. Se trata de un problema de r muestras. La verosimilitud del
modelo sera
n
L(x; (pij )) = ri=1 sj=1 pijij
P P
donde j pij = 1 y j nij = ni . El resultado de las observaciones se puede
escribir tambien en forma de tabla de contingencia

V ariableresultado z1 ... zj ... zs


Z1 n11 n1j n1s n1
..
.
Zi ni1 nij nis ni
..
.
Zr nr1 nrj nrs nr
n1 nj ns n

En este modelo queremos hacer el contraste

H0 : (pij )1jn = (pj )1jn , i = 1, ..., r


H1 : para algun i , (pij )1jn 6= (pj )1jn .

La verosimilitud bajo la hipotesis nula es


n
ri=1 sj=1 pj ij
Pn
L(x; (pj )1jn ) =
n
= sj=1 pj i ij
= sj=1 pj j .

Podemos construir el TRV y obtenemos

sj=1 pbj nj
(x) = nij
ri=1 sj=1 pcij
n  nj
sj=1 nj
=  nij
n
ri=1 sj=1 nij i

ri=1 nnii sj=1 nj nj


= nn n
ri=1 sj=1 nijij

la misma expresion que en el caso del contraste de independencia!. Si aplicamos


el teorema de Wilks tendremos que 2 log (X), si los tamanos muestrales
son grandes, tendra un distribucion ji-cuadrado con grados de libertad dim
dim 0 ,pero
dim = r(s 1)
4.3. TEST JI-CUADRADO DE AJUSTE, INDEPENDENCIA Y HOMOGENEIDAD.J.M. Corcuera

y
dim 0 = s 1,
de manera que
dim dim 0 = r(s 1) (s 1)
= (r 1)(s 1),
igual que en el caso del contraste de independencia!. Al igual que en el caso de
independencia se utiliza el estadstico de Pearson en lugar de 2 log (x), por
comparacion con el caso de independencia, tendremos que
r X s 2
X (nij ni nj /n)
Dn (x) = .
i=1 j=1
ni nj /n

seguira aproximadamente una ji-cuadrado con (r 1)(s 1) grados de libertad.


Ejemplo 4.2.5 Disponemos de dos muestras de estudiantes, la primera de es-
cuelas privadas, la segunda de escuelas publicas. Los resultados son relativos a
un determinado test de conocimientos.
Puntuacion del test
0-275 276-350 351-425 426-450 Totales
Tipo de escuela
Privada 6 14 17 9 46
Publica 30 32 17 3 82
Totales 36 46 34 12 128
Como hemos visto, contrastar la hipotesis de homogeneidad corresponde a con-
trastar la independencia entre las variables Puntuacion del test y Tipo de
escuela. Por tanto hay que calcular

XX
Dn (x)
2 4
(nij ni nj /n)2
=
i=1 j=1
ni nj /n
4636 2 4646 2 4634 2 4612 2
(6 128
) (14 128
) (17 128
) (9 128
)
= 4636 + 4646 + 4634 + 4612
128 128 128 128
(30 8236
128
)2 (32 8246
128
)2 (17 8234
128
)2 (3 8212
128
)2
+ 8236 + 8246 + 8234 + 8212
128 128 128 128
= 17.2858
Entonces como P {23 > 7.815} = 0.05 resulta que estamos en la region crtica y
rechazamos la hipotesis de homogeneidad.

4.3 Test Ji-cuadrado de ajuste, independencia y


homogeneidad.
Si partimos de la observacion de variables iid cualesquiera siempre podemos
substituirlas por variables multinomiales de manera aproximada agrupando los
80 CAPITULO 4. TEST JI-CUADRADO

datos cuando sea necesario. Una vez aproximadas las variables por multinomi-
ales podemos hacer los test anteriores y tendremos los llamados test Ji-cuadrado.
Vamos a ver un ejemplo de test Ji-cuadrado de ajuste a una familia.

Ejemplo 4.3.1 Disponemos de los tiempos de vida de 50 componentes electronicos


del mismo tipo, queremos ver si se ajusta a una distribucion exponencial.

262.8 1.0 36.4 4.0 59.4 35.3 70.5 22.6 3.7 5.8
32.1 0.5 17.4 77.6 46.7 182.4 76.7 3.5 13.4 29.7
6.1 15.1 110.5 45.9 31.7 22.4 27.8 10.0 33.0 26.7
8.0 6.8 63.0 70.9 30.0 12.2 29.6 3.3 32.2 12.3
128.2 24.6 7.0 39.8 71.1 19.4 5.4 4.4 54.4 24.8

Hacemos una particion del intervalo [0, ) mirando que el numero de observa-
ciones en cada intervalo sea superior o igual a 5. Una posible es

I1 = [0, 20), I2 = [20, 40), I3 = [40, 70), I4 = [70, ) (4.9)

entonces el numero de observaciones en cada intervalo es, respectivamente,

n1 = 20, n2 = 16, n3 = 5, n4 = 9. (4.10)

Bajo la hipotesis nula de que los datos siguen una exponencial de parametro
de manera que la probabilidad de observar resultados en un intervalo (a, b) viene
por
Z b
p((a, b)) = ex dx = ea eb (4.11)
a

As las probabilidades de observar resultados en los intervalos I1 , I2 , I3 ,y I4 , bajo


H0 , seran, respectivamente,

p1 () = 1 e20 , p2 () = e20 e40 , p3 () = e40 e70 , p4 () = e70 .


(4.12)
Para estimar utilizaremos los datos sin agrupar, esto es calcularemos la esti-
macion maximo-verosmil de suponiendo que los 50 datos son exponenciales
en lugar de que los cuatro datos, ni , i = 1, 2, 3, 4, son multinomiales con
parametros pi (), i = 1, 2, 3, 4. Esto no cambia el comportamiento asintotico del
estadstico de Pearson:
4
X (ni npi ())2
Dn (x) = , (4.13)
i=1
npi ()

L P4
esto es Dn 22 , donde n = i=1 ni = 50 es el tamano muestral. La
n
P
estimacion maximo-verosmil de es = 50n x = 0.0243. Esto hace que
i=1 i

np1 () = 19.25, p2 () = 11.8, p3 () = 6.35, p4 () = 12.6. (4.14)


4.3. TEST JI-CUADRADO DE AJUSTE, INDEPENDENCIA Y HOMOGENEIDAD.J.M. Corcuera

Dn (x)
4
X (ni npi ())2
=
i=1
npi ()
(20 19.25)2 (16 11.8)2 (5 6.35)2 (9 12.6)2
= + + +
19.25 11.8 6.35 12.6
= 2.80162.

Como P {22 > 5.99} = 0.05, resulta que 22; 0.05 = 5.99 con lo que Dn (x) <
22; 0.05 y estamos en al region de aceptacion. As es razonable pensar que los
datos siguen una distribucion exponencial.
82 CAPITULO 4. TEST JI-CUADRADO

4.4 Test de ajuste y homogeneidad no parametricos.


4.4.1 La distribucion emprica
Los test de ajuste y homogeneidad anteriores se basan en discretizar la variable
original, entonces uno se pregunta si no podramos crear test que no requieran
este paso. Una funcion que caracteriza la ley de las observaciones es la funcion
de distribucion y tenemos el equivalente emprico.

Definicion 4.4.1 Sean n observaciones iid denominaremos funcion de dis-


tribucion emprica a la funcion de distribucion, que depende de la muestra
x = (x1 , x2 , ..., xn ), dada por
n
1X
Fn (x, y) = 1(,y] (xi ), y R
n i=1

Es una funcion escalonada continua por la derecha, que pega un salto n1 en


x(1) , otro del mismo tamano en x(2) y as sucesivamente hasta llegar al valor 1.
Si las n observaciones iid tienen funcion de distribucion F , tenemos las
siguientes propiedades de Fn (x, y).

Proposicion 4.4.1
c.s.
Fn (X, y) F (y), y R
n

Demostracion. Por la ley fuerte de los grandes numeros


c.s.
Fn (X, y) EF (1(,y] (X1 ))) = PF (X1 y) = F (y).
n

Observacion 4.4.1 Notemos que tambien tenemos que


n
1X c.s.
Fn (X, y) = 1(,y) (Xi ) EF (1(,y) (X1 ))) = PF (X1 < y) = F (y)
n i=1 n

Incluso la convergencia es uniforme. Definamos el estadstico



n (x) = sup Fn (x, y) F (y) ,

yR

tenemos el siguiente resultado,

Teorema 4.4.1 (Glivenko-Cantelli)


c.s.
n (X) 0
n
4.4. TEST DE AJUSTE Y HOMOGENEIDAD NO PARAMETRICOS.J.M. Corcuera

Demostracion. Utilizamos el convenio habitual F () := limy F (y).


Escribamos
F 1 (z) := inf{x, F (x) z}
Sea m 2 entero y consideremos los puntos

(m) k
yk = F 1 ( ), k = 0, ..., m.
m
(m) (m)
Notemos que y0 = y que Fn (X, y) = F (y) = 1 (c.s.) si y ym . Sea
(m) (m)
entonces y [yk , yk+1 ), k = 1, .., m 1. Tenemos

(m) (m)
Fn (x, y) F (y) Fn (x, yk+1 ) F (yk )
(m) (m) (m) (m)
Fn (x, yk+1 ) F (yk+1 ) + F (yk+1 ) F (yk )
(m) (m) k+1 k
Fn (x, yk+1 ) F (yk+1 ) +
m m
(m) (m) 1
Fn (x, yk+1 ) F (yk+1 ) + .
m
y
(m) (m)
Fn (x, y) F (y) Fn (x, yk ) F (yk+1 )
(m) (m) (m) (m)
Fn (x, yk ) F (yk ) + F (yk ) F (yk+1 )
(m) (m) k k+1
Fn (x, yk ) F (yk ) +
m m
(m) (m) 1
Fn (x, yk ) F (yk )
m
En definitiva
n o
(m) (m) (m) (m)
Fn (x, y) F (y) max max Fn (x, yk ) F (yk ) , Fn (x, yk+1 ) F (yk+1 )

0km1
1
+ .
m
De manera que, con probabilidad uno,
1
lim sup sup Fn (X, y) F (y) ,

y m

el resultado se sigue tendiendo m a infinito.

4.4.2 Test de Kolmogorov-Smirnov


A la vista de estas propiedades parece razonable comparar la funcion de dis-
tribucion emprica con la que suponemos es la teorica para ver si realmente lo
84 CAPITULO 4. TEST JI-CUADRADO

es. Por ejemplo, supongamos que en un modelo de observaciones iid con funcion
de distribucion F queremos contrastar
H0 : F = F0
H1 : F 6= F0
donde F0 representa una funcion de distribucion concreta. Entonces una region
crtica razonable consistira en
A1 = {x, n (x) K}
donde
n (x) = sup Fn (x, y) F0 (y)

y

es decir, si la funcion de distribucion emprica difiere mucho de la teorica rechaz-


amos la hipotesis nula. Pero para poder aplicar este test necesitamos conocer
la distribucion de n al menos bajo F0 y as poder calcular K para que
PF0 (n K) =
y as poder tener un tets de nivel . Afortunadamente tenemos la proposicion:
Proposicion 4.4.2 Si tenemos una muestra iid de tamano n de una variable
con una distribucion continua F0 , n tiene una distribucion que no depende de
F0 .
Demostracion. Como F0 (y) y Fn (x, y) son ambas crecientes
 
sup Fn (X, y) F0 (y) = sup Fn (X, X(i) ) F0 (X(i) ) , Fn (X, X(i) ) F0 (X(i) )

y i
 
i i 1
= sup F0 (X(i) ) ,
F0 (X(i) )
i n n
 
i i 1
= sup F0 (X)(i) , F0 (X)(i) ,
i n n
pero F0 (X) U (0, 1) de manera que
 
i i 1
sup Fn (y) F0 (y) sup U(i) , U(i)

y i n n
donde Ui son observaciones iid de una variable U con ley uniforme en (0, 1).

Esta distribucion esta tabulada y permite construir lo que se llama el test


de ajuste de Kolmogorov-Smirnov.
Ejemplo 4.4.1 Queremos contrastar si el conjunto de datos siguiente se ajusta
a una distribucion N(2, 1),
0.3, 0.7, 0.9, 1.2, 1.3, 1.4, 1.5, 1.6, 1.9, 2.0, 2.1, 2.2, 2.3, 2.5, 2.6,
2.7, 3.0, 3.8, 3.9, 4.0.
4.4. TEST DE AJUSTE Y HOMOGENEIDAD NO PARAMETRICOS.J.M. Corcuera

En este caso n = 20. Escribamos


 
(x(i) ) = max Fn (x, x(i) ) F0 (x(i) ) , Fn (x, x(i) ) F0 (x(i) )

y para indicar la funcion de distribucion de una N(0, 1). Tendremos


x2 -1.7 -1.3 -1.1 -0.8 -0.7 -0.6 -0.5 -0.4 -0.1 0
10Fn (x(i) ) 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
10(x(i) ) 0.4 1 1.3 2.1 2.4 2.7 3.1 3.4 4.6 5
100(x(i) ) 4 5 3 6 4 3 4 6 6 5
x2 0.1 0.2 0.3 0.5 0.6 0.7 1 1.8 1.9 2
10Fn (x(i) ) 5.5 5.6 6.5 7 7.5 8 8.5 9 9.5 10
10(x(i) ) 5.4 5.8 6.2 6.9 7.3 7.6 8.4 9.6 9.7 9.8
100(x(i) ) 4 3 3 4 3 4 4 11 7 3
Por tanto 20 (x) = 0.11, si vamos a las tablas obtenemos que 20;0.05 = 0.291
por tanto estamos en la region de aceptacion.
Tambien se puede contrastar la homogeneidad si tenemos dos muestras inde-
pendientes X1 , X2 , ..., Xn1 y Y1 , Y2 , ..., Yn2 con distribuciones continuas F1 , F2 ,
esto es
H0 : F1 = F2
H1 : F1 6= F2
entonces la region crtica que propone el test de Kolmogorov-Smirnov es
A1 = {(x, y), n1 ,n2 (x, y) K}
donde
n1 ,n2 (x, y) = sup Fn(1) (x, z) F (2)
(y, z)

1 n2
z

Ejemplo 4.4.2 Los datos siguientes corresponden a las longitudes en cm de


plantes obtenidas en dos cultivos de manera independiente, fertilizadas con dos
tipos de adobe. Se quiere contrastar la hipotesis de que la distribucion de las
longitudes es las misma en ambos casos.
Ejemplo 4.4.3
Adobe A 7 8 10 12 10 13 9 10
Adobe B 11 10 12 13 10 15 17 16
Tenemos entonces
y 7 8 9 10 11 12 13 14 15 16 17
(1) 1 2 3 6 6 7
Fn1 (y) 8 8 8 8 8 8 1 1 1 1 1
(2) 2 3 4 5 5 6 7
Fn2 (y) 0 0 0 8 8 8 8 8 8 8 1
(1) (2) 1 2 3 4 3 3 3 3 2 1
Fn1 (y) Fn2 (y) 0

8 8 8 8 8 8 8 8 8 8

por tanto 8,8 (x, y) = 84 . En las tablas se obtiene que 8,8;0.05 = 68 , con lo
que estamos en la region de aceptacion y podemos decir que ambos fertlizantes
producen el mismo efecto.
86 CAPITULO 4. TEST JI-CUADRADO
Captulo 5

El modelo lineal

Supongamos un modelo estadstico que corresponde a n observaciones Y1 , Y2 , ..., Yn


independientes y tales que
E(Yi ) = 0 + 1 xi1 + ... + p1 xip1
y V ar(Yi ) = 2 , i = 1, ..., n(n > p). Donde los j son parametros desconoci-
dos (coeficientes de regresion, parametros,...) y los xij (regresores, covariables,
factores,...) son valores conocidos. Esto es
Yi = 0 + 1 xi1 + ... + p1 xip1 + i ,
E(i ) = 0, V ar(i ) = 2 , i = 1, ..., n
Diremos que tal modelo es un modelo lineal. Con notacion vectorial
Y = X +
donde

Y1 1 x11 x1p1
Y = ... , X = ... ... .. ..
,

. .
Yn 1 xnp1 xnp1

1 1
= ... , = ... .

n n
Si la variable respuesta, Y, y las covariables x, son cuantitativas, diremos que
se trata de un modelo de regresion, si las covariables son cualitativas (0 o 1)
el modelo se suele llamar de analisis de la varianza, si en las covariables hay
variables cuantitativas y cualitativas se suele llamar modelo de analisis de la
covarianza.
Estos modelos fueron introducidos por Legendre en 1805 (obtuvo lo que se
llama las ecuaciones normales) estudiados por Gauss (1823) y Fisher (1922) que
introdujo los modelos de analisis de la varianza.

87
88 CAPITULO 5. EL MODELO LINEAL

5.1 Estimacion de los parametros


Notemos que no hay verosimilitud ya que solo esta definida la estructura de la
media de las Y pero no su ley (modelo semiparametrico). Sin embargo podemos
buscar de manera que las observaciones yi difieran de 0 + 1 xi1 + ... +
p1 xip1 lo mnimo posible. Mas concretamente
X
(yi ( 0 + 1 xi1 + ... + p1 xip1 ))2 = min

Tambien podemos escribir, la condicion anterior como

||y X||2 = min,

donde || || representa la norma eucldea en Rn .Notemos que



1 x11 x1p1
.. .. .
X = 0 . + 1 . + ... + p1 ..


1 xn1 xnp1

De manera que {X, Rn } es el subespacio vectorial de Rn generado por las


columnas de X := R(X). Entonces es una solucion a nuestro problema si X
es la proyeccion ortogonal de y en R(X), en efecto

y X R(X)

implica que

||y X||2 = ||y X + X X||2


= ||y X ||2 + ||X X||2 + 2hy X , X X|i
= ||y X ||2 + ||X X||2 ||y X ||2 .

Si X es de rango pleno, es decir sus p columnas son linealmente independientes,


se puede determinar de manera unica:

y X R(X)

equivale a
X 0 (y X ) = 0
donde la prima indica traspuesta. De manera que

X 0 X = X 0 y

y como X 0 X es no singular al ser X de rango pleno, resulta


1
= (X 0 X) X 0 y.

Esta estimacion se denomina mnimo-cuadratica.


5.1. ESTIMACION DE LOS PARAMETROS J.M. Corcuera

5.1.1 Propiedades del estimador mnimo-cuadratico


1
= (X 0 X) X 0Y
es lineal en Y :
1
= BY, con B = (X 0 X) X 0,
es insesgado:
1
E () = E ((X 0 X) X 0Y )
1
= (X 0 X) X 0 E (Y )
1
= (X 0 X) X 0 X = .

Su matriz de varianzas-covarianzas viene dada por

V ar () = V ar (BY ) = BV ar (Y )B 0
1 1
= 2 (X 0 X) X 0 X (X 0 X)
1
= 2 (X 0 X) .

Teorema 5.1.1 (Gauss-Markov) Sea c Rp , consideremos la funcion lineal de


, c0 , donde la prima indica traspuesta. Entonces c0 es el mejor estimador
lineal insesgado (BLUE: Best linear unbiased estimator).
Demostracion. Sea 0 Y un estimador lineal insesgado de c0 , se debera
cumplir que
E (0 Y ) = c0 , ,
de manera que
0 E (Y ) = 0 X = c0 ,
de manera que
0 X = c0 .
Comparemos su varianza con la de c0 ,

V ar (0 Y ) = 0 V ar (Y )
= 2 0 ,

por otra parte

V ar (c0 ) = c0 V ar ()c
1
= 2 c0 (X 0 X) c.

Por tanto
1
V ar (0 Y ) V ar (c0 ) = 2 (0 c0 (X 0 X) c)
2 0 0 0 1
= ( X (X X) c)
2 0 1 2
= || X (X X) c|| 0,
90 CAPITULO 5. EL MODELO LINEAL

en efecto
1 1 1
|| X (X 0 X) c||2 = ( X (X 0 X) c)0 ( X (X 0 X) c)
 0
1 1
= 0 0 X (X 0 X) c X (X 0 X) c
 0
1 1
+ X (X 0 X) c X (X 0 X) c
1 1 1
= 0 20 X (X 0 X) c + c0 (X 0 X) X 0 X (X 0 X) c
0 0 0 1 0 0 1
= 2 X (X X) c + c (X X) c
0 0 0 1 0 0 1
= 2 X (X X) c + X (X X) c
0 0 0 1
= X (X X) c.

1
Observacion 5.1.1 Notemos que habra igualdad si y solo si X (X 0 X) c=
1
0, de manera que 0 Y = c0 (X 0 X) X 0 Y = c0 .

5.1.2 Estimacion mnimo cuadratica de 2 .


Vamos a suponer que es tambien un parametro a estimar. Notemos primero
ciertas propiedades. En primer lugar e := Y X , es una estimacion de los
errores, y como X es la proyeccion de Y sobre R(X) , tenemos en particular
que

1
Y X ... ,

1
con lo que
X X  
ei = Yi X = 0.
i

Asimismo
1
X = X (X 0 X) X 0Y = P Y
donde
1
P = X (X 0 X) X0

1
Proposicion 5.1.1 P = X (X 0 X) X 0 es la matriz proyeccion ortogonal sobre
R(X). Es por tanto una matriz, simetrica, idempotente y existira una matriz
ortogonal Q, (n n) tal que
 
Ip 0
P =Q Q0
0 0

donde Ip es la matriz identidad de dimension p.


5.1. ESTIMACION DE LOS PARAMETROS J.M. Corcuera

Demostracion. Sea u Rn , entonces


1
P u = X (X 0 X) X 0 u = Xh R(X)
1
con h = (X 0 X) X 0 u Rp , ademas
1
X 0 (u P u) = X 0 (In X (X 0 X) X 0 )u
 
1
= X 0 X 0 X (X 0 X) X 0 u
= (X 0 X 0 ) u = 0.

Por tanto es la matriz de proyeccion ortogonal sobre R(X).


Sea Q una matriz ortogonal cuyas p primeras columnas son vectores ortonor-
males que constituyen una base de R(X). Obviamente tendremos
 
Ip 0
Q0 P Q = .
0 0

Observacion 5.1.2 Es obvio que In P sera la matriz proyeccion ortogonal


sobre R(X) (el complementario ortogonal) y existira una matriz ortogonal R
tal que  
Inp 0
In P = R R0
0 0

Lema 5.1.1 Sea A una matriz n n determinista y Z un vector aleatorio n-


dimensional con E(Z) = y matriz de varianzas-covarianzas V ar(Z) = .
Entonces
E(Z 0 AZ) = traza(A) + 0 A

Demostracion.
0
E(Z 0 AZ) = E((Z ) A (Z )) + 0 A
0
= E(traza((Z ) A (Z )) + 0 A,

ahora bien
0
X
traza((Z ) A (Z ) = (Z )1i Aij (Z )j1
i,j
X
= Aij (Z )j1 (Z )1i
i,j
X X
= il Alj (Z )j1 (Z )1i
i,l j
0
= traza(A (Z ) (Z ) ),
92 CAPITULO 5. EL MODELO LINEAL

de manera que
0
E(Z 0 AZ) = E(traza(A (Z ) (Z ) ) + 0 A
0 
= traza AE((Z ) (Z ) ) + 0 A
= traza (A) + 0 A.

Proposicion 5.1.2 (Gauss)

||Y X ||2
2 :=
np
es un estimador insesgado de 2 .

Demostracion.
 
E ||Y X ||2 = E(||(In P )Y ||2 )
= E(Y 0 (In P )0 (In P )Y )
= E(Y 0 (In P )Y )
= traza( 2 (In P )In ) + 0 X 0 (In P )X
= 2 (n p)

ya que al ser X R(X), (I P )X = 0.

5.2 El modelo lineal normal


Hasta ahora las hipotesis en el modelo lineal sobre eran E() = 0 y matriz
de varianzas-covarianzas V () = 2 In . Si anadimos que tiene distribucion
Gaussiana tendremos el modelo lineal normal. Notemos que como Y = X + ,
resultara que Y Nn (X, 2 In ). Tenemos una generalizacion del teorema de
Fisher.

i) Np (, 2 (X 0 X)1 )
0
ii) ( )0 X2X ( ) Xp2

iv) y 2 son independientes


(np) 2 2
v) 2 Xnp

Demostracion. i) es trivial. ii):


X 0X
( )0 ( ) = ( )0 V ()1 ( )
2
= ( )0 V ()1/20 V ()1/2 ( )
= Z 0Z
5.2. EL MODELO LINEAL NORMAL J.M. Corcuera

con
Z = V ()1/2 ( ) Np (0, Ip ).
iii): Si demostramos que y = Y X son independientes ya esta entonces
como la conjunta de y cualquier subconjunto de las i es normal, bastara ver
que la covarianza es cero.
1
Cov(, Y X ) = Cov((X 0 X) X 0 Y, (I P )Y )
1 0
= (X 0 X) X 0 Cov(Y, Y )(I P )
1 0
= 2 (X 0 X) X 0 (I P ) = 0.

iv)

||Y X ||2 Y 0 (I P )Y
2 = =
np np
0
(Y X) (I P )(Y X)
= ,
np
ahora bien  
Inp 0
I P =R R0
0 0
con R ortogonal y
1
U := (Y X) Nn (0, In )

por tanto
np
(n p) 2 X
2
= Ui2 Xnp
2
i=1

5.2.1 Estimacion maximo verosmil


Es inmediato comprobar que el EMV de y el estimador mnimo-cuadratico
coinciden. Y que el EMV de 2 es
1
2 = ||Y X ||2
n
y que por tanto tiene sesgo.

5.2.2 Prediccion
2
Sabemos que Np (, 2 (X 0 X)1 ) y (np)
2
2
Xnp independiente de . De
esta manera ai queremos dar un intervalo para la media de las observaciones
cuando los regresores son (1, x1 , x2 , .., xp1 ) := x0 bastara tener en cuenta que

x0 N (x0 , 2 x0 (X 0 X)1 x),


94 CAPITULO 5. EL MODELO LINEAL

y as
x0 x0
2 x0 (X 0 X)1 x
q tnp
(np) 2
(np) 2

esto es
x0 x0
q tnp .
2 x0 (X 0 X)1 x
Esto nos dara intervalos de confianza para x0 :
q
x0 tnp;/2 2 x0 (X 0 X)1 x.

Si quisieramos dar un intervalo para una observacion futura Yn+1 = x0 + n+1 ,


entonces
Yn+1 x0 = x0 x0 + n+1
de manera que

Yn+1 x0 N (0, 2 (x0 (X 0 X)1 x + 1))

tendremos as que un intervalo de prediccion para Yn+1 vendra dado por


q
x0 tnp;/2 2 (1 + x0 (X 0 X)1 x).

5.2.3 Contraste de hipotesis


Sea H una matriz q p de rango q y c Rq . Consideremos el problema de
contrastar

H0 : H = c
H1 : H 6= c.

Vamos a calcular el TRV.


1 1 X
L(y; , ) = n exp{ (yi (X)i )2 }.
( 2 ) 2 2
entonces
sup,;H=c L(y; , )
(x) =
L(y; , )
L(y; H , H )
=
L(y; , )

donde H es el EMV con la restriccion H = c.Es inmediato que


1
2H = ||Y X H ||2 ,
n
5.2. EL MODELO LINEAL NORMAL J.M. Corcuera

y que
 n2
2

(x) = .
2H
Se acostumbra a escribir
RSS = ||Y X ||2 y RSSH = ||Y X H ||2 (RSS: residual sum of squares),
de manera que
 n2
2

(x) =
2H
  n2 ! n2
RSS 1
= = RSSH RSS
RSSH 1+ RSS
n2
1
= q (RSSH RSS)/q

1+ np RSS/(np)

Entonces
(RSSH RSS) /q
(x) K C
RSS/ (n p)
De manera que la region crtica del TRV sera
(RSSH RSS) /q
A1 = {x, C},
RSS/ (n p)
resulta que C lo podemos calcular facilmente si fijamos el nivel de significacion
por le siguiente resultado.
Proposicion 5.2.1 Bajo H0
(RSSH RSS) /q
Fq,np ,
RSS/ (n p)
Lema 5.2.1 Si U Xr2 y V Xl2 con r > l y V y U V son independientes,
2
entonces U V Xrl .
Demostracion. Sea U () la funcion generatriz de momentos de U. En-
tonces U () = h()r para una cierta funcion h. Entonces V () = h()l .Por
otro lado, al ser V y U V independientes U () = U V ()V () con lo que
U V () = h()rl .
Demostracion. (De la proposicion). Sabemos que RSS/ 2 Xnp 2
(esto
se cumple bajo la hipotesis general en particular bajo H0 ). Veamos que bajo
H0 , RSSH / 2 Xn(pq)
2
. Basta considerar el caso c = 0, si c 6= 0 podemos
tomar 0 tal que H 0 = c y tomar
Y : = Y X 0 = X( 0 ) +
= X +
96 CAPITULO 5. EL MODELO LINEAL

y ahora H0 : H = 0, ademas ||Y X H ||2 = ||Y X 0 X(


b )||2 = ||Y
b
H 0
2
X H || = RSSH . Notemos ahora que H := {X, H = 0} es un subespacio de
b
dimension p q de R(X), por tanto el estimador mnimo-cuadratico )(=EMV)
sera un b tal que X
H
b = PH Y y tendremos
H

= ||(In PH )Y ||2
= Y 0 (In PH )Y
= (Y X H )0 (In PH )(Y X H )
 
0 In(pq) 0
= (Y X H ) L L0 (Y X H ),
0 0
Y X H
con L ortogonal, y como bajo H0 , N (0, In ), resultara que

||Y X b ||2
H 2
2
Xn(pq) .

Por ultimo,

RSSH b ||2 = ||Y X ||


= ||Y X b 2 + ||X b ||2
b X
H H
b 2
= RSS + ||(In PH )X ||

de manera que
b 2
RSSH RSS = ||(In PH )X ||
independiente de RSS (por el teorema de Fisher) de manera que por el lema
anterior RSSH RSS Xq2 y como es independiente de RSS,

(RSSH RSS) /q
Fq,np
RSS/ (n p)

Observacion 5.2.1 Particularmente interesante es el llamado test de la re-


gresion

H0 : 1 = 2 = ... = p1 = 0
H1 : no todos los i , i 1 son cero.

Es un caso particular de los anteriores con c = 0 y H = (0, Ip1 ) (toda la


primera columna ceros). De esta manera q = p 1. Bajo H0 el modelo es

Y = 0 +

y 0H = Y , de manera que RSSH = ||Y Y ||2 y RSSH = RSS + ||X


b Y ||2 .
Una medida del ajuste de la regresion es
RSSH RSS
R2 = .
RSSH

You might also like