Professional Documents
Culture Documents
1 Estimacion puntual 3
1.1 Modelos estadsticos . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Estadsticos y estimadores. . . . . . . . . . . . . . . . . . . . . . 5
1.3 Sesgo y error cuadratico. . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 Metodos de estimacion . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1 Metodo de maxima verosimilitud . . . . . . . . . . . . . . 8
1.4.2 Metodo de los momentos . . . . . . . . . . . . . . . . . . 10
1.5 Modelos estadsticos regulares. Cota de Cramer-Rao. . . . . . . . 15
1.6 Modelos exponenciales . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7 Propiedades asintoticas de los metodos de estimacion. . . . . . . 25
1.8 Muestras de una poblacion normal . . . . . . . . . . . . . . . . . 29
2 Intervalos de confianza 35
2.1 Construccion de intervalos a partir de la verosimilitud . . . . . . 35
2.2 Construccion de intervalos a partir de funciones pivotantes. . . . 37
2.3 Problemas de dos muestras. . . . . . . . . . . . . . . . . . . . . . 39
2.3.1 Muestras independientes . . . . . . . . . . . . . . . . . . . 39
2.3.2 Muestras relacionadas . . . . . . . . . . . . . . . . . . . . 41
2.4 Algunos metodos para obtener pivotes . . . . . . . . . . . . . . . 41
2.4.1 Un metodo bastante general . . . . . . . . . . . . . . . . . 41
2.4.2 Familias de posicion y escala . . . . . . . . . . . . . . . . 42
2.4.3 Metodos aproximados . . . . . . . . . . . . . . . . . . . . 43
2.4.4 Un metodo especial . . . . . . . . . . . . . . . . . . . . . 45
2.4.5 Regiones de confianza, intervalos simultaneos . . . . . . . 46
3 Test de hipotesis 49
3.1 Test de hipotesis simples . . . . . . . . . . . . . . . . . . . . . . . 50
3.2 Hipotesis compuestas . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.1 Construccion de test a partir de intervalos de confianza . 58
3.2.2 Test de la razon de verosimilitudes. . . . . . . . . . . . . . 60
4 Test Ji-cuadrado 69
4.1 El modelo multinomial . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2 Test de ajuste en el modelo multinomial . . . . . . . . . . . . . . 70
iii
iv INDICE
5 El modelo lineal 87
5.1 Estimacion de los parametros . . . . . . . . . . . . . . . . . . . . 88
5.1.1 Propiedades del estimador mnimo-cuadratico . . . . . . . 89
5.1.2 Estimacion mnimo cuadratica de 2 . . . . . . . . . . . . 90
5.2 El modelo lineal normal . . . . . . . . . . . . . . . . . . . . . . . 92
5.2.1 Estimacion maximo verosmil . . . . . . . . . . . . . . . . 93
5.2.2 Prediccion . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.2.3 Contraste de hipotesis . . . . . . . . . . . . . . . . . . . . 94
INDICE J.M. Corcuera
2 INDICE
Captulo 1
Estimacion puntual
X
(, A) (X , F).
3
4 CAPITULO 1. ESTIMACION PUNTUAL
X = {0, 1}n ,
F = P({0, 1}n )
= p
Pn Pn
Pp (x1 , xn , ..., xn ) = p i=1 xi (1 p)n i=1 xi
= (0, 1)
X = (Z+ )n ,
F = P((Z+ )n )
= P n
xi
n
i=1
P (x1 , xn , ..., xn ) = e
ni=1 xi !
= (0, +)
X = Rn ,
F = B(Rn )
= (, )
n
1 1 X
f(,) (x1 , xn , ..., xn ) = n exp{ 2 (xi )2 }
2 n 2 i=1
= (, +) (0, +)
T : X Rk ,
ECM (T ) = E (T g())2 ,
Ejemplo 1.3.2
ECM (T ) = V ar (T ) + Sesgo2 (T ),
P {T1 6= T2 } = 0, .
T1 +T2
Veamos entonces que E ((T1 T2 )2 ) = 0. Primero notemos que 2 sera un
estimador insesgado de g():
T1 + T2 E (T1 ) + E (T2 ) g() + g()
E = = .
2 2 2
Por tanto
T1 + T2
V ar (T1 ) V ar ( )
2
1
= (V ar (T1 ) + V ar (T2 ) + 2Cov(T1 , T2 ))
4
1
= (2V ar (T1 ) + 2Cov (T1 , T2 )).
4
Por la desigualdad de Cauchy-Schwarz
p p
|Cov (T1 , T2 )| V ar (T1 ) V ar (T2 ) = V ar (T1 ),
por tanto
T 1 + T2 1
V ar (T1 ) V ar ( ) (2V ar (T1 ) + 2V ar (T1 )) = V ar (T1 ).
2 4
De manera que V ar ( T1 +T
2
2
) = V ar (T1 ) y por tanto Cov (T1 , T2 ) = V ar (T1 ).
Finalmente
E ((T1 T2 )2 ) = V ar (T1 T2 )
= V ar (T1 ) + V ar (T2 ) 2Cov (T1 , T2 )
= 2V ar (T1 ) 2V ar (T1 ) = 0
8 CAPITULO 1. ESTIMACION PUNTUAL
Desigualdad de Cauchy-Schwarz
Sean X, Y dos variables aleatorias, no constantes, de cuadrado integrable, en-
tonces R
con lo que p p
|cov(X, Y )| var(X) var(Y ).
L(x; ) : R
7 L(x; ) = f (x)
1 1
f (x) = ni=1 1[0,] (xi ) = n 1[0,] (x(n) )
1.4. METODOS DE ESTIMACION J.M. Corcuera
de manera que
1
L(x; ) = 1[0,] (x(n) )
n
1
= 1[x ,+) ()
n (n)
Definicion 1.4.2 Se denomina estimador maximo verosmil (EMV) de a :
X Rd tal que
L(x; (x)) = sup L(x; ), x X \N
donde P (N ) = 0, .
Ejemplo 1.4.3 Supongamos que tenemos un modelo de n observaciones iid
Exponenciales de parametro > 0. Para hallar hay que hallar el maximo de
la funcion de verosimilitud
Pn
L(x; ) = n e i=1 xi
Como
n
l(x; ) n X
= xi = 0
i=1
el extremo es
n
(x) = Pn .
i=1 xi
Es un maximo local:
2 l(x; ) n
2 = 2 < 0.
Como la funcion es derivable y el maximo local unico tenemos un maximo global.
Ejemplo 1.4.4 Supongamos que tenemos un modelo de n observaciones iid
Uniformes en (0, ). La verosimilitud es
1
L(x; ) = 1[x ,+) ().
n (n)
Es inmediato que
(x) = x(n) .
Proposicion 1.4.1 Sea
g:
= g()
Por definicion
L(x; ) = sup L(x; ).
Ahora bien
= sup L(x; ).
1 () = E (X1 ) = .
2
Por tanto
= 21 (),
y el estimador de por el metodo de los momentos sera
n
1X
T (x) = 2 xi = 2x.
n i=1
1.4. METODOS DE ESTIMACION J.M. Corcuera
x 1
fX(n) (x) = n( )n1 1[0,](x) ,
entonces Z
x 1 n
E () = E (X(n) ) = xn( )n1 dx = ,
0 n+1
de manera que el estimador tiene sesgo, pero podemos corregirlo si consideramos
el estimador
n+1
= .
n
La varianza de sera
var( ) = E(2 ) 2
2
n+1 2
= E( ) 2
n
2
n+1 n 2
= 2
n n+2
2
= ,
n(n + 2)
4Var(X1 ) 2
var(T ) = =
n 3n
Observacion 1.4.1 P Es inmediato que el estimador por el metodo de los mo-
n
mentos de k () es n1 i=1 xki su llamado estimador emprico. En general
Pn (en el
contexto iid) el estimador emprico de E (f (X1 )) se define como n1 i=1 f (xi ).
implica que
n
1X
(x) = xi = x.
n i=1
n
n 1 X
l(x; , ) = + 3 (xi x)2 = 0,
i=1
de manera que
n
1X
2 = (xi x)2 .
n i=1
Ademas
n
n 3 X
2 l(x; , )|= = (xi x)2
2 4 i=1
2n
= <0
2
con lo que se trata de un maximo local y absoluto. As tenemos
Pn
ya que i=1 (xi x) = 0. De manera que
n n
2 1X 1X
E(,) ( ) = E(Xi X)2 = E(Xi )2
n i=1 n i=1
E(X )2
n 2 2 n1 2
= = .
n n n
Podemos corregir el sesgo si tomamos como estimador de 2 .
n
n1 2 1 X
S 2 (x) = (x) = (xi x)2 .
n n 1 i=1
Notemos tambien que este resultado es general, para cualquier modelo (de ob-
servaciones iid) con varianza desconocida, el estimador 2 (varianza muestral),
tiene sesgo y S 2 (varianza muestral corregida).
14 CAPITULO 1. ESTIMACION PUNTUAL
Xi = + ri + i ,
n
X n
X
(xi ( + ri ))2 = 2 (xi ( + ri ))
i=1 i=1
Xn
2 (xi ( + ri ))2 = 2n > 0, r
i=1
= x r.
n
X n
X
(xi ( + ri ))2 = 2 (xi x (ri r))(ri r) = 0,
i=1 i=1
de manera que Pn
(x x)(ri r)
Pn i
= i=1 2
,
i=1 ((ri r)
ya que
n
X n
X
2 (xi ( + ri ))2 = 2 ((ri r)2 > 0.
i=1 i=1
1.5. MODELOS ESTADISTICOS REGULARES. COTA DE CRAMER-RAO.J.M. Corcuera
E ( log L) = 0,
R R
Demostracion. Puesto que X
L(x; )dx = 1, X
L(x; )dx = 0 y la
condicion ii) equivale a
Z Z
L(x; )
0 = L(x; )dx = L(x; )dx
L(x; )
ZX X
Corolario 1.5.1
In () = var ( log L), .
2
L(x; )dx = X 2 L(x; )dx (en caso absolutamente continuo) 2 X L(x; )dx =
R R P
iv) X
2 L(x; )dx (en el caso discreto), .
P
X
In () = E (2 log L)
16 CAPITULO 1. ESTIMACION PUNTUAL
y como
2
2 L(x; ) = 2 log L(x; )L(x; ) + ( log L(x; )) L(x; )
con lo que
n
X
log Ln (x1 , ..., xn ; ) = log L1 (xi ; ),
i=1
n
X
E ( log Ln (X)) = E ( log L1 (Xi )) = 0.
i=1
Finalmente
L1 (x; ) = exp{x}
1.5. MODELOS ESTADISTICOS REGULARES. COTA DE CRAMER-RAO.J.M. Corcuera
con lo que
E ( log L1 ) = 0.
Ademas
g 0 ()2
var (T ) , .
In ()
Demostracion.
Z
T (x)L(x; )dx = E (T ) = g 0 ()
X
18 CAPITULO 1. ESTIMACION PUNTUAL
Z Z
L(x; )
T (x) L(x; )dx = T (x) L(x; )dx
X L(x; )
ZX
= T (x) log L(x; )L(x; )dx
X
= cov (T, log L).
es equivalente a escribir
T E (T ) = () log L, x X \N , P (N ) = 0.
Notemos que
(T E (T )) log L = ()( log L)2 ,
y por tanto
En definitiva
g 0 ()
() = .
In ()
1.5. MODELOS ESTADISTICOS REGULARES. COTA DE CRAMER-RAO.J.M. Corcuera
El modelo es regular y
P P
xi n xi
p log L =
p 1p
P
xi n
= ,
p(1 p) (1 p)
con lo que
P
xi p(1 p)
p= p log L.
n n
Resulta as que
P
xi
T (x) =
n
es un estimador eficiente de p y
p(1 p)
(p) =
n
con lo que
n
In (p) = .
p(1 p)
Ejemplo 1.5.3 Sean n Xi iid Exp(), ya vimos que el modelo era regular,
X
L(x1 , x2 , ..., xn ; ) = n exp{ xi }
de manera que
n X
log L = xi ,
y
P
xi 1 1
= log L.
n n
Px i 1
Por tanto n es un estimador eficiente de y
1 g() 12
= =
n In () In ()
de manera que
n
In () = .
2
20 CAPITULO 1. ESTIMACION PUNTUAL
con Z Z
1 g()
a() = d, b() = d
() ()
y s(x) una constante de integracion que puede depender de x.
con
n
X n
X
a() = a1 (), T (x) = T1 (xi ), b() = nb1 (), s(x) = s1 (xi ).
i=1 i=1
n
p X
= exp{log xi + n log(1 p)},
1p i=1
con Z
|T (x)| exp{a()T (x)} exp{s(x)}dx < . (1.2)
X
Veamos que
exp{a()T (x)} exp{a()T (x)}
T (x) exp{a()T (x)}
a() a()
1.6. MODELOS EXPONENCIALES J.M. Corcuera
De manera que
exp{a()T (x)} exp{a()T (x)}
T (x) exp{a()T (x)}
a() a()
X hk |T (x)|k
1
exp{a()T (x)}
h k!
k=2
1
(exp{(a() + h)T (x)} + exp{(a() h)T (x)}),
h
siempre que
|a() a()| h.
Si tomamos h suficientemente pequeno, como a0 () 6= 0, existiran 1 , 2
tales que
a() + h = a(1 )
a() h = a(2 )
y como Z
exp{b(i )} = exp{a(i )T (x)}dx, i = 1, 2,
X
resultara que h1 (exp{(a() + h)T (x)} + exp{(a() h)T (x)}) es integrable y esta
cota no depende de en el entorno de . Tenemos entonces que se cumple (1.2)
y podemos aplicar ahora convergencia dominada en
!
exp{a()T (x)} exp{a()T (x)}
Z Z
lim dx T (x) exp{a()T (x)}dx
X a() a() X
Z
exp{a()T (x)} exp{a()T (x)}
Z
= lim dx T (x) exp{a()T (x)}dx
X a() a() X
exp{a()T (x)} exp{a()T (x)}
Z
lim T (x) exp{a()T (x)} dx
X a() a()
Z exp{a()T (x)} exp{a()T (x)}
= lim T (x) exp{a()T (x)} dx = 0.
X a() a()
24 CAPITULO 1. ESTIMACION PUNTUAL
De manera que
Z Z
a() exp{a()T (x)}dx = a() exp{a()T (x)}dx.
X X
deduciramos que
Z
a() T (x) exp{a()T (x)} exp{s(x)}dx
X
Z
= T (x)a() exp{a()T (x)} exp{s(x)}dx
X
Z
= T 2 (x) exp{a()T (x)} exp{s(x)}dx < (1.3)
X
De manera que
In () = var ( log L) = var (a0 ()T + b0 ())
= a0 ()2 var (T (x)) < .
Como a0 () 6= 0 y T (x) no es constante tambien se cumple que In () > 0. Con
lo que el modelo cumple las condiciones i), ii) y iii) de regularidad.
Observacion 1.6.3 Si a() es dos veces derivable entonces se puede ver, sigu-
iendo el mismo procedimiento que en la demostracion anterior, que se cumple
la condicion iv) de regularidad de manera que
In () = E (2 log L)
= E (a00 ()T b00 ())
= a00 ()E (T ) b00 ().
Como
0 = E ( log L) = a0 ()E (T ) + b0 (),
resultara finalmente que
b0 ()
In () = a00 () b00 ().
a0 ()
Observacion 1.6.4 Como
log L = a0 ()T (x) + b0 (),
tendremos que
b0 () 1
T (x) = 0 log L,
a0 () a ()
b0 ()
con lo que T sera un estimador eficiente de a0 () .
1.7. PROPIEDADES ASINTOTICAS DE LOS METODOS DE ESTIMACION.J.M. Corcuera
Tn : X R
(x1 , x2 , ..., xn ) Tn (x1 , x2 , ..., xn ).
2
a veces se denota Tn AN (g(), n )
g 0 ()2
2 =
I1 ()
resultara que
L 1
n(n (X1 , X2 , ..., Xn ) ) N(0, ).
n I1 ()
Demostracion.
Ahora bien
n
1 1 X
log Ln (X1 , X2 , ..., Xn ; ) = log L1 (Xi ; ).
n n i=1
Para todo las log L1 (Xi ; ) son variables aleatorias iid de media cero
y varianza E (( log L1 (Xi ; ))2 ) = I1 (). Entonces por el teorema central del
lmite
n
1 X L
log L1 (Xi ; ) N(0, I1 ()).
n i=1 n
y las variables 2 log L1 (Xi ; ) son iid de esperanza I1 (), de manera que por
la ley fuerte de los grandes numeros
1 c.s.
2 log Ln (X1 , X2 , ..., Xn ; ) I1 ().
n n
tendremos que
1 P
2 log Ln (X1 , X2 , ..., Xn ; n ) I1 ()
n n
1 log Ln (x; )
n L N(0, I1 ()) 1
n(n ) = = N(0, ). (1.6)
n1 2 log Ln (x; )|=n n I1 () I1 ()
| n | <
donde hemos podemos aplicar la ley fuerte de los grandes numeros ya que
!
2 2
E sup log L1 (Xi ; ) log L1 (Xi ; 1 )
| 1 |<
2E (h (Xi )).
7 P
28 CAPITULO 1. ESTIMACION PUNTUAL
c.s. L1 (X1 ; )
n (X1 , X2 , ..., Xn ; ) E (log )
n L1 (X1 ; )
Sea k N suficientemente grande para que L1 (X1 ; ) sea una variable diferente
de L1 (X1 ; ) si [ + k1 , k1 ]. Esto queda garantizado por la hipotesis de
identificabilidad local. Entonces por la desigualdad de Jensen como log es una
funcion estrictamente concava y L 1 (X1 ;)
L1 (X1 ;) 6= 1, resultara que
L1 (X1 ; ) L1 (X1 ; )
E (log ) < log E ( )
L1 (X1 ; ) L1 (X1 ; )
Z
L1 (x; )
= log L1 (x; )dx
L (x; )
ZX 1
= log L1 (x; )dx
X
= log 1 = 0
ya que
x1 xn
y1 yn
= det A1 .
Jg1 (y) =
xn xn
y1 yn
1 1
fY (y) = n exp{ (y b)0 (A1 )0 A1 (y b)}
2 | det A| 2
E(Y ) = AE(X) + b = b
Cov(Y ) = E((Y b)(Y b)0 )
= AE(XX 0 )A0
= AA0 =
30 CAPITULO 1. ESTIMACION PUNTUAL
ya que A es no singular.
Z = BAX + Bb + c
Corolario 1.8.2 Si X = (X1 , ..., Xn )0 es tal que las Xi son iid con ley N (, 2 )
2
entonces X N (, n ).
X = LX N (L1, 2 LL0 ),
y
1
L1 =(1/n, ..., 1/n) ... = 1
1
1/n
1
LL0 = (1/n, ..., 1/n) ... =
n
1/n
Definicion 1.8.1 Sean Z1 , ..., Zn iid N (0, 1), entonces Z12 + .. + Zn2 sigue una
ley que se conoce como Ji-cuadrado con n-grados de libertad, se escribe Xn2 . Esto
es
Ley
Xn2 = Z12 + .. + Zn2 , Zi iid N (0, 1).
Xi Pn
Demostracion. Tomemos Yi = , entonces U = i=1 (Yi Y )2 con Yi
iid N (0, 1). Tenemos que,
n n
!2
Y
i
X X
0
U= Yi2 2
nY = Y Y ,
i=1 i=1
n
donde Y = (Y1 , ..., Yn )0 . Sea T una matriz ortogonal n n con su primera fila
( 1n , ...,
n) 1
n
) esto es
1
1n
n
T = . . ,
. .
Pn
Sea Z = T Y, entonces Z1 = i=1 Yin y Z 0 Z = Y 0 T 0 T Y = Y 0 Y, as
n
!2
Y
i
X
U = Y 0Y
i=1
n
= Z 0 Z Z12 = Z22 + .. + Zn2 ,
1 1 ( n+1
2 ) x2 n+1
ftn (x) = n (1 + ) 2 .
n ( 2 ) 2
Notemos tambien que por la ley de los grandes numeros y el teorema de Slutsky
X Ley
q N (0, 1),
Y n
n
la tn es una distribucion simetrica como la N (0, 1) pero con las colas mas pe-
sadas.
1.8. MUESTRAS DE UNA POBLACION NORMAL J.M. Corcuera
Corolario 1.8.3 (del teorema de Fisher) Si X1 , ..., Xn son iid con ley N (, 2 )
entonces
X
n tn1
S
donde
n
1 X
S 2 = (Xi X)2 .
n 1 i=1
X Pn 1 2 2
Demostracion. n N (0, 1) y i=1 2 (Xi X) Xn1 y son
independientes, entonces por la definicion de t de Student
n X
q Pn tn1
1 1
n1 i=1 2 (Xi X)2
pero
n X
X
q Pn = n
1 1
X)2 S
n1 i=1 2 (Xi
34 CAPITULO 1. ESTIMACION PUNTUAL
Captulo 2
Intervalos de confianza
Es evidente que nos gustara tener un intervalo de longitud 2 (x)1 (x) pequena
(mas preciso) frente a uno de longitud grande (impreciso) pero si lo tomamos
mas pequeno la seguridad de que el intervalo contenga a tambien disminuira,
por tanto debemos buscar un compromiso entre ambas cosas.
Para controlar la seguridad o verosimilitud del intervalo podemos tomar
el conjunto de valores de tales que
L(x; )
K
L(x; )
para un valor de K no muy grande. Si embargo queda por saber como fijar K.
35
36 CAPITULO 2. INTERVALOS DE CONFIANZA
L(x; )
PX {x, K}
L(x; )
con un proximo a 1.
Definicion 2.1.1 Diremos que los intervalos I(x) para R tienen (coefi-
ciente) de confianza si
PX ( I)
esto es PX {x, I(x)} .
Observacion 2.1.3 Analogamente diramos que los intervalos I(x) para g()
R tienen (coeficiente) de confianza si
PX (g() I)
L(x; ) n
K exp{ 2 (x )2 } K
L(x; ) 2
o equivalentemente
|x | CK
n
donde CK es una constante que depende del valor de verosimilitud elegido, K,
pero no de o n. Finalmente obtenemos
x CK x + CK .
n n
2.2. CONSTRUCCION DE INTERVALOS A PARTIR DE FUNCIONES PIVOTANTES.J.M. Corcuera
Sin embargo, no hay una manera clara de como fijar K o CK . Podemos mirar
como se comporta el intervalo [x CK n , x + CK n ] cuando cambiamos la
muestra, en particular
P ( [X CK , X + CK ])
n n
Ahora bien
P {X CK X + CK ]}
n n
n(X )
= P CK .
2
Sabemos que X N (, n ) de manera que
n(X )
N (0, 1)
y la probabilidad anterior No depende de y as podemos encontrar CK inde-
pendiente de tal que
n(X )
P CK
: X g() R
(x, g()) 7 (x, g())
Proposicion 2.2.1 Sea (x, g()) una funcion pivotante para g() y B B(R)
tal que
PX {(, g()) B}
entonces
I(x) = {g(), (x, g()) B}
es una region de coeficiente de confianza .
pero decir que g() I(x) es lo mismo que decir que (x, g()) B, entonces
con = 1 , y donde tn1 denota una variable con ley tn1 de Student,
resultara que
X
P(,) (tn1;/2 n tn1;/2 ) =
s
y de aqui,
x
tn1;/2 n tn1;/2
s
proporcionara un intervalo de confianza . Si aislamos tendremos que lo an-
terior equivale a
s s
x tn1;/2 x + tn1;/2
n n
P
Ejemplo 2.2.3 (Intervalo para ) Sea de nuevo un modelo de n observaciones
n
(x x)2
normales independientes N (, 2 ) entonces (x, ) = i=1 2i es una funcion
2 2
pivotante para con distribucion Xn1 entonces si tomamos los puntos Xn1;1/2
2
y Xn1;/2 (con la misma notacion de antes) tendremos que
Pn
2 i=1 (xi x)2 2
Xn1;1/2 Xn1;/2
2
y como 2Gamma( 2n 2n 1 2
2 , 1) =Gamma( 2 , 2 ) = X2n , resultara que
n
X
2
2 log F (Xi ) X2n
i=1
y por tanto
n
X
(x, ) = 2 log F (xi )
i=1
sera una funcion pivotante para con una distribucion que esta tabulada.
1 x
f (x; ) = f0 ( )
se dice que es una familia de escala generada por f0 . En tal caso Yi = Xi /
tiene densidad f0 (y) y por tanto
x1 x2 xn
(x; ) = g( , ..., )
es una funcion pivotante para cualquiera que sea la funcion g.
Por ultimo si las Xi tienen densidad
1 x
f (x; ) = f0 ( )
se dice que es una familia de posicion y escala generada por f0 . En tal caso
Yi = (Xi )/ tiene densidad f0 (y) y por tanto
x1 x2 xn
(x; , ) = g( , ..., )
es una funcion pivotante para (, ) cualquiera que sea la funcion g.
2.4. ALGUNOS METODOS PARA OBTENER PIVOTES J.M. Corcuera
PX (|T g()| )
con s
V ar (T )
=
1
de manera que s
V ar (T )
|T (x) g()|
1
proporciona un intervalo de confianza , despejando g() obtenemos
s s
V ar (T ) V ar (T )
T (x) g() T (x) + .
1 1
1
de manera que el valor maximo que puede tomar V arp (T ) es 4n . As
1 1
x p p x + p
2 n(1 ) 2 n(1 )
tiene confianza , aunque
es de longitud demasiado grande. Para = 0.95 el
radio es aprox 2.24/ n
con lo que
k/2 k/2
q + q
nI1 () nI1 ()
sera un intervalo de confianza aproximadamente , donde P {N (0, 1) > k/2 } =
/2, y, como siempre, = 1 .
Ejemplo 2.4.3 Supongamos, como antes, que nuestras observaciones son Bernoullis(p)
y queremos dar un intervalo de confianza para p. Sabemos que el EMV es
1
p(x) = x, tambien sabemos que I1 (p) = p(1p). . De manera que
r r
x(1 x) x(1 x)
x k/2 p x + k/2
n n
sera un intervalo para de confianza aproximada . En lugar de estimar p(1p)
podemos acotarlo por 41 y tendramos
1 1
x k/2 p x + k/2 .
2 n 2 n
Si = 0.95, k0.025 = 1.96 de manera que aproximadamente
1 1
x p x +
n n
nos da un intervalo de confianza 0.95 (aprox.). Su radio es la mitad del obtenido
por Chebichef !. Notemos que si queremos un error inferior al 3% necesitaremos
que
1
0.03
n
esto es 2
1
n = 1111, 11.
0.03
En la practica, por ejemplo, para saber la proporcion teorica de individuos con
una determinada caracterstica de una poblacion muy grande, se suele tomar un
tamano muestral de 1200, 1500.
2.4. ALGUNOS METODOS PARA OBTENER PIVOTES J.M. Corcuera
entonces
a1 1
2 (T (x)) a1 (T (x))
a1 1
2 (T (x)) a1 (T (x))
resultara que
T (x) a2 ()
a1 () T (x)
PX {x, a1 1 X
2 (T (x)) a1 (T (x))} = P {x, a1 () T (x) a2 ()}
o equivalentemente
Pp {a1 (p) X a2 (p)}
donde nX Binomial(n, p). Para determinar a1 (p) buscamos, con ayuda de la
distribucion Binomial(n, p), el valor mas grande que verifique
Ahora bien
n(x p)2 2
k/2 n(x2 2px + p2 ) k/2
2
(p p2 )
p(1 p)
2 2
k/2 k/2
(1 + )p2 (2x + )p + x2 0
n n
Las soluciones de la ecuacion que se obtiene igualando a cero son
q
2 2 /4)/(n + k 2 )
d(x) = (nx + k/2 /2 k/2 nx(1 x) + k/2 /2
q
2 2 /4)/(n + k 2 )
u(x) = (nx + k/2 /2 + k/2 nx(1 x) + k/2 /2
d(x) p u(x).
(X )
P(,) {k1 n k1 } = ,
2
Pn 2
2
i=1 (Xi X)
P(,) {X 2
X2 } =
n1; 2 2 n1;1 2
y por la independencia
(X )
P(,) k1 n k1 ,
2 2
Pn 2
(Xi X)
X 2 i=1 2 X2
=
n1; 2 n1;1 2
2.4. ALGUNOS METODOS PARA OBTENER PIVOTES J.M. Corcuera
de manera que
(x )
k1 n k1 ,
2
Pn 2
2
(x
i=1 i x)
X2
X2
n1; 2 2 n1;1 2
El principio de union-interseccion
El llamado principio de union-interseccion consiste en un metodo general,
basado en una desigualdad elemental, para obtener intervalos simultaneos, es
decir regiones rectangulares, para diferentes parametros. Sea una muestra de
observaciones X1 , X2 , ..., Xn cuya ley depende de dos parametros 1 y 2 y
supongamos que sabemos encontrar intervalos de confianza 1 y 2 para 1 y
2 respectivamente, y sean estos [S1 (X), S2 (X)] y [T1 (X), T2 (X)], esto es
Por tanto
Test de hipotesis
49
50 CAPITULO 3. TEST DE HIPOTESIS
Es evidente que, salvo casos triviales no podremos eliminar los dos errores
a la vez y si tratamos de disminuir la frecuencia de uno la del otro en general
aumentara. Como veremos vamos a dar mas importancia a los errores del tipo
I de manera que solo rechacemos la hipotesis nula cuando haya mucha evidencia
en este sentido.
P1 (A0 ) = 1 P1 (A1 ),
Definicion 3.1.1 Dado un test con region crtica A1 diremos que es de tamano
si P0 (A1 ) = .
Definicion 3.1.2 Dado un test con region crtica A1 diremos que es de nivel
(de significacion) si P0 (A1 ) .
Definicion 3.1.3 Dado un test con region crtica A1 diremos que es de poten-
cia si P1 (A1 ) = .
L0 (x) = L(x; 0 )
L1 (x) = L(x; 1 ),
Si x A1 ,
L1 (x) KL0 (x) 0 y 1A1 (x) 1A1 (x) = 1 1A1 (x) 0
Si x A0 ,
L1 (x) KL0 (x) 0 y 1A1 (x) 1A1 (x) = 0 1A1 (x) 0.
Por tanto
Z Z
(1A1 (x) 1A1 (x))L1 (x)dx K (1A1 (x) 1A1 (x))L0 (x)dx,
X X
equivalentemente
Observacion 3.1.1 Los test anteriores, que verifican (3.1), los llamaremos
test de Neyman.
Teorema 3.1.2 Todos los test de maxima potencia son test de Neyman.
de manera que si L1 (x) KL0 (x) > 0, 1A1 (x) 1A1 (x) = 0 y como entonces
x A1 x tambien esta en A1 . As que
Analogamente si L1 (x) KL0 (x) < 0, 1A1 (x) 1A1 (x) = 0 y como entonces
x
/ A1 (es decir x A0 ) x tampoco esta en A1 (es decir x A0 ), as
H0 : = 0 versus
H1 : = 1 .
Tenemos que
n
1 1 X
L1 (x) = n exp{ (xi 1 )2 }
2 2 2 i=1
n
1 1 X n
= n exp{ 2
(xi x)2 } exp{ 2 (x 1 )2 }
2 2 i=1 2
n
1 1 X n
L0 (x) = n . exp{ (xi x)2 } exp{ 2 (x 0 )2 }
2 2 2 i=1 2
Entonces, como
P0 {X > C} = .
Como, bajo 0 ,
2
X N (0 , )
n
n(X 0 ) n(C 0 )
P0 {X > C} = P0 { > }
n(C 0 )
= P0 {N (0, 1) > }=
Y utilizando la notacion habitual
n(C 0 )
= k ,
con lo que finalmente
C = 0 + k ,
n
y
A1 = {x, x > 0 + k }
n
Podemos ahora calcular la potencia del test
= P1 (A1 ) = P1 {X > 0 + k }
n
n(X 1 ) n(0 1 )
= P1 { > k + }
n(0 1 )
= P1 {N (0, 1) > k + }
n(0 1 )
= 1 (k + )
donde es la funcion de distribucion de una normal estandar. Notemos que
lim = 1,
n
Observacion 3.1.2 Notar que si hacemos el contraste anterior pero con 1 <
0 entonces la region crtica optima de nivel es
A1 = {x, x < 0 k }
n
54 CAPITULO 3. TEST DE HIPOTESIS
Observacion 3.1.3 Una vez construido un test para ver si aceptamos o rechaz-
amos H0 se toma una muestra x y se mira si esta en la region de aceptacion o
en la region crtica correspondientes a un nivel de significacion prefijado . Otra
manera de indicar que tan significativa es la muestra observada para rechazar
la hipotesis nula es dar su p-valor, consiste en el nivel de significacion del test a
partir del cual la muestra observada estara en la region crtica. Si el p-valor es
mas pequeno que 0.05 nuestra muestra estara en la region crtica de nivel 0.05.
Esto es, cuanto mas pequeno es su p-valor menos se valida la hipotesis nula.
Ejemplo 3.1.2 Sea un modelo de observaciones iid con densidad U (0, ) donde
puede ser 0 o 1 . 1 > 0 . Queremos construir test optimos para contrastar
H0 : = 0 versus
H1 : = 1 .
1
L1 (x) = 1[0,1 ] (x(n) )
n1
1
L0 (x) = 1[0,0 ] (x(n) )
n0
de manera que los test con region crtica
1 K
A1 {x, 1[0,1 ] (x(n) ) > 1[0,0 ] (x(n) )} (3.2)
n1 n0
1 K
A0 {x, n 1[0,1 ] (x(n) ) < 1[0,0 ] (x(n) )}, (3.3)
1 n0
son optimos. En particular si tomamos
con lo que
1 K
A0 {x, n 1[0, 1 ] (x(n) ) = n 1[0, 0 ] (x(n) )},
1 0
lo que implica que
1 K
A1 {x, 1[0,1 ] (x(n) ) > n 1[0,0 ] (x(n) )}.
n1 0
Podemos bucar ahora C para un nivel de significacion . Se debera cumplir que
P0 (X(n) > C) = ,
3.2. HIPOTESIS COMPUESTAS J.M. Corcuera
ahora bien
con lo que
n
C = 0 1 .
Podemos ahora calcular la potencia del test
Notemos que
lim = 1,
n
P (A1 ), 1 .
Definicion 3.2.1 Llamaremos tamano del test (con region crtica A1 ) al valor
sup P (A1 )
0
sup P (A1 )
0
() = P (A1 ), 1
56 CAPITULO 3. TEST DE HIPOTESIS
H0 : = 0 versus
H1 : = 1 .
H0 : 0 versus
H1 : 1 .
H0 : 0 versus
H1 : 1 .
H0 : = 0 versus
H1 : = 1 .
resultara que son de nivel y que (A1 ) > (A1 ) pero A1 es un test de Neyman
por tanto llegamos a una contradiccion.
H0 : 0
H1 : > 0 .
Sabemos por el ejemplo (3.1.1) que un test de Neyman de nivel para contrastar
H0 : = 0
H1 : = 1 .
3.2. HIPOTESIS COMPUESTAS J.M. Corcuera
Con lo que sup0 P (A1 ) = P0 (A1 ). Por tanto A1 es una region crtica (de
un test) UMP.
H0 : = 0
H1 : =6 0 ,
H0 : = 0
H1 : > 0 ,
H0 : = 0
H1 : < 0 ,
H0 : g() = 0 versus
H1 6 0 .
: g() =
Notemos que en este tipo de contrastes tanto la hipotesis nula como la alterna-
tiva pueden ser compuestas. Sean I(x), x X intervalos de confianza para
g(). Definamos la region crtica
A1 = {x, 0 6 I(x)}
Por tanto
H0 : = 0
H1 : =6 0 ,
En este caso la hipotesis nula es simple. Ya vimos que los intervalos de confianza
para , venan dados por
x k/2 x + k/2 .
n n
Observacion 3.2.2 Podramos utilizar los intervalos que vimos en los proble-
mas de dos muestras para obtener los test de hipotesis correspondientes.
H0 : 0 versus
H1 : 1 .
sup0 L(x; )
(x) = ,
L(x; (x))
L(x; (x))
(x) = ,
L(x; (x))
Demostracion.
L(x; 0 )) L0 (x)
(x) = = ,
L(x; 0 ) L(x; 1 ) L0 (x) L1 (x)
de manera que
L0 (x)
(x) K K
L0 (x) L1 (x)
L0 (x) K(L0 (x) L1 (x)) L0 (x) KL1 (x)),
3.2. HIPOTESIS COMPUESTAS J.M. Corcuera
H0 : 0
H1 : > 0 .
y el numerador
n
1 1 X n
sup L(x; ) = n exp{ 2
(xi x)2 } sup exp{ 2 (x )2 }.
0 2 2 i=1 0 2
de manera que
n
(x) = sup exp{ (x )2 }.
0 2 2
Ahora bien
n n
sup exp{ (x )2 } = exp{ 2 inf (x )2 }
0 2 2 2 0
y
(x 0 )2
2 si x 0
inf (x ) =
0 0 si x < 0
de manera que
El numerador sera
n
1 1 X
sup L(x; , 0 ) = n exp{ 2 (xi x)2 }
2 0 2 0 i=1
1 n 2
= n exp{ }
2 0 2 20
y el denominador
n
1 1 X
L(x; , ) = n exp{ (xi x)2 }
2 2 2 i=1
1 n
= n exp{ }
2 2
de manera que n
n 2
n
(x) = exp{ 2 + }
0 2 0 2
y (x) > K (region de aceptacion) equivale a que
2 2
2 exp{ 2 } C
0 0
3.2. HIPOTESIS COMPUESTAS J.M. Corcuera
2
c1 < < c2
20
u exp{u} = C.
H0 : = 0
H1 : =6 0 ,
L(x; 0 )
(x) =
L(x; )
1n exp{ 21 2 (xi x)2 } exp{ 2n2 (x 0 )2 }
P
( 2 ) n
=
1n 1
P
exp{ 2 2 (xi x)2 }
( 2) n
n
= exp{ (x 0 )2 }
2 2
de manera que
2
n(x 0 )
W (x) := 2 log (x) =
y consecuentemente bajo H0
X1 , X2 , ..., Xn1 N (1 , 21 ),
H0 : (1 , 2 ) = (01, 02 )
H1 : (1 , 2 ) 6= (01, 02 ).
obtenemos
2 2
X ni (xi 0i )
2 log (x) = X22 (bajo H0 )
i=1
i
dim = m
dim 0 = m 2.
H0 : 0 versus
H1 : 1 .
y que el modelo es regular (en el sentido del comportamiento del EMV). Sea
dim = d y dim 0 = l. Vamos a suponer asimismo que cualquier punto
se puede coordenar de la forma
de manera que
0 = { , l+1 = kl+1 , .., d = kd }
3.2. HIPOTESIS COMPUESTAS J.M. Corcuera
tendremos que
L
n((X) ) Nd (0, I 1 ())
n
Escribamos
I = 0, I = 0
y por tanto 1
I 0
I 1 () = 1 .
0 I
66 CAPITULO 3. TEST DE HIPOTESIS
Entonces, sea 0 (x) = (1 (x), 2 (x), ..., l (x)) el EMV bajo H0 , tendremos
l
X
i log L(X; 1 , ..., l, 0 ) = 2i j log L(X; (X), 0 )(j (X) j ),
j=1
i = 1, ..., l
donde = j + (1 )j (X), j = 1, ..., l, 0 1, esto es
j (X)
n(j (X) j )
l
X 1 1
2 1
= log L(X; (X), 0 ) k log L(X; 1 , ..., l, 0 ),
n jk n
k=1
j = 1, ..., l,
por la regularidad del modelo, bajo H0
1 2 P
log L(X; (X), 0 ) I (, 0 )
n n
y
L 1
n( 0 (X) ) Nl (0, I ).
n
Ahora bien
log L(X; , 0 ) = log L(X; (X), (X))
d
1 X 2
+ log L(X; (X))(j (X) j )(i (X) i )
2 i,j=1 i j
1
y donde (Zi )l+1i,jd Nd (0, I ()), por tanto
d
X
2
(I )ij Zi Zj Xdl
i,j=l+1
Observacion 3.2.3 Notemos que del resultado anterior para calcular la region
crtica del TRV lo haremos en funcion del estadstico de Wilks W (x) = 2 log (x),
as
A1 = {x, (x) K}
= {x, 2 log (x) C}
= {x, W (x) C},
Test Ji-cuadrado
L(x; p1 , p2 , ..., pm )
= P (X1 = x1 , X2 = x2 , ..., Xn = xn )
1{zj } (xi ) Nj (x)
= ni=1 P (Xi = xi ) = ni=1 m
j=1 pj = m
j=1 pj .
Pn
Notemos que Nj (x) = i=1 1{zj } (xi ) cuenta el numero de veces que ha ocurrido
el resultado zj en los n experimentos. Es facil ver que
n!
P (N1 = n1 , ..., Nm = nm ) = pn1 pn2 ...pnmm ,
n1 !n2 !...nm ! 1 2
n
X
= {(p1 , p2 , ..., pm ), pi > 0, pi = 1}
i=1
69
70 CAPITULO 4. TEST JI-CUADRADO
L(x; p0 ) L(x; p0 )
(x) = =
sup L(x, p) L(x, p)
Ni (x) ni
L(x; p) = m
i=1 pi = m
i=1 pi
de manera que, tomando como variables libres, p1, p2 , ..., pm1 y como pm =
1 p1, p2 ... pm1 , las condiciones de extremo son
ni nm
pi log L(x; p) = = 0, i = 1, ..., m
pi pm
esto da
ni
pi = , i = 1, ..., m.
n
Como, por la ley fuerte de los grandes numeros,
ni c.s.
pi > 0
n
ni
podemos suponer que todos los ni son positivos, entonces L(x; p) = m i=1 pi
sera cero si algun pi es cero con lo que el maximo estara en el interior de y
correspondera a la unica solucion que hemos encontrado. Tenemos entonces que
ni npi
m pn0ii
p0i p0i
(x) = i=1 m
ni = i=1 = m
i=1
m
i=1 pi pi pi
y, bajo H0
m
X p0i 2
W (x) = 2 log (x) = 2n pi log Xm1 (aprox.)
i=1
pi
c.s
sabemos que pp0ii 1 y si desarrollamos la funcion u log u en torno del valor
n
u = 1, tenemos
1 1 1
u log u = u 1 + (u 1)2 (u 1)3
2 6 u2
pi
donde los ui son puntos entre 1 y p0i . El primer sumando se anula
m m m m
X pi X X X
p0i 1 = (pi p0i ) = pi p0i = 1 1 = 0,
i=1
p0i i=1 i=1 i=1
m 3 m !3
1 X (1 p0i )3/2
X 1 pi n(pi p0i ) P
n p0i 2 1 = 0
n i=1 u2 p1/2
p
i=1
ui p0i p0i (1 p0i ) n
i 0i
ya que
c.s. n(pi p0i ) L
ui 1 y p N (0, 1).
p0i (1 p0i )
En definitiva W (x) y
m 2
X pi
Dn (x) := n p0i 1
i=1
p0i
2
tienen el mismo comportamiento asintotico, se acercan a una Xm1 . Este ultimo
72 CAPITULO 4. TEST JI-CUADRADO
donde
388 322 314
p1 = = 0.194, p2 = = 0.161, p3 = = 0.157,
2000 2000 2000
316 344 316
p4 = = 0.158, p5 = = 0.172, p6 = = 0.158.
2000 2000 2000
Esto da un valor
6
X 1
Dn (x) = 2000 (pi )2 6 = 12.6. (4.2)
i=1
6
4.2. TEST DE AJUSTE EN EL MODELO MULTINOMIAL J.M. Corcuera
n1 n2 n3 n4
1997 906 904 32
de manera que
n1 n2 + n 3 n4
log L(x; ) = + =0 (4.4)
2+ 1
implica
Esto es:
3839 2 + 1665 64 = 0. (4.6)
Las soluciones son: = 0.0355281 y = 0.469235. Por tanto = 0.0355281
y
2 + 0.0355281
np1 () = 3839 = 1953.77
4
1 0.0355281
np2 () = np3 () = 3839 = 925.652
4
0.0355281
np4 () = 3839 = 34.0981
4
Entonces:
Dn (x)
4
X (ni npi ())2
=
i=1 npi ()
(1997 1953.77)2 (906 925.652)2 (904 925.652)2 (32 34.0981)2
= + + +
1953.77 925.652 925.652 34.0981
= 2.00931,
y si miramos las tablas de una 22 obtenemos 22;0.05 = 5.9914 por tanto estamos
en la region de aceptacion.
4.2. TEST DE AJUSTE EN EL MODELO MULTINOMIAL J.M. Corcuera
Escribamos
pi = P (X = xi ), pj = P (Y = yj ), i = 1, .., r; j = 1, ..., s.
donde pci y p
c j son los EMV de pi y pj respectivamente. Para calcularlos hay
que escribir la verosimilitud bajo H0 que vendra dada por
n nij
L(x, y; (pij )) = ri=1 sj=1 pijij = ri=1 sj=1 (pi pj )
n
= ri=1 pnii sj=1 pjj
P P
donde ni = j nij y nj = i nij . Entonces es inmediato que
ni nj
pc
i = , pc
j = .
n n
De manera que finalmente
r X s 2
X (nij ni nj /n)
Dn (x, y) = .
i=1 j=1
ni nj /n
Por tanto
XX c c XX
Dn (x, y)
cc
4 4 4 4
(nij npi pj )2 (nij ni nj /n)2
= =
i=1 j=1
npi pj i=1 j=1
ni nj /n
19761907 2
(1520 7477
) (266 19762222
7477
)2 (124 19762507
7477
)2 (66 1976841
7477
)2
= 19761907 + 19762222 + 19762507 + 1976841
7477 7477 7477 7477
2 22562222 2 22562507 2 2256841 2
(234 22561907
7477
) (1512 7477
) (432 7477
) (78 7477
)
+ 22561907 + 22562222 + 22562507 + 2256841
7477 7477 7477 7477
2 24562222 2 24562507 2 2456841 2
(117 24561907
7477
) (362 7477
) (1772 7477
) (205 7477
)
+ 24561907 + 24562222 + 24562507 + 2456841
7477 7477 7477 7477
2 7892222 2 7892507 2 789841 2
(36 7891907
7477
) (82 7477
) (179 7477
) (492 7477
)
+ 7891907 + 7892222 + 7892507 + 789841
7477 7477 7477 7477
= 8096.88
pij = pj , i, j
78 CAPITULO 4. TEST JI-CUADRADO
sj=1 pbj nj
(x) = nij
ri=1 sj=1 pcij
n nj
sj=1 nj
= nij
n
ri=1 sj=1 nij i
y
dim 0 = s 1,
de manera que
dim dim 0 = r(s 1) (s 1)
= (r 1)(s 1),
igual que en el caso del contraste de independencia!. Al igual que en el caso de
independencia se utiliza el estadstico de Pearson en lugar de 2 log (x), por
comparacion con el caso de independencia, tendremos que
r X s 2
X (nij ni nj /n)
Dn (x) = .
i=1 j=1
ni nj /n
XX
Dn (x)
2 4
(nij ni nj /n)2
=
i=1 j=1
ni nj /n
4636 2 4646 2 4634 2 4612 2
(6 128
) (14 128
) (17 128
) (9 128
)
= 4636 + 4646 + 4634 + 4612
128 128 128 128
(30 8236
128
)2 (32 8246
128
)2 (17 8234
128
)2 (3 8212
128
)2
+ 8236 + 8246 + 8234 + 8212
128 128 128 128
= 17.2858
Entonces como P {23 > 7.815} = 0.05 resulta que estamos en la region crtica y
rechazamos la hipotesis de homogeneidad.
datos cuando sea necesario. Una vez aproximadas las variables por multinomi-
ales podemos hacer los test anteriores y tendremos los llamados test Ji-cuadrado.
Vamos a ver un ejemplo de test Ji-cuadrado de ajuste a una familia.
262.8 1.0 36.4 4.0 59.4 35.3 70.5 22.6 3.7 5.8
32.1 0.5 17.4 77.6 46.7 182.4 76.7 3.5 13.4 29.7
6.1 15.1 110.5 45.9 31.7 22.4 27.8 10.0 33.0 26.7
8.0 6.8 63.0 70.9 30.0 12.2 29.6 3.3 32.2 12.3
128.2 24.6 7.0 39.8 71.1 19.4 5.4 4.4 54.4 24.8
Hacemos una particion del intervalo [0, ) mirando que el numero de observa-
ciones en cada intervalo sea superior o igual a 5. Una posible es
Bajo la hipotesis nula de que los datos siguen una exponencial de parametro
de manera que la probabilidad de observar resultados en un intervalo (a, b) viene
por
Z b
p((a, b)) = ex dx = ea eb (4.11)
a
L P4
esto es Dn 22 , donde n = i=1 ni = 50 es el tamano muestral. La
n
P
estimacion maximo-verosmil de es = 50n x = 0.0243. Esto hace que
i=1 i
Dn (x)
4
X (ni npi ())2
=
i=1
npi ()
(20 19.25)2 (16 11.8)2 (5 6.35)2 (9 12.6)2
= + + +
19.25 11.8 6.35 12.6
= 2.80162.
Como P {22 > 5.99} = 0.05, resulta que 22; 0.05 = 5.99 con lo que Dn (x) <
22; 0.05 y estamos en al region de aceptacion. As es razonable pensar que los
datos siguen una distribucion exponencial.
82 CAPITULO 4. TEST JI-CUADRADO
Proposicion 4.4.1
c.s.
Fn (X, y) F (y), y R
n
(m) k
yk = F 1 ( ), k = 0, ..., m.
m
(m) (m)
Notemos que y0 = y que Fn (X, y) = F (y) = 1 (c.s.) si y ym . Sea
(m) (m)
entonces y [yk , yk+1 ), k = 1, .., m 1. Tenemos
(m) (m)
Fn (x, y) F (y) Fn (x, yk+1 ) F (yk )
(m) (m) (m) (m)
Fn (x, yk+1 ) F (yk+1 ) + F (yk+1 ) F (yk )
(m) (m) k+1 k
Fn (x, yk+1 ) F (yk+1 ) +
m m
(m) (m) 1
Fn (x, yk+1 ) F (yk+1 ) + .
m
y
(m) (m)
Fn (x, y) F (y) Fn (x, yk ) F (yk+1 )
(m) (m) (m) (m)
Fn (x, yk ) F (yk ) + F (yk ) F (yk+1 )
(m) (m) k k+1
Fn (x, yk ) F (yk ) +
m m
(m) (m) 1
Fn (x, yk ) F (yk )
m
En definitiva
n o
(m) (m) (m) (m)
Fn (x, y) F (y) max max Fn (x, yk ) F (yk ) , Fn (x, yk+1 ) F (yk+1 )
0km1
1
+ .
m
De manera que, con probabilidad uno,
1
lim sup sup Fn (X, y) F (y) ,
y m
es. Por ejemplo, supongamos que en un modelo de observaciones iid con funcion
de distribucion F queremos contrastar
H0 : F = F0
H1 : F 6= F0
donde F0 representa una funcion de distribucion concreta. Entonces una region
crtica razonable consistira en
A1 = {x, n (x) K}
donde
n (x) = sup Fn (x, y) F0 (y)
y
por tanto 8,8 (x, y) = 84 . En las tablas se obtiene que 8,8;0.05 = 68 , con lo
que estamos en la region de aceptacion y podemos decir que ambos fertlizantes
producen el mismo efecto.
86 CAPITULO 4. TEST JI-CUADRADO
Captulo 5
El modelo lineal
n n
Si la variable respuesta, Y, y las covariables x, son cuantitativas, diremos que
se trata de un modelo de regresion, si las covariables son cualitativas (0 o 1)
el modelo se suele llamar de analisis de la varianza, si en las covariables hay
variables cuantitativas y cualitativas se suele llamar modelo de analisis de la
covarianza.
Estos modelos fueron introducidos por Legendre en 1805 (obtuvo lo que se
llama las ecuaciones normales) estudiados por Gauss (1823) y Fisher (1922) que
introdujo los modelos de analisis de la varianza.
87
88 CAPITULO 5. EL MODELO LINEAL
y X R(X)
implica que
y X R(X)
equivale a
X 0 (y X ) = 0
donde la prima indica traspuesta. De manera que
X 0 X = X 0 y
V ar () = V ar (BY ) = BV ar (Y )B 0
1 1
= 2 (X 0 X) X 0 X (X 0 X)
1
= 2 (X 0 X) .
V ar (0 Y ) = 0 V ar (Y )
= 2 0 ,
V ar (c0 ) = c0 V ar ()c
1
= 2 c0 (X 0 X) c.
Por tanto
1
V ar (0 Y ) V ar (c0 ) = 2 (0 c0 (X 0 X) c)
2 0 0 0 1
= ( X (X X) c)
2 0 1 2
= || X (X X) c|| 0,
90 CAPITULO 5. EL MODELO LINEAL
en efecto
1 1 1
|| X (X 0 X) c||2 = ( X (X 0 X) c)0 ( X (X 0 X) c)
0
1 1
= 0 0 X (X 0 X) c X (X 0 X) c
0
1 1
+ X (X 0 X) c X (X 0 X) c
1 1 1
= 0 20 X (X 0 X) c + c0 (X 0 X) X 0 X (X 0 X) c
0 0 0 1 0 0 1
= 2 X (X X) c + c (X X) c
0 0 0 1 0 0 1
= 2 X (X X) c + X (X X) c
0 0 0 1
= X (X X) c.
1
Observacion 5.1.1 Notemos que habra igualdad si y solo si X (X 0 X) c=
1
0, de manera que 0 Y = c0 (X 0 X) X 0 Y = c0 .
1
con lo que
X X
ei = Yi X = 0.
i
Asimismo
1
X = X (X 0 X) X 0Y = P Y
donde
1
P = X (X 0 X) X0
1
Proposicion 5.1.1 P = X (X 0 X) X 0 es la matriz proyeccion ortogonal sobre
R(X). Es por tanto una matriz, simetrica, idempotente y existira una matriz
ortogonal Q, (n n) tal que
Ip 0
P =Q Q0
0 0
Demostracion.
0
E(Z 0 AZ) = E((Z ) A (Z )) + 0 A
0
= E(traza((Z ) A (Z )) + 0 A,
ahora bien
0
X
traza((Z ) A (Z ) = (Z )1i Aij (Z )j1
i,j
X
= Aij (Z )j1 (Z )1i
i,j
X X
= il Alj (Z )j1 (Z )1i
i,l j
0
= traza(A (Z ) (Z ) ),
92 CAPITULO 5. EL MODELO LINEAL
de manera que
0
E(Z 0 AZ) = E(traza(A (Z ) (Z ) ) + 0 A
0
= traza AE((Z ) (Z ) ) + 0 A
= traza (A) + 0 A.
||Y X ||2
2 :=
np
es un estimador insesgado de 2 .
Demostracion.
E ||Y X ||2 = E(||(In P )Y ||2 )
= E(Y 0 (In P )0 (In P )Y )
= E(Y 0 (In P )Y )
= traza( 2 (In P )In ) + 0 X 0 (In P )X
= 2 (n p)
i) Np (, 2 (X 0 X)1 )
0
ii) ( )0 X2X ( ) Xp2
con
Z = V ()1/2 ( ) Np (0, Ip ).
iii): Si demostramos que y = Y X son independientes ya esta entonces
como la conjunta de y cualquier subconjunto de las i es normal, bastara ver
que la covarianza es cero.
1
Cov(, Y X ) = Cov((X 0 X) X 0 Y, (I P )Y )
1 0
= (X 0 X) X 0 Cov(Y, Y )(I P )
1 0
= 2 (X 0 X) X 0 (I P ) = 0.
iv)
||Y X ||2 Y 0 (I P )Y
2 = =
np np
0
(Y X) (I P )(Y X)
= ,
np
ahora bien
Inp 0
I P =R R0
0 0
con R ortogonal y
1
U := (Y X) Nn (0, In )
por tanto
np
(n p) 2 X
2
= Ui2 Xnp
2
i=1
5.2.2 Prediccion
2
Sabemos que Np (, 2 (X 0 X)1 ) y (np)
2
2
Xnp independiente de . De
esta manera ai queremos dar un intervalo para la media de las observaciones
cuando los regresores son (1, x1 , x2 , .., xp1 ) := x0 bastara tener en cuenta que
y as
x0 x0
2 x0 (X 0 X)1 x
q tnp
(np) 2
(np) 2
esto es
x0 x0
q tnp .
2 x0 (X 0 X)1 x
Esto nos dara intervalos de confianza para x0 :
q
x0 tnp;/2 2 x0 (X 0 X)1 x.
H0 : H = c
H1 : H 6= c.
y que
n2
2
(x) = .
2H
Se acostumbra a escribir
RSS = ||Y X ||2 y RSSH = ||Y X H ||2 (RSS: residual sum of squares),
de manera que
n2
2
(x) =
2H
n2 ! n2
RSS 1
= = RSSH RSS
RSSH 1+ RSS
n2
1
= q (RSSH RSS)/q
1+ np RSS/(np)
Entonces
(RSSH RSS) /q
(x) K C
RSS/ (n p)
De manera que la region crtica del TRV sera
(RSSH RSS) /q
A1 = {x, C},
RSS/ (n p)
resulta que C lo podemos calcular facilmente si fijamos el nivel de significacion
por le siguiente resultado.
Proposicion 5.2.1 Bajo H0
(RSSH RSS) /q
Fq,np ,
RSS/ (n p)
Lema 5.2.1 Si U Xr2 y V Xl2 con r > l y V y U V son independientes,
2
entonces U V Xrl .
Demostracion. Sea U () la funcion generatriz de momentos de U. En-
tonces U () = h()r para una cierta funcion h. Entonces V () = h()l .Por
otro lado, al ser V y U V independientes U () = U V ()V () con lo que
U V () = h()rl .
Demostracion. (De la proposicion). Sabemos que RSS/ 2 Xnp 2
(esto
se cumple bajo la hipotesis general en particular bajo H0 ). Veamos que bajo
H0 , RSSH / 2 Xn(pq)
2
. Basta considerar el caso c = 0, si c 6= 0 podemos
tomar 0 tal que H 0 = c y tomar
Y : = Y X 0 = X( 0 ) +
= X +
96 CAPITULO 5. EL MODELO LINEAL
= ||(In PH )Y ||2
= Y 0 (In PH )Y
= (Y X H )0 (In PH )(Y X H )
0 In(pq) 0
= (Y X H ) L L0 (Y X H ),
0 0
Y X H
con L ortogonal, y como bajo H0 , N (0, In ), resultara que
||Y X b ||2
H 2
2
Xn(pq) .
Por ultimo,
de manera que
b 2
RSSH RSS = ||(In PH )X ||
independiente de RSS (por el teorema de Fisher) de manera que por el lema
anterior RSSH RSS Xq2 y como es independiente de RSS,
(RSSH RSS) /q
Fq,np
RSS/ (n p)
H0 : 1 = 2 = ... = p1 = 0
H1 : no todos los i , i 1 son cero.
Y = 0 +