You are on page 1of 11

TEMA 3

3.1 La distribucion conjunta de dos (o mas) variables.


Veamos las deniciones b asicas, en el caso de dos v.a.s X, Y sobre un mismo espacio de probabilidad (, F, P).
Deniciones:
1) La funci on de distribuci on F
X,Y
: R
2
[0, 1] es la dada por
F
X,Y
(x, y) = P(X x, Y y) .
Las F
X
, F
Y
se llaman entonces sus distribuciones marginales.
Observaciones:
Como el suceso {X x} es la uni on creciente de los {X x, Y y} cuando y , la marginal F
X
coincide con
F
X
(x) = P(X x) = lm
y
P(X x, Y y) = sup
y
F
X,Y
(x, y),
y lo mismo para la F
Y
.
Para v.a.s X
1
, . . . , X
n
, la denici on es la misma: para cada x = (x
1
, . . . , x
n
) R
n
,
F
X
(x) = P(X
i
x
i
para cada i),
donde X = (X
1
, . . . , X
n
) es un vector aleatorio, que es como conviene pensar en el par (X, Y ).
VER (mas abajo) el Ejemplo 1
2) La funci on de masa p
X,Y
es p
X,Y
(x, y) = P(X = x, Y = y), si ambas son discretas; su relacion con la
funci on de distribuci on: si {x
i
}, {y
j
} son las valores de ambas variables,
F
X,Y
(x, y) =

x
i
x, y
j
y
p
X,Y
(x
i
, y
j
).
VER Ejemplos 2 y 3
3) Se dice que el vector (X, Y ) tiene distribuci on continua si hay una f
X,Y
: R
2
[0, ), llamada su
densidad conjunta, tal que
F
X,Y
(x, y) =
__
{Xx, Y y}
f
X,Y
(x, y) dxdy
(el an alogo de la suma del caso anterior).
Observaciones:
Al escribir F
X,Y
(x, y) como una integral iterada vemos que la marginal F
X
es en este caso
F
X
(a) = lm
b
F
X,Y
(a, b) =
_
a

__

f
X,Y
(x, y) dy
_
dx
de modo que X tiene distribuci on continua, con densidad (todo igual para Y , claro)
f
X
(x) =
_

f
X,Y
(x, y) dy.
Si en la integral iterada (o escrita en el otro orden ...
F
X,Y
(x, y) =
_
x

__
y

f
X,Y
(x, y) dy
_
dx
derivamos primero respecto de x, luego de y, resulta ... y derivando en el otro orden)

x
F
X,Y
(x, y) = f
X,Y
(x, y),
que muestra como pasar de la F
X,Y
(x, y) a la f
X,Y
(x, y). VER Ejemplos 4 y 5
Ejemplos:
Ejemplo 1) Sean X, Y el n umero de reyes y n umero de ases que salen al extraer al azar dos de las 410
cartas de una baraja. Hay seis valores posibles del par X, Y , que podemos ver como puntos del plano, sobre
los que se colocan sus respectivas masas de probabilidad, que en % son: Ejercicio: hallarlas.
2 0,77
1 16,4 2,05
Y = 0 63,6 16,4 0,77
X = 0 1 2
En ese caso, F
X,Y
(a, b) = 0 salvo que a, b sean ambos 0, en cuyo caso F
X,Y
(a, b) es la suma de las masas
de los valores cubiertos por el cuadrante {x a, y b}. Comparar Denici on 2).
Ejemplo 2) M as simple que el anterior, pese a haber ahora innitos valores: X, Y independientes, ambas
con distribuci on Geometrica
p
. Por la independencia, p
X,Y
(j, k) = p
X
(j)p
Y
(k) = p
2
q
j+k2
si j, k > 0.
1
Ejemplo 3) Esta vez las v.a.s NO son discretas: X, Y independientes, ambas con distribuci on Exp
1
.
Usando de nuevo la independencia,
F
X,Y
(x, y) = F
X
(x) F
Y
(y) =
_
(1 e
x
)(1 e
y
) si x, y > 0,
0 si no.
Con las observaciones que siguen a la Denici on 3) podemos deducir que su funci on de densidad conjunta
es tambien el producto
f
X,Y
(x, y) =
_
e
x
e
y
si x, y > 0,
0 si no
de las dos densidades marginales f
X
, f
Y
, y vericar que F
X,Y
(x, y) se recupera con la integral iterada
_
x

__
y

f
X,Y
(x, y) dy
_
dx .
Ejemplo 4) Con las X, Y del ejemplo anterior, sean ahora U = mn{X, Y }, V = max{X, Y }.
Queremos F
U,V
(u, v). De las igualdades
{U u, V v} =
_
{X u, Y v} {X v, Y u} si u < v,
{X v, Y v} si u v,
resulta F
U,V
(u, v) =
_
F
X,Y
(u, v) +F
X,Y
(v, u) F
X,Y
(u, u) si u < v,
F
X,Y
(v, v) si u v,
y al derivar f
U,V
(u, v) =
_
2 f
X,Y
(u, v) = 2 e
uv
si 0 < u < v,
0 si no.
La conclusion reeja lo siguiente: como debe ser
_
U = X,
V = Y,
o al reves, el par U, V cae en un punto gordo
del dominio 0 < u < v si y solo si el X, Y cae en la uni on de ese punto y su simetrico respecto de x = y.
Y tambien ilustra el hecho de que la densidad f
X,Y
(x, y) suele ser la forma mas simple de expresar y
manejar la distribuci on conjunta en el caso continuo (como lo es la funci on de masa en el discreto) aunque
la F
X,Y
sea insustituible para hacer argumentos generales, entre otras cosas.
Ejercicio: con la f ormula que sigue a la DEF 3, hallar las marginales f
U
, f
V
.
Ejemplo 5) Queremos hallar la distribuci on marginal de X+Y , para la que no tenemos (a un) una f ormula
preparada. Empezamos por lo tanto con la F
X+Y
: si s > 0
F
X+Y
(s) = P(X +Y s) =
_
s
0
_
sx
0
f
X,Y
dy dx =
_
s
0
e
x
_
sx
0
e
y
dy dx = (1 e
s
) se
s
de donde f
X+Y
(s) =
_
se
s
si s > 0,
0 si no.
Notese que esa es la Gamma con w = 2, = 1.
Comentarios:
Se habr a hallado tras el Ejemplo 4 que U Exp
2
, mientras que f
V
(v) =
_
2(e
v
e
2v
) si s > 0,
0 si no.
Ambas cosas tienen un signicado inteligible:
si recordamos que la Exp
1
era por ejemplo el tiempo hasta que observemos la siguiente estrella
fugaz, podemos pensar en U = mn{X, Y } del modo siguiente: X, Y son los tiempos correspondientes
a dos clases de estrellas (digamos las del este y las del oeste), igualmente abundantes (puesto que
tienen el mismo tiempo medio =1), con lo que U es el tiempo hasta observar alguna de ellas, y como esa
poblaci on es doble, su par ametro = 1/E(U) debe ser doble tambien, porque se dobla la frecuencia;
se puede comprobar que la f
V
hallada coincide con la de la suma de dos v.a.s independientes que
sean Exp con par ametros 1 y 2; la razon es la siguiente: acabamos de ver que U es Exp
2
, y se tiene
obviamente V = U +(V U); pero el segundo sumando es el tiempo que falta a un hasta observar una
de la otra clase (la que no era U), y ya sabemos que la Exponencial no tiene memoria: como ya ha
transcurrido el tiempo U, la distribuci on del tiempo que falta es la misma que al principio: Exp
1
.
El calculo hecho en el Ejemplo 5 va a generalizarse pronto para la densidad de la suma X +Y de v.a.s
continuas independientes. Y tendr a un nombre propio: convoluci on de f
X
con f
Y
.
3.2 El caso de variables independientes.
Se trata ahora de generalizar ideas que hemos visto en los ejemplos anteriores. Revisando los Ejemplos 2 y 3 se
ve que es plausible lo que arma la siguiente
PROPOSICION A:
El que las v.a.s X
1
, . . . , X
n
sean independientes equivale a cada uno de los hechos siguientes:
i) que se tenga, para cada x = (x
i
) R
n
,
_
p
X
(x) =

i
p
X
i
(x
i
) , en el caso discreto
f
X
(x) =

i
f
X
i
(x
i
) , en el caso continuo.
ii) que p
X
(x) en el caso discreto (f
X
(x) en el continuo) sea un producto de funciones de cada variable.
Prueba:
Recordemos que la denici on de independencia pide que se tenga F
X
(x) =

i
F
X
i
(x
i
), es decir pide la
independencia de los sucesos {X
i
x
i
}, i = 1, . . . , n.
i) Ya hemos observado que esa independencia implica la de cualesquiera sucesos relacionados uno con
cada variable, en particular los {X
i
= x
i
}, y eso es lo que dice i) en el caso discreto. La implicaci on
recproca sale en ese caso de la suma que hemos dado (para el caso n = 2) tras la denici on de funci on
conjunta de masa, y que produce F
X
en terminos de p
X
. En el caso continuo, las dos implicaciones se
obtienen con la integral que expresa F
X
en terminos de f
X
y con la derivada cruzada de orden n que
recupera la f
X
.
ii) Pensemos en el caso n = 2. Si f
X,Y
(x, y) = f
1
(x)f
2
(y), podemos suponer ambas 0 puesto que lo es
f
X,Y
, y es inmediato que las marginales son f
i
si ponemos a cada una el factor constante adecuado para
que tenga integral 1. Exactamente la misma idea en el caso discreto y para cualquier n.
El Ejemplo 5 se generaliza de este modo:
PROPOSICION B: La densidad de la suma X +Y de v.a.s continuas independientes es
f
X+Y
(s) =
_

f
X
(x)f
Y
(s x) dx
que se llama la convoluci on f
X
f
Y
.
Observaciones:
El an alogo discreto es la suma (donde el segundo factor de cada sumando puede ser =0)
p
X+Y
(s) =

x
i
X()
p
X
(x
i
)p
Y
(s x
i
)
que ya usamos por ejemplo para la suma de puntos de dos (o mas) dados.
Para n > 2 v.a.s independientes, lo mismo: f
P
X
i
= f
X
1
f
X
n
= f
X
1
(f
X
2
f
X
n
) .
Prueba de B:
Basta derivar la F
X+Y
(s) = P(X +Y s) =
_

_
f
X
(x)
_
sx

f
Y
(y) dy
_
dx .
El punto tecnico es que pasamos la derivada dentro de la integral ; la idea de por que eso es legtimo:
una integral es como una suma, y la derivada de una suma es la suma de las derivadas.
Querramos decir, como otro apartado de la Proposicion A, lo que parece mas intuitivo:
X, Y son independientes si la distribuci on de Y condicionada a X = x es la misma x.
Si son discretas, esto es cierto y es un ejercicio sencillo el ver que equivale a i).
Pero tiene un problema si son continuas: no hemos denido probabilidades condicionadas a un suceso
que tenga P = 0, como es el X = x en ese caso. Si lo miramos por analoga con el caso discreto, se ve cu al
debera ser la armaci on: que la funci on g(y) = f
X,Y
(x, y) sea la misma para cada x, salvo por el factor
_
g(y) dy por el que habra que dividirla para que sea una densidad (y que sera entonces el valor de f
X
(x)).
Como esta armaci on equivale a ii), denimos
f
Y |X
(y|x) = f
X,Y
(x, y)/c(x), con c(x) =
_

f
X,Y
(x, y) dy
y le llamamos (abusando del lenguaje) la densidad de Y condicionada a X = x.
Se puede llegar formalmente a esta denici on tomando el lmite cuando 0 de la densidad condicionada
al suceso x X x +, que tendr a P > 0 si f
X
(x) > 0.
Ejemplos:
En el Ejemplo 4 era f
U,V
(u, v) = 2 e
(v+u)
si 0 < u < v, y como
_

u
e
(vu)
dv =
_

0
e
w
dw = 1, la
densidad de V condicionada a U = u es f
U,V
(u, v)/2e
2u
= e
(vu)
para v > u. Otra forma de decir
lo mismo: si es U = u, la variable W = V U tiene densidad f
W
(w) = e
w
para w > 0, que como se
ve no depende del valor de U; la conclusi on (ya citada antes) es que W, U son independientes.
Pregunta parecida: si conocemos X +Y = s en el Ejemplo 3, cual sera la densidad (condicionada) de
X? Si hemos entendido lo anterior, la tentacion es razonar as: como f
X,Y
(x, y) = e
s
(constante) sobre
el segmento x [0, s] de la recta X + Y = s, y f
X,Y
(x, y) = 0 fuera de el, la densidad condicionada
de X es la Uniforme[0, s]. La respuesta es correcta por milagro: para contestarla habra que haber
hallado primero la distribuci on conjunta de X, X +Y , y entonces su restriccion a la recta X +Y = s.
Si ha salido bien es, como veremos, gracias a que el cambio de variables (X, Y ) (X, X+Y ) es lineal.
3.3 Esperanza y varianza en el caso multivariante.
El concepto de valor esperado se extiende sin mas al caso de un vector aleatorio: si X = (X
1
, . . . , X
n
), la misma
denici on que en el caso n = 1 da el vector E(X) de coordenadas E(X
i
).
Y para la varianza?
La apuesta mas ingenua sera el vector de coordenadas var(X
i
). Una mas astuta, la E(|X E(X)|
2
), donde | | es
ahora el modulo de ese vector de desviaciones. Veremos que la extension genuina es otra.
Denicion: Para dos v.a.s X, Y , denimos su covarianza como
cov(X, Y ) = E(X
0
Y
0
), donde
_
X
0
= X E(X)
Y
0
= Y E(Y )
son las versiones centradas de X, Y .
Observacion:
Por lo tanto, var(X) = cov(X, X), y la igualdad var(X) = E(X
2
) E(X)
2
es un caso particular de:
cov(X, Y ) = E(XY ) E(X)E(Y )
Ejercicio: comprobarlo.
con lo que en particular cov(X, Y ) = 0 si X, Y son independientes.
Pero no al reves !! (como vimos en el Ejercicio 2, Hoja 3).
Ejemplo 7) Siendo X, Y, U, V como en el Ejemplo 4) de 3.1, busquemos la cov(X, V ).
Ya sabemos que E(X) = 1, E(V ) = 3/2, porque X, Y Exp
1
, U Exp
2
y porque se tiene evidentemente
X +Y = U +V . Para hallar E(XV ) podemos usar la
f
X,Y
(x, y) =
_
e
xy
si x, y > 0,
0 si no,
, teniendo en cuenta que V =
_
X si Y X,
Y si V > X.
E(XV ) =
_

0
xe
x
__
x
0
xe
y
dy +
_

x
ye
y
dy
_
dx =
_

0
xe
x
_
x +e
x
_
dx = 2 +
1
4
=
9
4
de donde cov(X, V ) = 9/4 1 3/2 = 3/4. Un calculo identico dara la cov(X, U), pero no hace falta:
podemos usar el hecho de que para cualesquiera v.a.s X, Y, Z se tiene
cov(X, Y +cZ) = cov(X, Y ) +c cov(X, Z) Ejercicio: probarlo.
es decir, que cov(X, Y ) es lineal en Y si jamos X, y razonar as:
X +Y = U +V cov(X, U) = cov(X, X) + cov(X, Y ) cov(X, V ) = 1 + 0
3
4
=
1
4
donde se ha usado que cov(X, X) = var(X) = 1 y que cov(X, Y ) = 0 porque X, Y son independientes.
Denicion:
La matriz de varianzas-covarianzas del vector aleatorio X = (X
1
, . . . , X
n
) es la de entradas
c
ij
= cov(X
i
, X
j
).
Esta es la version n-dimensional de la varianza, que incluye en su diagonal las var(X
i
).
Para entender su signicado, vamos primero a visitar algunas ideas de analisis de datos.
3.4 Una ojeada a la historia del Calculo de Probabilidades y la Estadstica.
Algunos nombres y fechas: Ver http://www-history.mcs.st-and.ac.uk/
Pierre de Fermat, 1601 ! 65
Blaise Pascal, 1623 ! 62
Christiaan Huygens, 1629 ! 95
Isaac Newton, 1642 ! 1727
Jacob Bernoulli, 1654 ! 1705
Abraham de Moivre, 1667 ! 1754
Pierre!Simon Laplace, 1749 ! 1827
Adrien!Marie Legendre, 1752 ! 1833
Carl Friedrich Gauss, 1777 ! 1855
Francis Galton, 1822 ! 1911
Karl Pearson, 1857 ! 1936
Emile Borel, 1871 ! 1956
Andrey Nikolaevich Kolmogorov, 1903 ! 87
Software estadistico, desde el fin de los 1960
En el libro de Freedman hay muchas referencias a la historia:
En el Cap. 14 se explica la correspondencia entre Fermat y Pascal, en los 1650s, sobre la llamada
Paradoja del Chevalier de Mere: por que resulta ser
mas probable sacar al menos un en 4 tiradas de un dado
que sacar al menos un en 24 tiradas de dos dados.
La idea (demasiado) ingenua es que nos quedamos igual si tenemos 6 veces m as oportunidades de
conseguir una cosa 6 veces menos probable.
1
Pero las probabilidades de ambas cosas (con dados
equilibrados) son:
1 (5/6)
4
= 51.8 % , 1 (35/36)
24
= 49.1 % .
El intercambio de ideas entre Fermat y Pascal como consecuencia de ese problema es uno de los
momentos fundacionales del Calculo de Probabilidades.
A partir de los datos:
Hemos introducido los modelos de probabilidad como descripciones del comportamiento a largo plazo de
los resultados de un experimento. Para eso hemos tenido que seleccionar ejemplos particularmente simples,
con descripcion sencilla que se pueda dar por sentada a priori, como en los dados del problema anterior.
Pero la pregunta interesante es la contraria: dados los resultados de alg un experimento,
a) como resumirlos|visualizarlos,
b) como asignarles un modelo de probabilidad y los par ametros del mismo.
El libro de Freedman comienza con este punto de vista, dando ejemplos de datos y un ejemplo de a):
como la misma idea de nuestras funciones de densidad permite ver una gran cantidad de datos como un
histograma: representando cada 1 % de los datos como una unidad de area bajo una gr aca
2
.
Con esta representacion aparece de nuevo la idea del centro de gravedad de los datos: el valor medio
x =
1
N
N

1
x
i
Un ejemplo hist orico de b) se encuentra en el Ars Conjectandi de Jacob Bernoulli (publicado en 1713, a nos
despues de su muerte). La pregunta que plantea Bernoulli es (en traducci on simplicada) la siguiente:
supongamos una urna con un total de n bolas R y B, por ejemplo en proporci on 3:2 (desconocida para
nosotros); todos saben dice Bernoulli que si se extraen bolas con reemplazamiento, la proporci on de R
extradas tender a a la larga a la proporci on p de R en la urna
3
; pero cuantas extracciones har an falta para
tener casi seguridad (digamos, con un 0.1 % de incertidumbre) de cu al es la proporci on en la urna?
Este intento de cuanticar la ley de los grandes n umeros inaugura lo que mucho despues se ha llamado
estimaci on parametrica; la pregunta de Bernoulli coincide esencialmente con la siguiente:
Si X Binomial
N,p
, desde que valor de N se tendr a, para un , dados,
P(|X/N p| < ) > 1 .
Bernoulli consigue responderla con valores de N que resultan desalentadoramente grandes; en retrospec-
tiva podemos ver que su demanda de certeza era excesiva para casi todos los casos pr acticos, y responda
mas bien a la necesidad de transmitir la idea de que podemos conseguir a la larga certeza total.
Nace la Normal:
Poco tiempo despues, Abraham de Moivre retoma el problema y prueba que para N grande, la Normal
de media = Np y varianza
2
= Npq aproxima la Binomial
N,p
; es decir si X tiene esa distribuci on, e Y
es Normal con igual media y varianza,
P(a < X < b ) P(a < Y < b )
para cada a, b R, y la aproximacion tiende a la igualdad cuando N (pero es ya excelente con N no
muy grandes). Esto da un metodo general para responder toda clase de preguntas como la de Bernoulli,
que de Moivre explica en su libro The Doctrine of Chances, 1738.
Supongamos por ejemplo = 1/100, =0.1 % .
La Tabla de la Normal estandar Z nos dice que 1 < P(|Z| < 3.3) .
Esa sera aproximadamente para nuestra X la P(|X Np| < 3.3 ), y queremos que sea
1 < P( |X Np| < N) ,
es decir, basta con que se tenga 3.3
_
Np(1 p) N.
Sustituyendo los valores de = 1/100 y de p = 3/5 se llega a N 26136.
1
La versi on correcta de esa intuici on es que el n umero esperado de exitos coincide: 2/3 en ambos casos.
2
Se han visto ejemplos de histogramas en el Laboratorio.
3
Eso es lo que llamamos ahora la ley de los grandes n umeros.
Mnimos cuadrados:
Hay una relacion profunda y no evidente entre la media y la varianza que hemos denido para v.a.s.:
la funci on q(a) = E(|X a|
2
) tiene derivada q

(a) = 2 E(X a) = 2(a E(X) ),


luego su valor mnimo es q(E(X)) = var(X).
La idea es la misma que aparece por ejemplo en escritos de Huygens
4
sobre la Mecanica de un solido:
respecto de ejes de direccion jada, el momento de inercia es mnimo si el eje pasa por el c.d.g. del solido.
Y podemos enunciarla en sentido contrario:
denir el valor central de unos datos como el a que minimiza la suma de cuadrados S(a) =
N

i=1
(x
i
a)
2
.
Como antes, basta derivar respecto de a para ver que el mnimo se alcanza en a = x.
Eso hace que las dos ideas se apoyen mutuamente: supongamos que los x
i
son medidas con errores de
una cantidad desconocida x; podemos escribir
x
i
= a +
i
, donde a es nuestra apuesta sobre su valor exacto,
i
los errores;
la relacion citada invita a usar a = x como la mejor apuesta posible, y la media cuadr atica S( x)/N como
una estimacion del tama no de los
2
i
.
Legendre presenta esta idea en un escrito
5
de 1805 como apoyo a la de usar mnimos cuadrados para
resolver SEL sobredeterminados (con mas ecuaciones que inc ognitas). Tales sistemas de ecuaciones aparecen
de modo natural al repetir, para obtener mayor precision, las medidas que deben llevar al calculo de ciertas
cantidades, ya que esas medidas vienen acompa nadas de sus inevitables errores aleatorios.
Medidas con errores y maxima verosimilitud:
El tema del escrito de Legendre ilustra una de las razones de la importancia hist orica de este asunto:
medidas astron omicas reiteradas
6
, o medidas topogr acas, que se intensicaron en los siglos XVII-XVIII.
Gauss, que haba trabajado intensamente en ambos tipos de medidas
7
, argumenta de esta forma en 1809
para defender x como la mejor apuesta para el verdadero valor que tratamos de medir:
supongamos para esos errores de medida, como es razonable, una densidad (x) simetrica respecto de 0;
viendo los errores como funciones
i
= x
i
a de nuestra apuesta a sobre el valor exacto, lo natural es
tomar el valor de a que haga maxima la probabilidad de haber cometido esos errores.
Esta idea se convertir a mas tarde en un metodo estadstico bajo el nombre de m axima verosimilitud.
Claro que esa probabilidad es 0 en este caso para todo a, puesto que suponemos una distribuci on continua
de los errores, pero la condici on equivalente es que sea maximo el producto
P(a) =

i
(x
i
a)
Supongamos por un momento que la densidad sea una Normal: (x) = c e
hx
2
, que ya en el siglo XVIII
se haba usado por varios autores, entre ellos Gauss, como modelo para los errores. Tomando el log P(a)
es f acil ver que en ese caso
d
da
P(a) = 0
d
da

i
(x
i
a)
2
= 0 a = x .
Pero Gauss da la vuelta al argumento: solo la densidad Normal puede dar ese resultado para cada
conjunto de valores x
i
, porque si llamamos L(x) = (log (x))

, la implicaci on

i
L(x
i
a) = 0 a = x
solo sera cierta si L es lineal: L(x) = bx , con lo que log (x) = b
0
+bx
2
/2, y es una Normal simetrica.
De este modo Gauss completa el argumento moral y estetico de Legendre en favor de x y los mnimos
cuadrados, aclarando ademas la relacion privilegiada de estos con la densidad Normal.
Pero falta a un ver por que los errores de medida deben someterse a la belleza de este argumento . . .
El CLT:
En los a nos siguientes, Laplace prueba el teorema que extiende lo hecho por de Moivre, explica as el papel
singular de la Normal y permite entender que los errores de medida, y muchas otras obras del azar, se
ajusten a ella. Es el llamado Teorema Central del Lmite, que se ir a perfeccionando y entendiendo mejor a
lo largo del siglo y medio siguiente y del que veremos una version en el Tema 4 del programa.
4
Que tambien escribe un libro clave sobre Calculo de Probabilidades: De ratiociniis in Ludo Aleae, 1657.
5
Nouvelles methodes pour la determination des orbites des com`etes.
6
Que ademas eran indispensables para la navegaci on hasta que alguien consiguio construir relojes que conservasen la hora largo
tiempo en las condiciones de un barco (John Harrison, hacia 1720-60).
7
Me atrevo a recomendar una muy notable novela historica sobre Gauss, Alexander von Humboldt y las actividades de ambos
en ese campo: Daniel Kehlmann, Die Vermessung der Welt, 2005 (La Medicion Del Mundo, 2006).
3.5 La funcion generatriz y sus amigas. Las cuatro cosas que he contado sobre la
funcion generatriz de momentos M
X
(t) = E(e
tX
)
y sobre la funcion caracterstica
X
(t) = E(e
itX
)
pueden leerse (con alg un detalle tecnico mas) en las pgs. 111-120 (Cap. 7) del G-W.
3.6 Correlaci on.
Recordemos que era un producto escalar en un espacio vectorial E: una funci on
E E R
(u, v) u, v
que es
bilineal (lineal en v para u jado, y al reves),
simetrica: u, v = v, u,
denida positiva: para cada u, u, u 0 y ademas u, u = 0 u = 0.
Consecuencia de esos axiomas es la
Desigualdad de Cauchy-Schwarz: u, v
2
u, uv, v .
Prueba: Llamemos
8
|u|
2
= u, u; supongamos que es |u| |v| > 0, porque si uno de los vectores es 0, no hay
nada que probar. Entonces
0

u
|u|

v
|v|

2
= 1 2
u, v
|u| |v|
+ 1
u, v
|u| |v|
1, es decir, u, v |u| |v| .

En el caso del producto escalar ordinario, la fracci on u, v/(|u||v|) es el coseno del angulo que forman los
dos vectores; pero de la Prueba se desprende que, tambien en el caso general, esta desigualdad es estricta
salvo que u/|u|, v/|v| sean iguales u opuestos, es decir, salvo que u, v sean proporcionales.
La covarianza es un producto escalar:
Ya sabamos que es bilineal, simetrica y que cov(X, X) = var(X) 0.
S olo queda por lo tanto aclarar en que espacio vectorial estamos pensando para que sea denida positiva
como corresponde a un producto escalar, puesto que var(X) = 0 solo implica que se tenga X = E(X) c.s.
(usamos el adverbio casi-seguramente, abreviado c.s. para decir que algo tiene P = 1).
La respuesta se puede dar de dos formas, a partir del espacio vectorial formado por todas las v.a. X : R;
de manera formal, tomando el cociente por el subespacio de las casi-seguramente constantes;
o de manera menos formal pero mas intuitiva, y equivalente a la anterior: tomando el subespacio de
las que tienen E = 0, las centradas, y manteniendo para la discusi on que sigue (y un poco tambien
en general) la idea de que var(X) y cov(X, Y ) pertenecen realmente a sus centradas, de las cuales las
demas v.a.s son trasladadas, y de las que toman prestados esos par ametros.
Una vez dicho esto, la prueba de la desigualdad de C-S se puede repetir exactamente, recordando que
hemos llamado
2
X
= var(X) y dando el nombre coeciente de correlacion
X,Y
al cociente
1
X,Y
=
cov(X, Y )

X

Y
1 .
Y la consecuencia de la prueba tambien se aplica, pero sin olvidar que hablamos de las centradas:

X,Y
= 1 si y s olo si Y EY es proporcional a X EX.
En cambio, las llamaremos incorreladas si
X,Y
= 0, es decir si cov(X, Y ) = 0 (que sera cierto en particular
si son independientes). Por lo tanto podemos metaforicamente decir que
X,Y
es el coseno del angulo
que forma Y EY con X EX. Los siguientes ejemplos mostrar an lo cerca que esta esa metafora de ser
una verdad precisa.
Ejemplos: De acuerdo con la idea expuesta antes, tomemos en ellos solo v.a.s centradas.
Sean X, R independientes, X Uniforme(1, 1), R Uniforme(r, r) y sea Y = aX +R. Es f acil ver
que (X, Y ) es Uniforme en el paralelogramo |x| < 1, |y ax| < r, que ax = E(Y |X = x) y que
var(X) = E(X
2
) = 1/3
var(R) = r
2
var(X),
var(Y ) = (a
2
+r
2
)var(X),
cov(X, Y ) = E(XY ) = aE(X
2
) +E(XR) = a var(X), con lo que

X,Y
=
a

a
2
+r
2
que tiende a 1 (seg un el signo de a) si hacemos r 0, es decir si apagamos el ruido R = Y aX.
Todo es esencialmente igual si en el ejemplo anterior tomamos X Normal(0,
2
), R Normal (0, r
2
):

X,Y
= a/(
_
(a)
2
+r
2
).
8
Aunque esta notacion pertenece realmente al producto escalar ordinario, conviene usarla para ver mejor que la idea es la misma
en el caso general.
3.7 Elogio de las matrices.
Podemos incluir el ejemplo anterior en toda una familia de ellos. Tomemos como sistema de coordenadas un par
Z = (Z
1
, Z
2
) de v.a.s Normales(0, 1) e independientes. Dicho de otro modo, que tienen densidad conjunta
f
Z
(z
1
, z
2
) =
1

2
e
z
2
1
/2
1

2
e
z
2
2
/2
=
1
2
e
|z|
2
/2
.
Varianzas-covarianzas:
Si X, Y son dos combinaciones lineales de las Z
i
:
X = u
1
Z
1
+u
2
Z
2
, Y = v
1
Z
1
+v
2
Z
2
, o escrito matricialmente: Y = (Z
1
, Z
2
)
_
v
1
v
2
_
y lo mismo para X, el hecho de que la cov(X, Y ) es bilineal permite escribir
cov(X, Y ) = (u
1
, u
2
)
_
V ar
Z
_
_
v
1
v
2
_
donde V ar
Z
es la matriz de varianzas-covarianzas de Z (que por lo dicho sobre las Z
i
, es la matriz unidad).
Pero por el mismo precio podemos calcular de un golpe toda la matriz de varianzas-covarianzas de X, Y :
V ar
X,Y
=
_
u
1
u
2
v
1
v
2
_
_
V ar
Z
_
_
u
1
v
1
u
2
v
2
_
= L L
T
donde L
T
es la traspuesta de L, la matriz que expresa el vector (X, Y ) como funci on lineal del Z.
En el ejemplo anterior,
L =
_

a s
_
, V ar
X,Y
= L L
T
=
_

2
a
2
a
2
(a)
2
+s
2
_
.
Y mejor que eso, podemos ver como depende en general esa matriz de los vectores u, v de coecientes:
V ar
X,Y
= L L
T
=
_
|u|
2
u v
u v |v|
2
_
,
donde vemos que
X,Y
es, en este caso literalmente, el cos del angulo formado por u, v. Ahora es inmediato
contestar preguntas como:
Que matrices L dar an
X
=1=
Y
? Respuesta: L =
_
cos sen
cos sen
_
, y entonces
X,Y
= cos().
Que matrices L dar an
X,Y
= 0 es decir, X, Y incorreladas? Respuesta: Las que tengan u v.
Que matrices L dar an
X,Y
= 1? Respuesta: Las que tengan u, v proporcionales.
Pero es razonable excluir este caso, porque entonces no estamos produciendo dos v.a.s, sino esen-
cialmente dos copias de una misma X. En consecuencia, suponemos desde ahora que L es regular; y
podemos tambien suponer que tiene det(L) > 0, porque al permutar las columnas de L producimos
exactamente el mismo par X, Y , ya que Z
1
, Z
2
son identicas.
Hay una pregunta que no se responde con esto, la de si X, Y seran independientes (no tienen por
que serlo) en el caso de ser incorreladas. Para eso hay que mirar su densidad conjunta.
3.8 La densidad bi-Normal.
Pensemos en cualquier trozo D del plano z = (z
1
, z
2
) y en su imagen por la biyeccion lineal (x, y) = L(z).
El suceso A =z D es identico al L(z) L(D), luego P(A) puede calcularse integrando en un plano o en el
otro:
P(A) =
__
D
f
Z
(z) dz
1
dz
2
=
__
L(D)
f
X,Y
(x, y) dxdy =
__
D
f
X,Y
(L(z)) J(z) dz
1
dz
2
donde la ultima igualdad es la f ormula de cambio de variables en la integral doble y J(z) es el factor local de
correccion de areas, el jacobiano de la biyeccion en cada punto. Pero en nuestro caso ese factor es la constante
det(L), luego f
X,Y
(L(z)) debe coincidir con f
Z
(z) salvo factor constante. Recordando que
f
Z
(z) =
1
2
e
|z|
2
/2
, resulta f
X,Y
(L(z)) = cte e
|z|
2
/2
, es decir f
X,Y
(x, y) = cte e
q(x,y)/2
,
donde q(x, y) es la forma cuadr atica |L
1
(x, y)|
2
= (x, y)
_
Q
_
_
x
y
_
, con Q = (L
1
)
T
L
1
= (LL
T
)
1
.
Esto es lo que denominamos una Normal Bivariante. Veamos de nuevo . . .
Ejemplos:
El primero, para responder la pregunta lanzada hace poco: X, Y eran incorreladas si u v. Pero eso
equivale a que LL
T
sea diagonal y a que lo sea su inversa Q, con lo que en ese caso q(x, y) = ax
2
+by
2
,
y efectivamente f
X,Y
(x, y) es producto de una funci on de x y otra de y, ambas densidades Normales!
De la igualdad f
X,Y
(L(z)) = cte f
Z
(z) se desprende tambien que L aplica las curvas de nivel de F
Z
(crculos) sobre las de f
X,Y
, que en consecuencia son elipses; en el caso que acabamos de ver, esas
elipses tienen como ejes los de coordenadas x, y.
En el otro caso sencillo visto antes, cuando
X
=
Y
= 1, la matriz LL
T
, y en consecuencia tambien
su inversa Q, tiene iguales las dos entradas de su diagonal y eso permite escribir q(x, y) en la forma
a(x +y)
2
+b(x y)
2
; es decir, X Y son Normales independientes y sus elipses tiene como ejes las
diagonales del plano x, y.
Ver en relacion con este caso el Ejemplo A) de la Hoja 4.

Este es el caso que aparece en el Grimmett-Welsh como la Normal Bivariante Estandar. Lo es en


el sentido siguiente:
cada Normal Bivariante se puede reducir a esta con el cambio de escala X/
X
, Y/
Y
.
A la conclusi on de que X, Y son Normales podemos llegar de modo general: cada Z
i
tiene la misma
funci on caracterstica (t) = E(e
itZ
i
) = exp(t
2
/2), luego cada X = c
1
Z
1
+c
2
Z
2
tiene

X
(t) = E(e
it(c
1
Z
1
+c
2
Z
2
)
) = E(e
itc
1
Z
1
)E(e
itc
2
Z
2
) = (c
1
t)(c
2
t) = exp(|c|
2
t
2
/2)
que es la de una Normal con varianza |c|
2
. Esto es otra peculiaridad de las Normales.
Notese que hemos probado que las X, Y de una Normal Bivariante son independientes si estan inco-
rreladas, pero NO hemos probado que eso sea cierto en general para dos Normales.
Contraejemplo: si llamamos (z) a la densidad de la Z Normal(0,1), hay una abscisa a > 0 tal que
_
a
a
z
2
(z) dz =
1
2
=
1
2
var(Z)
y si denimos W =
_
Z si |Z| < a
Z si no,
es f acil ver que E(WZ) = 0 y que W es Normal(0,1).
3.9 La inuencia mutua de las variables en una Normal Bivariante.
Una pregunta natural al describir y analizar datos de dos cantidades es la de como depende una de la otra.
En el lenguaje de su distribuci on conjunta, eso se traduce en esta pregunta:
cu al es, para cada x R, la distribuci on de Y condicionada a X = x ?
Ejemplo: Supongamos que nuestras X, Y (una vez centradas) tienen la distribuci on dada por
[1]
_
X =
X
Z
1
Y = aX +sZ
2
es decir,
_
X
Y
_
=
_

X
a
X
s
__
Z
1
Z
2
_
,
un ejemplo que ya hemos visto antes; como Z
2
es independiente de Z
1
y por lo tanto tambien del valor de
X, la distribuci on de Y condicionada a X = x es la de ax +sZ
2
, es decir Normal(, r
2
) con = ax.
Ya sabemos que la distribuci on de Y es la Normal(0,
2
Y
) con

2
Y
= (a
X
)
2
+s
2
.
Estos dos sumandos parten la dispersion total de Y en la heredada de X + la independiente de ella.
Observemos lo que hace esa funci on lineal con las curvas de nivel de la densidad de (Z
1
, Z
2
); en la gura
vemos el cuadrado unidad, el trozo de crculo tangente a el, y la imagen de ambos.
s
(!
X
, a!
X
)
_

X
a
X
s
_
=
En particular vemos que las elipses de nivel de f
X,Y
tienen tangente vertical precisamente en los puntos
de la recta y = ax, donde se sit uan las E(Y |X = x) para cada x.
Los pares de Normales dadas por las f ormulas [1] son en realidad todas las Normales Bivariantes, porque:
la matriz G de un giro produce, como hemos visto, dos variables con distribuci on conjunta identica a
la de Z = (Z
1
, Z
2
), y
cada matriz L con det(L) > 0 es el producto de un giro y una matriz como la de [1]:
_
X
Y
_
=
_
L
_
_
Z
1
Z
2
_
=
_

X
a
X
s
_
_
G
_
_
Z
1
Z
2
_
(basta que giro inverso G
T
lleve la segunda columna de L al eje vertical), de modo que las X, Y producidas
por L tienen la misma distribuci on que en [1].
Falta ahora contestar la siguiente pregunta natural: que distribucion tiene X condicionada a Y = y?
La tentacion natural es decir:
X = (Y sZ
2
)/a, luego la distribuci on de X|Y = y es Normal(y/a, (s/a)
2
).
FALSO, porque Z
2
NO es independiente de Y !!
De modo que necesitamos (si es posible) escribir X como cY +W donde W sea independiente de Y .
Para ver que eso puede hacerse, sin que demasiadas letras nos nublen la imagen, supongamos que estamos
en el caso
X
= 1 =
Y
que hemos llamado Normal Bivariante Estandar (lo que se consigue, como
vimos, con un simple cambio de unidades en cada variable). Eso equivale a que nuestra matriz sea
_
1
a s
_
con a
2
+s
2
= 1. Sabemos que en ese caso W debe ser un m ultiplo de sZ
1
aZ
2
para ser independiente de
Y = aZ
1
+sZ
2
. La tarea es pues escribir X = Z
1
como c
1
Y +c
2
(sZ
1
aZ
2
) y la solucion resulta ser
X = aY +s
2
Z
1
saZ
2
.
Todo es ahora simetrico: la W = s
2
Z
1
saZ
2
tiene tambien varianza s
2
, y la varianza de X se parte en los dos
sumandos a
2
var(Y ) + var(W) = a
2
+ s
2
= 1, como ocurra con la de Y . Ademas, el coeciente de dependencia
mutua resulta coincidir con

X,Y
= cov(X, Y ) = cov(Z
1
, aZ
1
+sZ
2
) = a .

Esa es la pendiente de la recta y = ax donde se sit uan los valores medios E(Y |X = x), pero tambien, simetrica-
mente, la de la recta x = ay donde se se sit uan los E(X|Y = y). En los puntos de esta otra recta es donde las
elipses tienen tangente horizontal (recordemos que sus ejes son las diagonales del plano en este caso estandar);
ambas rectas coinciden si y solo si es
X,Y
= 1 (lo que NO puede ocurrir si la matriz L es regular), mientras
que coinciden con los ejes si y solo si
X,Y
= 0.
3.10 Las dos lineas de las medias: regresi on.
Recordemos que propiedad caracterizaba al valor medio E(X) de una v.a. X: es la constante c que hace mas
peque na la E(|X c|
2
) = var(X) + (c E(X))
2
.
Dada ahora la distribuci on conjunta de dos v.a.s X, Y , podemos plantearnos en los mismos terminos la pregunta
de que recta y = ax +b describe mejor la forma en que Y depende de X, del modo siguiente:
Hallar los valores a, b que hacen mnima la E(|Y (aX +b)|
2
).
La respuesta es f acil de dar, porque p(a, b) = E(|Y (aX +b)|
2
) es un polinomio de grado 2. Pero quiz a la forma
mas clara de llegar a ella es la siguiente:
En primer lugar, debe anularse la
p(a, b)
b
= 2 E(Y (aX +b)) = 2( E(Y ) (a E(X) +b) ),
es decir, el punto (E(X), E(Y )) debe estar en la recta buscada: E(Y ) = a E(X) +b.
Si suponemos ahora que las variables estan centradas (es decir, que hemos tomado ese punto de las medias
como origen), sera b = 0 y la recta y = ax que buscamos debe cumplir
0 =
p(a, b)
a
= 2 E(X(Y aX)) , 0 = E(XY ) a E(X
2
) = cov(XY ) a var(X),
es decir,
a =
cov(XY )
var(X)
=
X,Y

X
.
La recta buscada, a la que llamamos la recta de regresi on de Y sobre X, es por lo tanto
y E(Y )

Y
=
X,Y
x E(X)

X
.
Ejercicio: comprobar que el mnimo de E(|Y (aX +b)|
2
) que se consigue as es (1
2
X,Y
)
2
Y
.
Observaciones clave:

Esta es exactamente, en el caso de una Normal Bivariante, la recta de las medias y = E(Y |X = x).
Exactamente igual que en aquel caso, podemos intercambiar los papeles de las variables: la recta que se
obtiene entonces es

X,Y
y E(Y )

Y
=
x E(X)

X
,
la simetrica de la anterior en el plano de las variables tipicadas (centradas y divididas por su desviacion).
Todo lo que acabamos de hacer vale exactamente igual en el caso de unos datos x
i
, y
i
, i = 1, . . . , N si
ponemos en lugar de las E(X), E(Y ), var(X), cov(X, Y ), . . . las medias y varianzas muestrales:
x =
1
N
N

i=1
x
i
, y =
1
N
N

i=1
y
i
, S
2
x
=
1
N
N

i=1
(x
i
x)
2
,
1
N
N

i=1
(x
i
x)(y
i
y), . . .
Para ver por que es as, basta con repetir el argumento con estas deniciones, o mas f acil a un: estas
deniciones coinciden con las anteriores si usamos como distribuci on conjunta de X, Y la uniforme sobre
los N puntos (x
i
, y
i
): probabilidad 1/N en cada uno.
El siguiente gr aco ilustra varias de las ideas expuestas en las p aginas previas.
!
X
=1=!
Y
">0
!
X
!
Y
!
X
=1=!
Y
"<0

1
s

simple cambio de escala

2
+ s
2
= 1 en ambos casos

1
s

1
Arriba a la izquierda vemos el cuadrado unidad de R
2
acompa nado del crculo unidad, una de las curvas de nivel
de la densidad Normal canonica, correspondiente al vector Z que se usa en 3.7 a 3.9.
Las dos echas que salen de all representan dos funciones lineales que producen Normales Bivariantes Estandar
(ver 3.9), y en las guras a las que se dirigen vemos, junto con los par ametros de cada Bi-normal, las imagenes del
crculo y cuadrado unidad, as como las dos rectas de regresion y la que Freedman llama la SD-line (en linea de
puntos), la linea de pendiente
Y
/
X
por el punto de las medias, que es aqu el origen; esta es al mismo tiempo
la bisectriz de los ejes (por ser
X
=
Y
) y es uno de los ejes de la elipse, y de cada una de las elipses dilatadas
de esa, que son las curvas de nivel de la densidad conjunta.
La echa restante, que corresponde a un cambio de escala en cada variable (una funci on lineal con matriz diagonal)
permite ver que cambia y que sigue igual bajo ese cambio: las rectas de regresion son las imagenes de las de arriba,
y siguen siendo los puntos donde las curvas de nivel tienen tangente vertical u horizontal; pero las simetras se
han roto: ni son simetricas las dos rectas de regresion, ni la SD-line (que es la imagen de su predecesora) coincide
con la bisectriz de los ejes de coordenadas ni con un eje de las elipses.
Recordemos tambien que si tenemos una distribuci on de datos con esos mismos par ametros, sus rectas de regresion
seguir an siendo las que vemos en estas guras, porque el argumento que lleva a la solucion del problema de mnimos
cuadrados (ver 3.10) no depende en modo alguno de que la distribuci on sea Normal.

You might also like