Professional Documents
Culture Documents
para Ingenieros
Versin 1.0, julio de 2010
Apuntes de
Estadstica para Ingenieros
Prof. Dr. Antonio Jos Sez Castillo
Departamento de Estadstica e Investigacin Operativa
Universidad de Jaen
Versin 1.0
Julio de 2010
ndice general
1. Introduccin
11
11
12
12
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
12
13
13
13
14
14
14
14
15
Estadstica descriptiva
17
19
2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
19
20
22
25
25
2.5.1.1. Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
2.5.1.2. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
26
2.5.2. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
II
27
28
29
30
30
33
33
33
34
35
Clculo de Probabilidades
39
3. Probabilidad
41
3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
42
42
42
43
45
46
47
48
48
53
57
58
59
61
4.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
62
4.2.1. Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
62
63
63
64
65
67
70
71
72
4.4.1. Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
4.4.2. Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
75
75
77
78
81
81
82
84
85
91
92
93
94
95
5.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
97
97
98
123
125
129
145
171
183
. . . . . . . . . . . . . . . 188
IV
Procesos aleatorios
11.Procesos aleatorios
201
203
Prlogo
El objeto fundamental de la edicin de este documento es facilitar a los alumnos de ingeniera de las escuelas
politcnicas superiores de Jan y Linares el desarrollo de los contenidos tericos de la asignatura Estadstica.
Desde un punto de vista menos local, espero que sea til, en alguna medida, a todo aquel que necesite
conocimientos bsicos de las tcnicas estadsticas ms usuales en el ambiente cientco-tecnolgico.
A todos ellos, alumnos y lectores en general, quiero facilitarles el privilegio de aprender de quienes yo he
aprendido, sugirindoles tres manuales que para m han sido referencias fundamentales. Se trata, en primer
lugar, del magnco libro de Sheldon M. Ross, Introduccin a la Estadstica. En l puede encontrarse la mayor
parte de lo que vamos a estudiar aqu, explicado de forma sencilla y clara, pero tambin comentarios histricos,
reseas bibliogrcas sobre matemticos y estadsticos relevantes y ejemplos muy apropiados. En segundo
lugar, recomiendo el trabajo de William Navidi, Estadstica para ingenieros y cientcos, sobre todo por la
actualidad de muchos de sus ejemplos y por cmo enfatiza el carcter aplicado, prctico, de la Estadstica
en el mbito de la Ciencia y la Tecnologa. Finalmente, debo mencionar tambin el libro de Mendenhal &
Sincich, Probabilidad y Estadstica para Ingeniera y Ciencias, que incluye, como el manual de Navidi, unos
ejemplos y ejercicios propuestos magncos.
En el actual contexto del Espacio Europeo de Educacin Superior, la asignatura Estadstica tiene, en la mayor
parte de los grados en ingeniera, un carcter bsico y una dotacin de 6 crditos ECTS. As ocurre, por
ejemplo, en las ramas de industriales, informtica o telecomunicaciones que se imparten en la Universidad de
Jan. Otras ramas, como la de ingeniera civil/minera, han optado por incluirla como asignatura obligatoria,
compartida con una asignatura de ampliacin de matemticas en la que se proponen 3 crditos ECTS de
estadstica. Con todo, creo que estos apuntes pueden adaptarse a esos distintos contextos, aclarando qu
temas pueden ser ms adecuados para cada titulacin. En concreto:
1. Para las distintas especialidades de la rama de industriales seran oportunos los captulos 1, 2, 3, 4, 6,
7, 8, 9 y 10. El captulo 9, sobre contrastes no paramtricos puede darse a modo de seminario, si el
desarrollo de la docencia as lo sugiere. Sin embargo, el captulo 10, sobre regresin lineal simple, me
parece imprescindible en la formacin de un futuro ingeniero.
2. En el Grado de Ingeniera Informtica, los contenidos que se proponen en la memoria de grado sugieren
los captulos 1, 2, 3, 4, 5, 6, 7, 8 y 10. Aqu los contrastes no paramtricos se sacrican por un tema
sobre vectores aleatorios.
3. En los grados de la rama de telecomunicaciones, creo que son necesarios los captulos 1, 2, 3, 4, 5, 6, 7,
8, 10 y 11. Resulta as el temario quiz ms exigente, debido a la necesidad de introducir un captulo
sobre vectores aleatorios previo a otro sobre procesos estocsticos. Queda a iniciativa del docente la
9
posibilidad de recortar algunos aspectos en los temas tratados en aras a hacer ms ligera la carga
docente.
4. Finalmente, en los grados de la rama civil y minera, donde la dotacin de crditos es menor, creo que
son adecuados los captulos 1, 2, 3, 4, 6, 7, 8 y 10, si bien eliminando algunos de sus apartados, cuestin
esta que dejo, de nuevo, a juicio del docente. Tambin sugiero que se traba jen los problemas sobre estos
captulos directamente en el contexto de unas prcticas con ordenador.
Slo me queda pedir disculpas de antemano por las erratas que, probablemente, contienen estas pginas. Os
ruego que me las hagis llegar para corregirlas en posteriores ediciones.
10
Captulo 1
Introduccin
Llegar un da en el que el razonamiento estadstico ser tan necesario para el ciudadano como
ahora lo es la habilidad de leer y escribir
H.G. Wells (1866-1946)
El captulo incluye una introduccin del trmino Estadstica y presenta los conceptos ms bsicos
relativos a poblaciones y muestras.
Resumen.
Palabras clave:
aleatoria simple.
http://buscon.rae.es/draeI/SrvltGUIBusUsual?LEMA=estad%C3%ADstica
11
es utilizar datos de un conjunto reducido de casos para inferir caractersticas de stos al conjunto de todos
ellos.
1.2.
1.2.1.
Este ejemplo aparece en un artculo titulado Evaluation of Low-Temperature Properties of HMA Mixtures
(P. Sebaaly et al.), publicado en Journal of Transportation Engineering en 2002. En l se menciona que se
obtuvo una muestra de 24 mezclas de asfalto mezclado caliente (HMA) y se midieron los distintos valores de
la tensin de fractura (en megapascales) de cada una de las mezclas, obteniendo los siguientes resultados:
30, 75, 79, 80, 80, 105, 126, 138, 149, 179, 179, 191
223, 232, 232, 236, 240, 242, 245, 247, 254, 274, 384, 470
Cmo podr un ingeniero describir en trminos generales la tensin de fractura del asfalto? Esos datos le
enfrentan al hecho de que las muestras son bastante distintas entre s, de manera que facilitar una descripcin
general de las caractersticas del asfalto puede ser complejo y arriesgado.
1.2.2.
En una empresa del sector de la automocin se constata que en los ltimos 6 meses ha habido 9 accidentes
laborales graves. El dato llama la atencin del ingeniero responsable de la seguridad, porque conoce que el
promedio de accidentes en el sector para una empresa con el nmero de trabajadores que tiene la suya es
de 6 accidentes al ao. La cuestin es que, teniendo en cuenta que en mayor o menor medida, el azar est
presente en la ocurrencia de un accidente, es realmente preocupante ese dato de 9 accidentes en 6 meses
cuando lo esperado, es decir, el promedio, es de 3 accidentes?
1.2.3.
Un artculo publicado en Journal of Environmental Engineering en 2002, titulado Leachate from Land Disposed Residential Construction Waste, presenta un estudio de la contaminacin en basureros que contienen
desechos de construccin y desperdicios de demoliciones. De un sitio de prueba se tomaron 42 muestras de
lixiado, de las cuales 26 contienen niveles detectables de plomo. Se pone as de maniesto que slo una parte
12
de los basureros est contaminada por plomo. La cuestin es qu proporcin supone esta parte contaminada
de la supercie total de los basureros?
Si una ingeniera desea obtener a partir de esos datos una estimacin de la proporcin de los basureros que
contiene niveles detectables de plomo debe ser consciente de dos cuestiones:
1. Es imposible analizar todos los rincones de todos los basureros.
2. Si se basa slo en los datos del artculo, esa estimacin ser slo eso, una estimacin basada en esa
muestra, que es de slo 42 datos. Debera, por tanto obtener tambin una estimacin del error que est
cometiendo al hacer la estimacin. Con ambos resultados, la estimacin en s y una cuanticacin del
error que podra cometer con ella, incluso podr obtener un rango donde la verdadera proporcin se
encuentra, con un alto nivel de conanza.
1.2.4.
En una encuesta realizada por alumnos de la asignatura en el curso 2008/2009 en la escuela, se contabiliz el
ndice de masa corporal de los varones que contestaron a la encuesta. Algunos valores de la muestra fueron
los siguientes: 23.94, 20.90, 25.24, 24.56, 24.69, 22.83... De una primera observacin de los datos, los alumnos
encargados de la explotacin de la encuesta sacaron la impresin de que estos ndices parecan indicar que la
media del IMC de los varones estaba por encima de la medida ideal indicada, 22.5. La cuestin es, tienen
realmente, con esos datos, evidencias sucientes de ello? Cmo de fuertes son esas evidencias? No olvidemos
que se trata de una muestra.
1.2.5.
Un ingeniero industrial es responsable de la produccin de cojinetes de bolas y tiene dos mquinas distintas
para ello. Le interesa que los cojinetes producidos tengan dimetros similares, independientemente de la
mquina que los produce, pero tiene sospechas de que est produciendo algn problema de falta de calibracin
entre ellas. Para analizar esta cuestin, extrae una muestra de 120 cojinetes que se fabricaron en la mquina
A, y encuentra que la media del dimetro es de 5.068 mm y que su desviacin estndar es de 0.011 mm. Realiza
el mismo experimento con la mquina B sobre 65 cojinetes y encuentra que la media y la desviacin estndar
son, respectivamente, 5.072 mm y 0.007 mm. Puede el ingeniero concluir que los cojinetes producidos por
las mquinas tienen dimetros medios signicativamente diferentes?
1.2.6.
El responsable de una seccin de una cadena de montaje sospecha, basndose en su experiencia, que aquellos
trabajadores interesados en hacer horas extra son precisamente los ms productivos. Es ms, cree que cuantas
ms horas extras se est dispuesto a hacer, ms productivo es el trabajador. Para analizar la cuestin,
contabiliza entre 10 trabajadores las horas extra trabajadas en un mes y el nmero medio de piezas por
turno producidas en el mismo mes. Los datos aparecen en la siguiente tabla. Tiene el encargado evidencias
realmente signicativas acerca de su armacin de que cuantas ms horas extras se hacen, ms productivo
es el trabajador?
Prof. Dr. Antonio Jos Sez Castillo
13
1.2.7.
N medio piezas/turno
161
203
235
176
201
188
228
211
191
178
N horas extra
20
24
19
19
20
18
20
Un ingeniero que trabaja en una distribuidora elctrica quiere utilizar el hecho evidente de que en invierno las
bajas temperaturas hacen aumentar el consumo elctrico para tratar de predecir el consumo en su localidad
a partir de las temperaturas mnimas que se pronostican para el da siguiente. Para ello contabiliza en una
muestra la temperatura pronosticada y el consumo real, con los siguientes resultados:
T mnima pronosticada
-1
-2
Consumo (megawatios)
12
12
11
14
10
11
12
10
Qu consumo podra preveer para un da si la temperatura mnima pronosticada para ese da es de -1.5
grados?
1.2.8.
En una empresa se sospecha que hay franjas horarias donde los accidentes laborales son ms frecuentes.
Para estudiar este fenmeno, contabilizan los accidentes laborales que sufren los trabajadores segn franjas
horarias, durante un ao. Los resultados aparecen en la tabla.
Horas del da
Nmero de accidentes
8-10 h.
47
10-12 h.
52
13-15 h.
57
15-17 h.
63
Con esa informacin, los responsables de seguridad de la empresa deben decidir si hay franjas horarias donde
los accidentes son ms probables o si, por el contrario, stos ocurren absolutamente al azar.
1.2.9.
Reduciendo mucho el problema, supongamos que una antena de telefona mvil tiene una cobertura que
abarca a cualquier mvil dentro de un crculo de radio
concreto puede estar situado
r.
igualmente probable ?
Y qu podemos
1.2.10.
En el contexto de las telecomunicaciones, cualquier seal debe considerarse aleatoria, es decir, debe tenerse en
cuenta que cuando la observamos, parte de ella es debida a la incertidumbre inherente a cualquier proceso de
comunicacin. Y es que, por multitud de razones, nadie tiene garantas que la seal enviada sea exactamente
igual a la seal recibida.
14
Un ingeniero debe tener en cuenta eso y, a pesar de todo, ser capaz de analizar las propiedades ms relevantes
de cualquier seal y de estudiar su comportamiento en cualquier momento del proceso de comunicacin.
Por ejemplo, hoy en da una seal sufre multitud de transformaciones en el proceso de comunicacin. Cada
una de esas transformaciones se considera el resultado del paso de la seal por un sistema. El ingeniero debe
ser capaz de conocer las caractersticas ms relevantes de la seal a lo largo de todas esas transformaciones.
15
Por ejemplo, podramos estar interesados en la poblacin de todos los espaoles con derecho a voto (poblacin
tangible, pero enorme), de los que querramos conocer un dato o variable, su intencin de voto en las prximas
elecciones generales. Dado que estamos hablando de millones de personas, probablemente deberemos escoger
una muestra, es decir, un subconjunto de espaoles a los que se les realizara una encuesta. Si queremos que
esa muestra sea aleatoria simple, deberemos tener cuidado de que todos los espaoles con derecho a voto
tengan las mismas posibilidades de caer en la muestra y de que la respuesta de un entrevistado no afecte a la
de ningn otro. Como nota curiosa, sabed que la mayora de las encuestas nacionales se hacen va telefnica,
lo cual es una pequea violacin de las hiptesis de muestra aleatoria simple, ya que hay espaoles con
derecho a voto que no tienen telfono, luego es imposible que salgan en la muestra.
16
Parte I
Estadstica descriptiva
17
Captulo 2
El tratamiento de los datos. Estadstica
descriptiva
Es un error capital el teorizar antes de poseer datos. Insensiblemente uno comienza a alterar
los hechos para encajarlos en las teoras, en lugar encajar las teoras en los hechos
Sherlock Holmes (A. C. Doyle), en Un
escndalo en Bohemia
En este captulo aprenderemos mtodos para resumir y describir conjuntos de datos a travs de
distintos tipos de tablas, grcos y medidas estadsticas.
Resumen.
2.1.
Introduccin
Obtenidos a travs de encuestas, experimentos o cualquier otro conjunto de medidas, los datos estadsticos
suelen ser tan numerosos que resultan prcticamente intiles si no son resumidos de forma adecuada. Para
ello la Estadstica utiliza tanto tcnicas grcas como numricas, algunas de las cuales describimos en este
captulo.
Podemos decir que existe una clasicacin, un tanto articial, de los datos, segn se reeran a una poblacin
tangible, en cuyo caso se conocern todos los casos, o a una poblacin conceptual, en cuyo caso slo se
conocer una muestra (aleatoria simple). Sin embargo, esta clasicacin no tiene ningn efecto en lo relativo
a lo que vamos a estudiar en este captulo.
2.2.
Tipos de datos
cuantitativos
cualitativos.
19
Los datos cuantitativos son los que representan una cantidad reejada en una escala numrica.
A su vez, pueden clasicarse como datos cuantitativos discretos si se reeren al conteo de
alguna caracterstica, o datos cuantitativos continuos si se reeren a una medida.
Los datos cualitativos o categricos se reeren a caractersticas de la poblacin que no pueden
asociarse a cantidades con signicado numrico, sino a caractersticas que slo pueden clasicarse.
Ejemplo.
diagramas de barras
y los diagramas
de sectores
Los diagramas de barras son una representacin de cada una de las categoras de la variable
mediante una barra colocada sobre el eje X y cuya altura sea la frecuencia o la frecuencia relativa
de dichas categoras.
Los diagramas de sectores son crculos divididos en tantos sectores como categoras, sectores cuyo
ngulo debe ser proporcional a la frecuencia de cada categora.
Tomamos como poblacin los 98 reactores nucleares ms grandes en todo el mundo. Nos
jamos en la variable o dato referente al pas donde estn localizados.
Ejemplo.
Categora
Frecuencia
Frecuencia relativa
Pas
Proporcin
Blgica
0.041
Francia
22
0.225
Finlandia
0.020
Alemania
0.071
Holanda
0.010
0.112
Japn
11
Suecia
0.031
Suiza
0.010
Estados Unidos
47
0.480
TOTAL
98
1.000
Blgica, Blgica, Blgica, Blgica, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia,
Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Finlandia, Finlandia, Alemania, Alemania, Alemania, Alemania,
Alemania, Alemania, Alemania, Holanda, Japn, Japn, Japn, Japn, Japn, Japn, Japn, Japn, Japn, Japn, Japn, Suecia, Suecia, Suecia,
Suiza, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados
Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados
Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados
Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados
Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados
Unidos, Estados Unidos, Estados Unidos.
cuencias
tabla de fre-
Por su parte, las representaciones mediante diagramas de barras y sectores de estos datos aparecen en la
Figura 2.1 y la Figura 2.2 respectivamente.
10
20
30
40
Alemania
Blgica
EEUU
Finlandia
Francia
Holanda
Japn
Suecia
Suiza
21
EEUU
Blgica
Alemania
Suiza
Suecia
Japn
Finlandia
Holanda
Francia
10
000000111111111222222222233333334444444555566666777889
El diagrama de barras asociado aparecen en la Figura 2.3.
Sin embargo, la mayora de variables cuantitativas son de tipo continuo, de manera que toman demasiados
valores como para que la representacin de su distribucin de frecuencias sea til1 . Por ello el mtodo grco
1 Si
toma muchos valores, muy probablemente la mayor parte de ellos slo aparezca una vez, por lo que la distribucin de
22
ms comn y tradicional para datos cuantitativos es el histograma. En realidad se trata de una variante del
diagrama de barras donde se agrupan los valores de la variable en intervalos para que estos intervalos tengan
frecuencias mayores que uno.
Para obtener un histograma de forma manual deben seguirse los siguientes pasos:
1. Calculamos el nmero, N , de intervalos que vamos a utilizar. Se recomienda que sea aproximadamente
igual a la raz cuadrada del nmero de datos.
2. Calculamos el rango, R, del histograma, que ser ligeramente ms amplio que el rango de los datos.
El histograma debe comenzar en un nmero (xm ) ligeramente por debajo del mnimo de los datos y
terminar en un nmero (xM ) ligeramente por encima del mximo. El rango del histograma ser, por
tanto, R = xM xm .
3. Calculamos la longitud, L, de los intervalos, como el cociente entre el rango del histograma y el nmero
R
.
de intervalos, es decir, L = N
4. Se construyen los N intervalos:
I1 = [xm , xm + L)
I2 = [xm + L, xm + 2L)
I3 = [xm + 2L, xm + 3L)
...
IN = [xm + N L, xM ).
5. Para cada intervalo, contamos el nmero de datos que hay en l, es decir, la frecuencia del intervalo.
6. El histograma es un diagrama de barras donde en el eje X se colocan los intervalos y sobre ellos se
construyen barras cuya altura sea la frecuencia o la frecuencia relativa del intervalo. En este caso, las
barras deben dibujarse sin espacio entre ellas.
Por cuestiones que detallaremos ms adelante es importante destacar que el porcentaje de datos
que cae dentro de un intervalo es proporcional al rea de la barra que se construye sobre ese intervalo.
Por ejemplo, si el rea de una barra es el 30 % del rea total del intervalo, entonces el 30 % de los datos
estn en dicho intervalo.
Nota.
Por otra parte, qu pasara si tomamos un nmero muy grande de datos? El nmero de intervalos
del histograma sera tambin muy grande, y las barras seran muy estrechas, de manera que en vez de
parecer un diagrama de barras, parecera la grca de una funcin real de variable real. Hablaremos de
esta funcin y del rea debajo de ella en breve. Por cierto, cmo se calcula el rea bajo esta funcin?
Ejemplo.
Los datos siguientes corresponden al tiempo necesario para procesar 25 trabajos en una CPU.
23
5
4
1
Frecuencia
Tiempos de procesado
0.00
0.96
1.92
2.88
3.84
4.80
1.17
1.61
1.16
1.38
3.53
1.23
3.76
1.94
0.96
4.75
0.15
2.41
0.71
0.02
1.59
0.19
0.82
0.47
2.16
2.01
0.92
0.75
2.59
3.07
1.4
25 = 5,
utilizaremos 5 intervalos.
2. El mnimo de los datos es 0.02 y el mximo 4.75, de manera que podemos considerar como rango
del histograma el intervalo
[0, 4.8],
= 0.96.
I1 = [0, 0.96)
I2 = [0.96, 1.92)
I3 = [1.92, 2.88)
I4 = [2.88, 3.84)
I5 = [3.84, 4.8)
5. Calculamos la distribucin de frecuencia asociada a esos intervalos:
24
Tiempo de procesado
Frecuencia
[0, 0.96)
[0.96, 1.92)
[1.92, 2.88)
[2.88, 3.84)
[3.84, 4.8)
2.5.
Es cierto que un diagrama de barras o un histograma nos ayudan a tener una imagen de cmo son los datos,
pero normalmente es necesario complementar esa imagen mediante medidas que, de forma objetiva, describan
las caractersticas generales del conjunto de datos.
por dnde
dispersin) y qu
Vamos a ver en este apartado tres tipos de medidas, que bsicamente responden a tres preguntas:
estn los datos (medidas de posicin), cmo de agrupados estn los datos
forma tienen los datos (medidas de forma).
2.5.1.
(medidas de
Las medidas de tendencia central son medidas de posicin que tratan de establecer un valor que pueda
considerarse
2.5.1.1.
el centro
Media
x
=
Pn
i=1
xi
x1 , ..., xn .
centro de gravedad
de los
datos.
Es inmediato comprobar que si se realiza un cambio de origen y escala sobre los datos, del tipo
la media sufre el mismo cambio, es decir,
y = ax + b,
y = a
x + b.
De igual forma, si tenemos datos de la suma de dos o ms variables, la media de la suma es la suma de las
medias de cada variable.
2.5.1.2.
Mediana
x1 , ..., xn .
n,
es par o impar:
n+1
2 una vez que los datos han sido ordenados
Me = x n+1 .
2
25
Si n es par, la mediana es la media aritmtica de las dos observaciones centrales. Cuando n es par, los
x n +x n +1
dos datos que estn en el centro de la muestra ocupan las posiciones n2 y n2 +1. Es decir: Me = 2 2 2 .
La mediana corresponde exactamente con la idea de valor central de los datos. De hecho, puede ser un valor
ms representativo de stos que la media, ya que es ms robusta que la media. Vemos qu signica esto en
un ejemplo.
Ejemplo.
Su media es
0+0+1+2+3+4+5
7
= 2.1429, y su mediana 2.
Pero imaginemos que por error o por casualidad obtenemos un nuevo dato enormemente grande en
relacin al resto de datos, 80. En ese caso, la media sera
0 + 0 + 1 + 2 + 3 + 4 + 5 + 80
= 11.875
8
y la mediana 2.5. Es decir, un solo dato puede desplazar enormemente la media, hasta convertirla en una
medida poco representativa, pero slo desplazar ligeramente la mediana. Ese es el motivo por el que se
dice que la mediana es una medida robusta.
2.5.1.3.
En principio la moda se dene como el valor ms frecuente de los datos. Lo que ocurre es que si stos son
datos de una variable continua o discreta con muchos valores, puede que los datos apenas se repitan. En ese
caso, en el que, como vimos en las representaciones grcas, se debe agrupar por intervalos, no debe darse
un valor como moda, sino un intervalo modal, aqul con mayor frecuencia asociada.
2.5.2.
Cuantiles
Los cuantiles son medidas de posicin pero no necesariamente ligados al centro de los datos. La idea a la
que responden es muy sencilla y muy prctica. Se trata de valorar de forma relativa cmo es un dato respecto
del conjunto global de todos los datos.
Si, por ejemplo, un nio de 4 aos pesa 13 kilos, est desnutrido? est sano? La respuesta debe ser que
depende. Dnde vive el nio? Es importante porque, por ejemplo, en Estados Unidos los nios son en general
ms grandes que, por ejemplo, en Japn. Quiz ms que el peso nos interese saber qu posicin relativa tiene
el peso del nio dentro de la poblacin de la que forma parte. Por ejemplo, si nos dicen que el nio est entre
el 1 % de los nios que menos pesan, probablemente tiene un problema de crecimiento.
El cuantil p (Qp ) de unos datos (0 p 1), que notaremos como es un valor de la variable
situado de modo que el 100p % de los valores sean menores o iguales que l y el resto (100(1p) %)
mayores.
26
No obstante, en la prctica vamos a encontrar un problema para encontrar cuantiles, sobre todo con pocos
datos: puede que no exista el valor exacto que deje a la izquierda el 100p % de los valores y el resto a la
derecha. En ese caso, aproximaremos el valor del cuantil correspondiente de la siguiente forma:
1. Si el 100p % de n, donde n es el nmero de datos, es un entero, k, entonces Qp =
x(k) +x(k+1)
.
2
0.02
0.15
0.19
0.47
0.71
0.75
0.82
0.92
0.96
1.16
1.17
1.23
1.38
1.40
1.59
1.61
1.94
2.01
2.16
2.41
2.59
3.07
3.53
3.76
4.75
2.5.3.
Las medidas de variacin o dispersin estn relacionadas con las medidas de tendencia central, ya que
lo que pretenden es cuanticar cmo de concentrados o dispersos estn los datos respecto a estas medidas.
Nosotros nos vamos a limitar a dar medidas de dispersin asociadas a la media.
Prof. Dr. Antonio Jos Sez Castillo
27
La idea de estas medidas es valorar en qu medida los datos estn agrupados en torno a la media. Esta cuestin
tan simple es uno de los motivos ms absurdos de la mala prensa que tiene la Estadstica en la sociedad en
general. La gente no se fa de lo que ellos llaman la Estadstica entre otros motivos, porque parece que todo
el mundo cree que una media tiene que ser un valor vlido para todos, y eso es materialmente imposible.
Ejemplo. Pensemos en la media del salario de los espaoles. En 2005 fue de 18.750 euros al ao. Ahora bien,
esa media incluye tanto a las regiones ms desarrolladas como a las ms desfavorecidas y, evidentemente, la
cifra generar mucho malestar en gran parte de la poblacin (con toda seguridad, ms del 50 %), cuyo salario
est por debajo.
Ejemplo. Existe una frase muy conocida que dice que la Estadstica es el arte por el cul si un espaol se
come un pollo y otro no se come ninguno, se ha comido medio pollo cada uno . Esa frase se usa en muchas
ocasiones para ridiculizar a la Estadstica, cuando en realidad debera servir para desacreditar a quien la dice,
por su ignorancia.
Hay que decir que la Estadstica no tiene la culpa de que la gente espere de una media ms de lo que es capaz
de dar, ni de que muy poca gente conozca medidas de dispersin asociadas a la media.
2.5.3.1.
Varianza muestral
s2n1
Pn
x1 , ..., xn ,
la varianza muestral
2 de esos datos
(xi x
)
.
n1
i=1
Nota. Para calcular a mano la varianza resulta ms cmodo desarrollar un poco su frmula, como vamos
a ver:
s2n1
Pn
x
)2
=
=
n1
Pn
x2 n
x2
= i=1 i
.
n1
i=1 (xi
Pn
i=1
Pn
Pn
x2i 2
x i=1 xi + n
x2 2
xn
x + n
x2
x2
= i=1 i
n1
n1
Tanto mayor sea la varianza de unos datos, ms dispersos, heterogneos o variables son esos datos. Cuanto
ms pequea sea una varianza de unos datos, ms agrupados u homogneos son dichos datos.
Ejemplo. Una muestra aleatoria simple de la altura de 5 personas arroja los siguientes resultados:
1.76
1.72
1.80
1.73
1.79
P5
i=1
xi = 8.8
P5
i=1
x
=
x2i = 15.493.
8.8
= 1.76
5
2 En algunos libros a s2
2
n1 la llaman cuasivarianza muestral y a sn varianza muestral. Es importante ver las deniciones en
cada libro para no confundirse.
28
y
s2n1 =
15.493 5 1.762
= 0.00125
4
En lo que respecta al comportamiento de la varianza muestral frente a cambios de origen y escala, slo le
afectan los segundos. Es decir, si tenemos que y = ax + b, se verica que s2y;n1 = a2 s2x;n1 .
Finalmente, si bien habamos comentado que en el caso de la media, si tenemos la suma de varias variables,
la media total es la suma de las medias de cada variable, no ocurre as con la varianza en general.
2.5.3.2.
El principal problema de la varianza es su unidad de medida. Por cmo se dene si, por ejemplo, la variable
se expresa en kilos, la media tambin se expresa en kilos, pero la varianza se expresa en kilos2 , lo que hace
que sea difcil valorar si una varianza es muy elevada o muy pequea.
Es
q por ello que se dene la desviacin tpica o estandar muestral de los datos como sn1 =
s2n1 , cuya unidad de medida es la misma que la de la media.
Nota.
La Regla Emprica
Si el histograma asociado a unos datos tiene la forma de una campana o de una joroba, el conjunto de
datos tendr las siguientes caractersticas, lo que en algunos libros se conoce como Regla Emprica:
1. Aproximadamente el 68 % de los datos estar en el intervalo (
x sn1 , x
+ sn1 ) .
2. Aproximadamente el 95 % de los datos estar en el intervalo (
x 2sn1 , x
+ 2sn1 ) .
3. Casi todos los datos estarn en el intervalo (
x 3sn1 , x
+ 3sn1 ) .
29
sn1
.
|
x|
La principal ventaja del coeciente de variacin es que no tiene unidades de medida, lo que hace ms fcil
su interpretacin.
Ejemplo. Para los datos de tiempo de procesado en una CPU de 25 tareas, la varianza es 1.42, luego su
Nota. El coeciente de variacin, tal y como est denido, slo tiene sentido para conjuntos de datos
con el mismo signo, es decir, todos positivos o todos negativos. Si hubiera datos de distinto signo, la
media podra estar prxima a cero o ser cero, imposibilitando que aparezca en el denominador.
Nota. Suele ser frecuente el error de pensar que el coeciente de variacin no puede ser mayor que 1, lo
cual es rigurosamente falso. Si lo expresamos en porcentaje, el coeciente de variacin puede ser superior
al 100 % sin ms que la desviacin tpica sea mayor que la media, cosa bastante frecuente, por cierto.
30
Para valorar la simetra de unos datos se suele utilizar el coeciente de asimetra de Fisher:
As =
Pn
x)
i=1 (xi
n
s3n1
Obsrvese que para evitar el problema de la unidad y hacer que la medida sea escalar y por lo tanto relativa,
dividimos por el cubo de su desviacin tpica. De esta forma podemos valorar si unos datos son ms o menos
simtricos que otros, aunque no estn medidos en la misma unidad de medida. La interpretacin de este
coeciente de asimetra es la siguiente:
Tanto mayor sea el coeciente en valor absoluto, ms asimtricos sern los datos.
El signo del coeciente nos indica el sentido de la asimetra:
Si es positivo indica que la asimetra es a la derecha.
Si es negativo, indica que la asimetra es a la izquierda.
Ejemplo. Para los datos de tiempo de procesado en una CPU de 25 tareas, el coeciente de asimetra
de Fisher es 0.91, lo que, como habamos visto y comentado con anterioridad, pone de maniesto que la
distribucin es asimtrica a la derecha, debido a la presencia de tiempos de procesado bastante altos en
relacin al resto.
Ejemplo. En el campo de las telecomunicaciones, es muy frecuente encontrar muestras de variables con
unas caractersticas muy peculiares.
Por centrarnos en un ejemplo, consideremos el tamao de las pginas Web. Cmo es una pgina Web
promedio ? Una pgina de texto promedio tiene un peso de alrededor de 5 kilobytes (poco menos de
mil palabras). Sin embargo, si incluye algo de audio o de vdeo, este promedio aumenta muchsimo. Eso
provoca que haya unas diferencias abismales en el tamao de muchas pginas Web con respecto a aquellas
Prof. Dr. Antonio Jos Sez Castillo
31
150
200
600
100
400
50
200
Frecuencia
250
800
300
350
50
100
150
200
250
300
350
Tamao
Figura 2.7: Histograma y diagrama de caja del tamao de las pginas Web, con efecto de cola pesada
(no demasiadas) que incluyen elementos con mucho peso en kilobytes. Por ello, dado que estas pginas (no
muchas) aparecen en la cola de la derecha de la distribucin de frecuencias, muy a la derecha por su valor
extremo, se dice que la distribucin de tamaos es de cola pesada. En otras palabras, aunque la mayora
de los archivos son pequeos, existe un nmero no despreciable de archivos grandes que desplazan el
tamao de la pgina que los incluye muy a la derecha de la distribucin. Por ejemplo, hasta 50 kilobytes
predomina el volumen de las imgenes. Desde all hasta 300 kilobytes son importantes los archivos de
audio. Ms alla de este lmite, llegando a varias decenas de megabytes, tenemos archivos de vdeo3 .
Vamos a considerar una muestra de tamaos de 1000 pginas Web. No nos caben aqu todos los datos,
pero pongamos al menos los primeros:
1.173555 2.630326 2.853527 3.266041 1.532600 2.859670 3.154677 1.998759 1.114937 3.442528 1.108608
1.419674 9.884097 11.207363 2.240503 1.558436 1.598461 1.322235 1.837884 218.361143 2.727173
1.264013 2.351524 1.216948 26.632490 1.031358 2.657112 3.402120 ...
Si nos damos cuenta, la mayora de las pginas probablemente incluyen slo texto o alguna de ella alguna
imagen. Estas ltimas ya aparecern muy a la derecha en la distribucin de frecuencias, haciendo pesada
esa cola de la distribucin. Por ejemplo, el histograma de esta muestra es el de la Figura 2.7 a la izquierda.
Cmo afecta el efecto de cola pesada al resumen numrico de la variable? La media es 3.84927, mientras
que la mediana es 1.744. Esto ya indica asimetria a la derecha. De hecho, el coeciente de asimetra es
19.48547! La desviacin tpica es 13.26838, as que el coeciente de asimetra es del 344.7 %! Finalmente,
el diagrama de caja podemos verlo en la Figura 2.7 a la derecha (veremos en qu consiste este grco
enseguida). El nmero de datos atpicos es enorme.
32
2.5.5.
Cuando se trabaja con una muestra de una poblacin, ya sea sta tangible o conceptual, las distintas medidas
de posicin, dispersin y forma, se denominan parmetros muestrales. Hay que tener en cuenta que
prcticamente siempre se trabaja con muestras, ya que o bien trabajamos con poblaciones conceptuales o
con poblaciones tangibles (nitas, por tanto), pero con muchsimos elementos.
Frente a estos parmetros muestrales se encuentran los parmetros anlogos referidos a toda la poblacin.
Estos parmetros, llamados parmetros poblacionales, son, en general, imposibles de conocer4 . Por ejemplo, la media poblacional se calculara igual que la media muestral de unos datos, pero aplicada la frmula a
todos los elementos de la poblacin. Como eso es prcticamente imposible de poner en la prctica, veremos
en captulos posteriores que los parmetros muestrales se utilizan en la prctica para aproximar o estimar los
parmetros poblacionales.
2.6.
Hay ocasiones en que un conjunto de datos contiene una o ms observaciones inconsistentes en algn sentido.
Por ejemplo, en los datos de tiempo de procesado en una CPU de 25 tareas, supongamos que tenemos
una observacin ms, igual a 85, debido a que la CPU se bloque y hubo que reiniciarla. Este dato, que
probablemente no deseemos incluir, es un ejemplo de caso de dato atpico o valor fuera de rango.
En general, una observacin que es inusualmente grande o pequea en relacin con los dems
valores de un conjunto de datos se denomina dato atpico o fuera de rango.
Estos valores son atribuibles, por lo general, a una de las siguientes causas:
1. El valor ha sido introducido en la base de datos incorrectamente.
2. El valor proviene de una poblacin distinta a la que estamos estudiando.
3. El valor es correcto pero representa un suceso muy poco comn.
A continuacin vamos a proponer dos maneras de determinar si un dato es un valor fuera de rango.
2.6.1.
Este mtodo es adecuado si el histograma de los datos tiene forma de campana, en cuyo caso podemos aplicar
la regla emprica para detectar qu datos estn fuera de los rangos lgicos segn esta regla.
Dado un conjunto de datos de una variable cuantitativa, x1 , ..., xn , se denen los valores z como
zi =
4 Salvo
xi x
.
sn1
33
Estos valores modican el origen y la escala de los datos, de manera que pueden compararse aunque no
procedan del mismo conjunto de datos.
La regla para detectar datos atpicos es la siguiente: se considerar dato atpico aquel cuyo valor z sea mayor
que 3 en valor absoluto, es decir, los
2.6.2.
xi
[
x 3sn1 , x
+ 3sn1 ] .
datos atpicos
3. Se consideran
Ejemplo.
Vamos a ver si hay algn dato atpico entre los datos de tiempo de procesado en una CPU de
25 tareas.
En la Figura 2.8 estn los valores de la muestra y sus valores z . Dado que no hay ningn valor superior
en valor absoluto a 3, no se rechaza ninguno. sin embargo, el histograma no tena forma de campana,
luego ste no es el mtodo ms adecuado para la deteccin de valores atpicos.
Por su parte, P50 = 1.38, P25 = 0.82 y P75 = 2.16. Por tanto, IR = 2.160.82 = 1.34, y el intervalo fuera
del cal consideramos valores fuera de rango es [0.82 1.5 1.34, 2.16 + 1.5 1.34] = [1.19, 4.17]. De
esta forma, el valor 4.75 es un valor fuera de rango.
Finalmente, el intervalo fuera del cul se encuentran los datos atpicos extremos es
[0.82 3 1.34, 2.16 + 3 1.34] = [3.2, 6.18],
bigotes
que salen de
2.7.
Ya estamos en condiciones de abordar la resolucin del problema que dej abierto el ejemplo del asfalto.
Recordemos que all nos plantebamos que un ingeniero, que estaba analizando la tensin de fractura de un
asfalto producido, encontraba al analizar de 24 mezclas de asfalto mezclado caliente (HMA) los siguientes
valores (en megapascales):
30
75
79
80
80
105
126
138
149
179
179
191
223
232
232
236
240
242
245
247
254
274
384
470
Lo que el ingeniero se plantea es algo, en principio, muy genrico: cmo podr describir en trminos generales
la tensin de fractura del asfalto producido?
En primer lugar, es lgico pensar que el ingeniero experimente cierta sorpresa al ver que los resultados
obtenidos son distintos en las distintas muestras. No se supone que todas las muestras proceden de la misma
planta, o que estn obtenidas en las mismas condiciones? Probablemente eso es as, pero hay que tener en
cuenta que en cualquier proceso de produccin existen condiciones incontrolables que provocan diferencias
en los resultados de los experimentos. Desde el punto de vista estadstico, observar esas distintas tensiones
de fractura equivale a constatar que el experimento es de tipo aleatorio.
Una vez que hemos aceptado este hecho, es evidente que debemos utilizar tcnicas estadsticas para alcanzar
el objetivo deseado, que es, no lo olvidemos, describir la tensin de fractura del asfalto producido.
En este caso, es bastante obvio que las tcnicas adecuadas para ello son las que proporciona la Estadstica
Descriptiva, incluyendo las que hemos estudiado en este tema.
Vamos a comenzar por ofrecer medidas de posicin, en primer lugar de tendencia central, que siten al menos
de una forma general, en torno a qu valores aparecen las tensiones de fractura.
Prof. Dr. Antonio Jos Sez Castillo
35
36
5
0
Frecuencia
10
100
200
300
400
500
Figura 2.10: Histograma de la tensin de fractura (en megapascales) para los datos del ejemplo del asfalto
franja muy amplia para los datos ms normales. Esto puede ser un indicio de una variabilidad importante
en los datos. Vamos a valorar ahora explcitamente la dispersin de los datos.
La desviacin tpica muestral es de 121.39 megapascales. Eso supone un coeciente de variacin de 0.52, lo
que, en principio, parece indicar que hay una dispersin importante de las distintas tensiones de ruptura
con respecto al valor medio. Decimos en principio porque desconocemos cmo es el comportamiento de esta
variable en otras muestras. El ingeniero debera comparar esta dispersin con la que habitualmente se produce
en otras plantas. Si como parece, la dispersin es importante, los resultados ponen de maniesto que hay unas
diferencias mayores a las esperadas entre las tensiones de ruptura de las muestras que estamos analizando,
lo cual, desde el punto de vista del ingeniero, no puede ser una buena noticia.
Vamos a terminar analizando si hay valores atpicos en la muestra. Teniendo en cuenta lo que acabamos de
decir acerca de la dispersin, esta cuestin es bastante relevante: podra ocurrir que esa dispersin importante
se deba a la presencia de algunos datos atpicos, aunque ya hemos visto que el rango intercuartlico, es decir,
la distancia entre el percentil 25 y el percentil 75 indica que hay diferencias importantes entre los datos ms
centrales.
Dado que los datos no tienen forma acampanada, el mtodo ms adecuado para analizar la presencia de
valores atpicos es el de los percentiles. Los valores atpicos estarn por debajo de
115.5 1.5 (243.5 115.5) = 76.5
o por encima de
243.5 + 1.5 (243.5 115.5) = 435.5.
Observamos que, en efecto, hay un valor atpico a la derecha de los datos, que corresponde a una muestra
cuya tensin de fractura es de 470 megapascales. Si nos plantemos si es un valor atpico extremo, es trivial
constatar que no lo es.
A modo de conclusin, el ingeniero ha constatado que el promedio de las tensiones de fractura est en torno
a 195 megapascales, pero que las diferentes muestras sufren una variabilidad importante respecto a este valor
(coeciente de variacin 0.52), constatando adems el hecho de que algunas muestras ofrecen tensiones de
fractura altas que provocan cierta asimetra a la derecha de la distribucin. Una de estas muestras, de hecho,
Prof. Dr. Antonio Jos Sez Castillo
37
100
200
Tension
300
400
24
Figura 2.11: Diagrama de caja de las tensiones de fractura en el ejemplo del asfalto.
38
Parte II
Clculo de Probabilidades
39
Captulo 3
Probabilidad
Vemos que la teora de la probabilidad en el fondo slo es sentido comn reducido a clculo; nos
hace apreciar con exactitud lo que las mentes razonables toman por un tipo de instinto, incluso
sin ser capaces de darse cuenta[...] Es sorprendente que esta ciencia, que surgi del anlisis de los
juegos de azar, llegara a ser el objeto ms importante del conocimiento humano[...] Las principales
cuestiones de la vida son, en gran medida, meros problemas de probabilidad.
Pierre Simon, Marqus de Laplace
El captulo proporciona un tratamiento de los experimentos cuyos resultados no se pueden predecir
con certeza a travs del concepto de probabilidad. Se analizan las propiedades de la probabilidad y se introduce
tambin el concepto de probabilidad condicionada, que surge cuando un suceso modica la asignacin de
probabilidades previa.
Resumen.
3.1.
Introduccin
Cul es la posicin de un objeto detectado mediante GPS? Dicho sistema obtiene, realmente, una
estimacin de dicha posicin, pero existen mrgenes de error que determinan una regin del plano
donde el objeto se encuentra con alta probabilidad.
Qu ruido se adhiere a una seal que se enva desde un emisor a un receptor? Dependiendo de las
caractersticas del canal, dicho ruido ser ms o menos relevante, pero su presencia no podr ser conocida
a priori, y deber ser diferenciada de la seal primitiva, sin que se conozca sta, teniendo en cuenta que
se trata de un ruido
aleatorio.
En todos estos ejemplos el azar es un factor insoslayable para conocer el comportamiento del fenmeno en
estudio.
experimento
aleatorio.
En contraposicin, un
experimento determinstico
coherente.
axiomas,
que
3.3.1.
lgebra de conjuntos
Si consideramos un experimento aleatorio, podemos caracterizar los posibles resultados de dicho experimento
como conjuntos. Es de inters, por tanto, repasar los conceptos y propiedades bsicas del lgebra de conjuntos.
En todo este apartado no debemos olvidar que los conjuntos representan en nuestro caso los posibles resultados
de un experimento aleatorio.
Un
Se dice que
es un
B A.
1 Es mejor que aceptemos desde el principio que la Estadstica no es la ciencia de la adivinacin: tan slo se ocupa de
cuanticar cmo de incierto es un evento y, ocasionalmente, de proponer estrategias de prediccin basadas en dicha medida de
la incertidumbre.
42
si su
particin
mutuamente excluyentes
si Ai Aj = para todo i 6= j.
a) A1 ... AN =
b) Ai Aj = para todo i 6= j.
A A =
c
(Ac ) = A
=
Si B A A B
Si A = B A = B.
A B = A B
A B = A B.
3.3.2.
Espacio muestral
43
suceso
evento
Ejemplo.
Los sucesos ms elementales posibles son {1}, {2}, {3}, {4}, {5} y {6}. Otros sucesos no elementales
pueden ser {1,2}, {mayor que 2}, {par}, ...
Sin embargo, supongamos que estamos lanzando un dado porque no tenemos ninguna moneda a mano, y
slo deseamos ver si el resultado es par o impar. En ese caso, el espacio muestral sera = {par, impar}.
Un experimento habitual en Biologa consiste en extraer, por ejemplo, peces de un ro, hasta
dar con un pez de una especie que se desea estudiar. El nmero de peces que habra que extraer hasta
conseguir el ejemplar deseado de la especie en estudio formara el espacio muestral, = {1, 2, 3, ...}, si es
que el investigador desea observar exactamente el nmero de peces hasta extraer ese ejemplar deseado.
Obsrvese que se trata de un conjunto no acotado, pero numerable.
Ejemplo.
Como ejemplos de posibles sucesos de inters podramos poner los eventos {1,2,3,4,5}, {mayor o igual a
5},...
Supongamos ahora que el investigador slo est interesado en comprobar si hacen falta ms de 5 extracciones para obtener un ejemplar de la especie en estudio. En ese caso, el espacio muestral sera
= {> 5, 5}.
Como ejemplo de sucesos posibles en este espacio muestral podemos destacar, entre otros, {menor que
0.5} , {mayor que 0.25}, {menor que 0.75} ,...
Otro espacio muestral podra ser observar el valor decimal mayor ms cercano. Por ejemplo, si sale 0.25,
me interesa 0.3. En ese caso el espacio muestral sera = 0.1, 0.2, ...1. Este espacio muestral servira,
por ejemplo, para sortear nmeros entre 1 y 10, sin ms que multiplicar el resultado obtenido por 10.
En estos ltimos ejemplos podemos ver que hay dos grandes tipos de espacios muestrales segn el nmero de
sucesos elementales.
44
Un espacio muestral se dice discreto si est formado por un conjunto nito o innito numerable
de sucesos elementales.
Por el contrario, un espacio muestral se dice
merable de sucesos elementales.
3.3.3.
continuo
Funcin de probabilidad
Dado un espacio muestral correspondiente a un experimento aleatorio, una funcin de probabilidad para ese espacio muestral es cualquier funcin que asigne a cada suceso un nmero en
el intervalo [0, 1] y que verique
P [A] 0, para cualquier evento A.
P [] = 1.
Dada una coleccin de sucesos A1 , A2 , ..., An mutuamente excluyentes, es decir, tales que Ai Aj =
para todo i 6= j,
P [ni=1 Ai ] =
n
X
P [Ai ] .
i=1
Hay que notar que se puede dar ms de una funcin de probabilidad asociada al mismo espacio
muestral. Por ejemplo, asociado al espacio muestral = {cara, cruz}, del lanzamiento de una moneda,
pueden darse un nmero innito no numerable de medidas de la probabilidad; concretamente, asociadas
a cada eleccin
Nota.
P [cara] = p
P [cruz] = 1 p,
para cada p [0, 1] . Aunque si la moneda no est cargada, como sucede habitualmente, se considera el
caso en que p = 12 .
Volviendo sobre el lanzamiento del dado, si ste no est cargado, podemos denir la siguiente
funcin de probabilidad:
Ejemplo.
P [{i}] =
1
, i = 1, 2, ..., 6.
6
45
El circuito que aparece en la Figura 3.1 est constituido por dos interruptores (switches ) en
paralelo. La probabilidad de que cualquiera de ellos est cerrado es de 12 .
Ejemplo.
Para que pase corriente a travs del circuito basta con que pase corriente por alguno de los dos interruptores, esto es, que al menos uno de ellos est cerrado. Por tanto, si notamos por E al suceso que pase
corriente a travs del circuito y Ei al suceso que el interruptor i est cerrado, entonces,
P [E] = P [E1 E2 ] = P [E1 ] + P [E2 ] P [E1 E2 ]
1 1
= + P [E1 E2 ] 1.
2 2
Para conocer esta probabilidad de forma exacta necesitamos saber cmo actan de forma conjunta ambos
circuitos.
3.4.
La interpretacin ms comn al concepto de probabilidad tiene que ver con los promedios de ocurrencia de
los sucesos del experimento en cuestin.
Pensemos en el lanzamiento de una moneda: si decimos que la probabilidad de cara es 0.5, entendemos que
si lanzamos la moneda un gran nmero de veces y anotamos el nmero de caras, stas sern ms o menos la
mitad.
46
Nde lanzamientos
N de caras
N. de caras
N. de lanzamientos
10
4
0.4
100
46
0.46
250
124
0.496
500
244
0.488
750
379
0.5053
1000
501
0.501
P [A] = lm
Esta interpretacin frecuentista de la probabilidad permite inferir lo que podemos llamar frecuencias esperadas. Si un evento A tiene asignada una probabilidad P [A], entonces, si repetimos el experimento aleatorio
n veces, lo ms esperable es que el nmero de veces que se de el evento A ser n P [A] . Ms adelante
podremos matizar con ms rigor a qu nos referimos con lo ms esperable.
Siguiendo con el ejemplo de la moneda, si la lanzamos 348 veces, lo esperable es que salgan
alrededor de 348 0.5 = 174 caras.
Ejemplo.
3.5.
Si nos dicen que la probabilidad de que llueva maana es del 35 %, cmo podemos interpretar eso en trminos
frecuentistas? No tiene sentido pensar en que podemos repetir el experimento da de maana muchas veces y
contar cuntas veces llueve. Podramos pensar si hubiera muchos das como el de maana, aproximadamente
llovera en el 35 % de ellos ? Pero eso no tiene sentido porque el da de maana es nico.
La interpretacin subjetiva de la probabilidad tiene que ver con la vinculacin de este concepto con el grado
de incertidumbre que tenemos sobre las cosas. Si tenemos un experimento aleatorio, el resultado de dicho
experimento es incierto. La probabilidad de un resultado del experimento es el grado de creencia que yo tengo
en la ocurrencia de dicho resultado. Ese grado de creencia es personal, luego es subjetivo, pero lgicamente,
deber estar acorde con la informacin que tenemos sobre el experimento.
Prof. Dr. Antonio Jos Sez Castillo
47
3.6.
Otro punto de vista que permite abordar el proceso de asignacin de probabilidad a sucesos es el siguiente:
continuando con el ejemplo de la moneda, en este experimento son dos los resultados posibles, y no hay razones
para pensar que uno de ellos es ms probable que otro, as que tiene sentido considerar que la probabilidad
de cara y la probabilidad de cruz son ambas del 50 %.
En general, si el espacio muestral est formado por N resultados posibles y todos ellos tienen la misma
probabilidad (equiprobables), podramos decir que la probabilidad de un evento A, P [A] , es
P [A] =
NA
,
N
1
2
en el lanzamiento de una moneda sin tener que lanzar la moneda un gran nmero de veces.
Sin embargo, la denicin tiene dos grandes inconvenientes: el conjunto de resultados posibles, N , tiene que
ser nito y, adems, todos los resultados posibles deben tener la misma probabilidad (con lo cual, lo denido
queda implcitamente inmerso en la denicin).
3.7.
Para introducir de manera intuitiva el concepto de probabilidad condicionada debemos pensar en la probabilidad como medida de la creencia en la ocurrencia de los sucesos.
Pensemos en un experimento aleatorio y en un suceso de dicho experimento, A, en el que, en principio,
tenemos un grado de creencia P [A] ; pero supongamos que conocemos algo del resultado de dicho experimento;
concretamente, sabemos que ha ocurrido un suceso B . Parece lgico pensar que esa informacin conocida
sobre el resultado del ensayo modicar nuestro grado de creencia en A: llamemos a este nuevo grado de
creencia P [A | B], probabilidad de A conocida B o probabilidad de A condicionada a B .
Consideremos el suceso A : el da de hoy va a llover y el suceso B : el da de hoy est nublado.
Obviamente, la probabilidad P [A] ser menor que la probabilidad P [A | B] , ya que el hecho de que est
nublado refuerza nuestra creencia en que llueva.
Ejemplo.
48
Ejemplo. Consideremos el experimento aleatorio de extraer una carta de una baraja espaola. Sea el suceso
A:
B1 :
B2 :
Las distintas probabilidades, condicionadas o no, bajo la denicin clsica, son las siguientes:
4 sotas
1
=
40 cartas
10
4 sotas
1
P [A | B1 ] =
=
12 f iguras
3
1
1 sota de copas
=
.
P [A | B2 ] =
10 copas
10
P [A] =
no as
B2 .
B2
no ofrece
Vamos a dar a continuacin una denicin de probabilidad condicionada que responde a esta idea de
recalcular la probabilidad en funcin de la informacin existente.
P [A | B],
A,
B,
denotada por
P [A | B] =
siempre que
P [A B]
,
P [B]
P [B] 6= 0.
P [/B ]
cumple las mismas propiedades que cualquier funcin de probabilidad sin condicionar.
Como hemos comentado, la idea de la probabilidad condicionada es utilizar la informacin que nos da un
suceso conocido sobre la ocurrencia de otro suceso. Pero, como ya hemos puesto de maniesto en un ejemplo,
no siempre un suceso da informacin sobre otro. En este caso se dice que ambos sucesos son independientes.
Por tanto:
Dos sucesos
P [B],
AyB
P [A | B] = P [A] , o equivalentemente si P [B | A] =
P [A B] = P [A] P [B] .
se dicen independientes si
o equivalentemente si
Ejemplo. Continuando con el Ejemplo 3.3.3, lo ms lgico es pensar que los dos interruptores actan
y tenemos que,
1 1
+ P [E1 E1 ]
2 2
1 1 11
3
= +
= .
2 2 22
4
P [E] =
49
Es muy importante no confundir la probabilidad condicionada de un suceso a otro con la probabilidad de la interseccin de ambos sucesos. En la Figura 3.2 puede verse la diferencia entre las probabilidades
condicionadas entre dos sucesos y la probabilidad de su interseccin. En trminos coloquiales, podemos
analizar estas probabilidades como el cociente entre una parte y un todo. Cuando la probabilidad es
condicionada ese todo es el suceso que condiciona. Cuando la probabilidad no es condicionada, ese todo
es todo el espacio muestral. En ambos casos esa parte es la interseccin.
Nota.
En este sentido, recordemos que dos sucesos A y B son incompatibles o mutuamente excluyentes si
A B = , en cuyo caso P [A B] = 0.
Por su parte, A y B sern independientes si P [A B] = P [A] P [B].
Las diferencias entre ambos conceptos son obvias.
La probabilidad de que el producto no sea elaborado a tiempo es 0.05. Se solicitan tres pedidos
del producto con la suciente separacin en el tiempo como para considerarlos eventos independientes.
Ejemplo.
1 E2 E3 + P E 1 E
2 E3 + P E1 E2 E
3
=P E
= 0.05 0.952 + 0.05 0.952 + 0.05 0.952 = 0.135,
Si nos damos cuenta, A, G y H son ineludibles, mientras que una unidad puede ser producida si pasa
por B, por C y D o por E y F. En notacin de conjuntos, la unidad ser producida si se da
A (B C D E F ) G H.
Como los procesos son independientes unos de otros, no tenemos problemas con las probabilidades de las
intersecciones, pero tenemos que calcular la probabilidad de una unin de tres conjuntos, BC DEF .
Prof. Dr. Antonio Jos Sez Castillo
51
En general,
P [B C D E F ] = P [B] + P [C D] + P [E F ]
P [B C D] P [B E F ] P [C D E F ]
+ P [B C D E F ]
En estos ejemplos, el clculo de la probabilidad de las intersecciones ha resultado trivial porque los sucesos son
52
independientes. Son embargo, esto no siempre ocurre. Cmo podemos, en general, obtener la probabilidad
de la interseccin de dos o ms sucesos no necesariamente independientes?
En el caso de slo dos sucesos, A y B , podemos deducir que
P [A B] = P [A|B] P [B]
directamente de la denicin de probabilidad condicionada. A partir de esta frmula, por induccin, se puede
obtener la llamada frmula producto, que se enuncia de la siguiente forma: si A1 , A2 , ..., An son sucesos de
un espacio muestral no necesariamente independientes, se verica
P [A1 A2 ... An ] = P [A1 ]P [A2 |A1 ]...P [An |A1 A2 ... An1 ]
Un lote de 50 arandelas contiene 30 arandelas cuyo grosor excede las especicaciones de diseo.
Suponga que se seleccionan 3 arandelas al azar y sin reemplazo del lote.
Ejemplo.
1. Cul es la probabilidad de que las tres arandelas seleccionadas sean ms gruesas que las especicaciones de diseo?
Comenzamos notando los sucesos Ai : la -sima arandela extraida es ms gruesa que las especicaciones de diseo, i = 1, 2, 3.
Entonces, nos piden
P [A1 A2 A3 ] = P [A1 ] P [A2 /A1 ] P [A3 /A1 A2 ]
30 29 28
=
.
50 49 48
2. Cul es la probabilidad de que la tercera arandela seleccionada sea ms gruesa que las especicaciones de diseo si las dos primeras fueron ms delgadas que la especicacin?
30
.
P A3 /A1 A2 =
48
3.8.
Los siguientes dos resultados se conocen como Teorema de la probabilidad total y Teorema de Bayes
respectivamente, y juegan un importante papel a la hora de calcular probabilidades. Los dos utilizan como
principal herramienta el concepto de probabilidad condicionada.
. Sea P una funcin de probabilidad en un espacio muestral. Sea
{A1 , ..., AN } F una particin del espacio muestral y sea B un suceso cualquiera. Entonces,
Teorema de la Probabilidad Total
53
Teorema de Bayes
P [Ai | B] =
P [B | Ai ] P [Ai ]
.
P [B | A1 ] P [A1 ] + ... + P [B | AN ] P [AN ]
Supongamos que tenemos 4 cajas con componentes electrnicas dentro. La caja 1 contiene
2000 componentes, con un 5 % de defectuosas; la caja 2 contiene 500 componentes, con un 40% de
defectuosas; las cajas 3 y 4 contienen 1000 componentes, con un 10 % de defectuosas.
Ejemplo.
4
9
1
=
9
2
=
9
2
=
9
=
2. Si se escoge una componente al azar y resulta ser defectuosa, cul es la probabilidad de que
pertenezca a la caja 1?
P [C1 | D] =
0.05 49
P [D | C1 ] P [C1 ]
=
= 0.2
P [D]
0.11111
Se disponen tres cajas donde se almacenan acumuladores segn aparece en el Cuadro 3.2.
Se escoge al azar una caja y de ella, a su vez, un acumulador.
Ejemplo.
54
0.01
0.1
1.0
Total
Nmero
1
20
55
70
145
en cada
2
95
35
80
210
caja
3
25
75
145
245
Total
140
165
295
600
Por su parte,
P [1.0F ] = P [1.0F / c1] P [c1] + P [1.0F / c2] P [c2] + P [1.0F / c3] P [c3]
80 1 145 1
6205
70 1
=
+
+
=
= 0.48518,
145 3 210 3 245 3
12 789
luego
P [c1 / 1.0F ] =
70 1
145 3
6205
12 789
2058
= 0.33167.
6205
Siguiendo con el ejemplo de las arandelas con grosor fuera de las especicaciones de diseo,
cul es la probabilidad de que la tercera arandela seleccionada sea ms gruesa que las especicaciones
de diseo?
Ejemplo.
55
Ejemplo.
que el dgito 3 es enviado tres veces ms frecuentemente que 1, y 2 dos veces ms frecuentemente
que 1.
Calculemos la probabilidad de que un dgito cualquiera enviado a travs del canal sea recibido
correctamente.
En primer lugar, si notamos
P [X = 1] = p,
entonces
P [X = 2] = 2p
P [X = 3] = 3p.
como
1 = P [X = 1] + P [X = 2] + P [X = 3] = 6p,
se tiene que
P [X = 1] =
1
1
, P [X = 2] =
6
3
P [X = 3] =
1
.
2
P [X = 1 / Y = 1] =
P [Y = 1 / X = 1] P [X = 1]
.
P [Y = 1]
Por su parte,
P [Y = 1] = P [Y = 1 / X = 1] P [X = 1]
+ P [Y = 1 / X = 2] P [X = 2]
+ P [Y = 1 / X = 3] P [X = 3]
=
+ + ,
6
6
4
luego
P [X = 1 / Y = 1] =
56
1
6
1
+
6
6
=2
1 +
.
2 + 2 2 3
La importancia del Teorema de Bayes en Estadstica va mucho ms all de su aplicacin como frmula
que facilita probabilidades condicionadas. La losofa que subyace en l ha dado lugar a toda una forma de
entender la Estadstica, llamada por ello Estadstica Bayesiana. Vamos a tratar de explicar los fundamentos
de esta manera de entender el teorema.
Supongamos que hay un suceso A sobre el que tenemos un serio desconocimiento acerca de si se da o no se
da. Tanto es as que tenemos que determinar la probabilidad de dicho suceso, P [A]. Es importante entender
que nosotros somos conscientes de que A ha ocurrido o no ha ocurrido: el problema es precisamente que
no sabemos qu ha pasado. Decimos que es importante porque P [A] no representa la probabilidad de que A
ocurra, sino nuestro grado de creencia en que ha ocurrido.
Es posible que no tengamos, en principio, datos para conocer de forma exacta cul es la probabilidad de A.
An as, podramos atrevernos, como expertos en el tema, a dar una estimacin de dicha probabilidad, P [A].
A esta probabilidad inicial que damos la vamos a llamar probabilidad a priori.
Ahora bien, hemos dado una probabilidad a priori P [A] sin ninguna informacin sobre A. Supongamos ahora
que tenemos nueva informacin que nos dar pistas acerca de si A ha ocurrido o no, y que dicha informacin
est recogida en un suceso que llamaremos B1 . En ese caso, podramos y deberamos actualizar la probabilidad
de A basndonos en esta nueva informacin, proporcionando una nueva probabilidad de A que tenga en cuenta
B1 , es decir, P [A |B1 ], que llamaremos probabilidad a posteriori.
En esa
actualizacin de la probabilidad es donde entra el Teorema de Bayes, ya que nos dice que
P [A |B1 ] =
P [B1 |A ] P [A]
.
P [B1 |A ] P [A] + P [B1 |A ] P A
57
a posteriori sera
P [A |B1 B2 ] =
=
1
P [B2 |A ] P [A |B1 ]
.
P [B2 |A ] P [A |B1 ] + P [B2 |A ] P A |B1
Es muy importante observar que en este cociente P [A |B ] ocupa el lugar que antes ocupaba la probabilidad
a priori. Adems, esta segunda probabilidad a posteriori podra considerarse como la nueva probabilidad a
priori para una nueva aplicacin del teorema basada en el conocimiento de nueva informacin dada por un
suceso B3 . Este proceso de actualizacin de las probabilidades a priori basada en la informacin disponible
puede realizarse cuantas veces sea necesario.
Vamos a ilustrar esto en un par de ejemplos.
1
3.9.1.
Supongamos que un juez debe decidir si un sospechoso es inocente o culpable. l sabe que debe ser cuidadoso
y garantista con los derechos del acusado, pero tambin por su experiencia parte de una creencia en que
el sospechoso puede ser culpable que, en cualquier caso, estima por debajo de lo que realmente cree para,
insisto, ser garantista con los derechos del acusado. Pongamos que estima esta probabilidad en un 10%.
Ahora empieza a examinar las pruebas. La primera de ellas es una prueba de ADN en la que el acusado dio
positivo: encontraron material gentico en el arma del crimen que, segn la prueba, es suyo. Esa prueba de
ADN da positivo en el 99.5 % de las veces en que se comparan dos ADN's idnticos, pero tambin da positivo
(errneamente) en el 0.005% de las veces en que se aplica a dos ADN's distintos. Teniendo en cuenta esta
informacin, el juez aplica por primera vez el teorema de Bayes con los siguientes datos:
, que es la probabilidad a priori que el juez considera.
La probabilidad de que la prueba de ADN de positivo si el acusado es culpable es
P [culpable] = 0.1
P [culpable |ADN + ] =
que la mquina dir el 1 % de las veces que un inocente miente. Nuestro sospechoso se somete a la mquina y
sta dice que es inocente. Cul ser ahora la probabilidad que el juez asigna a la culpabilidad del sospechoso?
Teniendo en cuenta que:
,
debe aplicar de nuevo el Teorema de Bayes, considerando ahora que la probabilidad a priori de que sea
culpable es 99.9548 %:
P [maquina |culpable ] P [culpable]
P [maquina |culpable ] P [culpable] + P [maquina |inocente ] P [inocente]
0.1 0.999548
=
= 0.9955431.
0.1 0.999548 + (1 0.01) (1 0.999548)
P [culpable |maquina ] =
Es decir, an con esa prueba negativa, el juez an tiene un 99.55431% de certidumbre de que el sospechoso
es culpable.
3.9.2.
En un proceso industrial de produccin en serie de caps de coche, existe una mquina encargada de detectar
desperfectos que desechen una pieza de cap. Esa mquina est calibrada para detectar una pieza defectuosa
con un 90 % de acierto, pero tambin detecta como defectuosas el 5 % de las piezas no defectuosas. El
encargado de calidad estima, por estudios previos, que el porcentaje general de piezas defectuosas es del 5%.
Este encargado, consciente de que la mquina puede dar por buenas piezas que son defectuosas, decide actuar
de la siguiente forma: una pieza que sea detectada como no defectuosa pasar otras dos veces por la misma
mquina detectora y slo ser declarada no defectuosa cuando en ninguna de esas tres pruebas, de defectuosa.
Supongamos que una pieza pasa las tres veces y da no defectuosa: cul es la probabilidad de que realmente
sea no defectuosa?
Vamos a empezar notando adecuadamente los sucesos. Notaremos D al suceso ser defectuosa y por + a dar
positivo como defectuosa en la prueba de la mquina. Sabemos que:
P [D] = 0.05
P [+ |D ] = 0.9
P [+ |D ] = 0.05
La probabilidad a priori de que una pieza sea no defectuosa es de 0.95, pero si es detectada como defectuosa
una primera vez, dicha probabilidad pasa a ser
|D ] P D
P [+
+ P [+
|D ] P [D]
|D ] P D
P [+
0.95 0.95
=
= 0.9944904.
0.95 0.95 + 0.1 0.05
|+
P D
=
59
Esa probabilidad pasa a ser la probabilidad a priori para la segunda vez que da no defectuosa. Por tanto, la
probabilidad de que sea no defectuosa si da negativo por segunda vez es
|D ] 0.9944904
P [+
|D ] (1 0.9944904)
P [+ |D ] 0.9944904 + P [+
0.95 0.9944904
=
= 0.9994172.
0.95 0.9944904 + 0.1 (1 0.9944904)
|+
P D
+
=
|D ] 0.9994172
P [+
|D ] 0.9994172 + P [+
|D ] (1 0.9994172)
P [+
0.95 0.9994172
= 0.9999386.
=
0.95 0.9994172 + 0.1 (1 0.9994172)
|+
P D
+
+
=
Como podemos ver, si una pieza da no defectuosa tres veces, la probabilidad de que sea realmente no
defectuosa es altsima, del orden del 99.99 %, as que el mtodo ideado por el responsable de calidad parece
consistente.
60
Captulo 4
Variable aleatoria. Modelos de
distribuciones de probabilidad
Mas a pesar de todo eso, aunque la mala suerte exista, muy pocos reporteros veteranos creen de
verdad en ella. En la guerra, las cosas suelen discurrir ms bien segn la ley de las probabilidades:
tanto va el cntaro a la fuente que al nal hace bang.
Arturo Prez Reverte, en
Territorio Comanche
variable aleatoria, variable discreta, funcin masa de probabilidad, variable continua, funcin
de densidad de probabilidad, funcin de distribucin, media, varianza, distribucin binomial, distribucin
de Poisson, distribucin geomtrica, distribucin uniforme, distribucin exponencial, distribucin Gamma,
distribucin normal.
Palabras clave:
4.1.
Introduccin
En el tema anterior hemos visto que la Estadstica se ocupa de experimentos aleatorios. En general, en Ciencia
y Tecnologa se suele analizar cualquier experimento mediante una o varias medidas del mismo. Por ejemplo,
se analiza un objeto segn su peso, su volumen, su densidad, su contenido de agua...; o se analiza el trco
de Internet segn el nmero de conexiones a un servidor, el volumen total de trco generado, la velocidad...
En estos sencillos ejemplos observamos que se ha descrito un fenmeno fsico, como puede ser un objeto o
el estado de una red de comunicaciones en un momento dado, mediante uno o varios nmeros o variables.
Cuando ese fenmeno es de tipo aleatorio, vamos a llamar a esa asignacin variable aleatoria .
Consideremos un experimento probabilstico con un espacio muestral en el que se ha denido una funcin
de probabilidad P [] .
61
Una variable aleatoria (a partir de ahora v.a.) es un nmero real asociado al resultado de un
experimento aleatorio. Se trata, por tanto, de una funcin real con dominio en el espacio muestral,
X : R.
Podemos pensar en una v.a. como en una variable asociada a una poblacin conceptual, ya que slo podr
observarse cuando se tomen muestras suyas.
En la notacin que vamos a utilizar representaremos las variables aleatorias como funciones siempre en
maysculas, y a sus valores concretos siempre en minscula. Es decir, si queremos referirnos a una v.a. antes
de observar su valor, podemos notarla como X, por ejemplo; pero una vez que se observa el valor de dicha
variable (ya no es, por tanto, algo aleatorio), debemos notar a ese valor en minscula, por ejemplo, como x.
Por ejemplo, podemos decir que la variable aleatoria X que corresponde a la puntuacin obtenida al lanzar el
dado puede tomar los valores x = 1, 2, 3, 4, 5, 6. Podremos preguntarnos por la probabilidad de que X tome
el valor x = 4 o de que X 6. Si lanzamos el dado y observamos que ha salido un 6, diremos que x = 6.
No olvidemos que el objeto de la Estadstica con respecto a la observacin de fenmenos aleatorios es medir
la certidumbre o la incertidumbre asociada a sus posibles resultados. Al describir estos resultados mediante
variables aleatorias, lo que tenemos son resultados numricos sujetos a incertidumbre. El objetivo ahora es
cuanticar la probabilidad de esos resultados numricos de alguna forma.
4.2.
4.2.1. Denicin
Se dice que una v.a. es discreta si el conjunto de todos los valores que puede tomar es un conjunto,
a lo sumo, numerable (discreto).
Ejemplo.
como
f (x) = P [X = x] ,
para cada x R.
62
Obsrvese que una funcin masa de una v.a. discreta est denida en todos los puntos de la recta
real, pero slo valdr distinto de cero en un conjunto, a lo sumo, numerable, que corresponde con los
nicos valores que pueden darse de la variable.
Nota.
xR
f (x) = 1.
f (xi ) ,
xi B
En la prctica nadie conoce la autntica funcin masa de una variable discreta, pero podemos aproximarla
mediante la funcin masa de probabilidad emprica asociada a una muestra de resultados.
Si tenemos una coleccin de posibles resultados de la variable X , x1 , ..., xN , esta funcin asigna al valor x la
frecuencia con la que dicho valor se da en la muestra, es decir,
femp (x) =
n
umero de valores xi iguales a x
.
N
Si el tamao, N , de la muestra es grande, esta funcin tiende a la autntica, es decir, para cada x R.
lm femp (x) = f (x) .
4.2.4.
Dada una v.a. discreta, X , con funcin masa de probabilidad f (x), se dene su media o esperanza
matemtica como
X
EX =
x f (x).
63
Figura 4.1: Funcin masa emprica de una muestra de 600 lanzamientos de un dado.
Como en el caso de la media muestral de unos datos, la media de una v.a. se interpreta como el centro de
gravedad de los valores que puede tomar la variable, con la diferencia que en una media muestral, el peso de
cada valor lo da la frecuencia de dicho valor en los datos y aqu el peso lo determina la probabilidad, dada
por la funcin masa.
Dada una v.a. discreta, X , con funcin masa de probabilidad f (x), se dene su varianza como
V arX =
X
x
(x EX)2 f (x).
X
x
X
x
(x EX)2 f (x) =
2
x f (x) 2EX
X
x
X
x
x f (x) + EX 2
f (x)
Al igual que ocurre con la varianza muestral es conveniente denir la desviacin tpica de una v.a., como
= V arX , que tiene las mismas unidades que la media y que se puede interpretar como una media del
grado de variacin del conjunto de valores que puede tomar la v.a. respecto del valor de la media.
4.3.
Segn lo que hemos visto hasta ahora, la forma en que se asigna probabilidad a los resultados de una
variable aleatoria discreta viene dada por la funcin masa de probabilidad. A esta manera de determinar la
probabilidad asociada a los resultados de la variable la vamos a llamar a partir de ahora distribucin de
64
probabilidad de una v.a. Dmonos cuenta que, como acabamos de comentar, para determinar la distribucin
de probabilidad de una v.a. slo tenemos que dar su funcin funcin masa de probabilidad.
Sin embargo, debemos tener en cuenta que en la vida real nadie conoce cul es la autntica distribucin de
probabilidad de una v.a., porque nadie sabe a priori cul es la funcin masa de dicha variable. Todo lo ms,
podemos calcular la funcin masa emprica a partir de los datos de una muestra. An as, llegar el momento
de
pasar al lmite,
abilidad. Se trata de frmulas tericas de funciones masa que pueden resultar adecuadas para determinadas
variables aleatorias.
Hay una metfora que puede ayudar a entender cmo se asigna una distribucin de probabilidad y sobre la que
abundaremos en lo sucesivo: qu ocurre cuando queremos comprar unos pantalones? En general acudimos
a una tienda de moda y:
1. De entre una serie de modelos, elegimos el modelo que creemos que mejor nos va.
2. Buscamos la talla que hace que mejor se ajuste a nosotros, segn nuestras caractersticas.
Pues bien, en el caso de las v.a.
nuestras caractersticas
son las posibles observaciones que tenemos sobre la v.a. que, por ejemplo,
los modelos
de la tienda, entre los que elegimos el que ms nos gusta, son los modelos tericos que
la talla
que hace que los pantalones se ajusten a nosotros adecuadamente son los parmetros de los
modelos tericos.
En lo que resta de este captulo vamos a describir algunos de los modelos tericos de probabilidad ms
habituales en el mbito de las Ingenieras, comenzando por el caso de v.a. discretas.
4.3.1.
Sea
Distribucin binomial
X B (n, p))
=
X B (n, p).
donde
es un nmero natural
(y se nota
si su funcin masa es
f (x) =
Sea
x = 0, 1, ..., n,
n
x
px (1 p)
nx
n!
nx
px (1 p)
, x = 0, 1, 2, ..., n.
x! (n x)!
Entonces
EX = np
V arX = np (1 p) .
Prof. Dr. Antonio Jos Sez Castillo
65
0.4
B(10,0.25)
0.3
0.2
0.1
0
10
0.4
B(10,0.5)
0.3
0.2
0.1
0
10
0.4
B(10,0.75)
0.3
0.2
0.1
0
10
veces de forma independiente y que en ese experimento hay un suceso que denominamos xito,
p.
B (n, p).
En esta caracterizacin es importante observar que las dos hiptesis fundamentales de esta distribucin son:
En la medida en que estas dos hiptesis no sean vlidas, la distribucin binomial no ser adecuada para la
variable que cuenta el nmero de xitos.
Un ejemplo particular de distribucin binomial lo constituye la denominada distribucin de Bernouilli.
Se trata de una distribucin
B (1, p),
f (x) =
Ejemplo.
sume
Consideremos
alcohol.
como
Podramos
pensar
n
umero medio de d
as de consumo
?
7
66
v.a.
el
que
1p
nmero
se
trata
si
si
x=0
x=1
de
das
de
una
la
v.a.
semana
con
que
un
distribucin
joven
B (7, p),
de
hoy
con-
donde
p =
x
P [X = x]
4
0
1
0
0.2 0.8
= 0.41
4
1
2
1
0.2 0.8
= 0.41
4
2
3
2
0.2 0.8
= 0.15
4
3
4
3
0.2 0.8
= 0.03
4
4
0.24 0.80
= 0.00
1. Puede darse el efecto resaca, es decir, si se consume mucho un da, huir del alcohol al da siguiente; o
el efecto inverso un clavo quita otro clavo ; o ...; en denitiva, circunstancias que rompan la hiptesis
de independencia en el consumo en das distintos.
2. Est claro que la probabilidad de consumir un martes no es, en general, la misma que un sbado.
Tampoco todos los jvenes tienen la misma probabilidad de consumir alcohol un da cualquiera.
Un ingeniero se ve obligado a transmitir dgitos binarios a travs de un sistema de comunicaciones bastante imperfecto. Por estudios previos, estima que la probabilidad de que un dgito se
transmita incorrectamente es del 20 %. El ingeniero enva un mensaje de 4 dgitos y se pregunta cuntos
se recibirn incorrectamente.
Ejemplo.
Desde el punto de vista estadstico nosotros no podemos responder a esa pregunta. En realidad, nadie
puede responder a esa pregunta con certeza, porque existe incertidumbre latente en ella: el azar determinar cuntos dgitos se cruzan. Lo que s podemos hacer es facilitarle el grado de certeza, es decir, la
probabilidad, de cada uno de los posibles resultados.
Concretamente, si analizamos la variable X : nmero de dgitos que se reciben incorrectamente, teniendo
en cuenta que el ensayo de cada envo de cada dgito se har de forma independiente y que nos ha dicho
que la probabilidad de que un dgito se reciba incorrectamente es 0.2, podemos armar que un modelo de
probabilidad adecuado para dicha variable es una distribucin B(4, 0.2). Esta distribucin nos permite
calcular la probabilidad de que se crucen 0, 1, 2, 3 o 4 de los dgitos. Lo esquematizamos en la tabla
adjunta. Vistos los resultados, debemos decirle al ingeniero que es hartamente improbable que le fallen
los 4 dgitos, pero que tiene una probabilidad (ver Cuadro 4.1) de
0.41 + 0.15 + 0.03 + 0.00 = 0.59
4.3.2.
Distribucin de Poisson
Sea X una v.a. discreta, que puede tomar los valores x = 0, 1, 2, ... Se dice que X sigue una
distribucin de Poisson de parmetro (y se nota X P ()) si su funcin masa es
f (x) = e
Prof. Dr. Antonio Jos Sez Castillo
x
, x = 0, 1, 2, ...
x!
67
X : n
umero de ocurrencias del suceso por unidad de tiempo
es una variable de
Poisson de parmetro
, y se nota X P () .
independencia
el promedio
de las realizaciones y
constante
La distribucin de Poisson suele utilizarse como modelo para el nmero de accidentes ocurridos
en los individuos de una poblacin a lo largo de un periodo de tiempo. Lo que mucha gente no termina
de asumir es que hacer esa suposicin equivale a decir que todos esos individuos tienen el mismo riesgo
de tener un accidente y que el hecho de que un individuo tenga un accidente no modica para nada la
probabilidad de sufrir un nuevo accidente. Es evidente que en muchas situaciones de la vida real eso no
es cierto, as que el modelo no ser adecuado en ellas.
Ejemplo.
Otra aplicacin muy comn de la distribucin de Poisson es al nmero de partculas por unidad
de volumen en un uido cuando una disolucin est realmente bien disuelta. En caso de que los datos
indiquen que la distribucin de Poisson no es adecuada, podramos de hecho inferir que la disolucin no
est bien disuelta.
Ejemplo.
Sin embargo, hay que decir que aunque este uso de la distribucin de Poisson es muy comn, es evidente
que la hiptesis de que el promedio debe ser constante, no se da en estas aplicaciones, ya que uno de
los fenmenos ms conocidos en telecomunicaciones es el de la hora cargada : no es el mismo promedio de
llamadas el que se produce a las 12 del medioda que a las 3 de la maana. Lo que se suele hacer es aplicar
uno de los principios ms importantes aunque menos escritos de la ingeniera, la ley de Murphy (si algo
puede ir mal, preprate para ello, porque en algun momento ir mal ): as, las redes de telecomunicaciones
suelen dimensionarse para ser capaces de funcionar en el peor de los escenarios posibles, es decir, cuando
el promedio de solicitudes es el que se da en la hora cargada.
68
0.4
P(1)
0.3
0.2
0.1
0
5
10
15
20
25
0.2
P(5)
0.15
0.1
0.05
0
5
10
15
20
25
0.2
P(10)
0.15
0.1
0.05
0
5
10
15
20
25
xito,
p.
es grande y
que mide el
n > 100,
np < 10.
n > 20
p < 0.05.
Si
para esos valores de los parmetros, la distribucin binomial tendra bastantes problemas para ser computada,
ya que se exigira, entre otros clculos, el clculo de
n!
para un valor de
es muy til.
Ejemplo.
generadores de gran tamao. Si la probabilidad de que cualquiera de ellos falle durante el ao en curso
1
b.
= np = (3840)(1/1200) = 3.2.
69
Sea X la variable que dene el nmero de motores que pueden fallar en el ao, con valores x =
0, 1, 2, 3, ...., 3840.
En principio, X B (3840, 1/1200) , pero dado que n es muy grande y p muy pequeo, podemos
considerar que X P (3.2). Por tanto,
P [X = 4] =
e3.2 3.24
= 0.178 09
4!
Por su parte,
P [X > 1] = 1 P [X = 0, 1] = 1
4.3.3.
e3.2 3.20
e3.2 3.21
= 0.828 80
0!
1!
Distribucin geomtrica
Sea X una v.a. discreta que puede tomar los valores x = 0, 1, 2, ... Se dice que sigue una distribucin geomtrica de parmetro p (y se nota X Geo (p)), con 0 < p < 1, si su funcin masa
es
x
f (x) = p (1 p) , para x = 0, 1, 2, ...
Sea X Geo (p). Entonces,
1p
p
1p
V arX =
.
p2
EX =
Siguiendo con un ejemplo anterior, sobre el ingeniero que enva dgitos a travs de un canal
imperfecto, ahora se plantea cuntos dgitos se recibirn correctamente hasta que uno se cruce, sabiendo
que la probabilidad de que uno cualquiera lo haga es de 0.2.
Ejemplo.
La variable de inters ahora es Y : n de dgitos que se reciben bien hasta el primero que se cruza. Esta
variable tiene como modelo de probabilidad una distribucin Geo(0.2). Gracias a este modelo, podemos
decirle, por ejemplo, que la probabilidad de que enve bien dos y que falle el tercero es de
P [Y = 2] = 0.2 0.82 = 0.128.
70
0.4
Geo(0.25)
0.3
0.2
0.1
0
5
10
15
20
25
0.8
Geo(0.5)
0.6
0.4
0.2
0
5
10
15
20
25
0.8
Geo(0.75)
0.6
0.4
0.2
0
5
10
15
20
25
4.3.4.
x = 0, 1, 2, ... Se dice que X sigue una distribunegativa de parmetros a y p (y se nota X BN (a, p)), con a > 0 y 0 < p < 1,
si su funcin masa es
f (x) =
donde
(x) =
sx1 es ds
(a + x)
x
pa (1 p)
(a) (x + 1)
para
x = 0, 1, 2, ...
es la funcin gamma.
X BN (a, p).
a = 1.
Entonces
1p
p
1p
V arX = a 2
p
EX = a
k-simo
p.
BN (k, p).
xito,
que ocurre
(r) = (r 1)!
si
es un
71
entero,
(k + x 1)! k
x
p (1 p) para x = 0, 1, 2, ...
(k 1)!x!
!
k+x1
x
pk (1 p) para x = 0, 1, 2, ...
=
k1
f (x) =
. Sean X1 , ..., Xn v.a. independientes1 con disi=1 Xi sigue una BN (n, p). De nuevo obsrvese que el primer parmetro
Pn
Continuando con el ejemplo de la transmisin de dgitos a travs de un sistema imperfecto, cuntos dgitos se transmitirn correctamente hasta que dos lo hagan incorrectamente? De nuevo
tenemos que asumir que no hay una respuesta para esto, pero s podemos considerar un modelo de
probabilidad para ello que nos ayude a tomar decisiones.
Ejemplo.
Sea Z : n de dgitos que se reciben bien hasta que dos se cruzan. Esta v.a. sigue una distribucin
BN (2, 0.2). Gracias a este modelo, podemos decirle al ingeniero, por ejemplo, que la probabilidad de
que se le crucen 2 dgitos con 10 o menos envos es
P [Z 8] =
4.4.
8
X
P [Z = z] =
z=0
8
X
(2 + z 1)!
z=0
(2 1)!z!
4.4.1. Denicin
Una variable aleatoria es continua si el conjunto de valores que puede tomar slo puede encerrarse
en intervalos, formando, por tanto, un conjunto con un nmero innito no numerable de elementos.
Ejemplo.
quedarnos por ahora con la idea de que v.a. independientes son aquellas tales que el resultado de cualquiera de
72
0.1
0.06
BN(2.5,0.25)
BN(5,0.25)
0.04
0.05
0.02
0
10
10
20
30
40
0.4
0
10
10
20
BN(5,0.5)
0.3
0.15
0.2
0.1
0.1
0.05
0
10
20
30
40
0.8
0
10
10
20
30
40
0.4
BN(2.5,0.75)
BN(5,0.75)
0.6
0.3
0.4
0.2
0.2
0.1
0
10
40
0.2
BN(2.5,0.5)
0
10
30
10
20
30
40
0
10
10
20
30
40
Histograma
Hay una diferencia fundamental entre las variables discretas y las continuas: en las discretas podemos, al
menos, numerar los posibles valores y contar el nmero de veces que sale cada valor posible en una muestra.
Sin embargo, por el carcter que tienen los intervalos de nmeros reales, por muy grande que fuera la muestra
que tomramos de una variable continua, jams tendramos ms de un valor de algunos puntos que puede
tomar la variable2 .
Por esa razn, en una variable continua no podemos denir una funcin masa emprica, precisamente porque
los valores de una variable continua no tienen masa de probabilidad.
Sin embargo, como sabemos, existe una representacin anloga a la funcin masa emprica que permite
aproximar las probabilidades de los valores de una variable continua: el histograma.
Vamos a considerar un sencillo ejemplo para ilustrar esta cuestin: mediante R simulamos dos muestras de
una variable, una con N = 100 valores y otra con N = 1000. Histogramas asociados a estas muestras, con
10 y 31 intervalos, respectivamente, aparecen en la Figura 4.6. Teniendo en cuenta que el rea de las barras
representa la frecuencia relativa con que se dan los valores de los sucesivos intervalos en la muestra, en estos
histogramas podemos ver que la variable toma mayoritariamente valores cercanos a cero; tanto ms lejano al
cero es un valor, menos probable parece ser. Este descenso de la probabilidad es adems, muy acusado, casi
exponencial.
Por otra parte, obsrvese que al pasar de 100 datos en la muestra a 1000 datos, el histograma esboza la forma
de una funcin real de variable real. En general, cuanto mayor es N ms se aproximan los histogramas a la
2 Esto
73
0.4
Densidad
0.2
0.4
0.0
0.0
0.2
Densidad
0.6
0.6
0.8
0.8
forma de una funcin continua. Vamos a ir viendo cul es la utilidad de esa funcin desde el punto de vista
del Clculo de Probabilidades.
Si en el histograma de la izquierda de la Figura 4.6 quisiramos calcular la probabilidad en la muestra de
alguno de los intervalos que denen el grco, la respuesta sera el rea de la barra sobre dicho intervalo. Si
quisiramos la probabilidad en la muestra de varios intervalos, sumaramos las reas de las barras.
El problema es que para que las probabilidades en la muestra se parezcan a las verdaderas probabilidades
es necesario que el tamao de la muestra sea grande, cuanto mayor, mejor. En ese caso, tendramos un
histograma ms parecido al de la derecha de la Figura 4.6. En l, de nuevo, si queremos, por ejemplo, calcular
P [a < X < b] ,
deberamos sumar las reas de las barras que forman el intervalo (a, b), si es que hay intervalos que forman,
exactamente, el intervalo (a, b) .
Pero si el tamao de la muestra es lo sucientemente amplio para poder pasar al lmite y encontrar una
funcin real de variable real f (x) que represente la lnea que dene el histograma, calcular una probabilidad
del tipo P [a < X < b] sumando las reas de las barras de los intervalos innitesimales que forman el intervalo
(a, b) equivale a integrar dicha funcin en el intervalo (a, b), es decir,
P [a < X < b] =
f (x) dx.
74
4.4.3.
Funcin de densidad
probabilidad
de X es aquella funcin
f (x) dx
Dado que a efectos del clculo de integrales un punto no afecta al resultado de la integral, si
a, b R, podemos decir que
Nota.
P [a X < b] =
P [a < X b] =
P [a X b] =
P [a < X < b] =
f (x) ,
f (x) ,
f (x) ,
f (x) .
Este hecho pone de maniesto que los valores concretos de una variable aleatoria continua no tienen
masa de probabilidad, ya que
x0
P [X = x0 ] =
f (x) dx = 0,
x0
pero s tienen densidad de probabilidad, f (x0 ). Esta densidad de probabilidad representa la probabilidad
de los intervalos innitesimales de valores alrededor de x0 . As, aunque P [X = x0 ] = 0, si f (x0 ) toma
un valor alto, querr decir que los valores alrededor de x0 son muy probables.
Dada una v.a. continua, X con funcin de densidad f (x):
1. f (x) 0 para todo x R.
2.
f (x) = 1.
f (x) dx.
Funcin de distribucin
Se dene la
F (x) = P [X x] =
X como
f (t) dt.
Si X es una v.a. continua con funcin de densidad f (x) y funcin de distribucin F (x), entonces
Prof. Dr. Antonio Jos Sez Castillo
75
1.
lmx F (x) = 0.
2.
lmx F (x) = 1.
3.
es creciente.
4.
es continua.
5.
f (x) = F (x) .
Ejemplo.
c,
X,
la funcin de distribucin y
f (x) = cea|x| .
P [X 0].
En primer lugar,
1=
=
f (x) dx =
f (x) dx +
c=
f (x) dx
c exp (ax) dx =
c exp (ax) dx +
2c
,
a
a
2.
F (x) =
f (t) dt =
Por ltimo,
P [X 0] =
1 ax
si x < 0
2e
1
1eax
si x
2 +
2
f (x) dx = 21 .
76
a = 1,
Ejemplo.
F (x) =
0 si x < 0
x si 0 x < 1 .
f (x) = F (x) =
1 si x 1
1 si 0 x 1
0 en otro caso
Grcamente, ambas funciones aparecen en la Figura 4.8. En esta variable, todos los puntos tienen la
misma densidad de probabilidad, indicando que todos los intervalos de la misma longitud, dentro de
[0, 1] , tienen la misma probabilidad.
4.4.5.
Al igual que ocurre con la funcin masa emprica con respecto a la funcin masa y al histograma con respecto
a la funcin de densidad, la funcin de distribucin, indistintamente de que se trate de una variable discreta
o continua, tambin tiene una versin muestral.
Concretamente, si tenemos una variable aleatoria X y una muestra suya de tamao N, (x1 , ..., xN ) , la funcin
de distribucin emprica se dene como
SN (x) =
n
umero de valores x
.
N
Esta funcin se utiliza para aproximarse a la funcin de distribucin, ya que para un gran nmero de valores,
Prof. Dr. Antonio Jos Sez Castillo
77
para cada x.
Ejemplo.
En el ejemplo anterior se hablaba de una variable aleatoria continua cuya funcin de distribu-
cin es
F (x) =
0 si x < 0
x si x [0, 1] .
1 si x > 1
En la Figura 4.9 hemos representado dos funciones de distribucin empricas asociadas a sendas muestras
de tamao N = 10 (izquierda) y N = 100 (derecha).
Obsrvese que cuando aumenta el tamao de la muestra (N ), la funcin de distribucin emprica se
parece cada vez ms a la funcin de distribucin.
4.4.6.
Sea X una v.a. continua con funcin de densidad f (x). Se dene su media o esperanza matemtica
como
x f (x)dx.
EX =
La interpretacin de la media de una v.a. continua es, de nuevo, la de un valor central alrededor del que se
dan el conjunto de realizaciones de la v.a. Otra interpretacin es la de valor esperado, en el sentido de que
es el valor de la variable aleatoria en el que a priori se tienen ms esperanzas.
78
Ejemplo.
si x1 x x2
.
0 en otro caso
1
x2 x1
Calculemos su media:
x2
1
dx
x
x1
2
x1
2 x2
1
1 x2 x21
x
=
= 2
x2 x1
2 x1
2 x2 x1
EX =
1
1 (x2 x1 ) (x2 + x1 )
= (x1 + x2 ) ,
2
x2 x1
2
Ejemplo.
ex si x 0
0 en otro caso
Calculemos su media:
EX =
x ex dx
u=x
dv = ex dx
ex dx
=
x ex 0 +
0
1
1
= 0 + ex
= .
Vamos a introducir ahora el concepto de varianza de una v.a. continua, que de nuevo se interpreta como una
medida de la concentracin de los valores de la v.a. en torno a su media.
Sea una v.a. X . Se dene su
varianza
Es decir, es la media de las desviaciones al cuadrado de los valores de la variable respecto de su media.
La raz cuadrada de la varianza, =
p
V ar [X] se conoce como
desviacin tpica
Como en el caso de las v.a. discretas, existe un mtodo ms cmodo para el clculo de cualquier varianza.
Prof. Dr. Antonio Jos Sez Castillo
79
En concreto,
h
i
h
i
2
2
V ar [X] = E (X EX) = E X 2 2X EX + (EX)
2
2
= E X 2 2 EX EX + (EX) = E X 2 (EX) .
Ejemplo.
E X2 =
=
x2
si x1 x x2
.
0 en otro caso
1
x2 x1
x2
x1
x22 +
1
1 x32 x31
dx =
x2 x1
3 x2 x1
x1 x2 + x21
.
3
x1 + x2
,
2
por tanto,
V ar [X] = E X 2 EX 2
=
Nota.
(x1 + x2 )
(x2 x1 )
x22 + x1 x2 + x21
=
.
3
4
12
Probablemente las mentes ms despiertas ya se hayan planteado qu relacin hay entre la media y la
varianza de una v.a. (discreta o continua) y la media y la varianza de unos datos, denidas en el captulo
de Estadstica Descriptiva.
La respuesta la veremos ms adelante, pero podemos ir avanzando que la relacin es parecida a la que se
da entre los diagramas de barras y las funciones masa o entre los histogramas y las funciones de densidad.
Es decir, si tenemos unos datos de una variable, en otras palabras, una muestra de una variable, la media
y la varianza de la muestra sern aproximaciones de la media y la varianza de la variable aleatoria,
aproximaciones que deben ser tanto mejores cuanto mayor sea el tamao de la muestra.
80
Nota.
Un cambio de origen de una variable consiste en sumar o restar una determinada cantidad a los valores
de la variable, mientras que un cambio de escala supone multiplicar por un factor dichos valroes. En
general, si X es una variable cualquiera, un cambio de origen y escala supone considerar aX + b.
Ya comentamos en el captulo de Estadstica Descriptiva el comportamiento de la media y la varianza
muestral frente a estos cambios de origen y escala. Ahora nos referimos aqu al comportamiento de
sus homlogos poblacionales. Este resultado es muy til en la prctica y es vlido tanto para variables
continuas como para discretas. Concretamente, si X es una v.a. y a, b R, entonces
E [aX + b] = aE [X] + b
V ar [aX + b] = a2 V arX
Si tenemos una coleccin de variables aleatorias independientes, es decir, que son observadas sin
que ninguna de ellas pueda inuir sobre las otras, es muy til plantearse en ocasiones por la media y la
varianza de la suma de todas ellas.
Nota.
Vamos a considerar las variables X1 , ..., Xn , que pueden ser discretas o continuas. Pues bien, se tiene que
la media de la suma es la suma de las medias y que la varianza de la suma es la suma de las varianzas;
es decir,
E [X1 + ... + Xn ] = EX1 + ... + EXn
V ar [X1 + ... + Xn ] = V arX1 + ... + V arXn
4.5.
Como en el caso de las variables discretas, vamos a describir a continuacin los modelos de distribuciones de
probabilidad ms usuales para variables continuas.
De nuevo tenemos que insistir que la utilidad de estos modelos radica en que van a facilitarnos la manera en
que se reparte la probabilidad de los valores de la variable.
4.5.1.
Se dice que una v.a. continua X que slo puede tomar valores en el intervalo (x1 , x2 ) sigue una
distribucin uniforme entre x1 y x2 (y se nota X U (x1 , x2 )) si su funcin de densidad es
f (x) =
Prof. Dr. Antonio Jos Sez Castillo
si x1 < x < x2
.
0 en otro caso
1
x2 x1
81
Sea
X U (x1 , x2 ).
Entonces
x1 + x2
2
2
(x2 x1 )
.
V arX =
12
EX =
x1
x2
Si
X U (x1 , x2 ) .
(0, 1) ;
valores simulados de
esta variable son los que se calculan con la orden RND de cualquier calculadora.
4.5.2.
Distribucin exponencial
Esta distribucin suele ser modelo de aquellos fenmenos aleatorios que miden el tiempo que transcurre entre
que ocurren dos sucesos. Por ejemplo, entre la puesta en marcha de una cierta componente y su fallo o el
tiempo que transcurre entre dos llamadas consecutivas a una centralita.
Sea
exponencial de parmetro
(y se nota
f (x) =
x
e
si x 0
.
0 en otro caso
1 ex si x 0
.
0 en otro caso
F (x) = P [X x] =
Sea
X exp ().
Entonces,
1
V arX = 2 .
EX =
Sea
de xitos en un determinado periodo de tiempo. En ese caso, el tiempo que pasa entre dos xitos consecutivos,
T,
Ejemplo.
exp ().
Un elemento radiactivo emite partculas segn una variable de Poisson con un promedio de
T,
= 15
nos permite, por ejemplo, calcular la probabilidad de que entre partcula y partcula pasen ms de 10
segundos, dado por
P [T > 10/60] =
15e15t dt = e15/6 .
1/6
82
Por ejemplo, supongamos que el nmero de conexiones a un servidor FTP sigue una distribucin de
Poisson de media 2.5 conexiones a la hora. En ese caso, podramos preguntarnos cul es la probabilidad
de que pasen ms de dos horas sin que se produzca ninguna conexin. Teniendo en cuenta que el tiempo
entre conexiones seguira una distribucin exponencial de parmetro 2.5, esa probabilidad sera
2.5e2.5x dx = 1 e5 .
Hay una interesante y curiosa propiedad de la distribucin exponencial, conocida como propiedad de no
memoria. Si X es una v.a. con distribucin exp() y t y s son dos nmeros positivos. Entonces:
P [X > t + s|X > s] = P [X > t]
P [X > t + s]
P [X > t + s X > s]
=
P [X > s]
P [X > s]
e(s+t)
= et = P [X > t]
es
El tiempo de vida, T , de un circuito, sigue una distribucin exponencial de media dos aos.
Calculemos la probabilidad de que un circuito dure ms de tres aos:
Ejemplo.
P [T > 3] = e 2 3
Supongamos que un circuito lleva 5 aos funcionando, y que nos planteamos la probabilidad de que an
funcione 3 aos ms. Segn la propiedad de no memoria, esa probabilidad es la misma que si el circuito
acabara de comenzar a funcionar, es decir,
1
Desde un punto de vista prctico, parece poco creible, porque entendemos que los 5 aos previos de
funcionamiento deben haber afectado a la abilidad del circuito, pero si creemos que la distribucin del
tiempo de vida de ste es exponencial, tenemos que asumir esta propiedad.
83
1
exp(1)
0.5
10
12
14
16
18
20
0.2
exp(5)
0.15
0.1
0.05
0
10
12
14
16
18
20
0.1
exp(10)
0.05
10
12
14
16
18
20
4.5.3.
Sea
Distribucin Gamma
Gamma
de parmetros
(y se nota
x 0.
Se dice que
X Gamma (a, ))
si su funcin de densidad es
a1
f (x) =
donde
(x) =
sx1 es ds
(x)
ex
u (x) ,
(a)
es la funcin gamma.
a=1
a = n, nmero natural, la
distribucin se denomina Erlang. Lo que la hace interesante es que esta distribucin se utiliza como modelo
del tiempo que pasa entre
Gamma
con
grados de libertad,
r
2 , 2 . Esta distribucin se utiliza, por ejemplo, para evaluar la bondad del ajuste de una distribucin
1
X Gamma (a, ).
Entonces
a
V arX = 2 .
EX =
84
0.00
0.10
0.20
Gamma(2.5,1)
10
15
20
25
30
0.00
0.02
0.04
Gamma(2.5,0.2)
10
15
20
25
30
0.020
0.010
0.000
Gamma(2.5,0.1)
10
15
20
10
15
25
30
20
25
30
Gamma(5,0.2)
10
15
0.030
0.06
Gamma(5,1)
20
25
30
Gamma(5,0.1)
10
15
20
25
30
Caracterizacin de la distribucin Gamma.Sean X1 , ..., Xn v.a. independientes con distribucin exp ().
P
En ese caso, X = ni=1 Xi sigue una Gamma (n, ). De nuevo obsrvese que el primer parmetro es un entero,
luego se trata de una Erlang.
4.5.4.
Distribucin normal
Sea X una v.a. continua que puede tomar cualquier valor real. Se dice que X sigue una distribucin normal o gaussiana, de parmetros y (y se nota X N (, )), si su funcin de
densidad es
"
#
f (x) =
2 2
exp
(x )
2 2
para todo x R.
Obsrvese que es la nica distribucin que hemos visto hasta ahora que toma todos los valores entre y
+.
Sea X N (, ). Entonces
EX =
V arX = 2 .
El propio nombre de la distribucin normal indica su frecuente uso en cualquier mbito cientco y tecnolgico.
Este uso tan extendido se justica por la frecuencia o normalidad con la que ciertos fenmenos tienden a
parecerse en su comportamiento a esta distribucin, ya que muchas variables aleatorias continuas presentan
Prof. Dr. Antonio Jos Sez Castillo
85
una funcin de densidad cuya grca tiene forma de campana. Esto, a su vez, es debido a que hay muchas
variables asociadas a fenmenos naturales cuyas caractersticas son compatibles con el modelo aleatorio que
supone el modelo de la normal:
Caracteres morfolgicos de individuos (personas, animales, plantas, ...) de una especie (tallas, pesos,
envergaduras, dimetros, permetros, ...).
Caracteres siolgicos (efecto de una misma dosis de un frmaco, o de una misma cantidad de abono).
Caracteres sociolgicos (consumo de cierto producto por un mismo grupo de individuos, puntuaciones
de examen...).
Caracteres psicolgicos (cociente intelectual, grado de adaptacin a un medio, ...).
Errores cometidos al medir ciertas magnitudes.
Valores estadsticos muestrales, como por ejemplo la media.
Otras distribuciones como la binomial o la de Poisson son aproximadas por la normal, ...
En general, como veremos enseguida, cualquier caracterstica que se obtenga como suma de muchos factores
independientes encuentra en la distribucin normal un modelo adecuado.
Existe otra razn ms pragmtica para el uso tan extendido de la distribucin normal: sus propiedades
matemticas son, como iremos viendo, casi inmejorables. Eso conduce a que casi siempre se trate de forzar al
modelo normal como modelo para cualquier variable aleatoria, lo cual, en ocasiones puede conducir a errores
importantes en las aplicaciones prcticas. Lo cierto es que tambin son frecuentes las aplicaciones en las que
los datos no siguen una distribucin normal. En ese caso puede ser relevante estudiar qu factores son los
que provocan la prdida de la normalidad y, en cualquier caso, pueden aplicarse tcnicas estadsticas que no
requieran de esa hiptesis.
X
N (0, 1) ,
2 2
exp
(x )
2 2
dx
no pueden ser expresadas en trminos de las funciones usuales, y slo pueden calcularse por mtodos numricos. No obstante, existen tablas donde aparecen multitud de valores de la funcin de distribucin de la distribucin N (0, 1) y a partir de ellos se pueden calcular otras tantas probabilidades, utilizando la propiedad
de tipicacin. Por ejemplo, si queremos calcular la probabilidad de que una variable X N (, ) est en
el intervalo [a, b], tenemos
a
b
a
X
b
P [a X b] = P
= FZ
FZ
,
86
0.4
0.1
N(0,4)
N(0,1)
0.3
0.2
0.05
0.1
0
10
0
10
10
0.4
10
0.1
N(1,1)
N(1,4)
0.3
0.2
0.05
0.1
0
10
0
10
10
0.4
10
0.1
N(1,1)
N(1,4)
0.3
0.2
0.05
0.1
0
10
0
10
10
10
donde
FZ ()
Z N (0, 1),
Ejemplo. En el artculo ndices de relacin peso-talla como indicadores de masa muscular en el adulto
del sexo masculino de la revista Revista Cubana Aliment. Nutr. (1998;12(2):91-5) aparece un
colectivo de varones con un peso cuya media y desviacin estndar son, respectivamente, 65.6 y 11.7.
N (0, 1),
X 65.6
76.25 65.6
P [X > 76.25] = P
>
11.7
11.7
60 65.6
X 65.6
<
P [X < 60] = P
11.7
11.7
87
Figura 4.13: Bsqueda de probabilidades en la tabla de la N (0, 1). Valor de la probabilidad a la izquierda de
0.91
3. Cunto pesar aquel varn tal que un 5 % de varones de ese colectivo pesan ms que l? Es decir,
cul ser el valor de x tal que P [X > x] = 0.05 o, equivalentemente, P [X < x] = 0.95. Dado que
X 65.6
x 65.6
x 65.6
P [X < x] = P
=P Z<
<
11.7
11.7
11.7
x65.6
11.7
Teorema Central del Lmite. Sean X1 , ..., XN v.a. independientes, todas ellas con la misma distribucin
de probabilidad, distribucin de media X y desviacin tpica X . En ese caso, la suma de estas variables
sigue aproximadamente una distribucin normal cuando N es elevado, es decir,
N
X
i=1
Xi N N X , N X .
Xi N X
N (0, 1) .
N X
i=1
88
Figura 4.14: Bsqueda de valores z en la tabla de la N (0, 1). Valor de Z que deja a la derecha una porbabilidad
de 0.95
Este teorema es el que proporciona una justicacin matemtica del porqu la distribucin gaussiana es un
modelo adecuado para un gran nmero de fenmenos reales en donde la v.a. observada en un momento dado
es el resultado de sumar un gran nmero de sucesos aleatorios elementales.
Consideremos X1 , ..., XN variables
q independientes con distribucin U [0, 1]. Segn el teorema
P
N
central del lmite, N
X
N
0.5N,
i=1 i
12 . Para poner este resultado de maniesto se ha realizado
el siguiente experimento:
Ejemplo.
Supongamos que estamos realizando un examen de 150 preguntas, cada una de ellas con una
puntuacin de 1 punto y que en funcin de cmo hemos estudiado, consideramos que la probabilidad
de contestar acertadamente una pregunta cualquiera es de 0.7. Dmonos cuenta que el resultado de una
pregunta cualquiera sigue una distribucin B (1, 0.7), cuya media es 1 0.7 = 0.7 y cuya varianza es
1 0.7 (1 0.7) = 0.21.
Ejemplo.
Por su parte, el resultado nal de la prueba ser la suma de las 150 puntuaciones. Podramos ver este
resultado segn una B (150, 0.7), pero los clculos seran muy tediosos debido a los factoriales de la funcin
Prof. Dr. Antonio Jos Sez Castillo
89
140
250
N=1
N=2
120
200
100
80
150
60
100
40
50
20
0
0.2
0.4
0.6
0.8
300
0.5
1.5
350
N=5
N=10
300
250
250
200
200
150
150
100
100
50
0
50
0
10
masa de la distribucin binomial. En este caso, merece la pena que utilicemos el Teorema Central del
Lmite, segn el cul el resultado nal, X , seguira aproximadamente una distribucin
N 150 0.7,
150 0.21 ,
es decir, X N (105, 5.612) . As, si por ejemplo, nos planteamos cul es la probabilidad de aprobar,
sta ser
P [X > 75] = P [Z > 0.952] = 0.830.
Enunciando el Teorema Central del Lmite en trminos de la media, X , de las variables X1 , ..., XN , podemos
decir que si N es grande,
N (, / N )
X
Un ingeniero disea un aparato de medida que realiza una aproximacin ms imprecisa que
el aparato tradicional pero mucho ms barata. Para reducir el margen de error de la medida realizada,
el ingeniero propondr que se realicen un nmero determinado de medidas sobre el mismo objeto y que
se considere la media de estas medidas como valor nal de la medida del objeto.
Ejemplo.
Inicialmente, el ingeniero hace una valoracin que le lleva a concluir que el aparato est bien calibrado,
es decir, que la media de la medida del aparato coincide con la medida real, y que la desviacin tpica
de las medidas del aparato es igual a 0.75.
Cuntas medidas debe proponer el ingeniero para que el error de medida sea inferior a 0.1 con un 95 %
de probabilidad?
90
. Por su parte,
y que, considerando el Teorema Central del Lmite, X N x0 , 0.75
n
x0 < 0.1 = P x0 0.1 < X
< x0 + 0.1 = P 0.1 n < Z < 0.1 n
P X
0.75
0.75
0.1 n
=12 1P Z <
.
0.75
h
i
0.1 n
0.75
0.975, de donde
0.1 n
0.75
1.96 y
Como conclusin, ms le vale al ingeniero disminuir la desviacin tpica del aparato de medida.
4.6.
Para acabar el tema vamos a ver una de las aplicaciones ms sencillas pero a la vez ms tiles de los modelos
de probabilidad. Debo decir que son numerosas las ocasiones que desde distintos ambientes cientcos y de la
Ingeniera he asesorado a profesionales con respecto a cuestiones que tienen que ver con lo que esta seccin
analiza. Los ejemplos que vamos a considerar son, grosso modo, sntesis de ellas.
Concretamente, vamos a comenzar deniendo el cuantil p (p [0, 1]) de una distribucin de probabilidad
de una v.a. X . Sea sta discreta o continua, denominemos f (x) a su funcin masa o de densidad.
Se dene el cuantil p, Qp de su distribucin como el primer valor, x, de la variable tal que
P [X x] p:
xi x
f (x) p.
Ntese que, al ser la variable discreta, puede que no logremos obtener una igualdad del tipo
p.
xi x
f (x) =
f (t) dt = p,
o lo que es lo mismo, como el valor x tal que F (x) = p, siendo F la funcin de distribucin de la
variable.
Prof. Dr. Antonio Jos Sez Castillo
91
Es muy frecuente que la probabilidad p a la que se asocia un cuantil se exprese en porcentaje. En ese caso,
los cuantiles tambin se pueden llamar percentiles. Por ejemplo, el cuantil 0.5 es el percentil 50, la mediana.
Desde luego, lo ms importante es que interpretemos qu signica el cuantil p de una v.a. Como en Estadstica
Descriptiva, se reere al valor de la variable que deja por debajo de s una proporcin p de valores de la variable.
Entonces, si un valor concreto corresponde con un cuantil alto, podemos decir que realmente es un valor alto
dentro de la distribucin de probabilidad de la variable, y viceversa. Vamos a tratar de aclararlo con algunos
ejemplos.
30 muertos en la carretera este n de semana, 3.2 por encima de la media: se rompe la tendencia de
descenso de accidentes.
Qu debemos decir al respecto? En primer lugar, que dado que el azar est presente, es perfectamente posible
que esto haya ocurrido sin que exista realmente una variacin en la tendencia. Sin dejar de ser un dato malo,
es un valor posible dentro de una distribucin de Poisson de media = 26.8. La pregunta es cmo de raro
es el dato 30 en una distribucin P oisson (26.8)? Esta pregunta puede ser respondida con el concepto de
percentil. Dado que, si notamos por X al n de accidentes el n de semana,
P [X 30] =
30
X
x=0
e26.8
26.8x
= 0.77,
x!
el valor x = 30 es el percentil 77. Es decir, en una escala de 0 a 100 podemos decir que la excepcionalidad
del dato x = 30 accidentes es de 77, lo cual no es excesivamente elevado, y es perfectamente factible dentro
de la tendencia dada por el promedio de 26.8 accidentes por n de semana.
Cundo debemos empezar a preocuparnos? Es decir, cuntos accidentes deben darse para que empecemos
a pensar en un cambio de tendencia? Esta es una cuestin que debe valorarse con distintas observaciones a lo
largo de un periodo ms amplio de tiempo, pero, en cualquier caso, suele considerarse un valor atpico si est
por encima del percentil 95 o por debajo del percentil 5. En este caso, el percentil 95 de una P oisson (26.8)
es 36, que es el primer valor tal que P [X x] 0.95, luego deberamos destacar el dato si se dan 36 o ms
accidentes, pero no antes.
92
4.6.2.
Los que tenemos hijos pequeos observamos con cierta ansiedad la evolucin de su peso y su altura. Cuando
vamos al pediatra, ste pesa y mide al beb y, obviamente, te dice
cmo est.
basta con que me diga cunto pesa y mide mi hijo o mi hija, sino que me diga cunto pesa y cunto mide en
relacin con los nios o nias de su misma edad. En esa cuestin es dnde entran los percentiles.
En este caso jugamos con la venta ja de que se han hecho multitud de estudios previos que determinan que
tanto el peso como la altura son variables que siguen una distribucin normal. Ms an, se han determinado
las medias y las desviaciones tpicas de nios y nias desde los 0 meses hasta la edad adulta.
Vamos a ponernos en una situacin concreta, centrndonos en el peso. Tengo un hijo de tres meses que pesa
5.6 kilos. La pregunta es
sabe por estudios previos
En cualquier caso,
El pediatra
Lo que se plantea es en qu
P [X 5.6] = 0.369,
el pediatra me dir que mi hijo est en el percentil 37, lo que quiere decir que es un peln ba jo de peso, pero
dentro de niveles razonables.
3 Fuente:
http://www.familia.cl/salud/curvas_de_crecimiento/curvas_de_crecimiento.htm
93
4.6.3.
En este ejemplo plantebamos el problema de una empresa del sector de la automocin en la que
se constata que en los ltimos 6 meses ha habido 9 accidentes laborales graves. El dato llama la
atencin del ingeniero responsable de la seguridad, porque conoce que el promedio de accidentes
en el sector para una empresa con el nmero de trabajadores que tiene la suya es de 6 accidentes
al ao. La cuestin es que, teniendo en cuenta que en mayor o menor medida, el azar est presente
en la ocurrencia de un accidente, es realmente preocupante ese dato de 9 accidentes en 6 meses
cuando lo esperado, es decir, el promedio, es de 3 accidentes?
Aunque habra que realizar un estudio ms profundo para hacer una suposicin as, vamos a considerar que
el nmero de accidentes en la empresa en 6 meses sigue una distribucin de Poisson de media 3 accidentes.
Esta suposicin implica que creemos que todos los trabajadores corren el mismo riesgo de sufrir accidentes,
en una ratio de 3 cada 6 meses en total para toda la empresa.
Lo que se plantea es en qu medida 9 accidentes en 6 meses es un valor extrao. La respuesta est en ver
cmo de extrao es dentro de su distribucin de probabilidad. La probabilidad de que se de un valor tan
extrao o ms que ste es
P [X 9] = 0.003802992,
lo que viene a decir que se ha dado un valor dentro de un conjunto al que a priori se le asignaba una
probabilidad de aproximadamente el 0.3%. El ingeniero debera plantearse que algo est pasando en su
empresa.
94
Captulo 5
distribucin conjunta, distribucin marginal, distribucin condicionada, covarianza, coeciente de correlacin, normal multivariante.
Palabras clave:
5.1.
Introduccin
El mundo real est repleto de relaciones a todos los niveles. Nosotros, por razones obvias, estaremos interesados principalmente en las relaciones que afectan a variables que describen fenmenos propios del ambiente
cientco-tecnolgico. Estas relaciones pueden tener muy diversas tipologias. Por ejemplo, podramos pensar
en relaciones causa-efecto, como la que, por ejemplo, explicara que una pgina Web tenga un tamao considerable debido a que lleva incrustado varios archivos de vdeo y audio, o la que se establece entre la edad
en aos de un vestigio y su contenido en carbono 141 . Pero no slo tendremos relaciones causa-efecto: por
ejemplo, sabemos que el peso y la estatura de un ser humano son variables muy relacionadas, hasta el punto
que no podemos decir que una persona este obesa slo con saber su peso, sino que debemos valorarlo en
relacin a su estatura.
Por otra parte, cuando un fenmeno es determinstico y est bien estudiado, las relaciones entre variables
son leyes ms o menos sencillas, pero, en cualquier caso, son inmutables. Por ejemplo,
densidad =
1 Relacin
masa
.
vol.
95
Pero, qu ocurre cuando el fenmeno es aleatorio? Las variables en ese caso son aleatorias y las relaciones
que se puedan dar entre ellas no siempre tienen por qu obedecer a una ley objetiva e inamovible. Por
ejemplo, todos somos conscientes de que, como decamos, existe una relacin entre el peso y la altura de
una persona, pero no existe una razn de conversin capaz de calcular el peso exacto de alguien a partir de
su altura. Es evidente que el tiempo de descarga de una pgina web estar relacionado con el tamao de
los archivos que la conguran, pero cmo de evidente ? y de qu forma es esa relacin? Ambas preguntas
tratarn de ser contestadas a lo largo de este captulo.
Sean X1 , ..., XN variables aleatorias. El vector ordenado
es un
X1
..
.
XN
N.
Hablaremos de vectores aleatorios continuos o vectores aleatorios discretos cuando cada una de sus
variables sean continuas o discretas, respectivamente. Podran darse vectores mixtos, pero su tratamiento
estadstico no nos interesa por ahora.
Consideremos el valor de una seal analgica que depende del tiempo, x (t). En esta notacin,
entendemos que el valor de la seal podra ser distinto en cada instante de tiempo t. Es muy frecuente
que la seal se observe realmente contaminada por un ruido aleatorio que tambin depender del tiempo,
N (t). En ese caso, si observamos la seal en los instantes t1 , ..., tN , el vector
Ejemplo.
es un vector aleatorio.
x (t1 ) + N (t1 )
..
.
x (tn ) + N (tn )
Se estudia el tiempo que un usuario de Internet dedica a ver una pgina WEB (T ) en relacin
con variables como la cantidad de texto que contiene (T x), el nmero de imgenes (I) y animaciones
Flash (F ) de la pgina. Entonces, el vector
Ejemplo.
es un vector aleatorio.
96
Tx
Se contabiliza la duracin de las llamadas telefnicas a una centralita. Para cada conjunto de
n-usuarios de la centralita, cada uno de ellos ocupa un tiempo Ti en su llamada. En ese caso, el vector
Ejemplo.
.
.
.
Tn
es un vector aleatorio.
5.2.
T1
El principal objetivo a abordar en el tema es cmo medir la incertidumbre asociada a los sucesos que describe
un vector aleatorio. Ya vimos que en el caso de una variable aleatoria se trataba de hacerlo a partir de la
funcin masa o la funcin de densidad. Ahora, como vamos a ver, es algo ms complejo.
5.2.1.
Distribucin conjunta
de densidad
conjunta
P (X1 , ..., XN ) A R
Ejemplo.
...
ARN
R2
Por ello,
1=
cex ey dy dx =
c
cex 1 ex dx = ,
2
97
de donde c = 2.
En segundo lugar, por ejemplo, calculemos
P [X + Y 1] =
1y
2ex ey dxdy
h
i
2ey ey e(1y) dy
1 2e + e2
=
.
e2
1
15
si 0 x 3, 0 y 5
.
0 en otro caso
Esta densidad constante en el rectngulo denido indica que la distribucin de probabilidad es uniforme
en dicho rectngulo. Vamos a calcular la probabilidad de que Y sea mayor que X (ver Figura 5.2)
P [Y > X] =
0
3
1
dy dx
15
5x
dx
=
15
0
x x2 3 7
| =
.
=
3
30 0 10
5.2.2.
Distribuciones marginales
Una vez que somos capaces de describir la distribucin de probabilidad de un vector aleatorio mediante su
funcin masa o su funcin de densidad conjunta, surge un nuevo problema: qu ocurre si deseamos conocer la
98
distribucin de probabilidad de una o ms variables del vector, no del vector en su conjunto. Esa distribucin
de una o ms variables de un vector se conoce como distribucin marginal.
Sea
(X1 , ..., XN )
un vector aleatorio y
Si el vector es continuo,
...
xj
/ (xi1 ,...,xik )
dxj .
xj
/ (xi1 ,...,xik )
Si el vector es discreto,
xj
/ (xi1 ,...,xik )
x, y > 0.
fX (x) =
X,
fX,Y (x, y) dy =
para
xex(y+1) dy = ex
x > 0.
fY (y) =
para
Y,
fX,Y (x, y) dx =
xex(y+1) dx =
1
(1 + y)
y > 0.
G,
fQ,G (q, g)
g=0
g=1
g=2
g=3
q=0
0.06
0.18
0.24
0.12 .
q=1
0.04
0.12
0.16
0.08
fQ,G (q, g) ,
99
fQ (q) =
fQ,G (q, g)
0.6
0.4
si
si
si
si
q=0
q=1
q=0
q=1
0.06 + 0.04
0.18 + 0.12
fG (g) =
0.24 + 0.16
0.12 + 0.08
si
g=0
si
g=1
si
g=2
si
g=3
fX,Y (x, y) =
1
15
si
0 x 3, 0 y 5
0
en otro caso
fX (x) =
fY (y) =
fX,Y (x, y) dy
( 5
1
dy si 0 x 3
0 15
=
0 en otro caso
(
1
3 si 0 x 3
=
0 en otro caso
=
=
fX,Y (x, y) dx
( 3
1
dx si 0 y
0 15
0
en otro caso
1
5
si
en otro caso
0y5
100
Ejemplo.
La densidad conjunta de
es
fX,Y (x, y) =
2x
si
0 x 1, |y| < x2
.
0 en otro caso
fX (x) =
fX,Y (x, y) dy
fY (y) =
=
=
5.2.3.
( 2
x
2xdy si 0 x 1
0 en otro caso
x2
4x3 si 0 x 1
0 en otro caso
fX,Y (x, y) dx
( 1
|y|
2xdx
0
1 |y|
0
si
1y 1
en otro caso
1y 1
si
en otro caso
Distribuciones condicionadas
Si tenemos un vector
X = (X1 , ..., XN ) ,
cionadas,
condi-
fXi1 ,...,Xik ,Xj1 ,...,Xjl (xi1 , ..., xik , xj1 , ..., xjl )
fXj1 ,...,Xjl (xj1 , ..., xjl )
fXi1 ,...,Xik ,Xj1 ,...,Xjl (xi1 , ..., xik , xj1 , ..., xjl )
es la funcin masa o la
En el caso ms habitual en el que el vector tenga dimensin dos, tenemos la densidad o la funcin masa de
condicionada a
Y = y,
fX|Y =y (x) =
fX,Y (x, y)
fY (y)
101
condicionada a
X = x,
fY |X=x (y) =
Ejemplo.
fX,Y (x, y)
.
fX (x)
y\x
3/28
9/28
3/28
3/14
3/14
1/28
fX (x) =
3
1
3
28 + 14 + 28 si x = 0
9
3
28 + 14 + 0 si x = 1
3
28 + 0 + 0 si x = 2
3
9
3
28 + 28 + 28 si y = 0
3
3
14 + 14 + 0 si y = 1
1
28 + 0 + 0 si y = 2
fY (y) =
Y =1
y la de
condicionada a
condicionada a
X = 1.
fX|Y =1 (x) =
3
14
6
14
3
14
6
14
9
28
15
28
3
14
15
28
fY |X=1 (y) =
6
14
15
28
si
x=0
si
x=1 .
si
x=2
si
y=0
si
x=1 .
si
x=2
Como es evidente, una vez que tenemos caracterizada la distribucin condicionada de una variable aleatoria
al valor de otra, cualquier caracterstica de dicha distribucin, como la media o la varianza, puede calcularse
a partir de su funcin masa o su funcin de densidad.
Ejemplo.
(X, Y )
de un
telfono mvil que recibe cobertura de una antena de telefona se encuentra dentro de un crculo de radio
alrededor de esa antena, que supondremos sin prdida de generalidad que se encuentra en el origen
completamente al azar
considerar que la densidad conjunta debe ser constante en el crculo; para que su integral sea la unidad,
102
es evidente que
fX,Y (x, y) =
1
r2
x2 + y 2 r2 y cero en cualquier punto fuera del crculo. Vamos a ver qu podemos averiguar sobre las
coordenadas X e Y por separado (marginales) y sobre cmo afectan la una a la otra (condicionadas).
si
En primer lugar,
fX (x) =
si
r < x < r.
La marginal de
r 2 x2
r 2 x2
es anloga,
fY (y) =
si
2 r 2 x2
1
dy =
r2
r2
p
2 r2 y2
r2
r < y < r. Est claro que para cada coordenada por separado, los puntos ms densos, ms probables,
Ahora supongamos que conocemos una de las coordenadas y veamos qu podemos decir sobre la otra:
1
fX,Y (x, y0 )
= p
2
fY (y0 )
2 r y02
p
r2 y02 .
Anlogamente,
1
fX,Y (x0 , y)
= p
2
fX (x0 )
2 r x20
fY |X=x0 (y) =
si
r2 x20 . Si nos damos cuenta, ambas son distribuciones uniformes, lo que equivale
a decir que saber una coordenada no me da ninguna informacin sobre la otra coordenada.
Ejemplo.
a un switch de telefona.
Sea
fX,Y (x, y) =
donde
2 ey si 0 x < y
,
0 en otro caso
es una constante positiva. Vamos a calcular las distribuciones marginales y condicionadas que
pueden darse:
Marginal de
X:
2 ey dy = ey
si
fX (x) =
Marginal de
Y :
fY (y) =
0 x,
2 ey dx = 2 yey
si
y 0.
103
Si nos jamos, esta densidad es una Gamma (2, ), es decir una Erlang de parmetros 2 y .
Condicionada de Y a los valores de X :
fY /X=x (y) =
fX,Y (x, y)
= e(yx) si y > x.
fX (x)
1
fX,Y (x, y)
= si 0 x < y.
fY (y)
y
Es decir, conocido el instante en que lleg la segunda llamada (y), no se sabe nada de cundo lleg
la primera llamada, ya que la distribucin de X condicionada a Y = y es uniforme en (0, y).
Ejemplo.
Con los datos expuestos podemos caracterizar mediante sus funciones masa las distribuciones marginales
de X e Y , la distribucin conjunta de ambos y las dos distribuciones condicionadas posibles de cada
variable respecto de la otra.
La distribucin marginal de X viene dada por
fX (x) =
1
2 si x = 1
1
2 si x = 1
es decir
fY (y) =
1
2 si y = 1
1
2 si y = 1
104
0.95 si y = 1
0.05 si y = 1
Prof. Dr. Antonio Jos Sez Castillo
0.95 si y = 1
0.05 si y = 1
=
0.05 0.5 si x = 1, y = +1
0.95 0.5 si x = 1, y = 1
0
en otro caso
0.95 si x = 1
.
0.05 si x = 1
5.3.
0.05 si x = 1
0.95 si x = 1
Independencia estadstica
En el captulo referente a probabilidad hablamos de independencia de sucesos. Decamos entonces que dos
sucesos A y B eran independientes si y slo si P [A B] = P [A] P [B] .
Esta denicin puede extenderse al caso en que tengamos dos variables aleatorias X e Y .
donde fX,Y (), fX () y fY () son funcin de densidad o funcin masa, dependiendo de si las
variables son discretas o continuas.
La interpretacin del hecho de que dos variables aleatorias sean estadsticamente independientes es que el
comportamiento de una no tiene ningn efecto sobre la otra y viceversa. Cabe preguntarse en ese caso, qu
sentido tiene una distribucin condicionada de una variable a otra que no guarda ninguna relacin con ella.
Vamos a comprobarlo calculando las distribuciones condicionadas de variables aleatorias estadsticamente
independientes:
fX|Y =y (x) =
fX (x) fY (y)
fX,Y (x, y)
=
= fX (x) ;
fY (y)
fY (y)
105
es decir, el comportamiento aleatorio de una variable aleatoria condicionada al valor de otra que es estadsticamente independiente de ella (descrito mediante la funcin
se condiciona a dicho valor (descrito por la funcin
Ejemplo.
Sea el vector
(X, Y )
fX|Y =y (x))
fX (x)).
fX,Y (x, y) =
si
x, y 0
x+y 1
en otro caso
1x
si
0x1
si
0 y 1.
24xy dy = 12x (1 x)
Y:
fY (y) =
24xy
X:
fX (x) =
1y
24xy dx = 12y (1 y)
Como
Ejemplo.
no son independientes.
(X, Y )
fX,Y (x, y) =
La funcin de densidad marginal de
si
0 x, y
x, y 1
en otro caso
X:
fX (x) =
4xy
4xy dy = 2x
si
0x1
4xy dx = 2y
si
0 y 1.
Y:
fY (y) =
Como
Ejemplo.
son independientes.
Supongamos que dos componentes electrnicas tienen una duracin cuya distribucin de prob-
= 2 horas1 .
paralelo, por lo que podemos considerar que son independientes. Por lo tanto, su funcin de densidad
106
conjunta ser
x, y > 0.
Cul ser la probabilidad de que alguna de las componentes dure ms de dos horas? Podemos plantearlo
como
P [X > 2] = e22
P [Y > 2] = e22 .
Cul sera la probabilidad de que la duracin total de ambas componentes sea inferior a dos horas? La
duracin total vendra dada por
X +Y,
P [X + Y < 2] =
2x
4e2(x+y) dydx
i
2e2x 1 e2(2x) dx
2e2x 2e4 dx
= 1 e4 2e4 2
= 1 5e4
De la interpretacin que hemos dado de variables independientes se sigue de manera inmediata que si dos
variables aleatorias son independientes, esto es, no mantienen ninguna relacin, tampoco lo harn funciones
suyas. Este hecho se recoge en el siguiente resultado. Lo podemos enunciar ms formalmente diciendo que si
V = g (X)
W = h (Y )
En el mbito de las Telecomunicaciones se dan numerosas situaciones donde aparece una variable aleatoria
Y.
1. Si
Y.
W =X +Y.
Entonces:
son continuas,
fW (w) =
fY (y) fX (w y) dy
= fX fY (w)
Prof. Dr. Antonio Jos Sez Castillo
107
donde
2. Si
fX
Y
fY
Y,
respectivamente.
son discretas,
fW (w) =
X
y
fY (y) fX (w y)
= fX fY (w)
donde
fX
fY
Y,
respectivamente.
exponencial de parmetro
T2 ,
T1 ,
Ejemplo.
T1 .
Si pretendemos conocer la distribucin de probabilidad de la duracin total del sistema, que vendr dada
por la variable aleatoria
T = T1 + T2 ,
fTi (x) = ex , i = 1, 2,
x > 0.
para
Por tanto,
fT (z) =
ex e(zx) dx = 2 zez
z > 0.
para
Si recordamos, esta
X = (X1 , ..., XN ) ,
la manera natural
XN 1
YM 1 ,
5.4.
X1 , ..., XN
g ()
E [g (X1 , ..., XN )] =
donde
...
Como consecuencia inmediata de esta denicin, tenemos una primera e importante propiedad: este operador
esperanza multivariante tambin es lineal, en el sentido que se recoge en el siguiente resultado.
Concretamente, podemos formalizarlo diciendo que si tenemos un vector aleatorio (X1 , ..., XN ) y 1 , ..., N
escalares cualesquiera, entonces
E [1 X1 + ... + N XN ] = 1 E [X1 ] + ... + N E [XN ] ,
es decir, la media de la suma ponderada es la suma ponderada de las medias. Podemos tratar de recordar
este resultado si pensamos que es exactamente la misma propiedad que tiene el operador integral, que parte
las sumas y saca fuera los escalares.
La covarianza entre dos variables2 es una medida de la asociacin lineal existente entre ellas. Ser positiva
si la relacin entre ambas es directa (si crece una crece la otra) y negativa si es inversa (si crece una decrece
la otra); adems, ser tanto mayor en valor absoluto cuanto ms fuerte sea la relacin lineal existente.
Para poder valorar esta relacin lineal en trminos relativos se estandariza la covarianza, dando
lugar a lo que se conoce como coeciente de correlacin lineal:
Cov [X, Y ]
= p
.
V ar [X] V ar [Y ]
h
i
Cov (X, X) = E [(X EX) (X EX)] = E (X EX)2 = V arX,
esta cantidad coincide con su varianza.
109
Si es cero, indica una ausencia total de relacin lineal entre las variables.
Si es uno o menos uno indica una relacin lineal total entre las variables, directa o inversa segn lo
indique el signo (esto lo veremos enseguida).
En la medida en que est ms lejos del cero indica una relacin lineal ms intensa entre las variables.
Si dos variables aleatorias tienen covarianza cero o equivalentemente, si RXY = EX EY, se dicen
que son incorreladas. Por su parte, si dos variables aleatorias son tales que RXY = 0, se dice
que son ortogonales.
Dos variables aleatorias son incorreladas si carecen de cualquier tipo de relacin lineal. Por otra parte,
denimos anteriormente el concepto de independencia entre variable aleatoria, que implicaba la ausencia
de relacin entre ellas. Tenemos, as, dos conceptos, independencia e incorrelacin, que estn bastante
relacionados.
En concreto, dos variable aleatoria independientes, X e Y , son siempre incorreladas, es decir, X,Y = 0. La
razn es que, por ser independientes,
fX,Y (x, y) = fX (x) fY (y) ,
luego
RXY =
xy fX (x) fY (y) dy dx
xfX (x) dx
yfY (y) dy = EX EY,
Ejemplo.
Sea una variable aleatoria con distribucin uniforme en (0, 2). Sean
X = cos
Y = sin .
110
Se tiene que
EX =
EY =
E [XY ] =
cos
1
d = 0
2
sin
1
d = 0
2
sin cos
1
=
2
1
d
2
sin 2d = 0,
por lo que X e Y son variables incorreladas. Sin embargo, puede demostrarse fcilmente que no son
independientes.
La relacin ms fuerte de tipo lineal que puede darse corresponde al caso en que una variable
aleatoria Y es exactamente una combinacin lineal de otra, X , es decir, Y = aX + b. En ese caso,
Nota.
XY = 1 signo (a) .
luego
E [XY ] = E [X (aX + b)] = aE X 2 + bE [X] ,
Cov (X, Y )
aV arX
= 1 signo (a) .
=
V arX V arY
V arXa2 V arX
111
clarsima relacin dada por una parbola: de hecho, Y = X 2 . Sin embargo, el coeciente de correlacin
lineal entre ambas ser muy bajo, ya que en realidad, la relacin que las une no es lineal en absoluto,
sino parablica. En este caso, lo recomendable sera, a la vista del grco, decir que s existe una fuerte
Sean X e Y las variable aleatoria que miden el tiempo que transcurre hasta la primera y la
segunda llamada, respectivamente, a una centralita telefnica. La densidad conjunta de estas variables
es fX,Y (x, y) = ey para 0 < x < y . En un ejemplo anterior ya vimos que, lgicamente, el tiempo hasta
la segunda llamada depende del tiempo hasta la primera llamada, pero en qu grado? Vamos a abordar
este problema calculando el coeciente de correlacin lineal entre ambas variables.
Ejemplo.
Como X,Y =
Cov(X,Y )
V arXV arY
=
xyey dxdy =
0
112
0
3
y y
e dy = 3.
2
ye
x2
2
y
dy
ro=1
ro=1
5
4
3
2
2
0
4
4
1
4
ro=0
ro=0.7075
2
1
1
2
2
3
4
4
4
Figure 5.4: Nubes de puntos correspondientes a distintos posibles coecientes de correlacin lineal.
fX (x) =
fX,Y (x, y) dy =
EX =
fY (y) =
ey dy = ex , para x > 0,
luego
xfX (x) dx =
EY =
xex dx = 1.
fX,Y (x, y) dx =
luego
yfY (y) dy =
y 2 ey dy = 2.
Por tanto,
Cov (X, Y ) = 3 1 2 = 1.
Prof. Dr. Antonio Jos Sez Castillo
113
Por su parte,
E X
x fX (x) dx =
x2 ex dx = 2
V arX = 2 12 = 1
y
E Y
y fY (y) dy =
y 3 ey dy = 6
V arY = 6 22 = 2,
as que, nalmente,
X,Y =
1
= 0.707.
12
Las propiedades del operador esperanza son muy tiles en la prctica, por ejemplo, cuando se trata de conocer
la varianza de combinaciones lineales de varias variables. Veamos algn ejemplo al respecto y despus un
resultado general que los englobe todos.
Ejemplo.
Calculemos la varianza de X1 + X2 :
h
i
2
E (X1 + X2 ) = E X12 + X22 + 2X1 X2 = E X12 + E X22 + 2E [X1 X2 ]
h
i
2
2
V ar (X1 + X2 ) = E (X1 + X2 ) E [X1 + X2 ]
2
= E X12 + E X22 + 2E [X1 X2 ] (EX1 + EX2 )
= E X12 + E X22 + 2E [X1 X2 ] EX12 EX22 2EX1 EX2
= E X12 EX12 + E X22 EX22 + 2 (E [X1 X2 EX1 EX2 ])
= V arX1 + V arX2 + 2Cov (X1 , X2 ) .
Ejemplo.
Calculemos la varianza de X1 X2 :
i
h
2
E (X1 X2 ) = E X12 + X22 2X1 X2 = E X12 + E X22 2E [X1 X2 ]
114
h
i
2
2
V ar (X1 X2 ) = E (X1 X2 ) E [X1 X2 ]
2
= E X12 + E X22 2E [X1 X2 ] (EX1 EX2 )
= E X12 + E X22 2E [X1 X2 ] EX12 EX22 + 2EX1 EX2
= E X12 EX12 + E X22 EX22 2 (E [X1 X2 EX1 EX2 ])
= V arX1 + V arX2 2Cov (X1 , X2 ) .
Podemos generalizar estos ejemplos en el siguiente resultado. Sea una suma de N variables, X =
Entonces,
V ar [X] =
N
N X
X
i=1 j=1
PN
i=1
i Xi .
i j Cov (Xi , Xj ) ,
"
X X
N
X
i=1
N X
N
X
i=1 j=1
PN
N
N X
X
i=1 j=1
i=1
i EXi ,
2 i
i
i Xi X
i j E
N
X
i=1
i
Xi X
i
i Xi X
j
Xj X
!#
i j Cov (Xi , Xj )
N
N X
X
i=1 j=1
i j Cov (Xi , Xj ) =
ya que
Cov [X, Y ] =
5.4.2.
N
X
i=1
i2 V ar [Xi ] ,
0 si i 6= j
.
V ar [Xi ] si i = j
X =
E [X1 ]
..
.
E [XN ]
115
y su
matriz de varianzas-covarianzas
como
CX = (Ci,j )i,j=1,...,N ,
donde
Ci,j =
V ar (Xi ) si i = j
.
Cov (Xi , Xj ) si i 6= j
Esta matriz contiene las varianzas de cada variable del vector en la diagonal y en el elemento
(i, j) la covarianza entre la isima y la jsima variable.
En forma matricial, la matriz de covarianzas puede denirse como
CX N N = E (X X )N 1 (X X )1N .
CX = E (X X ) (X X ) = E [XX ] X X ,
y se
Vamos a ver que la aplicacin de este resultado facilita bastante determinados clculos. Por
ejemplo, si queremos calcular V ar (X1 + X2 ), podemos tener en cuenta que
Ejemplo.
X1 + X2 =
1 1
X1
X2
de manera que
V ar (X1 + X2 ) =
1 1
V arX1
Cov (X1 , X2 )
Cov (X1 , X2 )
V arX2
1
1
5 3
X1
X2
se tiene que
V ar (5X1 3X2 ) =
5 3
V arX1
Cov (X1 , X2 )
Cov (X1 , X2 )
V arX2
5
3
5.5.
tratando en este captulo, nos ocupamos de la versin multivariante de esta distribucin. De nuevo podemos
estar seguros de que se trata del caso ms interesante por dos motivos: porque aparece como modelo adecuado
en un gran nmero de fenmenos de la naturaleza y porque sus propiedades matemticas on inmejorables.
variables aleatorias
X = (X1 , ..., XN )
y matriz de varianzas-covarianzas
CX ,
si su funcin de
fX (x) = q
1
N
1
1
exp (x X ) CX
(x x ) ,
2
donde
CX = (Ci,j )i,j=1,...,N
(
V ar [Xi ] si i = j
Cij =
Cov [Xi , Xj ] si i 6= j
x = (x1 , ..., xN )
X NN (X ; CX ) .
Vamos a destacar algunas de las excelentes propiedades de la distribucin normal multivariante. Concretamente, nos centraremos en los siguientes resultados:
XN 1 = (X1 , ..., XN )
117
del vector, (Xi1 , ..., XiM ), con M < N tambin sigue distribucin conjuntamente gaussiana, de parmetros
(i1 , ..., iM ) y matriz de covarianzas constituida por las las y las columnas de CX correspondientes a las
variables Xi1 , ..., XiM .
Ejemplo.
2 1 0
1 3 1 .
0 1 1
En aplicacin del resultado anterior, las marginales univariantes siguen las distribuciones siguientes:
X1 N (0, 2) , X2 N (0, 3) , X3 N (0, 1).
Por su parte, las marginales bivariantes siguen las distribuciones siguientes:
0
(X1 , X2 ) N2
0
0
(X1 , X3 ) N2
0
0
(X2 , X3 ) N2
!
!
!
2 1
1 3
2 0
0 1
3 1
1 1
!!
!!
!!
y matriz de varianzas-covarianzas
M M
yM 1 Y
M 1
,
V ar X |Y=y = CX CXY CY1 CXY
Ejemplo.
118
X3 =0.25 ]
=0+
1 0
3 1
1 1
!1
0.5 0
0.25 0
= 0.125
X3 =0.25 )
=2
3 1
1 0
1 1
!1
1
0
= 1.5
Como caso particular, vamos a describir con ms detalle el caso bivariante, tanto en lo que
respecta a su densidad como a las distribuciones marginales y condicionadas.
Ejemplo.
Sea por tanto un vector (X, Y )21 , con distribucin conjuntamente gaussiana de vector de medias
(X , Y ) y matriz de covarianzas
C(X,Y ) =
donde =
Cov(X,Y )
X Y
2
X
X Y
X Y
Y2
2 2
es el coeciente de correlacin lineal. Entonces, det C(X,Y ) = X
Y 1 2 y
1
C(X,Y
)
1
=
1 2
1
2
X
XY
XY
1
2
Y
fX,Y (x, y) =
1
p
2X Y 1 2
(
#)
"
2
2
1
2 (x x ) (y Y ) (y Y )
(x X )
exp
+
.
2
2 (1 2 )
X
X Y
Y2
1
,
2X Y 12
en el punto (X , Y ).
2
y N Y , Y2 .
Evidentemente, las distribuciones marginales son N X , X
En lo que respecta a las distribuciones condicionadas, aplicando el ltimo resultado tenemos que
X
2
2
X | Y = y0 N X +
(y0 Y ) ; X 1
Y
Y
2
2
.
(x0 X ) ; Y 1
Y | X = x0 N Y +
X
Obsrvese que, curiosamente, la varianza condicionada no depende del valor que condiciona. Esto tendr
importantes repercusiones ms adelante.
Continuando con las propiedades, una de las ms tiles es su invarianza frente a transformaciones lineales.
Concretamente, si tenemos un vector aleatorio XN 1 = (X1 , ..., XN ) con distribucin gaussiana, vector de
Prof. Dr. Antonio Jos Sez Castillo
119
0.5
120
0.9.
X = Y = 0, X = Y = 1
= 0, 0.5,
(En http://www.ilri.org/InfoServ/Webpub/Fulldocs/Linear_Mixed_Models/AppendixD.htm).
Prof. Dr. Antonio Jos Sez Castillo
medias
CX ,
y matriz de covarianzas
YM 1 = AM N XN 1 + bM 1
tiene distribucin gaussiana de vector de medias
Ejemplo.
Y = A X + b
y matriz de covarianzas
CY = A CX A .
X2
1
cero, varianzas
en las variables
Y1 = X1 2X2
Y2 = 3X1 + 4X2
las nuevas variables tienen distribucin conjuntamente gaussiana, con medias
1
3
(Y1 , Y2 ) =
2
4
0
0
0
0
y matriz de covarianzas
Y2 1
cY1 ,Y2
cY1 ,Y2
Y2 2
1 2
4 3
3 9
2 4
28
66
66
252
Otra de las ms importantes propiedades es que se trata del nico caso en el que independencia e incorrelacin
son equivalentes. Es decir, si
XN 1
fX (x1 , ..., xN ) = q
N
(2) det (CX )
1
=q
N
2
(2) 12 ...N
=
N
Y
1
1
exp (x X ) CX
(x X )
2
(
1X
exp
2 i=1
xi i
i
2 )
fXi (xi ) .
i=1
121
donde
CX =
122
12
...
.
.
.
.
.
.
...
2
N
Parte III
Inferencia estadstica
123
Captulo 6
Distribuciones en el muestreo
Pocas observaciones y mucho razonamiento conducen al error; muchas observaciones y poco
razonamiento, a la verdad.
Alexis Carrel
Resumen.
En este captulo se pretende llamar la atencin acerca de que los parmetros muestrales son
6.1.
Introduccin
Al estudiar el concepto de variable aleatoria, dijimos que viene motivado porque muchas de las variables que
se observan en la vida real, en el ambiente de las Ingenieras en particular, estn sujetas a incertidumbre.
Eso quiere decir que si nosotros obtenemos algunas observaciones de esas variables (muestras), los datos
no son iguales. Es ms, si obtenemos otras observaciones, las dos muestras tampoco sern ni mucho menos
idnticas.
Por tanto, al hablar de distribuciones tericas de probabilidad, lo que pretendamos era proponer un modelo
que permitiera calcular probabilidades asociadas, no a una muestra en particular de datos, sino a todas las
posibles muestras, con todos los posibles datos de la variable.
Recordemos el ejemplo que pusimos: las distribuciones de probabilidad son como un traje que elegimos para
ponernos cualquier da durante un periodo de tiempo amplio. En la medida que el traje de una variable,
su distribucin,
le quede bien,
aplicarse a cualquier dato o conjunto de datos de la variable. Pero igualmente, si un traje (una distribucin
de probabilidad terica)
no le queda bien
funcin masa o una funcin de densidad tericas, pueden no ser realistas respecto a los resultados empricos
que se obtengan mediante muestras de la variable.
Qu nos queda por hacer a lo largo del curso? Dado que, en general, las distribuciones tericas de probabilidad
dependen de uno o ms parmetros, lo que nos ocupar gran parte del resto del curso es tratar de elegir
125
adecuadamente esos parmetros. En el ejemplo de los trajes podamos pensar que esto es como aprender a
escoger la talla del traje.
En este captulo vamos a comenzar con algunas cuestiones tericas acerca de lo que implica el proceso de
muestreo, previo a la eleccin de los parmetros y, posteriormente, nos vamos a centrar en resultados que
implica el muestreo de datos de variables que siguen una distribucin normal.
6.2.
Muestreo aleatorio
En multitud de mbitos de la vida real es evidente que la mejor forma de aprender algo es a partir de la
experiencia. Eso quiere decir que solemos utilizar aquello que vemos para aprender pautas y conductas que
luego generalizamos.
En Estadstica pasa algo muy similar: necesitamos basarnos en muestras de una variable para poder aprender
de ellas y generalizar, inferir, aspectos referentes a las muestras a toda la poblacin.
Sin embargo, como en la vida real, en Estadstica tambin debemos ser muy cuidadosos con los datos sobre los
que basamos nuestro aprendizaje. Qu pasara si basamos nuestro aprendizaje en experiencias incorrectas o
poco signicativas?
Para que esto no ocurra debemos basarnos en muestras donde todos los individuos de la poblacin puedan
verse representados. Por otra parte, es evidente que cuanto mayores sean las muestras ms ables deberan
ser nuestras inferencias.
El concepto clave en este planteamiento es el de muestra aleatoria simple. Supongamos que estamos observando una variable aleatoria, X , en una poblacin determinada. Ya dijimos que una muestra aleatoria simple
de X consiste en la recopilacin de datos de la variable, mediante la repeticin del experimento al que est
asociada, con dos condiciones bsicas:
1. Que todos los elementos de la poblacin tengan las mismas posibilidades de salir en la muestra.
2. Que las distintas observaciones de la muestra sean independientes entre s.
En ese caso, los valores que toma la variable en cada una de las observaciones de una muestra de tamao
n, X1 , ..., Xn , son en s mismos, variables aleatorias independientes que siguen la misma distribucin de
probabilidad, llamada distribucin poblacional. Esta distribucin es, en principio, desconocida, por lo
que se intentar utilizar la muestra para hacer inferencia sobre ella y, al menos, aproximar la forma de esta
distribucin.
6.3.
Distribuciones en el muestreo
Supongamos que estamos observando una variable aleatoria X , y que obtenemos una muestra aleatoria
simple suya, x11 , ..., x1n . Con esos datos podemos calcular la media de la muestra, x1 , y la desviacin tpica de
la muestra, s1 , por ejemplo.
Pero debemos ser conscientes de lo que signica muestra aleatoria. El hecho de que hayan salido los valores
x11 , ..., x1n es fruto del azar. De hecho, si obtenemos otra muestra, x21 , ..., x2n , obtendremos otra media, x
2 y
otra desviacin tpica de la muestra, s2 .
126
Y si, sucesivamente, obtenemos una y otra muestra, obtendremos una y otra media muestral, y una y otra
desviacin tpica muestral. Por lo tanto, en realidad, lo que estamos viendo es que la media y la varianza
muestrales (y en general, cualquier parmetro de una muestra aleatoria simple) son, en realidad, variables
aleatorias que, como tales, deben tener su distribucin, su media, su varianza...
Vamos a recordar dos deniciones que ya introdujimos al comienzo del curso.
Un parmetro muestral es un parmetro (media, varianza, ...) referido a una muestra de una
variable aleatoria.
Un parmetro poblacional es un parmetro (media, varianza, ...) referido a la distribucin
poblacional de una variable aleatoria.
Pues bien, asociados a estos dos conceptos tenemos ahora las siguientes deniciones.
La distribucin
en el muestreo
En este apartado simplemente vamos a presentar una serie de resultados acerca de la distribucin en el
muestreo, es decir, acerca de las distribuciones de probabilidad, de algunos parmetros muestrales que pueden
obtenerse asociados a una variable aleatoria normal.
Algunas de estas distribuciones aparecen por primera vez, as que debemos denirlas previamente. Por otra
parte, sus funciones de densidad son bastante poco tratables. Esto no es ningn problema hoy en da, gracias
al uso que podemos hacer de los ordenadores para cualquier clculo. Adems, para poder trabajar con ellas
cuando no tenemos un ordenador a mano, existen tablas que pueden ser impresas en papel con muchos valores
de sus funciones de distribucin.
Una de las primeras distribuciones en el muestreo ser la 2 . Recordemos que una distribucin 2 con
n grados de libertad es una distribucin Gamma de parmetros n2 y 12 .
Nota.
Si Z es una variable aleatoria normal estandar y S una 2 con n grados de libertad, siendo ambas
independientes, entonces
Z
t= p
S/n
127
S1 /n1
S2 /n2
Sn1 / n
(n 1) Sn1
2
donde
Sp2
2
2
2
1
+ (n2 1) Sn1
(n1 1) Sn1
,
=
n1 + n2 2
Sean X1 , ..., Xn1 e Y1 , ..., Yn2 muestras aleatorias simples de variables independientes con distribuciones
N (1 , ) y N (2 , ). Entonces, el parmetro muestral
2 =
(n1 + n2 2) Sp2
,
2
1
Sn1
2
Sn1
2
2
/12
/22
128
Captulo 7
7.1.
Introduccin
Podra comparar el valor promedio de su equipo con un valor hipottico para, por ejemplo, demostrar a la empresa que tiene un mejor rendimiento que el promedio general de la empresa.
En este captulo nos centraremos en la primera y la segunda forma, que consisten en proporcionar un valor
que creemos que est cerca del parmetro (estimacin puntual) o en proporcionar un intervalo en el que
conamos que se encuentra el parmetro desconocido (estimacin por intervalos de conanza). La tercera
posibilidad se estudiar en el captulo de contrastes de hiptesis.
7.2.
Estimacin puntual
En primer lugar, parece lgico pensar que si bien el estimador no proporcionar siempre el valor exacto del
parmetro, al menos deber establecer estimaciones que se equivoquen en igual medida por exceso que por
defecto. Este tipo de estimadores se denominan insesgados .
Un estimador de un parmetro se dice
insesgado
si
h i
E = .
Se denomina
sesgo de un estimador
h i
.
a E
Observemos que para comprobar si un estimador es insesgado, en principio es necesario conocer su distribucin
en el muestreo, para poder calcular su esperanza matemtica.
Adems de la falta de sesgo, nos gustara que la distribucin de muestreo de un estimador tuviera poca
varianza, es decir, que la dispersin de las estimaciones con respecto al valor del parmetro poblacional, fuera
baja.
En este sentido, se dene el error
dicho estimador, y se nota s.e.
estandar de un estimador
7.2.2.
Sea una v.a. X , y una muestra aleatoria suya, X1 , ..., XN . Entonces, la media muestral,
= X1 + ... + XN
X
N
El resultado establece algo que poda haberse intuido desde la denicin de la media o esperanza matemtica
de una distribucin de probabilidad: si tenemos unos datos (mas ) de una v.a., una estimacin adecuada de
la media de la v.a. es la media de los datos.
Hay que tener mucho cuidado con no confundir la media de la v.a., es decir, la media poblacional, con la
media de los datos de la muestra, es decir, con la media muestral.
Por otra parte, el error estandar hace referencia a X , que es un parmetro poblacional y, por lo tanto,
desconocido. Lo que se suele hacer es considerar la desviacin tpica muestral como una aproximacin de la
poblacional para evaluar este error estandar.
7.2.3.
Sea una v.a. X y una muestra aleatoria simple suya, X1 , ..., XN . Entonces, la varianza muestral,
2
SX,N
1
PN
Xi X
N 1
i=1
2
Al hilo del comentario previo que hicimos sobre la media muestral como estimador natural de la
media, ahora quiz sorprenda que en el denominador de la varianza muestral aparezca N 1 y no N .
En este sentido, si consideramos el estimador
Nota.
2
SX,N
PN
i=1
Xi X
N
2
131
Ejemplo.
Mediante R hemos generado una muestra aleatoria simple de 1000 valores de una distribucin
N (0, 1). Sabemos, por tanto, que la media (poblacional) de los datos es 0 y que la varianza (poblacional)
es 1. No obstante, vamos a suponer que desconocemos de qu distribucin proceden los datos y vamos a
tratar de
ajustar
x
= 0.0133
y
s999 = 0.9813,
por lo que ajustaramos los datos de la muestra
N (0.0133, 0.9813) .
La densidad de esta distribucin aparece tambin en la Figura 7.1, en trazo continuo, y se observa que
ajusta muy bien la forma del histograma.
0.0
0.1
0.2
Densidad
0.3
0.4
0.5
Histograma de la muestra
x11000
N (0.0133, 0.9813).
132
7.2.4.
p,
Xi = 1
X1 , ..., XN
PN
i=1
p =
es un estimador insesgado de
p.
Xi
s.e.(
p) =
p(1 p)
N
p,
en lugar de
N,
es grande, se utilice
en esa expresin.
s.e.(
p)
f (p) = p(1 p)
r
es menor que
1
4
si
0 p 1,
luego
1
1
= .
4N
2 N
,
2 N
Ejemplo. Si el nmero de varones en una muestra de 1000 individuos de una poblacin es 507, podemos
aproximar la verdadera proporcin de varones en toda la poblacin mediante
p =
507
= 0.507,
1000
1
= 0.01581139. La estimacin del error estandar de
2 1000
p
0.507 0.493/1000 = 0.01580984: en este caso, las diferencias son inapreciables.
7.2.5.
la
Hasta ahora hemos puesto un ejemplo acerca de la estimacin de la media o la varianza de una poblacin
mediante la media y la varianza muestral. Sin embargo, nosotros hemos visto muchas distribuciones tericas
que no dependen directamente de la media o la varianza. Por ejemplo, la binomial depende de
de dos parmetros,
p,
la Gamma
Existen diversos mtodos de estimacin de parmetros. Nosotros vamos a ver dos de los ms sencillos.
7.2.5.1.
Vamos a explicar el mtodo slo para distribuciones de uno o dos parmetros poblacionales, que son las
nicas que hemos visto nosotros.
Sea
x1 , ..., xn
X:
133
1. Si la distribucin de
X,
2. Si la distribucin de
E [X] = ,
2 ,
X,
x
= f 1 , 2
s2n1 = g 1 , 2 .
Ejemplo.
EX = np,
EX
n . Por tanto, el mtodo
.
n
EX =
p =
Ejemplo.
p=
p =
Ejemplo.
por lo que
1
p
1, de donde p =
1
1+EX , luego el mtodo
1
.
1+x
a (1 p)
p
a (1 p)
V arX =
p2
EX =
p.
Dado que
EX
= p,
V arX
se tiene que
a = EX
134
EX
EX 2
p
=
= EX V arX
1p
V arX EX
1 VEX
arX
p =
a
=
7.2.5.2.
s2X,N 1
2
.
s2X,N 1 x
Este mtodo obedece a un principio muy lgico: dada una muestra, escojamos como estimaciones aquellos
valores de los parmetros que hagan ms creibles, ms verosmiles, los datos de la muestra.
Para desarrollar el mtodo debemos tener en cuenta que si tenemos una muestra aleatoria simple de una
variable
X , x1 , ..., xn ,
p (x),
densidad de la muestra es
X , x1 , ..., xn ,
la verosimilitud de la muestra
es la funcin
L,
= arg max L .
si
entonces
Nota.
2 ,
1 , 2 = arg max L .
1 ,2
Dado que el mximo de una funcin coincide con el mximo de su logaritmo, suele ser muy til
Ejemplo.
de una distribucin
B (n, p)
x1 , ..., xN .
135
N
Y
n
nx
i
pxi (1 p)
x
i
i=1
!
N
P
Y
PN
n
nN N
i=1 xi
.
p i=1 xi (1 p)
=
x
i
i=1
Su logaritmo resulta
N
Y
n
i=1
xi
N
X
PN
i=1
xi
de donde
xi
i=1
ln p +
nN
i=1
xi
ln (1 p) .
e igualamos a cero:
PN
nN i=1 xi
= 0,
1p
PN
x
p
i=1 xi
=
=
= n
PN
1p
nx
1
nN i=1 xi
Luego el estimador es
N
X
p =
.
n
Obsrvese que coincide con el estimador que obtuvimos por el mtodo de los momentos.
de una distribucin
exp ()
x1 , ..., xN .
Funcin de verosimilitud:
Lx1 ,...,xN () =
N
Y
exi = N e
i=1
PN
i=1
xi
ln Lx1 ,...,xN () = N ln
Para maximizar esta funcin, derivamos respecto a
N
X
xi .
i=1
e igualamos a cero:
N X
xi = 0,
i=1
de donde
= PN
i=1
xi
1
.
x
De nuevo el estimador mximo verosmil coincide con el proporcionado por el mtodo de los momentos.
136
Ejemplo. En el caso de la distribucin normal, tenemos dos parmetros. Veamos cmo proceder en esta
situacin. Vamos a preocuparnos por los estimadores de la media y de la varianza:
La funcin de verosimilitud:
Lx1 ,...,xN ,
N
Y
i=1
1
2 2
(xi )2
2 2
1
2 2
N
Pn
2
i=1 (xi )
2 2
Su logaritmo:
ln Lx1 ,...,xN ,
N
N
= ln (2)
ln 2
2
2
2 .
PN
i=1
(xi )
.
2 2
PN
(xi )
d
ln Lx1 ,...,xN , 2 = i=1 2
=0
d
PN
2
1 i=1 (xi )
N
d
2
ln
L
+
,
=0
x
,...,x
1
N
2
d 2
2 2
2
( 2 )
De la primera ecuacin se sigue
N
X
i=1
(xi ) =
de donde
=
De la segunda, sustituyendo en ella
por
i=1
PN
i=1
xi N = 0,
xi
=x
.
x
,
PN
i=1
de donde
N
X
(xi x
)
2
( 2 )
PN
i=1
N
,
2
(xi x
)
= s2n .
N
Nota. De nuevo hay que llamar la atencin sobre el hecho de que hemos buscado un estimador, de
mxima verosimilitud, de
mxima verosimilitud de
2 ,
no de
sn .
137
Modelo
Estimadores por el
mtodo de los momentos
exp ()
Gamma (a, )
p = nx
=x
1
p = 1+
x
2
a
= s2 x x , p = s2 x
X,N 1
X,N 1
= 1
2
= 2x
a
= 2x ,
N (, )
=x
,
= sn1
B (n, p)
P ()
Geo (p)
BN (a, p)
sn1
sn1
1
p = 1+
x
1
x
=x
,
= sn
Cuadro 7.1: Estimadores por el mtodo de los momentos y de mxima verosimilitud de los parmetros de las
distribuciones ms usuales.
7.2.6.
En toda esta seccin, supongamos que tenemos una muestra x1 , ..., xN de una variable aleatoria X . Los
estimadores segn el mtodo de los momentos y de mxima verosimilitud de los parmetros segn las distribuciones que hemos descrito aparecen en el Cuadro 7.1.
Nota. Al respecto de la interpretacin del nivel de conanza, tenemos que decir que, dado que desde el
comienzo del curso hemos adoptado una interpretacin frecuentista de la probabilidad, un intervalo de
conanza al 95 %, por ejemplo, garantiza que si tomamos 100 muestras el parmetro poblacional estar
dentro del intervalo en aproximadamente 95 intervalos construidos.
Sin embargo, esta interpretacin es absurda en la prctica, porque nosotros no tenemos 100 muestras,
sino slo una.
138
Nosotros tenemos los datos de una muestra. Con ellos construimos un intervalo de conanza. Y ahora slo
caben dos posibilidades: o el parmetro est dentro del intervalo o no lo est. El parmetro es constante,
y el intervalo tambin. No podemos repetir el experimento! Es por ello que se habla de intervalos de
conanza , interpretando que tenemos una conanza del 95 % en que el parmetro estar dentro.
P x
z1 2 , x
+ z1 2
N
N
= 1 ,
+ z1 2
x
z1 2 , x
N
N
con un (1 ) % de conanza.
No obstante, hay que reconocer que en la prctica es poco probable que se desconozca el valor de la media
y s se conozca el de la varianza, de manera que la aplicacin de este teorema es muy limitada. El siguiente
resultado responde precisamente a la necesidad de extender el anterior cuando se desconoce el valor de la
varianza.
Sea X una v.a. con distribucin normal de media y varianza 2 , ambas desconocidas. Sea una
muestra x = (x1 , ..., xN ) de X , la media muestral x y la varianza muestral s2X,N 1 . Entonces,
P x
t1 2 ;N 1
s2X,N 1
N
,x
+ t1 2 ;N 1
s2X,N 1
N
= 1 ,
donde t;N es el valor tal que FTN (t;N ) = , siendo TN una v.a. con distribucin T de Student
con N grados de libertad.
Es decir, conamos en un (1 ) % en que el intervalo
x
t1 ;N 1
2
s2X,N 1
N
,x
+ t1 2 ;N 1
s2X,N 1
N
139
Mediante R habamos simulado 1000 valores de una distribucin N (0, 1). La media y la
desviacin tpica muestrales de esos 1000 valores resultaron ser x = 0.0133 y s999 = 0.9813. Por tanto,
el intervalo de conanza que se establece al 95 % de conanza para la media es
Ejemplo.
0.9813
0.0133 1.96
1000
= (0.074, 0.0475)
P x
z1/2 , x
1 .
+ z1/2
N
N
En esta expresin, si es desconocida, puede sustituirse por la desviacin tpica muestral, sn1 .
Se considera que el tiempo de fallo de una componente electrnica sigue una distribucin
exponencial de parmetro desconocido. Se toma una muestra de 50 tiempos de fallo y la media muestral
de stos es de x = 17.5, siendo la desviacin tpica muestral de 19.2. Calculemos un intervalo de conanza
para con un nivel de signicacin = 0.1:
Ejemplo.
sn1
sn1
x
z0.95 , x
+ z0.95
50
50
Dado que =
1
EX ,
19.2
19.2
17.5 1.645 , 17.5 + 1.645
50
50
el intervalo de conanza al 90 % de es
1
1
22.83 , 12.18
= (13.033, 21.967).
= (0.04, 0.08) .
P p
140
p z1/2
p (1 p)
, p + z1/2
N
p (1 p)
N
!#
1 .
Los Servicios Sociales de cualquier municipio asumen que, por errores inevitables, no todas las familias
a las que subvencionan reunen los requisitos exigidos, pero la Junta les responsabiliza de que esto no
ocurra en ms del 4 % de ellas. Si se supera este porcentaje, penalizar al municipio.
En un municipio se muestrean 200 familias y se detecta que 12 de ellas (6 %) no cumplen las condiciones
exigidas. Debe la Junta sancionar al municipio?
Si nos jamos slo en el valor de la estimacin puntual, 6 %, s debera hacerlo, pero no sera justo: 12
errores en una muestra de 200 pueden no ser una evidencia suciente de que el porcentaje superara el
4 %.
Consideremos un un intervalo de conanza para la proporcin de errores (5 % de signicacin) con los
datos obtenidos:
r
0.06(1 0.06)
= (0.027, 0.093).
200
0.06 1.96
Por tanto, no hay evidencias de que el porcentaje sea superior al 4 % y no debe sancionarse al municipio.
"P
N
i=1 (Xi
21 ;N
2
< 2 <
PN
i=1 (Xi )
2 ;N
= 1 .
= 1 .
Si la media es desconocida,
P
"P
N
2
)
i=1 (Xi x
21 ;N 1
2
< <
PN
i=1 (Xi
2 ;N 1
2
x
)
En ambas expresiones, 2;N corresponde con aquel valor tal que F2 2;N
distribucin cuadrado con N grados de libertad.
. Un intervalo de conanza para la desviacin tpica puede obtenerse trivialmente como la raiz cuadrada
del intervalo de conanza para la varianza.
Nota
141
En el ejemplo donde consideramos 1000 valores simulados de una N (0, 1) tenamos que x =
0.0133 y s999 = 0.9813. Por tanto, teniendo en cuenta que
Ejemplo.
N
X
i=1
(Xi x
) = 999 s2999 ,
961.9867
961.9867
,
1.0885 103 913.3010
= (0.8838, 1.0533) .
7.4.
Recordemos que al principio del curso plantebamos un problema que aparece en un artculo publicado en
struction Waste, en el que se presenta un estudio de la contaminacin en basureros que contienen desechos
este problema.
En primer lugar, tenemos que obtener una estimacin de la proporcin de muestras (o probabilidad) que
contienen niveles detectables de plomo. Hemos visto que un estimador insesgado de mnima varianza, que
adems coincide con el estimador de mxima verosimilitud, de la proporcin es la proporcin muestral. En
nuestro caso, por tanto, podemos estimar la proporcin en
p =
26
= 0.6190.
42
s.e.(
p) =
0.6190(1 0.6190)
= 0.0749
42
1
2 42
= 0.0771.
143
|
|
Confidence Interval
1.0
0.5
0.0
0.5
1.0
0.6
0.4
0.2
0.0
10
|
10
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
20
20
|
|
|
|
|
|
0.2
0.4
0.6
0.6
0
0
20
|
|
|
|
|
|
|
|
|
Index
Index
Index
|
|
|
30
30
30
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
10
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
40
40
40
|
|
|
|
|
|
50
50
50
144
Figura 7.2: Distintos intervalos de conanza para una media a un 68 % (izquierda), a un 90 % (centro) y
a un 99 % (derecha). Puede observarse que aumentar el nivel de conanza hace ms amplios los intervalos.
Tambin puede observarse que no todos los intervalos contienen a la media poblacional (0), pero que el n
de stos malos intervalos disminuye conforme aumentamos el nivel de conanza.
|
|
|
|
|
|
|
|
|
|
|
Confidence Interval
Confidence Interval
0.4
0.2
0.0
0.2
0.4
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Captulo 8
contraste de hiptesis, error tipo I, error tipo II, estadstico de contraste, p-valor, nivel de
signicacin, nivel de conanza.
Palabras clave:
145
8.1.
Introduccin
Como apuntbamos en la introduccin del captulo anterior, las llamadas pruebas o contrastes de hiptesis se utilizan para inferir decisiones que se reeren a un parmetro poblacional basndose en muestras de la
variable. Vamos a comenzar a explicar el funcionamiento de un contraste de hiptesis con un ejemplo.
Los cientcos recomiendan que para prever el calentamiento global, la concentracin de gases
de efecto invernadero no debe exceder las 350 partes por milln. Una organizacin de proteccin del medio
ambiente quiere determinar si el nivel medio, , de gases de efecto invernadero en una regin cumple con
las pautas requeridas, que establecen un lmite mximo de 350 partes por milln. Para ello tomar una
muestra de mediciones diarias de aire para decidir si se supera el lmite, es decir, si > 350 o no. Por
tanto, la organizacin desea encontrar apoyo para la hiptesis > 350, llamada hiptesis alternativa,
obteniendo pruebas en la muestra que indiquen que la hiptesis contraria, = 350 (o 350), llamada
hiptesis nula, es falsa.
Ejemplo.
Dicho de otra forma, la organizacin va a someter a juicio a la hiptesis nula 350. Partir de su
inocencia, suponiendo que es cierta, es decir, suponiendo que, en principio, no se superan los lmites de
presencia de gases de efecto invernadero, y slo la rechazar en favor de H1 si hay pruebas evidentes en
los datos de la muestra para ello.
La decisin de rechazar o no la hiptesis nula en favor de la alternativa deber basarse en la informacin
que da la muestra, a travs de una alguna medida asociada a ella, que se denomina estadstico de
contraste. Por ejemplo, si se toman 30 lecturas de aire y la media muestral es mucho mayor que 350, lo
lgico ser rechazar la hiptesis nula en favor de > 350, pero si la media muestral es slo ligeramente
mayor que 350 o menor que 350, no habr pruebas sucientes para rechazar 350 en favor de > 350.
A la luz de este ejemplo, vamos a tratar de denir de forma general los conceptos que acabamos de introducir.
Un contraste de hiptesis es una prueba que se basa en los datos de una muestra de una
variable aleatoria mediante la cul podemos rechazar una hiptesis sobre un parmetro de la
poblacin, llamada hiptesis nula (H0 ), en favor de una hiptesis contraria, llamada hiptesis
alternativa (H1 ).
La prueba se basa en una transformacin de los datos de la muestra, lo que se denomina estadstico de contraste.
Se rechazar la hiptesis nula en favor de la alternativa cuando el valor del estadstico de contraste
se site en una determinada regin, llamada regin de rechazo.
La hiptesis H0 se suele expresar como una igualdad1 , del tipo H0 : = 0 , donde es un parmetro de una
poblacin y 0 es un valor hipottico para ese parmetro. Por su parte, H1 puede tener tener dos formas:
1 De
H0
H1 ,
146
Uno de los aspectos ms importantes y que se suele prestar a mayor confusin se reere a qu hiptesis
considerar como H0 y cul como H1 . Una regla prctica para hacerlo correctamente puede ser la siguiente:
1. Si estamos intentando probar una hiptesis, sta debe considerarse como la hiptesis alternativa.
2. Por el contrario, si deseamos desacreditar una hiptesis, debemos incluir sta como hiptesis nula.
Ejemplo. Para una determinada edicacin se exige que los tubos de agua tengan una resistencia media
a la ruptura, , por encima de 30 kg por centmetro.
Como primera situacin, supongamos que un proveedor quiere facilitar un nuevo tipo de tubo para
ser utilizado en esta edicacin. Lo que deber hacer es poner a trabajar a sus ingenieros, que
deben realizar una prueba para decidir si esos tubos cumplen con las especicaciones requeridas.
En ese caso, deben proponer un contraste que incluya como hiptesis nula H0 : 30 frente a la
alternativa H1 : > 30. Si al realizar el contraste de hiptesis se rechaza H0 en favor de H1 , el
tubo podr ser utilizado, pero si no se puede rechazar H0 en favor de H1 , no se tienen sucientes
garantas sobre la calidad del tubo y no ser utilizado.
Como segunda situacin, un proveedor lleva suministrando su tipo de tubo desde hace aos, sin que
se hayan detectado, en principio, problemas con ellos. Sin embargo, un ingeniero que trabaja para
el gobierno controlando la calidad en las edicaciones viene teniendo sospechas de que ese tipo de
tubo no cumple con las exigencias requeridas. En ese caso, si quiere probar su hiptesis, el ingeniero
deber considerar un contraste de la hiptesis nula H0 : 30 frente a H1 : < 30. Dicho de
otra forma, slo podr contrastar su hiptesis si encuentra datos empricos que permitan rechazar
esa hiptesis nula en favor de su alternativa, que demuestren con un alto nivel de abilidad que el
proveedor que estaba siendo aceptado ahora no cumple con los requisitos.
De hecho, es importantsimo que desde el principio tengamos claro qu tipo de decisiones puede proporcionarnos un contraste de hiptesis. Aunque ya las hemos comentado, vamos a insistir en ellas. Son las dos
siguientes:
1. Si el valor del estadstico de contraste para los datos de la muestra cae en la regin de rechazo, podremos
armar con un determinado nivel de conanza que los datos de la muestra permiten rechazar la
hiptesis nula en favor de la alternativa.
2. Si el valor del estadstico de contraste para los datos de la muestra no cae en la regin de rechazo, no
podremos armar con el nivel de conanza exigido que los datos de la muestra permiten rechazar
la hiptesis nula en favor de la alternativa.
Prof. Dr. Antonio Jos Sez Castillo
147
Estado real
Decisin en
el contraste
H0
H0
H1
H1
Decisin correcta
Error tipo I
Error tipo II
Decisin correcta
8.2.
El contraste de una hiptesis estadstica implica, por tanto, una toma de decisin, a favor de H0 o en contra
de H0 y en favor de H1 . Esto implica que podemos equivocarnos al tomar la decisin de dos formas.
Se llama error tipo I o falso negativo a rechazar la hiptesis nula cuando es cierta, y su
probabilidad se nota por , llamado nivel de signicacin.
Se llama nivel de conanza a la probabilidad de aceptar la hiptesis nula cuando es cierta, es
decir, 1 .
Se llama error tipo II o falso positivo a aceptar la hiptesis nula cuando es falsa, y su
probabilidad se nota por .
Se llama potencia a la probabilidad de rechazar la hiptesis nula cuando es falsa, es decir, 1 .
Cul de los dos errores es ms grave? Probablemente eso depende de cada contraste, pero en general, lo que
se pretende es acotar el error tipo I y tratar de minimizar el error tipo II, es decir, tratar de elegir contrastes
lo ms potentes posibles garantizando que la probabilidad del error tipo I es inferior a un determinado nivel.
Ejemplo. Un fabricante de minicomputadoras cree que puede vender cierto paquete de software a ms
148
P [X = x]
0
1
2
3
4
5
6
7
8
9
10
10
0
10
= 0.10737
0 0.2 0.8
10
1
9
0.2
0.8
=
0.26844
1
10
2
8
0.2
0.8
=
0.30199
2
10
3
7
0.2
0.8
=
0.20133
3
10
4
6
0.2
0.8
=
0.08808
4 5 5
10
0.2
0.8
=
2.6424
102
5
10
6
4
3
6 0.2 0.8 = 5.505 10
10
7
3
4
7 0.2 0.8 = 7.8643 10
10
8
2
5
8 0.2 0.8 = 7.3728 10
10
9
1
6
9 0.2 0.8 = 4.096 10
10
10
0
7
10 0.2 0.8 = 1.024 10
Regin de
aceptacin
Regin
de
rechazo
Cuadro 8.2: Funcin masa del estadstico de contraste suponiendo cierta H0 , es decir, suponiendo que p = 0.2.
suponiendo que H0 es cierta, ya que debemos calcular
= P [Rechazar H0 |H0
es cierta ]
2
= 0.08808 + 2.6424 10
= P [X 4|p=0.2 ]
luego el nivel de conanza del contraste es del (1 0.12087) 100 % = 87.913 %. La conclusin sera que a
la luz de los datos podemos armar con un 87.913 % de conanza que p > 0.2.
Y si queremos un nivel de conanza mayor, es decir, una probabilidad de error tipo I menor? Debemos
reducir la regin de rechazo. Si ponemos como regin de rechazo x 5, ya no podremos rechazar H0 en favor
de H1 , ya que x = 4. Adems, ahora
= 2.6424 102 + 5.505 103 + 7.864 3 104
+ 7.3728 105 + 4.096 106 + 1.024 107
= 3.2793 102 ,
luego el nivel de conanza sera 1 3.2793 102 100 % = 96.721 %, y la conclusin sera que a la luz
de los datos no podemos armar que p > 0.2 con un 96.721 % de conanza.
8.3.
Histricamente, la forma ms comn de actuar en un contraste de hiptesis pasa por elegir un nivel de
signicacin (bajo), que determina un lmite para el error tipo I que estamos dispuestos a asumir. Ese nivel
de signicacin determina toda la regin de rechazo y, examinando si el valor del estadstico cae en ella,
podemos concluir si rechazamos o no la hiptesis nula en favor de la alternativa con el nivel de conanza
requerido.
Existe, sin embargo, otra forma de actuar que ha tenido un auge enorme desde que las computadoras se han
Prof. Dr. Antonio Jos Sez Castillo
149
convertido en una herramienta al alcance de cualquiera. Bajo esta forma de actuar, calcularemos el valor del
estadstico de contraste y valoraremos cmo es de extremo este valor bajo la distribucin en el muestreo de
la hiptesis nula. Si es ms extremo que el nivel de signicacin deseado, se rechazar la hiptesis nula en
favor de la alternativa. Esta medida de cun extremo es el valor del estadstico se llama p-valor.
Dado que normalmente se elige como nivel de signicacin mximo = 0.05, se tiene que la regla de decisin
en un contraste con ese nivel de signicacin, dado el p-valor, sera la siguiente:
1. Si p < 0.05, rechazamos H0 en favor de H1 con ms de un 95 % de conanza.
2. Si p 0.05, no podemos rechazar H0 en favor de H1 con al menos un 95 % de conanza.
Sin embargo, esta regla de decisin, que es la ms habitual, es demasiado reduccionista si no se proporciona
el valor exacto del p-valor. La razn es que no es lo mismo rechazar una hiptesis con al menos un 95 % de
conanza si el p-valor es 0.049 que si es 0.001. Hay que proporcionar siempre el p-valor de un contraste, ya
que eso permite a cada lector decidir por s mismo.
En resumen, el p-valor permite utilizar cualquier otro nivel de signicacin, ya que si consideramos un nivel
de signicacin :
1. Si p < , rechazamos H0 en favor de H1 con ms de un (1 ) % de conanza.
2. Si p , no podemos rechazar H0 en favor de H1 con al menos un (1 ) % de conanza.
Como conclusin, siempre que hagamos un contraste de hiptesis, debemos facilitar el p-valor asociado.
Como nota nal sobre el concepto de p-valor, es importante sealar que, al contrario de lo que errneamente
se piensa en demasiadas ocasiones, el p-valor no es la probabilidad de la hiptesis nula. Mucha gente piensa
esto porque es cierto que cuando el p-valor es pequeo es cuando se rechaza la hiptesis nula. Sin embargo,
para empezar, no tiene sentido plantearnos la probabilidad de la hiptesis nula, ya que sta, o es cierta, o es
falsa: desde una perspectiva clsica de la probabilidad, se habla de la probabilidad de un suceso porque a
veces ocurre y a veces no, pero en este caso no podemos pensar as, ya que la hiptesis nula o se da o no se
150
0.4
0.3
0.2
0.2
0.3
0.4
0.1
Regin de aceptacin
0.1
Regin de aceptacin
0.0
0.0
Para comprender cmo se calcula el p-valor de un contraste es necesario distinguir entre contrastes unilaterales
o de una cola frente a contrastes bilaterales o de dos colas.
Como ya comentamos, los contrastes del tipo H0 : = 0 , frente a H1 : 6= 0 son contrastes bilaterales
o de dos colas, ya que el rechazo de la hiptesis nula en favor de la alternativa puede producirse porque el
estadstico de contraste toma valores muy altos o muy bajos. Por contra, los contrastes del tipo H0 : = 0 ,
frente a H1 : > 0 o H1 : < 0 son contrastes unilaterales o de una cola, ya que el rechazo de la
hiptesis nula en favor de la alternativa puede producirse slo si el estadstico de contraste toma valores muy
altos (cuando H1 : > 0 , llamado contraste a la derecha) o muy bajos (cuando H1 : < 0 , llamado
contraste a la izquierda).
Por tanto, teniendo en cuenta la denicin de p-valor, su clculo se realiza de la siguiente forma:
1. Si el contraste es unilateral a la izquierda (H1 : < 0 ),
p = P [S s/H0 ] .
151
0.2
0.3
0.4
0.1
Regin de aceptacin
0.0
: 6= 0 ),
8.4.
152
Tipo de prueba
A la izquierda
Bilateral
A la derecha
Hiptesis
H0 : = 0
H1 : < 0
H0 : = 0
H1 : 6= 0
x
0
z = sn1
/ n
|z| > z1/2
2P [Z > |z|]
n 30
H0 : = 0
H1 : > 0
Estadstico
Rechazo
p-valor
Supuestos
z < z
P [Z < z]
z > z1
P [Z > z]
10.38
8.71
7.84
8.63
10.06
9.76
9.16
9.16
7.48
8.09
7.58
10.80
9.40
7.75
9.19
9.99
9.86
9.03
8.92
10.79
9.46
7.61
9.00
12.85
9.82
10.18
8.98
9.25
11.01
9.37
9.08
10.81
10.39
8.19
9.66
7.09
9.05
8.50
7.44
9.75
9.25
9.39
9.51
11.66
9.66
El Cuadro 8.3 incluye un resumen del procedimiento para el contraste. En l, zp es el valor de una N (0, 1)
tal que P [Z < zp ] = p.
A modo de ejemplo, podemos pensar en que los arquelogos utilizan el hecho conocido de que los hmeros
de los animales de la misma especie tienden a tener aproximadamente las mismas razones longitud/anchura
para tratar de discernir si los hmeros fsiles que encuentran en un yacimiento corresponden o no a una nueva
especie.
Supongamos que una especie comn en la zona donde se enclava un yacimiento, la Bichus localis, tiene una
razn media longitud/anchura de 8. Los arquelogos encargados del yacimiento han hallado 50 hmeros
fsiles, cuyos datos aparecen en el Cuadro 8.4. Tienen los arquelogos indicios sucientes para concluir que
han descubierto en el yacimiento una especie distinta de la Bichus localis ?
En primer lugar, observemos que no nos han especicado ningn nivel de signicacin en el enunciado. En
este caso, lo habitual es considerar = 0.05. En caso de que la decisin sea muy relevante, elegiramos un
nivel ms bajo.
A continuacin debemos plantear las hiptesis del contraste. En principio, la zona de la excavacin indica que
la especie del yacimiento debera ser la especie Bichus localis, salvo que demostremos lo contrario, es decir,
la hiptesis nula es H0 : = 9, donde por estamos notando la media de la razn longitud/anchura del
hmero de la especie del yacimiento. Como hiptesis alternativa nos planteamos que se trate de otra especie,
es decir H1 : 6= 9. Se trata, por tanto, de un contraste de dos colas.
Para realizarlo, debemos calcular en primer lugar el estadstico de contraste. ste, a su vez, requiere del
clculo de la media y de la desviacin tpica muestral de los datos. Estos valores son, respectivamente, 9.414
y 1.239. Por tanto,
z=
9.414 9
= 2.363.
1.239/ 50
Ahora tenemos que plantearnos si este valor del estadstico nos permite rechazar la hiptesis nula en favor
de la alternativa o no. Podemos hacerlo de dos formas:
1. Obteniendo la regin de rechazo. Dado que z10.05/2 = 1.96, la regin de rechazo es |z| > 1.96. Vemos
Prof. Dr. Antonio Jos Sez Castillo
153
Tipo de prueba
A la izquierda
Bilateral
A la derecha
Hiptesis
H0 : = 0
H 1 : < 0
H0 : = 0
H1 : 6= 0
x
0
t = sn1
/ n
|t| > t1/2;n1
2P [Tn1 > |t|]
H0 : = 0
H1 : > 0
Estadstico
Rechazo
p-valor
Supuestos
t < t;n1
P [Tn1 < t]
t > t1;n1
P [Tn1 > t]
Dado que es inferior al 5 %, podemos rechazar la hiptesis nula en favor de la alternativa con un 95 % de
conanza, concluyendo con ese nivel de conanza que la razn media longitud/anchura de los hmeros
del yacimiento es distinta de la del Bichus localis, pero no podramos llegar a hacer esa armacin con
un 99 % de conanza (1 % de signicacin)2 .
8.4.2.
La principal diferencia es que, al no poder utilizar el Teorema Central del Lmite por tratarse de muestras
pequeas, debemos aadir como hiptesis la normalidad de los datos. En ese caso, la distribucin en el
muestreo del estadstico ya no es normal, sino t-student. El resumen aparece en el Cuadro 8.5. En ella, tp;v
es el valor de una t de Student con v grados de libertad tal que P [Tv < tp;v ] = p.
Vamos a plicar el test en la siguiente situacin. El diario Sur publicaba una noticia el 5 de noviembre de 2008
donde se indicaba que los niveles de concentracin de benceno, un tipo de hidrocarburo cancergeno que se
encuentra como vapor a temperatura ambiente y es indisoluble en agua, no superan el mximo permitido por
la Directiva Europea de Calidad del Aire, cinco microgramos por metro cbico. sta es la principal conclusin
en el Campo de Gibraltar. La
noticia slo indicaba que el estudio se basaba en una muestra, dando el valor medio muestral en varias zonas
del Campo de Gibraltar, pero no el tamao ni la desviacin tpica muestral.
del estudio elaborado por un equipo de la Escuela Andaluza de Salud Pblica
Para realizar el ejemplo, nosotros vamos a imaginar unos datos correspondientes a una muestra de 20 hogares
donde se midi la concentracin de benceno, arrojando una media muestral de 5.1 microgramos por metro
cbico y una desviacin tpica muestral de 1.7. Estoy seguro de que, en ese caso, el peridico habra sacado
grandes titulares sobre la contaminacin por benceno en los hogares del Campo de Gibraltar pero, podemos
armar que, en efecto, se superan los lmites de la Directiva Europea de Calidad del Aire?
En primer lugar, de nuevo no nos indican un nivel de signicacin con el que realizar la prueba. Escogemos,
en principio, = 0.05.
2 Debe quedar claro que, estadsticamente, lo que hemos demostrado es que la razn media es distinta de 9. Son los arquelogos
los que deciden que eso implica una nueva especie.
154
Tenemos que tener cuidado, porque el planteamiento de la prueba, tal y como se nos ha planteado, ser
contrastar la hiptesis nula H0 : = 5 frente a H1 : > 5, en cuyo caso, un error tipo I se traduce en
concluir que se viola la normativa cuando en realidad no lo hace, lo cul es grave porque genera alarma
injusticada en la poblacin, mientras que el error tipo II, el que no controlamos con el , es concluir que
se cumple la normativa cuando en realidad no lo hace, lo cual es gravsimo para la poblacin! Con esto
quiero incidir en una cuestin importante respecto a lo que se nos pide que demostremos: se nos dice que
nos planteemos si se superan los lmites de la normativa, en cuyo caso H1 debe ser > 5, pero en realidad,
deberamos plantearnos la pregunta de si podemos estar seguros de que se est por debajo de los lmites
mximos permitidos, es decir, deberamos probar H1 : < 5.
Centrndonos exclusivamente en lo que se nos pide en el enunciado, tenemos que H1 : > 5 determina que
se trata de una prueba unilateral a la derecha. El estadstico de contraste es
t=
5.1 5
= 0.263.
1.7/ 20
1. Si queremos concluir con la regin de rechazo, sta est formada por los valores t > t0.95;59 = 1.729,
luego, dado que 0.263 < 1.729, no podemos armar con un 95 % de conanza que se est incumpliendo
la normativa.
2. El p-valor es an ms informativo. Su valor es p = P [T19 > 0.263] = 0.398, por lo que tendramos
que llegar hasta casi un 40 % de signicacin para rechazar la hiptesis nula en favor de la alternativa
armando que se incumple la normativa.
Por lo tanto, tal y como est planteado el problema, no podemos armar que se est incumpliendo la normativa
(con un 5 % de signicacin), por ms que un valor muestral de la media, 5.1, parezca indicar que s. Lo
que yo recomendara a los responsables del cumplimiento la normativa es que aumentaran el tamao de la
muestra, ya que, por ejemplo, si esos mismos datos correspondieran a 1000 hogares en vez de a 60, s se
podra armar con un 95 % de conianza que se incumple la normativa.
8.5.
Sean dos muestras, x1 , ..., xn1 e y1 , ..., yn2 , de v.a. independientes con medias 1 y 2 y varianzas 12 y 22 .
2
2
Sean x, y, s1n1 y s2n1 medias y varianzas muestrales.
8.5.1.
155
Tipo de
Unilateral a
prueba
la izquierda
Hiptesis
Estadstico
H0 : 1 2 = D 0
H1 : 1 2 < D 0
z=
z < z
rechazo
P [Z < z]
n1 , n2 30.
p-valor
Supuestos
a la derecha
H0 : 1 2 = D 0
H1 : 1 2 6= D0
de contraste
Regin de
Unilateral
Bilateral
(
x
y )D0
(s1n1 )
n1
(s2n1 )
H0 : 1 2 = D 0
H1 : 1 2 > D 0
2
n2
z > z1
2P [Z > |z|]
P [Z > z]
Proceso antiguo
n1 = 50
y1 = 1255
s1 = 215
n2 = 30
y2 = 1330
s2 = 238
Llamemos
H1 : 1 2 < 0:
H0 : 1 = 2
frente a
H1 : 1 < 2
o, lo que es lo mismo,
El estadstico es
1255 1330
z=q
= 1.41.
2152
2382
+
50
30
1. La regin de rechazo es
Dado que
conanza en que el nuevo proceso haya disminuido el tiempo medio de produccin. No obstante, esta
respuesta deja abierta la pregunta, si no un 95 % de conanza, cunta?.
2. Dado que el p-valor es
Hay que decir que no hemos podido probar lo que se sospechaba, que el nuevo proceso reduca el tiempo
medio de produccin, pero los datos apuntan en esta direccin. Desde el punto de vista estadstico, deberamos
recomendar al ingeniero que aumente el tamao de las muestras porque es posible que en ese caso s pueda
probar esa hiptesis.
8.5.2.
El resumen aparece en el Cuadro 8.8. A propsito de la hiptesis de la igualdad de las varianzas, sta debe
basarse en razones no estadsticas. Lo habitual es que se suponga que son iguales porque el experto que est
realizando el contraste tiene razones experimentales para hacerlo, razones ajenas a la estadstica.
156
Tipo
A la izquierda
Hiptesis
H0 : 1 2 = D 0
H1 : 1 2 < D 0
Estadstico
de contraste
t=
Bilateral
(
x
y )D0
r
s2p n1 + n1
1
Regin de
Rechazo
p-valor
A la derecha
H0 : 1 2 = D 0
H0 : 1 2 = D 0
H1 : 1 2 6= D0
H1 : 1 2 > D 0
2
2
(n1 1)(s1n1 ) +(n2 1)(s2n1 )
2
, sp =
n1 +n2 2
Supuestos
12 = 22
59
71
73
63
74
40
61
34
92
38
60
48
84
60
54
75
73
47
47
41
102
44
75
86
33
53
68
39
12 18.6 + 14 15.8
= 294.09.
13 + 15 2
68.2 53.8
1
294.09( 13
+
1
15 )
= 2.22.
Aunque no hemos dicho nada al respecto, vamos a suponer que las varianzas son iguales. Esto no parece
descabellado si admitimos que las condiciones en que trabajan ambos equipos determinan que no debe haber
diferencias en la variabilidad de sus puntuaciones. Esta hiptesis debe ser admitida y propuesta por el experto
(en este caso, el ingeniero) que maneja los datos.
Para obtener la conclusin, como siempre, vamos a obtener la regin de rechazo y valorar el p-valor:
1. La regin de rechazo es |t| > t0.975;26 = 2.055. Dado que t = 2.22 cae en esa regin, podemos rechazar
la igualdad de las medias con un 95 % de conanza.
2. Dado que el p-valor, p = 2P [T26 > 2.22] = 0.035 es inferior a 0.05, podemos rechazar la igualdad de las
medias con un 95 % de conanza. De hecho, podramos llegar a un 96.5 %.
Prof. Dr. Antonio Jos Sez Castillo
157
Unilateral a
Tipo de prueba
H0 : 1 2 = D 0
H1 : 1 2 < D 0
Hiptesis
Estadstico
t=
r
1
n
H0 : 1 2 = D 0
H1 : 1 2 > D 0
(
x
y )D0
2
(s1n1 ) +(s2n1 )
t < t;2(n1)
t > t1;2(n1)
P [T;2(n1) < t]
P [T;2(n1) > t]
rechazo
p-valor
a la derecha
H0 : 1 2 = D 0
H1 : 1 2 6= D0
de contraste
Regin de
Unilateral
Bilateral
la izquierda
Supuestos
n1 = n 2 = n
Cuadro 8.10: Contraste para la igualdad de medias con muestras pequeas varianzas distintas y mismo
tamao muestral
Unilateral a
Tipo de prueba
H0 : 1 2 = D 0
H1 : 1 2 < D 0
Hiptesis
Estadstico
t=
de contraste
Regin
(
x
y )D0
(s1n1 )
n1
a la derecha
H0 : 1 2 = D 0
H0 : 1 2 = D 0
H1 : 1 2 6= D0
H1 : 1 2 > D 0
2 !2
2
(s1n1 ) + (s2n1 )
( s2 )
+ n1
n2
,v =
n1
n2
2 2
s1
n1
n1
n1 1
(s2n1 )
n2
2 2
n2 1
t < t;v
t > t1;v
P [Tv < t]
P [Tv > t]
de rechazo
p-valor
Unilateral
Bilateral
la izquierda
Supuestos
Cuadro 8.11: Contraste para la igualdad de medias con muestras pequeas, varianzas distintas y distinto
tamao muestral
8.5.3.
8.5.4.
8.6.
Y.
158
apareadas,
D = X Y.
Notamos
a su varianza muestral.
Tipo
A la izquierda
Bilateral
A la derecha
Hiptesis
H0 : 1 2 = D 0
H1 : 1 2 < D 0
H0 : 1 2 = D 0
H1 : 1 2 6= D0
z = sddD
/ n
H0 : 1 2 = D 0
H1 : 1 2 > D 0
z < z
P [Z < z]
z > z1
P [Z > z]
Estadstico
Rechazo
p-valor
Supuestos
n1
Cuadro 8.12: Contraste para la igualdad de medias en poblaciones apareadas con muestra grande
Tipo
A la izquierda
Bilateral
A la derecha
Hiptesis
H0 : 1 2 = D 0
H1 : 1 2 < D 0
H0 : 1 2 = D 0
H1 : 1 2 6= D0
t = sddD
/ n
H0 : 1 2 = D 0
H1 : 1 2 > D 0
Estadstico
Rechazo
p-valor
Supuestos
n1
t < t;n1
|t| > t1/2;n1
t > t1;n1
P [Tn1 < t]
2P [Tn1 > |t|]
P [Tn1 > t]
D = X Y , es aproximadamente normal
Cuadro 8.13: Contraste para la igualdad de medias en poblaciones apareadas y muestra pequea
8.6.1.
3.21 2
= 3.375
1.134/ 10
159
Pareja
1
2
3
4
5
6
7
8
9
10
Placebo
32.10
36.10
32.30
29.50
34.30
31.90
33.40
34.60
35.20
32.70
Medicamento
27.10
31.50
30.40
26.90
29.90
28.70
30.20
31.80
33.60
29.90
Diferencia
5.00
4.60
1.90
2.60
4.40
3.20
3.20
2.80
1.60
2.80
Unilateral a
la izquierda
Bilateral
Unilateral
a la derecha
Hiptesis
H0 : p = p 0
H1 : p < p0
H 0 : p = p0
H1 : p 6= p0
H 0 : p = p0
H1 : p > p0
Estadstico
de contraste
p-valor
Regin
de rechazo
Supuestos
z=
0
q pp
p0 (1p0 )
n
P [Z < z]
2P [Z > |z|]
P [Z > z]
z < z
z > z1
np0 , n (1 p0 ) 10
8.7.
En esta ocasin tenemos una poblacin donde una proporcin dada presenta una determinada caracterstica,
que denominamos xito, y cuya probabilidad es p. Deseamos hacer inferencia sobre esta proporcin. Para
ello seleccionamos una muestra aleatoria simple de tamao n y contabilizamos la proporcin de xitos en la
muestra, p. El resumen del contraste aparece en el Cuadro 8.15.
Vamos a considerar un primer ejempo relativo a la relacin entre el gnero y los accidentes de trco. Se
estima que el 60 % de los conductores son varones. Por otra parte, un estudio realizado sobre los datos de 120
accidentes de trco muestra que en ellos el 70 % de los accidentes fueron provocados por un varn conductor.
Podemos, con esos datos, conrmar que los hombres son ms peligrosos al volante?
Si notamos por p a la proporcin de varones causantes de accidentes de trco, la pregunta se responder
armativamente si logramos contrastar la hiptesis H1 : p > 0.6. El valor del estadstico es
0.7 0.6
z=q
= 2.236.
0.60.4
120
Por su parte, la regin de rechazo sera |z| > 1.96 para un = 0.05, luego en efecto, podemos concluir que la
160
Una marca de nueces arma que, como mximo, el 6 % de las nueces estn vacas. Se eligieron 300 nueces
al azar y se detectaron 21 vacas. Con un nivel de signicacin del 5 %, se puede aceptar la armacin de
la marca?
En primer lugar, pedir un nivel de signicacin del 5 % es equivalente a pedir un nivel de conanza del
95 % ... sobre qu? Nos preguntan si se puede aceptar la armacin de la marca
con un nivel de
signicacin del 5 %, es decir, con un nivel de conanza del 95 %. Eso implica que queremos
probar con amplias garantas que la marca no miente, y la nica forma de hacerlo es poner su hiptesis
(p
< 0.06)
marca,
H1 : p < 0.06.
H0 : p 0.06
p = 21/300 = 0.07.
Es decir, nos
piden que veamos si una proporcin muestral de 0.07 da suciente conanza (95 % para ser exactos) de
que
p < 0.06...
No da ninguna! Ni siquiera hace falta hacer el contraste con nmeros. Jams podremos
rechazar la hiptesis nula en favor de la hiptesis de la marca, es decir, en absoluto podemos armar
lo que dice la marca,
p < 0.06,
0.070.06
= 0.729.
z=
0.060.94
300
la derecha y la regin de rechazo en la de la izquierda. Por eso deca antes que es imposible rechazar la
hiptesis nula en favor de la alternativa, independientemente del nivel de conanza requerido.
Hasta ahora hemos demostrado que la marca no puede armar que la proporcin de nueces vacas es
inferior al 6 % con un 95 % de conanza. De hecho, no lo puede armar con ningn nivel de conanza,
porque los datos tomados proporcionan una estimacin de 0.07 que va justo en contra de su hiptesis.
es ms, podra demostrar que hay evidencias empricas que proporcionan un 95 % de conanza en que la compaa miente, siendo en realidad
la proporcin de nueces vacas superior al 6 % . Ahora somos nosotros los que armamos otra cosa:
Pero vamos a suponer que nos ponemos gallitos y decimos:
armamos
p > 0.06
H0 : p 0.06
frente a
hechas, ya
rechazo es
Ahora el valor del estadstico, es decir, la informacin que nos dan los datos (21 de
300 nueces vacas), s es coherente con la hiptesis alternativa, de ah que est en la misma cola que la
regin de rechazo... pero no cae en ella!. Por lo tanto, no tenemos sucientes evidencias en los datos
para rechazar la hiptesis nula en favor de la alternativa con un 95 % de conanza, as que no podemos
demostrar con ese nivel de conanza que la marca miente.
En resumen, aunque parezca paradjico, no tenemos sucientes evidencias en los datos para armar
que la compaa dice la verdad, pero tampoco para demostrar que miente. La diferencia entre ambas
hiptesis radica en que no tenemos ninguna conanza en la armacin de la compaa, y s alguna
conanza en la armacin contraria. Cunta conanza tenemos en la armacin contraria
p > 0.06?
161
Tipo de
Unilateral a
prueba
la izquierda
Hiptesis
Estadstico
H 0 : p1 p 2 = D 0
H 1 : p1 p 2 < D 0
z=
de contraste
Regin
p1 p2 D0
,
1
1
n +n
p(1
p)
P [Z < z]
p-valor
a la derecha
H 0 : p1 p2 = D 0
H1 : p1 p2 6= D0
z < z
de rechazo
Unilateral
Bilateral
Supuestos
p =
H 0 : p 1 p2 = D 0
H 1 : p 1 p2 > D 0
n1 p1 +n2 p2
n1 +n2
z > z1
2P [Z > |z|]
P [Z > z]
Muestras grandes
Cuadro 8.16: Contraste para la diferencia de proporciones
p > 0.06
es
entonces qu hacemos? .
lo nico que podemos recomendar es aumentar el tamao de la muestra, es decir, romper ms de 300
nueces para tomar la decisin. Aparentemente, la informacin recogida con 300 nueces parece indicar
que la marca miente. De hecho, si la proporcin muestral de 0.07 proviniera de una muestra de 1600
nueces en vez de 300, s hubiramos podido demostrar con un 95 % de conanza que la marca miente.
8.8.
En esta ocasin partimos de dos poblaciones dentro de las cuales hay proporciones
p1
p2
de individuos con
la caracterstica xito. Pretendemos comparar estas proporciones mediante la toma de muestras de tamao
y
n2 .
Notaremos
p1
p2
n1
las proporciones de xitos en las muestras. Supondremos de nuevo que las muestras
son grandes para poder aplicar el Teorema Central del Lmite a la hora de trabajar con el estadstico de
contraste. El resumen del contraste aparece en el Cuadro 8.16.
Vamos a considerar un estudio
3 con datos reales, aunque algo anticuados, referente a la relacin entre los
accidentes de trco y el consumo de alcohol, realizado por la DGT en la Comunidad Autnoma de Navarra
en 1991.
Se realizaron pruebas de alcoholemia en 274 conductores implicados en accidentes de trco con heridos,
de los cuales, 88 dieron positivo. Por su parte, la Guardia Civil de Trco realiz en la misma zona 1044
controles de alcoholemia al azar, de los cuales 15 dieron positivo.
Lo que la DGT quiere demostrar es que el alcohol es causante de los accidentes de trco. Sin embargo,
desde el punto de vista estadstico slo podemos contrastar la hiptesis de que la proporcin de positivos en
la prueba de alcoholemia es mayor en el grupo de conductores implicados en accidentes de trco.
Notemos por
p1
p2
z=q
88
274
88+15
274+1044 (1
H 0 : p1 = p2
frente a
15
1044
88+15
1
274+1044 )( 274
1
1044 )
H 1 : p1 > p 2 .
El estadstico de
= 904.29.
3 http://www.dgt.es/educacionvial/imagenes/educacionvial/recursos/dgt/EduVial/50/40/index.htm
162
Tipo de prueba
Hiptesis
Estadstico
de contraste
Unilateral a
la izquierda
H0 : 2 = 02
H1 : 2 < 02
H0 : 2 = 02
H1 : 2 6= 02
2 =
Rechazo
2 < 2;n1
p-valor
Supuestos
P [2n1 < 2 ]
Unilateral
a la derecha
Bilateral
H0 : 2 = 02
H1 : 2 > 02
(n1)s2n1
02
2 < 2/2;n1 o
2 > 21/2;n1
2min(P [2n1 < 2 ], P [2n1 > 2 ])
2 > 21;n1
P [2n1 > 2 ]
8.9.
De nuevo consideremos que tenemos una variable aleatoria X con varianza 2 y que tomamos una muestra de
tamao n, cuya varianza muestral notamos por s2n1 . Vamos a tratar de hacer inferencia sobre 2 . El problema
es que ahora no podemos aplicar el Teorema Central del Lmite, por lo que slo utilizar los contrastes cuando
la variable X es normal. 2p;v es el valor de una 2 de v grados de libertad tal que P 2 < 2p;v = p.
Las empresa Sidel arma que su mquina de llenado HEMA posee una desviacin tpica en el llemado de
contenedores de 500ml de producto homogneo inferior a 0.8 gr.4 Vamos a suponer que el supervisor de control
de calidad quiere realizar una comprobacin al respecto. Recopila para ello una muestra del llenado de 50
contenedores, obteniendo una varianza muestral de 0.6 Esta informacin proporciona pruebas sucientes de
que la desviacin tpica de su proceso de llenado es realmente inferior a 0.8gr.?
Planteamos, en primer lugar, las hiptesis del contraste. Se nos pide que contrastemos H0 : = 0.8 o,
equivalentemente, H0 : 2 = 0.64 frente a la alternativa H1 : 2 < 0.64. Se trata, por tanto, de un test
unilateral a la izquierda. El estadstico de contraste es
2 =
49 0.6
= 45.938.
0.64
163
Tipo
Hiptesis
Unilateral a
la izquierda
H0 :
H1 :
12
22
12
22
=1
H0 :
<1
H1 :
Estadstico
Rechazo
p-valor
Supuestos
f=
f < f;n1 1,n2 1
P [Fn1 1,n2 1 < f ]
Unilateral
a la derecha
Bilateral
12
=1
22
12
6= 1
22
2
(s1n1 )
(s2n1 )
H0 :
H1 :
12
22
12
22
=1
>1
Ojo: antes de que la empresa Sidel se enfade con nosotros, no olvidemos que los datos son imaginarios: slo
son reales las especicaciones tcnicas de < 0.8gr.
8.10.
Tenemos dos muestras, x1 , ..., xn1 y y1 , ..., yn2 , de dos variables aleatorias independientes con varianzas 12 y
22 . Notaremos (s1n1 )2 y (s2n1 )2 a las varianzas muestrales. De nuevo slo podremos considerar el contraste
si ambas variables son normales. El resumen del contraste aparece en el Cuadro 8.18. En l, fp;v1 ,v2 es el
valor de una F de v1 y v2 grados de libertad5 tal que P [F < fp;v1 ,v2 ] = p.
Para practicar sobre el contraste, consideremos que se han realizado 20 mediciones de la dureza en la escala
Vickers de acero con alto contenido en cromo y otras 20 mediciones independientes de la dureza de una
soldadura producida sobre ese metal. Las desviaciones estndar de las muestras de dureza del metal y de
dureza de la soldadura sobre ste fue de 12.06HV y 11.41HV , respectivamente. Podemos suponer que
las durezas corresponden a variables normales e independientes. Podemos concluir que la dureza del metal
bsico es ms variable que la dureza medida en la soldadura?
Vamos a llamar a la dureza sobre el acero, X , y a la dureza sobre la soldadura, Y . Se nos pide que contrastemos
2
2
2
H0 : X
= Y2 frente a la alternativa H1 : X
> Y2 o, equivalentemente, H1 : X
2 > 1. Se trata, por tanto, de
una prueba unilateral a la derecha. El estadstico de contraste es
f=
12.06
= 1.057.
11.41
Vamos a tomar un nivel de signicacin de = 0.05. La regin crtica viene delimitada por el valor f0.95;19,19 =
2.168. Dado que f = 1.057 < f0.95;19,19 = 2.168, no podemos concluir al nivel de signicacin = 0.05 que
la dureza del metal bsico sea ms variable que la dureza medida en la soldadura.
El p-valor, por su parte, es p = P [F19,19 > 1.057] = 0.453.
5 De
164
8.11.
En algunas de las secciones anteriores hemos conseguido contrastes de hiptesis para valorar si existen diferencias signicativas entre dos grupos independientes. Lo que nos planteamos aqu es extender estos contrastes
para poder comparar no slo dos sino tres o ms grupos. Se da por hecho, por tanto, que existe un factor
que separa los valores de la variable en varios grupos (dos o ms).
Concretamente, supongamos m muestras independientes unas de otras, cada una de ellas con un tamao
ni 6 . Supongamos tambin que cada una de las muestras provienen de poblaciones con distribucin normal
de medias i y varianzas todas iguales, 2 .
Lo que planteamos es contrastar
H0 : 1 = ... = m
frente a
H1 : no todas las medias son iguales.
Denotemos por xi1 , ..., xini a la muestra isima, y xi y s2i,ni 1 a su media y su varianza muestral, con
i = 1, ..., m.
Este contraste se denomina ANOVA como acrnimo de Analysis of Variance, ya que, como vamos a ver, se
basa en analizar a qu se debe la variabilidad total que presentan los datos, si al azar o a las diferencias entre
las poblaciones de las que proceden las muestras.
Supongamos que
juntamos todas las muestras, obteniendo una nica muestra global de tamao
N=
m
X
ni ,
i=1
y calculamos su media,
x
=
P m P ni
i=1
j=1
xij
1. En primer lugar, los datos varan globalmente respecto a la media total. Una medida de esta variacin
es la suma de los cuadrados totales,
SCT =
ni
m X
X
i=1 j=1
xij x
2
2. Por otro lado, puede haber diferencias entre las medias de cada grupo y la media total. Podemos medir
estas diferencias con la suma de los cuadrados entre-grupos:
SCE =
m
X
i=1
6 No
ni (
xi x
) .
es necesario, aunque s deseable, que todas las muestras tengan el mismo tamao.
165
Si la hiptesis nula fuera cierta, slo habra pequeas diferencias muestrales entre las medias de cada
muestra, en cuyo caso, la SCE sera pequea. Si fuera falsa, habra muchas diferencias entre las medias
y con respecto a la media total, en cuyo caso SCE sera grande.
3. Por ltimo, debido a la variabilidad inherente a toda muestra, los datos de cada muestra van a variar respecto a su media particular. Como medida de esta variacin consideramos la suma de los cuadrados
dentro de los grupos o intra-grupos:
SCD =
ni
m X
X
i=1 j=1
xij x
i
2
m
X
i=1
(ni 1) s2i,ni 1 .
de particin
Teniendo en cuenta este resultado, el ANOVA consiste en ver si SCE es signicativamente grande respecto
de SCD. Para ello basta considerar que, suponiendo que la hiptesis nula es cierta:
SCT
2
SCE
2
SCD
2
SCE
m1
SCD
N m
que, suponiendo que la hiptesis nula es cierta, sigue una F de Snedecor con m 1 y N m grados de
libertad.
Por lo tanto, el test podemos resumirlo de la siguiente forma:
1. Calculamos
x
=
y con ella
SCE =
m
X
i=1
2. Calculamos
SCD =
P m P ni
j=1
i=1
N
2
ni (
xi x
) =
ni
m X
X
i=1 j=1
xij
xij x
i
2
SCE
m1
SCD
N m
m
X
ni x
2i N x
2 .
m
X
(ni 1) s2i,ni 1 .
i=1
i=1
4. Tomamos la decisin:
a)
166
b)
Si F > Fm1,N m;1 , rechazamos la hiptesis nula en favor de la alternativa con un nivel de
signicacin .
Composicin
A
B
C
D
Media muestral
253.8
263.2
271.0
262.0
Vamos a contrastar si existen diferencias signicativas entre las durezas, suponiendo que estas siguen
distribuciones normales todas ellas con la misma varianza.
En primer lugar, observemos que los tamaos muestrales son iguales: n1 = ... = n4 = 5.
Por otra parte, tenemos:
x
=
Por tanto,
F =
743.4
41
1023.6
204
= 3.8734.
Por su parte, el valor de F3,16;0.95 es 3.2389, de manera que podemos armar que existen diferencias
signicativas entre las durezas de los 4 compuestos, con un 95 % de conanza.
8.12.
Qu ocurre si en un estudio tenemos que realizar ms de una prueba de hiptesis? Cada prueba lleva consigo
un determinado nivel de conanza y, por tanto, una probabilidad de equivocarnos rechazando una hiptesis
nula que es cierta (error tipo I). Cuantas ms pruebas hagamos, ms probabilidades tenemos de cometer un
error en la decisin rechazando una hiptesis nula cierta o, dicho de otra forma, menor conanza tendremos.
El mtodo de Bonferroni es uno de los mtodos ms simples para tratar de corregir este problema asociado
a las pruebas mltiples. Se trata de corregir los p-valores de todas las pruebas que se estn realizando
simultneamente, multiplicndolos por el n total de pruebas, antes de tomar la decisin.
En Biologa Molecular se estudia la relacin que puede tener el nivel de expresin de un gen
con la posibilidad de padecer un tipo de cncer. Un investigador consigue analizar el nivel de expresin de
Ejemplo.
167
10 genes en una muestra de pacientes y realiza 10 contrastes de hiptesis donde la hiptesis alternativa de
cada uno de ellos dice que un gen est relacionado con la posibilidad de padecer ese cncer. Los p-valores
obtenidos son los siguientes:
(0.1, 0.01, 0.21, 0.06, 0.32, 0.24, 0.45, 0.7, 0.08, 0.0003)
En principio, tendramos evidencias de que el 2 y el ltimo gen estn signicativamente relacionados con
ese tipo de cncer. Sin embargo, debemos corregir el efecto de la realizacin de las 10 pruebas simultneas.
Aplicando el mtodo de Bonferroni, debemos multiplicar por 10 los p-valores. En ese caso, el segundo
gen ya no puede ser considerado estadsticamente signicativo para el riesgo de padecer el cncer (0.01
10 > 0.05); por el contrario, dado que 0.0003 10 < 0.05, el ltimo gen sigue siendo considerado
signicativamente relacionado con el cncer.
8.13.
8.13.1.
Recordemos que en este ejemplo plantebamos que en una encuesta realizada por alumnos de la asignatura
en el curso 2008/2009 stos sacaron la impresin de que el IMC medio de los varones estaba por encima de
la medida ideal indicada, 22.5. La cuestin es, si realmente tienen evidencias sucientes de ello y cmo de
fuertes son esas evidencias.
Los datos muestrales arrojan una media de x = 24.736 y una desviacin tpica de sn1 = 10.202. El tamao
de la muestra fue de 45 varones.
Si notamos por a la media poblacional del IMC de los varones, lo que nos planteamos es el contraste de
H0 : 22.5 frente a la alternativa H1 : > 22.5.
En primer lugar, el histograma de los datos (ver Figura 8.3) hace pensar que stos no estn lejos de la
normalidad. De todas formas, dado que tenemos 45 datos, no es necesario suponer que los datos siguen una
normal, ya que el tamao muestral es sucientemente grande.
El estadstico de contraste sera
z=
24.736 22.5
= 1.47.
10.202/ 45
El p-valor, P [Z > 1.47] = 0.071 es superior al 5 %, lo que indica que a pesar de que el valor muestral es
superior a 22.5, no podemos concluir con un 95 % de conanza que el IMC medio de la poblacin de los
varones sea superior a 22.5.
8.13.2.
de bolas y tiene dos mquinas distintas para ello. Le interesa que los cojinetes producidos tengan dimetros
similares, independientemente de la mquina que los produce, pero tiene sospechas de que est produciendo
168
8
6
0
Frequency
10
12
14
Histogram of x
20
25
30
algn problema de falta de calibracin entre ellas. Para analizar esta cuestin, extrae una muestra de 120
cojinetes que se fabricaron en la mquina A, y encuentra que la media del dimetro es de 5.068 mm y que
su desviacin estndar es de 0.011 mm. Realiza el mismo experimento con la mquina B sobre 65 cojinetes
y encuentra que la media y la desviacin estndar son, respectivamente, 5.072 mm y 0.007 mm. Puede el
ingeniero concluir que los cojinetes producidos por las mquinas tienen dimetros medios signicativamente
diferentes?
En este caso, afortunadamente tambin tenemos un tamao muestral que va a permitir obviar la hiptesis
de normalidad. Vemos que de nuevo se plantea un supuesto que puede ser analizado a travs de la media,
en concreto, comparando la media de ambas mquinas. Si llamamos
dimetro de la mquina B, tenemos que contrastar
El estadstico de contraste es
El p-valor asociado es
H0 : X = Y
al dimetro de la mquina A e
frente a
al
H1 : X 6= Y .
5.068 5.072
z=q
= 3.013.
0.0072
0.0112
120 +
65
169
170
Captulo 9
9.1.
Introduccin
Todos los contrastes que hemos descrito en el captulo anterior se basan, directa o indirectamente (a travs
del teorema central del lmite) en que los datos se ajustan a la distribucin normal, haciendo inferencia de
una u otra forma sobre sus parmetros. En este captulo vamos a considerar contrastes que no necesitan
de tal hiptesis, por lo que no se enuncian como contrastes sobre algn parmetro desconocido: de ah que
formen parte de los llamados contrastes no paramtricos o contrastes de hiptesis no paramtricas.
9.2.
171
Resultado
Observados
Esperados
105
100
107
100
89
100
103
100
111
100
85
100
Total
600
600
frente a la alternativa
H1 :
facilitando adems un p-valor que permitir, adems, comparar la bondad de distintos ajustes.
Decir, por ltimo, que aunque estos dos contrastes de hiptesis pueden aplicarse a cualquier tipo de variables
estn especialmente indicados para variables de tipo discreto o cualitativo en el caso del primero de ellos (test
9.2.1.
Test
Ejemplo.
de bondad de ajuste
Supongamos que un tahur del Missisipi quiere probar un dado para ver si es adecuado para
i = 1, 2, ..., 6,
pi
H0 : p1 = ... = p6 =
frente a la alternativa de
H1
que algn
pi
1
6
sea distinta de 6 .
Para realizar la prueba, lanzar el dado 600 veces, anotando el nmero de veces que se da cada resultado.
Estas cantidades se denominan
frecuencias observadas.
frecuencias esperadas.
El tahur tomar la decisin con respecto al dado a partir de la comparacin de las frecuencias observadas
y las esperadas (ver Cuadro 9.1). Qu decidiras t a la luz de esos datos?
A continuacin, vamos a describir el test 2 , que permite realizar pruebas de este tipo. Como hemos comentado
en la introduccin, con ella podremos
juzgar
puntual, pero tambin podremos utilizarla en ejemplos como el que acabamos de ver, en el que el experto
est interesado en contrastar datos experimentales con respecto a una distribucin terica que le resulta de
inters.
En primer lugar y de forma ms general, supongamos que tenemos una muestra de tamao
discreta o cualitativa,
172
X,
de una v.a.
Consideremos una particin del conjunto de valores que puede tomar la variable: S1 , ..., Sr . En principio,
esta particin podran ser simplemente todos y cada uno de los valores que toma la variable X , pero, como
veremos, es posible que tengamos que agrupar algunos de ellos.
Seguidamente, consideremos la probabilidad, segn la distribucin dada por el ajuste que queremos evaluar,
de cada una de estas partes,
pi = P [X Si /H0 ] > 0.
De igual forma, calculemos Oi , el nmero de observaciones de la muestra que caen en cada conjunto Si .
La idea del test es comparar el nmero de observaciones Oi que caen realmente en cada conjunto Si con el
nmero esperado de observaciones que deberan caer en Si si el ajuste es el dado por nuestro modelo, que
sera N pi . Para ello, una medida que compara estas dos cantidades viene dada por
D=
r
2
X
(Oi N pi )
.
N pi
i=1
Si, para una muestra dada, esta v.a. toma un valor d muy alto, indica que los valores observados no cuadran
con el ajuste que hemos propuesto (con lo cul se rechazara la hiptesis nula en favor de la alternativa);
si, por el contrario, toma un valor d bajo, indica que nuestro ajuste corresponde bien con los datos de la
muestra, por lo que es aceptable la hiptesis nula.
El problema nal es decidir cundo el valor de la v.a. D, d, es lo sucientemente alto como para que nos
resulte inaceptable el ajuste. Para decidirlo hay que tener en cuenta que cuando N es razonablemente alto y
la hiptesis H 0 es cierta, la distribucin de probabilidad de D es 2 con r k 1 grados de libertad, es decir,
N >>
D/H0 2rk1 ,
donde k es el nmero de parmetros que han sido estimados en el ajuste. Teniendo en cuenta este resultado,
se calcula bajo esta distribucin la probabilidad de que se de un valor todava ms alto que d (el p-valor, por
tanto),
p = P [D > d/H0 ] .
2. Si en la muestra se dan los valores x1 , ..., xm , se calculan las frecuencias esperadas segn el ajuste
propuesto de cada valor xi , N P [X = xi ], i = 1, ..., m. Si alguna de estas frecuencias es inferior
a 5, se agrupa con alguna de la ms cercana hasta que sumen una frecuencia mayor o igual a 5. Se
construye as la particin del conjunto de valores posibles para X , S1 , ...Sr , cuyas frecuencias esperadas
Prof. Dr. Antonio Jos Sez Castillo
173
xi
Frec. obs.
0
42
1
28
2
13
3
5
4
7
5
3
6
2
r
2
X
(Oi N pi )
.
N pi
i=1
distribucin dada.
Los datos que se presentan en el Cuadro 9.2 constituyen una muestra aleatoria simple del
tiempo en ms. que transcurre entre la llegada de paquetes transmitidos por un determinado protocolo.
En la tabla aparecen los valores junto al nmero de veces que han sido observados en la muestra.
Ejemplo.
Se sospecha que una distribucin geomtrica puede ajustar bien esos datos. Vamos a realizar ese ajuste
y contrastar si es aceptable mediante el test de la chi-cuadrado.
En primer lugar, para ajustar una distribucin geomtrica debemos estimar el parmetro de la misma.
Vamos a hacerlo de forma sencilla por el mtodo de los momentos. El valor de la media de la distribucin
1
. Por tanto, nuestro estimador ser
es EX = p1 1, de donde p = 1+EX
p =
1
.
1+x
Por su parte,
x
=
luego p =
174
1
1+1.24
0 42 + 1 28 + 2 13 + 3 5 + 4 7 + 5 3 + 6 2
= 1.24,
100
= 0.4464.
As pues, deseamos contrastar en qu medida el ajuste de una Geo (0.4464) es vlido para los datos de
la muestra. Es decir, deseamos contrastar H0 : X Geo (0.4464) frente a la alternativa H1 : X 9
Geo (0.4464) .
Vamos a calcular cules son las probabilidades tericas segn esa distribucin de los valores observados
en la muestra:
0
Ahora tenemos que construir la particin de los valores de la variable que, como sabemos, son 0,1,... Hay
que tener en cuenta que debemos procurar que las frecuencias esperadas sean superiores o iguales a 5.
Como hay 100 observaciones, ser necesario agrupar los valores 4 en adelante en un solo conjunto. Vamos
a resumir este planteamiento en el Cuadro 9.3 donde, adems, aparecen los residuos al cuadrado entre
las frecuencias observadas y esperadas, necesarios para calcular el estadstico del test.
El valor de ste se calcula a partir de los resultados de la tabla de la siguiente manera:
d=
Finalmente, el p-valor se calcula como P [D > 1.7973] , donde D sigue una 2511 , es decir, una Gamma
de parmetros (5 1 1)/2 y 1/2. Por tanto,
p valor =
1
2
1.7973
32 1 1 x
e 2
dx = 0.61552.
3
2
1
2x
Al ser superior (muy superior, de hecho) a 0.05, podemos armar que no hay evidencias en los datos de
la muestra en contra de que stos sigan una distribucin Geo (0.4464).
175
xi
Oi
0
1
2
3
4
42
28
13
5
12
N pi
44.64
27.71
13.68
7.57
9.38
(Oi N pi )
A la hora de calcular este mximo debemos tener en cuenta que la variable x es de tipo continuo.
La hiptesis nula a contrastar es
H0 : los datos de la muestra se ajustan a la distribucin dada por F (x) ,
Se rechazar la hiptesis nula en favor de la alternativa cuando el p-valor asociado al valor que tome DN sea
inferior a 0.05.
Esquemticamente, el proceso en el desarrollo del test puede resumirse en los siguientes pasos:
1. Ordenamos los valores de la muestra de menor a mayor: x(1) , ..., x(N ) .
2. Construimos la funcin de distribucin emprica, que en cada valor de la muestra viene dado por
SN x(i) = Ni .
3. El valor del estadstico se calcula como
dN = m
ax
1iN
m
ax F x(i) SN x(i) , F x(i) SN x(i1) .
4. Se rechazar la hiptesis nula en favor de la alternativa si p = P [DN > dN ] < 0.05, con un (1 p)
100 % de conanza.
La distribucin de probabilidad de DN , necesaria para calcular el p-valor, no es muy conocida. Para evaluar
esta probabilidad hay que echar mano de algn paquete matemtico o consultar tablas de dicha distribucin.
1.4647
0.2333
0.4995
0.0814
0.7216
0.3035
0.1151
1.7358
0.2717
0.9021
0.7842
0.0667
3.9898
0.0868
0.1967
0.8909
0.8103
0.1124
0.4854
0.0512
176
Los datos que aparecen en el Cuadro 9.4 corresponden al tiempo en sec. entre conexiones a
un servidor. Nos planteamos si una distribucin exponencial es adecuada para su ajuste.
Ejemplo.
En primer lugar hemos de decidir cul es el ajuste propuesto. El estimador mximo verosmil del
parmetro de una exponencial coincide con el estimador del mtodo de los momentos, = m11 . En este
caso, = 1/0.6902 = 1. 448 9.
Para calcular el valor del estadstico del contraste, debemos evaluar la funcin de distribucin de una
exp (1.4489),
F (x) = 1 e1.4489x , x 0
con la funcin de distribucin emprica. El Cuadro 9.5 muestra ambas funciones de distribucin. De ella
se deduce que el valor del estadstico de contraste es 0.172 72. El p-valor asociado (calculado con Matlab)
toma el valor
P [D20 > 0.172 72] = 0.7507.
Por tanto, no hay en los datos evidencia en contra de asumir que siguen una distribucin exp (1.4489).
La Figura 9.1 muestra en una vertiente grca la bondad del ajuste y el punto donde se alcanza la
distancia mxima entre las funcin de distribucin terica y emprica.
x(i)
0.0512
0.0667
0.0814
0.0868
0.1124
0.1151
0.1967
0.2333
0.2717
0.3035
F x(i)
7.1499 102
9.2119 102
0.11125
0.11818
0.15029
0.1536
0.24798
0.28682
0.32542
0.3558
i
20
i1
20
0.05
0.1
0.15
0.2
0.25
0.3
0.25
0.4
0.45
0.5
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
x(i)
0.4854
0.4995
0.7216
0.7842
0.8103
0.8909
0.9021
1.4647
1.7358
3.9898
F x(i)
0.50505
0.51506
0.64849
0.67897
0.69089
0.72496
0.72938
0.88023
0.91914
0.99691
i
20
i1
20
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
1
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
9.3.
Contraste de independencia
Si nos damos cuenta, desde el captulo de estadstica descriptiva nos hemos centrado exclusivamente en
variables de tipo cuantitativo.
Sin embargo, en numerosas ocasiones el objeto de estudio viene determinado, no por una cantidad, sino
por una cualidad o un estado no cuanticable. Es por ello que vamos a considerar un contraste relativo a
variables de tipo cualitativo, concretamente, para valorar si dos de estas variables estn o no signicativamente
relacionadas.
177
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.5
1.5
2.5
3.5
Figura 9.1: Funciones de distribucin terica y emprica. Valor donde se da el estadstico de KolmogorovSmirnof.
Est relacionada la ideologa poltica con el gnero del votante? Es decir, nos planteamos si
el que una persona se declare de izquierdas o de derechas depende de si es varn o mujer. Existen dos
variables cualitativas o caractersticas que dividen a la poblacin. Lo que nos interesa es si esa divisin
est o no relacionada. Sern ms conservadoras las mujeres?
Ejemplo.
Consideremos en general una poblacin en la que cada individuo se clasica de acuerdo con dos caractersticas,
designadas como X e Y . Supongamos que los posibles valores de X son x1 , ..., xr y los posibles valores de Y
son y1 , ..., ys .
Denotemos por pij a la proporcin de individuos de la poblacin cuyas caractersticas son simultneamente
xi e yj . Denotemos adems, como pi. a la proporcin de individuos con caracterstica xi y p.j a la proporcin
de individuos con caracterstica yj . En trminos de probabilidades, tendremos que si se elige un individuo al
azar,
P [X = xi , Y = yj ] = pij
P [X = xi ] = pi. =
s
X
pij
r
X
pij .
j=1
P [Y = yj ] = p.j =
i=1
Lo que pretendemos contrastar es si las dos caractersticas son independientes, es decir, si para todo i y para
todo j ,
P [X = xi , Y = yj ] = P [X = xi ] P [Y = yj ] ,
es decir, si
pij = pi. p.j .
178
para todo
i = 1, ..., r; j = 1, ..., s
frente a
j.
ni. =
yj .
Ps
j=1
nij
xi
De esta forma,
pij =
nij
n
pi. =
ni.
n
p.j =
n.j
n
n.
Denotemos por
pi.
yj (frecuencias observadas),
Pr
n.j = i=1 nij los que toman el valor
y el valor
xi
p.j .
n,
que
nij
con
Por otra parte, si la hiptesis nula fuera cierta, el nmero de individuos en la muestra, de tamao
xi
yj
los
pij ,
nij
sera
eij = n pi . p.j .
Basado en la muestra, los valores
Finalmente, el estadstico del contraste se basa en comparar los valores reales en la muestra de
los valores
eij
fueran
d=
r X
s
2
X
(nij eij )
.
eij
i=1 j=1
Suponiendo que la hiptesis nula es cierta, la distribucin del estadstico del contraste es
grados de libertad, por lo que decidiremos en funcin del p-valor asociado,
con
(r 1) (s 1)
p = P [D > d/H0 ] ,
Prof. Dr. Antonio Jos Sez Castillo
179
Mujeres
Hombres
Total
Izquierda
68
52
120
Derecha
56
72
128
Centro
32
20
52
Total
156
144
300
Este tipo de tablas se conocen como tablas de contingencia. Contiene los valores que hemos notado
nij y, en los mrgenes inferior y lateral derecho, los valores ni. y n.j .
Vamos a ver si el gnero est relacionado con la ideologa. Si no fuera as, si la ideologa fuera independiente
del gnero, se tendra en una muestra de 300 individuos las frecuencias esperadas seran
Izquierda
Mujeres
Hombres
Total
Mujeres
Hombres
Total
156
300 300
144
300 300
120
120
300
120
300
Derecha
300 156
300
300 144
300
Izquierda
62.40
57.60
120
Centro
128
300
128
300
156
300 300
144
300 300
Derecha
66.56
61.44
128
Centro
27.04
24.96
52
128
52
Total
156
144
300
52
300
52
300
Total
156
.
144
300
(56 66.56)
(32 27.04)
(68 62.40)
+
+
+
62.40
66.56
27.04
2
2
2
(72 61.44)
(20 24.96)
(52 57.60)
+
+
= 6.433.
+
57.60
61.44
24.96
D=
Por su parte, 2(21)(31);0.95 = 5.991, de manera que podemos rechazar la hiptesis nula en favor de la
alternativa, armando con un 95 % de conanza que el genero est relacionado con la ideologa. En qu
sentido lo estar?
Si nos centramos slo en los de izquierdas, tenemos que el porcentaje de hombres y mujeres es de
52
68
120 100 % = 56.667 % y de 120 100 % = 43.333 %, respectivamente.
180
Si nos centramos slo en los de derechas, tenemos que el porcentaje de hombres y mujeres es de
56
72
128 100 % = 43.75 % y de 128 100 % = 56.25 %, respectivamente.
Finalmente, si nos centramos slo en los de centro, tenemos que el porcentaje de hombres y mujeres
32
es de 52
100 = 61.538 % y de 20
52 100 = 38.462 %, respectivamente.
Lo que parece que ocurre es que las mujeres tienen mayor preferencia por la derecha. Sin embargo, esta
armacin no se ha contrastado, sino que se basa simplemente en datos descriptivos1 .
9.4.
Redordemos el planteamiento:
En una empresa se sospecha que hay franjas horarias donde los accidentes
laborales son ms frecuentes. Para estudiar este fenmeno, contabilizan los accidentes laborales que sufren
los trabajadores segn franjas horarias, durante un ao. Los resultados aparecen en la tabla.
Horas del da
8-10 h.
10-12 h.
13-15 h.
15-17 h.
Nmero de accidentes
47
52
57
63
Con esa informacin, los responsables de seguridad de la empresa deben decidir si hay franjas horarias donde
los accidentes son ms probables o si, por el contrario, stos ocurren absolutamente al azar.
En primer lugar debemos plantearnos la hiptesis que queremos contrastar. El hecho de que ocurran los
accidentes absolutamente al azar vendra a decir que la probabilidad de ocurrencia es la misma en cada franja
horaria (puesto que todas ellas tienen la misma amplitud). Por ello, si notamos pi a la probabilidad de que
ocurra un accidente en la i-sima franja horaria, nos planteamos como hiptesis nula H0 : p1 = ... = p4 = 41
frente a la alternativa de que no todas las probabilidades sean iguales.
Para realizar el contraste podemos considerar un contraste de bondad de ajuste en el que la distribucin de
probabilidad sea una uniforme discreta, que no tiene parmetros.
En este caso, el estadstico de contraste es muy sencillo:
2 =
Por su parte, el p-valor es p = P [2401 > 2.571] = 0.462, por lo que no tenemos evidencias en estos datos
que hagan pensar en que hay franjas horarias ms propicias a los accidentes.
181
182
Captulo 10
dadas existe una relacin de tipo lineal contaminada por un error aleatorio. Aprenderemos a estimar dicho
modelo y, a partir de estas estimaciones y bajo determinadas hiptesis, podremos extraer predicciones del
modelo e inferir la fortaleza de dicha relacin lineal.
regresin lineal simple, variable dependiente, variable independiente, error aleatorio, diagrama de dispersin, principio de mnimos cuadrados, coeciente de correlacin lineal, coeciente de determinacin lineal, bondad del ajuste, prediccin, estimacin.
Palabras clave:
10.1.
Introduccin
Uno de los aspectos ms relevantes que aborda la Estadstica se reere al anlisis de las relaciones que se dan
entre dos variables aleatorias. El anlisis de estas relaciones est muy frecuentemente ligado al anlisis de
una variable, llamada variable dependiente (Y ) , y del efecto que sobre ella tiene otra (u otras) variable(s),
llamada(s) variable(s) independiente(s) (X), y permite responder a dos cuestiones bsicas:
Es signicativa la inuencia que tiene la variable independiente sobre la variable dependiente?
Si, en efecto, esa relacin es signicativa, cmo es? y podemos aprovechar esa relacin para predecir
valores de la variable dependiente a partir de valores observados de la variable independiente?
Ejemplo. Hay un tipo de soldadura llamada soldadura por rozamiento que consiste en que el roce entre
dos piezas provoca un calentamiento que, a su vez, produce la soldadura entre ambas. Supongamos
que realizamos un experimento sobre este tipo de soldadura haciendo rodar a una velocidad jada de
antemano (x, en m/mn) una pieza y llevndola hasta el reposo mediante el rozamiento con otra pieza.
183
El calor generado por este rozamiento provoca una soldadura de presin caliente cuya resistencia
medimos en
ksi.
(y)
Los datos del experimento se recogen en el Cuadro 10.1. Se est tratando de analizar
el efecto que tiene la velocidad (variable independiente) sobre la resistencia de la soldadura (variable
dependiente). Afecta de una forma relevante? Si es as, cmo? Podramos ser capaces de predecir la
resistencia de la soldadura conocida la velocidad inicial que genera el rozamiento?
una relacin latente entre las variables, que parece ser de tipo lineal. A esta representacin en los ejes
nube de puntos.
cartesianos se le denomina
Velocidad
Resistencia
Velocidad
Resistencia
50.00
86.65
75.86
92.09
51.72
89.81
77.59
97.55
53.45
84.02
79.31
96.97
55.17
83.58
81.03
99.21
56.90
87.32
82.76
100.77
58.62
92.48
84.48
101.83
60.34
87.84
86.21
99.42
62.07
87.38
87.93
100.98
63.79
90.31
89.66
106.03
65.52
95.60
91.38
99.81
67.24
92.06
93.10
106.38
68.97
92.06
94.83
103.73
70.69
91.18
96.55
105.20
72.41
92.31
98.28
99.14
74.14
87.35
100.00
100.09
95
85
90
Resistencia
100
105
50
60
70
80
90
100
Velocidad
184
100
105
yi
y
85
90
95
i
0 + 1xi
xi
50
60
70
80
90
100
En esta expresin:
Y representa a la variable dependiente, es decir, a aquella variable que deseamos estudiar en relacin
con otras.
X representa a la variable independiente, es decir, aquellas que creemos que puede afectar en alguna
medida a la variable dependiente. La estamos notando en mayscula, indicando que podra ser una
variable aleatoria, pero habitualmente se considera que es una constante que el investigador puede jar
a su antojo en distintos valores.
representa el error aleatorio, es decir, aquella cantidad (aleatoria) que provoca que la relacin entre
la variable dependiente y la variable independiente no sea perfecta, sino que est sujeta a incertidumbre.
Hay que tener en cuenta que el valor de ser siempre desconocido hasta que se observen los valores de X e
Y , de manera que el modelo de prediccin ser realmente
Y = 0 + 1 X.
Lo que en primer lugar resultara deseable de un modelo de regresin es que estos errores aleatorios ocurran en
la misma medida por exceso que por defecto, sea cual sea el valor de X , de manera que E [/X=x ] = E [] = 0
y, por tanto,
E [Y /X=x ] = 0 + 1 x + E [/X=x ]
= 0 + 1 x.
Es decir, las medias de los valores de Y para un valor de X dado son una recta.
Prof. Dr. Antonio Jos Sez Castillo
185
En la Figura 10.2 podemos ver el valor concreto de = y E [Y /X=x ] para un dato, supuesto que hemos
obtenido un modelo de regresin. En ella se puede ver tambin la interpretacin de los coecientes del modelo:
0 es
la ordenada al origen
1 representa
Es evidente que la utilidad de un modelo de regresin lineal tiene sentido siempre que la relacin
hipottica entre X e Y sea de tipo lineal, pero qu ocurre si en vez de ser de este tipo es de otro tipo
(exponencial, logartmico, hiperblico...)?
Nota.
buscaremos valores estimados de 0 y 1 , que notaremos por 0 y 1 , de manera que en el modelo ajustado,
yx = 0 + 1 x
SSE =
n
X
i=1
es decir buscamos
Se llama
yi (0 + 1 xi )
2
0 , 1 = arg mn SSE .
0 ,1
de Y dada X
SSE
1 ,
SSxy =
SSxx =
n
X
i=1
n
X
i=1
1 =
(xi x
) (yi y) =
2
(xi x
) =
n
X
i=1
SSxy
SSxx
n
X
i=1
0 = y 1 x
,
SSE
respecto de
donde
xi yi n
xy
x2i n
x2 .
SSE =
n
X
i=1
yi (0 + 1 xi )
=SSyy
Ejemplo.
2
2
SSxx SSyy SSxy
SSxx
SSxy 2
= SSyy SSxy 1
SSxx
Para los datos sobre el ejemplo sobre la resistencia de la soldadura, vamos a calcular e inter-
SSxy
= 0.3938
1 =
SSxx
0 = y 1 x
= 65.4374,
as que la recta de regresin a justada es
yx = 65.4374 + 0.3938x
y est representada en la Figura 10.2.
La interpretacin de
es que en este caso este supuesto no tiene sentido, as que no debe tenerse en cuenta.
187
Hay que hacer una observacin importante que suele conducir a frecuentes errores. La recta de
regresin para la variable dependiente Y , dada la variable independiente X no es la misma que la recta
de regresin de X dada Y . La razn es muy sencilla: para obtener la recta de regresin de Y dado X
debemos minimizar
n
Nota.
X
2
yi 0 + 1 xi
,
n
X
2
xi 0 + 1 yi
,
i=1
i=1
Es importante que, para terminar este apartado, recordemos que 0 y 1 son slo estimaciones
de 0 y 1 , estimaciones basadas en los datos que se han obtenido en la muestra.
Nota.
10.3.
Tipo de prueba
Unilateral a
la izquierda
Bilateral
Unilateral
a la derecha
Hiptesis
H 0 : 1 = b1
H1 : 1 < b1
H0 : 1 = b1
H1 : 1 6= b1
H 0 : 1 = b1
H1 : 1 > b1
Estadstico
de contraste
Regin
de rechazo
p-valor
Supuestos
t = 21 b1
se /SSxx
, s2e =
SSyy 1 SSxy
n2
SSE
n2
t < t;n2
t > t1;n2
P [Tn2 < t]
P [T > t]
Supuesto 2.
para todo x.
Supuesto 3.
Los errores son independientes unos de otros, es decir, la magnitud de un error no inuye en
absoluto en la magnitud de otros errores.
Supuesto 4.
En resumen, todos los supuestos pueden resumirse diciendo que |X=x N (0, 2 ) y son independientes entre
s.
Estos supuestos son restrictivos, por lo que deben comprobarse cuando se aplica la tcnica. Si el tamao de
la muestra es grande, la hiptesis de normalidad de los residuos estar bastante garantizada por el teorema
central del lmite. En cuanto a la varianza constante respecto a los valores de x, un incumplimiento moderado
no es grave, pero s si las diferencias son evidentes.
Existen tcnicas especcas para evaluar en qu medida se cumplen estas hiptesis. Tambin existen procedimientos para corregir el incumplimiento de estos supuestos. Estos aspectos sern tratados al nal del
tema.
10.4.
Al comienzo del captulo nos plantebamos como uno de los objetivos de la regresin el decidir si el efecto de
la variable independiente es o no signicativo para la variable dependiente. Si nos jamos, esto es equivalente
a contrastar si el coeciente 1 es o no signicativamente distinto de cero. Pues bien, dados los supuestos
descritos en la seccin anterior, es posible obtener un contraste de este tipo, tal y como se resumen en el
Cuadro 10.2. En ella, si, en efecto, lo que deseamos es contrastar si el efecto de la variable independiente es
o no signicativo para la variable dependiente, el valor de b1 ser cero.
Ejemplo.
Para los datos del ejemplo sobre la resistencia de la soldadura, vamos a probar si la velocidad
189
es o no signicativa ( = 0.05):
1 = 0.3938
s2e =
SSyy 1 SSxy
= 9.8345
n2
luego, como caba esperar, podemos armar a la luz de los datos y con un 95 % de conanza que el
efecto de la velocidad sobre la resistencia es signicativo. El p-valor, de hecho, es p = 2P [T28 > 10.26] =
5.41 1011 .
entre s.
En esta seccin vamos a denir el llamado coeciente de correlacin lineal, que ofrece una medida
cuantitativa de la fortaleza de la relacin lineal entre X e Y en la muestra, pero que a diferencia de 1 , es
adimensional, ya que sus valores siempre estn entre 1 y 1, sean cuales sean las unidades de medida de las
variables.
Dada una muestra de valores de dos variables (x1 , y1 ) , ..., (xn , yn ), el coeciente de correlacin
lineal muestral r se dene como
SSxy
SSxx
r= p
1 .
=p
SSxx SSyy
SSyy
190
20
60
100
10000
20
6000
10
0
2000
10
20
0
20
60
100
30
100
20
40
60
80
60 40 20
100
20
60
100
20
60
100
Correlacin parablica
En la Figura 10.3 aparecen algunos de los supuestos que acabamos de enunciar respecto a los
distintos valores de r. Hay que hacer hincapi en que r slo es capaz de descubrir la presencia de relacin
de tipo lineal. Si, como en el ltimo grco a la derecha de esta gura, la relacin entre X e Y no es de
tipo lineal, r no es adecuado como indicador de la fuerza de esa relacin.
Nota.
En la Figura 10.4 aparece un valor atpico entre un conjunto de datos con una relacin lineal ms
que evidente. Por culpa de este dato, el coeciente de correlacin lineal ser bajo. Qu debe hacerse en
este caso? En general, no se deben eliminar datos de una muestra, pero podra ocurrir que datos atpicos
correspondan a errores en la toma de las muestras, en el registro de los datos o, incluso, que realmente no
procedan de la misma poblacin que el resto de los datos: en ese caso, eliminarlos podra estar justicado
de cara a analizar de una forma ms precisa la relacin lineal entre los datos.
Nota.
Correlacin frente a causalidad. Hay que hacer una advertencia importante acerca de las interpretaciones del coeciente de correlacin lineal. Es muy frecuente que se utilice para justicar relaciones
causa-efecto, y eso es un grave error. r slo indica presencia de relacin entre las variables, pero eso no
permite inferir, por ejemplo, que un incremento de X sea la causa de un incremento o una disminucin
de Y .
Nota.
Ejemplo.
Para los datos del ejemplo sobre la resistencia de la soldadura, calculemos r e interpretmoslo.
191
End
LS Line
Add Point
Delete Point
10
Move Point
Sabemos que
SSxy = 2630.975, SSx = 6681.034
SSyy =
29
X
i=1
luego r =
2630.975
6681.0341311.511
= 0.8888.
y 2 = 1311.511,
yi2 29
Por tanto, la resistencia de la soldadura y la velocidad que genera el rozamiento tienen una correlacin
importante para esta muestra de 30 piezas soldadas, lo que implica que existe una relacin lineal positiva
entre estas variables.
No podemos olvidar que el coeciente de correlacin lineal muestral, r, mide la correlacin entre los valores
de X y de Y en la muestra. Existe un coeciente de correlacin lineal similar pero que se reere a todos los
posibles valores de la variable. Evidentemente, r es un estimador de este coeciente poblacional.
Dadas dos variables X e Y , el coeciente de correlacin lineal poblacional, , se dene
como1
E [(X EX) (Y EY )]
V arX
=
1 .
V arXV arY
V arY
Inmediatamente surge la cuestin de las inferencias. Podemos y debemos utilizar r para hacer inferencias
sobre . De todas formas, en realidad estas inferencias son equivalentes a las que hacemos sobre 1 , ya que la
relacin entre 1 y provoca que la hiptesis H0 : 1 = 0 sea equivalente a la hiptesis H0 : = 0. Podemos,
1 Este
192
por lo tanto, utilizar el contraste resumido en el Cuadro 10.2 para b1 = 0 y teniendo en cuenta que
r n2
t=
.
1 r2
Ejemplo.
V arY
V arX
=0y
yi = 0 + 1 xi
= y.
Es decir, si X no tiene ningn tipo de relacin lineal con Y , entonces la mejor prediccin que podemos
dar por el mtodo de mnimos cuadrados es la media. Adems, en ese caso
SSE =
n
X
i=1
n
X
i=1
(yi yi )
(yi y) = SSyy ,
es decir, SSE es el total de la variacin de los valores de Y . Est claro que esta es la peor de las
situaciones posibles de cara a la precisin.
Si la relacin lineal entre X e Y es total, entonces = 1, en cuyo caso 1 =
relacin lineal es total, y = y, de manera que
SSE =
n
X
i=1
V arY .
V arX
Adems, si la
(yi yi ) = 0.
193
La idea de la medida que vamos a utilizar es cuanticar en qu medida estamos ms cerca o ms lejos de
estas dos situaciones. Dado que SSE , que es la medida del error de la recta de regresin, puede ir de 0 (mejor
situacin posible) a SSy (peor situacin posible), tan slo tenemos que relativizar en una escala cmoda una
medida de este error.
Se dene el coeciente de determinacin lineal como
r2 = 1
SSE
.
SSyy
Ntese que la notacin es r al cuadrado, ya que, en efecto, en una regresin lineal simple coincide con el
coeciente de correlacin lineal al cuadrado.
Por lo tanto, la interpretacin de r2 es la medida en que X contribuye a la prediccin de Y en una escala de
0 a 1, donde el 0 indica que el error es el total de la variacin de los valores de Y y el 1 es la precisin total,
el error 0. La medida suele darse en porcentaje. Dicho de otra forma:
respecto de su media
variacin total de los valores de la resistencia de la soldadura puede ser explicada mediante la recta
de mnimos cuadrados dada la velocidad que genera el rozamiento. Es evidente que es un porcentaje
importante, que proporcionar predicciones relativamente ables.
10.7.
194
(yi yx )
=
s2e = i
n2
SSyy 1 SSxy
=
.
n2
P
i
2
yi 0 + 1 x
n2
Cuanto mayor sea esta cantidad, peor son las predicciones de la recta de regresin.
Lo que vamos a ver en esta seccin para concluir el tema es cmo establecer regiones de conanza para estas
predicciones de los valores de Y y para las estimaciones de los valores medios de Y dados valores de X . Estos
resultados requieren que se veriquen los supuestos adicionales sobre los errores dados en la seccin 10.3.
Podemos garantizar con un (1 ) 100 % de conanza que cuando X = x, el valor medio de Y se encuentra
en el intervalo
yx t1/2;n2 se
(x x
)
1
, yx + t1/2;n2 se
+
n
SSxx
x
)2
2
(x x
)
1
+
,
n
SSxx
1
(x
|X=x = 1 .
+
n
SSxx
Asimismo, podemos garantizar con un (1 )100 % de conanza que cuando X = x, el valor Y se encuentra
en el intervalo
yx t1/2;n2 se
1+
1
(x x
)
, yx + t1/2;n2 se
+
n
SSxx
1+
P Y yx t1/2;n2 se
1+
x
)2
1
(x x
)
+
,
n
SSxx
1
(x
|X=x = 1
+
n
SSxx
No debemos olvidar que los modelos de regresin que podemos estimar lo son a partir de los datos
de una muestra de valores de X e Y . A partir de estos modelos podemos obtener, como acabamos de
recordar, predicciones y estimaciones para valores dados de X. Dado que el modelo se basa precisamente
en esos valores de la muestra, no es conveniente hacer predicciones y estimaciones para valores de X
que se encuentren fuera del rango de valores de X en la muestra.
Nota.
En la Figura 10.5 aparece la recta de regresin para los datos del ejemplo sobre la soldadura
junto con lneas que contienen los intervalos de conanza al 95 % para las predicciones y las estimaciones
Ejemplo.
195
110
105
Resistencia
100
observed
fit
conf int
pred int
95
90
85
80
50
60
70
80
90
100
Velocidad
Figura 10.5: Recta de regresin con intervalos de conanza al 95 % para las predicciones (franjas ms exteriores) y para las estimaciones (franjas interiores).
10.8.
Todo lo relacionado con inferencia sobre el modelo de regresin se ha basado en el cumplimiento de los
supuestos descritos en el apartado 10.3. Como ya comentamos, en la medida en que todos o algunos de estos
supuestos no se den, las conclusiones que se extraigan en la inferencia sobre el modelo podran no ser vlidas.
Es por ello que es necesario comprobar estos supuestos mediante herramientas de diagnstico. Aqu vamos a
ver slo las ms bsicas, vinculadas al anlisis de los residuos y a la grca de residuos frente a los valores
ajustados.
10.8.1.
Entre los supuestos del modelo consideramos que los residuos, es decir,
i = yi yi
1. Los puntos se sitan en torno al eje Y = 0, indicando que la media de los residuos parece ser cero.
2. No se observan patrones en los residuos.
3. No se observa mayor variabilidad en algunas partes del grco.
10.9.
197
Residuals vs Fitted
0
5
Residuals
24
29
15
85
90
95
100
105
Fitted values
lm(Resistencia ~ Velocidad)
161
5
203
20
235
24
176
6
201
19
188
19
228
20
211
18
191
8
178
20
Ahora ya podemos decir que se trata simplemente de un problema donde debemos discernir si una relacin
es estadsticamente signicativa. Concretamente, nos planteamos si el coeciente de correlacin poblacional
entre las variables n de piezas por turno y n de horas extra es signicativamente mayor que cero.
El coeciente de correlacin muestral es r = 0.7305, lo que ya es un indicio de una relacin lineal directa.
Contrastemos H0 : = 0 frente a H1 : > 0, ya que el encargado no slo quiere comprobar que hay relacin,
sino que sta es directa:
El valor del estadstico de contraste es t =
0.7305 8
10.73052
= 3.0255.
Aqu plantebamos una situacin donde un ingeniero que trabaja en una distribuidora elctrica quiere utilizar
el hecho evidente de que en invierno las bajas temperaturas hacen aumentar el consumo elctrico para tratar
198
de predecir el consumo en su localidad a partir de las temperaturas mnimas que se pronostican para el da
siguiente. Los datos que tiene son una muestra la temperatura pronosticada y el consumo real:
T mnima pronosticada
-1
-2
Consumo (megawatios)
12
12
11
14
10
11
12
10
Lo que se plantea es cul ser el consumo para un da cuya temperatura mnima pronosticada es de -1.5
grados.
No es estrictamente necesario, pero podemos empezar diciendo que la relacin entre ambas variables es
altamente signicativa: r es -0.9599, con un p-valor asociado al contraste de H0 : = 0 frente a H1 : 6= 0
de 1.08 105 .
Lo que realmente se nos plantea es el valor de una prediccin, concretamente para un valor de la temperatura
de -1.5, que nosotros vamos a complementar con un intervalo de prediccin al 95 %.
En primer lugar, la recta de regresin es
Consumo
= 16.4 1.3636 T emperatura,
por lo que el valor pronosticado del consumo ser de 16.41.3636(1.5) = 12.9595. Por su parte, el intervalo
de prediccin nos permite armar que el consumo estar entre 11.7419 y 14.1771 con una probabilidad del
95 %.
199
200
Parte IV
Procesos aleatorios
201
Captulo 11
Procesos aleatorios
The best material model of a cat is another, or preferably the same, cat.
Norbert Wiener,
Resumen
Philosophy of Science
Los procesos aleatorios suponen el ltimo paso en la utilizacin de modelos matemticos para
describir fenmenos reales no determinsticos: concretamente, se trata de fenmenos aleatorios que dependen
del tiempo. Se describen principalmente en trminos de sus medias y sus covarianzas. En este captulo se
incluyen adems algunos de los ejemplos ms comunes de tipos de procesos y su comportamiento cuando se
transmiten a travs de sistemas lineales invariantes en el tiempo.
Palabras clave
procesos estacionarios, procesos gaussianos, proceso de Poisson, sistemas lineales, densidad espectral de
potencia.
11.1.
Introduccin
En muchos experimentos de tipo aleatorio el resultado es una funcin del tiempo (o del espacio).
Por ejemplo,
en sistemas de reconocimiento de voz las decisiones se toman sobre la base de una onda que reproduce
las caractersticas de la voz del interlocutor, pero la forma en que el mismo interlocutor dice una misma
palabra sufre ligeras variaciones cada vez que lo hace;
en un sistema de cola, por ejemplo, en un servidor de telecomunicaciones, el nmero de clientes en el
sistema a la espera de ser atendidos evoluciona con el tiempo y est sujeto a condiciones tales que su
comportamiento es
impredecible ;
en un sistema de comunicacin tpico, la seal de entrada es una onda que evoluciona con el tiempo
y que se introduce en un canal donde es contaminada por un ruido aleatorio, de tal manera que es
imposible separar cul es el mensaje original con absoluta
...
203
certeza.
Desde un punto de vista matemtico, todos estos ejemplos tienen en comn que el fenmeno puede ser visto
como unas funciones que dependen del tiempo, pero que son desconocidas a priori, porque dependen del
azar. En este contexto vamos a denir el concepto de proceso aleatorio. Nuestro objetivo, como en captulos
anteriores dedicados a variables y vectores aleatorios, es describir desde un punto de vista estadstico el
fenmeno, proporcionando medidas de posicin, medidas sobre la variabilidad, etc.
11.1.1. Denicin
Consideremos un experimento aleatorio sobre un espacio muestral . Supongamos que para cada
resultado posible, A, tenemos una observacin del fenmeno dada por una funcin real de variable
real, x (t, A), con t I R. Habitualmente, t representa al tiempo, pero tambin puede referirse
a otras magnitudes fsicas.
Para cada A vamos a denominar a x (t, A) realizacin o funcin muestral.
Obsrvese que para cada t0 I , X (t, ) es una variable aleatoria. Pues bien, al conjunto
{X (t, A) : t I, A }
que a cada suceso posible le asigna un nmero real. Por su parte, un vector aleatorio es bsicamente una
funcin
X : RN
que a cada suceso posible le asigna un vector real. Finalmente, un proceso aleatorio es bsicamente una
funcin
X : {funciones reales de vble real}
que a cada suceso posible le asigna una funcin real.
De cara a escribir de ahora en adelante un p.a., lo notaremos normalmente, por ejemplo, como X (t), obviando
as la variable que hace referencia al elemento del espacio muestral al que va asociada la funcin muestral.
Este convenio es el mismo que nos lleva a escribir X rerindonos a una v.a. o a un vector.
si I es un conjunto numerable.
En el caso de procesos en tiempo discreto se suele escribir Xn o X [n] rerindonos a la notacin ms general
X (n). Por otra parte, el conjunto I normalmente es el conjunto de los enteros o de los enteros positivos,
aunque tambin puede ser un subconjunto de stos.
En algunos libros los procesos en tiempo discreto tambin son denominados
secuencias aleatorias
si I es un intervalo.
En el caso de procesos en tiempo continuo, I es normalmente el conjunto de los reales positivos o un subconjunto de stos.
Si nos damos cuenta, esta primera clasicacin de los p.a. la hemos hecho en funcin del carcter discreto
o continuo del tiempo, es decir, del conjunto I . Existe otra clasicacin posible en funcin de cmo son las
variables aleatorias del proceso, discretas o continuas. Sin embargo, ambos tipos de procesos, con variables
discretas o con variables continuas, pueden estudiarse casi siempre de forma conjunta. Por ello slo distinguiremos p.a. con variables discretas y p.a. con variables continuas si es necesario. En este sentido, cuando
Prof. Dr. Antonio Jos Sez Castillo
205
Sea una variable aleatoria uniforme en (1, 1). Denimos el proceso en tiempo continuo
X (t, ) como
Ejemplo.
Sus funciones muestrales son ondas sinusoidales de amplitud aleatoria en (1, 1) (Figura 11.2).
Ejemplo.
Sus funciones muestrales son versiones desplazadas aleatoriamente de cos (2t) (Figura 11.3).
11.2.
11.2.1.
En general, para especicar cmo es un p.a. de forma precisa es necesario caracterizar la distribucin de
probabilidad de cualquier subconjunto de variables del proceso. Es decir, si X (t) es un p.a., es necesario
conocer cul es la distribucin de cualquier vector del tipo
(X (t1 ) , ..., X (tk )) ,
206
Sin embargo, no siempre es fcil conocer todas las posibles distribuciones de todos los posibles vectores de
variables del proceso. Por ello, para tener una descripcin ms sencilla aunque puede que incompleta del
proceso, se acude a las medias, a las varianzas y a las covarianzas de sus variables.
11.2.2.
Sea un p.a. X (t). Se dene la funcin media o simplemente la media de X (t) como
(t) = x
X
(t) = E [X (t)] =
para cada t I.
Ntese que, como su nombre indica, se trata de una funcin determinstica. No tiene ninguna componente
aleatoria. Ntese tambin que aunque se est escribiendo el smbolo integral, podramos estar rerindonos
a una variable discreta, en cuyo caso se tratara de una suma.
Se dene la funcin de autocovarianza o simplemente la autocovarianza de X (t) como
CX (t, s) = Cov [X (t) , X (s)] = E [(X (t) mX (t)) (X (s) mX (s))]
(x1 x
(t)) (x2 x
(s)) fX(t),X(s) (x1 , x2 ) dx2 dx1
=
207
Se dene la
funcin de autocorrelacin
o simplemente la
autocorrelacin
de X (t) como
Ntese, de cara al clculo, que la diferencia entre ambas funciones tan slo es el producto de las medias1 .
CX (t, s) = RX (t, s) mX (t) mX (s) .
centrado en media
Por otra parte, la varianza de las variables del proceso puede obtenerse como
V ar (X (t)) = CX (t, t) .
La interpretacin de la funcin de autocovarianza CX (t, s) es la de una funcin que proporciona una medida
de la interdependencia lineal entre dos v.a. del proceso, X (t) y X (s), que distan = s t unidades de
tiempo. De hecho, ya sabemos que podramos analizar esta relacin mediante el coeciente de correlacin
lineal
X (t, s) = p
CX (t, s)
CX (t, t) CX (s, s)
La seal recibida por un receptor AM de radio es una seal sinusoidal con fase aleatoria,
dada por X (t) = A cos (2fc t + ) , donde A y fc son constantes y es una v.a. uniforme en (, ) .
Ejemplo.
En ese caso,
E [X (t)] =
1 Esta
A cos (2fc t + )
A
1
=
d =
[sin (2fc t + )]=
2
2
frmula es la misma que cuando veamos la covarianza entre dos variables, calculable como
A
sin (2fc t) cos () + cos (2fc t) sin () sin (2fc t) cos () cos (2fc t) sin ()
2
A
=
[0 + 0] = 0.
2
RX (t, t + ) = E [X (t + ) X (t)] = E A2 cos (2fc t + 2fc + ) cos (2fc t + )
=
A2
A2
E [cos (4fc t + 2fc + 2)] +
E [cos (2fc )]
2
2
A2
=
2
1
A2
cos (4fc t + 2fc + 2) d +
cos (2fc )
2
2
A2
A2
A2
0+
cos (2fc ) =
cos (2fc ) .
=
2
2
2
Por tanto,
CX (t, t + ) = RX (t, t + ) mX (t) mX (t + ) =
11.3.
A2
cos (2fc ) .
2
En este apartado denimos propiedades que pueden ser vericadas por algunos procesos aleatorios y que les
coneren caractersticas especiales en las aplicaciones prcticas.
11.3.1.
Procesos independientes
Sea un p.a. X (t). Si para cada n instantes de tiempo, t1 , ..., tn , las v.a. del proceso en esos
instantes son independientes, es decir,
fX(t1 ),...,X(tn ) (x1 , ..., xn ) = fX(t1 ) (x1 ) ... fX(tn ) (xn ) ,
independiente.
La interpretacin de este tipo de procesos es la de aquellos en donde el valor de la v.a. que es el proceso en
un momento dado no tiene nada que ver con el valor del proceso en cualquier otro instante. Desde un punto
de vista fsico estos procesos son muy caticos y se asocian en la prctica a ruidos que no guardan en un
momento dado ninguna relacin consigo mismos en momentos adyacentes.
11.3.2.
Sea un p.a. X (t). Se dice que tiene incrementos independientes si cualquier conjunto de N v.a.
del proceso, X (t1 ) , X (t2 ) , ..., X (tN ), con t1 < t2 < ... < tN son tales que los incrementos
X (t1 ) , X (t2 ) X (t1 ) , ..., X (tN ) X (tN 1 )
Prof. Dr. Antonio Jos Sez Castillo
209
10
Figure 11.4: Funcin muestral de un proceso independiente formado por v.a gaussianas de media cero y
varianza uno.
son independientes entre s.
11.3.3.
Procesos de Markov
No debemos perder de vista la complejidad que implica la descripcin estadstica de un proceso aleatorio.
Pensemos por ejemplo que un proceso ha evolucionado hasta un instante t y se conoce esa evolucin; es decir,
se conoce el valor X (s) = xs para todo s t. Si se desea describir la posicin del proceso en un instante
posterior a t, t + , sera necesario calcular la distribucin condicionada
X (t + ) | {X (s) = xs para todo s t} .
Esta denicin se suele enunciar coloquialmente diciendo que un proceso de Markov es aquel cuyo futuro no
210
Una de las propiedades ms usuales en los procesos estocsticos consiste en una cierta estabilidad en sus
medias y en sus covaranzas, en el sentido en que vamos a describir a continuacin.
X (t) es un proceso
dbilmente estacionario
si
mX (t) es independiente de t y
C (t, s) (o R (t, s)) depende tan slo de s t, en cuyo caso se nota C (s t) ( R (s t)).
Es importante destacar que la primera de las condiciones es irrelevante, ya que siempre se puede centrar en
media un proceso para que sta sea cero, constante. Es decir, en la prctica es indiferente estudiar un proceso
X (t) con funcin media X (t) que estudiar el proceso Y (t) = X (t) X (t), con media cero.
La propiedad ms exigente y realmente importante es la segunda. Viene a decir que la relacin entre variables
aleatorias del proceso slo depende de la distancia en el tiempo que las separa.
Vamos a hacer una puntualizacin muy importante respecto a la notacin que emplearemos en
adelante. Acabamos de ver que si un proceso es dbilmente estacionario, sus funciones de autocovarianza
y de autocorrelacin, C (s, t) y R (s, t) no dependen en realidad de s y de t, sino tan slo de t s. Por
eso introducimos la notacin
Nota.
C (t, s) C (s t)
R (t, s) = R (s t) .
211
Ejemplo. En el ejemplo del oscilador vimos que la seal recibida por un receptor AM de radio es una
seal sinusoidal con fase aleatoria, dada por
(, )
donde
fc
son constantes y
E [X (t)] = 0
y por funcin de autocorrelacin
RX (t, t + ) =
A2
cos (2fc ) .
2
m n.
Xn + Xn1
.
2
Yn =
En primer lugar, dado que
Xn ,
E [Xn ] = 0
para todo
E [Yn ] = E
n,
Yn ,
es decir,
Xn + Xn1
= 0.
2
CX (n, m) = RX (n, m) =
212
si
n 6= m
si
n=m
ya que
Xn
1
2 + 0 + 0 + 2
1 0 + 2 + 0 + 0
CY (n, n + m) = 4
1
0 + 0 + 2 + 0
1 2
si m = 0
2
= 14 2 si m = 1
0
en otro caso
11.3.5.
CY (n, n + m)
Yn
si
m=0
si
m=1
si
m = 1
en otro caso
no depende de
m.
Procesos ergdicos
Si nos damos cuenta, estamos describiendo los procesos aleatorios a partir de promedios estadsticos, principalmente a partir de la media de cada una de sus variables y de sus correlaciones. Vamos a centrarnos en
procesos dbilmente estacionarios. En ese caso, los promedios estadsticos ms relevantes seran la media,
E [X (t)] = mX (t) = mX =
xfX(t) (x) dx
unidades de tiempo,
RX ( ) = E [X (t) X (t + )] =
Hasta ahora quiz no lo habamos pensado, pero ms all de los tpicos ejemplos, cmo podramos tratar de
calcular o estimar al menos estas cantidades? Si aplicamos lo que hemos aprendido hasta ahora, estimaramos,
por ejemplo, la media con la media muestral, pero para ello necesitaramos una muestra muy grande de
funciones muestrales del proceso, y eso no siempre ocurre. De hecho, no es nada rara la situacin en la que,
en realidad, slo es posible observar una nica funcin muestral del proceso.
x (t),
x (t)
x (t)para
[T, T ],
mX ?
De hecho, si
tendramos que
n
2T
Prof. Dr. Antonio Jos Sez Castillo
x (t) dt.
213
(integral
En el caso de la autocorrelacin pasara igual, tendramos que podramos observar un montn de pares de
valores de la seal en los instantes t1 , ..., tn y t1
estimar
1
2T
x (t) x (t + ) dt
+ , ..., tn +
en el intervalo
[T, T ]
Lo que no sabemos, en general, es si esa integral tiene algo que ver con
Pues bien, se dice que un proceso estacionario es
ergdico
x (t).
estadsticos )
pueden
1
limT
2T
limT
11.4.
1
2T
x (t) dt = mX
x (t) x (t + ) dt = RX ( ) .
11.4.1.
Ruidos blancos
En telecomunicaciones los ruidos son seales que se adhieren a la seal enviada en cualquier proceso de
comunicacin, de tal manera que uno de los objetivos fundamentales en este tipo de procesos es, dada la
seal resultante de sumar la seal enviada, X
saber
ltrar
(t), y el ruido del canal, N (t), es decir, dada Y (t) = X (t)+N (t),
X (t).
En este apartado nos referimos brevemente a un modelo gastante comn para los fenmenos de ruido, llamado
ruido blanco.
Un
ruido blanco es un proceso N (t) centrado, dbilmente estacionario e incorrelado con varianza
N0
2 . Por tanto, su funcin de autocovarianza (y autocorrelacin) ser
CN (t, t + ) =
(t) =
N0
2
1
0
si
si
=0
en otro caso
t=0
en otro caso
CN ( ) =
214
N0
( ) .
2
Prof. Dr. Antonio Jos Sez Castillo
La justicacin de que este sea un modelo habitual para los ruidos, considerando que los valores del ruido
estn incorrelados unos con otros, es que suelen ser debidos a fenmenos completamente aleatorios y caticos,
por lo que no es esperable que exista relacin entre valores del ruido, ni siquiera cuando stos son muy cercanos
en el tiempo.
11.4.2.
Procesos gaussianos
Hasta ahora hemos denido y estudiado familias muy genricas de procesos (independientes, estacionarios,
...). En esta seccin vamos a considerar ms concretamente la conocida como familia de procesos aleatorios
gaussianos, que constituye, sin duda, la ms importante de entre las que se utilizan en Telecomunicaciones y
en cualquier otro mbito de aplicacin de la Estadstica.
Un p.a. X (t) se dice proceso gaussiano si cualquier coleccin de variables del proceso tiene
distribucin conjuntamente gaussiana. Es decir, si cualquier coleccin X (t1 ) , ..., X (tn ) tiene
funcin de densidad conjunta
1
1
exp (x ) C (x ) ,
fX(t1 ),...,X(tn ) (x1 , ..., xn ) = p
n
2
(2) det (C)
1
donde
x = (x1 , ..., xn ) ,
Ntese que un proceso gaussiano est completamente descrito una vez que se conocen su funcin media y su
autocovarianza o su autocorrelacin.
Existen dos razones fundamentales por las que, como hemos comentado, los procesos gaussianos son la familia
de procesos ms relevante:
Por una parte, las propiedades analticas que verican los hacen fcilmente manejables, como veremos
a continuacin.
Por otra parte, estos procesos han demostrado ser un excelente modelo matemtico para gran nmero
de experimentos o fenmenos reales (resultado amparado en el Teorema Central del Lmite).
Es muy habitual considerar que los ruidos blancos son gaussianos. En ese caso, si consideramos
ruidos blancos gaussianos, sus variables no slo son incorreladas, sino que tambin son independientes.
Ejemplo.
215
Ejemplo.
RX ( ) = 25e
3| |
+ 16.
X (t)
E [X (t)] = 4
y autocorrelacin
= t0 +
1
2 y
1
2
t2 = t1 + = t0 + 1,
de CX ( ) = 25e3| | .
25e3/2
25
25
25e6/2
25e3/2
E [X (ti )] = 4
25e6/2
y la matriz de
25e3/2 .
25
X (t)
para todo
i 6= j.
CX (t1 , t3 ) =
para cualesquiera t1
Un proceso
11.4.3.
C (ti , tj ) = 0
X (t)
CX (t1 , t2 ) CX (t2 , t3 )
,
CX (t2 , t2 )
< t2 < t3 .
Procesos de Poisson
El proceso de Poisson es un modelo para procesos de la vida real que cuentan ocurrencias de un suceso a lo
largo del tiempo, denominados por ello procesos de recuento.
Algunos de los ejemplos ms comunes en el campo de las Telecomunicaciones son el proceso que cuenta el
nmero de llamadas recibidas en una centralita telefnica o el que cuenta el nmero de visitas a una pgina
WEB. En otros mbitos, como la Fsica, estos procesos pueden servir, por ejemplo, para contabilizar el
nmero de partculas emitidas por un cuerpo.
En todas estas aplicaciones, el proceso tendra la expresin
N (t) =
n=1
donde
T [n]
el proceso y
u (t t0 ) =
es la funcin umbral.
216
u (t T [n]) ,
0
1
si
t < t0
si
t t0
nsima
n1
fT [n] (t) =
(t)
et u (t) .
(n 1)!
entre llegadas,
[n] = T [n] T [n 1] ,
siguen siempre distribuciones exponenciales independientes
esto es
f[n] (t) = et u (t) .
Si observamos tan slo el eje del tiempo, podramos sealar los instantes en que se producen las llegadas.
2 Obsrvese
T [n]
217
Sabemos que esos incrementos en el tiempo desde que se produce una llegada hasta la siguiente siguen
una distribucin exponencial, en este caso de parmetro 1.
Sea
N (t)
es
N (t) = t.
N (t) P (t).
se tiene que
es estacionario.
Sea
y para cualesquiera
(t2 t1 ).
Sea
N (t)
Entonces
Sea
N (t)
donde
nk nk1
1 n1 1 2 2n2 n1
k 2
...
e
e
n
!
(n
n
)!
(n
1
2
1
k nk1 )!
=
0 en otro caso
si
n1 ... nk
i = (ti ti1 ) .
218
Sean N1 (t) p.a. de Poisson de parmetro 1 , N2 (t) p.a. de Poisson de parmetro 2 , ambos independientes. Entonces, N1 (t) + N2 (t) es un p.a. de Poisson de parmetro 1 + 2 . Esta propiedad se conoce
como propiedad aditiva.
Sea N (t) un p.a. de Poisson de parmetro . Supongamos que de todos los eventos que cuenta el
proceso, slo consideramos una parte de ellos; concretamente los que presentan una caracterstica que
tiene probabilidad p entre todos los eventos. En ese caso, si notamos por Np (t) al proceso que cuenta
los eventos con la caracterstica dada, dicho proceso es de Poisson de parmetro p. Esta propiedad
se conoce como propiedad de descomposicin.
El tiempo W que transcurre desde un instante arbitrario t0 hasta la siguiente discontinuidad de un
proceso de Poisson de parmetro es una variable aleatoria exponencial de parmetro , independientemente de la eleccin del punto t0 . Esta propiedad aparentemente paradjica se conoce como
del proceso de Poisson. Obsrvese que, en realidad, esta propiedad de no
memoria lo es de la distribucin exponencial.
propiedad de no memoria
Es frecuente considerar que el proceso que cuenta el nmero de partculas emitidas por un
material radiactivo es un proceso de Poisson. Vamos a suponer por tanto, que estamos observando el
comportamiento de un determinado material del que se conoce que emite a razn de partculas por
segundo.
Supongamos que se observa el proceso que cuenta el nmero de partculas emitidas desde un instante t
hasta el instante t + T0 . Si en ese intervalo de tiempo se supera un umbral de N0 partculas, debera
sonar una seal de alarma. En ese caso, la probabilidad de que la alarma suene es
Ejemplo.
P [N (t + T0 ) N (t) > N0 ] =
eT0
k=N0 +1
0
X
(T0 )
(T0 )
eT0
=1
,
k!
k!
k=0
El nmero de visitas a la pgina WEB de una empresa que desea vender sus productos a
travs de INTERNET es adecuadamente descrito mediante un proceso de Poisson. Sabiendo que durante
una hora se reciben un promedio de 5 visitas,
Ejemplo.
P [N (0.5) = 0] = e50.5
(5 0.5)
= 8.2085 102 ,
0!
apenas un 8% de probabilidad.
2. Cul es el promedio de visitas en 5 horas a la WEB? E [N (5)] = 5 5 = 25 visitas.
Prof. Dr. Antonio Jos Sez Castillo
219
3. La empresa absorbe otra empresa del sector y opta por establecer un enlace directamente desde la
pgina de su lial a la propia, garantizndose que todos los clientes de la lial visitan su pgina.
Si el promedio de clientes que visitaban la pgina de la lial era de 2 clientes a la hora, cul es la
probabilidad de que tras la fusin no se reciba ninguna visita en 10 minutos?
Al hacerse con los clientes de la otra empresa (notemos por M (t) al proceso de Poisson que contaba
sus visitas, de parmetro = 2 visitas/hora), lo que ha ocurrido es que ahora el nmero de visitas
a la WEB de la empresa es la suma de ambos procesos: T (t) = N (t) + M (t) .
Suponiendo que los procesos de Poisson que contaban las visitas a ambas empresas fueran independientes, se tiene que T (t), en virtud de la propiedad aditiva del proceso de Poisson, es tambin
un proceso de Poisson, de parmetro = 5 + 2 = 7 visitas/hora. Por tanto,
1 0
1
7 16 7 6
P T
=0 =e
= 0.3114,
6
0!
220
Bibliografa
[Canavos, G. C. (1988)]
[DeVore, J. L. (2004)]
[Johnson, R. A. (1997)]
[Leon-Garcia, A.]
Leon-Garcia, A. (1994). Probability and Random Processes for Electrical Engineering (2nd edition). Addison-Wesley.
[Lipschutz, S. & Schiller, J. (2000)] Lipschutz, S. & Schiller, J. (2000). Introduccin a la Probabilidad y la
Estadstica. McGraw-Hill.
[Mendenhal, W & Sincich, T. (1997)] Mendenhal, W & Sincich, T. (1997). Probabilidad y Estadstica para
Ingeniera y Ciencias (4 edicin). Prentice Hall.
[Montgomery, D. C. & Runger, G. C. (2002)] Montgomery, D. C. & Runger, G. C. (2002). Probabilidad y
estadstica aplicadas a la Ingeniera (2 edicin). Wiley.
[Navidi, W. (2006)]
[Ross, S. M. (2005)]
[Walpole, R. E et al (1998)] Walpole, R. E., Myers, R. H. & Myers, S. L. (1998). Probabilidad y Estadstica
para Ingenieros (6 edicin). Prentice Hall.
221
ndice alfabtico
ANOVA, 165, 166
Distribucin normal, 85
Distribucin normal multivariante, 117, 215
190, 195
Covarianza, 109
Datos cualitativos, 20
de cola pesada, 32
Desviacin tpica o estandar, 2931, 37, 64, 79, 87,
177
Histograma, 2325, 27, 29, 30, 33, 34, 36, 37, 73, 74,
77, 89, 132
180, 181
Distribucin conjunta, 97
Incorrelacin, 110
210
217
Media muestral, 2530, 33, 64, 80, 86, 126, 127, 131,
Varianza muestral, 28, 29, 64, 80, 127, 131, 139, 152,
Moda, 26, 30
Vector aleatorio, 96
muestra, 15
Muestra aleatoria simple, 20, 28, 33, 35, 36, 63, 65,
73, 74, 179, 190, 191
Nivel de conanza, 138140, 143, 144, 147150, 154,
156, 157, 167, 173, 174, 176, 180, 190, 195
Ortogonalidad, 110
p-valor, 149152, 154157, 160, 163, 164, 167169,
172177, 179, 181, 190
Percentil, 26, 34, 36, 37, 9193
Probabilidad, 41, 42, 4548
Probabilidad condicionada, 4850
Proceso aleatorio, 204
Proceso aleatorio en tiempo continuo, 205
Proceso aleatorio en tiempo discreto, 205
Proceso dbilmente estacionario, 211
Proceso de Markov, 210, 216
Proceso de Poisson, 217
Proceso ergdico, 214
Proceso gaussiano, 215
Procesos independientes, 209
Recta de regresin, 187
Ruido blanco, 214
Tabla de frecuencias, 21
Teorema de Bayes, 5355
Teorema de la probabilidad total, 5355
Test chi2 de bondad de ajuste, 172, 174
Prof. Dr. Antonio Jos Sez Castillo
223