Este documento presenta los objetivos y contenidos de una unidad sobre multivariables y distribuciones muestrales. Los objetivos incluyen distinguir y resolver ejercicios sobre multivariables discretas y continuas, calcular funciones de probabilidad marginales, valor esperado, independencia de variables aleatorias y aplicar el teorema central del límite. El documento introduce conceptos como distribuciones de probabilidad conjunta discreta y continua, funciones de distribución acumulada y probabilidad marginal para analizar variables aleatorias con más de un argumento.
Este documento presenta los objetivos y contenidos de una unidad sobre multivariables y distribuciones muestrales. Los objetivos incluyen distinguir y resolver ejercicios sobre multivariables discretas y continuas, calcular funciones de probabilidad marginales, valor esperado, independencia de variables aleatorias y aplicar el teorema central del límite. El documento introduce conceptos como distribuciones de probabilidad conjunta discreta y continua, funciones de distribución acumulada y probabilidad marginal para analizar variables aleatorias con más de un argumento.
Este documento presenta los objetivos y contenidos de una unidad sobre multivariables y distribuciones muestrales. Los objetivos incluyen distinguir y resolver ejercicios sobre multivariables discretas y continuas, calcular funciones de probabilidad marginales, valor esperado, independencia de variables aleatorias y aplicar el teorema central del límite. El documento introduce conceptos como distribuciones de probabilidad conjunta discreta y continua, funciones de distribución acumulada y probabilidad marginal para analizar variables aleatorias con más de un argumento.
di sti nguir y resolver ejercicios de multivari a- bles di scretas resolver ejercicios relacionados con las funciones acumuladas multivariables discretas resolver problemas de funciones de probabilidad marginales resolver ejercicios utilizando las frmulas de valor esperado de multivariables resolver ejercicios de independencia de variables aleatorias calcular el coeficiente de correlacin de las variables aleatorias aplicar el teorema central del lmite en el clculo de probabilidades que involucren muestras grandes Multivariables y distribuciones muestrales UNIDAD 9 Introduccin Anteriormente se trabaj con variables aleatorias tanto discretas como continuas con argumento de una sola variable. Este anlisis, al igual que en las funciones, se puede prolongar a las variablesaleatoriascon ms de un argumento. Para finesde esta unidad, se analizarn los conceptosms comunes de lasmultivariables aleatoriastanto discretas como continuas, para continuar con aplicacin tericas de la estadstica: lasdistribuciones muestrales. La unidad finaliza con el teorema que probablemente es el de mayor importancia terica en la probabilidad y estadstica, el del lmitecentral. 9.1 Multivariables En las unidades 5 a 8 se analizaron las variables aleatorias resultantes de experimentos aleatorios donde slo intervena un factor, es decir, modelos que manejan series univariadas de datos que slo se preocupan por entender la variabilidad de una sola variable. Un ejemplo de este tipo de modelos lo tenemos en los casos estadsticos exploratorios bsicos del anlisis de tendencia central y dispersin. Existe una gran variedad de modelos ms que se emplean en lasteoras de Pronsticosy regresin, los cuales sern vistosen el curso de Estadstica aplicada. Por otro lado, debido a que no siempre es suficiente entender la variabilidad de una sola variable o de un conjunto de variables de manera independiente, la estadstica ha diseado el anlisis multivariado de datos para analizar la variabilidad de un conjunto de variables de forma conjunta. As, modelos univariados anteriormente presentados tienen su extensin al anlisis multivariado. Dada su extensin, en esta unidad nos enfocaremos en la clase de modelos estadsticos exploratorios multivariados de anlisis de tendencia central, dispersin y correlacin. Cabe notar que un anlisis multivariado tendra sentido si y slo si las variables de inters tienen interrelacin entre ellas, como se ver posteriormente, que exista correlacin entre ellas. Datosmultivariados Despus de una severa tormenta en febrero de 1898, se rescataron algunos gorriones moribundos y fueron puestos en cautiverio en los laboratorios de Brown University. Posteriormente, las muestras sobreviviente y muerta se estudiaron para corroborar varias hiptesis sobre el tema de seleccin natural. A estos gorriones se les pes y se les tomaron ocho diferentes medidas morfolgicas. Los datos son los siguientes: Ejemplo 1 262 Tomando los datos anteriores como una muestra de datos multivariados, en donde cada medicin representa una variable diferente, varias preguntas pueden llegar a nuestras cabezas: 1. Cmo se relacionan las medidas anteriores? Por ejemplo, sucede que cuando una de las medidas tiende a ser grande las dems lo son? 2. Existen diferencias significativas entre los gorriones sobrevivientes y los que no sobrevivieron? 3. Si es que difieren, puede construirse una funcin que dependa de las medidas que nos ayude a dividir los datosen dos grupos? As, si esta funcin tiende a ser grande para los sobrevivientes y pequea en valor para los que murieron, podra utilizarse como un ndice de ajuste darwiniano. Las preguntas anteriores sobre los datos de los gorriones pueden contestarse con algunasde lasherramientas del anlisis multivariado quese estudiarn en esta unidad. Nos limitaremos a explicar lasdistribucionesbidimensionaleso distribucionesen dos variables. Para tres o msvariables se deben seguir los mismos principios que se explicarn para dos variables, razn por la cual en lugar de utilizar slo x y y se emplearn subndices, como x 1 y x 2 . El estudio de lasmultivariables aleatorias se va a simplificar para las discretas, en el caso de lascontinuas se procede de forma similar, cambiando lassumatorias por integrales, pero debido a la complejidad de losclculos y el objetivo del texto, no se contemplarn. Los estudiantes interesados en el tema pueden consultar la bibliografa que aparece al final del texto. La forma de trabajo ser mucho menos detallada que en las unidades anteriores, ya que se conservan las interpretaciones de losconceptos que hemos estudiado, como son: la distribucin deprobabilidad, funcin acumulada, valor esperado, etc. y, por consiguiente, veremos slo algunos conceptos nuevos y las frmulas para llevar a efecto sus clculos. Distribucin de probabilidad conjunta discreta istribucin de probabilidad conjunta discreta Supngase un experimento aleatorio en el que intervienen dos factores, por ejemplo, lanzar dos monedas donde se define una variable aleatoria para cada una de ellas: X 1 y X 2 . Por ejemplo, si X 1 : cantidad de caras guila de la moneda uno, es decir X 1 = {0, 1}, Nota 263 asimismo X 2 : cantidad de caras guila de la moneda dos, X 2 = {0, 1}, los valoresde cada experimento se representan por las parejas (x 1 , x 2 ), donde x 1 X 1 y x 2 X 2 ; es decir X 1 X 2 = {(0, 0), (0, 1), (1, 0), (1, 1)} Definidas las variables aleatorias del experimento, surge la necesidad de definir tambin probabilidad para las parejas (x 1 , x 2 ). Se le llama lama probabilidad conjunta el resultado de un experimento con dos factores cuyas varia- bles aleatorias son X 1 y X 2 , y parejas del experimento (x 1 , x 2 ), representadas por P(x 1 , x 2 ) = P(X 1 = x 1 , X 2 = x 2 ) En el ejemplo anterior sobre lanzar dos monedas, es fcil verificar que las probabi- lidades correspondientes estn dadas por P(0, 0) = P(0, 1) = P(1, 0) = P(1, 1) = 1/ 4 Dicha probabilidad cumple con los axiomas de probabilidad de Kolmogorov, por tanto, desde el punto de vista axiomtico, es una probabilidad. Propiedadesde la probabilidad conjunta discreta P(x 1 , x 2 ) 0, para toda (x 1 , x 2 )
x x P x x 1 2 1 2 1 ( , ) Funcin de distribucin acumulada De forma similar que en las variables aleatorias unidimensionales, la funcin de distribucin acumulada est dada por F a b P x x P x a x b x b x a ( , ) ( , ) ( , ) 1 2 1 2 2 1
Para el ejemplo de lanzar dosmonedas, se tiene F(0, 1) = P(0, 0) + P(0, 1) = 1/ 4 + 1/ 4 = 1/ 2 Propiedadesde la funcin acumulada en dosvariables Al igual que en el caso unidimensional, las propiedades de una funcin acumulada estn dadas por F(x 1 , x 2 ), la cual siempre esno decreciente para todasx 1 y x 2 Por ejemplo, en una variable sucede que si a b, entonces F(b) F(a) o F(b) F(a) 0 Por tanto, si a 2 a 1 ; b 2 b 1 , entonces F(a 2 , b 2 ) F(a 2 , b 1 ) F(a 1 , b 2 ) F(a 1 , b 1 ) Definicin 9.1 264 De igual forma [F(a 2 , b 2 ) F(a 2 , b 1 )] [F(a 1 , b 2 ) F(a 1 , b 1 )] 0 Lo que indica que la funcin acumulada es no decreciente lm lm x x x x F x x F x x 1 2 1 2 1 2 1 2 0 1 ( , ) ( , ) , , Se va a considerar a tres ejecutivos para un ascenso de un grupo de nueve; cuatro de ellos estn casados, tres nunca han estado casados y dos estn divorciados. Dadas X 1 : nmero de ejecutivos casados y X 2 : ejecutivos que nunca se han casado a) se calculan lasdistribuciones de probabilidad conjunta de X 1 y X 2 , suponiendo que se toma una muestra al azar de tres de losnueve ejecutivos b) se calcula F(1, 2) Los pasos a seguir para resolver el problema son similaresen el caso de una variable, primero se definen las variables aleatorias del experimento X 1 : nmero de ejecuti vos casados X 2 : nmero de ejecuti vos que nunca se han casado a) La distribucin de probabilidad en est caso est dada con base en los ejecutivos considerados de entre losdivorciados y, por tanto, pueden suceder tres casos: caso 1, ningn divorciado; caso 2, un divorciado y, caso 3, dos divorciados. 1. P(x 1 , x 2 ), para 0 divorciados. P C C C C P C C C C P ( , ) ; ( , ) ( , ) 3 0 4 84 2 1 18 84 1 2 4 3 3 0 2 0 9 3 4 2 3 1 2 0 9 3
44 1 3 2 2 0 9 3 4 0 3 3 2 0 9 3 12 84 0 3 1 84 C C C C P C C C C ; ( , ) 2. P(x 1 , x 2 ), para un divorciado. P C C C C P C C C C P ( , ) ; ( , ) ; ( , 2 0 12 84 1 1 24 84 0 2 4 2 3 0 2 1 9 3 4 1 3 1 2 1 9 3 )) 4 0 3 2 2 1 9 3 6 84 C C C C 3. P(x 1 , x 2 ), para dos divorciados. P C C C C P C C C C ( , ) ; ( , ) 1 0 4 84 0 1 3 84 4 1 3 0 2 2 9 3 4 0 3 1 2 2 9 3
b) F(1, 2) = P(0, 1) + P(0, 2) + P(1, 0) + P(1, 1) + P(1, 2) = = 3/ 84 + 6/ 84 + 4/ 84 + 24/ 84 + 12/ 84 = 49/ 84 = 7/ 12 Ejemplo 2 265 Funcin de probabilidad marginal Cuando se trabaja con varias variables puede ser necesario conocer las probabilidades cuando se elige un valor de alguna de ellas y las otras pueden variar en todo su rango. Dadas X 1 y X 2 dos variables aleatorias discretas con funcin de probabilidad conjunta P(x 1 , x 2 ), entonces la funcin de probabilidad marginal para X 1 est dada por P x P x x x 1 1 1 2 2 ( ) ( , ) es decir, x 1 se considera constante, mientras que la otra variable x 2 recorre todos sus valores. Asimismo para X 2 , resulta P x P x x x 2 2 1 2 1 ( ) ( , ) donde la variable que se considera constante es x 2 , mientras que la que recorre todos sus valores es x 1 . Se retoma el ejemplo anterior: dadas dadas X 1 : nmero de ejecutivos casados y X 2 : ejecuti- vos que nunca se han casado, se calculan lasprobabilidadesmarginales para X 1 y X 2 : nmero de ejecutivos casadosentre lostres consideradospara el ascenso. Por definicin de probabilidad marginal y utilizando la distribucin de probabilidad calculada en el ejemplo 1 se tiene P 1 (x 1 )= marginal para x 1 o sea P 1 (x 1 ), resulta P P x P P P x 1 2 0 0 0 1 0 2 0 3 3 84 6 84 1 84 10 84 2 ( , ) ( , ) ( , ) ( , ) 5 42 P P x P P P x 1 2 1 1 1 0 1 1 1 2 4 84 24 84 1 2 ( , ) ( , ) ( , ) ( , ) 22 84 40 84 10 21 2 2 2 0 2 1 12 84 18 84 1 2 2 P P x P P x ( , ) ( , ) ( , ) 30 84 5 14 3 3 3 0 4 84 1 21 1 2 2 P P x P x ( , ) ( , ) Se comprueba que la suma de lasprobabilidades marginales resulta uno P x P P P P x 1 1 1 1 1 1 1 0 1 2 3 10 84 40 84 30 84 4 84 1 ( ) ( ) ( ) ( ) ( ) Asimismo, para P 2 (x 2 ) P P P P 2 2 2 2 0 20 84 1 45 84 2 18 84 3 1 84 ( ) , ( ) , ( ) ( ) y Se verifica que la suma de probabilidades marginales sea igual a uno P x P P P P x 2 2 2 2 2 2 2 0 1 2 3 20 84 45 84 18 84 1 84 1 ( ) ( ) ( ) ( ) ( ) Ejemplo 3 Definicin 9.2 266 Funcin de probabilidad condicional Al igual que en una variable tambin se puede hablar de probabilidades condicionales, es decir probabilidades donde la ocurrencia de una variable est restringida a que primero suceda otra, de acuerdo con lo analizado en la unidad 4 dichas probabilidades cumplen con los axiomas de Kolmogorov. Dadas X 1 y X 2 dos variables aleatorias discretas se llama probabilidad condicional al hecho de que suceda la variable aleatoria X 1 = x 1 puesto que sucedi X 2 = x 2 PX x X x PX x X x P X x P X x ( | ) , ( ) , ( ) 1 1 2 2 1 1 2 2 2 2 2 2 2 2 0 [ ] Variables aleatorias independientes En la unidad 4 se analiz el concepto de eventos independientesy la importancia de tales eventos en el desarrollo de la teora delasprobabilidades. Ahora se ver el concepto de variables independientesde forma muy similar, pero dirigido en el estudio hacia la estadstica. Las variables aleatorias discretas X 1 y X 2 con funcin de probabilidad conjunta P(x 1 , x 2 ) y funciones marginales P 1 (x 1 ) y P 2 (x 2 ), se llaman variables independientes si y solo si P(x 1 , x 2 ) = P 1 (x 1 )P 2 (x 2 ), para toda x 1 X 1 y x 2 X 2 . Se retoma el ejemplo anterior: dadas dadas X 1 : nmero de ejecutivos casados y X 2 : ejecutivos que nunca se han casado a) se calcula P(X 1 = 1 X 2 = 2) b) se determina si X 1 y X 2 son independientes c) si X 3 denota el nmero de ejecutivos divorciadosentre los nueve considerados para el ascenso, entonces X 3 = 3 X 1 X 2 . Se busca P(X 3 = 1 X 2 = 1) a) Probabilidad condicional. De la distribucin de probabilidad calculada en el ejemplo 1, resulta P(X 1 = 1, X 2 = 2) = P(1, 2) = 12/ 84 para la siguiente probabilidad marginal se usa el resultado del ejemplo 2 P 2 (X 2 = 2) = P 2 (2) = 18/ 84 = 3/ 14 Por tanto, PX X PX X P X ( ) ( , ) ( ) 1 2 1 2 2 2 1 2 1 2 2 12 84 18 84 12 18 2 3 Definicin 9.3 Definicin 9.4 Ejemplo 4 267 b) Independencia. Se utiliza la definicin anterior sobre variables independientes. P x x P x P x ( , ) ( ) ( ) 1 2 1 1 2 2 conjunta marginal marginal Las variables son dependientes puesto que para X 1 = 3 y X 2 = 0, de acuerdo con los resultados de los ejemplos 1 y 2, se tiene P(3, 0) = 4/ 84 Por otro lado, P 1 (3)P 2 (0) = (4/ 84)(20/ 84) Por tanto, P(3, 0) P 1 (3)P 2 (0) Con esto se verifica que las variables son dependientes, ya que existe al menos una combinacin de valores de lasvariables con la cual no se cumple la condicin de la definicin de variables independientes. c) Condicional de X 3 . X 3 : nmero de ejecuti vosdivorciadosentre la muestra de nueve entonces X 3 = 3 X 1 X 2 . PX X PX X P X ( ) ( , ) ( ) 3 2 3 2 2 2 1 1 1 1 1 Se calculan las probabilidades por separado. Para P(X 3 = 1, X 2 = 1): esta probabi- lidad ocurre cuando X 2 = 1 y, por tanto, de X 3 = 3 X 1 X 2 , se tiene X 1 = 1; es decir, P(X 3 = 1, X 2 = 1) es equivalente a P(1, 1) = 24/ 84 = 2/ 7 (ver ejemplo 1), para finalizar PX X PX X P X ( ) ( , ) ( ) 3 2 3 2 2 2 1 1 1 1 1 24 84 45 84 24 45 8 15 Valor esperado En la unidad 5 se analiz el valor esperado de una variable aleatoria discreta, su interpre- tacin y la frmula para calcularlo. Para el caso de dos o msvariables la interpretacin se conserva, lo que se modifica un poco es la frmula para calcularlo. Dadas las variables aleatorias discretas X 1 y X 2 con funcin de probabilidad conjunta P(x 1 , x 2 ), se llama valor esperado al calculado por E X X x x P x x x x ( ) ( , ) 1 2 1 2 1 2 2 1
Definicin 9.5 268 Propiedades si X 1 ,
X 2 son independientes entonces E(X 1 X 2 ) = E(X 1 )E(X 2 ) E(c) = c E[g 1 (x 1 , x 2 ) + g 2 (x 1 , x 2 )] = E[g 1 (x 1 , x 2 )] + E[g 2 (x 1 , x 2 )] Dadas X 1 : nmero de ejecutivos casados y X 2 : ejecutivos que nunca se han casado, se calcula el valor esperado E(X 1 X 2 ) E X X x x P x x x x P x x x x x x ( ) ( , ) ( , ) ( 1 2 1 2 1 2 1 2 0 3 0 3 1 2 2 1 2 1 3 0
)) ( ) ( ) ( ) ( ) ( ) ( ) 4 84 2 1 18 84 1 2 12 84 0 3 1 84 2 0 12 84 1 1 24 84 0 2 6 84 11 0 4 84 84 84 1 ( ) 9.2 Covarianza Anteriormenteseanalizaron variablesaleatoriasylaformacmo sedispersaban losvalo- nteriormente se analizaron variables aleatorias y la forma cmo se dispersaban los valo- res de la variable, que se obtenan mediante la varianza. En el caso de dos o ms variables, y la forma cmo estn distribuidos sus datos, se emplea la dispersin de datos para ver si existe dependencia. El tema dela dependencia o independencia entrelasvariablesesfunda- mental en estadstica. En las grficas siguientes se muestran algunos datos donde es posible observar la dispersin y la posible dependencia entre las dos variables En la primer grfica ocurre una dependencia, puesto que cuando losvalores de la variable X 1 aumentan los de la variable X 2 tambin aumentan; en la segunda no existe dicha dependencia o no es posible observarla claramente. Supngase que se sabe que E(X 1 ) = 1 y E(X 2 ) = 2 , posteriormente para cada valor de las variables se calculan las desviaciones x 1
1 y x 2
2 , y el producto de stas (x 1
1 )(x 2
2 ). El producto representa una medida para la dependencia de lasvariables, la cual se define a continuacin. La covarianza de las variables aleatorias X 1 y X 2 (X 1
1 )(X 2
2 ), y se simboliza Cov [ ] ( , ) ( )( ) X X E X X 1 2 1 1 2 2 Ejemplo 5 Definicin 9.6 269 El valor dela covarianza dependedelosvaloresdelasvariables; pero, con esta forma para medir la dependencia entre variables se tiene un problema, por ejemplo, si la covarianza vale cinco, no se puede saber exactamente si este valor se considera grande o pequeo, ya que depende de los valores de las variables, por lo que surge la necesidad de un concepto ms, el coeficientedecorrelacin. El de las variables aleatorias X 1 y X 2 , es un valor numrico que se encuentra en el intervalo [1, 1] y se simboliza (X 1 ,
X 2 ) con ( , ) ( , ) ( ) ( ) , X X X X V X V X 1 2 1 2 1 2 1 1 Cov [ ] Con la definicin anterior queda establecida una regla para medir la dependencia entre variables: si el coeficiente de correlacin en valor absoluto es cercano a uno, las variables tienen un alto grado de dependencia, y en caso de estar cercano a cero las variables tienen un alto grado de independencia. Si los valores extremosvalen cero, lasvariablesson independientes; si valen uno lasvariables son dependientes. Dadas X 1 y X 2 las variables aleatorias, la covarianza se calcula mediante Cov(X 1 , X 2 ) = E(X 1 , X 2 ) E(X 1 )E(X 2 ) Cov( ) [ ] X X E X X E X X X X E X 1 2 1 1 2 2 1 2 2 1 1 2 1 2 1 , ( )( ) ( ) ( XX E X E X E X X E X E X E 2 2 1 1 2 1 2 1 2 1 2 1 2 1 2 ) ( ) ( ) ( ) ( ) ( ) (( ) ( ) ( ) X X E X E X 1 2 1 2 Dadas X 1 y X 2 las variables aleatorias independientes, la covarianza vale cero Cov(X 1 , X 2 ) = 0 Se calcula el coeficiente de correlacin de la variable aleatoria discreta del ejemplo 2. P 1 (x 1 ) marginal para x 1 , del ejemplo 3 se obtuvieron las siguientes probabilidades P x P P P P 1 1 1 1 1 1 0 10 84 1 40 84 10 21 2 30 84 5 14 ( ) ( ) , ( ) , ( ) 5 42 y (( ) 3 4 84 1 21 De forma similar marginal para P 2 (x 2 ) P P P P 2 2 2 2 0 20 84 1 45 84 2 18 84 3 1 84 ( ) , ( ) , ( ) ( ) y Se calculan losvalores esperados de las variables E X x P x k k k n ( ) ( ) 1 1 1 0 5 42 1 10 21 2 5 14 3 1 21 0 10 21 5 7 1 7 228 21 4 3 Definicin 9.7 Teorema 9.1 Corolario Ejemplo 6 270 0 5 21 1 15 28 2 3 14 3 1 84 0 15 2 2 2 1 E X x P x k k k n ( ) ( ) 88 3 7 1 28 15 12 1 28 1 Se calcula la covarianza Cov ( , ) ( ) X X 1 2 1 4 3 1 1 4 3 1 3 Para calcular el coeficiente de correlacin se necesitan las varianzas V X x PX E X k k k n ( ) ( ) ( ( )) 1 2 1 2 2 2 2 0 5 42 1 10 21 2 5 14 3 1 21 4 3 0 10 21 20 14 9 21 16 9 10 30 9 2 2 2 11 16 9 147 112 63 35 63 5 9 0 5 21 2 2 2 2 2 2 V X x P x E X k k k n ( ) ( ) ( ( )) 1 15 28 2 3 14 3 1 84 1 0 15 28 6 7 2 2 2 2 33 28 1 15 24 3 28 28 14 28 1 2 Finalmente el coeficiente de correlacin ( , ) . . x x 1 2 1 3 5 9 1 2 2 5 0 4 0 63 Ejercicio 1 1. Dadas X 1 y X 2 las variablesaleatorias con la distribucin de probabilidad conjunta f x x x x x x ( , ) ( ) , , , , , 1 2 1 1 2 1 2 33 1 2 1 2 3 0
y en otro caso x calcula la distribucin de probabilidad conjunta. 2. Calcula el valor esperado del ejercicio anterior. 3. Calcula el coeficiente de correlacin de las variables del numeral 1. 4. Una cooperativa agrcola asegura que 30% de los melones embarcados pertenece a la huerta uno, 20% a la huerta dos y 50% a la huerta tres. Define las variables X i : melones embarcadospertenecientesa la huerta i, para i = {1, 2, 3} {1, 2, 3} 1, 2, 3} } Calcula la probabilidad de que entre 18 melones embarcados, cuatro pertenezcan a la huerta dosy de los restantes al menos diezsean de la huerta tres. 5. Determina si las variables del numeral 4 son independientes. 9.3 Distribuciones muestrales y poblacionales En la presente seccin se analiza el muestreo aleatorio. Se dar una definicin formal de muestra aleatoria, estadsticos y parmetros, conceptos fundamentales en el estudio del 271 proceso de inferencia estadstica, que radica en inferir resultados de una muestra hacia su poblacin, midiendo el grado de confiabilidad en los resultados por medio de la teora de la probabilidad. 9.3.1 Muestreo aleatorio En la unidad 1 se analiz la estadstica descriptiva, donde se defini una poblacin, una muestra, un estadstico, un parmetro, etc. Tambin se determin que la materia prima de la estadstica consiste en conjuntos de nmeros obtenidos al contar o medir elementos de algn fenmeno en estudio, por lo que se debe tener especial cuidado para garantizar que la informacin sea completa y correcta. Por consiguiente, el primer pro- blema reside en determinar qu informacin y en qu cantidad se habr de reunir, ya que con base en sta se establece la confiabi lidad de los resultados. Se retoman los conceptos de poblacin y muestra. El conjunto de todos los elementos de un tipo particular cuyo conocimiento es de nuestro inters se llama poblacin. Puesto que la informacin disponible frecuentemente consta de una porcin o la informacin disponible frecuentemente consta de una porcin o subconjunto de la poblacin, se establece el concepto de muestra de una poblacin. Se llama muestra a cualquier subconjunto de la poblacin. En la unidad 1 se mencion que el problema del muestreo no es tan simple, adems de que existen diferentes tcnicaspara llevarlo a cabo. Para loscasos en que se quiere llegar a conclusiones con respecto a cierta medida de la poblacin, siendo imposible o poco prctico analizar todo el conjunto de observaciones que la constituyen, se usa el muestreo aleatorio. Muestreo aleatorio simple Se caracteriza porque cualquier elemento de la poblacin en estudio, tiene la misma posibilidad de ser seleccionado para formar parte de una muestra. Es decir, con el muestreo aleatorio se elimina cualquier problema en el que se sobreestime o subestime de forma consciente o inconsciente alguna caracterstica de la poblacin y, por tanto, las observaciones deben realizarse de forma independientey al azar. La forma de realizar un muestreo aleatorio simple es muy sencilla, por ejemplo, supngase que de una poblacin se quiere tomar una muestra al azar de 30 elementos para obtener cierto tipo de informacin; en estos casos, para respetar la aleatoriedad se puede hacer de diferentes formas: la ms comn es asignar un nmero diferente a cada elemento de la poblacin, posteriormente con ayuda de una tabla denmerosaleatorios se delimita tomar un bloque de 30 elementos y se procede a analizar de los elementos correspondientes con la numeracin del muestreo. Definicin 9.8 Definicin 9.9 272 Al llevar a cabo muestreos de tamao n de una poblacin con N elementos en donde N n, en la mayora de los casos la n es mucho ms pequea que N. Como se puede observar, la aleatoriedad del muestreo conduce a que cada una de las n observaciones de la muestra al realizar todos losmuestreos del mismo tamao n de forma independiente, estarn representando variables aleatorias independientes para cada una de las n observacionescorrespondientes X 1 , X 2 , . . . X n , donde cada una tendr la misma distribucin deprobabilidad dela poblacin; X 1 ser la variable aleatoria correspondiente a la primer observacin de la muestra, X 2 ser la variable aleatoria correspondiente a la segunda observacin de la muestra, y as sucesivamente hasta la n-sima observacin. Si las variables aleatorias X 1 , X 2 , . . . X n obtenidas de una poblacin forman una muestra aleatoria simple de tamao n, si son independientes y tienen la misma distribucin de probabilidad que la poblacin. Al hablar de independencia (unidad 4), se debe recordar que las elecciones con reemplazo eran sinnimo de independencia en la muestra, posteriormente en la seccin 9.1 se present el concepto de variables aleatorias independientes. Para lasmuestras sin reemplazo se podra tener una aproximacin a la independencia de las variables si el tamao de la poblacin es muy grande comparada con el de la muestra. Para efectos prcticos, si la muestra no representa 5% ms de la poblacin, las variables aleatorias obtenidas se pueden considerar independientes. 9.3.2 Estadsticos importantes Uno de los objetivos de la estadstica es obtener informacin de los parmetros de una poblacin, por ejemplo supngase que una industria fabricante de aparatos electrodomsticos quiere saber la vida promedio y la variabilidad de cierto modelo de refrigeradores. En este caso se tendra que observar la duracin de todos los refrigeradores, lo que resultara muy costoso. Por tanto, se reali za una inferencia con respecto a la vida promedio de todos los refrigeradores del modelo correspondiente supngase que una fbrica de focosquiere saber lavida promedio y la variabilidad de los focosde 100 wattsque produce. Igual que en el caso anterior, se tendran que probar todos los focospara medir su duracin, lo que resultara laborioso y costoso. Por tanto, se realiza una inferencia con respecto a la vida promedio de todos los focosde 100 watts de la fbrica en eleccionespresidenciales se necesita establecer ciertasinferenciassobre la prefe- rencia para un candidato. Ya que no resulta costeable estudiar a toda la poblacin votante, en la vspera de las elecciones se realiza un muestreo rpido para detectar esta preferencia y tener conocimiento sobre las tendencias de la poblacin Esfundamental diferenciar entre variables aleatoriasintroducidaspara lasmuestrasy los elementos de una de tales muestras. Supngase que X 1 , X 2 , . . . X n representan las n variablesaleatoriasdel muestreo correspondientesa cada una de las n observacionesy que el valor anotado en la primer observacin del muestreo es x 1 ; esto significa que x 1 representa un valor correspondiente a la variable aleatoria X 1 , de manera que el valor Definicin 9.10 273 anotado para la segunda observacin del muestreo es x 2 , esto significa que x 2 representa el valor correspondiente a la variable aleatoria X 2 , y as sucesivamente. Ahora se puede aclarar que en la unidad 1 el uso de x x , , s 2 , etc., se debi a que se trataba de la media, mediana y varianza de una sola muestra. Media x x x x n n x n i i n 1 2 1 1 Mediana x x x x n n n 1 2 2 2 1 2 , cuando la cantidad de datos es impar ,, cuando la cantidad de datos es par Varianza sesgada s n x x n x x n i i n i i n 2 2 1 2 2 1 1 1 ( ) Varianza insesgada s n x x n x n n x n n s n i i n i n n i 1 2 2 1 2 1 2 2 1 1 1 1 1 1 ( ) ( ) En el primer ejemplo, si se toma una muestra 1 de los cuatro refrigeradores mencionados, con vida promedio de 4.0, 4.1, 5.0 y 3.8 aos, la vida promedio de stosser x 1 4 4 1 5 3 8 4 4 225 . . . aos Si se toma una muestra 2 de cuatro refrigeradorescon vida promedio de 5.2, 6.4, 7.0 y 5.9 aos, la vida promedio de esta muestra ser x 2 5 2 6 4 7 0 5 9 4 6 125 . . . . . aos Se observa que la media muestral est variando de muestra en muestra, pero an as, se puede afirmar que en la distribucin muestral de medias el promedio de lasmedias de muestras es igual a la media de la poblacin, es decir x x x x n n 1 2 3 ... En conclusin, x no es ms que un valor de una variable aleatoria X. Esta relacin de la variable aleatoria con su valor conocido genera la siguiente definicin. Un estadstico o estadgrafo es una funcin de las variables aleatorias que se pueden observar en una muestra de las constantes conocidas. Los estadsticos se utilizan para hacer inferencias (estimaciones) con respecto a parmetros poblacionales desconocidos. En el caso de la duracin promedio de cuatro refrigeradores, las medias x x 1 2 y se llaman estadsticos, que no son ms que valores particulares de la estadstica que se obtienen de las variables aleatorias X 1, X 2, X 3 y X 4 correspondientes a las muestras de tamao cuatro y se calcula mediante X X X X X 1 2 3 4 4 Definicin 9.11 Nota 274 De forma similar, para losestadsticos ms comunes de un muestreo aleatorio de tamao n, se tiene Media X X X X n n X n k k n 1 2 1 1 Mediana X X X X n n n 1 2 2 2 1 2 , cuando la cantidad de datos es impar ,, cuando la cantidad de datos es Varianza sesgada S n X X n X X k k n k k n 2 2 1 2 2 1 1 1 ( ) Varianza insesgada S n n S n n 1 2 2 1 9.3.3 Distribuciones muestrales Se ha expresado la importancia de losestadsticos para llevar a cabo alguna inferencia, ahora hace falta tener ms conocimientos con respecto al comportamiento de dichos estadsticos. Primero recurdese que un estadstico esuna funcin dela variablealeatoria quedepende slo dela muestra en estudio, por tanto, debe tener una distribucin de probabilidad que describa su comportamiento, por lo que se presenta la siguiente definicin. Se le llama distribucin muestral a la distribucin de probabilidad del estadstico en estudio. Por ejemplo La distribucin muestral de X se llamar distribucin muestral demedias La distribucin muestral de S 2 se llamar distribucin muestral dela varianza Como los estadsticos son funciones de variables aleatorias que se obtienen de muestreos de una poblacin, dependern del tamao de la poblacin, el tamao de la muestra y el mtodo deseleccin dela muestra. Distribucin de la media muestral El estadstico que ms aplicacin tiene para llevar a cabo inferencias con respecto al parmetro media es la media muestral, por lo que conviene analizar tres propiedades del estadstico X que se emplean con bastante frecuencia en las inferencias. Definicin 9.12 275 Se llama distribucin de la media a las variables de una muestra aleatoria de una distribucin X 1 , X 2 , . . . X n con valor medio y desviacin estndar . Dadas X 1 , X 2 , . . . X n variables de una distribucin con valor medio y desviacin estndar . Entonces E X X ( ) V X n X ( ) 2 2 ( ) X n De la definicin de muestra aleatoria se deducen las propiedades del valor esperado y e la definicin de muestra aleatoria se deducen las propiedades del valor esperado y la varianza para variables independientes. Como se trata de una muestra aleatoria, las variables X 1 , X 2 , . . . X n tienen la misma distribucin que la poblacin, por consiguiente cada una de ellas tiene valor esperado , varianza 2 y adems de ser independientes. E X E n X n E X n n n V X k k n k k n k n ( ) ( ) ( ) ( ) 1 1 1 1 1 1 1 V n X n V X n n n n k k n k k n k n 1 1 1 1 1 2 1 2 2 1 2 2 2 ( ) ( ) ( ) ( ) X V X n n 2
En caso de que la poblacin tenga una distribucin normal con media y desviacin estndar , las variables aleatorias que conforman una muestra aleatoria de tamao n X 1 , X 2 , . . . X n deben tener la misma distribucin normal que la poblacin, por consiguiente cada una tendr valor esperado y varianza 2 , adems de ser indepen- dientes. Con respecto a la distribucin que tendr la media muestral X, se presenta el siguiente teorema. Dadas X 1 , X 2 , . . . X n las variables de una muestra aleatoria de una distribucin normal con valor medio y desviacin estndar , entonces, para cualquier tamao de muestra n, X estar normalmente distribuida con media E X ( ) y desviacin estandar ( ) X n La regla de transformacin en Z para el modelo normal muestral ser Z X E X X X n ( ) ( ) Definicin 9.13 Teorema 9.3 Teorema 9.2 276 Los tornillos producidos por una mquina tienen 10 mm de dimetro y una desviacin estndar de un mi lmetro. Se calcula la probabilidad de quede una muestra aleatoria de diez tornillosstos tengan no ms de 10.05 mm de dimetro promedio. Supngase que la di stribucin de los dimetros de los tornillos es normal. Dadas X 1 , X 2 , . . . X 10 las variables aleatorias que representan los dimetros en milme-tros de losdiez tornillospara = 10, = 1 y n = 400, la probabilidad es PX ( . ) 10 05 ; puesto que losdimetrosde lostornillostienen distribucin normal se emplea el teorema 9.3 PX P X E X X E X X P X n ( . ) ( ) ( ) . ( ) ( ) . 10 05 10 05 10 05 100 1 10 0 16 0 5636 PZ ( . ) . 9.3.4 Teorema central del lmite Al final de la unidad 8 se analiz el modelo normal y se mencion que era uno de los modelos de mayor trascendencia en el estudio de la estadstica y la probabilidad. En esta seccin se ver el porqu de dicha importancia. Al final de la seccin anterior, en el teorema 9.3, se determin que si las variables aleatorias X 1 , X 2 , . . . X n tienen una distribucin normal, X tendr la misma distribucin; pero, qu pasar si las variables aleatorias de la muestra tomada tienen otro tipo de distribucin diferente a la normal; el siguiente teorema determina los casos con muestras grandes. Dadas X 1 , X 2 , . . . X n las variables de una muestra aleatoria de una distribucin con valor medio 2 , la forma lmite de la distribucin de la variable siguiente Z X X n X X tiene una distribucin normal estndar cuando n En forma prctica, la aproximacin para X se considera bastante buena cuando el tamao de la muestra es mayor o igual a 30 sin importar la forma dela distribucin dela poblacin. Para loscasos en que el tamao de la muestra sea menor a 30, la aproximacin es buena slo si la distribucin de la poblacin es semejante a la normal; en caso de que la distribucin de la poblacin sea normal se puede aplicar el teorema 9.3. 1. Lostornillosproducidospor unamquinatienen 10 mmdedimetro y desviacin Los tornillos producidos por una mquina tienen 10 mm de dimetro y desviacin 10 mm de dimetro y desviacin estndar de un milmetro. Se calcula la probabilidad de que de una muestra aleatoria de 400 tornillos tenga un dimetro promedio de no ms de 10.05 mm. Dadas X 1 , X 2 , . . . X 400 lasvariables aleatorias que representan losdimetros en mi lmetros de los 400 torni l los para = 10, = 1 y n = 400, la probabi lidad es PX ( . ) 10 05 ; por lo que se aplica el teorema central del lmite, puesto que no se conoce la di stribucin de los datos. Sin embargo, cuando la muestra es grande no Ejemplo 7 Teorema 9.4 Ejemplo 8 277 se puede aplicar el teorema 9.3, puesto que no se sabe si la distribucin delos datos es normal. PX P X n PZ ( . ) . ( ) . 10 05 10 05 10 1 400 1 0 8413 2. Se supone que el peso de unos paquetes de caf tienen media de 1 kg, y desviacin estndar de 0.05 kg. Si en una caja se colocan 64 de esos paquetes y se calcula la probabilidad de que el peso total de la caja oscile entre 63 y 64.4 kg. Dadas X 1 , X 2 , . . . X 64 las variables aleatorias que representan el peso de los 64 paquetes de caf con = 1, = 0.05 y n = 64, la probabilidad que se pide es la suma de lospesos de los 64 paquetes, es decir P X i i 63 64 4 1 64 . se aplica el teorema central del lmite puesto que no se conoce la di stribucin del peso de los paquetes. Sin embargo, la muestra es grande y para aplicar el teorema central del lmite se necesita la media muestral, para esto, se dividen todos los miembros de las desigualdades entre 64 P X P X P i i 63 64 1 64 64 4 64 0 984375 1 00625 0 1 64 . ( . . ) .. . . . ( . ) 984375 1 0 05 64 1 00625 1 0 05 64 2 5 1 X n P Z 0 8413 0 0062 0 8351 . . . 9.3.5 Distribuciones muestrales de una combinacin lineal Las distribuciones muestrales de combinaciones lineales tienen aplicacin terica para justificar la mayora de los resultados estadsticos, por lo que en esta subseccin se definir la combinacin lineal junto con los teoremasde mayor relevancia. Dadas las variables aleatorias X 1 , X 2 , . . . X n y las constantes a 1 , a 2 , . . . a n , se llama combinacin lineal de una distribucin muestral de las X i a la variable aleatoria Y = a 1 X 1 + a 2 X 2 + . . . + a n X n Se tiene la media de las variables X 1 , X 2 , . . . X n con a 1 = a 2 = . . . = a n = 1/ n Puesto que X n X n X n X n 1 1 1 2 Se llama valor esperado y varianza de una combinacin lineal a las variables de una muestra aleatoria de una distribucin X 1 , X 2 , . . . X n , con valores medios 1 , 2 , . . . n 1 2 2 2 2 , , , n , respectivamente, y a 1 , a 2 , . . . a n constantes. Entonces Definicin 9.14 Teorema 9.5 Ejemplo 9 278 1. E a X a X a X a E X a E X a E X n n n n ( ) ( ) ( ) ( ) 1 1 2 2 1 1 2 2 sin importar cmo sean las variables independientes o dependientes. 2. V a X a X a X a V X a V X a V X n n n n ( ) ( ) ( ) ( ) 1 1 2 2 2 1 2 2 2 1 2 slo cuando las variables aleatorias sean independientes. 3. Para cualesquier variables V a X a X a X a V X a V X a V X aa X n n n i j n ( ) ( ) ( ) ( ) ( 1 1 2 2 2 1 2 2 2 1 2 Cov i i j j n i j n X , ) 1
Ejercicio 2 1. Supn que el peso de unospaquetes de caf se distribuye normalmente con media de un kilogramo y desviacin estndar de 0.05 kg. Si en una caja se colocan 64 paquetes y se consideran faltas de peso las cajasde menos de 62.80 kg, calcula el porcentaje de cajas faltantesde peso. 2. Un guardabosques estudia los efectos de la fertilizacin en algunos bosques, para ello necesita calcular el rea de la base de los pinos. Al estudiar sta en rboles similares, descubri que las mediciones tienen distribucin normal con desviacin estndar de aproximadamente 4 pulg 2 . Si el guardabosques toma una muestra al azar de nueve rboles, calcula la probabilidad de que la media muestral sea mayor al parmetro media en ms de dos pulgadas cuadradas. 3. Se toma una muestra de n = 81, donde X es una variable aleatoria con = 7, calcula la probabilidad de que la media muestral se desvi por lo mucho dos unidades de la verdadera media. 4. El peso de los paquetes de azcar es una variable aleatoria normal con = 6.4 y = 3 g. Si se toman al azar 150 paquetes de azcar para reunir 1 kg, calcula la probabilidad de que su peso no sea un kilogramo. 5. Se sabe que el tiempo promedio de reaccin a un estimulo auditivo es una variable aleatoria con distribucin normal con = 0.15 y = 0.03 seg para personas con audicin normal. Calcula el tamao de la muestra si se requiere 95% de seguridad de que el tiempo medio de reaccin muestral sea menor a 0.153 seg. Ejercicios propuestos 1. Un inspector de control de trfico reporta que 60% de los vehculos que llegan al puerto de Acapulco tiene matrculas del D. F., 30% de Cuernavaca y el resto de otros estados. Dadas lasvariables aleatorias X 1 : cantidad de automvi lescon placasdel D. F. que llegan al puerto de Acapulco X 2 : cantidad de automvi lescon placasdel Cuernavaca que llegan al puerto de Acapulco X 3 : cantidad de automvi lescon placasde otros estados que llegan al puerto de Acapulco calcula la probabilidad de que de los siguientes 50 automviles que lleguen al puerto de Acapulco, 20 tengan placas del D. F., 20 de Cuernavaca y los restantes de otros estados. 279 2. Una encuesta entre los residentes de una ciudad demuestra que 30% prefiere telfonos blancos, 30% azules, 25% negros y el restante plateados. Calcula la probabilidad de que exactamente tres de los prximos diez telfonospreferidos por los compradores sean de color blanco, cuatro negros y ninguno plateado. 3. Un guardabosques estudia los efectos de la fertilizacin en algunosbosques, para ello necesita calcular el rea de la base de los pinos. Al estudiar sta en rboles similares, descubri que lasmedicionestienen una distribucin normal con desviacin estndar de aproximadamente 4 pulg 2 . Si el guardabosques toma una muestra al azar de nueve rboles, calcula la probabilidad de que la media muestral se desve por lo mucho dos pulgadas cuadradas del parmetro media. 4. Supn que el peso de una poblacin es una variable aleatoria normal con =66kgy 66 kgyy 2 = 16 kg 2 . Si seis personas se suben a un ascensor que tiene una capacidad mxima de 400 kg, calcula la probabilidad de que el ascensor no funcione. 5. Calcula media y varianza de la distribucin muestral de cien variables cuya distribu- cin individual es uniforme en el intervalo de 10 a 20. Autoevaluacin 1. Un inspector de control de trfico reporta que 75% de los vehculos que llegan al puerto de Acapulco tienen matrculas del D. F., 10% de Cuernavaca y el resto de otros estados. Dadas lasvariables aleatorias: X 1 : cantidad de automvi lescon placasdel D. F. que llegan al puerto de Acapulco X 2 : cantidad de automvi lescon placasdel Cuernavaca que llegan al puerto de Acapulco X 3 : cantidad de automvi lescon placasde otros estados que llegan al puerto de Acapulco calcula la probabilidad de que de los siguientes 30 automviles que lleguen al puerto de Acapulco, 20 tengan placas del D. F., cinco de Cuernavaca y los restantes tengan placas de otros estados. a) 0.182 b) 0.0182 c) 0.9818 d) 0.0982 2. Dadas X 1 y X 2 las variablesaleatorias con la distribucin de probabilidad conjunta f x x x x x x x ( , ) ( ) , , , 1 2 1 1 2 1 2 2 28 1 2 1 2 y calcula el coeficiente de correlacin a) 0.977 b) 0.023 c) 0.977 d) 0.023 280 3. Un pistn sefabricacon 12cmdedimetrointernoydesviacin estndar de0.25cm, Un pistn se fabrica con 12 cm de dimetro interno y desviacin estndar de 0.25 cm, calcula la probabilidad de que una muestra al azar de 64 pistones tenga dimetro interno promedio entre 11.95 y 12.05 centmetros. a) 0.1096 b) 0.8904 c) 0.089 d) 0.911 4. Una persona llena un formato de solicitud de empleo en ocho minutos con desviacin estndar de 2.5 minutos. Si llegan a las oficinas 40 personas para llenar la solicitud de empleo, calcula la probabilidad de que tarden por lo mucho siete horas en llenar las solicitudes a) aproximadamente 0 b) 5 c) 0.25 d) aproximadamente 1 Respuestas de los ejercicios Ejercicio 1 1. f f f f f ( , ) , ( , ) , ( , ) , ( , ) , ( , ) 1 1 2 33 1 2 1 11 1 3 4 33 2 1 2 11 2 2 8 3
3 3 2 3 10 33 y f( , ) 2. 124/ 33 3. 0.031 4. 0.07486 5. s son independientes Ejercicio 2 1. 0.13 2. 0.0668
3. 0.9898 4. 0.8643 5. 271 281 Respuestas de los ejercicios propuestos 1. 0.00018 2. 0.01196 3. 0.8664 4. 0.3409 5. 0.1 y 0.08333 Respuestas de la autoevaluacin 1. b) 2. d) 3. b) 4. d)