Professional Documents
Culture Documents
AUTNOMO
Asignatura
ESTADSTICA APLICADA
Autor: RODRIGO AL VALLEJOS
Se desempea como docente en el Instituto Diego Portales de Concepcin, desde 2000 a la fecha. Se desempea como docente en la Universidad Catlica de la Santsima Concepcin desde 2001 a la fecha. Se desempea como docente en la Universidad del Bo-Bo desde 2003 a la fecha. Se desempe 3 aos como coordinador e instructor de cursos en el Laboratorio de computacin de la Facultad de Ciencias fsicas y Matemticas de la Universidad de Concepcin
INVITACIN AL MDULO
2
Estimado alumno
Los conocimientos de teora estadstica son la base del soporte tecnolgico y la base sobre la cul se puede hacer un uso racional, sistemtico y tico de la sorprendente tecnologa que se incorpora cotidianamente a nuestro quehacer laboral. Por tanto, no es solo la necesidad de calcular, medir o de disponer de herramientas mecnicas directas por lo cul hay que estudiar disciplina, sino que nos debe mover el manifiesto inters por desarrollar nuestra capacidad de desicin, aumentar nuestra capacidad de analizar, discriminar, abstraer y sintetizar informacin, optimizando as nuestra rapidez y eficacia para enfrentar el conjunto de situaciones problemticas que afectan diariamente al conjunto de nuestra actividad.
Este mdulo de Estadstica ha sido creado siguiendo de muy cerca el programa de la asignatura, en su elaboracin se han priorizado objetivos y contenidos fundamentales, para acceder al dominio de herramientas de decisin y de lenguaje estadstico, que permitan una utilizacin transversal en el currculum general de tu carrera as como tambin una posible proyeccin posterior, hacia niveles de instruccin superiores en tu respectiva rea.
Para facilitar el seguimiento de presente texto, se ha considerado una instruccin programada, simple reinterpretar por el alumno, que generalmente dispone de un tiempo limitado de estudio personal; se sugiere enfrentar perseverantemente todas las actividades de autoevaluacin, propuestas al final de cada unidad temtica, para ir accediendo a captulos progresivos en forma directa, considerando tambin las instancias de consultora establecidas por el Programa a Distancia a cargo de tus profesores tutores.
Esperando para ti todo el xito posible, te invito a iniciar la tarea del aprendizaje sistemtico, que te conducir a la obtencin de tus objetivos personales y profesionales.
ASIGNATURA
ESTADSTICA
OBJETIVO GENERAL
Al trmino del curso, el alumno ser capaz de:
Aplicar elementos de estadstica inferencial relacionados con distribuciones maestrales, desarrollndolos en problemas de gestin empresarial. Propender al desarrollo del sentido de autonoma personal y por lo tanto la responsabilidad de su propio aprendizaje.
OBJETIVOS ESPECFICOS
Unidad Temtica N 1: Emplear la distribucin normal, sus aplicaciones ms importantes y su importancia en la construccin de otras distribuciones. Unidad Temtica N 2: Construir parmetros en forma puntual y por intervalos verificando sus propiedades y aplicar los conceptos de estimacin de cada uno de los muestreos estudiados. Unidad Temtica N 3: Elaborar una prueba de hiptesis para medias y proporciones, aplicables a problemas del rea. Unidad Temtica N 4: Aplicar el anlisis de varianza para medir la bondad del ajuste en modelos de regresin lineal.
ASIGNATURA
ESTADSTICA
PRIMERA UNIDAD DISTRIBUCIONES CONTINUAS
1.1 1.2
Distribucin normal. Generalidades y aplicaciones. Distribucin Chi Cuadrado. T Student y F. 1.2.1 Construccin. Caractersticas. Uso de tablas. Aplicaciones.
DISTRIBUCIN NORMAL 5
Es la distribucin continua de de probabilidad ms importante en el campo de la estadstica. Su grfica recibe el nombre de curva normal, su forma es la de una campana.
Esta curva permite describir muchos fenmenos que ocurren en la naturaleza, la industria y la investigacin.
, con media
y varianza
f (X )
1 2
2
1 X 2
X ~ N( ,
1) El mximo valor de la curva se encuentra en x= 2) La curva es simtrica respecto a la recta x= 3) La curva es asinttica al eje X 4) El rea bajo la curva y sobre el eje X es uno. 5) Si X es una variable aleatoria normal, entonces E(X)= y Var(X)=
2
P( a
b)
a
f ( X )dx
Sin embargo, resolver esta integral con la funcin de densidad de la variable aleatoria normal no es tan simple. Por tal motivo, se recurre a un proceso denominado estandarizacin basndose en una variable aleatoria z que tiene =0 y
2
f (Z )
1 2
1 2 Z 2
Z ~ N (0,1)
Si X ~ N ( ,
Ejemplos 1) P(z>1,84)
), entonces Z
~ N (0,1)
P(z>1,84)=1-P(z
1,84)
= 1-0,9671 = 0,0329
2) P(-1,97<z<0,86) 8
P(-1,97<z<0,86) =
P(z<0,86)- P(z<-197)
0,8051-0,0244
0,7807
3) P(z>z0)=0,7486
1-0,7486 = P(z
a) P(X x) = 0,45
P z
40 6
0.45
x 40 6
0.13
39,22
b) P( X>x )= 0,14
1 P z P z
x 40 6 x 40 6
EJERCICIOS 10
a) P(z<0,83)
Resp: 0,7967
b) P(z<-1,27)
Resp: 0,1020
c) P(z>0,83)
Resp: 0,2033
d) P(z>-1,27)
Resp: 0,898
e) P(0,47<z<1,08)
Resp: 0,1791
f) P( -1,39<z<1,39)
Resp: 0,8354
g) P(z>z1)=0,06 h) P(-0,93<z<z1)=0,7235
II) Dada la v.a. X distribuida normalmente con media 18 y desviacin estndar 2,5 , encuentre: a) P(x<15) Resp: 0,1151
Problemas de aplicacin 11
1) Cierto tipo de batera dura un promedio de tres aos, con una desviacin estndar de 0,5 aos. Suponiendo que las duraciones de las bateras son normalmente distribuidas, encuentre la probabilidad de que una determinada batera dure menos de 2,3 aos.
Solucin:
X ~ N (3, (0,5) 2 )
Duracin de la batera
X ~ N (3, (0,5) 2 )
X 2,3 3 0,5
Duracin de la batera
P( x
2,3)
P z
P( z 1,4) 0,0808
La probabilidad de que una determinada batera dure menos de 2,3 aos es de un 8,08%.
12
2) Una compaa fabrica focos cuya duracin es normalmente distribuida con una media de 800 horas y una desviacin estndar de 40 horas. Encuentre la probabilidad de que un foco dura entre 778 y 834 horas de uso.
Solucin
X ~ N (800, (40) 2 )
P (778
834)
778 800 40 z
P ( 0,55 P( z
0,85)
0,85) P( 0,55)
La probabilidad de que un foco dure entre 778 y 834 horas de uso es de un 51,11%.
13
3) Una cierta mquina produce resistencias alctricas que tienen un valor medio de 40 ohms y una desviacin estndar de 2 ohms. Suponiendo que los valores de las resistencias siguen una distribucin normal y que pueden medirse con cualquier grado de precisin. Que porcentaje de las resistencias tendr un valor que exceda los 43 ohms ?
Solucin:
X ~ N (40, (2) 2 )
P( x
43)
1 P z
14
4) En una empresa las edades de los trabajadores se distribuye normalmente con media 50 aos y desviacin estndar 5 aos. a) Qu porcentaje de los trabajadores tiene entre 50 y 52,5 aos ? b) Cul es la probabilidad de qque un trabajador cualquiera no sea mayor de 45 aos? c) Cul es la probabilidad que un trabajador tenga entre 41 y 58 aos? d) El 20% de los trabajadores estn bajo cierta edad Cul es esa edad? Solucin:
X ~ N (50 , (5) 2 ) X edad de los trabajado res
a) P(50
52,5)
50 50 5 z 0,5)
52,5 50 5
P (0 P( z
0,5) P( z
0)
b) P( x
45)
P z
45 50 5 1)
P( z 0,1587
15
c) P (41
58)
41 50 5
58 50 5
P ( 1,8
z 1,6) 1,8)
P ( z 1,6) P ( z 0,9093
d) P( X
x)
0,20 x 50 5
P z
x 50 5
0,20
-0,85
45,75
El 20% de los trabajadores tiene una edad menor o igual a 45,75 aos.
16
1) Las piezas de pan de centeno distribuidas a las tiendas locales por una cierta pastelera tienen una longitud promedio de 30 cm y una desviacin estndar de 2 cm. Suponiendo que las longitudes estn normalmente distribuidas. Qu porcentaje de las piezas son :
a) De ms de 31,7 cm de longitud ? b) Entre 29,3 y 33,5 cm de longitud ? c) De una longitud menor que 25,5 cm ?
2) Una mquina despachadora de refrescos est ajustada para servir un promedio de 200 mililtros por vaso. Si la cantidad de refresco est normalmente distribuida con una desviacin estndar de 15 mililtros.
a) Qu fraccin de los vasos contendr ms de 224 mililtros? b) Cul es la probabilidad de que un vaso contenga entre 191 y 206 mililtros?
3) El dimetro interno ya terminado de un anillo de pistn est normalmente distribuido con una media de 10 cm y una desviacin estndar de 0,03 cm.
a) Qu proporcin de los anillos tendr un dimetro interno que exceda de 10,075 cm ? b) Cul es la probabilidad de que un anillo de pistn tenga un dimetro interno entre 9,97 y 10,03 cm ? c) Para que valor el dimetro interno de un anillo de pistn representar el 15% ?
4) La resistencia a la tensin de cierto componente metlico est normalmente distribuida con una media de 10.000 Kg/cm2 y una desviacin estndar de 0,03 cm.
17
a) Cul es la proporcin de estos componentes que execeden de 10.150 Kg/cm2 ? b) Si las especificaciones requieren que todos los componentes tengan una resistencia a la tensin entre 9.800 y 10.200 Kg/cm2 inclusive, qu porcentaje de piezas se esperara que se desechara?
5) La vida promedio de cierto tipo de motor pequeo es de 10 aos con una desviacin estndar de 2 aos. El fabricante repone sin cargo todos los motores que fallen dentro del perodo de garanta. Si est a reponer slo el 3% de los motores que fallan, qu tan larga deber ser la garanta que otorgue? Suponga que la vida de los motores tienen distribucin normal.
6) Suponga que un consultor est investigando cunto tiempo necesitarn los obreros de la fbrica para montar cierta pieza en una planta de automviles Volvo, y determin que la informacin ( tiempo en segundos ) estaba normalmente distribuida con una media de 75 segundos y una desviacin estndar de 6 segundos.
a) Cul es la probabilidad de que un obrero seleccionado aleatoriamente pueda montar la pieza en ms de 81 segundos ? b) Cul es la probabilidad de que un obrero seleccionado aleatoriamente pueda montar la pieza entre 69 y 81 segundos ? c) Cul es la probabilidad de que un obrero seleccionado aleatoriamente pueda montar la pieza en menos de 62 segundos ? d) Cul es la probabilidad de que un obrero seleccionado aleatoriamente pueda montar la pieza entre 62 y 69 segundos ? e) Cuntos segundos deben pasar antes de que el 50% de los obreros monten la pieza? 7) El espesor de un lote de 10.000 arandelas de bronce de un cierto tipo fabricadas par una gran compaa tiene una distribucin normal con media 0,0191 pulgadas y desviacin estndar de 0,000425 pulgadas. Compruebe que se puede esperar que el 99,04% de estas arandelas tengan un espesor entre 0,0180 y 0,202 pulgadas.
18
8) El tiempo de reaccin para un cierto tipo de experimento psicolgico est distribuido normalmente con media 20 segundos y desviacin estndar 4 segundos.
a) Cul es la probabilidad de que una persona tenga un tiempo de reaccin entre 14 y 30 segundos ? b) Cul es la probabilidad de que una persona tenga un tiempo de reaccin entre 25y 30 segundos ? c) Qu porcentaje de personas tienen un tiempo de reaccin de ms de 14 segundos? d) Cul es el tiempo de reaccin de modo que slo el 1% de todas las personas reaccionen con mayor rapidez?
9) Un procesador de alimentos envasa caf en pequeos tarros, los pesos de los tarros estn normalmente distribuidos con una desviacin estndar de 0,3 onzas. Si el 5% de los tarros pesa ms de de 12,492 onzas. Cul es el promedio de los tarros?
19
1) a) El 19,77% de las piezas tiene una longitud de ms de 31,7 cm. b) El 59,67% de las piezas tiene una longitud menos que 25,5 cm.
2) a) El 5,48% de los vasos contendr ms de 224 mililtros b) El 5,18% de los vasos tendr entre 191 y 209 mililtros
3) a) El 0,62% de los anillos tendr un dimetro superior a 10,075 cm. b) El 68,26% de los anillos tendr un dimetro entre 9,97 y 10,03 cm. c) El 15% de los anillos tendr un dimetro de 9,9688 cm.
4) a) El 6,68% de los componentes exceden de 10.150 Kg/cm2 de resistencia a la tensin. b) El 4,56% de las piezas se despacharn
6) a) Existe un 65,87% de probabilidad de que un obrero pueda montar una pieza en menos de seg o en ,ms de 81 seg. b) Existe un 68,26% de probabilidad de que un obrero pueda montar una pieza entre 69 y 81 seg. c) Existe un 1,5% de probabilidad de que un obrero pueda montar una pieza en menos de seg. d) Existe un 14,37% de probabilidad de que un obrero pueda montar una pieza entre 62y 69 seg. e) Deben pasar 75 segundos antes de que el 50% de los obreros monten la pieza. 62 75
20
7) Se cumple que el 99,04% de las arandelas tiene un espesor entre 0,0180 y 0,202 pulgadas.
8) a) El 92,7% de las personas tiene un tiempo de reaccin entre 14 y 30 segundos. b) El 9,94% de las personas tiene un tiempo de reaccin entre 25 y 30 segundos. c) El 93,32% de las personas tiene un tiempo de reaccin de ms de 14 segundos. d) El tiempo de reaccin es de 10,38 segundos.
21
DISTRIBUCIN T-STUDENT
Definicin Sean X1,X2,Xn variables aleatorias identicamente distribuidas con distribucin normal con media y varianza
2
. Entonces la variable:
(x s ) n
tiene distribucin t-student con v=n-1 grados de libertad donde n es el tamao de la muestra, x es la media de la muestra y s es la varianza muestral. La grfica de esta distribucin es similar a la distribucin normal y est dada por:
Al igual que la distribucin normal los valores de rea de esta distribucin se encuentran tabulados. La distribucin de probabilidad T se public por primera vez en 1908 en un artculo de W.S. Gosset. En esa poca , Gosset era empleado de una cervecera irlandesa que desaprobaba la publicacin de investigaciones de sus empleados. Para evadir esta prohibicin, public su trabajo en secreto bajo el nombre de Student. En consecuencia, la distribucin T normalmente se llama distribucin t de Student, o simplemente distribucin t. La distribucin T es similar a la distribucin de Z, pues ambas son simtricas alrededor de la media igual a cero. Ambas distribuciones tienen forma de campana, pero la distribucin t es ms variable, debido al hecho que la distribucin t depende de las cantidades de x y s2. 22
Ejemplos
1) El valor de t con v=14 grados de libertad que deja un rea de 0.0975 a la derecha es:
t 0.975
t 0.025
2.145
2) Encuentre P(-t0.025<T<t0.05). Solucin: Como t0.05 deja un rea de 0.05 a la derecha, y t0.025 deja un rea de 0.025 a la izquierda, encontrmos un rea total de:
1-0.05-0.025=0.925
3) Encuentre el valor de k tal que P(k<t<-1.761)=0.045, para una muestra aleatoria de tamao 15 que se selecciona de una distribucin normal.
Solucin:
Notemos que 1.761 corresponde a t0.05 cuando v=14. Por tanto, -t0.05=-1761. Como k en el enunciado de de la probabilidad original est a la izquieda de t0.05 = -1761, luego k=-2.977.
4) Un ingeniero qumico afirma que el rendimiento medio de la poblacin de cierto proceso en lotes es 500 gramos por milmetro de materia prima. Para verificar esta afirmacin muestrea 25 lotes cada mes. Si el valor t calculado cae entre t0.05 y t0.05, queda satisfecho con su afirmacin. que conclusin extraera de una muestra que tiene una media x =518
23
gramos por milmetro y una desviacin estndar s=40 gramos?. Suponga que la distribucin de rendimientos es aproximadamente normal.
Solucin:
De la tabla t-student encontramos que t0.05=1.711 para 24 grados de libertad. Por tanto, el fabricante que satisfecho con esta afirmacin si para la muestra de tamao 25 el valor de t queda entre -1.711 y 1.711. Si =500 entonces:
(x s
) n
(518
500 ) 25 40
2.25
Como t=2.25 no est entre -1711 y 1.711 el fabricante debe revisar su proceso productivo.
24
a) P(T
2) Dada una muestra aleatoria de tamao 24 de una distribucin normal, encuentre k tal que:
k) 0.9
0.965 0.095
2.807)
3) Un fabricante de instrumentos de precisin para medidas terrestre afirma que sus mediciones fallan en promedio a lo ms 0.5 mm. En una muestra aleatoria de 8 de estos instrumentos las fallas de medicin fueron de : 0.6 , 0.7 , 0.7, 0.3, 0.4, 0.5, 0.4 y 0.2 mm. Estara de acuerdo con la afirmacin del fabricante?
4) Un fabricante de cigarrillos asegura que el contenido promedio de nicotina, en una de sus marcas, es de 0.6 mg por cigarrillo. Una organizacin independiente mide el contenido de nicotina de 16 cigarros de esta marca y encuentra que el promedio y la desviacin estndar muestral es de 0.75 y 0.175 mg, respectivamente, de nicotina. Si se supone que la cantidad de nicotina de estos cigarros es una variable aleatoria normal que tan probable es el resultado muestral dado por el fabricante ?
25
xi
n( x 2 )
n 1
P(
0.5)
(x s
) n
(x
0.5) n s
P T7 P(T7
26
4) Calculemos: P( >0.6)
P(
0.6)
(x s
) n
( x 0.6) n s
P T15 P(T15
Luego la probabilidad que el contenido promedio de nicotina se mayor que 0.6 milgramos es muy baja por tanto el fabricante podra tener razn sobre los contenidos promedio de nicotina de sus cigarros.
27
Distribucin ji-cuadrado
Definicin Si S2 es la varianza de una muestra aleatoria de tamao n que se toma de una poblacin normal que tiene varianza
2
, entonces la variable:
(n 1) S 2
2
tiene distribucin ji-cuadrado con v=n-1 grados de libertad. En que n es el tamao de la muestra S2 es la varianza muestral y
2
es la varianza de la poblacin.
xi
n( x 2 )
n 1
Al igual que las otras distribuciones sus valores de probabilidad se encuentran tabulados.
28
Ejemplo: Un fabricante de bateras para auto garantiza que sus bateras durarn, en promedio tres aos con una desviacin estndar de un ao. Si cinco de estas bateras tienen duraciones de 1.9, 2.4, 3.0 , 3.5 y 4.2 aos, el fabricante an est convencido de que sus bateras tienen una desviacin estndar de un ao? Suponga que la duracin de la batera tiene distribucin normal.
Solucin:
xi
n( x 2 )
n 1
0.815
(n 1) S 2
2
(4)( 0.815 ) 1
3.26
P( s
1)
(n 1) s 2
(4)(0.815) 1
2 4
3.26
0.5
29
1) Para a) b) c)
2 0.005 2 0.05 2 0.01
encuentre: 7 24
2) Encuentre a) P( b) P(
2 2 12 0
)
2 0
c) P(37.652
0.045 con v 25
3) Un fabricante de bateras para auto garantiza que sus bateras duraran en promedio, tres aos con una desviacin estandar de 1 ao .Si 5 de estas bateras tienen duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 aos. Cual es la probabilidad de que la variabilidad de las bateras sea de ms de 3 aos ? 4) Considere una medicin fsica proporcionada por un instrumento de precisin, en donde el inters recae en la variabilidad de la lectura .suponga que, con base en la experiencia, la medicin es una variable aleatoria normalmente distribuida con media 10 y desviacin estndar 0.1 unidades. Si se toma una muestra aleatoria procedente de un proceso de manofactura de los instrumentos de tamao 25, cul es la probabilidad de que el valor de la varianza muestral sea mayor de 0.014 unidades cuadradas ?
30
1)
2)
3) y 4) tarea
31
ASIGNATURA
ESTADSTICA
SEGUNDA UNIDAD TCNICAS DE MUESTREO Y ESTIMACIN PUNTUAL
Muestreo aleatorio simple. Muestreo aleatorio sistemtico. Muestreo aleatorio estratificado. Muestreo por conglomerados. Distribucin muestral de la Media. Teorema central del lmite. Estimacin puntual y por intervalos. Error Estndar de la media. Tamao de muestra.
32
33
Muestreo aleatorio
Consideremos una poblacin finita, de la que deseamos extraer una muestra. Cuando el proceso de extraccin es tal que garantiza a cada uno de los elementos de la poblacin la misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de seleccin muestreo aleatorio. El muestreo aleatorio se puede plantear bajo dos puntos de vista: Sin reposicin de los elementos; Con reposicin.
probabilidad de que sea elegido en el segundo intento es de N 1 . en el (i+1)-simo intento, la poblacin consta de N-i elementos, con lo cual si e no ha sido
1
i.
34
Si consideramos una muestra de n N elementos, donde el orden en la eleccin de los mismos tiene importancia, la probabilidad de eleccin de una muestra M=(e1,e2,,,en) cualquiera es
P[ M ] P[(e1 , e2 ,.....,en )] P[e1 ] P[e2 ] 1 1 N N 1 ( N n)! N! N P[en / e1 ,e2 ,......,en 1 ] 1 (n 1)
lo que corresponde en el sentido de la definicin de probabilidad de Laplace a un caso posible entre las VN,n posibles n-uplas de N elementos de la poblacin. Si el orden no interviene, la probabilidad de que una muestra M={e1,e2,en} E sea elegida es la suma de las probabilidades de elegir una cualquiera de sus n-uplas, tantas veces como permutaciones en el orden de sus elementos sea posible, es decir
P[ M ]
35
Si el orden no interviene, la probabilidad de una muestra cualquiera, ser la suma de la anterior, repitindola tantas veces como manera de combinar sus elementos sea posible. Es decir, sea n1 el nmero de veces que se repite cierto elemento e1 en la muestra; sea n2 el nmero de veces que se repite cierto elemento e2; sea nk el nmero de veces que se repite cierto elemento ek, de modo que n=n1+n2+..nk.
El muestreo aleatorio con reposicin es tambin denominado muestreo aleatorio simple, que como hemos mencionado se caracteriza por que: cada elemento de la poblacin tiene la misma probabilidad de ser elegido, y las observaciones se realizan con reemplazamiento. De este modo, cada observacin es realizada sobre la misma poblacin (no disminuye con las extracciones sucesivas).
36
El proceso se repite tomando los siguientes nmeros de la tabla de nmeros aleatorios, hasta obtener la muestra de 10 individuos. Las cantidades
t 10 k
pueden ser consideradas como observaciones de una v.a. U, que sigue una distribucin uniforme en el intervalo [0,1]
37
Mtodo de Montecarlo El mtodo de Montecarlo es una tcnica para obtener muestras aleatorias simples de una v.a. X, de la que conocemos su ley de probabilidad (a partir de su funcin de distribucin F). Con este mtodo, el modo de elegir aleatoriamente un valor de X siguiendo usando su ley de probabilidad es: 1. Usando una tabla de nmeros aleatorios se toma un valor u de una v.a. U~U(0,1). 2. Si X es continua tomar como observacin de X, la cantidad x=F-1(u). En el caso en que X sea discreta se toma x como el percentil 100* de X, es decir el valor ms pequeo que verifica que F(x) .
Este proceso se debe repetir n veces para obtener una muestra de tamao n.
Ejemplo
Si queremos extraer n=10 muestras de una distribucin N(0,1) podemos recurrir a una tabla de nmeros aleatorios de k=5 cifras, en las que observamos las cantidades (por ejemplo)
A partir de ellas podemos obtener una muestra de X~N(0,1) usando una tabla de la distribucin normal: Nmeros aleatorios Muestra U(0,1) Muestra N(0,1) ti 76.293 31.776 50.803 71.153 20.271 33.717
ui ti 10 5
Obsrvese que como era de esperar, las observaciones xi tienden a agruparse alrededor de la esperanza matemtica deXi~N( =0, la muestra sea necesariamente x
2
10
X
i 1
Xi ~ N
0,
2 x
1 10
su dispersin con respecto al valor central es pequea, lo que implica que probablemente el valor medio estar muy prximo a 0, como se puede calcular:
1 (0,71 ...... 1,65) 10
0,012
Obsrvese que si el problema fuese el inverso, donde nicamente conocisemos las observaciones xi y que el mecanismo que gener esos datos hubiese sido una distribucin normal de parmetros desconocidos, con x obtenida hubisemos tenido una buena aproximacin del ``parmetro desconocido'' . Sobre esta cuestin volveremos ms adelante al abordar el
39
MUESTREO ESTRATIFICADO
40
Si observamos con ms atencin, nos encontramos (salvo sorpresas de probabilidad reducida) que el comportamiento de los varones con respecto al carcter que se estudia es muy homogneo y diferenciado del grupo de las mujeres. Por otra parte, con toda seguridad la precisin sobre el carcter que estudiamos, ser muy alta en el grupo de los varones aunque en la muestra haya muy pocos (pequea varianza), mientras que en el grupo de las mujeres habr mayor dispersin. Cuando las varianzas poblacionales son pequens, con pocos elementos de una muestra se obtiene una informacin ms precisa del total de la poblacin que cuando la varianza es grande. Por tanto, si nuestros medios slo nos permiten tomar una muestra de 10 alumnos, ser ms conveniente dividir la muestra en dos estratos, y tomar mediante muestreo aleatorio simple cierto nmero de individuos de cada estrato, de modo que se elegirn ms individuos en los grupos de mayor variabilidad. As probablemente obtendramos mejores resultados estudiando una muestra de: 1 varn. 9 hembras. Esto es lo que se denomina asignacin ptima
Asignacin proporcional
Sea n el nmero de individuos de la poblacin total que forman parte de alguna muestra: n=n1,n2,,nk Cuando la asignacin es proporcional el tamao de la muestra de cada estrato es proporcional al tamao del estrato correspondiente con respecto a la poblacin total:
ni
Ni N
41
Asignacin ptima
Cuando se realiza un muestreo estratificado, los tamaos muestrales en cada uno de los estratos, ni, los elige quien hace el muestreo, y para ello puede basarse en alguno de los siguientes criterios: Elegir los ni de tal modo que se minimice la varianza del estimador, para un coste especificado, o bien, habiendo fijado la varianza que podemos admitir para el estimador, minimizar el coste en la obtencin de las muestras. As en un estrato dado, se tiende a tomar una muestra ms grande cuando: El estrato es ms grande; El estrato posee mayor variabilidad interna (varianza); El muestreo es ms barato en ese estrato. Para ajustar el tamao de los estratos cuando conocemos la dispersin interna de cada uno de los mismos, tenemos el siguiente resultado:
Muestreo sistemtico
Cuando los elementos de la poblacin estn ordenados en fichas o en una lista, una manera de muestrear consiste en Sea k=N/n ; Elegir aleatoriamente un nmero m, entre 1 y k; Tomar como muestra los elementos de la lista:
em , em k , em ,..., em
2k
( n 1) k
42
Esto es lo que se denomina muestreo sistemtico. Cuando el criterio de ordenacin de los elementos en la lista es tal que los elementos ms parecidos tienden a estar ms cercanos, el muestreo sistemtico suele ser ms preciso que el aleatorio simple, ya que recorre la poblacin de un modo ms uniforme. Por otro lado, es a menudo ms fcil no cometer errores con un muestreo sistemtico que con este ltimo.
Observacin
El mtodo tal como se ha definido anteriormente es sesgado si N/n no es entero, ya que los ltimos elementos de la lista nunca pueden ser escogidos. Un modo de evitar este problema consiste en considerar la lista como si fuese circular (el elemento N+1 coincide con el primero) y: Sea k el entero ms cercano a N/n; Se selecciona un nmero al azar m, entre 1 y N; Se toma como muestra los elementos de la lista que consisten en ir saltando de k elementos en k, a partir de m, teniendo en cuenta que la lista es circular. Se puede comprobar que con este mtodo todos los elementos de la lista tienen la misma probabilidad de seleccin.
43
Teorema central del lmite Si X es la media de una muestra aleatoria de tamao n tomada de una poblacin con media
varianza
2
, entonces la variable:
, (n
30 )
Ejemplo Una empresa elctrica fabrica focos que tienen una duracin que se distribuye aproximadamente en forma normal, con media 800 horas y desviacin estndar 40 horas. Encuentre la probabilidad de que una muestra aleatoria de 16 focos tenga una vida promedio de 775 horas.
Solucin Como la distribucin de los focos es aproximadamente normal, que n=16 sea menor que treinta no es relevante para el problema. Luego
(775 800 ) 16 40
2.5
por lo tanto
P( X 775 ) P( Z 2.5) 0.0062
44
Teorema ( distribucin de la media muestral) Sea x1,x2,..x2 una muestra aleatoria de una variable aleatoria X que se distribuye normal con media y varianza
2
entonces:
X ~N
(X n
) n
~ N (0,1)
Ejemplo Si una muestra aleatoria de tamao 20 de una poblacin normal con media 64,3 y varianza 225. Encuentre la probabilidad de que la media muestral sea mayor que 68.
Solucin
P( x
68) 1 P( x 1 P z 1 P( z
45
1) La vida media de una mquina para hacer pasta es de siete aos, con una desviacin estndar de un ao. Suponga que las vidas de estas mquinas siguen aproximadamente una distribucin normal, encuentre:
a) La probabilidad de que la vida media de una muestra aleatoria de nueve de estas mquinas caiga entre 6.4 y 7.2 b) El valor de x a la derecha del cual caera el 15% de las medias calculadas de muestras aleatorias de tamao 9.
2) El tiempo que el cajero de un banco con servicio en el automvil atiende a un cliente es una variable aleatoria con media 3.2 minutos y una desviacin estndar de 1.6 minutos. Si se observa una muestra aleatoria de de 64 clientes encuentre la probabilidad de que su tiempo medio con el cajero sea:
46
1) a) 0.6898 b) 7.35
47
Inferencia estadstica
La teora de inferencia estadstica consiste en aquellos mtodos con los cuales se pueden realizar inferencias o generalizaciones acerca de una poblacin.
ESTIMACION DE PARAMETROS
Los parmetros a estudiar son parmetros poblacionales como la media y la varianza.
Si
ser su estimador.
As , x es un estimador de insesgamiento.
2 y s es un estimador de
si y slo si E ( )
De esta forma :
a) E ( x ) b) E( s 2 )
48
es un intervalo de la forma
, donde
distribucin muestral de
donde 0
1.
(1
)100 % , la fraccin (1
Por ejemplo:
a) Si b) Si
0.05, entonces se tiene un intervalo de confianza del 95 %. 0.01, entonces el intervalo de confianza es del 99 %.
49
X ~N
Sabemos que si X es una variable aleatoria de una poblacion normal, entonces:
luego la variable : Z (x ) n ~ N(0,1)
P( Z1 P( Z P( Z
Z Z2 ) Z1 )
Z2 ) 2 2 Z
1 2
1 1 1 2
Luego : Z 2 Z1 Luego : Z1
Z
2
Z
1 2
As, P(Z 1
Z2 ) 1
50
De esta forma, reemplazando en esta expresin, los valores de Z, Z1 y Z2 obtenidos anteriormente se tiene:
Z
1 2
(x
) n
Z
1 2
Z
1 2
(x n
Z
1 2
P P P x
Z
1 2
n
1
Z
1 2
n Z
1 2
1 1
x Z
Z
2
n n x
x Z
1 2
n 1
Definicin Si x es la media de una muestra aleatoria de tamao n de una poblacin normal con varianza pobalcional poblacional
2
Z
1 2
,x
Z
1 2
Ejemplo : Si una muestra aleatoria de tamao 20 de una poblacin normal con varianza 225 tiene una media muestral de 64.3. Construya un intervalo de confianza del 95% para .
51
Solucin
(1 )100% n 20
2
95% 15
0.05
225 64.3
64.3 Z
15
0.05 1 2
20 15 20
,64.3 Z
15
0.05 1 2
20 15 20 57.7,70.9
64.3 (1.96)
,64.3 (1.96)
as con una confianza del 95% el verdadero valor de la media poblacional intervalo : (57.7,70.9).
se encuentra en el
En el ejemplo anterior:
Z
1 2
Z 0.975
1.96
(1.96 )
15 20
6.57
52
6.57
Teorema Con una confianza del (1- )100% , el tamao muestral adecuado (n) para que la diferencia entre
xy
Z
1
Ejemplo: Que tan grande se require que sea la muestra del ejemplo (1) para que el error de estimar travs de x no sea mayor que 0.05 ? utilice una confianza del 95%. Sol
e 0.05 ; (1 - ) 0.95 0.05 as Z
1 2
Z 0.975
1.96
15 por lo tanto n
345 .744
Luego con una confianza del 95% el tamao muestral adecuado para que error de estimar
de
Observacin Todo lo anterior tambin es aplicable a poblaciones no normales con varianza conocida cuando n>30.
53
1) Las medidas de los dimetros de los rodamientos tiene una desviacin estndar de de 0.042 cm. Se selecciona una muestra aleatoria de 200 rodamientos producidas por una mquina en una semana, los dimetros dieron una media de 0.824 cm. Hallar un intervalo de confianza del 95% y 99% para el verdadero dimetro promedio de los rodamientos.
varianza 9. Se prueban 20 componentes y se anotan sus tipos de fallas x1,x2,x3..x20. Suponga adems que la media de la muestra es de 100.9 horas. Obtener un intervalo de confianza del 99% para la verdadera duracin promedio de todos los componentes.
3) Se administra un test estndar a una numerosa clase de estudiantes. La puntuacin media de una muestra de 100 estudiantes es de 75 puntos. Suponga que la varianza admitida de las puntuaciones para este test es de 2500 puntos. Hallar: a) Intervalo de confianza del 98% para la verdadera puntuacin media estudiantes. b) Lmite superior del intervalo de confianza del 95% para c) Lmite inferior del intervalo de confianza del 90% para de los
4) Al medir el tiempo de reaccin de una persona, un psiclogo estima que la desviacin estndar es de 0.05 segundos. De que tamao ha de tomarse una muestra de medidas para tener una confianza del 95% y 99% de que el error de estimar mayor que 0.01 segundos ? a travs de x no sea
54
1) 95%
(0.8182 , 08298)
99%
(0.816 , 0.8316)
2) (99.17 , 102.63)
4) 95%
n=96.04
97
99%
n=116.4
167
55
A2) Si no se conoce su varianza Sabemos que si x1,x2,..xn una muestra aleatoria de una variable aleatoria X~N( , 2) con desconocida entonces el estadstico:
T (x s ) n tiene distribuci n t - student con v n 1 grados de libertad .
2
Su funcin de distribucin acumulada como ya sabemos se encuentra tabulada. El parmetro que caracteriza a la t-student se conoce como grados de libertad.
56
P(t1
t2 ) 1 x
t
2
s n s
2
t
2
P x t
x t
2
s n
Definicin Si x es la media de una muestra aleatoria de tamao n de una poblacin normal con varianza conocida, entonces un intervalo de confianza del (1- )100% para
s
2
x t
, x t
2
s n
Ejemplo Un fabricante de pintura quiere determinar el tiempo de secado promedio para una nueva pintura para pared interior. Si para una prueba de 12 reas de igual tamao se obtiene un tiempo medio de secado de 66.3 minutos y una desviacin estndar de 8.4 minutos. Construya un intervalo de confianza del 95% para el verdadero tiempo de secado promedio de las paredes si el tiempo
t 0.025,11
2.201
66.3 - (2.201)
, 66.3 (2.201)
61;71.6
57
As un intervalo de confianza del 95% para el verdadero tiempo de secado promedio de las paredes se encuentra en el intervalo (61; 71.6) minutos.
s n
2.201 , s
8.4 ,
12 por lo tanto : e
(2.201 )
8.4 12
5.34
5.34 minutos.
Teorema Con una confianza del (1- )100% , el tamao muestral adecuado (n) para que la diferencia entre
xy
t s n
2
58
Ejemplo:
En el ejemplo del fabricante de pintura, determine el tamao de muestra adecuado para que el error de estimar a travs de x no sea mayor que 0.25 minutos.
2
2.201(8.4) 0.25
5469
Es decir para que el error no sea mayor que 0.25 se debe tomar una muestra de 5469 reas.
59
1) Se van a realizar durante un mes pruebas de mercado de un nuevo instrumento, en determinadas tiendas de de una ciudad. Los resultados para una muestra de 16 tiendas sealaron ventas promedio de $ 12.000 con una desviacin estndar de $ 180. Encuentre un intervalo de confianza del 99% para las ventas promedio reales de este nuevo instrumento. Suponga distribucin normal.
2) Suponga que se hacen 20 mediciones sobre la resistencia de cierto tipo de alambre. La media de la muestra es 10.48 ohms y la desviacin estndar 1.36 ohms. Obtener un intervalo de confianza de un 99% para la resistencia promedio real si ellas se distribuyen normalmente.
3) Una muestra aleatoria de 100 propietarios de automviles indica que, en el estado XX, un automvil recorre un promedio de 23.500 Km por ao con una desviacin estndar de 3.900 Km. Determine un intervalo de confianza del 98% para la cantidad promedio de Km que un automvil recorre anualmente en el estado XX. Suponga distribucin normal.
4) Una muestra aleatoria de 8 cigarros de una marca determinada tiene un contenido promedio de nicotina de 2.6 milgramos y una desviacin estndar de 0.9 milgramos. a) Determine un intervalo de confianza del 95% para el contenido promedio de real de nicotina en esta marca de cigarros en particular, si se sabe que la distribucin de los contenidos de nicotina son normales. b) Determine el tamao muestral adecuado para que el error de estimar de x no sea mayor que 0.05 con una confianza del 99% a travs
60
1) (11867,385 ; 12132,615)
2) (9.61 ; 11.35)
3) (22578,04 ; 24421,96)
4) a) (1,847 ; 3.353)
b) n= 40 cigarros aproximadamente.
61
Sabemos que si x1,x2,.xn es una muestra aleatoria de X~N( , 2) con entonces el estadstico:
X2 (n 1) s 2
2
desconocida,
(n 1) grados de libertad.
62
P X2
1 2
X2
X2
2
1 X2
2
P X2
1 2
(n 1) s 2
2
1 X2
2
1
2
(n 1) s
X2
1 2
(n 1) s 2 X2
2
(n 1) s 2 X2
1 2
Definicin Si s2 es la varianza de una muestra aleatoria de tamao n de una poblacin normal, un intervalo de confianza del (1- )100% para
2
( n 1) s 2 (n 1) s 2 ; X2 X2
2 1 2
donde X2
/2
y X21-
/2
1- /2 respectivamente, a la derecha.
Ejemplo: 1) Determine un intervalo de confianza del 95% para la varianza de una muestra de 10 paquetes de semilla, si la varianza de la muestra es 0.286.
63
Solucin:
1 n s
2
100% 10
95% 9
0.05
0.025
0.975
(n 1)
0.286 19.023 ; X 2
12
X2
2
2.700
2
as, con una confianza del 95% el verdadero valor de la varianza poblacional en el intervalo (0.135,0.953).
se encuentra
72 puntos y una
distribucin normal. Determine un intervalo de confianza del 98% para la varianza poblacional.
Solucin
(1 n X
2 2
)100% 20
98%
0.02
0.01
0.99
(n 1) 19 7.633
2 1-
36.191 ; X 2
luego con una confianza del 95% el verdadero valor de la varianza estudiantes se encuentra en el intervalo (8.39;39.82).
64
1) Un fabricante de bateras para automvil asegura que sus bateras duran en promedio, 3 aos con una desviacon estndar de un ao. Si 5 de estas bateras tienen una desviacin estndar de 0.9028 aos. Determine un intervalo de confianza del 95% para la varianza real. Es vlida la afirmacin del fabricante ? Suponga que la poblacin de las duraciones de las bateras se distribuye aproximadamente normal.
2) Suponga que se hacen 20 mediciones sobre la resistencia de cierto tipo de alambre. La media de la muestra es de 10,48 ohms y la desviacin estndar 1.36 ohms. Obtener un intervalo de confianza de un 95% para la varianza real si las resistencias se distribuyen normalmente.
3) Una muestra aleatoria de 25 cigarros de una cierta marca tiene un contenido promedio de nicotina de 1.3 milgramos y una desviacin estndar de 0.17 milgramos. Encuentre un intervalo de confianza del 90% y 98% para la varianza real de esta derteminada marca de cigarros si se supone que las mediciones se distribuyen normalmente.
4) Una muestra aleatoria de 100 propietarios de automviles indica que, en el estado XX, un automvil recorre un promedio de 23.500 Km al ao con una desviacin estndar de 3.900 Km. Determine un intervalo de confianza del 99% para la varianza real de Km recorridos al ao por los automviles del estado XX.
65
1) (0.29; 6.79) La afirmacin del fabricante es vlida porque la varianza poblacional est dentro del intervalo que se determin con una confianza del 95%.
2) (1.069; 3.949)
3) 90%
(0.019; 0.05)
98%
(0.016 ; 0.064)
4) ( 10741065.69 ; 22374294,2)
66
) con varianzas
2 2
conocidas
2 2
y varianzas
, respectivamente,
( x1
x 2 ) (u1
2 1 2 2
u2 )
n1
n2
Definicin Si x1 y x 2 son las medias de muestras aleatorias independientes de tamaos n1 y n2 , respectivamente de poblaciones con varianzas conocidas de confianza del (1- )100% para (
1- 2) 1 2
, respectivamente, un intervalo
( x1
x2 ) z
2 1 2
2 2
n1
n2
; ( x1
x2 )
z
1 2
2 1
2 2
n1
n2
67
Ejemplo: Se lleva a cabo un experimento en que se comparan dos tipos de motores A y B. Se mide el rendimiento en millas por galn de gasolina. Se realizan 50 experimentos con el motor tipo A y 75 con el motor tipo B. La gasolina que se utiliza y las dems condiciones se mantienen constantes. El rendimiento promedio de gasolina para el motor A es de 36 millas por galn y el promedio para el motor B es 42 millas por galn. Encuentre un intervalo de confianza del 96 % para (
B- A),
donde
A son
B y A. Suponga que las deviaciones estndar poblacionales son seis y ocho para los motores A y B.
Solucin
(1- )=0.96
= 0.04
/2 = 0.02
= z0.98 = 2.05.
xB
xA
42 - 36
6,
2 B
8,
2 A
6 , adems n A
50, n B
75
B- A)
6 - 2.05
64 75
36 64 ; 6 2.05 50 75
36 50
3.43; 8.57
Podemos concluir que el rendimiento del motor B es mayor que el rendimiento del motor A.
68
) con varianzas
2 2
y varianzas poblacionales
desconocidas pero iguales, el estadstico usado para la construccin de este intervalo est dado por:
( x1
x2 ) ( sp 1 n1
1 n2
tiene distribucin t
student con v
n1
n2 - 2 grados de libertad
donde:
s2 p
2 (n1 1) s12 (n2 1)s2 2 en que s12 y s 2 son las varianzas muestrales. n1 n2 2
Definicin Si x1 y x 2 son las medias de muestras aleatorias independientes de tamaos n1 y n2 , respectivamente, de poblaciones aproximadamente normales desconocidas, un intervalo de de confianza del (1- )100% para ( con varianzas iguales pero
1- 2)
( x1
x2 ) t s p
2
1 n1
1 ; ( x1 n2
x2 ) t s p
2
1 n1
1 n2
donde t
/2
69
Ejemplo: Se eligieron dos estaciones de muestreo independientes para un estudio sobre la descarga de cido de una mna de uranio. Los registros de ambas estaciones se encuentran dados en la siguiente tabla:
Estacin 1 n1= 12
x1 =3.11
Estacin 2 n2= 10
x 2 =2.04
s1=0.771
s2=0.448
Encuentre un intervalode confianza del 90% para la diferencia entre las medias poblacionales de ambas estaciones. Suponga que las varianzas poblacionales son iguales pero desconocidas.
Solucin
(1- )100%=90%
(1- )=0.90
= 0.1
x1
x2
3.11 - 2.04
2 1.07 , s1
0.771 , s 2 2
0.448 , adems n1
12 , n2
10
De esta forma:
s2 p
2 (11)(0.771 ) (9)(0.4482 ) 12 10 2
0.417
70
0.593; 1.547
De esta forma podemos concluir que las decarga de uranio en la en la estacin 1 es mayor que en la estacin 2.
71
1) Una muestra aleatoria de tamao n1=25 que se toma de una poblacin normal con una desviacin estndar
1=5
tamao n2=36, que se toma de una poblacin normal diferente con una desviacin estndar
1- 2. 2=3,
2) Los estudiantes pueden elegir entre un curso de fsica sin laboratorio de tres semestreshora y un curso con laboratorio de 4 semestres-hora. El examen escrito final es el mismo para cada seccin. Si 12 estudiantes de la seccin con laboratorio tienen una calificacin promedio en el exmen de 84 con una deviacin estndar de 4, y 18 estudiantes de la seccin sin laboratorio tienen una calificacin promedio de 77 con una deviacin estndar de 6, encuentre un intervalo de confianza del 99% para la diferencia entre las calificaciones promedio de los dos cursos. Suponga que las poblaciones se distribuyen de forma aproximadamente normal con varianzas iguales.
3) Los siguientes datos, registrados en das, representan el tiempo de recuperacin para pacientes que se tratan al azar con uno de dos medicamentos para infecciones graves de la vegiga:
Medicamento 1 n1= 14
x1 =17
Medicamento 2 n2= 16
x 2 =19
2 s2 =0.448
s12 =0.771
72
1- 2
recuperacin de los medicamentos. Son iguales los tiempos de recuperacin? Suponga poblaciones normales con varianzas poblacionales desconocidas pero iguales.
4) Una compaa de taxis trata de decidir si comprar neumticos marca A o de la marca B para su flotilla de taxis. Para estimar la diferencia de las dos marcas, se lleva a cabo un experimento utilizando 12 de cada marca. Los neumticos se utilizan hasta que se gastan. Los resultados son:
Marca A n1= 12
x1 =36,300 kilmetros
Marca B n2= 12
x 2 =38,100 kilmetros
s 2 =6100 kilmetros
s1 =5000 kilmetro
1- 2
distribuyen de forma aproximadamente normal. Suponga varianzas iguales pero desconocidas. Existe diferencia entre las dos marcas de neumticos ?
73
1)
1- 2
[2.9 , 7.1]
2)
1- 2
[1.5 , 12.5]
3)
2- 1
4)
1- 2
1- 2
=0
74
ASIGNATURA
ESTADSTICA
TERCERA UNIDAD PRUEBAS DE HIPTESIS
3.1 3.2
Pruebas de hiptesis para diferencia de media con variancias conocidas. Pruebas de hiptesis para diferencia de media con variancias desconocidas pero iguales.
3.3
75
PRUEBAS DE HIPOTESIS
Son procedimientos de decisin basados en datos que puedan producir una conclusin acerca de algn sistema cientfico. Una hiptesis estadstica es una afirmacin o conjetura acerca de una o ms poblaciones. No es posible saber con absoluta certeza la verdad o falsedad de una hiptesis estadstica, pues para ello habra que trabajar con toda la poblacin. En la prctica se toma una muestra aleatoria de la poblacin de inters y se utilizan los datos que contiene tal muestra para proporcionar evidencias que confirmen o no la hiptesis. Si la evidencia de la muestra es inconsistente con la hiptesis planteada, entonces sta se rechaza y si la evidencia apoya a la hiptesis planteada, entonces se acepta sta. La aceptacin de una hiptesis implica tan slo que los datos no proporcionan evidencia suficiente para refutarla. Por otro lado, el rechazo implica que la evidencia de la muestra la refuta. La estructura de una prueba de hiptesis consiste en la formulacin de una hiptesis nula , es decir, cualquier hiptesis que se desee probar se denota por H 0 . El rechazo de H 0 , genera la aceptacin de una hiptesis alternativa , que se denota por H1 . Una hiptesis nula referente a un parmetro poblacional siempre debe establecerse de manera que especifique un valor exacto del parmetro, mientras que la hiptesis alternativa admite la posibilidad de varios valores. Por ejemplo: H : 20 H0 : 20 H : 20 1) 0 2) 3) 0 H1 : 20 H1 : 20 H1 : 20 En la hiptesis alternativa se plantea usualmente la que se cree verdadero y en la hiptesis nula lo que se desea rechazar. Para tomar una desicin acerca de un parmetro es necesario una prueba estadstica para cuantificar esta decisin. Esto se logra al establecer primero la distribucin muestral que sigue la muestra estadstica ( es decir, la media ) y despus calcular la prueba estadstica apropiada. Esta prueba estadstica mide que tan cerca de la hiptesis nula se encuentra el valor de la muestra. La prueba estadstica suela seguir una distribucin estadstica conocida ( normal, t-student, ji cuadrado). La distribucin apropiada de la prueba estadstica se divide en dos regiones: a) regin de rechazo ( regin crtica) 76
b) regin de no rechazo Si la prueba estadstica cae en la regin de no rechazo no se puede rechazar la hiptesis nula y si cae en la regin de rechazo, se rechaza la hiptesis nula. Pare decidir con relacin a la hiptesis nula, primero se tiene que determinar el valor crtico para la distribucin estadstica de inters. El valor crtico separa la regin de rechazo de la regin de no rechazo. regin de no rechazo valor crtico Errores al realizar una prueba de hiptesis Al utilizar una muestra para obtener conclusiones sobre una poblacin existe el riesgo de llegar a una conclusin incorrrecta. Pueden ocurrir dos errores diferentes: 1) Error tipo I consiste en rechazar H O cuando sta es verdadera 2) Error tipo II consiste en aceptar H 0 cuando sta es falsa regin de rechazo
Al probar cualquier hiptesis estadstica, existen cuatro posibles situaciones que determinan si la desicin es correcta o equivocada. H0 es verdadera Desicin correcta Error tipo I H0 es falsa Error tipo II Desicin correcta
Se acepta H0 Se rechaza H0
La probabilidad de cometer error tipo I, es decir, rechazar H0 cuando es verdadera, se denomina nivel de significacin y se denota por . P( error tipo I)= La probabilidad de no cometer error tipo I, es decir, aceptar H0 cuando es verdadera, se denota por 1 . P( error tipo I)c = 1 La probabilidad de cometer error tipo II, es decir, aceptar H0 cuando es falsa, se representa por . P(error tipo II)= La probabilidad de cometer error tipo II, es decir, rechazar H0 cuando es falsa, se denomina potencia de la prueba y se denota por 1 . P(error tipo I)c= 1
77
El ideal al rechazar una prueba de hiptesis es determinar los procedimientos o reglas que conduzcan a maximizar la potencia de una prueba, para fijo. se suele especificar antes de tomar una muestra, es frecuente que
0.05 o
0.01
Esquema para realizar una prueba de hiptesis acerca de un parmetro 1) Plantear la hiptesis nula y la hiptesis alternativa.
a)
H0 : H1 :
1 1
b)
H0 : H1 :
1 1
c)
H0 : H1 :
1 1
5) Extraer una muestra aleatoria de tamao n y calcular el valor del test estadstico. 6) Si el valor calculado del test estadstico cae en la regin crtica rechazar H0 , en caso contrario no rechazar H0 y concluir que la muestra aleatoria no proporciona evidencia para rechazarla.
Pruebas de una y de dos colas Una prueba de hiptesis ser de una cola en los siguientes casos: a)
H0 : H1 : H0 : H1 :
1 1
b)
1 1
c)
H0 : H1 :
H0 : H1 :
1 1
d)
1 1
78
H0 : H1 :
1 1
) es conocida
2
Recuerde que si X ~ N
, entonces X ~ N
~ N(0,1)
i) H 0 : u H1 : u
u1 (u u1
u1 )
Grficamente:
79
ii) H 0 : u H1 : u
u1 (u u1
u1 )
Grficamente:
H0 : u H1 : u
u1 u1
z
1 2
Grficamente:
80
Ejemplos 1) Considere la hiptesis nula de que el peso promedio de los estudiantes de un cierto instituto es de 68 kilos contra la hiptesis alternativa de que es diferente de 68 kilos. Suponga que los pesos se distribuyen normalmente con una desviacin estndar de 3.6 kilos. Se elige una muestra aleatoria de 36 estudiantes y se obtiene un peso promedio de 67.5 kilos. Utilice un nivel de significancia =0.05. Solucin:
H0 : u H1 : u
68 68
0.05
n 36
z
1 2
z0.975
x 67 .5
1.96
3.6 z (67 .5 68 ) 36 3.6 0.83
RC
z/z
1.96 z 1.96
Por lo tanto z RC . Luego con base en la muestra no es posible decidir si el peso promedio de los estudiantes del instituto es distinto de 68 kilos.
2) Una muestra aleatoria de 100 muertos registrados en Chile durante el ao pasado mostr una vida promedio de 71.8 aos. Suponiendo una desviacin estndar poblacional de 8.9 aos. Parecera esto indicar que la vida promedio hoy en da es mayor que 70 aos ? Utilice un nivel de significancia =0.05.
81
Solucin:
H0 : u H1 : u
0.05
70 70
z1 z0.95 1.64
100
71 .8
8.9
2.022
Por lo tanto z RC . Luego con base en la muestra podemos decir que la vida promedio hoy en da supera los 70 aos.
3) Un fabricante de equipo deportivo ha desarrollado un nuevo sedal sinttico para pesca que se considera tiene una resistencia a la ruptura de 8 kilgramos con una desviacin estndar de 0.5 kilgramos. Prubese la hiptesis de que =8 Kg ,en contraposicin a la alternativa de que 8 Kg , si se toma una muestra aleatoria de 50 sedales y se encuentra
que tiene una resistencia promedio a la ruptura de 7.8 Kg. Utilice un nivel de significancia =0.01. Solucin:
H0 : u H1 : u
8 8
0.01
z
1 2
z0.995
2.57
50
7.8
0.5
(7.8 8) 50 0.5
2.83
82
83
1) Una empresa elctrica fabrica focos que tienen una duracin que est distribuda en forma aproximadamente normal con media 800 horas y una desviacin estndar de 40 horas. Pruebe la hiptesis de que = 800 horas en contraposicin de la alternativa de que
800 horas. Si una muestra aleatoria de 30 focos tiene una duracin promedio de 788 horas. Utilice un nivel de significancia de 0,04. 2) Un fabricante de cigarros afirma que el contenido promedio de nicotina no excede de de 3,5 milgramos , con una desviacin estndar de 1,4 milgramos. Para una muestra aleatoria de 8 cigarros se tiene un contenido promedio de nicotina de 4,2 milgramos Est de acuerdo con la afirmacin del fabricante? Use un nivel de significancia =0,05.
84
1) Se acepta H0 , es decir, los focos tienen una duracin promedio de 800 horas.
85
) desconocida
i)
H0 : H1 :
1 1
1 )
RC
Grficamente:
t /t
t(
,n 1)
86
ii)
H0 : H1 :
1 1
, n 1)
Grficamente:
H0 : u H1 : u
u1 u1
RC
t /t
t
2
t
2
87
Grficamente:
Ejemplos:
de la cantidad anual de
kilowatts-hora consumida por varios aparatos para el hogar. Se afirma que la aspiradora consume un promedio de 46 kilowatts-hora al ao. Si una muestra aleatoria de 12 hogares incluidos en un estudio planeado indica que las aspiradoras consumen un promedio de 42 kilowatts-hora al ao con una desviacin estndar de 11.9 kilowatts-hora. Sugiere esto, con un nivel de significacin =0.05 , que las aspiradoras consumen, en promedio, menos de 46 kilowatts-hora al ao ? Suponga que la poblacin de kilowatts-hora es normal.
Solucin:
H0 : u H1 : u
46 46
0.05
-t
, n -1
t0.05,11
1.796
12
42
11 .9
(42 46 ) 12 11 .9
1.16
88
Por lo tanto t RC . Luego con base en la muestra no podemos decir que el consumo de kilowatts-hora al ao de las aspiradoras sea menor que 46.
2) El gerente de produccin de una empresa cuyo proceso consiste en llenar cajas de cereal desea saber si efectivamente en cada caja se est depositando, en promedio, los 368 gramos que se supone es lo que la empresa asegura a sus vendedores. Para ello, se selecciona una muestra aleatoria de 25 de estas cajas obteniendose una media de 364.1 gramos y una desviacin estndar de 17.3 gramos. Considere que la distribucin de los pesos de las cajas de cereales es normal y trabaje con un nivel de significancia =0.05. Qu decide el gerente ? Solucin:
H0 : u H1 : u
368 368
0.05
t
2 ,n 1
t0.025, 24
2.064
25
364 .1
17 .3
(364 .1 368 ) 25 17 .3
1.13
RC
t /t
2.064 t
2.064
Por lo tanto t RC . Luego con base en la muestra el gerente de produccin puede estar seguro que, en promedio, cada caja contiene 368gramos de cereal.
89
3) Suponga que en el mismo ejemplo anterior, del proceso de llenado de las cajas de cereal, que la empresa es visitada por un representante de la oficina de proteccin al consumidor y que le interesa averiguar si las cajas, en promedio, estn faltas de peso, es decir, si el peso promedio es inferior a 368 gramos. Considere un nivel de significacin =0.01.
Solucin:
H0 : u H1 : u
0.01
368 368
t
, n -1
t0.01, 24
2.492
25
364 .1
17 .3
(364 .1 368 ) 25 17 .3
1.13
RC
t /t
2.492
Por lo tanto t RC . Luego con base en la muestra el representante de la oficina de proteccin al consumidor puede estar seguro que, en promedio, el peso de cada caja de cereal no es inferior a 268 gramos.
90
1) Una muestra aleatoria de 36 refrescos de una mquina despachadora automtica tiene un contenido promedio de 21.9 declitros con una desviacin estndar de 1.42 declitros. Pruebe la hiptesis de =22.2 declitros en contraposicin a la hiptesis alternativa,
<22.2 declitros, con un nivel de significancia =0.05. 2) Se afirma que automvil recorre un promedio anual de ms de 20.000 kilmetros. Para probar esta afirmacin, se le solicita a una muestra aleatoria de 100 propietarios de automvil que lleven un registro de los kilmetros que recorren. Estara usted de
acuerdo con esta afirmacin si en la muestra aleatoria resulta un promedio de 23.500 kilmetros y una desviacin estndar de 3.900 kilmetros ? Use un nivel se significancia =0.01. 3) En un informe de una investigacin de J.M.N. se afirma que los ratones con una vida promedio de 32 meses llegarn hasta casi 40 cuando 40% de las caloras en su alimentacin se reemplacen con vitaminas y protenas. Hay alguna razn para creer que la vida promedio ser inferior a 40 meses si 64 ratones que se han sujetado a esta dieta tienen una vida promedio de 38 meses con una desviacin estndar de 5.8 meses ? Utilice un nivel de significancia =0.025 4) Una empresa elctrica afirma que un compactador de basura se usa un promedio de 125 horas al ao. Si una muestra aleatoria de 49 hogares equipados con compactadores de basura indica un uso promedio anual de 126.9 horas con una desviacin estndar de 8.4 horas Sugiere esto con un nivel de significancia de 0.05, que estos aparatos se usan en promedio ms de 125 horas ?
91
4) Se acepta H0 , es decir , un compactador de basura dura, en promedio , sobre 125 horas al ao.
92
3) Prueba de hiptesis para la varianza de una poblacin normal Para contrastar estas hiptesis se usa el estadstico ji-cuadrado dado por:
2
(n 1) s 2
2
H0 : H1 :
2 2
2 1 2 1
2 1
RC
2 ,n 1
Grficamente:
93
ii)
i)
H0 : H1 :
2 2
2 1 2 1
2 1
RC
Grficamente:
2 1
,n 1
H0 : H1 :
2 2
2 1 2 1
2 (1 2 , n 1)
2 ( , n 1) 2
94
Grficamente:
Ejemplos
1) Un fabricante de bateras para automvil asegura que la duracin de sus bateras tiene distribucin aproximadamente normal con desviacin estndar de 0.9 aos. Si una muestra aleatoria de 10 bateras tiene una desviacin estndar de 1.2 aos Piensa usted que >0.9 aos ? Utilice un nivel de significancia =0.05
Solucin:
H0 : H1 :
2 2
0,81 0,81
2 ,n 1 2 0.05,9
0.05
n 10 s2
19,919
2
1.44
9 1,44 0.81
16
95
RC
19 ,919
Por lo tanto 2 RC. Luego con base en la muestra no hay evidencia suficiente para afirmar que la varianza de la duracin de las bateras sea mayor que 0.81 aos.
2) Se sabe que el contenido de nicotina de una marca de cigarros tiene distribucin aproximadamente normal con una varianza de 1.3 milgramos. Pruebe la hiptesis de que
2 2
cigarros tiene una desviacin estndar de 1,8 milgramos. Use un nivel de significacin =0.05.
Solucin:
H0 : H1 :
2 2
1,3 1,3
2 1 2 2 2 ,n 1 ,n 1 2 0.975, 7 2 0.025, 7
0.05
1,690 16,013
s2
3.24
7 3,24 0.13
17.45
1,690
16 ,013
Por lo tanto 2 RC. Luego con base en la muestra no hay evidencia suficiente para afirmar que la varianza del contenido de nicotina en los cigarros se igual a 1,3 milgramos.
96
3) Experiencias pasadas indican que el tiempo para que los alumnos del ltimo ao realicen un examen estandarizado es una v.a normal con desviacin estndar de 6 minutos. Pruebe la hiptesis de que <6 , si una muestra aleatoria de 20 estudiantes tiene una desviacin estndar de 4.51 minutos al realizar este examen. Utilice un nivel de significancia =0.01. Solucin:
H0 : H1 :
2 2
36 36
2 1 ,n 1 2 0.99,19
0.01
7,633
20
s2
20,3401
19 20,3401 10,74 36
RC
7,633
Por lo tanto 2 RC. Luego con base en la muestra es posible afirmar que la varianza del tiempo en que los estudiantes contestan el examen es igual a 36 minutos.
97
1) Se sabe que la capacidad de los recipientes de un determinado lubricante tiene distribucin normal con varianza de 0,03 litros2. Pruebe la hiptesis de que contraposicin a la alternativa de que
2 2
=0,03 en
que tienen una desviacin estndar de 0,25. Use un nivel de significacin de 0,01.
2) Se sabe que el contenido de nicotina de una marca de cigarros tiene una distribucin aproximadamente normal con una varianza de 1,3 milgramos. Pruebe la hiptesis de que
2 2
estos tiene una desviacin estndar de 1,8. Use un nivel de significancia =0,05.
98
1) Se acepta H0 , es decir ,
=0,03
2) Se rechaza H0 , es decir,
>1,3
99
ASIGNATURA
ESTADSTICA
CUARTA UNIDAD ANLISIS DE VARIANZA
100
( x1
2 1
x2 )
2 2
n1
n2
i)
H0 : H1 :
1 1
2 2
ii)
H0 : H1 :
1 1
2 2
101
H0 : H1 :
1 1
2 2
z
2
2) Comparacin de medias de dos poblaciones con varianzas poblacionales desconocidas pero iguales
( x1 sp
x2 ) tiene distribucin t 1 1 n1 n2
student con v
n1
n2 - 2 grados de libertad
donde:
2 p
2 (n1 1) s12 (n2 1)s2 2 en que s12 y s 2 son las varianzas muestrales. n1 n2 2
102
i)
H0 : H1 :
1 1
2 2
ii)
H0 : H1 :
1 1
2 2
H0 : H1 :
1 1
2 2
t t
2
103
Ejemplo: Se eligieron dos estaciones de muestreo independientes para un estudio sobre la descarga de cido de una mina de uranio. Los registros de ambas estaciones se encuentran dados en la siguiente tabla:
Estacin 1 n1= 12
x1 =3.11
Estacin 2 n2= 10
x 2 =2.04
s1=0.771
s2=0.448
Son iguales las medias de ambas estaciones ? Utilice un nivel de significancia de 0,1.Suponga que las varianzas poblacionales son iguales pero desconocidas.
Solucin
H0 : H1 :
1 1
2 2
= 0.1
RC
t /t
1.725 t
1.725
x1
x2
3.11 - 2.04
2 1.07 , s1
0.771 , s 2 2
0.448 , adems n1
12 , n2
10
104
De esta forma:
s2 p
2 (11)(0.771 ) (9)(0.4482 ) 12 10 2
0.417
as:
( x1 sp
x2 ) 1 1 n1 n2
105
Problema 1 Cinco muestras de una sustancia ferrosa se usan para determinar si hay una diferencia entre un anlisis qumico de laboratorio y un anlisis de fluorescencia de rayos X del contenido de hierro. Cada muestra se divide en 2 submuestras y se aplican los dos tipos de anlisis. A continuacin se presentan los datos codificados que muestran los anlisis de contenido de hierro. 1 2 2.0 2.2 2.0 1.9 3 2.3 2.5 4 2.1 2.3 5 2.4 2.4
Anlisis
Rayos X Qumico
Suponga que las poblaciones son normales, Pruebe con un nivel de significancia de 0.05 si los dos mtodos de anlisis dan en promedio el mismo resultado.
Problema 2 Los siguientes datos representan los tiempos de duracin de las pelculas que producen dos compaas cinematogrficas. Tiempo (minutos)
Compaa
I II 103 97 94 82 110 123 87 92 98 175 88 118
Son iguales los tiempos de duracin de las pelculas que producen las 2 compaas? Utilice un nivel de significancia de 0,05.
106
1) Los dos tratamientos no dan en promedio el mismo resultado es decir se rechaza H0. 2) Los tiempos promedio de duracin de ambas pelculas no son iguales es decir se rechaza H0.
107
ANEXOS
Tablas de distribucin de probabilidades: (normal, t student, y ji-cuadrado)
Tabla reas bajo la curva normal
z -3.4 -3.3 -3.2 -3.1 -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 -0.0 .00 0.0003 0.0005 0.0007 0.0010 0.0013 0.0019 0.0026 0.0035 0.0047 0.0062 0.0082 0.0107 0.0139 0.0179 0.0228 0.0287 0.0359 0.0446 0.0548 0.0668 0.0808 0.0968 0.1151 0.1357 0.1587 0.1841 0.2119 0.2420 0.2743 0.3085 0.3446 0.3821 0.4207 0.4602 0.5000 .01 0.0003 0.0005 0.0007 0.0009 0.0013 0.0018 0.0025 0.0034 0.0045 0.0060 0.0080 0.0104 0.0136 0.0174 0.0222 0.0281 0.0352 0.0436 0.0537 0.0655 0.0793 0.0951 0.1131 0.1335 0.1562 0.1814 0.2090 0.2389 0.2709 0.3050 0.3409 0.3783 0.4168 0.4562 0.4960 .02 0.0003 0.0005 0.0006 0.0009 0.0013 0.0017 0.0024 0.0033 0.0044 0.0059 0.0078 0.0102 0.0132 0.0170 0.0217 0.0274 0.0344 0.0427 0.0526 0.0643 0.0778 0.0934 0.1112 0.1314 0.1539 0.1788 0.2061 0.2358 0.2676 0.3015 0.3372 0.3745 0.4129 0.4522 0.4920 .03 0.0003 0.0004 0.0006 0.0009 0.0012 0.0017 0.0023 0.0032 0.0043 0.0057 0.0075 0.0099 0.0129 0.0166 0.0212 0.0268 0.0336 0.0418 0.0516 0.0630 0.0764 0.0918 0.1093 0.1292 0.1515 0.1762 0.2033 0.2327 0.2643 0.2981 0.3336 0.3707 0.4090 0.4483 0.4880 .04 0.0003 0.0004 0.0006 0.0008 0.0012 0.0016 0.0023 0.0031 0.0041 0.0055 0.0073 0.0096 0.0125 0.0162 0.0207 0.0262 0.0329 0.0409 0.0505 0.0518 0.0749 0.0901 0.1075 0.1271 0.1492 0.1736 0.2005 0.2296 0.2611 0.2946 0.3300 0.3669 0.4052 0.4443 0.4840 .05 0.0003 0.0004 0.0006 0.0008 0.0011 0.0016 0.0022 0.0030 0.0040 0.0054 0.0071 0.0094 0.0122 0.0158 0.0202 0.0256 0.0322 0.0401 0.0495 0.0606 0.0735 0.0885 0.1056 0.1251 0.1469 0.1711 0.1977 0.2266 0.2578 0.2912 0.3264 0.3632 0.4013 0.4404 0.4801 .06 0.0003 0.0004 0.0006 0.0008 0.0011 0.0015 0.0021 0.0029 0.0039 0.0052 0.0069 0.0091 0.0119 0.0154 0.0197 0.0250 0.0314 0.0392 0.0485 0.0594 0.0722 0.0869 0.1038 0.1230 0.1446 0.1685 0.1949 0.2236 0.2546 0.2877 0.3228 0.3594 0.3974 0.4364 0.4761 .07 0.0003 0.0004 0.0005 0.0008 0.0011 0.0015 0.0021 0.0028 0.0038 0.0051 0.0068 0.0089 0.0116 0.0150 0.0192 0.0244 0.0307 0.0384 0.0475 0.0582 0.0708 0.0853 0.1020 0.1210 0.1423 0.1660 0.1922 0.2206 0.2514 0.2843 0.3192 0.3557 0.3936 0.4325 0.4721 .08 0.0003 0.0004 0.0005 0.0007 0.0010 0.0014 0.0020 0.0027 0.0037 0.0049 0.0066 0.0087 0.0113 0.0146 0.0188 0.0239 0.0301 0.0375 0.0465 0.0571 0.0694 0.0838 0.1003 0.1190 0.1401 0.1635 0.1894 0.2177 0.2483 0.2810 0.3156 0.3520 0.3897 0.4286 0.4681 .09 0.0002 0.0003 0.0005 0.0007 0.0010 0.0014 0.0019 0.0026 0.0036 0.0048 0.0064 0.0084 0.0110 0.0143 0.0183 0.0233 0.0294 0.0367 0.0455 0.0559 0.0681 0.0823 0.0985 0.1170 0.1379 0.1611 0.1867 0.2148 0.2451 0.2776 0.3121 0.3483 0.3859 0.4247 0.4641
108
109
Tabla t- student
110
Tabla t- student
111
Tablas ji-cuadrado
112
Tablas ji-cuadrado
113
BIBLIOGRAFA
Chao, L 81993 (1993) Estadsticas para las Ciencias Administrativas Mxico, Editorial Mc. Graw Hill, 3 Edicin (146 p).
Mason y Lind (1995) Estadstica para Administracin y Economa Espaa, Editorial Alfaomega (911 p.)
Canavos, G (1990) Probalidad y Estadstica. Aplicaciones y Mtodos. Mxico, Editorial Mc. Graw Hill, 1 Edicin (651 p.) Walpole, Probabilidad y Estadstica para Ingenieros Mxico (1999) 6 Edicin
114