Professional Documents
Culture Documents
1
Matemáticas aplicadas Estadística Inferencial
¿Cómo le harías para conocer el grado de aceptación de una bebida refrescante, entre los
integrantes de tu grupo escolar?
____________________________________________________________________________
________________________________________________
¿Cómo le harías si quisieras saber lo anterior, pero ahora, entre los estudiantes del plantel?
____________________________________________________________________________
________________________________________________
¿Cómo le harías si quisieras saber lo mismo, pero entre los integrantes de la comunidad donde
esta ubicado tu plantel?
____________________________________________________________________________
________________________________________________
¿Cómo le harías si quisieras saber lo mismo, pero entre los habitantes de la capital de tu
estado?
____________________________________________________________________________
________________________________________________
Al dar respuesta a las preguntas anteriores, es momento de iniciar otra aventura en el mundo
de la Estadística Inferencial. ADELANTE Y CON MUCHO ENTUSIASMO.
2
Matemáticas aplicadas Estadística Inferencial
INTRODUCCIÓN:
El estudio de una población tomando como base las muestras, se llama ESTADÍSTICA
INFERENCIAL o INDUCTIVA, algunos autores la citan como teoría de muestras.
TEMA: ----------------
TEORIA ELEMENTAL DEL MUESTREO
TEORÍA DE MUESTREO
L a teoría de muestreo es el estudio de las relaciones existentes entre una población y las
muestras extraídas de ellas. Es de gran utilidad en muchos campos; por ejemplo, para
ESTIMAR características desconocidas de poblaciones (como la media y la varianza
poblacionales), denominadas parámetros de la población o simplemente parámetros, a partir del
conocimiento de las características muestrales correspondientes, nombradas estadísticos de la
muestra o, en forma sencilla, estadísticos. Esto es…
A los valores μ (mu) y σ (ro) que son, respectivamente la media y la desviación estándar
poblacionales, se les llama PARÁMETROS de la población. Como la media de la muestra ( x )
nos da una idea del valor de μ, se dice que x ESTIMA a μ o que x es un estimador del
parámetro μ; análogamente, s (desviación estándar) estima a σ (Desviación estándar de la
población), o de otra forma, que s es un estimador de σ.
3
Matemáticas aplicadas Estadística Inferencial
µ=∑ i
X
Media poblacional
Parámetros de la
μ N
población
“Parámetros” σ=
∑(X i − µ )2
Desviación estándar
σ poblacional
N
muestra n
“Estimadores”
Desviación estándar
muestral S=
∑(X i − X )2
S n −1
La teoría del muestreo también sirve para determinar si las diferencias observadas entre dos
muestras se deben a variaciones por el azar o si en realidad son significativas. Dichas
cuestiones surgen, por ejemplo, al probar un nuevo suero para el tratamiento de una
enfermedad o al decidir si un proceso de producción es mejor que otro. Sus respuestas
involucran el uso de las denominadas pruebas significativas y de hipótesis, que son importantes
en la teoría de decisiones, la cual estudiaremos más adelante.
Una forma de obtener una muestra representativa, es por medio del proceso denominado
MUESTREO ALEATORIO SIMPLE, en el cual cada miembro de una población tienen las
mismas probabilidades de ser incluido en la muestra. Una técnica de obtención de una muestra
aleatoria es la asignación de números a cada miembro de la población, anotar estos números
en pedazos de papel, colocarlos en una urna y después sacar números de dicha urna, teniendo
cuidado de mezclarlos muy bien antes de cada extracción.
NÚMEROS ALEATORIOS
Otro método alternativo al muestreo aleatorio o al azar, es el uso de una tabla de NÚMEROS
ALEATORIOS, especialmente elaborados para dicho propósito (como la tabla de la página
seis), que contienen números entre cero y uno, distribuidos uniformemente.
Para obtener una muestra aleatoria, escogemos un número cualquiera de éstos, digamos que
elegimos el séptimo número de la quinta columna (.266194) y a partir de él, tomamos tantos
números como tenga la muestra. Para elegir una muestra de 6 de 20 individuos nos fijamos en
los siguientes cinco números, los multiplicamos por 20, (el tamaño de la población), y
redondeamos a números enteros.
Esto significa que la muestra que obtuvimos, consiste de los individuos 5, 7, 14, 17, 12 y 20. En
caso de que después de redondear, obtengamos un número repetido simplemente lo ignoramos
y tomamos un número aleatorio más de la tabla. Existen tablas extensas de números aleatorios
que pueden consultarse en caso necesario, o bien, es posible generar secuencias de números
aleatorios en hojas de cálculo para computadoras personales.
S
i se saca un número de una urna, existe la opción de reponer o no, el número en la urna
antes de la segunda extracción. En el primer caso, el número puede salir una y otra vez,
mientras que en el segundo caso, esto pasaría una vez. El muestreo en que cada
miembro de la población sería elegido más de una vez, se denomina MUESTREO CON
REEMPLAZAMIENTO, mientras que si cada miembro no puede ser elegido más de una vez, se
denomina MUESTREO SIN REEMPLAZAMIENTO.
Las poblaciones son finitas o infinitas. Si, por ejemplo, se extraen 10 bolas sucesivamente sin
reemplazamiento de una urna con 100 bolas, se hace un muestreo de una población finita;
mientras que si se lanza una moneda 50 veces y se cuenta el número de caras, el muestreo es
5
Matemáticas aplicadas Estadística Inferencial
de una población infinita. Una población finita en la que se realiza un muestreo con
reemplazamiento, puede considerarse teóricamente infinita, ya que es posible extraer cualquier
número de muestras sin agotar la población. Para muchos propósitos prácticos, efectuar el
muestreo de una población finita muy grande, llega a tomarse como muestreo de una población
infinita.
TABLA DE NÚMEROS ALEATORIOS
.695068 .562823 .320635 .905239 .385775 .122307 .086846 .450445
.805913 .002301 .782180 .796922 .831441 .788578 .724832 .015705
.094442 .232042 .352716 .451598 .967543 .714261 .542868 .916486
.654244 .266617 .077187 .292421 .725393 .753031 .545621 .207688
.290330 .131461 .627016 .828471 .781755 .565886 .578796 .365034
DISEÑOS DE MUESTRAS
L as clases de muestras que hasta ahora hemos estudiado, son las muestras aleatorias
simples y números aleatorios y no hemos considerado la posibilidad, de que en ciertas
condiciones, puede haber muestras que son más fáciles de obtener, más económicas o
más informativas que las muestras aleatorias y no hemos entrado en detalles sobre la pregunta
de lo qué, podría hacerse, cuando el muestreo aleatorio es imposible.
6
Matemáticas aplicadas Estadística Inferencial
Hay muchas otras maneras de seleccionar una muestra de la población y hay gran cantidad de
bibliografía sobre el tema de los procedimientos del diseño del muestreo.
MUESTREO SISTEMÁTICO
En algunos casos, la manera más práctica de efectuar un muestreo, consiste en seleccionar,
digamos, cada vigésimo nombre de una lista, cada decimosegunda casa de un lado de una
calle y así sucesivamente. Esto se conoce como muestreo sistemático. En este caso, se
divide la población en subconjuntos de tamaño igual, según la fórmula que a continuación
analizaremos, después se toma al azar, la unidad en la que se debe comenzar, que ocupa el
lugar K y el resto de los elementos de la muestra, ocupan los siguientes lugares.
N N
K+ , K +2 , K ... Hagamos un ejemplo para comprender mejor este muestreo…
n n
Cuando el resultado de N/n no es entero, se redondea al entero menor, esto puede producir
una pequeña dificultad que no afecta y debe despreciarse cuando n > 50.
MUESTREO ESTRATIFICADO
7
Matemáticas aplicadas Estadística Inferencial
En una colonia con una población aproximada de 17000 habitantes se sabe, según el censo
reciente, que 7800 son jóvenes, 2950 de la tercera edad y 6250 son niños.
Calcular el tamaño de la muestra de cada estrato, si se desea saber las preferencias de 300
personas, en sus programas de televisión.
Para las personas jóvenes su cálculo será: 300 (7800/17000) = 300 (0.4588) = 138
Para la tercera edad: 300 (2950/17000) = 300 (0.1735) = 52
Para los niños: 300 (6250/17000) = 300 (0.3674) = 110
Suma total = 300
Se continúa con el muestreo aleatorio, para seleccionar las personas de cada estrato que van a
hacer motivo de la investigación.
La ventaja del muestreo estratificado, es que permite obtener información, sobre las
características motivo de estudio y aumenta la precisión de las estimaciones sobre toda la
población; y en general, da mejores resultados que el muestreo aleatorio, mientras más
diferentes sean los estratos entre sí y sean más homogéneos internamente.
Sus desventajas son: dificultad para decidir a qué estrato se asigna cada uno de los
elementos de la población y cómo elegir el tamaño de la muestra de cada estrato, para que el
total sea n.
MUESTREO POR CONGLOMERADOS
Esta técnica tiene utilidad, cuando el universo que se requiere estudiar admite ser subdividido
en universos menores, de características similares a las del universo total. La población se
divide en áreas, que se llaman conglomerados; cada uno de éstos, será lo más heterogéneo
posible internamente, y lo más homogéneo entre sí; a continuación se selecciona, al azar, uno o
algunos conglomerados, que forman la muestra.
Para ilustrar esta clase de muestreo, supongamos que una gran empresa quiere estudiar los
diferentes gastos familiares, en el área de Guadalajara, Jalisco. Al intentar elaborar los
programas de gastos de 1,200 familias, la empresa encuentra que el muestreo aleatorio simple
es prácticamente imposible. Dado que no se cuenta con las listas adecuadas, y el costo de
ponerse en contacto con las familias dispersas en esta gran ciudad, es muy alto. Una manera
en que se puede tomar una muestra de esta situación, es dividiendo el área total de
Guadalajara, en varias áreas más pequeñas que no se traslapen, digamos, manzanas,
regiones, sectores etc., de la ciudad; entonces se seleccionan algunas casas al azar, y todas
las familias que residen en estas manzanas, constituyen la muestra definitiva.
Este método, se utiliza cuando resulta muy costoso elaborar una lista completa, de todos los
elementos de la población. El inconveniente se presenta, cuando los conglomerados no son
homogéneos entre sí, ya que la muestra final, puede no ser representativa de la población.
Sin embargo, tiene la ventaja de simplificar, el “levantamiento” de la población
variación dentro de sí mismo, pero hay una amplia variación dentro de los grupos. Usamos el
muestreo por conglomerados en el caso opuesto: cuando hay una variación considerable dentro
de cada grupo, pero los grupos son esencialmente similares entre sí.
ERRORES AL MUESTREAR.
Cuando una muestra es aleatoria o probabilística, es posible calcular sobre ella, el error
muestral. Este error, indica el porcentaje de incertidumbre, es decir, el riesgo que se corre que
la muestra elegida no sea representativa. Si trabajamos con un error calculado en 5%, ello
significa que existe un 95% de probabilidades de que el conjunto muestral, represente
adecuadamente, al universo del cual ha sido extraído.
De manera similar, si varía el tamaño del universo con igual tamaño de muestra, se confirma
también la anterior afirmación; por ejemplo para una muestra de n = 200 casos, se tendrá un
error mayor, si el universo tiene 10,000 unidades, que si el universo posee solamente 2,000
unidades.
9
Matemáticas aplicadas Estadística Inferencial
Hagamos los cálculos, n = 200 y N = 10,000; la fracción de muestreo es n/N = 0.02; en la otra
población N = 2,000 y n = 200, n/N = 0.1 se confirma que la primera fracción de muestreo que
es la más chica, tendrá un error de muestreo mayor, ya que disminuyó el universo de la
población, con una misma muestra.
Una vez hecho esto, deberán realizarse las operaciones estadísticas correspondientes, para
poder calcular el tamaño de la muestra, que nos permite situarnos dentro del margen de error
aceptado. Dichos cálculos se estudiarán en otro apartado; sin embargo, si el tamaño de la
muestra queda determinado previamente por consideraciones prácticas; no hay otra alternativa
que aceptar el nivel de error, que su magnitud acarree.
Aceboman, espero
me ayudes a salir
adelante ¿Sale?
SAETA-
Educación humana y de
calidad
Si tienes dudas, vuelve a leer los temas, pregunta a tus compañeros del grupo,
consulta otros libros o artículos, relacionados con los temas, etc.
TU PUEDES… SI QUIERES.
10
Matemáticas aplicadas Estadística Inferencial
ACTIVIDADES DE APRENDIZAJE:
Contesta correctamente las siguientes preguntas
1. Escribe el nombre y símbolo de los dos principales parámetros de la población, así como sus
dos estadísticos de la muestra.
Respuesta: _________
3. ¿Cuántas muestras distintas de tamaño n =3, podemos tomar de una población finita de
tamaño N = 110?,
Respuesta: _________
4. ¿Cuales son los tipos de errores que se pueden cometer cuando se trabaja con muestras?
5. Asigna a cada uno de los integrantes de tu grupo un número y utiliza la tabla de números
aleatorios de la página 5, a partir del elemento 21 de la sexta columna hacia la derecha
determina una muestra aleatoria de seis estudiantes. Realiza tus cálculos aquí o aun lado de la
hoja, por favor.
____________________________________________________________________
11
Matemáticas aplicadas Estadística Inferencial
8. De la lista de tus compañeros del grupo, anota en un pedazo de papel el número que
corresponde a cada uno de ellos. Mezcla bien todos los papelitos en una caja o urna y extrae
sin reemplazamiento 6 estudiantes para un muestra aleatoria simple. Anota aquí tu resultado.
9.- De la misma manera que el ejercicio anterior, Extrae una muestra aleatoria simple de 5
estudiantes con reemplazamiento. Anota aquí tus resultados.
__________________ _________________
10. En la colonia “2 de agosto” de Tepic, Nayarit, de 1980 habitantes, se pretende realizar una
encuesta y seleccionar a 16 personas entre 180 señoras, para conocer el grado de aceptación
de un nuevo producto de limpieza. De acuerdo al tipo de muestreo sistemático, calcula, ¿cuales
serán las 16 personas seleccionadas para ser entrevistadas?
12. Un CBTA tiene inscritos a 550 estudiantes, de los cuales 290 cursan el 1er año, 188 el 2do
año y 72, 3er. año. Calcula el tamaño de la muestra de cada estrato, si se desea saber la
opinión de sólo 100 estudiantes, sobre la eficiencia de la infraestructura del plantel.
13. A medida que se incrementa el tamaño de la muestra, ¿Se incrementa el error muestral?
14. Observa detenidamente los siguientes datos y contesta ¿Cuál tendrá mayor error muestral?
Población 1 Universo (N = 350) y Muestra (n = 150)
Población 2 Universo (N = 350) y Muestra (n = 250)
15. Población 1 N = 70 y n = 15
Población 2 N = 800 y n = 150
12
Matemáticas aplicadas Estadística Inferencial
DISTRIBUCIONES MUESTRALES:
E
l concepto de distribución muestral, es el concepto más básico de la inferencia estadística y se
puede definir como una distribución de probabilidad, que consta de todos los valores posibles
de un estadístico de la muestra de tamaño n (con o sin reemplazo). En cada muestra, se suele
calcular un estadístico, como la media o la desviación estándar, que varía de una muestra a
otra. De esta forma se obtiene una distribución del estadístico denominada distribución
muestral. Si por ejemplo, el estadístico utilizado es la MEDIA MUESTRAL, entonces la
distribución se llama distribución del muestreo de medias o distribución muestral de la media.
De forma similar, se puede obtener distribuciones muestrales de las desviaciones estándar, las
varianzas, las medianas, etcétera.
Niño 1 2 3 4 5
Altura 1.20 1.18 1.32 1.23 1.28
Como es sin reemplazo, hay un total de 5C2 = (5)(4) / 2! = 10 muestras posibles. Que son los
NIÑOS: {1,2}, {1,3}, {1,4}, {1,5}, {2,3}, {2,4}, {2,5}, {3,4}, {3,5}, {4,5}.
13
Matemáticas aplicadas Estadística Inferencial
5 ( 1.28 )
Para cada una de estas muestras, tenemos una mediax . Por ejemplo, para la muestra {1,2},
su media es x = (1.32 + 1.28)/2
x = (1.20 + 1.18) / 2 = 1.19 y para la muestra {3,5} su media es
= 1.30, etc. Según se muestra en la siguiente tabla de medias.
Ahora calculemos dos aspectos importantes de esta variable aleatoria, como son la MEDIA Y
LA DESVIACIÓN ESTÁNDAR de la distribución muestral de medias.
x µ
La media que denotamos por la llamamos MEDIA DE LA DISTRIBUCIÓN MUESTRAL
que es la media de las medias de cada muestra.
14
Matemáticas aplicadas Estadística Inferencial
σ
x
Ahora, la desviación estándar, que denotamos y llamaremos ERROR ESTÁNDAR DE
LA MEDIA, que es la desviación estándar de la distribución muestral de medias; Calculemos,
siguiendo los datos de la tabla y posteriormente analizaremos otra manera más fácil….
2 Medias Medias al
x x Muestra cuadrado
{1,2} 1.19 1.4161
{1,3} 1.26 1.58761
{1,4} 1.215 1.476225
{1,5} 1.24 1.5376
{2,3} 1.25 1.5625
{2,4} 1.205 1.452025
{2,5} 1.23 1.5129
{3,4} 1.275 1.625625
{3,5} 1.30 1.69
{4,5} 1.255 1.575025
Total = 12.42 15.4356
Con los datos anteriores, podemos utilizar una fórmula y obtener el error estándar de la media
que es.
N ( ∑ x ) − ( ∑ x )2
2
10(15 .4356 ) − (12 .42 )2
σx = = = 0.03156
N2 100
Hay dos resultados muy importantes, que describen la distribución de la variable aleatoria de la
distribución muestral de medias.
El primero de ellos nos dice, que la media de la distribución muestral de medias, siempre
coincide con la media de la población y que el error estándar de la media, es siempre menor
que la desviación estándar de la población, o igual a ella, si la dividimos entre la raíz cuadrada
del tamaño de la muestra. Más precisamente:
Para el ejemplo que venimos desarrollando, utilizaremos la última fórmula para estimar la
desviación estándar de las medias muestrales o el error estándar de la media.
σ N − n 0.05154 5 −2 0.05154 3
σx = . = . = . =
0.03156
n N −1 2 5 −1 2 4
Coincide con el valor que obtuvimos antes para la desviación estándar de la distribución
muestral de medias.
N −n
Pero es preciso indicar que el factor de la segunda fórmula, se conoce como factor de
N −1
corrección de la población finita (cpf), ya que sin éste, las dos fórmulas (para poblaciones
infinitas y finitas) son las mismas.
Una regla de uso muy frecuente, establece que el factor de corrección de población finita (cpf),
se puede pasar por alto cuando n/N es menor o igual a 0.05, esto es, cuando la muestra
contiene el 5% o menos de la población.
Por lo tanto, si la población es infinita; o el muestreo se hace de una población infinita con
reemplazamiento; o cuando N > 20n la fórmula para encontrar el error estándar se reduce a
σ
σx =
n
Para encontrar el error estándar de la media cuando la población es finita y el muestreo se hace
sin reemplazo; o cuando N <20n es:
σ N−n
σx = .
n N −1
En la siguiente página
16
Matemáticas aplicadas Estadística Inferencial
ACTIVIDADES DE APRENDIZAJE:
_________________________________
__________________________________
Finalmente, en una ficha bibliográfica, realiza un esquema, mapa conceptual, o formulario con
los anteriores conceptos y fórmulas, para que las tengas a la mano y las utilices posteriormente.
Gracias
Aceboman, me
caes bien
17
Matemáticas aplicadas Estadística Inferencial
C
omo se señaló en el ejemplo anterior, en lugar de decir "la desviación estándar de la
distribución de las medias de la muestra" nos referimos al error estándar de la media. De
manera similar, la "desviación estándar de la distribución de las proporciones de la
muestra" se abrevia como error estándar de la proporción.
El término error estándar se utiliza porque da a entender que la variabilidad en los estadísticos
de la muestras, provienen de un error de muestreo debido al azar; es decir, hay diferencias
entre cada muestra y la población, y además entre las diversas muestras debido únicamente a
los elementos que decidimos escoger para las muestras. Por lo tanto, mide el grado en el que
se puede esperar que fluctúen o varíen los estadísticos de una muestra como consecuencia del
azar, pero no solo mide el error de azar que se ha cometido, sino también la probable precisión
que obtendremos si utilizamos una estadística de muestra para estimar un parámetro de
población.
Si el error estándar es bajo, hay buenas posibilidades de que el estadístico de una muestra
se aproxime al de la población; en cambio…
Si el error estándar es alto es más probable que obtengamos una muestra que difiera
considerablemente de la población. Entonces
analicemos un
Compañeros, problema, para
urge hacer un comprender
ejercicio para mejor todo lo
practicar estudiando hasta
aquí ¿sale?
Mmmmm. Está
bien ¡Ánimo!
¿Cuáles serían las medias y las desviaciones estándar (error estándar) esperadas de la
distribución muestral de medias, si los muestreos se hubieran hecho
σ N− n 3 30 00 25 −
σx = . = . = pu 0 .6
0 .59759 lg =
n N −1 25 3000 1 −
18
Matemáticas aplicadas Estadística Inferencial
Éste último resultado, es sólo ligeramente menor que 0.6 pulg. y puede, para propósitos
prácticos, considerarse igual que el muestreo con reemplazamiento.
DISTRIBUCIÓN NORMAL
E
ntre la gran cantidad de distribuciones continuas que se usan en la estadística, la más
importante, es la distribución normal o curva normal. La fórmula de esta distribución fue
publicada por primera vez por Abraham Demoivre (1667-1754) en 1733. Otros matemáticos que
figuran, en la historia inicial de la distribución normal, son Pierre Simon, el Marqués de Laplace (
1749-1827) y Carl Friedrich Gauss (1777-1855), en cuyo honor se denomina a veces, como
distribución de Gauss.
La fórmula de la distribución normal es:
1 1 x − µ 2
f ( x) = exp −
σ 2π 2 σ
donde : μ = la media de la distribución
σ = la desviación típica de la distribución
π = la constante 3.14159…
1 x−µ
2
y exp − 2 σ indica que el término entre corchetes es el exponente de e, donde
e = la constante 2.71828…
1. El área total comprendida bajo la curva y por encima del eje horizontal, es igual a 1 (unidades
cuadradas).
19
Matemáticas aplicadas Estadística Inferencial
σ Punto de inflexión
μ
5. La distribución normal, es realmente una “familia” de distribuciones, puesto que existe una
distribución diferente para cada valor de μ y σ. En la siguiente figura se pueden ver tres
distribuciones normales con la misma desviación estándar, pero diferente media. Las
distribuciones que tienen diferentes medias, se sitúan en diferentes posiciones sobre el eje
horizontal. Tres distribuciones normales con desviaciones estándar iguales pero diferentes medias
μ
μ μ
Ahora se muestran, tres distribuciones normales con la misma media, pero con diferentes
desviaciones estándar. Aquí nos muestra, cómo mientras más grande sea la distribución
estándar, más plana y más extendida es la gráfica de la distribución.
Tres distribuciones normales con medias iguales pero desviaciones estándar diferentes
σ = 0.7071
σ=1
σ =1.5
En la práctica, se pueden calcular las probabilidades de una variable X que está distribuida
normalmente, y que tenga valores entre ciertos números Xa y Xb, utilizando la tabla “áreas bajo
20
Matemáticas aplicadas Estadística Inferencial
la curva normal estándar” (que se encuentra en la página 23), donde aparecen las áreas entre los
valores 0 y z, con z > 0, para la curva normal estándar.(μ= 0 y σ = 1 ).
Escala X
μ-
3σ
μ - 2σ μ - σ μ μ + σ μ + 2σ μ + 3σ
Escala Z
-3 -2 -1 0 1 2 3
68.27%
95.45
%%%
99.73
% %
%%%
%
Antes de utilizar la fórmula para valores de Z, te invitamos a que reflexiones detenidamente
unos ejemplos y calculemos, las áreas correspondientes a probabilidades de una variable
aleatoria normal.
a) Encuentra el área bajo la curva normal estándar a la izquierda de 0.83 o P(Z < 0.83)
1.07
0
21
Matemáticas aplicadas Estadística Inferencial
entre 0 y 1.07 es 0.3577. El área a la derecha de 1.07 es lo que le falta a 0.3577 para llegar a
0.5, es decir, 0.5 – 0.3577 = 0.1423.
Por tanto, la probabilidad de que esta variable tome valores mayores a 1.07 es de 0.1423 o
14.23%
c) Encuentra el área bajo la curva normal estándar entre 0.24 y 1.18 o P(0.24 ≤ Z < 1.18)
Si el área entre 0 y 1.18 le restamos el área Área bajo la curva normal estándar entre 0.24 y 1.18 = 0.29
entre 0 y 0.24 obtenemos el área que
buscamos. El área entre 1.18 y 0.24 es 0.3810
– 0.0948 = 0.29
0.24 1.18
d) Encuentra el área bajo la curva normal estándar entre – 1.70 y – 0.93 o P(-1.70≤Z<-0.93)
- 1.70 - 0.93
Esta área es la suma del área de – 0.47 a 0 Área bajo la curva normal estándar a la derecha de -0.47 = 0.6808
más el área a la derecha del 0, que por la
tabla “áreas bajo la curva normal estándar”
vemos que es 0.1808 + 0.5 = 0.6808
22
Matemáticas aplicadas Estadística Inferencial
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
0.1 .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .2549
0.7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852
0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389
1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015
1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
1.4 .4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441
1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545
1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633
1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706
1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767
2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817
2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .4857
2.2 .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890
2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916
2.4 .4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .4936
2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952
2.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .4964
2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974
2.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .4981
2.9 .4981 .4982 .4982 .4983 .4984 .4984 .4985 .4985 .4986 .4986
3.0 .4987 .4987 .4987 .4988 .4988 .4989 .4989 .4989 .4990 .4990
Jhon E. Freund y Gary A. Simon. Estadística elemental. 8ª. Edición. Edit. Prentice may 1992.
También para z= 4.0, 5.0 y 6.0 las áreas son 0.49997, 0.4999997 y 0.499999999.
SIGUE PRACTICANDO
CON OTROS VALORES, TU SOLO(A)
0 z
23
Matemáticas aplicadas Estadística Inferencial
ACTIVIDADES DE APRENDIZAJE
Te recomendamos que utilices una curva normal por cada ejercicio, y apoyándote en la tabla de
la página 21, encuentres las respuestas correctas. Sigue los ejemplos de las páginas 18 y 19.
a) ENTRE 0 Y 1.68
P(0 ≤ Z < 1.68)
b) A LA DERECHA DE 0.69
P(Z ≥ 0.69)
d) ENTRE -2.36 y 0
P(-2.36 ≤ Z < 0)
g) A LA IZQUIERDA DE – 0.35
P(Z < -0.35)
24
Matemáticas aplicadas Estadística Inferencial
El teorema del límite central, nos permite el empleo de la distribución normal en una amplia
variedad de problemas; aún, cuando la variable en estudio no tenga distribución normal, o su
distribución sea desconocida. Si el número de elementos de la muestra es suficientemente
grande, por aplicación del Teorema del Límite Central, la media aritmética igualmente va a tener
aproximadamente distribución normal.
Otro aspecto importante, es que para convertir cualquier variable aleatoria normal, en una
variable aleatoria normal estándar, debemos sustraer la media de la variable que se está
estandarizando y dividir el resultado entre el error estándar (la desviación estándar de dicha
variable), según la siguiente fórmula, donde z = son las unidades estándar.
Ahora si,
practiquemos esta
formula con el
ejemplo anterior
¿sale?
x1 − x
Análogamente, también podemos utilizar la fórmula… z =
s
Siguiendo el mismo ejercicio de la página 16, de los 3000 estudiantes universitarios que se
distribuyen normalmente con una media µ = 68.0 pulg y desviación estándar σ = 3.0 pulg y
donde calculamos un error estándar de la media σ x = 0.6 pulg. Ahora las preguntas serán…
¿En cuántas muestras de las 80 del anterior problema, esperaríamos encontrar la media
25
Matemáticas aplicadas Estadística Inferencial
a) Cuántas muestras hay entre 66.8 y 68.3 pulgadas? o P (66.8 ≤ Z < 68.3)
66.8 − 68.0
66.8 en unidades estándar = = −2.0
0.6
26
Matemáticas aplicadas Estadística Inferencial
Con base en el teorema del límite central. ¿Cuál es la probabilidad de que el error de una
variable aleatoria sea menor que 5, cuando se usa la media de una muestra aleatoria de
tamaño n = 64 para estimar la media de una población infinita con σ = 20?
μ-5 μ μ+ 5
z = -2.0 z=0 z = 2.0
SAETA
Educación humana y de
calidad
27
Matemáticas aplicadas Estadística Inferencial
ACTIVIDADES DE APRENDIZAJE:
Respuesta: __________________________________________________________________
____________________________________________________________________________
Respuesta: __________________________________________________________________
____________________________________________________________________________
Respuesta: __________________________________________________________________
____________________________________________________________________________
28
Matemáticas aplicadas Estadística Inferencial
8. Una población consiste de cinco números 2, 3, 6, 8 y 11. Considere todas las muestras de
tamaño igual a 2 que pueden obtenerse, con reemplazamiento y sin reemplazamiento, a partir
de estas poblaciones. Calcule a) la media de la población, b) la desviación estándar de la
población, c) la media de la distribución muestral de medias, y d) la desviación estándar
de la distribución de medias, es decir, el error estándar de medias.
10. Una región agrícola consta de 200 000 hectáreas donde se siembra trigo. Para estimar la
producción media por hectárea, se realiza una muestra de 900 hectáreas que tuvieron en
promedio una productividad de = 3.4 toneladas. La SAGARPA estima que la que la desviación
estándar de la productividad del trigo en la región es de σ = 0.8 Toneladas. ¿Cuál es la
probabilidad de que nuestra estimación de la producción media en la región, tenga un
error de a lo más 0.05 toneladas?
11. La media de una muestra aleatoria de tamaño n = 300 es usada para estimar la media del
ingreso familiar de una población de 20,000 familias de una región. Si el INEGI estima que la
desviación estándar del ingreso familiar en la región es σ = $ 1500. Determina la probabilidad
de que el error de estimar la media sea a) menor que $200 y b) menor que 250
12. La media de una muestra aleatoria de tamaño n = 50 barricas, es empleada para estimar el
contenido de alcohol de la producción tequilera en una bodega de 20000 barricas. Si la
desviación estándar del contenido alcohólico del tequila es de σ = 0.5%. Determina la
probabilidad de que el error de estimar la media sea a) menor al 0.01% y b) menor al
0.02%
29
Matemáticas aplicadas Estadística Inferencial
director a resolverlo:
El director de un CBTA no sabe que hacer; según el, es urgente
incrementar las inscripciones porque la infraestructura de la
escuela está en pésimas condiciones, pero también sabe que los Integrarse en
alumnos son de escasos recursos económicos y no quiere dañar equipos de 3
estudiantes.
su buena imagen ante ellos, por lo que decide obtener una
muestra aleatoria de 200 alumnos del CBTA, de los cuales, 144
se oponen a un incremento de la inscripción y 56 están a favor
de dicho incremento.
a) Construye un intervalo de confianza del 95%, para la
proporción de la población de estudiantes que se oponen al
incremento de la inscripción. Interpreta su resultado
b) Construye un intervalo de confianza del 95%, para la
proporción de la población que está a favor del incremento
de la inscripción. Interpreta su resultado
BLOQUE: ACTIVIDADES DE DESARROLLO
1.- Consultar la presente guía didáctica, en los temas correspondientes a:
Estimación de parámetros; Estimación sin sesgo; Estimación puntual y estimación por Consultar la
intervalos; Estimación por intervalos de confianza de los parámetros poblacionales: para presente guía
medias y de proporciones. Error probable o error máximo y Tamaño de la muestra. didáctica para
2. Investigar de manera personal, otras fuentes de información a tu alcance para argumentar su
enriquecer tus conocimientos de los temas antes mencionados. solución y otras
3.- Integrado en equipos de tres compañeros, comenten las estrategias para la solución bibliografías.
de las preguntas antes señaladas.
3. Realicen esquemas, láminas, o presentaciones para su exposición grupal en el aula.
BLOQUE: ACTIVIDADES DE CIERRE
En reunión plenaria, expondrán ya sea con rotafolio, láminas, o presentaciones El cierre se hará en
30
Matemáticas aplicadas Estadística Inferencial
PowerPoint; las vías de solución que se hayan encontrado a dichos preguntas. dos fases
En la plenaria, encontraras la solución más idónea entre todo el grupo. 1ra. Sobre las
De manera respetuosa podrás solicitar a todo el grupo, te disipen algunas dudas relaciones humanas
que tengas respecto al tema y a la solución del problema en general. 2da. Sobre el
problema
El facilitador propiciará la exposición libre de las emociones y sentimientos
estadístico
generados durante el desarrollo del tema.
ESTIMACIÓN DE PARÁMETROS
En el tema anterior, se revisó la manera en que la teoría de muestreo puede emplearse para
obtener información acerca de las muestras obtenidas aleatoriamente de una población
conocida. También observamos, cómo la desviación estándar de la población y el tamaño de la
muestra, determinan la variabilidad de la distribución muestral de la medias, ya que entre menor
sea el error estándar de la media, mejor será nuestra estimación. Un problema que
consideraremos en este tema, es el de la estimación de parámetros poblacionales o
simplemente parámetros, como la media y la desviación estándar, a partir de los estadísticos
muestrales correspondientes o también llamados estadísticos, como la media y la desviación
estándar muestrales.
31
Matemáticas aplicadas Estadística Inferencial
En este apartado únicamente vamos a analizar dos parámetros poblaciones, los intervalos de
confianza para medias y los intervalos de confianza de proporciones.
Sean μs y σs la media y la desviación estándar (error estándar), en ese orden, de la distribución
muestral de un estadístico. Entonces, si la distribución muestral es en forma aproximada a la
normal (lo cual es verdadero para muchos estadísticos, si el tamaño de la muestra es N ≥30), se puede
esperar encontrar un estadístico muestral, real que caiga en los intervalos
de las veces.
xINTERVALOS DE CONFIANZA
PARA MEDIAS
E
n la zona metropolitana de la ciudad de México, se tomó una muestra de 30 lecturas del nivel
de ozono durante cierto periodo invernal. En la tabla siguiente tenemos estas lecturas:
178 190 228 211 187 165 172 244 229 208
193 203 215 226 231 209 220 258 278 235
246 227 211 195 202 212 219 216 204 193
El teorema del límite central nos permite entonces asociar a un intervalo alrededor de nuestro
valor de x = 213.5, una probabilidad o grado de certidumbre de que la media que estimamos
se encuentre efectivamente entre estos límites.
s=
∑ ( x − x) 2
=
(178 − 213.5)2 + ... + (193 − 213.5) 2
=24.87
n −1 29
n ( ∑ x2 ) − ( ∑ x)
2
Donde el área de la curva normal estándar entre 0 y Zc es α / 2, esto es, con un grado de
confianza α el error al estimar la media (μ ) por es menor a
33
Matemáticas aplicadas Estadística Inferencial
L
σ
a expresión Zc . representa el error probable o máximo al estimar la media
n
poblacional ( μ ) con grado de confianza α , y puede ser usada para determinar el
tamaño de la muestra, cuando se desea cierto grado de precisión; esto lo analizaremos un poco
más adelante.
Por lo tanto, el Error máximo del nivel de contaminación de ozono al 95% de confianza es:
σ 24.87
Zc . =1.96. = 1.96(4.54)= 8.90
n 30
Si se aumenta el grado de confianza, aumentará el error máximo al estimar la media.
Observamos, que entre mayor sea la certidumbre (grado de confianza), mayor es también el
intervalo. Por lo tanto, podemos afirmar que con una probabilidad de 0.99, la media poblacional
se encuentra entre 201.81 y 225.19. y con un grado de confianza del 99%, el error al estimar la
media como 213.5 es menor a 11.69.
34
Matemáticas aplicadas Estadística Inferencial
Obtengamos los intervalos de confianza de 90%, 95% y 99% y sus errores máximos
Como el número total de hectáreas (200,000, N > 20n) es muy grande podemos emplear la
σ 0.8
fórmula… X ± Z c 3.4 ± Z c
n 900
Para obtener el intervalo de confianza del 90%, debemos encontrar el valor de Zc (de la tabla
áreas bajo la curva normal estándar de la página 22), que corresponde a 90/2 (dos colas)= 0.45 que es
Zc = 1.645 debido a que 0.4495 = 1.64 y 0.4505 = 1.65 la parte media será 0.45 =1.645. Por lo
tanto, los intervalos al 90 % de confianza serán…
3.4 –1.645.(0.0267) = 3.4 – 0.0439 = 3.36 “y” 3.4 + 1.645. (0.0267) = 3.4 + 0.0439 = 3.44
El intervalo de confianza al 90% es 3.36 < μ < 3.44 y su error máximo de 0.0439
Como ya sabemos el valor de Zc = 1.96 para el nivel de confianza de 95 %, por lo tanto, sus
intervalos de confianza serán… 0.8
3.4 ± 1.96
900
3.4 –1.96.(0.0267) = 3.4 – 0.0523 = 3.35 “y” 3.4 + 1.96. (0.0267) = 3.4 + 0.0523 = 3.45
El intervalo de confianza al 95% es 3.36 < μ < 3.44 y su error máximo de 0.0523
σ
Como se indicó anteriormente, la expresión Zc . representa el error máximo al estimar la
n
media poblacional (μ), por x con un grado de confianza α y puede ser usada, para
determinar el tamaño de la muestra, cuando se desea cierto grado de precisión.
Un Fabricante de llantas, desea determinar la vida promedio de cierto tipo de llantas, con un
grado de certeza del 99% y con un error menor a 1000 Km. Por estudios previos, el fabricante
sabe, que la desviación estándar para este tipo de llantas es de 3000 Km. ¿Qué tan grande
debe ser la muestra?
σ 3000
Si E, es el error máximo o error probable, entonces E = Z c . = 2.575. y como deseamos
n n
3000
que E sea menor de 1000, obtenemos la ecuación 1000 = 2.575. , que al resolver da
n
35
Matemáticas aplicadas Estadística Inferencial
Con un 99% de certeza, el fabricante de llantas, debe obtener una muestra de 60 llantas para
tener un error menor de 1000 Km.
También se puede utilizar la siguiente fórmula para calcular el tamaño de la muestra, para
estimar a μ como sigue… 2 2 2
Z (σ ) 2.575(3000)
7725
[ 7.725 ]
2
n = α /2 n = = = = 59.67
E 1000
1000
Un investigador a cuyo cargo está un departamento de educación física, desea hacer una
estimación del consumo de oxígeno (en litros por minuto), de los estudiantes normales que
estén entre los 17 y los 21 años de edad, después de haber hecho un tipo especial de ejercicio.
El investigador, desea que su estimación se encuentre por lo menos a 0.10 litros de la media
verdadera, con una confianza del 95%. Los estudios que se han hecho, indican que la varianza
del consumo de oxígeno de este tipo de sujetos, bajo las condiciones especificadas, es
aproximadamente igual a 0.09 litros por minuto cuadrado.
n = α/2
2
(1.96 )( 0.3) E
n = = 34 .57 Como el tamaño de la muestra tiene que ser un entero, el
0.10
investigador necesitará tomar una muestra de tamaño 35, para lograr la confianza y la amplitud
de intervalo deseadas.
Si hay que sacar la muestra de una población finita, puede resultar conveniente incorporar el
factor de corrección poblacional finita (cpf), a la fórmula para n, en este caso la fórmula se
transforma en…
Nz 2σ 2
n=
z 2σ 2 + E 2 ( N −1)
Aceboman, yo
también le echaré
muchas ganas
A CONTINUACIÓN, RESUELVE LAS SIGUIENTES p
¿he¿
ACTIVIDADES DE APRENDIZAJE.
36
Matemáticas aplicadas Estadística Inferencial
Al 95%: Al 99%:
2) Se desea estimar las horas que un amplificador de música puede ser usado antes de
necesitar alguna reparación. Si por estudios previos se sabe que σ = 500 horas, ¿Qué tan
grande debe ser el tamaño de la muestra, si necesitamos tener un grado de confianza del
95% y un error de 100 horas?
3) Una compañía de reparto de paquetería, efectúa una muestra tamaño n = 60 del número de
paquetes que entrega por día una camioneta. Si se obtuvo una media de x = 26.8 paquetes
y una desviación estándar de s = 1.4 paquetes, construye los intervalos de confianza del
90% y del 95%, para el promedio de paquetes que entrega una camioneta.
Al 95%: Al 90%:
6) Una empresa publicitaria, desea investigar el tiempo promedio semanal que las amas de
casa, de cierta región dedican a ver telenovelas. Si saben que es razonable tomar σ =2.8 horas
para estos estudios. ¿Qué tan grande debe ser la muestra, si desean tener un grado de
confianza del 99% y un error máximo de media hora?
8) Unos diseñadores industriales, desean determinar el tiempo promedio que un adulto requiere
para ensamblar un juguete “fácil de ensamblar”, para lo cual obtuvieron una muestra de n = 36
x = 19.9 y s = 5.73 ¿Encuentre un intervalo de confianza del 95% para el tiempo
promedio que un adulto, requiere ensamblar dicho juguete?.
9) Un profesor, quiere calcular el tamaño de la muestra del tiempo promedio que los estudiantes
necesitan para pasar de una clase a otra, y quiere afirmar con una probabilidad de 0.95, que su
error será a lo sumo de 0.25 minutos.¿Cuál es el tamaño de la muestra que necesita, si sabe
que en estudios similares σ = 1.50 minutos?
p INTERVALOS DE CONFIANZA
38
Matemáticas aplicadas Estadística Inferencial
HPARA PROPORCIONES
asta aquí hemos analizado, que a partir de la información contenida en una muestra aleatoria y
con una confiabilidad preestablecida (1 – α), podemos determinar los extremos de un intervalo
de confianza para parámetros de interés, como la media poblacional ( μ ) . Ya se ha comentado
que el valor de los parámetros poblacionales en general se desconocen, por lo que, podemos
hacer una estimación puntual de P, por medio de la proporción p’ con la que ocurre la
categoría bajo estudio, en una muestra aleatoria de la población. Cabe señalar, que la
probabilidad de ocurrencia (llamado éxito) de un evento es p, mientras que la probabilidad de la
NO ocurrencia (llamado fracaso) del evento es q = 1 – p
El teorema central del límite para variables categóricas, nos dice que una variable categórica,
cuyas categorías ocurren con una proporción P en la población correspondiente. Si se extraen
de la población muestras aleatorias de tamaño n, entonces:
El teorema anterior, nos permitirá encontrar el intervalo de confianza para P con una
confiabilidad predeterminada (1 - α) y siguiendo un proceso similar al establecido en el tema
anterior, cuando se encontró el intervalo de confianza para μ con σ conocida o estimada por s.
ahora tenemos…
Si P, es la proporción en la que ocurre una categoría de una variable categórica en una población, y si
se extrae de ésta una muestra de tamaño n en la que la categoría ocurre con proporción p’, entonces
un intervalo de (1 – α) 100% de confianza para P, si np’ > 5 y n(1- p) es > 5 y si el muestreo se efectuó
de una población infinita o una finita con reemplazamiento es:
p '(1 −p ') ó p '(1 −p ') Np− n
p '±Z p '±Z c
c
n n Np −1
si el muestreo se realizó sin reemplazamiento de una población finita.
Donde Zc es el valor de la distribución normal estándar que corresponde a “1– α en área central” o a “α
en dos colas”.
39
Matemáticas aplicadas Estadística Inferencial
En una agrupación de profesionista con 10 000 miembros, se ha tomado una muestra aleatoria
de 392 miembros. A la pregunta “¿Los problemas gremiales que no le conciernen
directamente, son de interés para usted?, 97 miembros dieron respuestas: “no, para nada” o
bien “no se”. Estimar con 95% de confianza, la proporción de los miembros que hubiesen dado
respuestas semejantes, si se hubiera tomado un censo completo, preguntando a todos los
miembros de la agrupación.
Segunda prueba: la relación n/N, para saber si se utiliza el coeficiente de población finita (cpf)
392 / 10,000 = 0.0392 < 0,05 por lo tanto no se usa el “cpf” p '(1 −p ')
p '±Z c
n
Como se requiere una confiabilidad de 95% Zc = 1.96, y por lo tanto tenemos:
(0.2474)(0.7526)
0.2474 − 1.96 = 0.2474 − 0.0427 = 0.2047
392
(0.2474)(0.7526)
0.2476 + 1.96 = 0.2476 + 0.0427 = 0.2903
392
El intervalo de confianza al 95% es 0.2047 ≤ p’ ≤ 0.2903 o también < 0.2047, 0.2903 >
Entonces podemos afirmar con 95% de confianza, que la proporción de miembros de la
agrupación gremial que contestarán “no, para nada” o “no se” a la pregunta planteada, está
entre 0.2047 y 0.2903. En otros términos, podemos decir, con una confianza de 95%, que el
porcentaje de miembros del gremio a quienes no les interesan los problemas, que no les
conciernen directamente está entre 20.47% y 29.03 %.
p
Analicemos otro problema para confirmar lo aprendido…
En un estudio sobre las razones que dan los alumnos suspendidos en el CBTA; un profesor
tomó una muestra de 200 estudiantes en una población de 1500 que habían sido suspendidos.
De los 200 estudiantes suspendidos que fueron entrevistados, 140 dijeron que habían fallado
debido a dificultades económicas en su familia. El profesor quería construir una estimación del
intervalo de confianza del 95%, para la verdadera proporción de jóvenes que habían fallado por
esta razón.
Segunda prueba: la relación n/N, para saber si se utiliza el coeficiente de población finita (cpf)
p '(1 −p ') Np− n
200/ 1,500 = 0.1333 > 0,05 por lo tanto si se usa el “cpf” p '±Z c
n Np −1
Si sustituimos los valores en la fórmula, tendremos:
40
Matemáticas aplicadas Estadística Inferencial
El intervalo de confianza al 95% es 0.76 ≤ p’ ≤ 0.64 o también < 0.76, 0.64 >
Tenemos el 95% de confianza de que este intervalo contenga a p, puesto que, en un muestreo
repetido, aproximadamente el 95% de los intervalos construidos en esta forma a partir de todas
las muestras de tamaño 200 que se pueden hacer en la población de 1500 suspendidos,
incluiría a p.
ACTIVIDADES DE APRENDIZAJE.
2. En una muestra aleatoria, 136 de 400 personas a quienes se les administró una vacuna
contra la gripe, experimentaron alguna molestia. La población total de pacientes es de 5500.
Elabore un intervalo de confianza del 95% para la proporción real de personas, que
experimentarán esta molestia como resultado de la vacuna.
Interpreta el resultado.
3. Una muestra aleatoria de 200 delincuentes juveniles, sacada de 3000 internos de una
escuela correccional, reveló que para 40 de ellos, el delito por el cual habían sido detenidos era
el de robo de automóviles. Construir un intervalo de confianza de 90 %, para la proporción
poblacional de los que habían sido detenidos por robos de automóviles. Interpreta el resultado
4. De una población de 1540 personas, se obtuvo una muestra aleatoria de 140 supuestos
contactos con OVNIS, 119 se podrían explicar fácilmente en términos de fenómenos naturales.
Elabore un intervalo de confianza del 99% para la probabilidad de que un supuesto contacto
con un OVNI, se puede explicar fácilmente en términos de fenómenos naturales. Interpreta el
resultado
41
Matemáticas aplicadas Estadística Inferencial
42
Matemáticas aplicadas Estadística Inferencial
43
Matemáticas aplicadas Estadística Inferencial
TEMA -----------------
TEORIA DE DECISIÓN ESTADÍSTICA
EDECISIONES ESTADÍSTICAS
n la práctica, con frecuencia se está obligado a tomar decisiones sobre poblaciones con base
en la información de muestras. Éstas se denominan decisiones estadísticas. Por ejemplo,
quizás se quiera decidir, apoyado en datos muestrales, si un procedimiento educativo es mejor
que otro; si un nuevo suero es realmente efectivo para curar una enfermedad; si un material
didáctico (libro o apuntes) es mejor que otro; si un fertilizante es mejor que la materia orgánica,
para el desarrollo de algunas plantas, etcétera.
En el tema anterior, estudiamos los conceptos y las técnicas de la estimación por intervalos de
una media y de una proporción poblacional; esto ha servido para empezar a familiarizarse con
la inferencia estadística, que consiste en ver si se puede considerar, a través de la información
contenida en una muestra representativa de la población bajo estudio, como verdadera una
conjetura planteada acerca de la población. En el presente tema, vamos a analizar otro
problema típico de la inferencia estadística: LA PRUEBA DE HIPOTESIS.
Los métodos estadísticos que permiten poner a prueba una hipótesis; conforman una
importante rama de la estadística; dichos métodos siguen una estrategia general; nosotros
abordaremos el camino que sigue del planteamiento de una hipótesis de investigación hasta su
manejo estadístico, comentaremos los tipos de errores que se pueden cometer, así como los
conceptos y la estrategia básica para la prueba de hipótesis.
Con el propósito de abordar de manera diferente éste tema, y esperando que sea ameno y
sobre todo, más lógica su comprensión, abordaremos con un ejemplo sencillo, los distintos
subtemas en donde iremos realizando actividades de aprendizaje y cuando sea
conveniente, generalizaremos el concepto que estemos analizando (hipótesis estadísticas,
estrategia de prueba, dos tipos de errores, regla de decisión, esquema general de la prueba de hipótesis ),
para después, regresar nuevamente a nuestro ejemplo.
Los profesores sospechan que los jóvenes de las zonas rurales tienen
un nivel de conocimientos en matemáticas diferentes del de los de
44
Matemáticas aplicadas Estadística Inferencial
Hagamos un breve análisis de algunos elementos de este problema. La variable con la que
trabajaremos es la calificación, obtenida en el examen de matemáticas y la denotamos con x.
La población que nos interesa es la colección de las calificaciones que obtendrían en los
exámenes, todos los jóvenes de las zonas rurales del estado y la característica que nos
interesa es el promedio de estas calificaciones; es decir, el valor del parámetro μ. El valor de μ
es desconocido, pero podemos estimarlo puntualmente, mediante la media de las calificaciones
obtenidas por los 30 jóvenes.
SUPONGAMOS que esta media muestral es de 7.86, es decir x = 7.86
¿Se podría afirmar que, como x ≠ 7.5, el promedio de calificaciones en zonas rurales difiere del
de zonas urbanas? SI_________ o NO __________
¡Claro que no! Recuerde que la media ( x ), varía de muestra a muestra, por ello, no es
evidente que a partir del valor de x obtenido en una muestra, podamos inferir que el promedio
poblacional, μ, difiere del promedio de calificaciones en zonas rurales.
HIPÓTESIS ESTADÍSTICAS
L a palabra hipótesis se define como: (1) Una afirmación que está sujeta a verificación o
comprobación. (2) Una suposición que se utiliza como base para una acción. (3) Una
conjetura que se hace sobre algo, para sacar una conclusión. El punto clave de estas
definiciones está, en que una hipótesis es una afirmación o suposición y no un hecho
establecido.
Al intentar tomar una decisión, es útil hacer suposiciones o conjeturas acerca de las
poblaciones implicadas. Dichas suposiciones, que pueden o no ser verdaderas, se
denominan hipótesis estadísticas. En general las hipótesis, son afirmaciones acerca de las
distribuciones de probabilidad de las poblaciones.
Denotemos con μu (“mu” “u” de urbana) al promedio de las zonas urbanas, entonces sabemos, μu =
7.5 y la conjetura de los profesores se puede expresar:
μ ≠ 7.5 o bien μ ≠ μu
En adelante nos referimos a la conjetura de los profesores como hipótesis de investigación y la
expresamos como sigue:
45
Matemáticas aplicadas Estadística Inferencial
Nosotros nos limitaremos a estudiar los casos en los que las hipótesis de investigación plantea
la existencia de alguna diferencia, como en las tres posibilidades señaladas en nuestro ejemplo:
Hinv : μ ≠ μu , Hinv : μ > μu , Hinv : μ < μu .
Como se indicó anteriormente, al tomar una decisión, es útil hacer suposiciones o conjeturas
acerca de las poblaciones implicadas. Dichas suposiciones, pueden o no ser verdaderas, a
éstas se les denominan hipótesis estadísticas. Esto nos conduce a considerar DOS
POSIBILIDADES; una coincide con la hipótesis de investigación y la otra la contradice.
Ja,ja,ja
¡Que fácil!
aceboman
La hipótesis que contradice a la hipótesis de investigación se llama
HIPÓTESIS NULA y se denota H0
La hipótesis que coincide con la hipótesis de investigación se llama
HIPÓTESIS ALTERNATIVA y se denota H1
Ahondaremos más en este aspecto, para ver cómo se generan las hipótesis estadísticas. Para
ello, consideremos las distintas modalidades que, según se mencionó anteriormente, puede
adoptar la hipótesis de investigación.
La siguiente tabla, resume la relación de símbolos que aparecen en las hipótesis en los tres
casos considerados:
SAETA
Educación humana y de
calidad
47
Matemáticas aplicadas Estadística Inferencial
ACTIVIDADES DE APRENDIZAJE:
1. Establezca las hipótesis nula (H0) y las hipótesis alternativa (H1) en cada uno de los
siguientes casos:
Si se está trabajando con una variable categórica y el parámetro de la población, que nos
interesa, es la proporción poblacional P, con la que ocurre cierta categoría, se puede hacer una
hipótesis de investigación sobre P. En seguida te damos una lista de hipótesis de investigación
Hinv. Establezca la hipótesis nula H0 y la hipótesis alternativa H1 en cada uno de los casos:
48
Matemáticas aplicadas Estadística Inferencial
ESTRATEGIA DE PRUEBA
R
egresemos a nuestro ejemplo…
La hipótesis de investigación Hinv: μ ≠ 7.5 generó la pareja siguiente de hipótesis estadísticas
Con estas hipótesis, nos estamos haciendo preguntas acerca del parámetro μ,. Estas preguntas
pueden ser:
Hipótesis nula H0: ¿Podemos considerar que μ es igual al promedio (μu = 7.5) obtenido en
zonas urbanas?
Hipótesis alternativa H1: ¿Podemos considerar que μ es distinto de μu?
Si esta media muestral difiere “MUCHO” de 7.5, podemos considerar que μ es distinto de 7.5 y
la información contenida en la muestra contradice, en este caso, a la hipótesis nula.
Si la media muestral difiere “POCO” de 7.5, estaremos inclinados a pensar que μ es igual a 7.5
por lo que la información contenida en la muestra no contradice, en este caso, a la hipótesis
nula. Pero…
¿Qué tanto es “MUCHO” y qué tanto es “POCO”?. x Necesitamos un criterio que nos
aclare estos términos y que nos indique si la diferencia – μ u= 7.86 – 7.5 = 0.36 puede ser
considerada “GRANDE” o “PEQUEÑA”.
Este criterio, que veremos más adelante, recibe el nombre de regla de decisión y es el que nos
permite llegar a la conclusión de rechazar o no la hipótesis nula.
49
Matemáticas aplicadas Estadística Inferencial
Antes de seguir adelante, veamos en qué consiste cada uno de estos dos errores, en los
términos de nuestro ejemplo inicial. Hinv: μ ≠ 7.5 H0: μ = 7.5 H1: μ ≠ 7.5
Los valores de P(EI) que se usan más comúnmente son: 0.10, 0.05, 0.01. Al decidir qué
probabilidad de cometer el error tipo I permitimos; estamos diciendo qué confianza queremos
tener, en caso de considerar la hipótesis de investigación verdadera. Los valores de P(EI) que
acabamos de dar ,corresponden a confiabilidades de 90%, 95% y 99% respectivamente.
ACTIVIDAD DE APRENDIZAJE
La siguiente tabla es similar a la de la página 46, en donde está expresada en términos de H0.
Ahora tú exprésala en términos de la hipótesis alternativa, H1.
SITUACIÓN REAL
( desconocida)
ESTADÍSTICA
SITUACIÓN
Regresemos a nuestro ejemplo, para esto, los profesores cuentan con una muestra de 30
calificaciones, en la que se obtuvo un promedio muestral de 7.86, es decir: n = 30 y x = 7.86.
La regla de decisión que queremos, nos debe indicar si la diferencia x – μu = 7.86 – 7.5 = 0.36
puede ser considerada lo suficientemente “GRANDE”, como para rechazar la hipótesis nula, o
si, por el contrario, debe ser considerada los suficientemente “PEQUEÑA”, como para no
rechazar H0. También, que los valores de la media de distintas muestras tienen una distribución
s
muestral, cuya dispersión estimamos mediante el error estándar muestral, σ x = , si esta
n
dispersión es grande, el promedio de cada muestra, puede alejarse bastante del promedio
poblacional μ, y si es pequeña se espera que cada promedio esté cercano a μ. Esto hace que
s
evaluemos la diferencia x – μu , con respecto al error estándar muestral σ x = ; diremos que
n
s
el promedio muestral x difiere “mucho” o “poco” de μu con respecto al error muestral .Para
n
ver cómo es la regla de decisión que nos permitirá decir una cosa u otra, nuestro punto de
partida será, el intervalo de confianza para μ que ya estudiamos en el tema anterior. Como
sabemos, para hacer una estimación por intervalo de μ, decidiremos con qué probabilidad
estamos dispuestos a cometer el error en la estimación.
51
Matemáticas aplicadas Estadística Inferencial
Por ejemplo si decidimos que α = 0.05, sabemos que podemos encontrar un intervalo de (1-α )
100% = 95% confianza para μ. Debido a que no conocemos el valor de σ ( desviación estándar
poblacional), tendremos que calcular de la muestra, el valor de s (desviación estándar muestral) y
hacer uso de la distribución “t de Student” para construir el intervalo de confianza;
s
x ± t( n −1) donde t (n -1) es el valor de la distribución “t de Student” con n -1 grados de
n
libertad** y α en dos colas.
s s
x − 2.045 < µ < x + 2.045 de donde se deduce que, con una probabilidad de 0.95:
n n
x−µ
−2.045 < < 2.045 …
s/ n
Observemos que esta regla de decisión es precisamente la que deseábamos obtener, ya que:
x − µu x − 7.5
1) Si el valor de no está en el intervalo < -2.045, 2.045>, podemos decir que
s/ n s/ n
difiere “mucho” de cero y que es porque la diferencia x - 7.5 (que puede ser negativa o
positiva) difiere “mucho” de cero con respecto al error estándar muestral s / n . Este es
el caso en el que x difiere “mucho” de 7.5 y que nos dice cuándo podemos rechazar la
hipótesis nula.
x − µu x − 7.5
2) Si el valor de sí está en el intervalo < -2.045, 2.045>, podemos decir que
s/ n s/ n
difiere “poco” de cero y que es porque la diferencia x - 7.5 difiere “poco” de cero con
respecto al error estándar muestral s / n . Este es el caso en el que x difiere “poco” de
7.5 y que nos dice cuándo no podemos rechazar la hipótesis nula.
** Grados de libertad: Es un parámetro de la distribución t. para determinar un estimado de intervalo de una media
de población, tiene n – 1 grados de libertad, siendo n el tamaño de la muestra aleatoria. (ver glosario de conceptos al
final de la guía didáctica.
52
Matemáticas aplicadas Estadística Inferencial
α en área central .10 .30 .50 .60 .70 .80 .90 .95 .98 .99 .995 .998 .999
α en dos colas .90 .70 .50 .40 .30 .20 .10 .05 .02 .01 .005 .002 .001
α en una cola .45 .35 .25 .20 .15 .10 .05 .025 .01 .005 .0025 .001 .0005
Grados
de
Valores de t
libertad
1 .158 .510 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657 127.32 318.31 636.62
2 .142 .445 .816 1.061 1.386 1.886 2.920 4.303 6.965 9.925 14.089 22.327 31.598
3 .137 .424 .765 .978 1.250 1.638 2.353 3.182 4.541 5.841 7.453 10.214 12.924
4 .134 .414 .741 .941 1.190 1.533 2.132 2.776 3.747 4.604 5.598 7.173 8.610
5 .132 .408 .727 .920 1.156 1.476 2.015 2.571 3.365 4.032 4.773 5.893 6.869
6 .131 .404 .718 .906 1.134 1.440 1.943 2.447 3.143 3.707 4.317 5.208 5.959
7 .130 .402 .711 .896 1.119 1.415 1.895 2.365 2.998 4.490 4.029 4.785 5.408
8 .130 .399 .706 .889 1.108 1.397 1.860 2.306 2.896 3.355 3.833 4.501 5.041
9 .129 .398 .703 .883 1.100 1.383 1.833 2.262 2.821 3.250 3.690 4.297 4.781
10 .129 .397 .700 .879 1.093 1.372 1.812 2.228 2.764 3.169 3.581 4.144 4.587
11 .129 .396 .697 .876 1.088 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437
12 .128 .395 .695 .873 1.083 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318
13 .128 .394 .694 .870 1.079 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221
14 .128 .393 .692 .868 1.076 1.345 1.761 2.145 2.624 2.977 3.326 3.787 4.140
15 .128 .393 .691 .866 1.074 1.341 1.753 2.131 2.602 2.947 3.286 3.733 4.073
16 .128 .392 .690 .865 1.071 1.337 1.746 2.120 2.583 2.921 3.252 3.686 4.015
17 .128 .392 .689 .863 1.069 1.333 1.740 2.110 2.567 2.898 3.222 3.646 3.965
18 .127 .392 .688 .862 1.067 1.330 1.734 2.101 2.552 2.878 3.197 3.610 3.922
19 .127 .391 .688 .861 1.066 1.328 1.729 2.093 2.539 2.861 3.174 3.579 3.883
20 .127 .391 .687 .860 1.064 1.325 1.725 2.086 2.528 2.845 3.153 3.552 3.850
21 .127 .391 .686 .859 1.063 1.323 1.721 2.080 2.518 2.831 3.135 3.527 3.819
22 .127 .390 .686 .858 1.061 1.321 1.717 2.074 2.508 2.819 3.119 3.505 3.792
23 .127 .390 .685 .858 1.060 1.319 1.714 2.069 2.500 2.807 3.104 3.485 3.767
24 .127 .390 .685 .857 1.059 1.318 1.711 2.064 2.492 2.797 3.091 3.467 3.745
25 .127 .390 .684 .856 1.058 1.316 1.708 2.060 2.485 2.787 3.078 3.450 3.725
26 .127 .390 .684 .856 1.058 1.315 1.706 2.056 2.479 2.779 3.067 3.435 3.707
27 .127 .389 .684 .855 1.057 1.314 1.703 2.052 2.473 2.771 3.057 3.421 3.690
28 .127 .389 .683 .855 1.056 1.313 1.701 2.048 2.467 2.763 3.047 3.408 3.674
29 .127 .389 .683 .854 1.055 1.311 1.699 2.045 2.462 2.756 3.038 3.396 3.659
30 .127 .389 .683 .854 1.055 1.310 1.697 2.042 2.457 2.750 3.030 3.385 3.646
40 .126 .388 .681 .851 1.050 1.303 1.684 2.021 2.423 2.704 2.971 3.307 3.551
60 .126 .387 .679 .848 1.046 1.296 1.671 2.000 2.390 2.660 2.915 3.232 3.460
120 .126 .386 .677 .845 1.041 1.289 1.658 1.980 2.358 2.617 2.860 3.160 3.373
∞ .126 .385 .674 .842 1.036 1.282 1.645 1.960 2.326 2.576 2.807 3.090 3.291
UPN-SEP. Introducción a los métodos estadísticos. Sistema de Educación a Distancia. Volumen 2. 1982.
Grados de libertad: Número de valores de una muestra que podemos especificar libremente, una vez que separamos algo de ella.
53
Matemáticas aplicadas Estadística Inferencial
x − µu
A la expresión la llamaremos estadístico de prueba y la denotamos por tc. Si este
s/ n
valor de tc es tal que tc si está en el intervalo <-2.045, 2.045>, no se rechaza H0, por lo que al
intervalo <-2.045,2.045> se le denomina la región de no rechazo de H0. Si el valor de tc es tal
que tc no está en el intervalo <-2.045, 2.045>,se rechaza H0
t (29)
-2.045 2.045
0
Región de Región de NO rechazo de H0
Región de
rechazo de H0 rechazo de H0
Sabemos que si rechazamos H0 , podemos estar cometiendo el error tipo I. Por lo tanto, se tiene
que α es la probabilidad de que siendo H0 verdadera, tc no esté en el intervalo y rechacemos H0.
L a mayoría de los conceptos que hemos estudiado hasta el momento, son comunes a todos
los procesos estadísticos de prueba de hipótesis. Enseguida se propone por parte del
Sistema de Educación a Distancia UPN-SEP en el libro, Introducción a los métodos estadísticos
1982., un esquema general para probar hipótesis en el cual se consideran en forma
sistematizada y secuencial las partes que se deben considerar en cada prueba de hipótesis.
Los pasos que consideraremos al probar una hipótesis son los siguientes:
54
Matemáticas aplicadas Estadística Inferencial
cierta. Además, se enunciarán las condiciones para el uso del estadístico de prueba y en
algunos casos, deberemos suponer que se cumplen las condiciones.
3) Regla de decisión
Se especificará el valor de α,esto es, la probabilidad con la que se está dispuesto a cometer el
error de tipo I, y se indicará, de acuerdo con el planteamiento de la hipótesis alternativa, si α se
localiza en una o dos colas de la distribución que tiene el estadístico de prueba bajo el supuesto
que de que la hipótesis nula es verdadera. Se consultará la tabla de probabilidades
correspondiente a dicha distribución y se encontrará el valor (que suele llamarse valor crítico) que
permita definir las regiones de rechazo de H0 y de no rechazo de H0.
4) Cálculos
Se encontrará el valor del estadístico de prueba correspondiente a la muestra obtenida,
sustituyendo en la expresión algebraica del estadístico de prueba, los números que
corresponden a los estimadores y demás datos muestrales y los que corresponden al
planteamiento de la hipótesis nula.
5) Decisión estadística
Se identificará en cuáles de las regiones definidas en el paso 3, se encuentra el valor del
estadístico de prueba calculado en el paso 4. Si este valor está en la región de rechazo de H 0
se tomará la decisión de rechazar H0, y si está en la región de no rechazo de H0 , se tomará la
decisión de no rechazar H0.
55
Matemáticas aplicadas Estadística Inferencial
3) Regla de decisión
Como se desea probar H1: μ ≠ 7.5 (μ ≠ μu) con un nivel de significancia de 5%, se tienen que
α=0.05 en dos colas. El valor en la tabla de la distribución “t de Student” con 30 – 1= 29 grados
de libertad es t (29) = 2.045. A partir de este valor se definen las regiones de rechazo y no
rechazo de H0 , como sigue
No se rechaza H0
si tc está en el intervalo <-2.045, 2.045>
α = .05
Se rechaza H0 si Se rechaza H0 si
tc está < – ∞,–2.045] tc está [2.045,∞>
t (29)
–2.045 0 2.045
Región de Región de NO rechazo de H0
Región de
rechazo de H0 rechazo de H0
4) Cálculos
Como n = 30, x =7.86, s = 0.71 y μu = 7.5, tenemos:
x − µu 7.86 − 7.5 0.36
tc = = = = 2.778
s / n 0.71/ 30 0.1296
5) Decisión estadística
Como tc = 2.778 no está en el intervalo < -2.045,2.045>, se decide rechazar H0.
Si reflexionas y analizas detenidamente lo anterior, observaras que para llegar a éstas conclusiones
estadísticas, intervinieron además del valor de μu (postulado por la hipótesis nula H0 : μ = μu ), los
siguientes números;
• El promedio muestral ( x );
• La desviación estándar muestral(s);
• El tamaño de la muestra (n ); y
• La probabilidad con la que se está dispuesto a cometer el error tipo I (α).
En las siguientes actividades de aprendizaje te permitirá reflexionar cómo influye cada uno de estos
números en la conclusión estadística de rechazar o no rechazar la hipótesis nula.
56
Matemáticas aplicadas Estadística Inferencial
ACTIVIDADES DE APRENDIZAJE: Realiza tus cálculos aún lado de la hoja, por favor.
1) En el ejercicio se trabajó con s = 0.71, n = 30 y α = 0.05. Obtenga la conclusión estadística si
x hubiera sido cada uno de los indicados en la columna de la izquierda en la siguiente tabla:
Región de NO rechazo de H0 Conclusión estadística:
tc < -tc (n-1) , tc (n-1)> ¿Se rechaza H0 y se
x acepta H1?
7.00
17.14
7.35
7.50
7.65
7.86 2.778 < -2.045, 2.045> SI
8.00
¿Qué relación guarda la distancia entre x y μu=7.5 con la distancia entre tc y cero? ¿Que relación guarda
la distancia entre x y μu con la conclusión estadística?, analiza tus conclusiones
____________________________________________________________________________
____________________________________________________________________________
____________________________________________________________________________
____________________________________________________________________________
¿Qué relación hay entre la dispersión de los datos de la muestra (s) y el valor tc del estadístico de
prueba? ¿Qué relación hay entre la dispersión de los datos de la muestra y la conclusión estadística?
____________________________________________________________________________
____________________________________________________________________________
____________________________________________________________________________
5
10
15
20
25
30 2.778 < -2.045, 2.045> SI
40
¿Qué relación hay entre n y el intervalo; n con tc ; n y la conclusión estadística?, analiza tus conclusiones
____________________________________________________________________________
____________________________________________________________________________
____________________________________________________________________________
____________________________________________________________________________
¿Qué relación hay entre α y la amplitud de la región de no rechazo de H0? ¿Con cuanta confianza
podemos aceptar H1?, analiza tus conclusiones
____________________________________________________________________________
____________________________________________________________________________
____________________________________________________________________________
D edicaremos este espacio para plantear en forma general, el método que sirve para
probar hipótesis del tipo que ya señalamos en el tema de decisión estadística , esto es,
la prueba para hipótesis estadísticas de la forma:
58
Matemáticas aplicadas Estadística Inferencial
µ
Para una α determinada, la regla de decisión se plantea de acuerdo a la siguiente
x− 0
tabla:
tc =
s /el valor
Forma de H1Región de rechazo de H0t(n–1) es n de t con α en,
H1 : μ ≠ μ0
H1: μ > μ0
H1: μ < μ0
[ t(n–1) , ∞ >
Una cola
Una cola
Hinv : El promedio del contenido de azúcar del lote de naranjas procedentes de Veracruz es
diferente al promedio afirmado por el productor del 12.5%.
Hinv : μ ≠ 12.5 Hipótesis estadísticas H0: μ = 12.5 H1 : μ ≠ 12.5
3) Regla de decisión:
Como se desea probar H1: μ ≠ 12.5 con un nivel de significancia de 0.05 o 5%, se tiene α = 0.05
en dos colas. El valor en la tabla (ver página 53) de la distribución “t de Student” con 20 – 1 = 19
grados de libertad es = 2.093. Apartir de este valor se definen las regiones de rechazo y no
rechazo de H0, como sigue…
No se rechaza H0
si tc está en el intervalo <-2.093, 2.093>
α = .05
Se rechaza H0 si Se rechaza H0 si
tc está < – ∞,–2.093] tc está [2.093,∞>
t (19)
–2.093 0 2.093
Región de Región de NO rechazo de H0 Región de
Rechazo de H0 Rechazo de H0
4) Cálculos:
Como n = 20, la media muestral es x = 11.9, la desviación estándar muestral es s = 0.9
x − µ 0 11.9 − 12.5
tenemos tc = = = −2.98
s/ n 0.9 / 20
5) Decisión estadística:
como tc = - 2.98 no se encuentra en el intervalo <-2.093, 2.093>, se debe rechazar la H 0 (μ =
12.5%) dicho de otra manera, t c < -2.093 ya que -2.98 se encuentra a la izquierda de -2.093 en
la recta real, por lo tanto se debe rechazar la hipótesis nula.
6) Interpretación de resultados:
Como se rechazó la hipótesis nula nos indica lo siguiente:
Hay evidencia suficiente para considerar, con una confianza de 95% que el promedio del
contenido de azúcar de las naranjas de las muestras ( x = 11.9%) es significativamente
diferente respecto al promedio del contenido de azúcar de las frutas que aseguraba el productor
(μ = 12.5%). Por lo tanto, en respuesta a la pregunta inicial, el gerente no debe aceptar la
afirmación del producto de que el promedio de azúcar es del 12.5%; o lo que es lo mismo, la
diferencia en el porcentaje de azúcar entre 12.5 y 11.9 es muy grande para deberse a la
variabilidad de las diferentes muestras.
60
Matemáticas aplicadas Estadística Inferencial
El especialista plantea que si esta prueba se aplicara a estudiantes que no usaron textos
programados en sus estudios preuniversitarios el promedio de puntaje sería mayor, pero
como en la investigación citada no se reportan informes acerca de estos últimos elige
aleatoriamente a 125 de ellos y les aplica la prueba de comprensión de lectura antes
mencionada. Obtiene un promedio de 5.30 y una desviación estándar de 1.8. ¿Con α = 0.05
proporcionan estos datos evidencia suficiente para apoyar el planteamiento del especialista?
3) Regla de decisión:
Como se desea probar H1 : μ > μ0 con un nivel de significancia de 5% se tiene α = 0.05 en una
cola. El valor en la tabla de la distribución “t de Student” con 125 – 1 grados de libertad es t ( 124)
≈ t (120) = 1.658 (en un caso así se puede usar el valor más próximo, que este caso es de t (120)) A partir de este
valor se definen las regiones de rechazo y no rechazo de H0, como sigue:
No se rechaza H0
si tc está en el intervalo <-∞, 1.658>
Se rechaza H0 si
tc está [1.658,∞>
α = .05
t (124)
0 1.658
Región de NO rechazo de H0
Región de
Rechazo de H0
61
Matemáticas aplicadas Estadística Inferencial
4) Cálculos:
Como n = 125, x = 5.30, s = 1.8 y μ0 = 4.25, tenemos:
x − µ 0 5.30 − 4.25
tc = = = 6.522
s / n 1.8 / 125
5) Decisión estadística:
Como tc = 6.522 y está en [1.658,∞> , se rechaza H0 .
SAETA
Educación humana y de
calidad
H asta el momento hemos analizado como probar hipótesis sobre una media poblacional.
En este último apartado vamos a pensar y comprender, cómo probar hipótesis similares
al tema anterior, con la salvedad que ahora tendremos variables categóricas y nos
plantearemos preguntas acerca de la proporción con la que ocurre, en la población,
determinada categoría. Esto es, estudiaremos la prueba de hipótesis sobre una proporción
poblacional.
62
Matemáticas aplicadas Estadística Inferencial
El esquema de seis pasos para la prueba de hipótesis, que planteamos anteriormente, y que
utilizamos en la prueba de hipótesis sobre la media poblacional, nos servirá aquí también.
Supongamos que estamos estudiando un fenómeno que tiene asociada una variable
categórica, y que estamos interesados en comparar la proporción poblacional p con la que
ocurre cierta categoría de la variable, con un determinado valor p0 que es conocido o que se
supone como dado. Entonces, las hipótesis estadísticas serán de la forma:
H1: p > p0
H1: p < p0
[ z, ∞ >
< – ∞,–z ]
Dos colas
Una cola
Una cola
Procedamos a realizar dos problemas para estar listos para las actividades de autoaprendizaje
63
Matemáticas aplicadas Estadística Inferencial
1) Planteamiento de la hipótesis:
La hipótesis de investigación es: Menos de 60% de los profesores ayudan a los niños disléxicos
a mejorar sus habilidades. O sea, Hinv: p < 0.60
3) Regla de decisión:
Tenemos un ά = 0.05, y como H1: p < 0.60, entonces ά quedará en la cola izquierda de la
distribución normal estándar. El valor en la tabla de la distribución normal estándar es z = 1.645.
A partir de este valor se definen las regiones de rechazo y no rechazo de H0 como sigue
No se rechaza H0
si zc está en el intervalo <- 1.645, ∞>
α = .05
–1.645 0
Región de rechazo Región de NO rechazo de H0
de H0
4) Cálculos:
Como n = 230, p = 134 / 230 = 0.5826 ( proporción de los que si ayudan a los niños) y p0 = 0.60,
tenemos: p − p0 0.5826 − 0.60 − 0.0174
zc = = = = 0.5387
p0 ( 1 − p0 ) (0.60)(0.40) 0.0323
n 230
5) Decisión estadística:
Como zc = -0.5387, se encuentra en la región de no rechazo, en el intervalo < -1.645,∞ >, por lo
tanto, la H0 no se rechaza.
64
Matemáticas aplicadas Estadística Inferencial
Un Psicólogo opina que más de 30% de los jóvenes cuyas edades fluctúan entre 16 y 19 años
tienen interés en conocer aspectos de educación sexual. Para someter a prueba su hipótesis,
elige aleatoriamente 150 jóvenes y por medio de una entrevista y una prueba detecta que 63 de
ellos están interesados en temas de educación sexual. Supongamos que el psicólogo desea
una confiabilidad en su prueba de 99% ( por lo que α = 0.01).
1) Planteamiento de la hipótesis:
La hipótesis de investigación es: Más de 30% de los jóvenes cuyas edades fluctúan entre 16 y
19 años tienen interés en conocer aspectos de ecuación sexual, O sea, Hinv: p > 0.30
3) Regla de decisión:
Tenemos α = 0.01. Como H1: p > 0.30, entonces α quedará en la cola derecha de la distribución
normal estándar. El valor en la tabla de la distribución estándar es z = 2.326. A partir de este
valor se definen las regiones de rechazo y no rechazo de H0 como sigue:
No se rechaza H0
si zc está en el intervalo <-∞, 2.326>
Se rechaza H0 si
zc está [2.326,∞>
α = .01
0 2.326
Región de NO rechazo de H0
Región de
Rechazo de H0
4) Cálculos:
Como n = 150, p = 63 / 150 = 0.42 (proporción interesada en temas de educación sexual) y p0 : 0.30,
tenemos:
p − p0 0.42 − 0.30 0.12
zc = = = = 3.21
p0 (1 − p0 ) (0.30)(0.70) 0.0374
n 150
65
Matemáticas aplicadas Estadística Inferencial
5) Decisión estadística:
Como se rechazó H0: p ≤ 0.30 con α = 0.01, hay suficiente evidencia para considerar, con 99%
de confianza, que más de 30% de los jóvenes cuyas edades fluctúan entre 16 y 19 años, tienen
interés en conocer aspectos de educación sexual.
Gracias
ES MOMENTO DE RESOLVER LAS PRUEBAS DE HIPÓTESIS aceboman
PARA QUE REAFIRMES LO APRENDIDO, quiero y
merezco mi
10
REALIZA LAS SIGUIENTES ACTIVIDADES…
SAETA
Educación humana y de
calidad
ACTIVIDADES DE APRENDIZAJE
Resuelve las siguientes pruebas de hipótesis para una media y proporción poblacional y
Realiza tus operaciones en tu cuaderno y aquí escribe tus respuestas correctas
66
Matemáticas aplicadas Estadística Inferencial
2) Un inspector de Hacienda sospecha que las ventas semanales promedio de una empresa
superan los $ 36 750.00 que indicó la empresa en su declaración anual. El inspector selecciona
aleatoriamente 9 semanas y al estudiarlas detalladamente obtiene que durante estas 9
semanas las ventas semanales tuvieron una media de x = $ 40 500.00 y una desviación
estándar de s = $ 2 850.00. El inspector decide continuar con la auditoria en caso de que deba
rechazar la hipótesis nula μ = 36 750.00 y aceptar la hipótesis alternativa μ > 36 750.00 a un
nivel de significancia de 0.05. ¿Continuará la auditoria el inspector? Realiza los 6 pasos…
3) Una empresa entrevista a una muestra de 18 secretarias provenientes de una escuela que
afirma que sus egresadas escriben en la computadora 70 palabras por minuto. La media de
esta muestra fue x = 67.3 palabras por minuto y la desviación estándar fue de s = 4.4 palabras
por minuto. Usa el nivel de significancia de 0.05 para decidir si la empresa debe rechazar la
hipótesis nula H0 : μ = 70 y aceptar la hipótesis alternativa μ < 70. Realiza los 6 pasos…
4) En un informe acerca de la deserción, se menciona que en los CBTAs del estado de Nayarit,
el 40% de los alumnos abandonan sus estudios porque carecen de recursos económicos. Un
profesor piensa que en su CBTa esto no coincide con la realidad; para someter a prueba su
hipótesis, obtiene una muestra aleatoria de 70 estudiantes desertores, y encuentra que 30 de
ellos carecen de recursos económicos. ¿Puede el profesor, con un nivel de significancia α =
0.05, considerar que, entre los alumnos desertores, los que carecen de recursos económicos
son un porcentaje distinto de 40%?. Realiza los 6 pasos…
5) Un trabajador social cree que menos del 25% de las parejas de cierta región, han utilizado
por lo menos una vez, alguna forma de control natal. Con el fin de ver si esta suposición es
razonable, el trabajador social selecciona una muestra aleatoria de 120 parejas de la región, de
las cuales 20 dijeron que habían empleado algún método de control natal. Realiza los 6 pasos para
verificar la hipótesis planteada.
67