Professional Documents
Culture Documents
1
4.3.4. Intervalo de Confianza para Estimar la Diferencia de Medias Poblacionales
(µx − µy ). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.3.5. Estimación por Intervalo para Proporciones. . . . . . . . . . . . . . . 49
4.3.6. Estimación por Intervalo para Diferencias de Proporciones. . . . . . . 49
4.3.7. Estimación de µ para Muestas Pequeñas (n < 30). . . . . . . . . . . . . 49
4.3.8. Intervalos de Confianza para Diferencia de Medias Poblacionales (n < 30). 50
4.3.9. Intervalos de Confianza para Una Proporción Poblacional P (n < 30). . . 50
4.3.10.Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.4. Contraste de Hipótesis Estadísticas. . . . . . . . . . . . . . . . . . . . . . 53
4.4.1. Definición de Pruebas de Hipótesis y Tipos de Error. . . . . . . . . . 53
4.4.2. Procedimiento para Probar Hipótesis Estadísticas. . . . . . . . . . . . 54
4.4.3. Prueba de Hipótesis para Muestras Pequeñas y Distribución t de Student. 55
4.4.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6. Bibliografía 69
1
1. Introducción
Cada día, todo ciudadano salvadoreño se ve enfrentado a información construida en base
a datos. Esta información utilizada de manera adecuada, le servirá de fuente tanto para
entender los fenómenos que lo rodean, como para tomar decisiones de manera informada. Ya
sea en el papel de investigador, analizando datos y transformándolos en información, o
como receptor de ésta. Estar capacitado para hacer buenas preguntas, usar datos en forma
inteligente, evaluar conjeturas basadas en ellos y formular conclusiones son habilidades
básicas en la sociedad actual.
2
programarse a base de actividades que han de realizar las y los docentes bajo la guía del
formador aplicando una metodología activa, participativa y reflexiva. La metodología de cada
jornada se dividirá en tres partes:apertura, desarrollo y cierre.
3
2. Unidad I: Introducción a la Estadística
2.1. Definición de Estadística y su Objeto de Estudio
2.1.1. ¿Qué es la Estadística?.
La Estadística es una ciencia que estudia las características de un conjunto de casos para
hallar en ellos regularidades en el comportamiento, que sirven para describir el conjunto
y para efectuar predicciones.
La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos
relativos a un conjunto de objetos, personas, procesos, etc. A través de la cuantificación y
el ordenamiento de los datos intenta explicar los fenómenos observados, por lo que resulta
una herramienta de suma utilidad para la toma de decisiones.
Bajo este contexto, la Estadística se divide en dos áreas: Estadística Descriptiva y
Estadística Inferencial.
1. Durante los últimos dos días se ha informado de un total de cinco homicidios diarios.
4
Cuando se quiere generalizar a partir de la información proveniente de la muestra se debe
establecer un nivel de confianza y para ello, se incorporan los modelos probabilísticos con
el fin de cuantificar dicho grado de confianza.
La toma de muestras para aprender algo sobre una población es de uso frecuente en
administración, agricultura, política y acciones de gobierno, según lo muestran el siguiente
ejemplo:
Ejemplo 2.1 Una muestra aleatoria de 1 260 graduados de marketing de escuelas que imparten
la carrera en cuatro años mostró que su sueldo inicial promedio era de 42 694 dólares. Por
lo tanto, se estima que el sueldo inicial promedio de todos los graduados de contabilidad
de instituciones que imparten la carrera en cuatro años es de 42 694 dólares.
Ejemplo 2.2 Las cadenas de televisión hacen un monitoreo continuo de la popularidad de sus
programas contratando a Energy y a otras organizaciones con el fin de que éstas tomen
muestras sobre las preferencias de los telespectadores. Por ejemplo, en una muestra de 1000
televidentes que ven televisión a la hora de mayor audiencia, 300, o 30 %, señaló que vio
"Ganando con todo" en Canal 5 la semana pasada.
Estos índices de audiencia se emplean para establecer tarifas de publicidad o para suspender
programas.
2.1.4. Definiciones
Población (N): es el conjunto de todas las observaciones o elementos de interés, en un
determinado estudio, que poseen, al menos, una propiedad común Unidades elementales:
elementos individuales que conforman la población, estos elementos contienen las
características de interés y puede ser de naturaleza cualitativa o cuantitativa.
Muestra (n): subconjunto de mediciones de una población. La muestra se obtiene a través
de cualquier método de muestreo.
Censo: Cuando se analiza toda la población. Ocurre cuando la población es pequeña o se
quiere exactitud completa en los resultados.
Parámetro: es una magnitud o característica de los elementos de una población (finitas
contables o no contables). Este valor es único. Se emplean letras griegas y entre los
más importantes: promedio, varianza, desviación y proporciones.
Estadístico: es una magnitud o característica de los elementos de una muestra. Este
valor puede variar según la muestra seleccionada. Se emplean letras del alfabeto romano
y entre los más importantes: promedios, varianza, desviación típica y proporción.
Estimación: estimar o predecir el valor del parámetro a partir del análisis de la
muestra seleccionada.
Estimador: cuando un estadístico es usado para estimar o aproximar el valor del
parámetro. El estimador se obtiene a través de una ecuación, ejemplo: la media
aritmética.
5
Error de estimación: es la diferencia entre el estadístico y el parámetro.
1. Cuando nos gusta una persona que conocimos en alguna reunión o un salón de clases,
tratamos de investigar si le podemos resultar atractivos.
2. Cuando un amigo está enojado con nosotros, buscamos investigar las razones.
3. Cuando nos interesa un gran personaje histórico, investigamos cómo vivió y murió.
4. Cuando buscamos empleo, nos dedicamos a investigar quién ofrece trabajo y en qué
condiciones.
5. Cuando nos agrada una comida, nos interesa investigar los ingredientes.
6
Crítica. Quiere decir que se juzga constantemente de manera objetiva y se eliminan las
preferencias personales y los juicios de valor.
Formulación de la Hipótesis.
En general el término hipótesis se define como una respuesta probable de carácter tentativo
a un problema de investigación y que es factible de verificación empírica. La hipótesis
expresa la relación entre dos o más variables que son susceptibles de medición. Una hipótesis
planteada correctamente debe poderse verificar o contrastar contra la evidencia empírica.
Una hipótesis se estructura con tres elementos:
1. Unidades de Análisis. También conocidas como unidades de observación y representan el
objeto de estudio, son ejemplos, las personas, las empresas, los movimientos sociales,
los fenómenos naturales, etc. que se someten a investigación.
7
2. Las Variables. Son los atributos, características o propiedades que presentan las
unidades de análisis y que serán sometidas a medición.
3. Enlace Lógico. Son términos de relación o enlace entre las unidades de análisis y
las variables, por ejemplo, las expresiones: si el combustibles aumentas (Diesel y
gasolina) entonces aumenta el precio de la canasta básica, existe relación entre la
estatura y el peso de una persona, el gasto de un hogar depende de los ingresos, etc.
En resumen, en toda investigación científica se plantean hipótesis que deben ser validadas
o no a partir de los datos. Los contrastes de hipótesis estadísticas se presentan en el
último capítulo de este documento.
8
1. Información secreta. La información desagregada debe ser de manejo confidencial, no
es permitido por medio de la información censal identificar personas o viviendas
específicas.
2. Patrocinio oficial. Todo el trabajo que conlleve la ejecución del censo debe ser
auspiciado por el Estado, aunque la empresa ejecutora no sea gubernamental.
3. Territorio bien definido: El área o región comprendida por el censo debe estar claramente
definida. Puede excluir algunas zonas por razones de accesibilidad o seguridad, pero
debe señalarse explícitamente sus límites.
4. Universalidad. Debe incluir a todos los miembros de la población del territorio censal
sin omisiones ni repeticiones.
5. Otras. Se acostumbra consultar sobre otras características tales como: etnia, religión,
idiomas, impedimentos físicos, etc.
9
4. Permite por medio de métodos indirectos estimar la fecundidad y la mortalidad.
5. Permite analizar interrelaciones entre las características demográficas y socioeconómicas
de individuos y hogares.
2.3.2. El cuestionario.
Un instrumento de recolección de datos es, en principio, cualquier recurso de que pueda
valerse el investigador para acercarse a los fenómenos y extraer de ellos información.
Dentro de cada instrumento concreto pueden distinguirse dos aspectos diferentes: una forma
y un contenido. La forma del instrumento se refiere al tipo de aproximación que establecemos
con lo empírico, a las técnicas que utilizamos para esta tarea. En cuanto al contenido
éste queda expresado en la especificación de los datos concretos que necesitamos conseguir;
se realiza, por lo tanto, en una serie de ítems que no son otra cosa que los indicadores
bajo la forma de preguntas, de elementos a observar, etc. De este modo, el instrumento
sintetiza en sí toda la labor previa de investigación: resume los aportes del marco teórico
al seleccionar datos que corresponden a los indicadores y, por lo tanto, a las variables
o conceptos utilizados; pero también expresa todo lo que tiene de específicamente empírico
nuestro objeto de estudio.
Es mediante una adecuada construcción de los instrumentos de recolección que la investigación
puede manifestar entonces la necesaria correspondencia entre teoría y práctica; es más,
podríamos decir que es gracias a ellos que ambos términos pueden efectivamente vincularse.
Si en una investigación ellos son defectuosos se producirán, inevitablemente, alguna de las
dos dificultades siguientes: o bien los datos recogidos no servirán para satisfacer los
interrogantes iniciales planteados, o bien esos datos serán imposibles de obtener, vendrán
falseados o distorsionados, etc., porque el instrumento no se adecua al tipo de hecho en
estudio.
10
En el campo de la investigación, que se suele examinar las relaciones entre dos o más
variables al investigar un asunto o problema, se clasifican las variables como:
1. Variables Independientes. Son las características controladas por el investigador y
que se supone tendrán efectos sobre otras variables.
2. Variables Dependientes. Son las características o aspectos que se alteran por consecuencia
del control que ejerce el investigador sobre otras variables.
Estos dos últimos tipos de variables suelen darse más en estudios o investigaciones
experimentales, pero también podemos considerarlas en estudios descriptivos. Por ejemplo,
en un estudio experimental se investiga si un nuevo medicamento mejora las condiciones
del SIDA. Para tales efectos se seleccionaron 30 pacientes, de los cuáles 15 recibían el
nuevo medicamento (grupo experimental) y otros 15 continuaban con su tratamiento tradicional
(grupo control). El nuevo medicamento viene a ser la variable independiente porque es la
que los investigadores controlan y que luego examinarán sus efectos en la condición del
SIDA, la cual viene a ser la variable dependiente, porque es la condición que se va alterar
o quedar afectada por el nuevo medicamento.
DATOS: son los hechos que describen sucesos y entidades, en concreto es el valor que
toma la variable.
En la pista de una escuela secundaria hay ocho competidores para la carrera de 400 metros.
Para indicar el orden en que llegan a la meta dice que la media es de 4.5. ¿Qué revela este
promedio?
En ambos casos, no se empleó adecuadamente el nivel de medición.
Una escala es un esquema específico para asignar números o símbolos con el objeto de
designar características de una variable. Las escalas de medición comúnmente conocidas son:
nominales, ordinales, de intervalos y de razón.
1. Nominal. Se clasifican las personas, eventos u objetos en categorías.
Ejemplo 2.3
La clasificación de los seis colores de las botonetas de chocolate constituye un
ejemplo del nivel nominal de medición. Simplemente se clasifican las botonetas por
color. No existe un orden natural. Es decir, no presenta primero las lunetas cafés,
las anaranjadas o las de cualquier color.
Ejemplo 2.4 Suponga que hace un conteo de los estudiantes que entran a ver un partido
de fútbol con credencial e informa cuántos son hombres y cuántas mujeres, por lo que
El género representa otro ejemplo del nivel nominal de medición.
11
2. Ordinal. Se clasifican u ordenan las personas, objetos y eventos en determinada
posición.
Ejemplo 2.5 A continuación se presentan las calificaciones que los docentes le han
realizado a un formador de matemática después del desarrollo del módulo de Probabilidad.
Cada estudiante de la clase respondió la pregunta: “En términos generales, ¿cómo
calificas al profesor del curso?” . Una calificación es más alta o mejor, que la
siguiente: superior es mejor que bueno, bueno es mejor que promedio, etc. Sin embargo,
no es posible distinguir la magnitud de las diferencias entre los grupos. ¿La diferencia
entre superior y bueno es la misma que entre malo e inferior? No es posible afirmarlo.
Si sustituye 5 por superior y 4 por bueno, concluirá que la calificación superior es
mejor que la calificación bueno, pero si suma una calificación de superior y una de
bueno no espere que el resultado tenga significado.
Además, no debe concluir que la calificación de bueno (calificación de 4) sea necesariamente
dos veces más alta que malo (calificación de 2). Sólo tendrá claro que la calificación
bueno es mejor que la calificación malo, no en qué grado es mejor.
Calificación Frecuencia
Superior 6
Bueno 28
Promedio 25
Malo 12
Inferior 3
3. Intervalo1 . Incluye todas las características del nivel ordinal, pero, además, la
diferencia entre valores constituye una magnitud constante.
Ejemplo 2.6 Suponga que las temperaturas altas durante tres días consecutivos de
invierno en Chalatenango son de 28, 31 y 20 grados Fahrenheit. Estas temperaturas
se clasifican fácilmente, aunque, además, es posible determinar la diferencia entre
ellas, gracias a que un grado Fahrenheit representa una unidad de medición constante.
Diferencias iguales entre dos temperaturas son las mismas, sin importar su posición
en la escala. Es decir, la diferencia entre 10 y 15 grados Fahrenheit es de 5; la
diferencia entre 50 y 55 grados también es de 5. Es importante destacar que 0 es un
punto más en la escala. No representa la ausencia de estado. Cero grados Fahrenheit
no representa la ausencia de calor, sino sencillamente el hecho de que hace frío. De
hecho, 0 grados Fahrenheit equivale aproximadamente a 18 grados en la escala Celsius.
Ejemplo 2.7 Las tallas de ropa para dama. Observe que conforme la talla cambia 2
unidades (de la talla 10 a la 12, o de la talla 24 a la 26), cada medida aumenta 2
pulgadas. En otras palabras, los intervalos son los mismos.No existe un punto cero
natural que represente una talla. Una prenda talla cero no está hecha de cero material.
Más bien, se trata de una prenda con 24 pulgadas de busto, 16 pulgadas de cintura y
27 de cadera. Además, las razones no tienen significado alguno. Si divide una talla
28 entre una talla 14, no obtiene la misma respuesta que si divide una talla 20 entre
una 10. Ninguna razón es igual a dos, como sugeriría el número de talla. En resumen,
si las distancias entre los números tienen sentido, aunque las razones no, entonces
tiene una escala de intervalo de medición.
1
Las clasificaciones de datos se ordenan de acuerdo con el grado que posea de la característica en cuestión.
Diferencias iguales en la característica representan diferencias iguales en las mediciones
12
TALLA 8 10 12 14 16 18 20 22 24 26 28
BUSTO (inch) 32 34 36 38 40 42 44 46 48 50 52
CINTURA (inch) 24 26 28 30 32 34 36 38 40 42 44
CADERAS (inch) 35 37 39 41 43 45 47 49 51 53 55
Ejemplo 2.8 El dinero ilustra bien el caso. Si tiene cero dólares, entonces no tiene
dinero. El peso constituye otro ejemplo. Si el cuadrante de la escala de un dispositivo
correctamente calibrado se ubica en 0, entonces hay una ausencia total de peso. La razón
entre dos números también resulta significativa. Si José gana $4000 anuales vendiendo
seguros y Alejandro gana $8000 al año en el negocio de los automóviles,entonces Alejandro
gana el doble de lo que gana José
2.6. Ejercicios
Ejercicios 2.1 Responder.
Ejercicios 2.2 Recientemente, las tiendas Laureles y Cooper comenzaron a vender Digital,
un dispositivo mediante el cual se pueden descargar electrónicamente más de 1500 libros,
y leerlos en un pequeño monitor en vez de comprarlos. Asuma que usted tiene el número
de Digital vendidas cada día durante el último mes, en la tienda de Laureles y Cooper de
Metrocentro San Salvador. Describa una condición en la que esta información podría ser
considerada una muestra. Ejemplifique una segunda situación en la que los mismos datos
podrían ser considerados una población.
Ejercicios 2.3 La empresa de publicidad Roquez y asociados, con sede en Santa Tecla, solicitó
a una muestra de 1960 consumidores que probaran un platillo con pollo recién elaborado por
Pollolandia. De las 1960 personas de la muestra, 1176 dijeron que comprarían el alimento si
se comercializaba.
a) ¿Qué podría informar Roquez y asociados a Pollolandia respecto de la aceptación en la
población del platillo de pollo?
b) ¿Es un ejemplo de estadística descriptiva o estadística inferencial? Explique su
respuesta.
Ejercicios 2.4 En cierto estudio, se desea conocer las preferencias de los electores sobre
los candidatos en una elección presidencial, con el objeto de realizar predicciones sobre
el resultado de la elección. Elija cuál sería la mejor definición de la población de interés
en este caso:
13
2. Todos los salvadoreños inscritos en algún partido político.
Ejercicios 2.5 En cada una de las siguientes situaciones, identifique la muestra utilizada:
1. En un centro escolar se desea investigar el número de hermanos que posee cada alumno.
Para esto se pregunta cuántos hermanos tienen a un grupo de 20 niños del centro escolar.
Ejercicios 2.6 ¿Cuál es el nivel de medición de cada una de las siguientes variables?
5. Una clasificación de estudiantes que cursan primero, segundo, tercero o último grados.
Ejercicios 2.7 Alumnos de séptimo grado desean realizar una actividad para recaudar fondos
para la compra de varios juegos de mesa para donar a su centro escolar. Ellos deciden
realizar una encuesta y así recolectar información sobre la preferencia de juegos de mesa
de todos los niños y niñas del centro escolar. Los encuestados fueron un grupo de alumnos
sentados en la cafetería.
Ejercicios 2.8 Señalar, en cada caso, qué tipo de variable es, si es más conveniente estudiar
la población o una muestra.
14
Variable Tipo de Variable Población o Muestra
Ejercicios 2.9 Sus alumnos han mostrado interés por estudiar si hay diferencias entre los
hábitos de estudio de su grado, octavo A y el octavo B.
1. Qué variables cree usted que sería interesantes que ellos recolectaran?
3. Qué preguntas se podrían generar para recolectar información sobre las variables?
15
3. Unidad II: Estadística Descriptiva.
3.1. Tablas de Frecuencias.
Supongamos que hemos recogido un conjunto de n datos englobados en una variable X. La
tabla que recoge de modo sistemático estos datos se denomina distribución de frecuencias. La
Distribución de Frecuencias (Simples o agrupadas en intervalos). Comúnmente llamada tabla de
frecuencias, se utiliza para hacer la presentación de datos provenientes de las observaciones
realizadas en el estudio, estableciendo un orden mediante la división en clases y registro
de la cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la
realización de un mejor análisis e interpretación de las características que describen y
que no son evidentes en el conjunto de datos brutos o sin procesar.
x1 n1 N1 = n1 f1 = n1 /n F1 = N1 /n
x2 n2 N 2 = n1 + n2 f2 = n2 /n F2 = N2 /n
.
. .
. .. .. ..
. . . . .
Pk
xk nk Nk = i=1 ni fk = nk /n Fk = Nk /n
Totales
Pk Pk
i=1 ni =n i=1 fi =1
Solución:
Al tratarse de una variable discreta (un conteo siempre tomará valores enteros) y con
pocos valores diferentes, no parece necesario crear clases para agrupar los datos. En este
caso k = 5 (son cinco los valores distintos de X: 0, 1, 2, 3 y 4).
16
Distribución de frecuencias simple
Frecuencias Absolutas Frecuencias Relativas Frecuencias Porcentuales
N2 = 7 indica que hay 7 estudiantes que tienen hasta (o como máximo) 1 ausencia
Se debe considerar también que la agrupación de datos siempre conlleva un grado de pérdida
de información, pues ya no se cuenta con todos y cada uno de los valores de la variable
sino con los intervalos creados; no obstante, esta pérdida de información en general no es
significativa para el análisis global. En tal sentido, cuando en la muestra existen muchos
valores diferentes y mucha variabilidad se recomienda, aún a costa de perder información,
agrupar los datos en clases, en lo que se denomina distribución de frecuencias agrupada en
intervalos y los valores de la variable son tomados como las marcas de clases o puntos medios
de los intervalos. El número de clases en que se dividen los datos no debe ser excesivo, es
recomendable trabajar un mínimo de 6 a un máximo de 15 clases o intervalos.
17
Tabla 2. Distribución de frecuencias agrupadas en intervalos
Marca Frecuencias Absolutas Frecuencias Relativas
[L0 , L1 [ x1 n1 N1 = n1 f1 = n1 /n F1 = N1 /n
[L1 , L2 [ x2 n2 N2 = n1 + n2 f2 = n2 /n F2 = N2 /n
.. .
. .
. .. .. ..
. . . . . .
Pk
[Lk−1 , Lk [ xk nk Nk = i=1 ni fk = nk /n Fk = Nk /n
Totales
Pk Pk
i=1 ni =n i=1 fi =1
Cuando se trabaje con datos agrupados en clase vamos a recurrir al siguiente convenio:
intervalos abiertos en el límite superior y cerrados en el límite inferior, así: [Li−1 ; Li ),
que el valor que cierra una clase es el mismo que abre la siguiente.
Uno de los criterios más utilizados para construir las tablas de frecuencias agrupadas
es el siguiente:
3. Determinar la amplitud o ancho de estos intervalos (c), como el cociente del recorrido de
los datos entre la cantidad de clases que se decidió usar, aproximado convenientemente
y siempre por exceso: c ≈ R/k
4. Crear las clases, partiendo del valor mínimo observado (xmin ) o un valor inferior, y
sumando sucesivamente el ancho de clases (c) determinado.
6. Calcular las restantes frecuencias deseadas: relativas (fi ), absolutas acumuladas (Ni ),
relativas (fi ) y relativas acumuladas (Fi ).
7. Determinar las marcas de clases (Xi o punto medio de cada clase P mi ), valores que
representarán a sus respectivas clases.
Los siguientes valores corresponden al registro del consumo de gasolina de una flota de
50 taxis, en litros, un día dado: 46, 39, 34, 33, 32, 36, 41, 26, 32, 36, 43, 28, 30, 27,
32, 42, 30, 31, 34, 41, 28, 30, 26, 21, 37, 39, 25, 33, 47, 28, 26, 23, 30, 43, 40, 36, 21,
38, 31, 38, 29, 30, 48, 47, 23, 31, 24, 38, 35, 36.
18
¿Qué tipo de variable es ésta?
Construir una tabla de frecuencias en 6 clases.
Solución
[Li−1 ; Li ) Xi ni Ni fi Fi
[20, 25[ 22.5 5 5 0.10 0.10
[25,30[ 27.5 9 14 0.18 0.28
[30, 35[ 32.5 15 29 0.30 0.58
[35,40[ 37.5 11 40 0.22 0.80
[40, 45[ 42.5 6 46 0.12 0.92
[45,50[ 47.5 4 50 0.08 1
Totales n=50 1
19
Interpretación de las distintas frecuencias:
3.1.1. Ejercicios
Ejercicios 3.1 Karen realizó una encuesta para conocer las mascotas favoritas de sus
compañeros de curso. Ella construyó una tabla con los datos que recolectó, pero se le
rompió la hoja y perdió información. El trozo de hoja que Karen pudo rescatar fue:
Ejercicios 3.2 En una colonia populosa de un Municipio de San Salvador, donde cada vivienda
tiene únicamente dos habitaciones, se ha realizado un estudio en 34 hogares para conocer
el porcentaje de viviendas con hacinamiento (hacinamiento: tres o más individuos por
habitación). A continuación se presenta el número de individuos por vivienda: 2, 4, 4,
8, 6, 6, 7, 5, 7, 8, 9, 3, 2, 5, 8, 9, 9, 11, 10, 7, 7, 3, 5, 4, 8, 9, 11, 9, 8, 8, 5, 7,
3, 11.
20
Notas Frecuencias
Menor que 2 6
Menor que 4 14
Menor que 6 21
Menor que 8 31
Menor que 10 40
Construir una tabla de frecuencias.
¿Qué porcentaje de estudiantes aprobó el examen? (se aprueba con 6 ó más)
Ejercicios 3.5 Investigados los precios por habitación de 50 hoteles del país se ha obtenido
los siguientes resultados (en cientos de dólares):
7, 3, 5, 4, 5, 7, 4, 7.5, 8, 5, 5, 7.5, 3, 7, 10, 15, 5, 7.5, 12, 8, 4, 5, 3, 5, 10, 3, 4,
5, 7, 5, 3, 4, 7, 4, 7, 5, 4, 7, 10, 7.5, 7, 8, 7.5, 7, 7.5, 8, 7, 7, 12, 8.
a) ¿qué tipo de variable es?
b) Construya la distribución de frecuencias para esta variable.
Ejercicios 3.6 Realizada una encuesta en una región del país, se han agrupado los establecimientos
hoteleros por el número de cuartos, obteniéndose la siguiente distribución:
Cuartos Nº de hoteles Cuartos Nº de hoteles
[0,100[ 25 [400,500[ 21
[100,200[ 37 [500,600[ 13
[200,300[ 12 [600,700[ 5
[300,400[ 22 [700,800[ 3
Determine el número de establecimientos hoteleros con más de 300 cuartos.
Determine el porcentaje de establecimientos que tienen más de 100 cuartos y hasta 400.
¿Que tipo de variable es ésta?
¿Por qué, siendo ese el tipo de variable, la tabla de frecuencia es de esta forma?
Ejercicios 3.7 Las edades de los empleados de una determinada empresa son las que aparecen
en la siguiente tabla:
Edad Nº de empleados
Menos de 25 22
Menos de 35 70
Menos de 45 121
Menos de 55 157
Menos de 65 184
21
Sabiendo que el empleado más joven tiene 18 años, escríbase la distribución de frecuencias
para datos agrupados (amplitud del intervalo definida según su conveniencia).
Ejemplo 3.3 Para hacer un trabajo en casa sobre el medio ambiente, unos estudiantes
han recogido información sobre el tiempo de descomposición de varios tipos de basura
que la gente desecha:
Chicles 25 años
22
suele trazarse una línea que representa la suma de la frecuencia de cada clase y las
que la preceden, esto se usa para identificar la minoría de las características que
representan la mayoría de casos.
Ejemplo 3.4 En una investigación se ha observado que existe un aumento en las quejas
y reclamos recibidas en el último trimestre del año 2017.
Ejemplo 3.5 En la figura 3 se representa el número de árboles plantados cada mes durante
un año.
23
Figura 3: Pictograma
Ejemplo 3.6 Una empresa presenta las ganancias por ventas de vehículos el mes pasado
en la siguiente tabla.
Construiremos el gráfico con la observación que no hay espacio entre las barras. Ésta es
una característica del histograma, debida a que la variable marcada en el eje horizontal
es cuantitativa y pertenece a la escala de medición de intervalo. En una gráfica de
barras, la escala de medición es nominal y las barras verticales están separadas. Éstas
son diferencias importantes entre el histograma y la gráfica de barras.
24
$400, y en seguida de manera vertical al 8, la frecuencia de clase, donde se coloca
un punto. Los valores de X y de Y de este punto reciben el nombre de coordenadas. Las
coordenadas del siguiente punto son X=800 y Y=11. El proceso continúa con todas las
clases. Posteriormente, los puntos se conectan de manera ordenada. Es decir, que el
punto que representa la clase más baja se une al que representa la segunda clase y así
en lo sucesivo. Observe que en la gráfica, para completar el polígono de frecuencias,
se añaden los puntos medios de $0 y $3600 para anclar el polígono en la frecuencia
cero. Estos dos valores, $0 y $3600, se obtuvieron restando el intervalo de clase $400
al punto medio más bajo ($400) y sumando $400 al punto medio más alto ($3200) en la
distribución de frecuencias.
Es posible concluir lo siguiente:
3.2.1. Ejercicios
Ejercicios 3.8 Una empresa dedicada a la fabrocación de refrigeradores desea analizar cuales
son los defectos más frecuentes que aparecen en las unidades al salir de la línea de
producción. Para esto, empezó por clasificar todos los defectos posibles en sus diversos
tipos, un inspector revisa cada refrigerador a medida que sale de producción registrando
sus defectos de acuerdo con dichos tipos. Después de inspeccionar una muestra significativa
de ellos, se obtuvo los siguiente:
DEFECTO Rayas No funciona Mala Nivelación Motor no arranca No enfría Otros
FRECUENCIA 23 29 2 15 35 18
Ejercicios 3.9 Predictive.com realiza una prueba de mercado de su nuevo sitio web y le
interesa saber con qué facilidad se navega en su diseño de página web. Selecciona al azar
2000 usuarios frecuentes de internet y les pide que lleven a cabo una búsqueda en la página
25
web. A cada uno de ellos le solicita que califique la relativa facilidad para navegar como
mala, buena, excelente o sobresaliente. Los resultados aparecen en la siguiente tabla:
Sobresaliente 1020
Excelente 580
Buena 300
Mala 100
Ejercicios 3.10 Investigados los precios por habitación de 50 hoteles del país se ha obtenido
los siguientes resultados (en cientos de dólares):
7, 3, 5, 4, 5, 7, 4, 7.5, 8, 5, 5, 7.5, 3, 7, 10, 15, 5, 7.5, 12, 8, 4, 5, 3, 5, 10, 3, 4,
5, 7, 5, 3, 4, 7, 4, 7, 5, 4, 7, 10, 7.5, 7, 8, 7.5, 7, 7.5, 8, 7, 7, 12, 8.
Elabore un gráfico de barras.
Ejercicios 3.11 Realizada una encuesta en una región del país, se han agrupados los
establecimientos hoteleros por el número de cuartos, obteniéndose la siguiente distribución:
Cuartos Nº de hoteles Cuartos Nº de hoteles
[0,100[ 25 [400,500[ 21
[100,200[ 37 [500,600[ 13
[200,300[ 12 [600,700[ 5
[300,400[ 22 [700,800[ 3
Construir un histograma y un polígono de frecuencias.
Ejercicios 3.12 Las comisiones que obtuvieron los once miembros del personal de ventas de
una fábrica de calzado durante el primer trimestre del año 2017 son las siguientes:
$1650 ,$1475 ,$1510 ,$1670 ,$1595 ,$1760 ,$1540 ,$1495 ,$1590 ,$1625 ,$1510
1. ¿Cómo se denomina a valores de $1650 y $1475?
2. Designe las cantidades que van de $1400 a $1500 como la primera clase; a las que
oscilan entre $1500 a $1600, como la segunda clase y así en lo sucesivo, y organice
las comisiones trimestrales como distribución de frecuencias.
3. ¿Cómo se denominan los números de la columna derecha de la distribución de frecuencias
que elaboró?
4. Describa la distribución de las comisiones trimestrales sobre la base de la distribución
de frecuencias. ¿Cuál es la concentración más grande de comisiones ganadas? ¿Cuál es
la menor y cuál la mayor? ¿Cuál es la típica cantidad ganada?
26
3.3.1. La Media Aritmética.
La media aritmética es la medida de posición más utilizada (está muy influenciada por los
valores extremos de la variable). Viene definida como la suma de los datos dividido por el
número de ellos. Dependiendo de la naturaleza de los datos que pretendemos promediar, será
conveniente el uso de otro tipo de medidas, como son la media geométrica (Todos los datos
son positivos y hay mucha dispersión; ejemplo: porcentajes, tasas de crecimiento, razones,
números índices, interés anual, inflación, etc.) y la media armónica (resulta poco influida
por la existencia de determinados valores muy grandes que el conjunto de los otros, siendo
en cambio sensible a valores muy pequeños), cuyas fórmulas se presentan en los siguientes
apartados. Si a cada observación se le asigna un valor diferente, dado en forma de peso,
y a continuación se calcula la media, nos encontramos con una media ponderada. La moda de
un conjunto de valores es aquel valor que ocurre con más frecuencia. Si todos los valores
son distintos, no hay moda, por otra parte, un conjunto de datos puede tener más de una moda.
2. La media del producto de una constante por una variable, es igual a multiplicar a la
constante por la media de la variable.
3. La media de una variable más (o menos) una constante será igual a la media de la
variable, más (o menos) la constante.
Ejemplo 3.7 Un inversionista tiene 1,200 acciones de un precio inferior a $ 3,490 dólares
siendo su valor promedio de $ 2,905; además, 800 acciones cuyo valor unitario es superior a
$ 3,490 y su valor promedio de $ 4,275. Calcular el valor promedio de las 2,000 acciones.
Solución:
Observe que se tienen dos tipos de acciones, por lo tanto, debe calcularse una media
ponderada así:
P2
1200(2905) + 800(4275)
i=1 x̄i ni
x̄ = = = 3, 453.
n 2000
El promedio de las 2000 acciones es de 3,453.
27
Datos Agrupados en Clases
Al trabajar con datos tabulados debe tenerse en cuenta que cada valor de la variable
(Xi ) se repite una determinada cantidad de veces (ni ), y por tanto, la expresión matemática
derivada de la definición de la media debe modificarse, como se muestra, multiplicando cada
valor (o punto medio de clases) por su respectiva frecuencia. Así:
Pk
i=1 P mi ni
x̄ =
n
√
n
G = Mg = Y i1 ∗ Y i2 ∗ Y i3 ∗ Y i4 ∗ ... ∗ Y in
Ejemplo 3.8 Supongase que las utilidades obtenidas por una compañía constructora en cuatro
proyectos fueron de 3, 2, 4 y 9 %, respectivamente. ¿Cúal es la media geométrica de las
ganancias?.
Solución
La media aritmética es 4.5 %. Aunque el valor 9 % no es muy grande, hace que la media
aritmética se incline hacia valores elevados. La media geométrica no se ve tan afectada
por valores extremos.
Suele emplearse para promediar rendimientos, velocidades, tiempos. Le afectan mucho los
valores pequeños de la variable; por ello no debe emplearse en tal caso.
4
Todos los elementos del conjunto tienen que ser mayores que cero. Si algún elemento fuese cero (Xi = 0),
entonces la MG sería 0 aunque todos los demás valores estuviesen alejados del cero.
5
Si los datos están agrupados, para calcular las medidas anteriores utilizamos las marcas de clase, es decir
xi indicará el punto medio del intervalo. La relación existente entre la media, la media geométrica, y la media
armónica sería: H ≤ G ≤ X̄
28
Ejemplo 3.9 Se sabe que dos obreros A y B, se tardan 50 y 40 minutos respectivamente en
reparar un par de zapatos. ¿Cuál es el tiempo promedio requerido para reparar un par de
zapatos?
Solución.
2
Ma = 1 1 = 44.44min
50 + 40
El mayor uso de la media armónica es para calcular la velocidad promedio.
Solución
200
Ma = V m = 80 = 86.956Km/h
100 + 120
80
Datos Agrupados.
Una fórmula aproximada para la moda (Mo) cuando se tienen datos agrupados en clase, está
dada por:
ni+1
M o = Li−1 + Ci donde Ci : es el ancho de clase
ni+1 + ni−1
La fórmula anterior puede utilizarse cuando los intervalos de clases tienen la misma
amplitud. En caso que los intervalos no tengan la misma amplitud, es preciso conocer el
intervalo con mayor densidad de frecuencia, la cual viene dada por: di = C
ni
i
, y a continuación
se aplica la siguiente fórmula:
di+1
M o = Li−1 + Ci
di−1 + di+1
29
3.3.5. La Mediana, (Me).
La mediana de una distribución de frecuencia corresponde al valor, supuesto los datos
ordenados de menor a mayor, que deja a ambos lados el mismo número de observaciones. Cuando
calculamos la mediana en datos no agrupados, ordenamos las observaciones de menor a mayor
o viceversa. En su cálculo se presentan dos casos: Cuando el número de datos es impar: En
este caso la mediana coincide con el dato central. Cuando los datos son pares: La mediana
será el término medio de los dos valores centrales.
Para datos agrupados en clases la fórmula de la mediana se puede obtener utilizando el
figura 5.
Figura 5: Mediana
3.3.6. Ejercicios
Ejercicios 3.13 Se tiene los datos recopilados acerca de la variable X: número de ausencias
a clase que tienen los estudiantes de una determina sección.
Distribución de frecuencias simple
Frecuencias Absolutas Frecuencias Relativas
30
Calcular el promedio de inasistencias para los 20 estudiantes.
Ejercicios 3.15 Entre agosto y noviembre del 2017 ingresaron al hospital Rosales, 200
pacientes con el diagnostico “diabetes”. El médico director pidió los datos sobre días de
estancia en el hospital de esos pacientes y encontró, al analizarlos, una estancia de 7
días, para el que había estado menos y estancia de 37 días para el de mayor estancia. La
suma total de las estancias era de 2,400 días. Además, observó que la estancia más frecuente
era 8 días, y que el 50 % de los pacientes permanecieron en el hospital más de 10 días. Se
pregunta:
Ejercicios 3.16 Suponga que los salarios pagados por la compañía A son:
Ejercicios 3.17 Para un grupo de 40 personas la edad media es de 25 años. Para otro grupo de
50, se desconoce la edad promedio. Sin embargo se sabe que la media de las noventa personas
es 20. ¿Cuál es la media del grupo de 50?
Ejercicios 3.19 El incremento porcentual de ventas de los pasados 4 meses en Daysi fashion
fue de 4.91, 5.75, 8.12 y 21.60.
a) Determine la media geométrica del incremento porcentual.
b) Determine la media aritmética del incremento porcentual.
c) ¿La media aritmética es igual o mayor que la media geométrica?
31
Ejercicios 3.20 La recuperación en una inversión que realizó Petrosal durante cuatro meses
consecutivos fue de de 30 %,20 %,40 %,200 % respectivamente ¿Cuál es la media geométrica de
la recuperación de la inversión?
Ejercicios 3.21 Una muestra de mujeres solteras, residentes en La Unión, que reciben pagos
por seguros; reveló los siguientes subsidios mensuales: $852, $598, $580, $1374, $960, $878
y $1130.
Ejercicios 3.23 Las medias aritmética, geométrica y armónica de dos números enteros positivos
distintos son números enteros. Hallar el menor valor posible para la media aritmética.
Ejercicios 3.24 En una nueva zona de expansión de la ciudad, la constructora Roble está
construyendo casas, apartamentos de dos habitaciones y dúplex. El precio por metro cuadrado
de la cerámica del piso de las cocinas en las casas es de 42 dólares, en los apartamentos
con dos habitaciones es de 30 dólares y en los dúplex es de 24 dólares y el coste total
de los suelos de cocina en cada tipo de viviendas es de 35 994, 21 600 y 10 080 dólares
respectivamente.
Calcúlese el precio medio por metro cuadrado de cerámica del suelo de las cocinas en
toda la obra.
Ejercicios 3.25 Una empresa dedicada al transporte de viajeros cuenta con 100 vehículos para
largos recorridos.
El pasado año la distribución del número de kilómetros recorridos, en miles, por los vehículos
se recoge en la siguiente tabla.
32
Kilómetros Recorridos 100 120 160 230 250
Nº de vehículos 20 10 60 5 5
2. Hállese el número mínimo de kilómetros que tiene que recorrer un vehículo para estar
dentro del 50 por ciento de los que más kilómetros recorren.
Ejercicios 3.27 En una empresa con dos plantas, A y B, se producen diariamente 2,000 piezas
en A y 3,200 en B. Si la productividad media es de 20 por obrero en A y de 16 piezas por
obrero en B, determinar la productividad media para toda la empresa.
2. Calcúle la cantidad máxima de carne que se ha vendido el 42.5 por ciento de los días
que menos se ha vendido.
Ejercicios 3.29 El servicio municipal de agua de una ciudad está realizando un estudio con
objeto de una privatización. Entre otros datos se ha obtenido que el consumo de agua, en
metros cúbicos, de las 2000 familias de dicha ciudad durante el último trimestre del año es
el que se presenta en la siguiente gráfico 7:
2. Sabiendo que el precio promedio por metro cúbico de agua es de 50 ctvos de dólar y
que, cada trimestre se paga una cantidad fija de 2 dólares por alquiler del contador
y 6 dólares en concepto de aguas negras, ¿Cuál ha sido el importe medio por familia
abonado dicho trimestre?
33
Figura 7: Comsumo de agua y número de familias
Pruebas 1 2 3 4 5 6 7
34
3.4. Medidas de Posición: Cuartiles, Quintiles, Deciles y Percentiles.
Cuartiles. Dada una serie de valores X1 , X2 , X3 , ..., Xn ordenados en forma creciente, los
cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes
porcentualmente iguales. Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo
cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo
del cual queda un cuarto (25 %) de todos los valores de la sucesión (ordenada); el tercer
cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75 %)
de los datos.
Quintiles.
La posición del i-ésimo quintil es i*n/5. El primer quintil. Separa a la muestra dejando al
20 % de los datos a su izquierda. El segundo quintil. Es el valor que indica que el 40 % de
los datos son menores. El tercer quintil. Indica que el 60 % de los datos son menores que
él. El cuarto quintil. Separa al 80 % de los datos inferiores del otro 20 %.
Deciles.
Son 9 valores que distribuyen en diez tramos iguales, la serie de datos, ordenada de forma
creciente o decreciente, en los que cada uno de ellos concentra el 10 % de los resultados.
Su fórmula aproximada para la posición del decil i-ésimo es i*n/10, donde la i toma valores
del 1 al 9.
De forma análogo se definen los Percentiles, teniendo presente que ahora la serie de
datos se divide en 100 partes iguales. La posición del i-ésimo percentil es i*n/100, donde
la i toma valores del 1 al 99. El i % de la muestra son valores menores que él y el (100-i) %
restante son mayores.
Ejemplo 3.11 Las notas finales del Módulo de Teoría del Número son las siguientes: 6.7, 8.2,
8.9, 7.9, 8.1, 7.6, 8.5, 7.3, 8.6, 8.8, 8.8, 7.7, 8.2, 7.7, 7.1, 9.0, 8.5, 9.3, 8.8, 8.1,
8.4, 6.9, 9.2, 8.2, 8.6, 7.0. ¿Cálcule el percentil 90?
Solución.
4. Conclusión: Sólo hay 3 profesores (alumnos) que tienen notas arriba del percentil 90,
que equivale al 10 % de los estudiantes.
35
Cálculo de cuantiles para datos agrupados en clases. El cálculo es similar al de la
mediana, hay que empezar calculando el intervalo cuya frecuencia acumulada sea igual o mayor
que el valor jn/k, y a continuación aplicar la siguiente fórmula:
jn/k − Ni−1
Qj,k = Li−1 + Ci
ni
donde k = 4 (j = 1, 2, 3) para los cuartiles, k = 10 (j = 1, 2, . . . , 9) para los deciles,
k=100 (j= 1, 2, . . . , 99) para los percentiles.
Ejemplo 3.12 El ejemplo 1.3 se refiere al registro de consumo de gasolina de una flota de
50 taxis y se obtuvo la siguiente tabla de frecuencias:
[Li−1 ; Li ) Xi ni Ni fi Fi
20 -< 25 22.5 5 5 0.10 0.10
25 -< 30 27.5 9 14 0.18 0.28
30 -< 35 32.5 15 29 0.30 0.58
35 -< 40 37.5 11 40 0.22 0.80
40 -< 45 42.5 6 46 0.12 0.92
45 -< 50 47.5 4 50 0.08 1
Totales n=50 1
¿Calcular el decil 7?
Solución
2) Buscar la primera frecuencia acumulada mayor o igual que 35 (Posición del Decil 7),
ésta se encuentra en la clase 35− < 40 (Clase del Decil 7), cuya frecuencia acumulada es
40.
7(50)/10 − Ni−1 35 − 29
D7 = Li−1 + Ci = 35 + 5 = 37.73
ni 11
Recordar que para datos agrupados se tienen aproximaciones de las medidas de posición.
Se interpreta que sólo el 30 % de los taxis consumen más de 37 litros de gasolina.
3.4.1. Ejercicios
Ejercicios 3.37 Utilizando observaciones recolectadas en todas sus sucursales, un banco
determinó que el primer cuartil de tiempos de espera de sus clientes en la fila es de 3
minutos, y el tercer cuartil es de 8 minutos. Para cada una de las siguientes aseveraciones,
indique si son siempre verdaderas. En caso de no serlo, justifique.
36
1. Aproximadamente, la mitad de las personas debe esperar entre 3 y 8 min.
(3 + 8)
2. La mediana es = 5.5 min.
2
3. Aproximadamente, el 25 % de las personas debe esperar, al menos, 8 min.
Ejercicios 3.38 Para cada una de las siguientes aseveraciones, indique si es verdadera o
falsa. En caso de ser falsa, indique por qué.
El decil 5 y 8.
El percentil 42.
Desviación absoluta media. Se define como la media aritmética de los valores absolutos
de las diferencias de los datos a la media, es decir:
n
1X
Dx̄ A = |xi − x̄| ni
n i=1
37
La media aritmética es más representativa de los datos cuanto menor sea Dx̄ .
Desviación mediana. Se define como la media aritmética de los valores absolutos de las
desviaciones de la variable respecto a la mediana, es decir:
n
1X
DM e = |xi − M e| ni
n i=1
La mediana es más representativa de los datos cuanto menor sea DM e .
Varianza, desviación típica y coeficiente de variación
Una varianza grande es indicativa de que la media no es representativa, mientras que una
varianza pequeña indica que la media es un buen representante de los datos. Con el objeto de
tener una medida de dispersión similar a la varianza, pero que venga medida en las mismas
unidades de la variable, es recomendable utilizar la desviación típica.
Si a los datos de la distribución le sumamos una cantidad constante la varianza no
se modifica y si multiplicamos por una constante, la varianza queda multiplicada por el
cuadrado de esa constante.
3.5.1. Ejercicios
Ejercicios 3.40 Los gastos mensuales en pan de una familia en los últimos cinco meses han
sido: 15,20,25 y 30 dólares.
2. Si el precio del pan sube un 10 % y la familia sigue consumiendo igual, ¿cuál será la
media y la desviación típica de los gastos actuales?
Ejercicios 3.41 Un fumador, alarmado por los efectos negativos que el tabaco tiene para la
salud, ha decidido dejar de fumar en un plazo de cuatro semanas por el método de fumar cada
día la mitad de lo que ha fumado el mismo día de la semana anterior. Ha hecho hecho una
estadística durante una semana anotando los cigarros fumados cada día; el resultado aparece
en la tabla siguiente:
38
Lunes Martes Miércoles Jueves Viernes Sábado Domingo
12 12 16 16 24 24 8
1. Calcula la media y la desviación típica del número de cigarros que fuma diariamente.
Ejercicios 3.42 Dos comerciantes dedicados a la venta de frijol registran una venta en
libras, durante 9 semanas:
Comerciante A: 47, 45, 46, 49, 48, 46, 47, 48, 47
Comerciante B: 44, 47, 50, 57, 37, 44, 47, 50, 47
Al observar los datos, ¿podrías determinar cuántas libras de frijol debe tener listo de
promedio diariamente cada vendedor? De los vendedores ¿cuál presenta ventas más homogéneas?
Ejercicios 3.45 Diez supervisores revisaron un producto que se pretende sacar al mercado en
una escala de 1 a 50. Sus calificaciones fueron: 34, 35, 41, 28, 26, 29, 32, 36, 38, 40. a)
¿Cuál es el valor de la amplitud de las calificaciones?
b) ¿Cuál es el valor de la media aritmética?
c) Calcule la desviación típica, varianza, coeficiente de variabilidad e interprete el
resultado
d) Un segundo grupo supervisores revisó el mismo producto. La amplitud fue 9, la media
43.5 y la desviación típica 3. Compara estas calificaciones con las del primer grupo ¿Qué
concluyes?
Ejercicios 3.47 En un estudio hecho a cuatro equipos de baloncesto se han obtenido las
siguientes medias y desviaciones típicas de las alturas de sus jugadores medidas en
centímetros:
39
Equipo A B C D
Ejercicios 3.48 El salario promedio anual en una ciudad es de 8,000 dólares con una varianza
de 1,000 dólares ¿Cuáles serán la nueva media y la nueva varianza si se efectúan los
siguientes cambios:
Ejercicios 3.49 En un examen 20 alumnos del curso A obtienen una media de 60 puntos y
desviación estándar de 20 puntos. En el curso B los alumnos obtienen una media de 80 y
desviación estándar de 16. Ante un reclamo se decide subir un 5 por ciento más 5 puntos
adicionales a todos los alumnos del curso A, en cambio como hubo muchas copias en el curso B
se decidió disminuir la quinta parte de la calificación. Después de los mencionados ajustes
¿Cuál es el puntaje medio de los 50 alumnos?
40
Ejercicios 3.50 Una empresa dedicada al cultivo y explotación de naranjos posee 5 fincas.
La producción de naranjas y el rendimiento medio por hectárea para cada una de las fincas
están dados en la siguiente tabla. Calcular el rendimiento medio por hectárea para el total
de las 5 fincas.
Fincas 1 2 3 4 5
Producción (Tn) 15 5 20 8 30
Rendimiento (Tn/He) 9 2 10 4 20
41
4. Unidad III: Inferencia Estadística.
La Inferencia Estadística es la parte de la Estadística encargada de estudiar métodos para
la obtención de conclusiones generales en la población o poblaciones objeto de investigación,
a partir de la información que proporciona una muestra.
La inferencia estadística se divide en: estimación de parámetros y prueba de hipótesis.
Existen dos tipos de estimaciones para parámetros; puntuales y por intervalo.
42
1. La distribución de X̄ será normal (es combinación lineal de variables normales)
Obviamente se tiene que estandarizar la media muestral para trabajar con la N (0, 1), esto
es:
X̄ − µ
Z= √
σ/ n
Observe que el teorema del límite central permite tomar muestras a partir de poblaciones
con distribución no normal y garantizar que se obtengan aproximadamente los mismos resultados
que si la población tuviera una distribución normal, siempre que se tome una muestra muy
grande.
X̄ − µ
T = √ ∼ tn−1
S/ n
En resumen, si la varianza es desconocida para la estandarización de la media muestral
se utiliza la distribución t-Student. Este resultado se utilizará mucho en el desarrollo de
intervalos de confianza y contraste de hipótesis.
43
Ejemplo 4.1 Suponga que en una población grande de seres humanos, la dimensión del diámetro
craneal sigue una distribución aproximadamente normal, con una media de 185.6 mm y una
desviación estándar de 12.7 mm. ¿Cuál es la probabilidad de que una muestra aleatoria de
tamaño 10 de esta población tenga una media mayor que 190?
Solución.
190−185.6
P (X̄ > 190) = P Z > √
12.7/ 10
= P (Z > 1.1) = 0.1357
Por lo tanto, se puede decir que la probabilidad de que la muestra de tamaño 10 tenga una
media mayor que 190 es 0.1357.
Ahora, por el Teorema del Límite central si las muestras son grandes (n1 , n2 > 30) se
tiene que:
σ2 σ22
X̄ − Ȳ ∼ N µ1 − µ2 , n11 + n2
Ahora, supongamos que las varianzas son desconocidas pero iguales σ12 = σ22 = σ 2 y se
tienen las cuasi-varianzas muestrales S12 y S22 , pero como las varianzas poblacionales son
iguales se requiere tener un único estimador, para ello, definamos el siguiente estimador
de la varianza común:
(n1 −1)S12 +(n2 −1)S22
Sp2 = n1 +n2 −2
(n +n −2)S 2
Se puede demostrar que 1 σ22 p
tiene una distribución Chi-cuadrado con n1 + n2 − 2
grados de libertad. Así la variable aleatoria T definida por:
(X̄−Ȳ )−(µ1 −µ2 )
q
σ2 σ2
1 2
n1 + n2
T = q 2
∼ tn1 +n2 −2
Sp
σ2
44
Ahora, sustituyendo σ12 y σ22 por σ 2 , este último se sustituye por su estimador Sp2 y
simplificando en la expresión anterior, se tiene:
(X̄−Ȳ )−(µ1 −µ2 )
T = q ∼ tn1 +n2 −2
1
Sp n1
+ n1
2
4.2.4. Ejercicios
Ejercicios 4.1 Los pesos de sandías maduras producidas en una granja están normalmente
distribuidos con una desviación estándar de 2.8 libras. Encuentre el peso medio de las
sandías maduras si sólo 4 % pesan menos de 15 libras.
Ejercicios 4.2 Según los resultados de un examen en 2017, encontraron que los estudiantes
tenían una calificación media de lectura de 21.3, con una desviación estándar de 6.0.
Suponiendo que las calificaciones están normalmente distribuidas:
a. Encuentre la probabilidad de que un estudiante seleccionado al azar tenga una calificación
de lectura menor a 20.
b. Encuentre la probabilidad de que un estudiante seleccionado al azar tenga una calificación
entre 18 y 24.
c. ¿Cuál debe ser la nota mínima para aceptar al 40 % de los estudiantes?
Ejercicios 4.3 Una distribución normal tiene una media de 80 y una desviación estándar de
14. Determine la probabilidad por encima del cual se presentará 80 % de las observaciones.
Ejercicios 4.4 Se sabe que los tiempos “en espera”, para quien hace llamadas a una empresa
local de televisión por cable, están normalmente distribuidos con una desviación estándar
de 1.3 minutos. Encuentre el tiempo promedio “en espera” de quien llama, si la compañía
afirma que no más de 11 % de quienes llaman esperan más de 6 minutos.
Ejercicios 4.6 Si las concentraciones de ácido úrico en hombres adultos normales siguen
una distribución aproximadamente normal, con una media y desviación estándar de 5.7 y 1
mg por ciento, respectivamente, encuentre la probabilidad de que una muestra de tamaño 9
proporcione una media:
1. Mayor que 6
2. Entre 5 y 6
3. Menor que 5.2
Ejercicios 4.7 Para cierto sector amplio de la población en un año determinado, suponga que
el número medio de días de incapacidad es de 5.4, con una desviación estándar de 2.8 días.
Encuentre la probabilidad de que una muestra aleatoria de tamaño 49 de esa población tenga
una media:
45
1. Mayor a 6 días
2. Entre 4 y 6 días
3. Entre 4.5 y 5.5 días.
Ejercicios 4.8 El tiempo que tarda una persona resolviendo el examen de admisión a la UES
tiene una distribución normal con media 3 horas. Se sabe que la probabilidad de que una
muestra de 20 estudiantes tarden en promedio más de 3 horas con 15 minutos es del 5 %.
Determinar la desviación estándar de la duración del examen.
Ejercicios 4.9 Suponga que se tienen dos poblaciones de individuos. Una de ellas (la
población 1) ha experimentado alguna enfermedad que se considera está asociada con retraso
mental, y la otra (la población 2) no ha experimentado tal enfermedad. Se cree que la
distribución de calificaciones de inteligencia de cada una de las poblaciones presenta una
distribución aproximadamente normal con una desviación estándar de 20. Suponga, también,
que se toma una muestra de 15 individuos de cada población y se calcula en cada muestra
la media de las calificaciones de inteligencia, con los siguientes resultados: x̄1 = 92 y
x̄2 = 115. Si no hay diferencia entre las dos poblaciones con respecto a la media real de las
calificaciones de inteligencia ¿cuál es la probabilidad de que la diferencia de las medias
sea mayor de 15 puntos?
Ejercicios 4.10 Suponga que se estableció que para cierto tipo de pacientes el tiempo
promedio de visita domiciliaria hecha por una enfermera es de 45 minutos con una desviación
estándar de 15 minutos, y para un segundo tipo de paciente, el promedio de visita domiciliaria
es de 30 minutos con una desviación estándar de 20 minutos. Si la enfermera visita al azar
a 32 pacientes del primer tipo y 40 del segundo tipo, ¿cuál es la probabilidad de que el
tiempo promedio de visita domiciliaria difiera entre los dos grupos por 20 minutos o más?
46
X̄ ∼ N µ, √σn
47
Ejemplo 4.2 Una institución gubernamental realizó una encuesta para estimar el gasto promedio
que los fumadores invierten en cigarrillos durante una semana. Un muestra de 49 fumadores
reveló que el gasto promedio es de $20.00 con una desviación de $ 5.00.
x̄ ± Zα/2 √sn
71 49 78 58 82 53 75 73 58 74
57 70 76 62 71 54 62 86 58 86
50 73 64 68 56 45 72 65 87 56
Ejemplo 4.4 En un estudio para comparar los pesos promedio de niños y niñas de sexto grado
en una escuela primaria se seleccionó una muestra aleatoria de 20 niños y otra de 25 niñas.
Se sabe que tanto para niños como para niñas los pesos siguen una distribución normal. El
promedio de los pesos de todos los niños de sexto grado de esa escuela es de 90 libras y su
desviación estándar es de 8 libras, mientras que el promedio de los pesos de todas las niñas
del sexto grado de esa escuela es de 80 libras y su desviación estándar es de 6 libras.
Encuentre el intervalo de confianza de la diferencia de los pesos promedio de los niños
y niñas con un nivel de confianza del 99 %
48
4.3.5. Estimación por Intervalo para Proporciones.
Si el estadístico es la proporción de éxitos en una muestra de tamaño n ≥ 30 extraída de
una población binomial en la que P es la proporción de éxito (es decir, la probabilidad de
éxito), los límites de confianza para P vienen dados por p̂ ± zα/2 σp donde p̂ es la proporción
de éxitos en la muestra de tamaño n. El intervalo de confianza del (1 − α)100 % para estimar
una proporción P , se expresa como:
p̂ − zα/2 σp < P < p̂ + zα/2 σp
Donde σp es el error estándar de la proporción, el cual mide la variabilidad en la
distribución de muestreo de la proporción muestral se representa como:
q
p̂q̂
σp = n
Ejemplo 4.5 Un partido político pretende conocer la intención de voto de cara a las próximas
elecciones. Para ello encarga un sondeo sobre un total de 230 personas, de las que 69
contestan que votarán.
1. Hallar un intervalo de confianza del 90 % para la verdadera proporción población.
2. Encuentre un intervalo de confianza del 99 % para la proporción poblacional.
Ejemplo 4.6 Una muestra aleatoria de 400 adultos y 600 adolescentes que ven un cierto
programa de televisión. 100 adultos y 300 adolescentes dijeron que les gustaba. Hallar los
límites de confianza del 95 % y del 99 % para la diferencia de proporciones de todos los
adultos y adolescentes que ven el programa y les gusta.
49
4.3.8. Intervalos de Confianza para Diferencia de Medias Poblacionales (n < 30).
Los intervalos de confianza para la diferencia de medias poblacionales en muestras
pequeñas normalmente distribuidas, utilizan la distribución t- student y se calculan
aplicando la expresión siguiente:
2
2 S2
r Sx
nx
+ nyy
s2x s2y
(x̄ − ȳ) ± t(α/2;gl) nx + ny donde: gl = 2
2 S 2 2
Sx y
nx ny
nx −1
+ ny −1
Ejemplo 4.8 Una muestra de tamaño 10 de una población de mujeres presenta una altura media
de 156 cm y una muestra de 12 hombres de otra población presenta una altura media de 160 cm.
Sabiendo que ambas poblaciones son normales con desviaciones de 5 cm y 7 cm respectivamente.
Ejemplo 4.9 La oficina gubernamental de salud desea realizar una campaña a fin de disminuir
el porcentaje de funcionarios públicos que tienen el hábito de fumar en horas de trabajo,
para ello decide realizar una investigación por muestreo a 28 funcionarios, encontrando que
16 de ellos fuman.
4.3.10. Ejercicios
Ejercicios 4.11 La Universidad de Monseñor Romero está llevando a cabo un estudio sobre el
peso promedio de los adoquines que conforman los andadores del campus. Se envía a algunos
trabajadores a desenterrar y pesar una muestra de 421 adoquines, y el peso promedio de la
muestra resulta ser 14.2 libras. Todo mundo sabe que la desviación estándar del peso de un
adoquín es 0.8 libras. ¿Cuál es el intervalo alrededor de la media de la muestra que incluirá
la población de la media 95.5 % de las veces?
Ejercicios 4.12 La encargada de el área de salud para estudiantes de una clínica está
interesada en conocer la estatura promedio de los estudiantes del último año, pero no tiene
suficiente tiempo para examinar los registros de los 430 estudiantes. Por ello, selecciona
48 al azar y encuentra que la media de la muestra es 64.5 pulgadas y la desviación estándar
es 2.3 pulgadas.
Construya un intervalo de confianza del 90 % para la media.
50
Ejercicios 4.13 El encargado de control de calidad de LLantas .El pinchazo", desea estimar
la cantidad media que gastan los clientes que visitan el local de ventas. Una muestra de 20
clientes revela las siguientes cantidades (en dólares).
49.20 43.35 45.79 56 67.90 42.13 37.89 38.99 47.76 37.00
45.67 47.00 42.34 35.70 38.96 35.99 50.00 47.78 38.65 41.63
Ejercicios 4.14 El oso blanco Hornea y vende pan en 50 lugares de todo el país. Esta
es una nueva empresa y la gerente de ventas quiere conocer porque mucho se ausentan sus
trabajadores. La siguiente información se refiere al número de días de ausencias de una
muestra de 10 trabajadores durante las últimas dos semanas.
3 0 1 2 2 1 2 2 1 4
¿Es razonable concluir que la trabajadora común no falta ningún día durante un periodo
de pago?
Ejercicios 4.15 La siguiente tabla presenta los resultados de dos muestras aleatorias para
comparar el contenido de alcohol de dos marcas de cervezas.
Marca A Marca B
Muestra 35 40
Media 2.7 3.1
Desviación tpíca muestal 0.7 0.5
Suponiendo que los conjuntos de datos provienen de muestras tomadas al azar de poblaciones
normales, construya un intervalo de confianza del 99 % para la diferencia real de grado de
alcohol de las dos marcas de cervezas.
Ejercicios 4.16 Luis Pacheco observó una diferencia en el total en dólares de las ventas
entre los hombres y las mujeres que emplea como vendedores. Una muestra de 40 semanas reveló
que los hombres venden una media de $1400 por concepto de venta de celulares por semana. En
una muestra de 50 semanas, las mujeres vendieron una media de $1500 por concepto de venta
de celulares por semana. Suponga que la desviación estándar de los hombres es de $200 y la
de las mujeres de $250. Calcule un intervalo de confianza con el 95 % para la diferencia de
promedios entre hombres y mujeres.
51
b) ¿ Con qué nivel de confianza podrá decirse que la media de las 200 calificaciones es
75 ± 1 ?
Ejercicios 4.19 La siguiente tabla presenta los resultados de dos muestras aleatorias para
comparar el contenido de alcohol de dos marcas de cervezas.
Marca A Marca B
Muestra 8 10
Media 2.7 3.1
Desviación tpíca muestal 0.7 0.5
Suponiendo que los conjuntos de datos provienen de muestras tomadas al azar de poblaciones
normales, construya un intervalo de confianza del 99 % para la diferencia real de grado de
alcohol de las dos marcas de cervezas.
Ejercicios 4.20 En dos ciudades se lleva a cabo una encuesta sobre el costo de la vida
para obtener el gasto semanal promedio en alimentación en familias constituidas por cuatro
personas. De cada ciudad se seleccionaron aleatoriamente una muestra de 20 familias y se
observaron que en la primera ciudad se obtuvo una media de $135 y una desviación tÃpica de
$15 y en la segunda ciudad se obtuvo una media de $122 y una desviación tÃpica de $10.
Se consideran que los datos referidos a cada población son independientes y con distribución
normal.
Ejercicios 4.21 María considera postularse para la alcaldía de la ciudad de Santa Ana. Antes
de solicitar la postulación, decide realizar una encuesta entre los electores del municipio.
Una muestra de 400 electores revela que 300 la apoyarían en las elecciones de noviembre.
Construya el intervalo de confianza de 99 % de la proporción poblacional.Interprete sus
resultados.
52
Ejercicios 4.23 En cierto instituto de enseñanza secundaria hay matriculados 800 alumnos. A
una muestra seleccionada aleatoriamente de un 15 % de ellos, se les preguntó si utilizaban
la cafeteríaa del instituto. Contestaron negativamente un total de 24 alumnos. Halla el
intervalo de confianza del 99 % para estimar la proporción de alumnos que utilizan la
cafeteríaa del instituto.
Ejercicios 4.24 Se tiene que reparar una máquina en cierta fábrica si produce más del 10 %
de artículos defectuosos del gran lote de producción de un día. Una muestra aleatoria de 100
artículos de la producción contiene 15 defectuosos y el supervisor decide que debe repararse
la máquina. ¿ La evidencia de la muestra apoya la decisión del supervisor? Utilice un nivel
de significancia del 1 %.
Ejercicios 4.25 Una agencia de empleos, critica el hecho de que el 30 % de las personas que
son colocadas no pasan la prueba de trabajo en los tres meses. Se quieren comprobar esta
crítica y del archivo de colocación de empleados, selecciona una muestra de 25 empleados y
se encuentra que 7 no pasaron la prueba. ¿ Se puede justificar esta crítica?
Ejercicios 4.27 En dos empresas de investigación de mercado se lleva a cabo un estudio sobre
la proporción de mujeres entre sus empleados técnicos y licenciados. De cada empresa se toma
un m.a.s.6 de 40 empleados entre los técnicos y licenciados, obteniéndose que en la empresa
InterMer había 16 mujeres y en la empresa Mercasur, 22 mujeres. Obtener el intervalo de
confianza para la diferencia de proporciones poblacionales al nivel de confianza del 95 %
¿Podemos pensar que la proporción es la misma?
Ejercicios 4.28 A una muestra nacional de socialistas y nacionalistas se les preguntó, como
parte de una encuesta muy amplia, si estaban en favor de crear una ley ambiental. Los
resultados fueron:
Socialistas Nacionalistas
Número en la muestra 800 1000
Número en favor 168 200
Determinar el intervalo de confianza del 95 %, ¿puede concluir que hay una diferencia de
proporción a favor de la ley entre socialistas y nacionalistas?
53
Hipótesis nula (H0 ) : Es una afirmación respecto del valor de un parámetro de la
población.
Hipótesis alternativa(H1 ): Es una afirmación que se acepta si los datos de la muestra
proporcionan evidecia suficiente de que la hipótesis nula es falsa.
TIPOS DE ERROR.
En la prueba de hipótesis existen dos tipos de error:
Error tipo I(α): Es la probabilidad de rechazar la hipótesis nula, cuando esta es
verdadera.
Error tipo II (β): Es la probabilidad de aceptar la hipótesis nula, cuando esta es
falsa.
En el cuadro siguiente se observan las consecuencias al tomar decisiones con respecto a
pruebas de hipótesis.
54
Paso 6 : Toma de decisiones.
La decisión de aceptar o rechazar la hipótesis nula se basa en el estadístico de prueba
calculado a partir de los datos de la muestra.
Si el valor calculado del estadístico se localiza en la región de rechazo, se rechaza la
hipótesis nula y se acepta la hipótesis alternativa. Pero si el valor del estadístico
no se encuentra en la región de rechazo, entonces, se acepta la hipótesis nula y, es
decir no se tiene suficiente evidencia para rechazar la hipótesis nula.
Cualquier decisión que se toma está sujeta a cierto margen de incertidumbre ya que la
inferencia se realiza a partir de una muestra.
Procedimiento:
1. Formulación de la hipótesis.
H0 : µ = µ0 (µ0 es la constante hipotética para la media poblacional)
H1 : Puede tomar una de las hipótesis alternativas siguientes:
55
5. Tomar la decisión correspondiente basada en el estadístico de prueba y la región
crítica.
Ejemplo 4.10 Una distribuidora de gas ofrece a sus clientes el servicio en un máximo de
espera de 48 horas. Se toma una muestra de seis hogares que hicieron pedidos y se encontró
lo siguiente: 24,20, 60, 72, 40, 30 horas de espera.¿Se puede creer lo ofrecido por la
distribuidora?
Cuando el interés del investigador sea probar que una parte o proporción de la muestra
tenga un valor especifico.
Procedimiento:
1. Formulación de la hipótesis
H0 : P = P0 (P0 es la constante hipotética para la media poblacional)
H1 : Puede tomar una de las hipótesis alternativas siguientes:
t= rp̂−P0
p̂(1−p̂)
n
56
Ejemplo 4.11 El Gerente de una corporación de ahorros argumenta que menos del 30 % de los
clientes poseen un saldo superior a los $50,000. Desea confirmar tal apreciación, mediante
una muestra aleatoria a 20 clientes elegidos al azar, de los cuales 8 tienen saldo superior
a los $50,000. Con un nivel de confianza del 5 % ¿se podrá decir que menos del 30 % de
ahorradores tienen saldos superiores a la afirmación hecha por el gerente?
4.4.4. Ejercicios
Ejercicios 4.29 Un partido político tomó en su día la decisión de formar coalición con otro
tras un referendum en el que un 60 % de los afiliados manifestaron su postura lo hicieron
favorablemente. Al cabo de un tiempo se desea saber si la postura global ha variado y se
pregunta por lo que ocurriría en la actualidad de plantear de nuevo el citado referendum.
Una encuesta a 200 afiliados arrojó el siguiente resultado: 45 se abstuvieron de manifestar
su opinión y, del resto, 80 seguirían siendo partidarios de la coalición. ¿Se podrá afirmar
que el apoyo a tal decisión se mantiene en el mismo porcentaje?
Ejercicios 4.30 El fabricante de neumáticos radiales con cinturón de acero “X-15” para
camiones señala que el millaje medio que cada uno recorre antes de que se desgasten las
cuerdas es de 60 000 millas. La desviación estándar del millaje es de 5,000 millas. Una
empresa compró 48 neumáticos y comprobó que el millaje medio para sus camiones es de 59,500
millas. ¿La experiencia de la empresa es diferente de lo que afirma el fabricante en el
nivel de significancia de 0.05?
Ejercicios 4.31 Una cadena de restaurantes afirma que el tiempo de espera de los clientes
es de 8 minutos con una desviación estándar poblacional de 1 minuto. El departamento de
control de calidad encontró en una muestra de 50 clientes en de un restaurante que el tiempo
medio de espera era de 2.75 minutos. Con el nivel de significancia de 0.05, ¿puede concluir
que el tiempo medio de espera no es de 3 minutos?
Ejercicios 4.32 En el momento en que fue contratado como mesero en un restaurante, a Sancho
le dijeron: “Puedes ganar en promedio más de $80 al día en propinas.” Suponga que σ = $3.24.
Los primeros 35 días de trabajar en el restaurante, la suma media de sus propinas fue de
$84.85. Con el nivel de significancia de 0.01, ¿Sancho puede concluir que gana un promedio
diferente de $80 en propinas?
Ejercicios 4.33 De acuerdo con una encuesta realizada por el MINSAL los santanecos no
desayunan. Una muestra de 30 estudiantes de la Universidad Don Bosco reveló que 16 no
lo habían hecho ese día. Utilice un nivel de significancia de 0.01 para verificar si los
estudiantes universitarios son más propensos a no desayunar.
Ejercicios 4.34 Suponga que a partir de las elecciones anteriores en un departamento, para
que sea electo un candidato a alcalde, es necesario que gane por lo menos 70 % de los votos
de la zona central. El gobernador de turno está interesado en evaluar sus posibilidades de
volver al cargo y hace planes para llevar a cabo una encuesta de 2 000 votantes registrados
en esa región. Aplique el procedimiento para probar hipótesis y evalúe las posibilidades de
que el gobernador se reelija.
Ejercicios 4.35 Pollolandia afirma que 85 % de sus pedidos se entrega en 20 minutos desde
que se hace el pedido. Una muestra de 100 pedidos mostró que 79 se entregaron en el tiempo
prometido. Con un nivel de significancia de 0.10, ¿puede concluir que el 90 % de los pedidos
se entregó en menos de 10 minutos?
57
Ejercicios 4.36 La compañía Bebé feliz desea comparar el aumento de peso de niños que
consumen su producto en comparación con el producto de su competencia. Una muestra de 40
noños que consumen los productos Bebé feliz reveló un aumento de peso medio de 5.6 libras en
sus primeros tres meses de vida, con una desviación estándar de la población de la muestra
de 1.9 libras. Una muestra de 55 bebés que consumen la marca del competidor reveló un aumento
medio de 8.1 libras, con una desviación estándar de la población de 3.2 libras. Con un nivel
de significancia de 0.01, ¿es posible concluir que los bebés que consumieron la marca Bebé
feliz ganaron menos peso?
Ejercicios 4.37 Volviendo al ejercicio 4.28 ¿puede concluir que hay una proporción mayor de
socialistas en favor de relajar las normas?
Con un nivel de significancia de 0.05, ¿hay alguna diferencia entre el número medio de
defectos por turno?
Ejercicios 4.40 Predictive quiere saber si el salario semanal medio de las enfermeras es
mayor que el de los profesores. Para esta investigación recopiló la información siguiente
sobre las cantidades que ganó la semana pasada una muestra de profesores y enfermeras.
Profesores(Salario en $) 845 789 765 545 678 654 789 765 789 777 659
Enfermeras(Salario en $) 789 765 677 888 665 899 567 765 899
¿Es razonable concluir que es mayor el salario semanal medio de las enfermeras? Utilice un
nivel de significancia de 0.01.
58
5. Unidad IV: Distribuciones bidimensionales.
Supongamos que en una población, y para un conjunto de n individuos, se miden dos
caracteres X e Y :
Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de
una dimensión. En el caso de que las dos variables sean atributos, la tabla anterior recibe
el nombre de tabla de contingencia. A continuación se presentan las tablas de contingencia
y posteriormente las distribuciones marginales y condicionales para variables numéricas.
A \ B 1 2 3 ... b
1 n11 n12 n13 ... n1b n1.
2 n21 n22 n23 ... n2b n2.
3 n31 n32 n33 ... n3b n3.
.
. .
. .. .. .. ..
. . . . . .
a ni1 ni2 ni3 ... nab na.
n.1 n.2 n.3 ... n.b n
59
En este documento se utilizará indistintamente ni. = ni+ = kj=1 nij o n.j = n+j = li=1 nij .
P P
Ejemplo 5.1 Para estudiar la dependencia entre la práctica de algún deporte y la depresión,
se seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados:
Deportista \ Depresión NO SI
SI 38 9 47
NO 31 22 53
69 31 100
Solución.
Las hipótesis son:
60
5.1.2. Distribuciones Marginales y Condicionales.
Dada una variable estadística bidimensional, las distribuciones marginales permiten
estudiar de un modo aislado cada una de las componentes. A partir de una tabla de doble
entrada, las distribuciones de frecuencias marginales se obtienen sumando las frecuencias
de la tabla por filas y por columnas.
Antes de hacer cualquier cálculo, conviene representar en el plano los pares de valores
obtenidos. Con esto obtenemos una nube de puntos ( diagrama de dispersión), que nos puede
dar una idea visual de las posibles relaciones existentes.
Cuando se observa el comportamiento conjunto de dos variables, el objetivo principal es
determinar si existe o no algún tipo de variación conjunta o covariación entre ellas. La
61
Figura 12: Diagrama de dispersión
Interpretación:
1. Si la Cov(X, Y ) > 0, existe una tendencia a que mayores observaciones de una de las
variables se correspondan con mayores observaciones de la otra variable.
2. Si Cov(X, Y ) < 0, existirá una tendencia a que mayores observaciones de una variable
se correspondan con menores observaciones de la otra variable.
Suponemos que Cov(X, Y ) 6= 0,indica que existe relación lineal entre las variables, la
pregunta que surge es ¿Cómo de grande es la relación entre X e Y y cómo cuantificarla? El
coeficiente de correlación lineal es un valor que permite estudiar el grado de dependencia
lineal existente entre X e Y. Viene definido por:
1 n
(xi − x̄) (yi − ȳ)
P
Cov(X, Y )
r= = q Pn i=1
Sx Sy 1 n 2 1 Pn 2
n i=1 (xi − x̄) n i=1 (yi − ȳ)
62
2. Planteamiento del modelo.
Y = β0 + β1 X +
SCReg
Coeficiente de Determinación (r2 ) La cantidad r2 = SCT SCT . Se llama coeficiente
= 1− SCRes
de determinación, donde:
n
X n
X n
X
SCRes = e2i = (yi − yˆi )2 ; SCT = (yi − ȳ)2
i=1 i=1 i=1
63
n
X
SCReg = (yˆi − ȳ)2
i=1
y se verifica que:
n
X n
X
Pn
SCT = 2
i=1 (yi − ȳ) = SCReg + SCRes = (yˆi − ȳ)2 + (yi − yˆi )2
i=1 i=1
Ejemplo 5.2 Se tienen las puntuaciones por acceso a un servicio médico (X) y el grado de
salud (Y ) de 15 personas. Se supone que el grado de salud depende del acceso al servicio
médico. Los datos se presentan en la siguiente tabla:
152.2
r=√ = 0.964
(215.6)(115.73)
Este valor se interpreta como, el 96.4 % de los datos están correlacionados linealmente y
de manera positiva. Ahora, se ajustar el modelo de regresión lineal (modelo de predicción),
el cual está dado por:
ŷ = a + bx = 0.8744 + 0.7059x
A partir de este modelo se obtienen las puntuaciones de salud previstas, ŷ, y con ello
las siguientes medidas:
64
n
1. Suma de cuadrados de regresión SCReg =
X
(yˆi − ȳ)2 = 107.4322
i=1
n n
2. Suma de cuadrados residuales SCRes =
X X
e2i = (yi − yˆi )2 = 8.2898
i=1 i=1
n
3. Utilizando estos dos resultados se tiene que: SCT =
X
(yi − ȳ)2 = 107.4322 + 8.2898 =
i=1
115.772
este valor se interpreta como la medida del error total en la predicción de las puntuaciones
de un grupo de n sujetos, ya que este valor es pequeño, es decir, 0.7985, el modelo es
aceptable para predecir. Sin embargo, la medida que se utiliza para indicar la bondad del
modelo es el coeficiente de determinación, esto es:
SCReg SCRes 8.2898
r2 = SCT =1− SCT =1− 115.772 = 0.928
5.3. Ejercicios
Ejercicios 5.1 En una determinada región existen 3 facultades en las que se cursan estudios
de Economía. Un programa de radio universitario pretende debatir si la dificultad de estos
estudios pudiera estar relacionada con el centro donde se cursan. Para aportar información
al programa, se propuso a los oyentes licenciados en Economía que llamaran a un teléfono
gratuito donde se les realizaría una serie de preguntas. Con la información obtenida se
completó la siguiente tabla de frecuencias, en las que las llamadas han sido clasificadas
según el lugar donde se realizaron los estudios y el tiempo empleado en terminarlos:
Facultad Número de años empleados para finalizar
la licenciatura en Economía
4 a menos Entre 5 y 6 7 ó más
A 300 150 50
B 110 125 90
C 325 350 100
Suponiendo que estos datos pudieran ser considerados como procedentes de una muestra
aleatoria, ¿Se podría afirmar que existe alguna relacón entre el centro de estudios y el
tiempo que un estudiante tarda en terminar su carrera de Economía? Nivel de signifación del
10 %
65
Ejercicios 5.2 Las asociaciones de padres y madres de alumnos de los colegios públicos de
una determinada ciudad pretenden organizar de forma conjunta las actividades extraescolares
del próximo curso. Para tratar de conocer el interés de los padres en el tipo de actividades
que pueden desarrollar sus hijos, la comisión encargada decide llevar a cabo una encuesta a
una muestra aleatoria de 1500 padres. Con los datos de esta encuesta, pudo construirse la
siguiente tabla:
Actividades Niveles de estudio de los padres
Primarios Bachillerato Universitarios
Competiciones deportivas 150 195 175
Talleres creativos en la propia ciudad 90 100 46
Excursiones diversas 60 330 180
Otras 50 75 49
¿Cabe pensar, al 1 % de significación, que el nivel de estudios de los padres influye en
el tipo de actividad extraescolar elegida para su hijo?
Ejercicios 5.3 Un sociólogo tomó una muestra de 140 personas y las clasificó de acuerdo
con su nivel de ingresos, y si jugaron o no en la lotería nacional de beneficencia el mes
pasado. La información de la muestra aparece a continuación.
¿Es posible concluir que jugar a la lotería se relaciona con el nivel de ingresos? Utilice
el nivel de significancia 0.05.
Ejercicios 5.5 El departamento de tarjetas de crédito del banco Maya sabe por experiencia que
5 % de sus tarjetahabientes terminó algunos años de la preparatoria, 15 %, la preparatoria,
25 %, algunos años de la universidad, y 55 %, una carrera. De los 500 tarjetahabientes
a quienes se les llamó por no pagar sus cargos del mes, 50 terminaron algunos años de
preparatoria, 100, la preparatoria, 190, algunos años de la universidad, y 160 se graduaron
de la universidad. ¿Es posible concluir que la distribución de los tarjetahabientes que no
pagan sus cargos es diferente a los demás? Utilice el nivel de significancia 0.01
66
en las diversas tiendas y compararlas con el número de veces que se transmitió el anuncio
en las estaciones de televisión. El propósito es determinar si hay alguna relación entre el
número de veces que se transmitió el anuncio y las ventas de cámaras digitales. Los pares
son:
Ubicación A B C D E
Transimisiones 4 2 5 6 3
Ventas de sábado a domingo 15 8 21 24 17
Ejercicios 5.7 Una compañía estudia la relación entre el precio de la gasolina y el número
de galones que vende. En una muestra de 20 gasolineras el martes pasado, la correlación fue
0.78. A un nivel de significancia de 0.01, la correlación entre la población, ¿será mayor
que cero?
67
Determine la recta de regresión de Y sobre X, el coeficiente de correlación lineal y la
varianza residual.
Ejercicios 5.14 Se sabe que la recta de regresión de Y sobre X para un conjunto de 10 datos
es Ŷ = 0.74X + 0.84, siendo Se2 = 3.218 la correspondiente varianza residual. También se
sabe que yj = 82.4 y xi = 3340. Determine la recta de regresión de X sobre Y, y el
P P 2
coeficiente de determinación.
Ejercicios 5.16 A partir de la regresión lineal de Y, ahorro anual, sobre X, renta mensual
de un grupo de familias (ambas variables en miles de dólares) se ha estimado que el ahorro
correspondiente a una renta de 3 mil dólares es de 0.4 miles de dólares, mientras que, si
la renta es de 2.5 miles de dólares, el ahorro es de 0.3 miles de dólares. Con estos datos,
calcule la ecuación de la recta de regresión de Y sobre X.
68
6. Bibliografía
1. Cuadras, Carles (2000). Problemas de Probabilidad y Estadística. Vol. 2: Inferencia
Estadística. EUB, S.L. Barcelona, España.
4. Sanabria Alegría, José María (2000). Curso Práctico de Estadística. Segunda Edición.
Civitas Ediciones, S.L. Madrid.
CRÉDITOS:
69
Apéndice A: Tablas
Áreas bajo la curva normal
Ejemplo:
Si z = 1.96, entonces
P(0 a z) = 0.4750.
0.4750
z 0 1.96
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981
2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990
Apéndice B
Distribución t de Student
a a 2 a
1
2a
1
–t t –t 0 t 0 t –t 0 t
Intervalo de confianza Prueba de cola izquierda Prueba de cola derecha Prueba de dos colas
6 1.440 1.943 2.447 3.143 3.707 5.959 41 1.303 1.683 2.020 2.421 2.701 3.544
7 1.415 1.895 2.365 2.998 3.499 5.408 42 1.302 1.682 2.018 2.418 2.698 3.538
8 1.397 1.860 2.306 2.896 3.355 5.041 43 1.302 1.681 2.017 2.416 2.695 3.532
9 1.383 1.833 2.262 2.821 3.250 4.781 44 1.301 1.680 2.015 2.414 2.692 3.526
10 1.372 1.812 2.228 2.764 3.169 4.587 45 1.301 1.679 2.014 2.412 2.690 3.520
11 1.363 1.796 2.201 2.718 3.106 4.437 46 1.300 1.679 2.013 2.410 2.687 3.515
12 1.356 1.782 2.179 2.681 3.055 4.318 47 1.300 1.678 2.012 2.408 2.685 3.510
13 1.350 1.771 2.160 2.650 3.012 4.221 48 1.299 1.677 2.011 2.407 2.682 3.505
14 1.345 1.761 2.145 2.624 2.977 4.140 49 1.299 1.677 2.010 2.405 2.680 3.500
15 1.341 1.753 2.131 2.602 2.947 4.073 50 1.299 1.676 2.009 2.403 2.678 3.496
16 1.337 1.746 2.120 2.583 2.921 4.015 51 1.298 1.675 2.008 2.402 2.676 3.492
17 1.333 1.740 2.110 2.567 2.898 3.965 52 1.298 1.675 2.007 2.400 2.674 3.488
18 1.330 1.734 2.101 2.552 2.878 3.922 53 1.298 1.674 2.006 2.399 2.672 3.484
19 1.328 1.729 2.093 2.539 2.861 3.883 54 1.297 1.674 2.005 2.397 2.670 3.480
20 1.325 1.725 2.086 2.528 2.845 3.850 55 1.297 1.673 2.004 2.396 2.668 3.476
21 1.323 1.721 2.080 2.518 2.831 3.819 56 1.297 1.673 2.003 2.395 2.667 3.473
22 1.321 1.717 2.074 2.508 2.819 3.792 57 1.297 1.672 2.002 2.394 2.665 3.470
23 1.319 1.714 2.069 2.500 2.807 3.768 58 1.296 1.672 2.002 2.392 2.663 3.466
24 1.318 1.711 2.064 2.492 2.797 3.745 59 1.296 1.671 2.001 2.391 2.662 3.463
25 1.316 1.708 2.060 2.485 2.787 3.725 60 1.296 1.671 2.000 2.390 2.660 3.460
26 1.315 1.706 2.056 2.479 2.779 3.707 61 1.296 1.670 2.000 2.389 2.659 3.457
27 1.314 1.703 2.052 2.473 2.771 3.690 62 1.295 1.670 1.999 2.388 2.657 3.454
28 1.313 1.701 2.048 2.467 2.763 3.674 63 1.295 1.669 1.998 2.387 2.656 3.452
29 1.311 1.699 2.045 2.462 2.756 3.659 64 1.295 1.669 1.998 2.386 2.655 3.449
30 1.310 1.697 2.042 2.457 2.750 3.646 65 1.295 1.669 1.997 2.385 2.654 3.447
31 1.309 1.696 2.040 2.453 2.744 3.633 66 1.295 1.668 1.997 2.384 2.652 3.444
32 1.309 1.694 2.037 2.449 2.738 3.622 67 1.294 1.668 1.996 2.383 2.651 3.442
33 1.308 1.692 2.035 2.445 2.733 3.611 68 1.294 1.668 1.995 2.382 2.650 3.439
34 1.307 1.691 2.032 2.441 2.728 3.601 69 1.294 1.667 1.995 2.382 2.649 3.437
35 1.306 1.690 2.030 2.438 2.724 3.591 70 1.294 1.667 1.994 2.381 2.648 3.435
Apéndice C
Valores críticos de ji cuadrada
Ejemplo: con 17
gl y un área de 0.02
en la cola superior,
y2 = 30.995
0 y2