ESTADÍSTICA

MINISTERIO DE EDUCACIÓN
MÓDULO DE ESPECIALIZACIÓN DOCENTE

TERCER CICLO Y MEDIA
ESPECIALIDAD DE MATEMÁTICA
San Salvador, 2018

Índice
1. Introducción 2
1.1. Contenido del Módulo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. ¿Cómo Desarrollar el Módulo?. . . . . . . . . . . . . . . . . . . . . . . . . 2
2. Unidad I: Introducción a la Estadística 4

2.1. Definición de Estadística y su Objeto de Estudio . . . . . . . . . . . . . . . 4
2.1.1. ¿Qué es la Estadística?. . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.2. Estadística Descriptiva. . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.3. Estadística Inferencial. . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.4. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2. El Método de Investigación Estadística. . . . . . . . . . . . . . . . . . . . 6
2.3. Instrumentos de Obtención de Datos. . . . . . . . . . . . . . . . . . . . . . 8
2.3.1. El Censo Nacional. . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3.2. El cuestionario. . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.4. Tipos de Variables. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5. Escalas de Medición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3. Unidad II: Estadística Descriptiva. 16

3.1. Tablas de Frecuencias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2. Representación gráfica. . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3. Medidas de Tendencia Central. . . . . . . . . . . . . . . . . . . . . . . . . 26
3.3.1. La Media Aritmética. . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.2. La Media Geométrica (Mg). . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.3. La Media Armónica (Ma). . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3.4. La Moda, (Mo). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.5. La Mediana, (Me). . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4. Medidas de Posición: Cuartiles, Quintiles, Deciles y Percentiles. . . . . . . 35
3.4.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.5. Medidas de Variabilidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5.1. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4. Unidad III: Inferencia Estadística. 42

4.1. Propiedades Deseables de los Estimadores Puntuales. . . . . . . . . . . . . . 42
4.1.1. Estimación Puntual. . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2. Distribuciones Muestrales Importantes. . . . . . . . . . . . . . . . . . . . . 42
4.2.1. Distribución de la Media Muestral. . . . . . . . . . . . . . . . . . . 42
4.2.2. Distribución de la Media para Muestras Pequeñas. . . . . . . . . . . . 43
4.2.3. Distribución de la Diferencia entre Las Medias de dos Muestras. . . . . 44
4.2.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3. Intervalos de Confianza. . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.1. Intervalos de Confianza de Medias y Proporciones. . . . . . . . . . . . 46
4.3.2. Intervalo de Confianza para la Media Poblacional, σ Conocida (n ≥ 30) . 46
4.3.3. Intervalo de Confianza para la Media Poblacional, σ es Desconocida (n ≥ 30) 48
1
4.3.4. Intervalo de Confianza para Estimar la Diferencia de Medias Poblacionales
(µx − µy ). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.3.5. Estimación por Intervalo para Proporciones. . . . . . . . . . . . . . . 49
4.3.6. Estimación por Intervalo para Diferencias de Proporciones. . . . . . . 49
4.3.7. Estimación de µ para Muestas Pequeñas (n < 30). . . . . . . . . . . . . 49
4.3.8. Intervalos de Confianza para Diferencia de Medias Poblacionales (n < 30). 50
4.3.9. Intervalos de Confianza para Una Proporción Poblacional P (n < 30). . . 50
4.3.10.Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.4. Contraste de Hipótesis Estadísticas. . . . . . . . . . . . . . . . . . . . . . 53
4.4.1. Definición de Pruebas de Hipótesis y Tipos de Error. . . . . . . . . . 53
4.4.2. Procedimiento para Probar Hipótesis Estadísticas. . . . . . . . . . . . 54
4.4.3. Prueba de Hipótesis para Muestras Pequeñas y Distribución t de Student. 55
4.4.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5. Unidad IV: Distribuciones bidimensionales. 59

5.1. Tablas de Contingencia. . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.1.1. Contraste de Independencia de Caracteres. . . . . . . . . . . . . . . . 59
5.1.2. Distribuciones Marginales y Condicionales. . . . . . . . . . . . . . . 61
5.2. Correlación y Predicción. . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.2.1. Modelos de Regresión lineal: Línea de Tendencia. . . . . . . . . . . . 62
5.2.2. Estimación de los Parámetros por Mínimos Cuadrados . . . . . . . . . . 63
5.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6. Bibliografía 69
1
1. Introducción
Cada día, todo ciudadano salvadoreño se ve enfrentado a información construida en base
a datos. Esta información utilizada de manera adecuada, le servirá de fuente tanto para
entender los fenómenos que lo rodean, como para tomar decisiones de manera informada. Ya
sea en el papel de investigador, analizando datos y transformándolos en información, o
como receptor de ésta. Estar capacitado para hacer buenas preguntas, usar datos en forma
inteligente, evaluar conjeturas basadas en ellos y formular conclusiones son habilidades
básicas en la sociedad actual.
El profesor, como principal facilitador en la experiencia educativa de sus alumnos, debe

estar capacitado para crear constantemente oportunidades para que los alumnos adquieran las
nuevas habilidades requeridas. El profesor debe involucar a sus alumnos desde muy temprana
edad en el manejo directo de datos, y que este proceso crezca en sofisticación y complejidad
a medida que los alumnos progresan en sus estudios.
En general la Estadística es fundamental para muchas ramas de la ciencia desde la Medicina

a la Economía. Pero sobre todo, es esencial para interpretar los datos que se obtienen de
la investigación científica. Es necesario leer e interpretar datos, producirlos, extraer
conclusiones, en resumen saber el significado de los datos. La Estadística es por lo tanto
una herramienta de trabajo profesional.
1.1. Contenido del Módulo.

En la Unidad I se inicia conociendo qué es la Estadística, su objeto de estudio y cuáles
fueron sus orígenes. Luego cuáles son los pasos a seguir al desarrollar una investigación
estadística, en especial en el ámbito educativo.
En la Unidad II se estudiará los conceptos básicos en estadística descriptiva. Las

diferentes formas de ordenar y representar la información según el tipo de variable de
estudio y algunas medidas que ayudan analizar la información y dar conclusiones.
La Unidad III es un estudio básico sobre inferencia estadística, estimación de parámetros

y algunos contrastes de hipótesis.
Para finalizar, en la Unidad IV, con el estudio de las distribuciones bidimensionales.

El tipo de dependencia o correlación entre dos o más variables. Así como aplicación de
modelos de regresión lineal.
1.2. ¿Cómo Desarrollar el Módulo?.

La teoría y las actividades de cada unidad se desarrollará durante dos sábados con 16
horas presenciales de trabajo guiado por el formador, 8 horas virtuales y 6 horas de prácticas
de aula por parte de las y los docentes. El trabajo de cada semana deberá organizarse por
medio de una carta didáctica. La idea básica es que el desarrollo de las unidades ha de
2
programarse a base de actividades que han de realizar las y los docentes bajo la guía del
formador aplicando una metodología activa, participativa y reflexiva. La metodología de cada
jornada se dividirá en tres partes:apertura, desarrollo y cierre.
La apertura se ha de iniciar socializando los objetivos de la jornada y centrando la

temática, a fín de establecer un hilo conductor con el objetivo general del módulo y los
objetivos de la unidad y contar con una visión global de la unidad que ayude a las y los
docentes a familiarizarse con el tema a tratar. Luego se ha de pasar a diágnosticar las
concepciones y los conocimientos previos, a través de preguntas iniciales relacionadas con
aspectos de la vida cotidiana y la reflexión grupal sobre lo que se hace o no se hace en
el aula en relación con los temas a desarrollar. Posteriormente,a manera de motivación o
sensibilización se ha de hacer una introducción histórica de los conceptos de la unidad
y presentar un problema o situación en el que se ponga de manifiesto la utilidad de la
temática a desarrollar.
El desarrollo incluye la exposición dialogada de la teoría básica y demostración de las

propiedades clave para lograr que los participantes desarrollen su razonamiento y pensamiento
matemático, y comprendan el significado de los contenidos matemáticos escolares. Acto seguido
se ha de plantear y resolver problemas representativos o ilustrativos que permitan visualizar
la utilización e importancia de los conceptos y las propiedades. Después, se ha de organizar
a las y los docentes en equipos para dedicarse a resolver problemas clave de la unidad.
Durante esta actividad el formador debe supervisar el trabajo de cada equipo y proporcionar
las indicaciones o ayudas que sean requeridas. Es importante estimular el intercambio de
ideas y la colaboración entre los integrantes de los equipos.
El cierre se dedica a evaluar el aprendizaje grupal a través de la socialización de los

trabajos de los equipos.Durante la socialización el formador ha de reflexionar sobre lo
presentado y hacer las recomendaciones y correcciones pertinentes, así como identificar los
temas que requieren una retroalimentación. Finalmente, se deben de asignar las tareas que
deberán ser entregadas la semana siguiente.Estas se pueden asignar de manera individual o
por equipos. Asimismo se deben asignar las tareas o actvidades que deberán realizarse en el
aula virtual y en las prácticas de aula.
3
2. Unidad I: Introducción a la Estadística
2.1. Definición de Estadística y su Objeto de Estudio
2.1.1. ¿Qué es la Estadística?.
La Estadística es una ciencia que estudia las características de un conjunto de casos para
hallar en ellos regularidades en el comportamiento, que sirven para describir el conjunto
y para efectuar predicciones.
La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos
relativos a un conjunto de objetos, personas, procesos, etc. A través de la cuantificación y
el ordenamiento de los datos intenta explicar los fenómenos observados, por lo que resulta
una herramienta de suma utilidad para la toma de decisiones.
Bajo este contexto, la Estadística se divide en dos áreas: Estadística Descriptiva y
Estadística Inferencial.
2.1.2. Estadística Descriptiva.

Estadística Descriptiva.Permite organizar y presentar un conjunto de datos de manera
que describan en forma precisa las variables analizadas haciendo rápida su lectura e
interpretación. Obviamente, la materia prima de la Estadística Descriptiva la constituyen
los datos, que son el resultado de las observaciones y/o experimentos.
Ejemplos de Estadística Descriptiva.
1. Durante los últimos dos días se ha informado de un total de cinco homicidios diarios.
2. La encuesta Gallup informa una ventaja de 5 % para el candidato de izquierda.
3. Una persona promedio gastó $ 80 en mercancía alusiva a San Valentín el 14 de febrero

de 2018. Esto representa un aumento de 0.50 dólares con respecto a 2017.
2.1.3. Estadística Inferencial.
Estadística Inferencial es un proceso

inductivo, de lo particular a lo
general. Tiene como objetivo estimar
los parámetros de una población a
partir de los estadísticos (para
variables cuantitativas: media,
desviación típica y para variables
cualitativas: proporciones)
obtenidos de una muestra aleatoria
y representativa extraída de dicha
población, por muy exhaustivo que
haya sido el muestreo, siempre
existirá diferencia con respecto
al parámetro o valor poblacional,
esto se debe al uso de variables
aleatorias. Figura 1: Inferencia Estadística
4
Cuando se quiere generalizar a partir de la información proveniente de la muestra se debe
establecer un nivel de confianza y para ello, se incorporan los modelos probabilísticos con
el fin de cuantificar dicho grado de confianza.
Preste atención a las palabras población y muestra en la definición de estadística

inferencial. Con frecuencia hacen referencia a la población de 308.8 millones de personas
que viven en Estados Unidos o a la población de 1310 millones de habitantes de China. No
obstante, en estadística, la palabra población posee un significado más amplio.
La toma de muestras para aprender algo sobre una población es de uso frecuente en
administración, agricultura, política y acciones de gobierno, según lo muestran el siguiente
ejemplo:
Ejemplo 2.1 Una muestra aleatoria de 1 260 graduados de marketing de escuelas que imparten
la carrera en cuatro años mostró que su sueldo inicial promedio era de 42 694 dólares. Por
lo tanto, se estima que el sueldo inicial promedio de todos los graduados de contabilidad
de instituciones que imparten la carrera en cuatro años es de 42 694 dólares.
Ejemplo 2.2 Las cadenas de televisión hacen un monitoreo continuo de la popularidad de sus
programas contratando a Energy y a otras organizaciones con el fin de que éstas tomen
muestras sobre las preferencias de los telespectadores. Por ejemplo, en una muestra de 1000
televidentes que ven televisión a la hora de mayor audiencia, 300, o 30 %, señaló que vio
"Ganando con todo" en Canal 5 la semana pasada.
Estos índices de audiencia se emplean para establecer tarifas de publicidad o para suspender
programas.
2.1.4. Definiciones
Población (N): es el conjunto de todas las observaciones o elementos de interés, en un
determinado estudio, que poseen, al menos, una propiedad común Unidades elementales:
elementos individuales que conforman la población, estos elementos contienen las
características de interés y puede ser de naturaleza cualitativa o cuantitativa.
Muestra (n): subconjunto de mediciones de una población. La muestra se obtiene a través
de cualquier método de muestreo.
Censo: Cuando se analiza toda la población. Ocurre cuando la población es pequeña o se
quiere exactitud completa en los resultados.
Parámetro: es una magnitud o característica de los elementos de una población (finitas
contables o no contables). Este valor es único. Se emplean letras griegas y entre los
más importantes: promedio, varianza, desviación y proporciones.
Estadístico: es una magnitud o característica de los elementos de una muestra. Este
valor puede variar según la muestra seleccionada. Se emplean letras del alfabeto romano
y entre los más importantes: promedios, varianza, desviación típica y proporción.
Estimación: estimar o predecir el valor del parámetro a partir del análisis de la
muestra seleccionada.
Estimador: cuando un estadístico es usado para estimar o aproximar el valor del
parámetro. El estimador se obtiene a través de una ecuación, ejemplo: la media
aritmética.
5
Error de estimación: es la diferencia entre el estadístico y el parámetro.
Nivel de confianza: concepto que esta relacionado directamente con el tamaño de la

muestra (a mayor tamaño de la muestra, mayor nivel de confianza) cuando se hace una
estimación se espera que exista cierto grado de confianza en términos de probabilidad.
Es decir, se refiere a la asignación de una probabilidad para realizar inferencias.
Estos valores se pueden obtener a través de la tabla de valores tipificados (Z) para
la distribución normal de probabilidad.
2.2. El Método de Investigación Estadística.

Los métodos estadísticos son herramientas útiles para el desarrollo de investigaciones
científicas. El término de investigación científica suele provocar en algunos estudiantes
o profesores escepticismo, confusión y -a veces- molestia. Hay estudiantes que piensan que
la investigación científica es algo que no tiene relación con la realidad cotidiana y que
sólamente se acostumbra hacer en centros muy especializados e institutos con nombres largos y
complicados. También hay quien piensa que la investigación científica es propia de personas
de edad avanzada, con pipa, lentes, barba y pelo canoso y despeinado. Incluso algunos
consideran que la investigación científica es algo complicado, muy difícil de aplicar y que
requiere un talento especial.
Sin embargo, la investigación científica no es nada de esto. En primer lugar, tiene
que ver con la realidad. En ella se abordan temas como las relaciones interpersonales,
el ambiente laboral (clima en el trabajo), la violencia, la televisión, las enfermedades,
las elecciones presidenciales, las emociones humanas, factores asociados al rendimiento
académico, la manera de vestirnos, la familia y otros más que forman parte de lo cotidiano
de nuestras vidas.
Ejemplos de investigaciones cotidianas:
1. Cuando nos gusta una persona que conocimos en alguna reunión o un salón de clases,
tratamos de investigar si le podemos resultar atractivos.
2. Cuando un amigo está enojado con nosotros, buscamos investigar las razones.
3. Cuando nos interesa un gran personaje histórico, investigamos cómo vivió y murió.
4. Cuando buscamos empleo, nos dedicamos a investigar quién ofrece trabajo y en qué
condiciones.
5. Cuando nos agrada una comida, nos interesa investigar los ingredientes.
La investigación científica es esencialmente como cualquier tipo de investigación, sólo

que más rigurosa y cuidadosamente realizada. Podemos definirla como un tipo de investigación
sistemática, controlada, empírica, y crítica, de proposiciones hipotéticas sobre las
presumidas relaciones entre fenómenos naturales.
Detallamos estos aspectos a continuación:
Sistemática y controlada. Implica que hay una disciplina constante para hacer investigación
científica y que no se dejan los hechos a la casualidad.
Empírica. Significa que se basa en fenómenos observables de la realidad.
6
Crítica. Quiere decir que se juzga constantemente de manera objetiva y se eliminan las
preferencias personales y los juicios de valor.
La investigación cumple dos propósitos fundamentales:

a) Producir conocimiento y teorías (investigación básica).
b) Resolver problemas prácticos (investigación aplicada). La investigación es la herramienta
para conocer lo que nos rodea y su carácter es universal.
La investigación científica es un proceso que está compuesto por una serie de etapas, las
cuales se derivan unas de otras y al llevar a cabo un estudio o investigación, no podemos
omitir etapas ni alterar su orden. Una propuesta de estas etapas es la siguiente:
Elección del tema.
Planteamiento del problema.
Definición de objetivos.
Formulación de hipótesis.
Definición de la unidad de observación y unidad de medida.
Determinación de la población y de la muestra.
Recolección de datos.
Clasificación, ordenación, tabulación, presentación, análisis de los resultados de la
investigación.
Publicación.
Algunas de las etapas mencionadas las consideramos a continuación.
Elección del tema. Para la elección del tema se recomienda lo siguiente: documentarse
sobre el tema que se va a investigar leyendo las aportaciones de los autores más importantes
o trabajos afines. La cantidad y calidad de la información que se ha de recopilar dependerá
del tipo de trabajo y de la profundidad del mismo. Escoger en primer lugar, el campo amplio
del trabajo, luego determinar el ámbito preciso delimitado por espacio y tiempo.
Planteamiento del problema. Iniciemos con un ejemplo, no es un problema de investigación
reducir los accidentes de tránsito, pero en cambio sí lo es responder a la pregunta ¿cuáles
son las causas que producen los accidentes de tránsito? Con base a su respuesta es que
podrá resolverse el problema práctico, pero es preciso hacer de partida esta distinción
para disipar frecuentes equívocos. Como se habrá observado, la formulación de un problema
asume generalmente la forma de una pregunta, de alguna interrogante básica cuya respuesta
sólo se podrá obtener después de realizada la investigación.
Formulación de la Hipótesis.
En general el término hipótesis se define como una respuesta probable de carácter tentativo
a un problema de investigación y que es factible de verificación empírica. La hipótesis
expresa la relación entre dos o más variables que son susceptibles de medición. Una hipótesis
planteada correctamente debe poderse verificar o contrastar contra la evidencia empírica.
Una hipótesis se estructura con tres elementos:
1. Unidades de Análisis. También conocidas como unidades de observación y representan el
objeto de estudio, son ejemplos, las personas, las empresas, los movimientos sociales,
los fenómenos naturales, etc. que se someten a investigación.
7
2. Las Variables. Son los atributos, características o propiedades que presentan las
unidades de análisis y que serán sometidas a medición.
3. Enlace Lógico. Son términos de relación o enlace entre las unidades de análisis y
las variables, por ejemplo, las expresiones: si el combustibles aumentas (Diesel y
gasolina) entonces aumenta el precio de la canasta básica, existe relación entre la
estatura y el peso de una persona, el gasto de un hogar depende de los ingresos, etc.
¿Qué tipos de hipótesis hay ?
La abundante literatura existente sobre metodología de la investigación, describe una gran

variedad de tipos de hipótesis, sin embargo se pueden resumir en: hipótesis de investigación,
hipótesis de nulidad, hipótesis alternativa e hipótesis estadística.
1. Hipótesis de Investigación. Se define como una aseveración, conjetura o proposición

sobre las probables relaciones entre dos o más variables. También se les denomina
hipótesis de trabajo. Con frecuencia se pueden expresar en forma descriptiva, correlacional,
de causalidad (experimental), etc. dependiendo del propósito y naturaleza de la
investigación que se intenta desarrollar.
2. Hipótesis de Nulidad. Este tipo de hipótesis expresa la ausencia de relación, diferencia

de grupos, causalidad, etc. entre dos o más variables. En un sentido son el opuesto de
las hipótesis de investigación. También constituyen proposiciones acerca de la relación
entre variables solamente que sirven para refutar o negar lo que afirma la hipótesis
de investigación.
3. Hipótesis Alternativa. Como su nombre lo indica, son posibilidades alternativas a la

hipótesis nula, algunos textos la utilizan como hipótesis de investigación.
4. Hipótesis Estadísticas. Una hipótesis estadística expresa en términos o símbolos

estadísticos los anteriores tipos de hipótesis.
En resumen, en toda investigación científica se plantean hipótesis que deben ser validadas
o no a partir de los datos. Los contrastes de hipótesis estadísticas se presentan en el
último capítulo de este documento.
2.3. Instrumentos de Obtención de Datos.

2.3.1. El Censo Nacional.
Los Censos de Población.
Según las Naciones Unidas, un censo se define como Un conjunto de operaciones que consiste
en reunir, elaborar y publicar datos demográficos, económicos y sociales, correspondientes a
todos los habitantes de un país o territorio definido y referido a un momento determinado o a
ciertos períodos de tiempo dados. El censo de población constituye una actividad estadística
de gran utilidad para el país o territorio. Es la principal fuente de datos básicos sobre
población, necesarios para el adecuado funcionamiento de la gestión socioeconómica y política
de un pueblo.
Características de los Censos:
8
1. Información secreta. La información desagregada debe ser de manejo confidencial, no
es permitido por medio de la información censal identificar personas o viviendas
específicas.
2. Patrocinio oficial. Todo el trabajo que conlleve la ejecución del censo debe ser
auspiciado por el Estado, aunque la empresa ejecutora no sea gubernamental.
3. Territorio bien definido: El área o región comprendida por el censo debe estar claramente
definida. Puede excluir algunas zonas por razones de accesibilidad o seguridad, pero
debe señalarse explícitamente sus límites.
4. Universalidad. Debe incluir a todos los miembros de la población del territorio censal
sin omisiones ni repeticiones.
5. Unidad censal. En un censo de población, la unidad censal es el individuo, mientras

que en un censo de vivienda la unidad censal es la vivienda. Sin embargo, la unidad de
referencia en las boletas censales es el hogar.
6. Simultaneidad. La población total empadronada debe referirse a un momento preciso en el

tiempo. Por esta razón, los datos recolectados deben referirse a una fecha específica
o a un período bien definido.
7. Periodicidad. Los censos deben ser realizados periódicamente. La recomendación hecha

por la División de Población de las Naciones Unidas, señala que el período entre un
censo y otro sea de 10 años y que los años censales sean los terminados en 0. Esto
permitiría efectuar comparaciones internacionales.
¿Qué tipo de información se puede recolectar en un censo de población?
1. Geográficos. Ubicación de la persona en el momento censal, residencia habitual, tipo

de localidad (urbana o rural) en que fue empadronada.
2. Demográficos. Información sobre el hogar y relación de parentesco entre los miembros.

Además sobre la edad, el género, el estado conyugal y lugar de nacimiento. Frecuentemente
se agrega sobre migración y algunas preguntas tendientes a medir indirectamente la
mortalidad y la fecundidad.
3. Educación. En este ámbito interesa el alfabetismo y el nivel de instrucción de las

personas. También se puede consultar sobre la asistencia actual a un centro educativo.
4. Actividad económica. Se consulta si la persona es económicamente activa o inactiva.

Ocupación específica, rama de actividad económica a la que se dedica y su categoría
ocupacional (patrón, empleado asalariado, trabajador por cuenta propia, etc.)
5. Otras. Se acostumbra consultar sobre otras características tales como: etnia, religión,
idiomas, impedimentos físicos, etc.
¿Cuáles son los principales usos de la información censal.?
1. Determinar los cambios en la magnitud y composición de la población.
2. Proporciona las bases para las proyecciones de población.
3. Fuente básica de los países en desarrollo para el estudio de la migración.
9
4. Permite por medio de métodos indirectos estimar la fecundidad y la mortalidad.
5. Permite analizar interrelaciones entre las características demográficas y socioeconómicas
de individuos y hogares.
2.3.2. El cuestionario.
Un instrumento de recolección de datos es, en principio, cualquier recurso de que pueda
valerse el investigador para acercarse a los fenómenos y extraer de ellos información.
Dentro de cada instrumento concreto pueden distinguirse dos aspectos diferentes: una forma
y un contenido. La forma del instrumento se refiere al tipo de aproximación que establecemos
con lo empírico, a las técnicas que utilizamos para esta tarea. En cuanto al contenido
éste queda expresado en la especificación de los datos concretos que necesitamos conseguir;
se realiza, por lo tanto, en una serie de ítems que no son otra cosa que los indicadores
bajo la forma de preguntas, de elementos a observar, etc. De este modo, el instrumento
sintetiza en sí toda la labor previa de investigación: resume los aportes del marco teórico
al seleccionar datos que corresponden a los indicadores y, por lo tanto, a las variables
o conceptos utilizados; pero también expresa todo lo que tiene de específicamente empírico
nuestro objeto de estudio.
Es mediante una adecuada construcción de los instrumentos de recolección que la investigación
puede manifestar entonces la necesaria correspondencia entre teoría y práctica; es más,
podríamos decir que es gracias a ellos que ambos términos pueden efectivamente vincularse.
Si en una investigación ellos son defectuosos se producirán, inevitablemente, alguna de las
dos dificultades siguientes: o bien los datos recogidos no servirán para satisfacer los
interrogantes iniciales planteados, o bien esos datos serán imposibles de obtener, vendrán
falseados o distorsionados, etc., porque el instrumento no se adecua al tipo de hecho en
estudio.
2.4. Tipos de Variables.

Variables. Definición: Las variables son las características observables de un objeto,
problema o evento que se puede describir según un esquema de medición bien definido. Cada
rasgo o aspecto de una población constituye una variable. La edad de unas personas, su
sexo, color de su piel, nacionalidad, su nivel de motivación, niveles de ansiedad, el número
de nacimientos, número de matrimonios, frecuencia de suicidios, estatura, peso, niveles de
inteligencia, actitudes, entre muchas otras.
Las variables pueden tener las siguientes clasificaciones:
1. Variables Cualitativas. Son aquellas que se expresan en forma verbal como categorías o
atributos. Por ejemplo, el sexo, color, afiliación política, nacionalidad, motivación,
área académica o profesión de una persona.
2. Variables Cuantitativas. Son las que varían en términos de cantidad y se registran
o expresan en forma numérica. Por ejemplo, edad, promedio académico, puntuaciones de
exámenes, frecuencia de delitos, temperatura, ingresos anuales o salarios por hora.
3. Variables Discretas. Son aquellas que sólo adquieren un valor absoluto o específico
que nunca cambian, toman valores enteros o infinitos numerables.
4. Variables Continuas. So aquellas que siempre son cuantitativas, son las que pueden
asumir cualquier valor dentro de un intervalo. Por ejemplo, la edad, altura, peso,
índice académico.
10
En el campo de la investigación, que se suele examinar las relaciones entre dos o más
variables al investigar un asunto o problema, se clasifican las variables como:
1. Variables Independientes. Son las características controladas por el investigador y
que se supone tendrán efectos sobre otras variables.
2. Variables Dependientes. Son las características o aspectos que se alteran por consecuencia
del control que ejerce el investigador sobre otras variables.
Estos dos últimos tipos de variables suelen darse más en estudios o investigaciones
experimentales, pero también podemos considerarlas en estudios descriptivos. Por ejemplo,
en un estudio experimental se investiga si un nuevo medicamento mejora las condiciones
del SIDA. Para tales efectos se seleccionaron 30 pacientes, de los cuáles 15 recibían el
nuevo medicamento (grupo experimental) y otros 15 continuaban con su tratamiento tradicional
(grupo control). El nuevo medicamento viene a ser la variable independiente porque es la
que los investigadores controlan y que luego examinarán sus efectos en la condición del
SIDA, la cual viene a ser la variable dependiente, porque es la condición que se va alterar
o quedar afectada por el nuevo medicamento.
DATOS: son los hechos que describen sucesos y entidades, en concreto es el valor que
toma la variable.
2.5. Escalas de Medición.

Los datos se clasifican por niveles de medición. El nivel de medición de los datos rige
los cálculos que se llevan a cabo con el fin de resumir y presentar los datos. También
determina las pruebas estadísticas que se deben realizar. Por ejemplo, en una bolsa de
botonetas hay seis diferentes colores. Suponga que asigna el 1 al café, el 2 al amarillo,
el 3 al azul, el 4 al naranja, el 5 al verde y el 6 al rojo. Sume la cantidad de btoenetas
que hay en una bolsa, la divide entre el número de btonetas e informa que el color promedio
es 3.56. ¿Significa que el color promedio es azul o anaranjado?.
En la pista de una escuela secundaria hay ocho competidores para la carrera de 400 metros.
Para indicar el orden en que llegan a la meta dice que la media es de 4.5. ¿Qué revela este
promedio?
En ambos casos, no se empleó adecuadamente el nivel de medición.
Una escala es un esquema específico para asignar números o símbolos con el objeto de
designar características de una variable. Las escalas de medición comúnmente conocidas son:
nominales, ordinales, de intervalos y de razón.
1. Nominal. Se clasifican las personas, eventos u objetos en categorías.
Ejemplo 2.3
La clasificación de los seis colores de las botonetas de chocolate constituye un
ejemplo del nivel nominal de medición. Simplemente se clasifican las botonetas por
color. No existe un orden natural. Es decir, no presenta primero las lunetas cafés,
las anaranjadas o las de cualquier color.
Ejemplo 2.4 Suponga que hace un conteo de los estudiantes que entran a ver un partido
de fútbol con credencial e informa cuántos son hombres y cuántas mujeres, por lo que
El género representa otro ejemplo del nivel nominal de medición.
11
2. Ordinal. Se clasifican u ordenan las personas, objetos y eventos en determinada
posición.
Ejemplo 2.5 A continuación se presentan las calificaciones que los docentes le han
realizado a un formador de matemática después del desarrollo del módulo de Probabilidad.
Cada estudiante de la clase respondió la pregunta: “En términos generales, ¿cómo
calificas al profesor del curso?” . Una calificación es más alta o mejor, que la
siguiente: superior es mejor que bueno, bueno es mejor que promedio, etc. Sin embargo,
no es posible distinguir la magnitud de las diferencias entre los grupos. ¿La diferencia
entre superior y bueno es la misma que entre malo e inferior? No es posible afirmarlo.
Si sustituye 5 por superior y 4 por bueno, concluirá que la calificación superior es
mejor que la calificación bueno, pero si suma una calificación de superior y una de
bueno no espere que el resultado tenga significado.
Además, no debe concluir que la calificación de bueno (calificación de 4) sea necesariamente
dos veces más alta que malo (calificación de 2). Sólo tendrá claro que la calificación
bueno es mejor que la calificación malo, no en qué grado es mejor.
Calificación Frecuencia
Superior 6
Bueno 28
Promedio 25
Malo 12
Inferior 3
3. Intervalo1 . Incluye todas las características del nivel ordinal, pero, además, la
diferencia entre valores constituye una magnitud constante.
Ejemplo 2.6 Suponga que las temperaturas altas durante tres días consecutivos de
invierno en Chalatenango son de 28, 31 y 20 grados Fahrenheit. Estas temperaturas
se clasifican fácilmente, aunque, además, es posible determinar la diferencia entre
ellas, gracias a que un grado Fahrenheit representa una unidad de medición constante.
Diferencias iguales entre dos temperaturas son las mismas, sin importar su posición
en la escala. Es decir, la diferencia entre 10 y 15 grados Fahrenheit es de 5; la
diferencia entre 50 y 55 grados también es de 5. Es importante destacar que 0 es un
punto más en la escala. No representa la ausencia de estado. Cero grados Fahrenheit
no representa la ausencia de calor, sino sencillamente el hecho de que hace frío. De
hecho, 0 grados Fahrenheit equivale aproximadamente a 18 grados en la escala Celsius.
Ejemplo 2.7 Las tallas de ropa para dama. Observe que conforme la talla cambia 2
unidades (de la talla 10 a la 12, o de la talla 24 a la 26), cada medida aumenta 2
pulgadas. En otras palabras, los intervalos son los mismos.No existe un punto cero
natural que represente una talla. Una prenda talla cero no está hecha de cero material.
Más bien, se trata de una prenda con 24 pulgadas de busto, 16 pulgadas de cintura y
27 de cadera. Además, las razones no tienen significado alguno. Si divide una talla
28 entre una talla 14, no obtiene la misma respuesta que si divide una talla 20 entre
una 10. Ninguna razón es igual a dos, como sugeriría el número de talla. En resumen,
si las distancias entre los números tienen sentido, aunque las razones no, entonces
tiene una escala de intervalo de medición.
1
Las clasificaciones de datos se ordenan de acuerdo con el grado que posea de la característica en cuestión.
Diferencias iguales en la característica representan diferencias iguales en las mediciones
12
TALLA 8 10 12 14 16 18 20 22 24 26 28
BUSTO (inch) 32 34 36 38 40 42 44 46 48 50 52
CINTURA (inch) 24 26 28 30 32 34 36 38 40 42 44
CADERAS (inch) 35 37 39 41 43 45 47 49 51 53 55
4. Razón. Todos los datos cuantitativos son registrados en el nivel de razón de la

medición.Posee todas las características del nivel de intervalo, aunque, además, el
punto 0 tiene sentido y la razón entre dos números es significativa.
Ejemplo 2.8 El dinero ilustra bien el caso. Si tiene cero dólares, entonces no tiene
dinero. El peso constituye otro ejemplo. Si el cuadrante de la escala de un dispositivo
correctamente calibrado se ubica en 0, entonces hay una ausencia total de peso. La razón
entre dos números también resulta significativa. Si José gana $4000 anuales vendiendo
seguros y Alejandro gana $8000 al año en el negocio de los automóviles,entonces Alejandro
gana el doble de lo que gana José
2.6. Ejercicios
Ejercicios 2.1 Responder.
1. Establecer las diferencias entre variables cualitativas y cuantitativas.
2. Definir al menos dos ejemplos de variables cualitativas y de variables cuantitativas.
3. Establecer las diferencias entre variables discretas y continuas.
4. Definir al menos dos ejemplos de variables discretas y de variables continuas.
Ejercicios 2.2 Recientemente, las tiendas Laureles y Cooper comenzaron a vender Digital,
un dispositivo mediante el cual se pueden descargar electrónicamente más de 1500 libros,
y leerlos en un pequeño monitor en vez de comprarlos. Asuma que usted tiene el número
de Digital vendidas cada día durante el último mes, en la tienda de Laureles y Cooper de
Metrocentro San Salvador. Describa una condición en la que esta información podría ser
considerada una muestra. Ejemplifique una segunda situación en la que los mismos datos
podrían ser considerados una población.
Ejercicios 2.3 La empresa de publicidad Roquez y asociados, con sede en Santa Tecla, solicitó
a una muestra de 1960 consumidores que probaran un platillo con pollo recién elaborado por
Pollolandia. De las 1960 personas de la muestra, 1176 dijeron que comprarían el alimento si
se comercializaba.
a) ¿Qué podría informar Roquez y asociados a Pollolandia respecto de la aceptación en la
población del platillo de pollo?
b) ¿Es un ejemplo de estadística descriptiva o estadística inferencial? Explique su
respuesta.
Ejercicios 2.4 En cierto estudio, se desea conocer las preferencias de los electores sobre
los candidatos en una elección presidencial, con el objeto de realizar predicciones sobre
el resultado de la elección. Elija cuál sería la mejor definición de la población de interés
en este caso:
1. Todos los salvadoreños.
13
2. Todos los salvadoreños inscritos en algún partido político.
3. Todos los salvadoreños mayores de 18 años.
4. Todos los salvadoreños residentes en la Región Metropolitana
Ejercicios 2.5 En cada una de las siguientes situaciones, identifique la muestra utilizada:
1. En un centro escolar se desea investigar el número de hermanos que posee cada alumno.
Para esto se pregunta cuántos hermanos tienen a un grupo de 20 niños del centro escolar.
2. Se desea investigar el porcentaje de hogares en el país que han sido víctima de un

asalto durante el último año. Para esto se entrevistan a 1000 hogares elegidos en 15
municipios diferentes del país.
Ejercicios 2.6 ¿Cuál es el nivel de medición de cada una de las siguientes variables?
1. Coeficientes intelectuales de los estudiantes.
2. La distancia que viajan los estudiantes para llegar a clases.
3. Los números en los jerseys de un equipo universitario femenino de fútbol.
4. Una clasificación de estudiantes por fecha de nacimiento.
5. Una clasificación de estudiantes que cursan primero, segundo, tercero o último grados.
6. Número de horas que los alumnos estudian a la semana
Ejercicios 2.7 Alumnos de séptimo grado desean realizar una actividad para recaudar fondos
para la compra de varios juegos de mesa para donar a su centro escolar. Ellos deciden
realizar una encuesta y así recolectar información sobre la preferencia de juegos de mesa
de todos los niños y niñas del centro escolar. Los encuestados fueron un grupo de alumnos
sentados en la cafetería.
1. ¿Cuál es la población en este contexto?
2. Describa las limitaciones de la muestra.
3. Explique una mejor manera de obtener una muestra representativa.
Ejercicios 2.8 Señalar, en cada caso, qué tipo de variable es, si es más conveniente estudiar
la población o una muestra.
14
Variable Tipo de Variable Población o Muestra
La estatura de los 20 alumnos de una clase
La talla de pantalones de los hombres de

un Municipo de Chalatenango
Las aficiones deportivas de los alumnos

de un instituto
El color de cabello de los alumnos

de una clase
Número de personas que viven en cada

apartamento de un edificio
Equipo de fútbol preferido por cada

alumno de una clase
Temperaturas medidas en la ciudad de

San Miguel a lo largo del mes de marzo
El peso de cada uno de los 20 alumnos

de una clase
Ejercicios 2.9 Sus alumnos han mostrado interés por estudiar si hay diferencias entre los
hábitos de estudio de su grado, octavo A y el octavo B.
1. Qué variables cree usted que sería interesantes que ellos recolectaran?
2. Para cada una de las variables propuestas en el literal anterior, indique si es

cualitativa, nominal u ordinal, o cuantitativa, discreta o continua.
3. Qué preguntas se podrían generar para recolectar información sobre las variables?
15
3. Unidad II: Estadística Descriptiva.
3.1. Tablas de Frecuencias.
Supongamos que hemos recogido un conjunto de n datos englobados en una variable X. La
tabla que recoge de modo sistemático estos datos se denomina distribución de frecuencias. La
Distribución de Frecuencias (Simples o agrupadas en intervalos). Comúnmente llamada tabla de
frecuencias, se utiliza para hacer la presentación de datos provenientes de las observaciones
realizadas en el estudio, estableciendo un orden mediante la división en clases y registro
de la cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la
realización de un mejor análisis e interpretación de las características que describen y
que no son evidentes en el conjunto de datos brutos o sin procesar.
Tabla 1. Distribución de frecuencias simple

Frecuencias Absolutas Frecuencias Relativas
Datos Simples Acumuladas Simples Acumuladas
x1 n1 N1 = n1 f1 = n1 /n F1 = N1 /n
x2 n2 N 2 = n1 + n2 f2 = n2 /n F2 = N2 /n
.
. .
. .. .. ..
. . . . .
Pk
xk nk Nk = i=1 ni fk = nk /n Fk = Nk /n
Totales
Pk Pk
i=1 ni =n i=1 fi =1
Ejemplo 3.1 (Datos no agrupados)

Se tiene los datos recopilados acerca de la variable X: número de ausencias a clase que
tienen los estudiantes de una determina sección.
0, 1, 2, 2, 1, 3, 2, 1, 4, 2, 4, 3, 2, 0, 0, 2, 2, 3, 0, 3. ¿Qué tipo de variable es esta?.
Construcción de la tabla o distribución de frecuencias simple.
Solución:
¿Qué tipo de variable es ésta?: Variable cuantitativa discreta.
Al tratarse de una variable discreta (un conteo siempre tomará valores enteros) y con
pocos valores diferentes, no parece necesario crear clases para agrupar los datos. En este
caso k = 5 (son cinco los valores distintos de X: 0, 1, 2, 3 y 4).
16
Distribución de frecuencias simple
Frecuencias Absolutas Frecuencias Relativas Frecuencias Porcentuales
Datos Simples Acumuladas Simples Acumuladas Simples Acumuladas

0 4 4 0.2 0.2 20 % 20 %
1 3 7 0.15 0.35 15 % 35 %
2 7 14 0.35 0.7 35 % 70 %
3 4 18 0.2 0.9 20 % 90 %
4 2 20 0.1 1 10 % 100 %
Totales 20 1 100 %
Interpretación de las distintas frecuencias:
n1 = 4 indica que hay 4 alumnos del grupo que no tienen ausencias.
n3 = 7 indica que hay 7 estudiantes del grupo que tienen 2 ausencias.
f4 = 0.20 indica que el 20 % de los estudiantes tienen 3 ausencias
f5 = 0.10 indica que el 10 % de los estudiantes tienen 4 ausencias
N2 = 7 indica que hay 7 estudiantes que tienen hasta (o como máximo) 1 ausencia
N4 = 18 indica que hay 18 estudiantes que tienen hasta 3 ausencias
F2 = 0.35 indica que el 35 % de los estudiantes tienen hasta 1 ausencia.
F3 = 0.70 indica que el 70 % de los estudiantes tienen hasta 2 ausencias.
Agrupación de los datos en clases.
La agrupación de datos en clases incluye muchas cuestiones subjetivas, como facilidad o

conveniencias de agrupación, diversidad de criterios o necesidades de la investigación; e
incluso puede depender de la propia naturaleza de los datos.
Se debe considerar también que la agrupación de datos siempre conlleva un grado de pérdida
de información, pues ya no se cuenta con todos y cada uno de los valores de la variable
sino con los intervalos creados; no obstante, esta pérdida de información en general no es
significativa para el análisis global. En tal sentido, cuando en la muestra existen muchos
valores diferentes y mucha variabilidad se recomienda, aún a costa de perder información,
agrupar los datos en clases, en lo que se denomina distribución de frecuencias agrupada en
intervalos y los valores de la variable son tomados como las marcas de clases o puntos medios
de los intervalos. El número de clases en que se dividen los datos no debe ser excesivo, es
recomendable trabajar un mínimo de 6 a un máximo de 15 clases o intervalos.
17
Tabla 2. Distribución de frecuencias agrupadas en intervalos
Marca Frecuencias Absolutas Frecuencias Relativas
Clases de Clase Simples Acumuladas Simples Acumuladas
[L0 , L1 [ x1 n1 N1 = n1 f1 = n1 /n F1 = N1 /n
[L1 , L2 [ x2 n2 N2 = n1 + n2 f2 = n2 /n F2 = N2 /n
.. .
. .
. .. .. ..
. . . . . .
Pk
[Lk−1 , Lk [ xk nk Nk = i=1 ni fk = nk /n Fk = Nk /n
Totales
Pk Pk
i=1 ni =n i=1 fi =1
Cuando se trabaje con datos agrupados en clase vamos a recurrir al siguiente convenio:
intervalos abiertos en el límite superior y cerrados en el límite inferior, así: [Li−1 ; Li ),
que el valor que cierra una clase es el mismo que abre la siguiente.
Uno de los criterios más utilizados para construir las tablas de frecuencias agrupadas
es el siguiente:
1. Determinar el recorrido de la variable (R), definido como la diferencia entre el valor

máximo y el mínimo de la variable: R = Xmax − Xmin
2. Definir el número de intervalos o clases (6 ≤ k ≤ 15): La práctica indica que menos de

6 clases suele ser muy poco y que en general más de 15 clases puede ser excesivo.
3. Determinar la amplitud o ancho de estos intervalos (c), como el cociente del recorrido de
los datos entre la cantidad de clases que se decidió usar, aproximado convenientemente
y siempre por exceso: c ≈ R/k
4. Crear las clases, partiendo del valor mínimo observado (xmin ) o un valor inferior, y
sumando sucesivamente el ancho de clases (c) determinado.
5. Clasificar la variable en las distintas clases, obteniendo las frecuencias absolutas

correspondiente (ni ).
6. Calcular las restantes frecuencias deseadas: relativas (fi ), absolutas acumuladas (Ni ),
relativas (fi ) y relativas acumuladas (Fi ).
7. Determinar las marcas de clases (Xi o punto medio de cada clase P mi ), valores que
representarán a sus respectivas clases.
Ejemplo 3.2 Datos agrupados.
Los siguientes valores corresponden al registro del consumo de gasolina de una flota de
50 taxis, en litros, un día dado: 46, 39, 34, 33, 32, 36, 41, 26, 32, 36, 43, 28, 30, 27,
32, 42, 30, 31, 34, 41, 28, 30, 26, 21, 37, 39, 25, 33, 47, 28, 26, 23, 30, 43, 40, 36, 21,
38, 31, 38, 29, 30, 48, 47, 23, 31, 24, 38, 35, 36.
18
¿Qué tipo de variable es ésta?
Construir una tabla de frecuencias en 6 clases.
Solución
¿Qué tipo de variable es ésta?

Aunque los datos observados son todos enteros la variable es continua, por su propia
naturaleza (de hecho, un taxi podría haber consumido 24.75 litros de gasolina).
Ahora, construir la tabla de frecuencias:
Se tiene n = 50 taxis (tamaño de la muestra).
Determinación del recorrido: R = Xmax − Xmin = 48 − 21 = 27

Definición del número de clases a usar:
Para 50 observaciones podrían usarse 6, 7 u 8 clases, según decisión de quien va a
organizar los datos. Como se mencionó anteriormente consideremos, en este caso k = 6.
Determinación del ancho de clases: c ≈ R/k = 27/6 = 4.5 ≈ 5
(El valor R/k = 4,5 se redondea a 5 porque no tendría sentido en este caso hacer
los intervalos de amplitud decimal, ya que complicaría, en vez de facilitar, la
interpretación y el trabajo con la información; obsérvese que esta aproximación fue a
un valor superior al verdadero cociente, es decir, por exceso.)
Creación de las clases:
Se podría partir del valor Xmin = 21, pero resulta más cómodo comenzar ligeramente por
debajo de él, en 20, de manera que la primera clase sea desde 20 a 20 + c (ya se tiene
c = 5), o sea, de 20 hasta menor que 25; la segunda de 25 hasta menor que 30 incluyendo
el 25 (límite inferior), y así sucesivamente hasta la sexta clase (k = 6), que sería
desde 45 hasta menor que 50.
Determinación de las marcas de clases Xi ó P mi :
Para el promedio de los límites de clase se tiene que: Xi = (Li + Li−1 ) /2. Así:
X1 = (20 + 25)/2 = 45/2 = 22.5; X2 = (25 + 30)/2 = 55/2 = 25.5 y así sucesivamente.
Clasificación de la variable y cálculo de las distintas frecuencias:
[Li−1 ; Li ) Xi ni Ni fi Fi
[20, 25[ 22.5 5 5 0.10 0.10
[25,30[ 27.5 9 14 0.18 0.28
[30, 35[ 32.5 15 29 0.30 0.58
[35,40[ 37.5 11 40 0.22 0.80
[40, 45[ 42.5 6 46 0.12 0.92
[45,50[ 47.5 4 50 0.08 1
Totales n=50 1
19
Interpretación de las distintas frecuencias:
• n2 = 9: indica que hay 9 taxis que consumieron entre 25 y 30 litros de gasolina,

o que consumieron como promedio 27,5 litros (utilizando la marca de clases)
• f3 = 0.30: indica que el 30 % de los taxis consumieron entre 30 y 35 litros de
gasolina, o que consumieron 32,5 litros como promedio.
• N4 = 40: indica que 40 taxis consumieron menos de 40 litros de gasolina (Las
frecuencias acumuladas se interpretan utilizando el límite superior del intervalo,
nunca con la marca de clases.)
• F5 = 0.92: indica que el 92 % de los taxis consumió menos de 45 litros de gasolina.
3.1.1. Ejercicios
Ejercicios 3.1 Karen realizó una encuesta para conocer las mascotas favoritas de sus
compañeros de curso. Ella construyó una tabla con los datos que recolectó, pero se le
rompió la hoja y perdió información. El trozo de hoja que Karen pudo rescatar fue:
¿Cuántos alumnos marcaron la preferencia Otras/No tiene? Justifique su respuesta.
Ejercicios 3.2 En una colonia populosa de un Municipio de San Salvador, donde cada vivienda
tiene únicamente dos habitaciones, se ha realizado un estudio en 34 hogares para conocer
el porcentaje de viviendas con hacinamiento (hacinamiento: tres o más individuos por
habitación). A continuación se presenta el número de individuos por vivienda: 2, 4, 4,
8, 6, 6, 7, 5, 7, 8, 9, 3, 2, 5, 8, 9, 9, 11, 10, 7, 7, 3, 5, 4, 8, 9, 11, 9, 8, 8, 5, 7,
3, 11.
1. Obtenga una tabla de distribución de frecuencias.
2. ¿Qué porcentaje de viviendas se encuentran en situación de hacinamiento?
3. ¿Qué porcentaje de hogares está compuesto por 8 o menos miembros?
4. ¿Qué porcentaje de individuos vive en hogares con 8 o menos miembros? ¡¡¡OJO: No

confundirla con el numeral 3.!!!
Ejercicios 3.3 En un examen de Matemática aplicado a un grupo de alumnos se obtuvo las

siguientes calificaciones:
20
Notas Frecuencias
Menor que 2 6
Menor que 4 14
Menor que 6 21
Menor que 8 31
Menor que 10 40
Construir una tabla de frecuencias.
¿Qué porcentaje de estudiantes aprobó el examen? (se aprueba con 6 ó más)
Ejercicios 3.4 Una entidad bancaria dispone de 50 sucursales en el territorio nacional y ha

observado el número de empleados que hay en cada una de ellas para un estudio posterior.
Las observaciones obtenidas han sido: 12, 10, 9, 11, 15, 16, 9, 10, 10, 11, 12, 13,14,15,
11, 11, 12, 16, 17, 17,16,16, 15, 14, 12, 11, 11, 11, 12, 12, 12, 15, 13, 14, 16, 15, 18,
19, 18, 10, 11, 12, 12, 11, 13, 13, 15, 13, 11, 12.
1. Calcule la distribución de frecuencias de la variable obteniendo las frecuencias
absolutas, relativas y sus correspondientes acumuladas.
2. ¿Qué proporción de sucursales tiene más de 15 empleados?
Ejercicios 3.5 Investigados los precios por habitación de 50 hoteles del país se ha obtenido
los siguientes resultados (en cientos de dólares):
7, 3, 5, 4, 5, 7, 4, 7.5, 8, 5, 5, 7.5, 3, 7, 10, 15, 5, 7.5, 12, 8, 4, 5, 3, 5, 10, 3, 4,
5, 7, 5, 3, 4, 7, 4, 7, 5, 4, 7, 10, 7.5, 7, 8, 7.5, 7, 7.5, 8, 7, 7, 12, 8.
a) ¿qué tipo de variable es?
b) Construya la distribución de frecuencias para esta variable.
Ejercicios 3.6 Realizada una encuesta en una región del país, se han agrupado los establecimientos
hoteleros por el número de cuartos, obteniéndose la siguiente distribución:
Cuartos Nº de hoteles Cuartos Nº de hoteles
[0,100[ 25 [400,500[ 21
[100,200[ 37 [500,600[ 13
[200,300[ 12 [600,700[ 5
[300,400[ 22 [700,800[ 3
Determine el número de establecimientos hoteleros con más de 300 cuartos.
Determine el porcentaje de establecimientos que tienen más de 100 cuartos y hasta 400.
¿Que tipo de variable es ésta?
¿Por qué, siendo ese el tipo de variable, la tabla de frecuencia es de esta forma?
Ejercicios 3.7 Las edades de los empleados de una determinada empresa son las que aparecen
en la siguiente tabla:
Edad Nº de empleados
Menos de 25 22
Menos de 35 70
Menos de 45 121
Menos de 55 157
Menos de 65 184
21
Sabiendo que el empleado más joven tiene 18 años, escríbase la distribución de frecuencias
para datos agrupados (amplitud del intervalo definida según su conveniencia).
3.2. Representación gráfica.

Variables discretas.
Diagrama de Barras. Permite visualizar de forma sencilla la distribución de una

variable cualitativa. Se dibuja sobre cada categoría una barra (o rectángulo) cuya
altura coincida con la frecuencia absoluta o relativa de dicha clase.
Ejemplo 3.3 Para hacer un trabajo en casa sobre el medio ambiente, unos estudiantes
han recogido información sobre el tiempo de descomposición de varios tipos de basura
que la gente desecha:
Tipo de basura Tiempo de descomposición
Cáscara de banano 3 años
Cáscara de naranja 3 años
Cajas de cartón 0.5 años
Chicles 25 años
Periódicos unos pocos días
Vasos de plástico Más de 100 años
Un estudiante piensa en cómo representar los resultados mediante un diagrama de barras.

Dar una razón de por qué no resulta adecuado un diagrama de barras para representar
estos datos.
Diagrama de Pareto.2 Es como un diagrama de barras en el que se ordenan las clases

de mayor a menor frecuencia (absoluta o relativa). En la parte superior de la figura
2
Pareto enunció el principio basándose en el denominado conocimiento empírico. Estudió que la gente en su
sociedad se dividía naturalmente entre los «pocos de mucho» y los «muchos de poco»; se establecían así dos
grupos de proporciones 80-20 tales que el grupo minoritario, formado por un 20 % de población, ostentaba el 80 %
de algo y el grupo mayoritario, formado por un 80 % de población, el 20 % de ese mismo algo. En concreto, Pareto
estudió la propiedad de la tierra en Italia y lo que descubrió fue que el 20 % de los propietarios poseían el
80 % de las tierras, mientras que el restante 20 % de los terrenos pertenecía al 80 % de la población restante.
22
suele trazarse una línea que representa la suma de la frecuencia de cada clase y las
que la preceden, esto se usa para identificar la minoría de las características que
representan la mayoría de casos.
Ejemplo 3.4 En una investigación se ha observado que existe un aumento en las quejas
y reclamos recibidas en el último trimestre del año 2017.
Figura 2: Gráfico de Pareto
Análisis e interpretación:Esto significa que por ejemplo el 63 % de las quejas están

concentradas en las causas3 P1,P2,P3 y P4 (ver figura 2), entonces el analista comercial
va a enfocar su esfuerzo en disminuir esas causas entorno a dicho fenómeno.
Pictograma. Es una forma de representar las cantidades estadísticas por medio de

dibujos, utilizando para ello objetos y figuras. Las figuras empleadas deben explicarse
por sí mismas.
Ejemplo 3.5 En la figura 3 se representa el número de árboles plantados cada mes durante
un año.
Gráfico de Sectores. En el caso de variables cualitativas el diagrama circular se

utiliza con mucha frecuencia. Consiste en representar sobre un círculo los diferentes
atributos, mediante un sector circular de ángulo proporcional a la correspondiente
frecuencia. El ángulo de cada sector circular se calcula multiplicando por 360º la
3
Para este ejemplo las causas ya están ordenadas de forma descendente.
23
Figura 3: Pictograma
frecuencia relativa. Si el número de categorías es excesivamente grande, la imagen

proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo
tanto la situación ideal es cuando hay alrededor de cuatro o cinco categorías. Si hay
demasiadas categorías se recomienda el gráfico de barras.
Representación Gráfica de Variables Continuas.

Histogramas y Polígono de Frecuencias. El histograma y el polígono de frecuencias son
las representaciones gráficas usadas para distribuciones de frecuencias agrupadas en
intervalos. El histograma se construye dibujando en cada clase un rectángulo de base la
amplitud del intervalo y de altura se representan las frecuencias. Si desde el extremo
superior de cada una de las barras que representan los intervalos de clase se hace
una marca en el punto medio y luego se unen los puntos por línea recta se obtiene el
polígono de frecuencias. El polígono de frecuencias se lleva hasta el eje horizontal
en los extremos hasta los puntos que serían los puntos medios si hubiera una clase
adicional en cada extremo del histograma correspondiente. Esto permite que el área
total quede incluida. Es decir, el área total bajo el polígono de frecuencias equivale
al área bajo el histograma.
Ejemplo 3.6 Una empresa presenta las ganancias por ventas de vehículos el mes pasado
en la siguiente tabla.
Construiremos el gráfico con la observación que no hay espacio entre las barras. Ésta es
una característica del histograma, debida a que la variable marcada en el eje horizontal
es cuantitativa y pertenece a la escala de medición de intervalo. En una gráfica de
barras, la escala de medición es nominal y las barras verticales están separadas. Éstas
son diferencias importantes entre el histograma y la gráfica de barras.
En cuanto al polígono de frecuencias, primero se construyen los puntos medios de cada

clase, luego hay que desplazarse horizontalmente sobre la gráfica al punto medio,
24
$400, y en seguida de manera vertical al 8, la frecuencia de clase, donde se coloca
un punto. Los valores de X y de Y de este punto reciben el nombre de coordenadas. Las
coordenadas del siguiente punto son X=800 y Y=11. El proceso continúa con todas las
clases. Posteriormente, los puntos se conectan de manera ordenada. Es decir, que el
punto que representa la clase más baja se une al que representa la segunda clase y así
en lo sucesivo. Observe que en la gráfica, para completar el polígono de frecuencias,
se añaden los puntos medios de $0 y $3600 para anclar el polígono en la frecuencia
cero. Estos dos valores, $0 y $3600, se obtuvieron restando el intervalo de clase $400
al punto medio más bajo ($400) y sumando $400 al punto medio más alto ($3200) en la
distribución de frecuencias.
Es posible concluir lo siguiente:
• La ganancia que se obtuvo por la venta de un vehículo está en un rango de $200 a

$3400.
• Las ganancias se concentran entre $1000 y $3000. La ganancia sobre 157 vehículos,
u 87 %, cayeron dentro de este rango.
• La mayor concentración, o frecuencia más alta, se encuentra en la clase de $1800
a $2200. La mitad de esta clase es $2000. Por lo tanto, la ganancia típica en la
venta de un vehículo es de $2000.
Figura 4: Poligono de frecuencia e Histograma
3.2.1. Ejercicios
Ejercicios 3.8 Una empresa dedicada a la fabrocación de refrigeradores desea analizar cuales
son los defectos más frecuentes que aparecen en las unidades al salir de la línea de
producción. Para esto, empezó por clasificar todos los defectos posibles en sus diversos
tipos, un inspector revisa cada refrigerador a medida que sale de producción registrando
sus defectos de acuerdo con dichos tipos. Después de inspeccionar una muestra significativa
de ellos, se obtuvo los siguiente:
DEFECTO Rayas No funciona Mala Nivelación Motor no arranca No enfría Otros
FRECUENCIA 23 29 2 15 35 18
Realizar un gráfico de Pareto e interpreta los resultados.
Ejercicios 3.9 Predictive.com realiza una prueba de mercado de su nuevo sitio web y le
interesa saber con qué facilidad se navega en su diseño de página web. Selecciona al azar
2000 usuarios frecuentes de internet y les pide que lleven a cabo una búsqueda en la página
25
web. A cada uno de ellos le solicita que califique la relativa facilidad para navegar como
mala, buena, excelente o sobresaliente. Los resultados aparecen en la siguiente tabla:
Sobresaliente 1020
Excelente 580
Buena 300
Mala 100
1. ¿Qué tipo de escala de medición se emplea para facilitar la navegación?

2. Elabore una gráfica de barras con los resultados de la encuesta.
3. Construya una gráfica de circular con los resultados de la encuesta
Ejercicios 3.10 Investigados los precios por habitación de 50 hoteles del país se ha obtenido
los siguientes resultados (en cientos de dólares):
7, 3, 5, 4, 5, 7, 4, 7.5, 8, 5, 5, 7.5, 3, 7, 10, 15, 5, 7.5, 12, 8, 4, 5, 3, 5, 10, 3, 4,
5, 7, 5, 3, 4, 7, 4, 7, 5, 4, 7, 10, 7.5, 7, 8, 7.5, 7, 7.5, 8, 7, 7, 12, 8.
Elabore un gráfico de barras.
Ejercicios 3.11 Realizada una encuesta en una región del país, se han agrupados los
establecimientos hoteleros por el número de cuartos, obteniéndose la siguiente distribución:
Cuartos Nº de hoteles Cuartos Nº de hoteles
[0,100[ 25 [400,500[ 21
[100,200[ 37 [500,600[ 13
[200,300[ 12 [600,700[ 5
[300,400[ 22 [700,800[ 3
Construir un histograma y un polígono de frecuencias.
Ejercicios 3.12 Las comisiones que obtuvieron los once miembros del personal de ventas de
una fábrica de calzado durante el primer trimestre del año 2017 son las siguientes:
$1650 ,$1475 ,$1510 ,$1670 ,$1595 ,$1760 ,$1540 ,$1495 ,$1590 ,$1625 ,$1510
1. ¿Cómo se denomina a valores de $1650 y $1475?
2. Designe las cantidades que van de $1400 a $1500 como la primera clase; a las que
oscilan entre $1500 a $1600, como la segunda clase y así en lo sucesivo, y organice
las comisiones trimestrales como distribución de frecuencias.
3. ¿Cómo se denominan los números de la columna derecha de la distribución de frecuencias
que elaboró?
4. Describa la distribución de las comisiones trimestrales sobre la base de la distribución
de frecuencias. ¿Cuál es la concentración más grande de comisiones ganadas? ¿Cuál es
la menor y cuál la mayor? ¿Cuál es la típica cantidad ganada?
3.3. Medidas de Tendencia Central.

Los promedios o medidas de posición proporcionan valores típicos o representativos de la
variable en estudio. Podemos hablar de medidas de posición centrales, como la media (arit-
mética, geométrica y armónica), la mediana y la moda y medidas de posiciones no centrales,
como los cuartiles, quintiles, deciles y percentiles.
26
3.3.1. La Media Aritmética.
La media aritmética es la medida de posición más utilizada (está muy influenciada por los
valores extremos de la variable). Viene definida como la suma de los datos dividido por el
número de ellos. Dependiendo de la naturaleza de los datos que pretendemos promediar, será
conveniente el uso de otro tipo de medidas, como son la media geométrica (Todos los datos
son positivos y hay mucha dispersión; ejemplo: porcentajes, tasas de crecimiento, razones,
números índices, interés anual, inflación, etc.) y la media armónica (resulta poco influida
por la existencia de determinados valores muy grandes que el conjunto de los otros, siendo
en cambio sensible a valores muy pequeños), cuyas fórmulas se presentan en los siguientes
apartados. Si a cada observación se le asigna un valor diferente, dado en forma de peso,
y a continuación se calcula la media, nos encontramos con una media ponderada. La moda de
un conjunto de valores es aquel valor que ocurre con más frecuencia. Si todos los valores
son distintos, no hay moda, por otra parte, un conjunto de datos puede tener más de una moda.
La media aritmética es altamente sensible a cualquier cambio en los valores de la

distribución. No es recomendable su uso cuando la variable está dada en forma de tasas
o porcentajes. La media es representativa del conjunto de datos si se quiere promediar
cantidades semejantes, que presentan variaciones dentro de un margen razonable.
Propiedades de la media aritmética.
Verificar:
1. La media aritmética de una constante es igual a la constante.
2. La media del producto de una constante por una variable, es igual a multiplicar a la
constante por la media de la variable.
3. La media de una variable más (o menos) una constante será igual a la media de la
variable, más (o menos) la constante.
4. La media aritmética de una muestra dividida en submuestras, es igual, a la media

ponderada de las submuestras, tomando como ponderación los tamaños de las submuestras.
Esto es,
Pk
i=1 x̄i ni
x̄ = donde n = n1 + n2 + ... + nk
n
.
Ejemplo 3.7 Un inversionista tiene 1,200 acciones de un precio inferior a $ 3,490 dólares
siendo su valor promedio de $ 2,905; además, 800 acciones cuyo valor unitario es superior a
$ 3,490 y su valor promedio de $ 4,275. Calcular el valor promedio de las 2,000 acciones.
Solución:
Observe que se tienen dos tipos de acciones, por lo tanto, debe calcularse una media
ponderada así:
P2
1200(2905) + 800(4275)
i=1 x̄i ni
x̄ = = = 3, 453.
n 2000
El promedio de las 2000 acciones es de 3,453.
27
Datos Agrupados en Clases
Al trabajar con datos tabulados debe tenerse en cuenta que cada valor de la variable
(Xi ) se repite una determinada cantidad de veces (ni ), y por tanto, la expresión matemática
derivada de la definición de la media debe modificarse, como se muestra, multiplicando cada
valor (o punto medio de clases) por su respectiva frecuencia. Así:
Pk
i=1 P mi ni
x̄ =
n
3.3.2. La Media Geométrica (Mg).

La media geométrica se define como la raíz n-ésima de la multiplicación de los n valores
de la variable. Se utiliza cuando se quiere dar importancia a valores pequeños de la variable
o cuando se desea obtener el promedio de valores que están dados en progresión geométrica.4
En el campo industrial y comercial se utiliza para obtener promedios sobre el crecimiento
o decrecimiento de una variable. Por ejemplo, un capital ahorrado a una tasa de interés
compuesto, durante un periodo de tiempo.
Sean Y i1 , Y i2 , Y i3 , Y i4 ...Y in observaciones de los n valores de la variable. Entonces:
√
n
G = Mg = Y i1 ∗ Y i2 ∗ Y i3 ∗ Y i4 ∗ ... ∗ Y in
Ejemplo 3.8 Supongase que las utilidades obtenidas por una compañía constructora en cuatro
proyectos fueron de 3, 2, 4 y 9 %, respectivamente. ¿Cúal es la media geométrica de las
ganancias?.
Solución
La media geométrica de las utilidades es: (2 ∗ 3 ∗ 4 ∗ 9)1/4 = 3.83 %.
La media aritmética es 4.5 %. Aunque el valor 9 % no es muy grande, hace que la media
aritmética se incline hacia valores elevados. La media geométrica no se ve tan afectada
por valores extremos.
3.3.3. La Media Armónica (Ma).

Iniciamos diciendo que el inverso de la media armónica es igual a la media aritmética
del inverso de los valores de la variable, esto es:5
Pn ni
1 i=1 xi n
= =⇒ H = M a = Pn ni
Ma n i=1 xi
Suele emplearse para promediar rendimientos, velocidades, tiempos. Le afectan mucho los
valores pequeños de la variable; por ello no debe emplearse en tal caso.
4
Todos los elementos del conjunto tienen que ser mayores que cero. Si algún elemento fuese cero (Xi = 0),
entonces la MG sería 0 aunque todos los demás valores estuviesen alejados del cero.
5
Si los datos están agrupados, para calcular las medidas anteriores utilizamos las marcas de clase, es decir
xi indicará el punto medio del intervalo. La relación existente entre la media, la media geométrica, y la media
armónica sería: H ≤ G ≤ X̄
28
Ejemplo 3.9 Se sabe que dos obreros A y B, se tardan 50 y 40 minutos respectivamente en
reparar un par de zapatos. ¿Cuál es el tiempo promedio requerido para reparar un par de
zapatos?
Solución.
2
Ma = 1 1 = 44.44min
50 + 40
El mayor uso de la media armónica es para calcular la velocidad promedio.
Ejemplo 3.10 Supongamos que la distancia entre dos ciudades, A y B, es de 80 kilómetros y

entre B y C de 120 kilómetros. Si un automovilista recorre de A a B a una velocidad de
100Km/h y de B a C a una velocidad de 80Km/h. ¿Cuál es la velocidad promedio?
Solución
200
Ma = V m = 80 = 86.956Km/h
100 + 120
80
3.3.4. La Moda, (Mo).

Es una medida de posición, menos importante que los promedios y su uso es bastante
limitado. Se utiliza en distribuciones cuando la variable o el atributo presentan una
frecuencia demasiado grande con respecto a las demás.
La moda define aquel valor de la variable o del atributo que presenta la mayor densidad,
es decir, la mayor frecuencia.
Si se tiene un atributo o una variable con máxima frecuencia, la distribución es unimodal.
Si hay dos valores en la variable con la misma frecuencia máxima, la distribución es bimodal.
Si hay más de dos, la distribución es multimodal. Cuando ninguno de los valores que toma la
variable se repite, no existe moda.
Si los intervalos de clases son de distinta amplitud, la frecuencia absoluta de cada

intervalo (Li−1 , Li ] no es representativa, pero si lo es la correspondiente densidad de
frecuencia di = (Li−1 ni
,Li ] , que indica el número de observaciones por cada unidad de amplitud
de (Li−1 , Li ]. Así el intervalo modal es el de mayor densidad de frecuencia.
Datos Agrupados.
Una fórmula aproximada para la moda (Mo) cuando se tienen datos agrupados en clase, está
dada por:
ni+1

M o = Li−1 + Ci donde Ci : es el ancho de clase
ni+1 + ni−1
La fórmula anterior puede utilizarse cuando los intervalos de clases tienen la misma
amplitud. En caso que los intervalos no tengan la misma amplitud, es preciso conocer el
intervalo con mayor densidad de frecuencia, la cual viene dada por: di = C
ni
i
, y a continuación
se aplica la siguiente fórmula:
di+1

M o = Li−1 + Ci
di−1 + di+1
29
3.3.5. La Mediana, (Me).
La mediana de una distribución de frecuencia corresponde al valor, supuesto los datos
ordenados de menor a mayor, que deja a ambos lados el mismo número de observaciones. Cuando
calculamos la mediana en datos no agrupados, ordenamos las observaciones de menor a mayor
o viceversa. En su cálculo se presentan dos casos: Cuando el número de datos es impar: En
este caso la mediana coincide con el dato central. Cuando los datos son pares: La mediana
será el término medio de los dos valores centrales.
Para datos agrupados en clases la fórmula de la mediana se puede obtener utilizando el
figura 5.
Figura 5: Mediana
Por semejanza de triángulo, se tiene:
n/2 − Ni−1 ni n/2 − Ni−1

= =⇒ M e = Li−1 + Ci
M e − Li−1 Li − Li−1 ni
donde Ci es el ancho del intervalo i-ésimo.
Fórmula Empírica:M edia − M oda = 3(M edia − M ediana)
3.3.6. Ejercicios
Ejercicios 3.13 Se tiene los datos recopilados acerca de la variable X: número de ausencias
a clase que tienen los estudiantes de una determina sección.
Distribución de frecuencias simple
Frecuencias Absolutas Frecuencias Relativas
Datos Simples Acumuladas Simples Acumuladas

0 4 4 0.2 0.2
1 3 7 0.15 0.35
2 7 14 0.35 0.7
3 4 18 0.2 0.9
4 2 20 0.1 1
Totales 20 1
30
Calcular el promedio de inasistencias para los 20 estudiantes.
Ejercicios 3.14 Al calcular la media y la mediana de la distribución de salarios diarios de

un grupo de trabajadores municipales generó que la media es de $1138 y la mediana $1288; si
la distribución de salarios es moderadamente asimétrica,
a) ¿Cuál es el salario modal?
b) de acuerdo a estos resultados, ¿Qué tipo de asimetría tienen estos salarios?
Ejercicios 3.15 Entre agosto y noviembre del 2017 ingresaron al hospital Rosales, 200
pacientes con el diagnostico “diabetes”. El médico director pidió los datos sobre días de
estancia en el hospital de esos pacientes y encontró, al analizarlos, una estancia de 7
días, para el que había estado menos y estancia de 37 días para el de mayor estancia. La
suma total de las estancias era de 2,400 días. Además, observó que la estancia más frecuente
era 8 días, y que el 50 % de los pacientes permanecieron en el hospital más de 10 días. Se
pregunta:
a) ¿Cuál es el valor de la amplitud o rango c) ¿Cuál es el valor de la moda?

de la serie?
b) ¿Cuál es el valor de la media aritmética? d) ¿Cuál es el valor de la mediana?
Ejercicios 3.16 Suponga que los salarios pagados por la compañía A son:
Tipo de empleado Número Salario percápita

Directores 12 $1500
Supervisores 15 $800
Ingenieros 13 $1000
Obrero 1300 $300
Calcule:
a) La media aritmética c) La mediana
d) Determine cuál de las anteriores medidas

b) La moda describe mejor dicha información
Ejercicios 3.17 Para un grupo de 40 personas la edad media es de 25 años. Para otro grupo de
50, se desconoce la edad promedio. Sin embargo se sabe que la media de las noventa personas
es 20. ¿Cuál es la media del grupo de 50?
Ejercicios 3.18 Según estudios demográficos en el departamento de La Paz se sufre de un

fenómeno rápido de envejecimiento. El primer año aumentan un 10 % los mayores de 40 años ,
el segundo año un 20 % otros que cumplen 40 años, el tercer año un 30 % y el cuarto año, un
40 % sucesivamente.
Si la población inicial de mayores de 40 años es de 100 personas, ¿cuál será un mejor
indicador para caracterizar ese envejecimiento: la media aritmética o la media geométrica?
Ejercicios 3.19 El incremento porcentual de ventas de los pasados 4 meses en Daysi fashion
fue de 4.91, 5.75, 8.12 y 21.60.
a) Determine la media geométrica del incremento porcentual.
b) Determine la media aritmética del incremento porcentual.
c) ¿La media aritmética es igual o mayor que la media geométrica?
31
Ejercicios 3.20 La recuperación en una inversión que realizó Petrosal durante cuatro meses
consecutivos fue de de 30 %,20 %,40 %,200 % respectivamente ¿Cuál es la media geométrica de
la recuperación de la inversión?
Ejercicios 3.21 Una muestra de mujeres solteras, residentes en La Unión, que reciben pagos
por seguros; reveló los siguientes subsidios mensuales: $852, $598, $580, $1374, $960, $878
y $1130.
a) ¿Cuál es la mediana del subsidio mensual? b) ¿Cuántas observaciones se encuentran

debajo de la mediana? ¿Por encima de ella?
Ejercicios 3.22 El siguiente gráfico resume el gusto por la Matemática de un grupo de

estudiantes.
1. ¿Qué medidas de centralización pueden utilizarse?
2. Construya la tabla de frecuencia simple.
Ejercicios 3.23 Las medias aritmética, geométrica y armónica de dos números enteros positivos
distintos son números enteros. Hallar el menor valor posible para la media aritmética.
Ejercicios 3.24 En una nueva zona de expansión de la ciudad, la constructora Roble está
construyendo casas, apartamentos de dos habitaciones y dúplex. El precio por metro cuadrado
de la cerámica del piso de las cocinas en las casas es de 42 dólares, en los apartamentos
con dos habitaciones es de 30 dólares y en los dúplex es de 24 dólares y el coste total
de los suelos de cocina en cada tipo de viviendas es de 35 994, 21 600 y 10 080 dólares
respectivamente.
Calcúlese el precio medio por metro cuadrado de cerámica del suelo de las cocinas en
toda la obra.
Ejercicios 3.25 Una empresa dedicada al transporte de viajeros cuenta con 100 vehículos para
largos recorridos.
El pasado año la distribución del número de kilómetros recorridos, en miles, por los vehículos
se recoge en la siguiente tabla.
32
Kilómetros Recorridos 100 120 160 230 250
Nº de vehículos 20 10 60 5 5
1. ¿Qué número de kilómetros recorre la mayoría de vehículos?
2. Hállese el número mínimo de kilómetros que tiene que recorrer un vehículo para estar
dentro del 50 por ciento de los que más kilómetros recorren.
Ejercicios 3.26 Se tienen tres ciudades A, B y C. La distancia que hay de B a C es el triple

de la distancia de A a B; y la distancia de C a A es el doble de la distancia de B a C. Un
automovilista viaja de A a B a 70 Km/h de B a C a 75 Km/h y de C a A 85 Km/h. Determine el
promedio de velocidad para el viaje completo.
Ejercicios 3.27 En una empresa con dos plantas, A y B, se producen diariamente 2,000 piezas
en A y 3,200 en B. Si la productividad media es de 20 por obrero en A y de 16 piezas por
obrero en B, determinar la productividad media para toda la empresa.
Ejercicios 3.28 El siguiente polígono de frecuencias acumuladas (figura 6) representa la

distribución de la cantidad, en kilogramos, de carne picada que se ha vendido diariamente
en una carnicería en un cierto periodo.
Figura 6: Polígono de Frecuencias Acumuladas
1. Calcule la cantidad media vendida diariamente.
2. Calcúle la cantidad máxima de carne que se ha vendido el 42.5 por ciento de los días
que menos se ha vendido.
Ejercicios 3.29 El servicio municipal de agua de una ciudad está realizando un estudio con
objeto de una privatización. Entre otros datos se ha obtenido que el consumo de agua, en
metros cúbicos, de las 2000 familias de dicha ciudad durante el último trimestre del año es
el que se presenta en la siguiente gráfico 7:
1. Calcúlese la cantidad media trimestral consumida por familia.
2. Sabiendo que el precio promedio por metro cúbico de agua es de 50 ctvos de dólar y
que, cada trimestre se paga una cantidad fija de 2 dólares por alquiler del contador
y 6 dólares en concepto de aguas negras, ¿Cuál ha sido el importe medio por familia
abonado dicho trimestre?
33
Figura 7: Comsumo de agua y número de familias
Ejercicios 3.30 De un grupo de 100 obreros en una fábrica, 40 trabajan en el día y 60 en la

noche. Se sabe que el salario promedio anual de los 100 obreros es de 8,700 dólares y que
los del turno de día reciben en promedio 800 dólares menos que los trabajadores nocturnos.
¿Cuál es el salario promedio anual en cada grupo?
Ejercicios 3.31 En un supermercado trabajan 35 mujeres, con un salario promedio mensual de
650 dólares y 15 hombres, en promedio ganan un 12 por ciento más que las mujeres ¿Cuál es
el salario promedio de los empleados del supermercado?
Ejercicios 3.32 Durante un mes se construyeron 134 Km de carretera en la siguiente forma:
3.6 por ciento del total en la primera semana; 15.3 por ciento del total en la segunda
semana; 7.6 por ciento en la tercera semana; 24.5 por ciento en la cuarta semana y en la
última semana el 49 por ciento. La construcción promedio por día en cada semana fue de:
0.9Km/d, 3.4Km/d, 1.7Km/d, 5Km/d y 10Km/d, respectivamente. Hallar la medida de tendencia
central que mejor represente el promedio de esta distribución y calcular su promedio.
Ejercicios 3.33√ La media aritmética de tres números es 7, su mediana es 6 y su media
geométrica es 3 216. Con los tres números calcular la media armónica.
Ejercicios 3.34 Se sabe que la media aritmética de dos números es 5 y la media geométrica
es 4. ¿Cuál es el valor de la media armónica?
Ejercicios 3.35 Una compañía requiere los servicios de un técnico especializado. De los
expedientes presentados, se han seleccionado 2 candidatos: A y B, los cuales reúnen los
requisitos mínimos requeridos. Para decidir cuál de los 2 se va a contratar, los miembros
del Jurado deciden tomar 7 pruebas a cada uno de ellos. Los resultados se dan a continuación:
Pruebas 1 2 3 4 5 6 7
Puntaje obtenido por A 57 55 54 52 62 55 59
Puntaje obtenido por B 80 40 62 72 46 80 40
1. Calcule e interprete la media, mediana y moda de los dos candidatos.

2. Estadísticamente ¿Cuál de los candidatos debe ser contratado? Fundamente su respuesta.
Ejercicios 3.36 Se toman las medidas de 80 personas las que tienen estatura media de 1.6 m
y desviación estándar de 3.4 cm. Posteriormente se verificó que la media usada tenía 4 cm
menos que la media real. Rectifique los estadígrafos (estadísticos) mencionados.
34
3.4. Medidas de Posición: Cuartiles, Quintiles, Deciles y Percentiles.
Cuartiles. Dada una serie de valores X1 , X2 , X3 , ..., Xn ordenados en forma creciente, los
cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes
porcentualmente iguales. Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo
cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo
del cual queda un cuarto (25 %) de todos los valores de la sucesión (ordenada); el tercer
cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75 %)
de los datos.
La forma de calcular las medidas de posición (cuantiles) son análoga a la de la mediana:

Primero se calcula la posición del cuantil. Ejemplo: La posición del primer cuartil: 1*(n)/4
y para el tercer cuartil 3*(n)/4.
Quintiles.
La posición del i-ésimo quintil es i*n/5. El primer quintil. Separa a la muestra dejando al
20 % de los datos a su izquierda. El segundo quintil. Es el valor que indica que el 40 % de
los datos son menores. El tercer quintil. Indica que el 60 % de los datos son menores que
él. El cuarto quintil. Separa al 80 % de los datos inferiores del otro 20 %.
Deciles.
Son 9 valores que distribuyen en diez tramos iguales, la serie de datos, ordenada de forma
creciente o decreciente, en los que cada uno de ellos concentra el 10 % de los resultados.
Su fórmula aproximada para la posición del decil i-ésimo es i*n/10, donde la i toma valores
del 1 al 9.
De forma análogo se definen los Percentiles, teniendo presente que ahora la serie de
datos se divide en 100 partes iguales. La posición del i-ésimo percentil es i*n/100, donde
la i toma valores del 1 al 99. El i % de la muestra son valores menores que él y el (100-i) %
restante son mayores.
Ejemplo 3.11 Las notas finales del Módulo de Teoría del Número son las siguientes: 6.7, 8.2,
8.9, 7.9, 8.1, 7.6, 8.5, 7.3, 8.6, 8.8, 8.8, 7.7, 8.2, 7.7, 7.1, 9.0, 8.5, 9.3, 8.8, 8.1,
8.4, 6.9, 9.2, 8.2, 8.6, 7.0. ¿Cálcule el percentil 90?
Solución.
1. Ordenar los datos de menor a mayor:

6.7, 6.9, 7.0, 7.1, 7.3, 7.6, 7.7, 7.7, 7.9, 8.1, 8.1, 8.2, 8.2, 8.2, 8.4, 8.5, 8.5,
8.6, 8.6, 8.8, 8.8, 8.8, 8.9, 9.0, 9.2, 9.3.
90(26)
2. La posición del percentil 90 es: 100 = 23.4, el cual se encuentra entre las
calificaciones 8.9 y 9.0.
3. El percentil 90 es el promedio de 8.9 y 9.0, es decir, P90=(8.9+9.0)/2 = 8.95.
4. Conclusión: Sólo hay 3 profesores (alumnos) que tienen notas arriba del percentil 90,
que equivale al 10 % de los estudiantes.
35
Cálculo de cuantiles para datos agrupados en clases. El cálculo es similar al de la
mediana, hay que empezar calculando el intervalo cuya frecuencia acumulada sea igual o mayor
que el valor jn/k, y a continuación aplicar la siguiente fórmula:
jn/k − Ni−1

Qj,k = Li−1 + Ci
ni
donde k = 4 (j = 1, 2, 3) para los cuartiles, k = 10 (j = 1, 2, . . . , 9) para los deciles,
k=100 (j= 1, 2, . . . , 99) para los percentiles.
Ejemplo 3.12 El ejemplo 1.3 se refiere al registro de consumo de gasolina de una flota de
50 taxis y se obtuvo la siguiente tabla de frecuencias:

[Li−1 ; Li ) Xi ni Ni fi Fi
20 -< 25 22.5 5 5 0.10 0.10
25 -< 30 27.5 9 14 0.18 0.28
30 -< 35 32.5 15 29 0.30 0.58
35 -< 40 37.5 11 40 0.22 0.80
40 -< 45 42.5 6 46 0.12 0.92
45 -< 50 47.5 4 50 0.08 1
Totales n=50 1
¿Calcular el decil 7?
Solución
1) Calcular la posición del Decil 7, esto es: 7(50)/10 = 35.
2) Buscar la primera frecuencia acumulada mayor o igual que 35 (Posición del Decil 7),
ésta se encuentra en la clase 35− < 40 (Clase del Decil 7), cuya frecuencia acumulada es
40.
3) Aplicar la fórmula del decil 7.
7(50)/10 − Ni−1 35 − 29

D7 = Li−1 + Ci = 35 + 5 = 37.73
ni 11
Recordar que para datos agrupados se tienen aproximaciones de las medidas de posición.
Se interpreta que sólo el 30 % de los taxis consumen más de 37 litros de gasolina.
3.4.1. Ejercicios
Ejercicios 3.37 Utilizando observaciones recolectadas en todas sus sucursales, un banco
determinó que el primer cuartil de tiempos de espera de sus clientes en la fila es de 3
minutos, y el tercer cuartil es de 8 minutos. Para cada una de las siguientes aseveraciones,
indique si son siempre verdaderas. En caso de no serlo, justifique.
36
1. Aproximadamente, la mitad de las personas debe esperar entre 3 y 8 min.
(3 + 8)
2. La mediana es = 5.5 min.
2
3. Aproximadamente, el 25 % de las personas debe esperar, al menos, 8 min.
4. No es posible obtener los quintiles a partir de esta información.
Ejercicios 3.38 Para cada una de las siguientes aseveraciones, indique si es verdadera o
falsa. En caso de ser falsa, indique por qué.
1. El percentil 25 corresponde a un valor tal que aproximadamente un 25 % de los valores

del conjunto de datos son menores o iguales a él.
2. El segundo cuartil corresponde a la media.
3. El percentil 75 también se conoce como tercer cuartil.
4. Los cuartiles Q1 , Q2 yQ3 , dividen al conjunto de datos en 3 grupos de aproximadamente

igual tamaño.
5. El segundo quintil es un valor tal que, aproximadamente, un 40 % de los datos es menor

o igual a él.
6. También se conoce como segundo quintil a un grupo consistente en un 20 % del conjunto

de datos, que contiene los valores entre los percentiles 20 y 40.
7. Un cuartil siempre corresponde a un valor en el conjunto de datos.
Ejercicios 3.39 Se obtiene las calificaciones de una tarea de un grupo de estudiantes

8,7.5,8,9,9.5,6,7,8.5,4.5,5,5.5,3,9,8,8.5,9,7.5,6.5,4,7.5,4,6.4,8.5,9,6,6,6.5,5,8.5,7,8.5.Calcular:
Los tres cuartiles
El decil 5 y 8.
El percentil 42.
Interprete los resultados obtenidos.
3.5. Medidas de Variabilidad.

Las medidas de dispersión estudian la separación existente entre los diversos valores
que toma la variable. Se dividen en medidas de dispersión absoluta y relativa. Las absolutas
suelen hacer referencia a un promedio, y permiten estudiar su representatividad. Este tipo
de medidas depende de las unidades, lo que es un inconveniente para realizar comparaciones
entre poblaciones. En este sentido, las medidas de dispersión relativas no dependen de las
unidades y permiten comparar variabilidad entre poblaciones.
Desviación absoluta media. Se define como la media aritmética de los valores absolutos
de las diferencias de los datos a la media, es decir:
n
1X
Dx̄ A = |xi − x̄| ni
n i=1
37
La media aritmética es más representativa de los datos cuanto menor sea Dx̄ .
Desviación mediana. Se define como la media aritmética de los valores absolutos de las
desviaciones de la variable respecto a la mediana, es decir:
n
1X
DM e = |xi − M e| ni
n i=1
La mediana es más representativa de los datos cuanto menor sea DM e .
Varianza, desviación típica y coeficiente de variación
La varianza es una medida de dispersión que sirve para estudiar la representatividad de

la media. Viene definida como la media de las diferencias cuadráticas de las puntuaciones
respecto a su media aritmética. Normalmente a partir de la varianza se obtiene la desviación
típica o estándar y se define como la raíz cuadrada positiva de la varianza, a continuación
se presentan dichas fórmulas:
v
k u k
1X u1 X
S2 = (xi − x̄)2 ni =⇒ S= t (xi − x̄)2 ni
n i=1
n i=1
Una varianza grande es indicativa de que la media no es representativa, mientras que una
varianza pequeña indica que la media es un buen representante de los datos. Con el objeto de
tener una medida de dispersión similar a la varianza, pero que venga medida en las mismas
unidades de la variable, es recomendable utilizar la desviación típica.
Si a los datos de la distribución le sumamos una cantidad constante la varianza no
se modifica y si multiplicamos por una constante, la varianza queda multiplicada por el
cuadrado de esa constante.
En ocasiones puede interesar comparar la dispersión de dos muestras y la desviación

típica no ser válida, si las dos muestras tienen unidades diferentes. Para evitar este
S
inconveniente se define el coeficiente de variación CV = .
x̄
Este coeficiente expresa el número de veces que la desviación típica contiene a la media
aritmética. Cuanto mayor sea CV , menor es la representatividad de x̄.
3.5.1. Ejercicios
Ejercicios 3.40 Los gastos mensuales en pan de una familia en los últimos cinco meses han
sido: 15,20,25 y 30 dólares.
1. Calcula la media y la desviación típica de estas cantidades.
2. Si el precio del pan sube un 10 % y la familia sigue consumiendo igual, ¿cuál será la
media y la desviación típica de los gastos actuales?
Ejercicios 3.41 Un fumador, alarmado por los efectos negativos que el tabaco tiene para la
salud, ha decidido dejar de fumar en un plazo de cuatro semanas por el método de fumar cada
día la mitad de lo que ha fumado el mismo día de la semana anterior. Ha hecho hecho una
estadística durante una semana anotando los cigarros fumados cada día; el resultado aparece
en la tabla siguiente:
38
Lunes Martes Miércoles Jueves Viernes Sábado Domingo
12 12 16 16 24 24 8
1. Calcula la media y la desviación típica del número de cigarros que fuma diariamente.
2. A partir de los resultados anteriores, di cuánto valdrán la media y la desviación típica

de los cigarros que fumará esta persona en cada una de las cuatro semanas siguientes
si lleva a cabo el plan que se propone.
Ejercicios 3.42 Dos comerciantes dedicados a la venta de frijol registran una venta en
libras, durante 9 semanas:
Comerciante A: 47, 45, 46, 49, 48, 46, 47, 48, 47
Comerciante B: 44, 47, 50, 57, 37, 44, 47, 50, 47
Al observar los datos, ¿podrías determinar cuántas libras de frijol debe tener listo de
promedio diariamente cada vendedor? De los vendedores ¿cuál presenta ventas más homogéneas?
Ejercicios 3.43 Para el ejercicio 3.7 calcular:
a) La varianza y desviación b) El coeficiente de c) Interprete los resultados

típica variabilidad
Ejercicios 3.44 Para el ejercicio 3.11 calcular:
a) La varianza y desviación b) El coeficiente de c) Interprete los resultados

típica variabilidad
Ejercicios 3.45 Diez supervisores revisaron un producto que se pretende sacar al mercado en
una escala de 1 a 50. Sus calificaciones fueron: 34, 35, 41, 28, 26, 29, 32, 36, 38, 40. a)
¿Cuál es el valor de la amplitud de las calificaciones?
b) ¿Cuál es el valor de la media aritmética?
c) Calcule la desviación típica, varianza, coeficiente de variabilidad e interprete el
resultado
d) Un segundo grupo supervisores revisó el mismo producto. La amplitud fue 9, la media
43.5 y la desviación típica 3. Compara estas calificaciones con las del primer grupo ¿Qué
concluyes?
Ejercicios 3.46 Señala qué afirmación no es cierta:
1. La varianza siempre es mayor que la media aritmética
2. La media aritmética de un conjunto de valores es siempre mayor o igual que el mínimo

de esos valores
3. La desviación típica es una medida de dispersión
Ejercicios 3.47 En un estudio hecho a cuatro equipos de baloncesto se han obtenido las
siguientes medias y desviaciones típicas de las alturas de sus jugadores medidas en
centímetros:
39
Equipo A B C D
x̄ 198.5 198.1 193 193.4
σ 9.7 3.9 4.6 8.1
Y sus gráficas, pero sin ordenar son las siguientes :
Asocia cada gráfica al equipo correspondiente y razona la respuesta.
Ejercicios 3.48 El salario promedio anual en una ciudad es de 8,000 dólares con una varianza
de 1,000 dólares ¿Cuáles serán la nueva media y la nueva varianza si se efectúan los
siguientes cambios:
1. Se aumenta 810 dólares a todos
2. Se aumenta el 15 por ciento de su salario a cada trabajador
3. Si se duplican los sueldos.
Ejercicios 3.49 En un examen 20 alumnos del curso A obtienen una media de 60 puntos y
desviación estándar de 20 puntos. En el curso B los alumnos obtienen una media de 80 y
desviación estándar de 16. Ante un reclamo se decide subir un 5 por ciento más 5 puntos
adicionales a todos los alumnos del curso A, en cambio como hubo muchas copias en el curso B
se decidió disminuir la quinta parte de la calificación. Después de los mencionados ajustes
¿Cuál es el puntaje medio de los 50 alumnos?
40
Ejercicios 3.50 Una empresa dedicada al cultivo y explotación de naranjos posee 5 fincas.
La producción de naranjas y el rendimiento medio por hectárea para cada una de las fincas
están dados en la siguiente tabla. Calcular el rendimiento medio por hectárea para el total
de las 5 fincas.
Fincas 1 2 3 4 5
Producción (Tn) 15 5 20 8 30
Rendimiento (Tn/He) 9 2 10 4 20
41
4. Unidad III: Inferencia Estadística.
La Inferencia Estadística es la parte de la Estadística encargada de estudiar métodos para
la obtención de conclusiones generales en la población o poblaciones objeto de investigación,
a partir de la información que proporciona una muestra.
La inferencia estadística se divide en: estimación de parámetros y prueba de hipótesis.
Existen dos tipos de estimaciones para parámetros; puntuales y por intervalo.
4.1. Propiedades Deseables de los Estimadores Puntuales.

4.1.1. Estimación Puntual.
Una estimación puntual es un único valor estadístico y se usa para estimar un parámetro.
El estadístico usado se denomina estimador.
Por tanto los estimadores puntuales son las medidas descriptivas numéricas aplicadas a las
características de las unidades de la muestra. La estimación hace referencia a los valores
numéricos de los parámetros poblacionales desconocidos, a los cuales se llega mediante una
muestra.
Por ejemplo, la media muestral x̄ es un estimador puntual de la media poblacional µ, la
desviación muestral s estima a la desviación poblacional σ y la proporción muestral es un
estimador puntual de la proporción poblacional P.
La distancia entre el estimador y el parámetro a estimar puede medirse mediante el error
cuadrático medio, que se define como el valor esperado del cuadrado de la diferencia entre
el estimador y el parámetro.
2
ECM (θ̂) = E[θ − θ̂]
2
El ECM puede escribirse como: ECM (θ̂) = VAR [θ̂] + [θ − E(θ̂)] ; una es la varianza del
estimador y la otra el cuadrado del sesgo.
Características deseables de los Estimadores.

Insesgado.
Un estimador es insesgado (o centrado) si la esperanza del estimador coincide con el parámetro
a estimar E(θ̂) = θ.
Consistencia.
Se dice que un estimador es consistente si se aproxima cada vez más al valor del parámetro
a medida que se aumenta el tamaño de la muestra.
P [(θ̂ − θ) > ] → 0; si n → ∞, → 0
Eficiencia.
Un estimador será eficiente cuando su varianza sea menor, ya que se concentra más alrededor
del verdadero valor del parámetro.
Suficiencia.
Se dice que un estimador es suficiente si se utiliza toda la información relevante contenida
en una muestra para la estimación del parámetro.
4.2. Distribuciones Muestrales Importantes.

4.2.1. Distribución de la Media Muestral.
Cuando el muestreo se realiza a partir de una población que sigue una distribución normal,
la distribución de la medida de la muestra tiene las siguientes propiedades:
42
1. La distribución de X̄ será normal (es combinación lineal de variables normales)
2. La media µx̄ , de la distribución de X̄ será igual a la medida de la población de la cual

se seleccionaron las muestras.
3. La varianza, σx̄2 , de la distribución de X̄ será igual a la varianza de la población

dividida entre el tamaño de la muestra.
Teorema 4.1 Teorema del Límite Central.

Dada una población de cualquier forma funcional no normal con una media µ y varianza finita
σ 2 , la distribución muestral de X̄, calculada a partir de muestras de tamaño n de dicha
población, será casi normal con media µ y varianza σ 2 /n, cuando la muestra es muy grande.
Matemáticamente se tiene: !
σ2
X̄ ∼ N µ,
n
Obviamente se tiene que estandarizar la media muestral para trabajar con la N (0, 1), esto
es:
X̄ − µ
Z= √
σ/ n
Observe que el teorema del límite central permite tomar muestras a partir de poblaciones
con distribución no normal y garantizar que se obtengan aproximadamente los mismos resultados
que si la población tuviera una distribución normal, siempre que se tome una muestra muy
grande.
4.2.2. Distribución de la Media para Muestras Pequeñas.

Sea X1 , X2 , . . . , Xn una muestra de una población normal con media µ y varianza finita σ 2 ,
si la varianza es conocida, aunque la muestra sea pequeña (n < 35), se tiene que:
!
σ2
X̄ ∼ N µ,
n
Ahora, si la varinza es desconocida la distribución de X̄ queda indeterminada en la

expresión anterior, por lo que requiere obtener una nueva distribución, para ello, recordar
2
que (n−1)S
σ2
∼ χ2n−1 , definamos la variable T como:
X̄−µ
√
σ/ n
T = q ∼ tn−1
S2
σ2
Realizando operaciones y simplificando en la expresión anterior se tiene:
X̄ − µ
T = √ ∼ tn−1
S/ n
En resumen, si la varianza es desconocida para la estandarización de la media muestral
se utiliza la distribución t-Student. Este resultado se utilizará mucho en el desarrollo de
intervalos de confianza y contraste de hipótesis.
43
Ejemplo 4.1 Suponga que en una población grande de seres humanos, la dimensión del diámetro
craneal sigue una distribución aproximadamente normal, con una media de 185.6 mm y una
desviación estándar de 12.7 mm. ¿Cuál es la probabilidad de que una muestra aleatoria de
tamaño 10 de esta población tenga una media mayor que 190?
Solución.

190−185.6
P (X̄ > 190) = P Z > √
12.7/ 10
= P (Z > 1.1) = 0.1357
Por lo tanto, se puede decir que la probabilidad de que la muestra de tamaño 10 tenga una
media mayor que 190 es 0.1357.
4.2.3. Distribución de la Diferencia entre Las Medias de dos Muestras.

Con frecuencia, el interés en una investigación se dirige hacia dos poblaciones.
Específicamente, puede ser que un investigador desee saber algo acerca de la diferencia
entre las medias de dos poblaciones. En una investigación, por ejemplo, el investigador tal
vez deseará saber si es razonable concluir que dos medias poblacionales son diferentes.
Lo que se pretende es calcular la distribución de la diferencia entre las medias de

las muestras. Suponga que se tienen dos poblaciones independientes, con medias y varianzas
finitas, µ1 y µ2 y σ12 y σ22 , respectivamente. Sean X1 , X2 , . . . , Xn1 y Y1 , Y2 , . . . , Yn2 las muestras
de la población 1 y 2, respectivamente, entonces:
σ12 σ22
E(X̄ − Ȳ ) = µ1 − µ2 , V (X̄ − Ȳ ) = n1 + n2
Ahora, por el Teorema del Límite central si las muestras son grandes (n1 , n2 > 30) se
tiene que:
σ2 σ22

X̄ − Ȳ ∼ N µ1 − µ2 , n11 + n2
Nuevamente se tiene que estandarizar la diferencia de medias muestrales para trabajar

con la N (0, 1), esto es:
Ȳ )−(µ1 −µ2 )
(X̄−q
Z= σ2 σ2
1+ 2
n1 n2
Ahora, supongamos que las varianzas son desconocidas pero iguales σ12 = σ22 = σ 2 y se
tienen las cuasi-varianzas muestrales S12 y S22 , pero como las varianzas poblacionales son
iguales se requiere tener un único estimador, para ello, definamos el siguiente estimador
de la varianza común:
(n1 −1)S12 +(n2 −1)S22
Sp2 = n1 +n2 −2
(n +n −2)S 2
Se puede demostrar que 1 σ22 p
tiene una distribución Chi-cuadrado con n1 + n2 − 2
grados de libertad. Así la variable aleatoria T definida por:
(X̄−Ȳ )−(µ1 −µ2 )
q
σ2 σ2
1 2
n1 + n2
T = q 2
∼ tn1 +n2 −2
Sp
σ2
44
Ahora, sustituyendo σ12 y σ22 por σ 2 , este último se sustituye por su estimador Sp2 y
simplificando en la expresión anterior, se tiene:
(X̄−Ȳ )−(µ1 −µ2 )
T = q ∼ tn1 +n2 −2
1
Sp n1
+ n1
2
En resumen, si las varianzas son desconocidas pero iguales, para la estandarización de

la diferencia de medias muestrales se utiliza la distribución t-Student. Este resultado se
utilizará mucho en el desarrollo de intervalos de confianza y contraste de hipótesis.
4.2.4. Ejercicios
Ejercicios 4.1 Los pesos de sandías maduras producidas en una granja están normalmente
distribuidos con una desviación estándar de 2.8 libras. Encuentre el peso medio de las
sandías maduras si sólo 4 % pesan menos de 15 libras.
Ejercicios 4.2 Según los resultados de un examen en 2017, encontraron que los estudiantes
tenían una calificación media de lectura de 21.3, con una desviación estándar de 6.0.
Suponiendo que las calificaciones están normalmente distribuidas:
a. Encuentre la probabilidad de que un estudiante seleccionado al azar tenga una calificación
de lectura menor a 20.
b. Encuentre la probabilidad de que un estudiante seleccionado al azar tenga una calificación
entre 18 y 24.
c. ¿Cuál debe ser la nota mínima para aceptar al 40 % de los estudiantes?
Ejercicios 4.3 Una distribución normal tiene una media de 80 y una desviación estándar de
14. Determine la probabilidad por encima del cual se presentará 80 % de las observaciones.
Ejercicios 4.4 Se sabe que los tiempos “en espera”, para quien hace llamadas a una empresa
local de televisión por cable, están normalmente distribuidos con una desviación estándar
de 1.3 minutos. Encuentre el tiempo promedio “en espera” de quien llama, si la compañía
afirma que no más de 11 % de quienes llaman esperan más de 6 minutos.
Ejercicios 4.5 Si la media y desviación estándar de la concentración de hierro en el suero

en hombres sanos es de 120 y 15 microgramos por cada 100 ml, respectivamente, ¿cuál es la
probabilidad de que una muestra aleatoria de 50 hombres normales tenga una media entre 115
y 125 microgramos por cada 100 ml.
Ejercicios 4.6 Si las concentraciones de ácido úrico en hombres adultos normales siguen
una distribución aproximadamente normal, con una media y desviación estándar de 5.7 y 1
mg por ciento, respectivamente, encuentre la probabilidad de que una muestra de tamaño 9
proporcione una media:
1. Mayor que 6
2. Entre 5 y 6
3. Menor que 5.2
Ejercicios 4.7 Para cierto sector amplio de la población en un año determinado, suponga que
el número medio de días de incapacidad es de 5.4, con una desviación estándar de 2.8 días.
Encuentre la probabilidad de que una muestra aleatoria de tamaño 49 de esa población tenga
una media:
45
1. Mayor a 6 días
2. Entre 4 y 6 días
3. Entre 4.5 y 5.5 días.
Ejercicios 4.8 El tiempo que tarda una persona resolviendo el examen de admisión a la UES
tiene una distribución normal con media 3 horas. Se sabe que la probabilidad de que una
muestra de 20 estudiantes tarden en promedio más de 3 horas con 15 minutos es del 5 %.
Determinar la desviación estándar de la duración del examen.
Ejercicios 4.9 Suponga que se tienen dos poblaciones de individuos. Una de ellas (la
población 1) ha experimentado alguna enfermedad que se considera está asociada con retraso
mental, y la otra (la población 2) no ha experimentado tal enfermedad. Se cree que la
distribución de calificaciones de inteligencia de cada una de las poblaciones presenta una
distribución aproximadamente normal con una desviación estándar de 20. Suponga, también,
que se toma una muestra de 15 individuos de cada población y se calcula en cada muestra
la media de las calificaciones de inteligencia, con los siguientes resultados: x̄1 = 92 y
x̄2 = 115. Si no hay diferencia entre las dos poblaciones con respecto a la media real de las
calificaciones de inteligencia ¿cuál es la probabilidad de que la diferencia de las medias
sea mayor de 15 puntos?
Ejercicios 4.10 Suponga que se estableció que para cierto tipo de pacientes el tiempo
promedio de visita domiciliaria hecha por una enfermera es de 45 minutos con una desviación
estándar de 15 minutos, y para un segundo tipo de paciente, el promedio de visita domiciliaria
es de 30 minutos con una desviación estándar de 20 minutos. Si la enfermera visita al azar
a 32 pacientes del primer tipo y 40 del segundo tipo, ¿cuál es la probabilidad de que el
tiempo promedio de visita domiciliaria difiera entre los dos grupos por 20 minutos o más?
4.3. Intervalos de Confianza.

4.3.1. Intervalos de Confianza de Medias y Proporciones.
No siempre resulta conveniente realizar la estimación puntual, debido a que no proporciona
suficiente información acerca del parámetro de interés, ya que un solo número puede no
resultar muy significativo, es decir, que no puede estimar con exactitud el valor del
parámetro de la población. Sin embargo, no se puede considerar que un estimador puntual
obtenido a partir de una muestra grande, llegue a ser exactamente igual al valor del parámetro
de la población. Por esta razón resulta más conveniente determinar un intervalo dentro del
cual se esperará que se encuentre el valor del parámetro, a este método se le conoce como
estimación por intervalo.
A los estimadores por intervalo generalmente se les llama intervalos de confianza, este
contiene un conjunto de valores posibles del parámetro a estimar obtenidos a partir de la
muestra aleatoria de la cual se determina el estadástico de interés. Para llevar a cabo la
estimación por intervalo es necesario conocer: el nivel de confianza y el error estándar.
4.3.2. Intervalo de Confianza para la Media Poblacional, σ Conocida (n ≥ 30)

Si se dispone de una población que tiene una variable aleatoria X con distribución
N (µ, σ) y con σ conocida, y anteriormente se estudió que la distribución muestral de las
medias corresponde a:
46

X̄ ∼ N µ, √σn
Se quiere estimar la media poblacional µ a partir de la media muestral x̄, obteniendo

para ello un intervalo de forma que tenga una probabilidad alta de que la media poblacional
está en dicho intervalo.
Tipificando la expresión anterior:
X̄−µ
Z= √σ ∼ N (0, 1)
n
Si se fija una probabilidad α, se puede obtener −z y z que limitan un área de valor

1 − α.Al despejar µ se obtiene el intervalo de confianza para la media poblacional. En el
siguiente gráfico se ilustra esta situación:
Figura 8: Intervalo de confianza para µ con σ conocido
De un total de k muestras seleccionadas de una población, se definen k medias aritméticas,

que constituyen el 100 % de medias, de las cuales con una de ellas se estima µ con un nivel
de confianza de (1 − α)100 % .
Si el nivel de confianza fuese del 95 % en el siguiente gráfico se muestra como se comportarán
los intervalos construidos por cada media muestral al estimar a µ.
Figura 9: Interpretación del nivel de confianza en un intervalo para la media de una

distribución normal.
47
Ejemplo 4.2 Una institución gubernamental realizó una encuesta para estimar el gasto promedio
que los fumadores invierten en cigarrillos durante una semana. Un muestra de 49 fumadores
reveló que el gasto promedio es de $20.00 con una desviación de $ 5.00.
1. ¿Cuál es el estimador puntual de la media poblacional?
2. Utilizando un nivel de confianza del 95 %, determinar el intervalo de confianza para µ

, interprete el resultado.
3. Suponga que la muestra es de 64 fumadores, con base a la información del ejemplo,

determine el estimador puntual y el intervalo de confianza.
4.3.3. Intervalo de Confianza para la Media Poblacional, σ es Desconocida (n ≥ 30)

Sustituimos el valor de σ por la desviación estándar de la muestra s y los límites del
intervalo de µ se encuentran mediante la expresión:
x̄ ± Zα/2 √sn
Ejemplo 4.3 De un grupo de 300 estudiantes de nuevo ingreso en un Instituto Nacional, se

seleccionaron de manera aleatoria 30 calificaciones de Matemática, las que a continuación
se presentan:
71 49 78 58 82 53 75 73 58 74
57 70 76 62 71 54 62 86 58 86
50 73 64 68 56 45 72 65 87 56
Construya un intervalo de confianza del 99 % para la calificación promedio de la población
4.3.4. Intervalo de Confianza para Estimar la Diferencia de Medias Poblacionales (µx − µy ).

Se puede aplicar un argumento similar en lo planteado anteriormente para desarrollar el
intervalo de confianza para estimar a (µx − µy ), es necesario definir la varianza V (x̄ − ȳ) =
σx2 σ2
nx + nyy , si se conoce las variancias poblacionales, en caso de no conocerlas se sustituyen
2 s2
por las desviaciones muestrales V (x̄ − ȳ) = nsxx + nyy .
El intervalo de confianza para la diferencia de medias se expresan como sigue:
r
s2x s2y
x̄ − ȳ ± zα/2 nx + ny
Ejemplo 4.4 En un estudio para comparar los pesos promedio de niños y niñas de sexto grado
en una escuela primaria se seleccionó una muestra aleatoria de 20 niños y otra de 25 niñas.
Se sabe que tanto para niños como para niñas los pesos siguen una distribución normal. El
promedio de los pesos de todos los niños de sexto grado de esa escuela es de 90 libras y su
desviación estándar es de 8 libras, mientras que el promedio de los pesos de todas las niñas
del sexto grado de esa escuela es de 80 libras y su desviación estándar es de 6 libras.
Encuentre el intervalo de confianza de la diferencia de los pesos promedio de los niños
y niñas con un nivel de confianza del 99 %
48
4.3.5. Estimación por Intervalo para Proporciones.
Si el estadístico es la proporción de éxitos en una muestra de tamaño n ≥ 30 extraída de
una población binomial en la que P es la proporción de éxito (es decir, la probabilidad de
éxito), los límites de confianza para P vienen dados por p̂ ± zα/2 σp donde p̂ es la proporción
de éxitos en la muestra de tamaño n. El intervalo de confianza del (1 − α)100 % para estimar
una proporción P , se expresa como:
p̂ − zα/2 σp < P < p̂ + zα/2 σp
Donde σp es el error estándar de la proporción, el cual mide la variabilidad en la
distribución de muestreo de la proporción muestral se representa como:
q
p̂q̂
σp = n
Ejemplo 4.5 Un partido político pretende conocer la intención de voto de cara a las próximas
elecciones. Para ello encarga un sondeo sobre un total de 230 personas, de las que 69
contestan que votarán.
1. Hallar un intervalo de confianza del 90 % para la verdadera proporción población.
2. Encuentre un intervalo de confianza del 99 % para la proporción poblacional.
4.3.6. Estimación por Intervalo para Diferencias de Proporciones.

Un intervalo de confianza para la diferencia de proporciones se obtiene aplicando la
fórmula siguiente:
q
pˆx qˆx pˆy qˆy
pˆx − pˆy ± zα/2 nx + ny
Ejemplo 4.6 Una muestra aleatoria de 400 adultos y 600 adolescentes que ven un cierto
programa de televisión. 100 adultos y 300 adolescentes dijeron que les gustaba. Hallar los
límites de confianza del 95 % y del 99 % para la diferencia de proporciones de todos los
adultos y adolescentes que ven el programa y les gusta.
4.3.7. Estimación de µ para Muestas Pequeñas (n < 30).

Si la muestra es pequeña (n < 30) sus valores promedios se aproximan a una distribución
t-student. Para construir intervalos de confianza para la media poblacional µ, con muestras
pequeñas normalmente distribuidas, debe utilizarse la distribución t- student, la cual es
similar a la normal, pero su forma depende del tamaño n de muestra.
El intervalo de confianza para µ se encuentra utilizando la expresión:
P {x̄ − t(α/2;n−1) √sn ≤ µ ≤ x̄ + t(α/2;n−1) √sn } = 1 − α
Ejemplo 4.7 Los ingresos mensuales de las familias de una comunidad se encuentran distribuidos
normalmente. De esta se selecciona una muestra de 16 familias para estimar el ingreso promedio
mensual. De la información de la muestra se obtuvo una desviación estándar de $12 y una
media de $300.
1. Encuentre un intervalo de confianza del 95 % para el ingreso promedio de las familias
de la comunidad.
2. Encuentre un intervalo de confianza del 99 % para el ingreso promedio de las familias
de la comunidad.
3. ¿Qué conclusión realiza de los resultados obtenidos en a) y b)?
49
4.3.8. Intervalos de Confianza para Diferencia de Medias Poblacionales (n < 30).
Los intervalos de confianza para la diferencia de medias poblacionales en muestras
pequeñas normalmente distribuidas, utilizan la distribución t- student y se calculan
aplicando la expresión siguiente:
2
2 S2
r Sx
nx
+ nyy
s2x s2y
(x̄ − ȳ) ± t(α/2;gl) nx + ny donde: gl = 2
2 S 2 2
Sx y
nx ny
nx −1
+ ny −1
Ejemplo 4.8 Una muestra de tamaño 10 de una población de mujeres presenta una altura media
de 156 cm y una muestra de 12 hombres de otra población presenta una altura media de 160 cm.
Sabiendo que ambas poblaciones son normales con desviaciones de 5 cm y 7 cm respectivamente.
1. Determine el intervalo para diferencias de las medias poblacionales para el 90 % de

confianza
2. ¿Qué conclusión realiza al respecto de las alturas de las mujeres y hombres?
4.3.9. Intervalos de Confianza para Una Proporción Poblacional P (n < 30).

Los intervalos de confianza para proporciones se obtienen mediante la fórmula siguiente:
q
p̂q̂
p̂ ± t(α/2;n−1) n
Ejemplo 4.9 La oficina gubernamental de salud desea realizar una campaña a fin de disminuir
el porcentaje de funcionarios públicos que tienen el hábito de fumar en horas de trabajo,
para ello decide realizar una investigación por muestreo a 28 funcionarios, encontrando que
16 de ellos fuman.
1. Determinar el intervalo de confianza del 90 % con respecto a la proporción de funcionarios

que fuman.
2. Determinar el intervalo de confianza del 99 % con respecto a la proporción de funcionarios
que fuman.
4.3.10. Ejercicios
Ejercicios 4.11 La Universidad de Monseñor Romero está llevando a cabo un estudio sobre el
peso promedio de los adoquines que conforman los andadores del campus. Se envía a algunos
trabajadores a desenterrar y pesar una muestra de 421 adoquines, y el peso promedio de la
muestra resulta ser 14.2 libras. Todo mundo sabe que la desviación estándar del peso de un
adoquín es 0.8 libras. ¿Cuál es el intervalo alrededor de la media de la muestra que incluirá
la población de la media 95.5 % de las veces?
Ejercicios 4.12 La encargada de el área de salud para estudiantes de una clínica está
interesada en conocer la estatura promedio de los estudiantes del último año, pero no tiene
suficiente tiempo para examinar los registros de los 430 estudiantes. Por ello, selecciona
48 al azar y encuentra que la media de la muestra es 64.5 pulgadas y la desviación estándar
es 2.3 pulgadas.
Construya un intervalo de confianza del 90 % para la media.
50
Ejercicios 4.13 El encargado de control de calidad de LLantas .El pinchazo", desea estimar
la cantidad media que gastan los clientes que visitan el local de ventas. Una muestra de 20
clientes revela las siguientes cantidades (en dólares).
49.20 43.35 45.79 56 67.90 42.13 37.89 38.99 47.76 37.00
45.67 47.00 42.34 35.70 38.96 35.99 50.00 47.78 38.65 41.63
a)¿Cuál es la mejor estimación de la media poblacional?

b)Determine un intervalo de confianza de 95 %. Interprete el resultado.
c) ¿Concluiría de forma razonable que la media poblacional es de $50? ¿Y de $60?
Ejercicios 4.14 El oso blanco Hornea y vende pan en 50 lugares de todo el país. Esta
es una nueva empresa y la gerente de ventas quiere conocer porque mucho se ausentan sus
trabajadores. La siguiente información se refiere al número de días de ausencias de una
muestra de 10 trabajadores durante las últimas dos semanas.
3 0 1 2 2 1 2 2 1 4
Determine la media y la desviación estándar de la muestra.
¿Cuál es la media de la población?
¿Cuál es la mejor estimación de dicho valor?
Construya un intervalo de confianza de 95 % de la media poblacional.
¿Es razonable concluir que la trabajadora común no falta ningún día durante un periodo
de pago?
Ejercicios 4.15 La siguiente tabla presenta los resultados de dos muestras aleatorias para
comparar el contenido de alcohol de dos marcas de cervezas.
Marca A Marca B
Muestra 35 40
Media 2.7 3.1
Desviación tpíca muestal 0.7 0.5
Suponiendo que los conjuntos de datos provienen de muestras tomadas al azar de poblaciones
normales, construya un intervalo de confianza del 99 % para la diferencia real de grado de
alcohol de las dos marcas de cervezas.
Ejercicios 4.16 Luis Pacheco observó una diferencia en el total en dólares de las ventas
entre los hombres y las mujeres que emplea como vendedores. Una muestra de 40 semanas reveló
que los hombres venden una media de $1400 por concepto de venta de celulares por semana. En
una muestra de 50 semanas, las mujeres vendieron una media de $1500 por concepto de venta
de celulares por semana. Suponga que la desviación estándar de los hombres es de $200 y la
de las mujeres de $250. Calcule un intervalo de confianza con el 95 % para la diferencia de
promedios entre hombres y mujeres.
Ejercicios 4.17 Una muestra aleatoria de 50 calificaciones de Estadística de un total de

200, arroja una media de 75 y una desviación típica de 10.
a) ¿ Cuáles son los limites de confianza del 95 % para la estimación de la media de las 200
calificaciones?
51
b) ¿ Con qué nivel de confianza podrá decirse que la media de las 200 calificaciones es
75 ± 1 ?
Ejercicios 4.18 Juana es la vicepresidenta de un grupo de doctores de un determinado

departamento. Hace poco observó que en las ofertas de trabajo para doctores que pertenecen
a un sindicato, los sueldos son más altos que para las no que no pertenecen a un
sindicato.Decidió investigar y reunió la información siguiente.
Grupo Salario medio Desviación estándar Tamaño de la muestra
Sindicalizados $900 $150 29
No sindicalizados $895 $140 25
Con un nivel de confianza del 99 %. ¿Cómo interpretaría las diferencias de medias?
Ejercicios 4.19 La siguiente tabla presenta los resultados de dos muestras aleatorias para
comparar el contenido de alcohol de dos marcas de cervezas.
Marca A Marca B
Muestra 8 10
Media 2.7 3.1
Desviación tpíca muestal 0.7 0.5
Suponiendo que los conjuntos de datos provienen de muestras tomadas al azar de poblaciones
normales, construya un intervalo de confianza del 99 % para la diferencia real de grado de
alcohol de las dos marcas de cervezas.
Ejercicios 4.20 En dos ciudades se lleva a cabo una encuesta sobre el costo de la vida
para obtener el gasto semanal promedio en alimentación en familias constituidas por cuatro
personas. De cada ciudad se seleccionaron aleatoriamente una muestra de 20 familias y se
observaron que en la primera ciudad se obtuvo una media de $135 y una desviación tÃpica de
$15 y en la segunda ciudad se obtuvo una media de $122 y una desviación tÃpica de $10.
Se consideran que los datos referidos a cada población son independientes y con distribución
normal.
a) Obtener el intervalo de confianza del 95 % de la diferencia entre las ciudades
b) Se estará inclinado a concluir que existe una diferencia real entre µ1 y µ2
Ejercicios 4.21 María considera postularse para la alcaldía de la ciudad de Santa Ana. Antes
de solicitar la postulación, decide realizar una encuesta entre los electores del municipio.
Una muestra de 400 electores revela que 300 la apoyarían en las elecciones de noviembre.
Construya el intervalo de confianza de 99 % de la proporción poblacional.Interprete sus
resultados.
Ejercicios 4.22 Corporación de televisoras considera reemplazar uno de sus programas de

entretenimiento, que se transmite durante las horas de mayor audiencia, por un programa de
debate político Antes de tomar una decisión definitiva, los ejecutivos estudian una muestra
de 400 telespectadores. Después de ver el programa de entretenimiento, 250 afirmaron que la
verían y sugirieron reemplazar el programa de el programa de entretenimiento.
Construya el intervalo de confianza de 99 % de la proporción poblacional.Interprete los
resultados que obtuvo.
52
Ejercicios 4.23 En cierto instituto de enseñanza secundaria hay matriculados 800 alumnos. A
una muestra seleccionada aleatoriamente de un 15 % de ellos, se les preguntó si utilizaban
la cafeteríaa del instituto. Contestaron negativamente un total de 24 alumnos. Halla el
intervalo de confianza del 99 % para estimar la proporción de alumnos que utilizan la
cafeteríaa del instituto.
Ejercicios 4.24 Se tiene que reparar una máquina en cierta fábrica si produce más del 10 %
de artículos defectuosos del gran lote de producción de un día. Una muestra aleatoria de 100
artículos de la producción contiene 15 defectuosos y el supervisor decide que debe repararse
la máquina. ¿ La evidencia de la muestra apoya la decisión del supervisor? Utilice un nivel
de significancia del 1 %.
Ejercicios 4.25 Una agencia de empleos, critica el hecho de que el 30 % de las personas que
son colocadas no pasan la prueba de trabajo en los tres meses. Se quieren comprobar esta
crítica y del archivo de colocación de empleados, selecciona una muestra de 25 empleados y
se encuentra que 7 no pasaron la prueba. ¿ Se puede justificar esta crítica?
Ejercicios 4.26 El consejo estudiantil de la Universidad de El Salvador tomó una muestra de

45 libros de física de la librería universitaria y determinó que de ellos, 60 % se vendía
en más del 50 % arriba de su costo al mayoreo. Dé un intervalo de confianza del 96 % para la
proporción de libros cuyo precio sea más del 50 % mayor que el costo al mayoreo.
Ejercicios 4.27 En dos empresas de investigación de mercado se lleva a cabo un estudio sobre
la proporción de mujeres entre sus empleados técnicos y licenciados. De cada empresa se toma
un m.a.s.6 de 40 empleados entre los técnicos y licenciados, obteniéndose que en la empresa
InterMer había 16 mujeres y en la empresa Mercasur, 22 mujeres. Obtener el intervalo de
confianza para la diferencia de proporciones poblacionales al nivel de confianza del 95 %
¿Podemos pensar que la proporción es la misma?
Ejercicios 4.28 A una muestra nacional de socialistas y nacionalistas se les preguntó, como
parte de una encuesta muy amplia, si estaban en favor de crear una ley ambiental. Los
resultados fueron:
Socialistas Nacionalistas
Número en la muestra 800 1000
Número en favor 168 200
Determinar el intervalo de confianza del 95 %, ¿puede concluir que hay una diferencia de
proporción a favor de la ley entre socialistas y nacionalistas?
4.4. Contraste de Hipótesis Estadísticas.

4.4.1. Definición de Pruebas de Hipótesis y Tipos de Error.
Definición 4.1 ‘‘La prueba de hipótesis es un procedimiento que se basa en la evidencia de
las muestras y en la teoría de probabilidad para determinar si la hipótesis es un enunciado
razonable’’7 .
TIPOS DE HIPÓTESIS ESTADÍSTICAS.

6
Muestreo aleatorio simple
7
Douglas Lind. Estadística para Administración y Economí.México D.F, Editorial Mc. Graw Hill, 2005, pág. 318.
53
Hipótesis nula (H0 ) : Es una afirmación respecto del valor de un parámetro de la
población.
Hipótesis alternativa(H1 ): Es una afirmación que se acepta si los datos de la muestra
proporcionan evidecia suficiente de que la hipótesis nula es falsa.
TIPOS DE ERROR.
En la prueba de hipótesis existen dos tipos de error:
Error tipo I(α): Es la probabilidad de rechazar la hipótesis nula, cuando esta es
verdadera.
Error tipo II (β): Es la probabilidad de aceptar la hipótesis nula, cuando esta es
falsa.
En el cuadro siguiente se observan las consecuencias al tomar decisiones con respecto a
pruebas de hipótesis.
Estado de hipótesis nula Acepta H0 Rechaza H0

H0 es verdadera Decisión correcta Error tipo I
H0 es falsa Error tipo II Decisión correcta
4.4.2. Procedimiento para Probar Hipótesis Estadísticas.

Para probar hipótesis estadísticas se deben seguir los siguientes pasos:
Paso 1 : Formular las hipótesis estadísticas
H0 : Hipótesis nula
H1 : Hipótesis alternativa
Paso 2 : Elección de la prueba de hipótesis con su modelo estadístico.
Toda prueba de hipótesis estadística está asociada a un modelo estadístico de acuerdo
al tamaño de muestra y dependiendo del parámetro poblacional en el que se basa la
prueba de hipótesis estadística.
Los modelos estadísticos que generalmente se utilizan en la prueba de hipótesis
parámetricas son las distribuciones normales, t-student y chi-cuadrado.
Paso 3 : Calcular el estadístico de prueba.
Es el valor que se calcula en función de los datos de la muestra y se utiliza para
determinar si se va a rechazar la hipótesis nula.
Paso 4 : Seleccionar el nivel de significancia.
El nivel de significancia: es la probabilidad de rechazar la hipótesis nula cuando esta
es verdadera.
Al realizar la prueba de hipótesis se tiene como propósito aceptar o rechazar la
hipótesis nula, para esto debe elegirse de acuerdo a criterios específicos del
investigador un margen de riesgo de equivocarse al rechazar la hipótesis nula cuando
esta es verdadera.
Generalmente se eligen valores α ∈ [0.01, 0.05] este valor se utilizará para determinar
la región crítica o de rechazo de H0 .
Paso 5 : Establecer la región crítica o de rechazo(formular la regla de decisión).
Está formada por un conjunto de valores para los cuales se rechazará la hipótesis nula.
54
Paso 6 : Toma de decisiones.
La decisión de aceptar o rechazar la hipótesis nula se basa en el estadístico de prueba
calculado a partir de los datos de la muestra.
Si el valor calculado del estadístico se localiza en la región de rechazo, se rechaza la
hipótesis nula y se acepta la hipótesis alternativa. Pero si el valor del estadístico
no se encuentra en la región de rechazo, entonces, se acepta la hipótesis nula y, es
decir no se tiene suficiente evidencia para rechazar la hipótesis nula.
Cualquier decisión que se toma está sujeta a cierto margen de incertidumbre ya que la
inferencia se realiza a partir de una muestra.
4.4.3. Prueba de Hipótesis para Muestras Pequeñas y Distribución t de Student.

Prueba de Hipótesis para una Media Poblacional en Muestras Pequeñas.
Este es otro de los métodos de inferencia estadística cuando se quiere probar la media de
una población. Las condiciones a considerar para utilizar este método de prueba son las
siguientes:
El tamaño de la muestra es pequeña (n < 30) y proviene de una población normalmente

distribuida.
Se desconoce la varianza poblacional, la cual se estima mediante la varianza muestral.
Procedimiento:
1. Formulación de la hipótesis.
H0 : µ = µ0 (µ0 es la constante hipotética para la media poblacional)
H1 : Puede tomar una de las hipótesis alternativas siguientes:
Unilateral derecha Unilateral izquierda Bilateral

µ > µ0 µ < µ0 µ 6= µ0
2. Calcular el estadístico de prueba.

x̄−µ0
t= √s
n
3. Elegir el nivel de significancia, si no ha sido especificado.
4. Encontrar la región de rechazo asociada al nivel de significancia y utilizando las

tablas de la distribución t de student.
La región crítica o de rechazo dependerá del tipo de hipótesis alternativa formulada

para el problema en estudio.
Figura 10: Prueba de hipótesis para µ en muestras pequeñas
55
5. Tomar la decisión correspondiente basada en el estadístico de prueba y la región
crítica.
Ejemplo 4.10 Una distribuidora de gas ofrece a sus clientes el servicio en un máximo de
espera de 48 horas. Se toma una muestra de seis hogares que hicieron pedidos y se encontró
lo siguiente: 24,20, 60, 72, 40, 30 horas de espera.¿Se puede creer lo ofrecido por la
distribuidora?
Prueba de Hipótesis para una Proporción en Muestras Pequeñas.

Este método de prueba se puede utilizar bajo las siguientes condiciones:
El tamaño de la muestra es pequeña y proviene de una población normalmente distribuida.
Que la variable aleatoria tenga solamente dos posibles resultados.
Cuando el interés del investigador sea probar que una parte o proporción de la muestra
tenga un valor especifico.
Procedimiento:
1. Formulación de la hipótesis
H0 : P = P0 (P0 es la constante hipotética para la media poblacional)
H1 : Puede tomar una de las hipótesis alternativas siguientes:
Unilateral derecha Unilateral izquierda Bilateral

P > P0 P < P0 P 6= P0
2. Calcular el estadístico de prueba
t= rp̂−P0
p̂(1−p̂)
n
3. Elegir el nivel de significancia, si no ha sido especificado
4. Encontrar la región de rechazo asociada al nivel de significancia y utilizando las

tablas de la distribución t de student
La región crítica o de rechazo dependerá del tipo de hipótesis alternativa formulada

para el problema en estudio.
Figura 11: Prueba de hipótesis P para muestras pequeñas
5. Tomar la decisión correspondiente basada en el estadístico de prueba y la región

crítica.
56
Ejemplo 4.11 El Gerente de una corporación de ahorros argumenta que menos del 30 % de los
clientes poseen un saldo superior a los $50,000. Desea confirmar tal apreciación, mediante
una muestra aleatoria a 20 clientes elegidos al azar, de los cuales 8 tienen saldo superior
a los $50,000. Con un nivel de confianza del 5 % ¿se podrá decir que menos del 30 % de
ahorradores tienen saldos superiores a la afirmación hecha por el gerente?
4.4.4. Ejercicios
Ejercicios 4.29 Un partido político tomó en su día la decisión de formar coalición con otro
tras un referendum en el que un 60 % de los afiliados manifestaron su postura lo hicieron
favorablemente. Al cabo de un tiempo se desea saber si la postura global ha variado y se
pregunta por lo que ocurriría en la actualidad de plantear de nuevo el citado referendum.
Una encuesta a 200 afiliados arrojó el siguiente resultado: 45 se abstuvieron de manifestar
su opinión y, del resto, 80 seguirían siendo partidarios de la coalición. ¿Se podrá afirmar
que el apoyo a tal decisión se mantiene en el mismo porcentaje?
Ejercicios 4.30 El fabricante de neumáticos radiales con cinturón de acero “X-15” para
camiones señala que el millaje medio que cada uno recorre antes de que se desgasten las
cuerdas es de 60 000 millas. La desviación estándar del millaje es de 5,000 millas. Una
empresa compró 48 neumáticos y comprobó que el millaje medio para sus camiones es de 59,500
millas. ¿La experiencia de la empresa es diferente de lo que afirma el fabricante en el
nivel de significancia de 0.05?
Ejercicios 4.31 Una cadena de restaurantes afirma que el tiempo de espera de los clientes
es de 8 minutos con una desviación estándar poblacional de 1 minuto. El departamento de
control de calidad encontró en una muestra de 50 clientes en de un restaurante que el tiempo
medio de espera era de 2.75 minutos. Con el nivel de significancia de 0.05, ¿puede concluir
que el tiempo medio de espera no es de 3 minutos?
Ejercicios 4.32 En el momento en que fue contratado como mesero en un restaurante, a Sancho
le dijeron: “Puedes ganar en promedio más de $80 al día en propinas.” Suponga que σ = $3.24.
Los primeros 35 días de trabajar en el restaurante, la suma media de sus propinas fue de
$84.85. Con el nivel de significancia de 0.01, ¿Sancho puede concluir que gana un promedio
diferente de $80 en propinas?
Ejercicios 4.33 De acuerdo con una encuesta realizada por el MINSAL los santanecos no
desayunan. Una muestra de 30 estudiantes de la Universidad Don Bosco reveló que 16 no
lo habían hecho ese día. Utilice un nivel de significancia de 0.01 para verificar si los
estudiantes universitarios son más propensos a no desayunar.
Ejercicios 4.34 Suponga que a partir de las elecciones anteriores en un departamento, para
que sea electo un candidato a alcalde, es necesario que gane por lo menos 70 % de los votos
de la zona central. El gobernador de turno está interesado en evaluar sus posibilidades de
volver al cargo y hace planes para llevar a cabo una encuesta de 2 000 votantes registrados
en esa región. Aplique el procedimiento para probar hipótesis y evalúe las posibilidades de
que el gobernador se reelija.
Ejercicios 4.35 Pollolandia afirma que 85 % de sus pedidos se entrega en 20 minutos desde
que se hace el pedido. Una muestra de 100 pedidos mostró que 79 se entregaron en el tiempo
prometido. Con un nivel de significancia de 0.10, ¿puede concluir que el 90 % de los pedidos
se entregó en menos de 10 minutos?
57
Ejercicios 4.36 La compañía Bebé feliz desea comparar el aumento de peso de niños que
consumen su producto en comparación con el producto de su competencia. Una muestra de 40
noños que consumen los productos Bebé feliz reveló un aumento de peso medio de 5.6 libras en
sus primeros tres meses de vida, con una desviación estándar de la población de la muestra
de 1.9 libras. Una muestra de 55 bebés que consumen la marca del competidor reveló un aumento
medio de 8.1 libras, con una desviación estándar de la población de 3.2 libras. Con un nivel
de significancia de 0.01, ¿es posible concluir que los bebés que consumieron la marca Bebé
feliz ganaron menos peso?
Ejercicios 4.37 Volviendo al ejercicio 4.28 ¿puede concluir que hay una proporción mayor de
socialistas en favor de relajar las normas?
Ejercicios 4.38 El viceministerio de transporte realiza investigaciones continuas sobre las

causas de accidentes en motos, las características de los conductores, etc. Una muestra
aleatoria de 400 pólizas de personas casadas reveló que 100 habían protagonizado al menos un
accidente en el periodo anterior de cuatro años. De forma similar, una muestra de 700 pólizas
de personas solteras reveló que 170 habían estado involucradas en al menos un accidente. Con
un nivel de significancia de 0.01, ¿hay una diferencia significativa entre las proporciones
de personas solteras y casadas involucradas en un accidente durante un periodo de cuatro
años?
Ejercicios 4.39 El gerente de Secrets, fabricante de camas matrimoniales, desea comparar el

número de camas matrimoniales defectuosas producidas en el turno matutino con el del turno
vespertino. Una muestra de la producción de 8 turnos matutinos y 6 vespertinos reveló el
número de defectos siguiente.
Vespertino 5 8 7 6 9 7
Matutino 8 10 7 11 9 12 14 9
Con un nivel de significancia de 0.05, ¿hay alguna diferencia entre el número medio de
defectos por turno?
Ejercicios 4.40 Predictive quiere saber si el salario semanal medio de las enfermeras es
mayor que el de los profesores. Para esta investigación recopiló la información siguiente
sobre las cantidades que ganó la semana pasada una muestra de profesores y enfermeras.
Profesores(Salario en $) 845 789 765 545 678 654 789 765 789 777 659
Enfermeras(Salario en $) 789 765 677 888 665 899 567 765 899
¿Es razonable concluir que es mayor el salario semanal medio de las enfermeras? Utilice un
nivel de significancia de 0.01.
58
5. Unidad IV: Distribuciones bidimensionales.
Supongamos que en una población, y para un conjunto de n individuos, se miden dos
caracteres X e Y :
(x1 , y1 ), (x2 , y2 ), ..., (xn , yn )
En este caso tenemos una variable estadística bidimensional o distribución bidimensional

de frecuencias, la cual representaremos por (X, Y). Cuando se cuenta con una gran cantidad
de datos, un modo de presentar la distribución bidimensional es a través de una tabla de
doble entrada de la forma:
X \ Y y1 y2 ... yj ... yk Total

x1 n11 n12 ... n1j ... n1k n1+
x2 n21 n22 ... n2j ... n2k n2+
.
. .
. .. .. ..
. . . . .
xi ni1 ni2 ... nij ... nik ni+
.
. .
. .
. .. .. ..
. . . . . .
xl nl1 nl2 ... nlj ... nlk nl+
Total n+1 n+2 ... n+j ... n+k n
Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de
una dimensión. En el caso de que las dos variables sean atributos, la tabla anterior recibe
el nombre de tabla de contingencia. A continuación se presentan las tablas de contingencia
y posteriormente las distribuciones marginales y condicionales para variables numéricas.
5.1. Tablas de Contingencia.

Muy a menudo los datos de un estudio estadístico se presentan agrupados en categorías
siendo el objeto comparar sus frecuencias con un cierto patrón o entre ellas, para ver si es
posible concluir que la población tiene determinadas características. En definitiva se van
a realizar contrastes de independencia de caracteres, en el que se juzga la independencia
de dos variables observadas en los individuos de una población.
5.1.1. Contraste de Independencia de Caracteres.

Para realizar el contraste de independencia entre dos caracteres de los individuos de
una población, se supone que cada individuo puede clasificarse en a modalidades de un primer
atributo A y en b modalidades según otro criterio B. Los n individuos de una muestra
aparecen, por tanto, clasificados en una tabla de contingencia de la forma:
A \ B 1 2 3 ... b
1 n11 n12 n13 ... n1b n1.
2 n21 n22 n23 ... n2b n2.
3 n31 n32 n33 ... n3b n3.
.
. .
. .. .. .. ..
. . . . . .
a ni1 ni2 ni3 ... nab na.
n.1 n.2 n.3 ... n.b n
59
En este documento se utilizará indistintamente ni. = ni+ = kj=1 nij o n.j = n+j = li=1 nij .
P P
El interés es conocer si existe dependencia entre dos características A y B de una población,

en donde cada una de ellas presentan a y b categorías, respectivamente. Para ello se pretende
contrastar la hipótesis:
H0 : A y B son independientes H1 : A y B no son independientes.
Si designamos por pij : la probabilidad de que un elemento de la muestra presente las

características Ai y Bj , es decir, pij = P (Ai ∩Bj ) = pi. p.j para cualquier i, j. Los estimadores
máximo verosimiles de pi. y p.j son:
ni. n.j
p̂i. = n , i = 1, 2, ..., a, p̂.j = n , j = 1, 2, ..., b.
El estadístico de Pearson que se utiliza para realizar este contraste es el siguiente:

a X
b a X
b n n 2
X (Oij − Eij )2 X nij − i.n .j
χ2 = = ni. n.j ≈ χ2(a−1)(b−1)
i=1 j=1
Eij i=1 j=1 n
y tiene una distribución χ2 con (a − 1)(b − 1) grados de libertad. Se rechaza H0 si el

estadóstico de Pearson es mayor que χ2(a−1)(b−1),1−α .
Ejemplo 5.1 Para estudiar la dependencia entre la práctica de algún deporte y la depresión,
se seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados:
Deportista \ Depresión NO SI
SI 38 9 47
NO 31 22 53
69 31 100
Realice el contraste de hipótesis con α = 0.05.
Solución.
Las hipótesis son:
H0 : La depresión es independiente de la práctica de algún deporte.

H1 : La depresión depende de la práctica de algún deporte.
El estadístico de prueba está dado por:
ni. n.j 2
P2 P2 nij −
χ2 = i=1 j=1
n
ni. n.j
n
y toma el valor de:

2 2 2 2
(38− 47∗69
100 ) (9− 47∗31
100 ) (31− 53∗69
100 ) (22− 53∗31
100 )
χ2 = 47∗69 + 47∗31 + 53∗69 + 53∗31 = 5.823
100 100 100 100
El estadístico χ2 tiene una distribución χ21 (Chi-cuadrado con 1 grado de libertad),

así que el valor de la χ21,0.05 = 3.841 (Valor de la tabla Chi-cuadrado). Como el valor
del estadístico χ2 = 5.823 es mayor que el valor de tabla χ21,0.05 = 3.841 se rechaza la
independencia, es decir, que la depresión depende de si realizas algún tipo de deporte.
60
5.1.2. Distribuciones Marginales y Condicionales.
Dada una variable estadística bidimensional, las distribuciones marginales permiten
estudiar de un modo aislado cada una de las componentes. A partir de una tabla de doble
entrada, las distribuciones de frecuencias marginales se obtienen sumando las frecuencias
de la tabla por filas y por columnas.
Las distribuciones condicionadas permiten estudiar el comportamiento de una de las

variables cuando la otra permanece constante. Vienen dadas por:
Una distribución de frecuencias bidimensional es el conjunto de valores de la variable (X,

Y), junto con sus correspondientes frecuencias. Se denota por (xi , yj , nij ) o bien (xi , yj , fij ),
según se utilicen las frecuencias conjuntas absolutas o relativas.
n
La frecuencia relativa conjunta, marginales y condicionales vienen dadas por: fij = nij ;
ni/j fij nj/i fij
f i. = nni. o bien f.j = n.j
n ; y fi/j = n.j = f.j o bien fj/i = ni. = fi. , respectivamente.
Dada una distribución de frecuencias (xi , yj ; fij ), las variables X e Y son estadísticamente
independientes, si para cualesquiera i y j, se cumple: fij = fi. f.j o bien fi/j = fi. o fj/i = f.j .
5.2. Correlación y Predicción.

Para hacer un estudio conjunto de dos variables cuantitativas X e Y, supondremos que
disponemos de una muestra de n pares de observaciones de X e Y:
(x1 , y1 ), (x2 , y2 ) · · · , (xn , yn )
Antes de hacer cualquier cálculo, conviene representar en el plano los pares de valores
obtenidos. Con esto obtenemos una nube de puntos ( diagrama de dispersión), que nos puede
dar una idea visual de las posibles relaciones existentes.
Cuando se observa el comportamiento conjunto de dos variables, el objetivo principal es
determinar si existe o no algún tipo de variación conjunta o covariación entre ellas. La
61
Figura 12: Diagrama de dispersión
covarianza muestral, ayuda a cuantificar la asociación entre dos variables. La covarianza

muestral se define como:
n n
1X 1X
Cov(X, Y ) = Sxy = (xi − x̄) (yi − ȳ) = xi yi − x̄ȳ
n i=1 n i=1
Interpretación:
1. Si la Cov(X, Y ) > 0, existe una tendencia a que mayores observaciones de una de las
variables se correspondan con mayores observaciones de la otra variable.
2. Si Cov(X, Y ) < 0, existirá una tendencia a que mayores observaciones de una variable
se correspondan con menores observaciones de la otra variable.
3. Si Cov(X, Y ) = 0, no se puede concluir que no exista relación entra ambas variables.

Pero se puede decir que no existe relación lineal entre las variables.
Suponemos que Cov(X, Y ) 6= 0,indica que existe relación lineal entre las variables, la
pregunta que surge es ¿Cómo de grande es la relación entre X e Y y cómo cuantificarla? El
coeficiente de correlación lineal es un valor que permite estudiar el grado de dependencia
lineal existente entre X e Y. Viene definido por:
1 n
(xi − x̄) (yi − ȳ)
P
Cov(X, Y )
r= = q Pn i=1
Sx Sy 1 n 2 1 Pn 2
n i=1 (xi − x̄) n i=1 (yi − ȳ)
Una propiedad importante del coeficiente de correlación es que no depende de cambios de

origen y escala, y su valor siempre está comprendido entre -1 y 1 (−1 ≤ r ≤ 1).
De modo que valores de r cercanos a 1 indican una dependencia lineal positiva entre las
dos variables, y valores de r cercanos a -1 indican dependencia lineal negativa. Cuando el
valor de r está cercano a cero, no existe dependencia lineal entre X e Y. Esto último puede
ser, bien porque X e Y son variables independientes, o bien porque la dependencia existente
entre ambas variables es de otro tipo diferente al lineal.
5.2.1. Modelos de Regresión lineal: Línea de Tendencia.

En este tipo de regresión se desea caracterizar el efecto lineal de una única variable
explicativa sobre la variable respuesta. Los pasos para efectuar un análisis son los
siguientes:
1. Representación gráfica de datos.
62
2. Planteamiento del modelo.
3. Estimación de la ecuación de predicción.
4. Examen de la adecuación del modelo lineal.
El modelo de regresión lineal simple tiene un sólo regresor X (variable independiente)

que tiene una relación con una respuesta Y (variable dependiente), donde la relación es una
línea recta. Este modelo de regresión lineal poblacional es:
Y = β0 + β1 X +
Donde la ordenada al origen β0 y la pendiente β1 son constantes desconocidas, y es una

componente aleatorio del error. Se supone que los errores tienen promedio cero y varianza
constante desconocida. Además se suele suponer que los errores no están correlacionados.
Esto quiere decir que el valor de un error no depende del valor de cualquier otro error.
5.2.2. Estimación de los Parámetros por Mínimos Cuadrados

La idea de la recta de regresión es sencilla: intentamos encontrar la recta que mejor
represente a la nube de puntos, en el sentido de minimizar la suma de los cuadrados de las
distancias verticales de los diferentes punto de la nube a la recta.
Definición. La recta de regresión de Y sobre X es la recta y = a + bx, donde a y b son
los estimadores mínimos cuadráticos de β0 y β1 , respectivamente. El criterio de mínimos
cuadrados es:
Pn 2 Pn
mı́n S(β0 , β1 ) = mı́nβ0 ,β1 i=1 i = mı́nβ0 ,β1 i=1 (yi − β0 − β1 xi )2
Derivando con respecto a β0 y β1 , e igualando a cero, se obtienen las expresiones para

a y b, esto es:
Cov(x,y) Cov(x,y)
a = ȳ − Sx x̄ b= Sx2
Por tanto, la recta de regresión de Y sobre X es:

Cov(x,y) Cov(x,y)
ŷ = a + bx = ȳ − Sx2
x̄ + Sx2
x
La diferencia entre el valor observado yi y el valor ajustado correspondiente ŷi se llama

residual, matemáticamente el iésimo residual es: ei = yi − ŷi = yi − (a + bxi ), i = 1, 2, · · · , n,
ei tiene un papel importante para investigar la adecuación del modelo de regresión ajustado,
ya que debe cumplir los supuestos de los errores del modelo.
SCReg
Coeficiente de Determinación (r2 ) La cantidad r2 = SCT SCT . Se llama coeficiente
= 1− SCRes
de determinación, donde:
n
X n
X n
X
SCRes = e2i = (yi − yî )2 ; SCT = (yi − ȳ)2
i=1 i=1 i=1
r2 : se interpreta como la proporción de la variación explicada por la variable independiente

x, toma valores entre cero y 1.
Por otra parte, la suma de cuadrados de regresión está dada por:
63
n
X
SCReg = (yî − ȳ)2
i=1
y se verifica que:
n
X n
X
Pn
SCT = 2
i=1 (yi − ȳ) = SCReg + SCRes = (yî − ȳ)2 + (yi − yî )2
i=1 i=1
Ejemplo 5.2 Se tienen las puntuaciones por acceso a un servicio médico (X) y el grado de
salud (Y ) de 15 personas. Se supone que el grado de salud depende del acceso al servicio
médico. Los datos se presentan en la siguiente tabla:
Puntuación Puntuación Puntuación Puntuación Puntuación Puntuación

por acceso por salud por acceso por salud por acceso por salud
3 2 7 5 2 2
6 6 8 7 4 3
13 9 13 10 5 4
1 1 10 8 11 9
4 5 3 4 9 8
Realizar un diagrama de dispersión, a fin de observar la relación entre las variables

X, Y .
Es evidente la relación lineal entre el grado de salud y el acceso al servicio médico.

Para medir el grado de relación lineal entre X e Y , se obtiene el coeficiente de correlación:
152.2
r=√ = 0.964
(215.6)(115.73)
Este valor se interpreta como, el 96.4 % de los datos están correlacionados linealmente y
de manera positiva. Ahora, se ajustar el modelo de regresión lineal (modelo de predicción),
el cual está dado por:
ŷ = a + bx = 0.8744 + 0.7059x
A partir de este modelo se obtienen las puntuaciones de salud previstas, ŷ, y con ello
las siguientes medidas:
64
n
1. Suma de cuadrados de regresión SCReg =
X
(yî − ȳ)2 = 107.4322
i=1
n n
2. Suma de cuadrados residuales SCRes =
X X
e2i = (yi − yî )2 = 8.2898
i=1 i=1
n
3. Utilizando estos dos resultados se tiene que: SCT =
X
(yi − ȳ)2 = 107.4322 + 8.2898 =
i=1
115.772
Ahora, dividiendo por n − 2 la suma de cuadrados residuales y luego obtener la raíz

cuadrada, se tiene:
s sP sP s
n 2 n
SCRes i=1 ei i=1 (yi − yî )2 8.2898
= = = = 0.7985
n−2 n−2 n−2 15 − 2
este valor se interpreta como la medida del error total en la predicción de las puntuaciones
de un grupo de n sujetos, ya que este valor es pequeño, es decir, 0.7985, el modelo es
aceptable para predecir. Sin embargo, la medida que se utiliza para indicar la bondad del
modelo es el coeficiente de determinación, esto es:
SCReg SCRes 8.2898
r2 = SCT =1− SCT =1− 115.772 = 0.928
Esto significa que aproximadamente el 93 % de la variación de las puntuaciones de salud

estuvo relacionada con las puntuaciones de acceso a servicios médicos del individuo. Por
otra parte, también significa que aproximadamente el 7 % de esta variación no se explica
por el acceso a servicios médicos y, por consiguiente, debe atribuirse a otros factores
desconocidos.
5.3. Ejercicios
Ejercicios 5.1 En una determinada región existen 3 facultades en las que se cursan estudios
de Economía. Un programa de radio universitario pretende debatir si la dificultad de estos
estudios pudiera estar relacionada con el centro donde se cursan. Para aportar información
al programa, se propuso a los oyentes licenciados en Economía que llamaran a un teléfono
gratuito donde se les realizaría una serie de preguntas. Con la información obtenida se
completó la siguiente tabla de frecuencias, en las que las llamadas han sido clasificadas
según el lugar donde se realizaron los estudios y el tiempo empleado en terminarlos:
Facultad Número de años empleados para finalizar
la licenciatura en Economía
4 a menos Entre 5 y 6 7 ó más
A 300 150 50
B 110 125 90
C 325 350 100
Suponiendo que estos datos pudieran ser considerados como procedentes de una muestra
aleatoria, ¿Se podría afirmar que existe alguna relacón entre el centro de estudios y el
tiempo que un estudiante tarda en terminar su carrera de Economía? Nivel de signifación del
10 %
65
Ejercicios 5.2 Las asociaciones de padres y madres de alumnos de los colegios públicos de
una determinada ciudad pretenden organizar de forma conjunta las actividades extraescolares
del próximo curso. Para tratar de conocer el interés de los padres en el tipo de actividades
que pueden desarrollar sus hijos, la comisión encargada decide llevar a cabo una encuesta a
una muestra aleatoria de 1500 padres. Con los datos de esta encuesta, pudo construirse la
siguiente tabla:
Actividades Niveles de estudio de los padres
Primarios Bachillerato Universitarios
Competiciones deportivas 150 195 175
Talleres creativos en la propia ciudad 90 100 46
Excursiones diversas 60 330 180
Otras 50 75 49
¿Cabe pensar, al 1 % de significación, que el nivel de estudios de los padres influye en
el tipo de actividad extraescolar elegida para su hijo?
Ejercicios 5.3 Un sociólogo tomó una muestra de 140 personas y las clasificó de acuerdo
con su nivel de ingresos, y si jugaron o no en la lotería nacional de beneficencia el mes
pasado. La información de la muestra aparece a continuación.
Bajo Medio Alto

Jugaron 46 28 21
No jugaron 14 12 19
Total 60 40 40
¿Es posible concluir que jugar a la lotería se relaciona con el nivel de ingresos? Utilice
el nivel de significancia 0.05.
Ejercicios 5.4 A un jefe de seguridad se le pidió estudiar el problema de la pérdida de

mercancía. Seleccionó una muestra de 100 cajas que se manipularon de forma indebida y
averiguó que, en 60 de ellas, los pantalones, zapatos y demás mercancía faltante se debían
a hurtos en las tiendas. En otras 30 cajas, los empleados sustrajeron las mercancías, y
en las restantes 10, lo atribuyó a un control de inventario deficiente. En su reporte a
la gerencia del centro comercial, ¿es posible que concluyera que tal vez el hurto sea el
doble de la causa de la pérdida en comparación con el robo por parte de los empleados o un
control de inventario deficiente, y que el robo por parte de los empleados y el control de
inventario deficiente quizá sean iguales? Utilice el nivel de significancia 0.01.
Ejercicios 5.5 El departamento de tarjetas de crédito del banco Maya sabe por experiencia que
5 % de sus tarjetahabientes terminó algunos años de la preparatoria, 15 %, la preparatoria,
25 %, algunos años de la universidad, y 55 %, una carrera. De los 500 tarjetahabientes
a quienes se les llamó por no pagar sus cargos del mes, 50 terminaron algunos años de
preparatoria, 100, la preparatoria, 190, algunos años de la universidad, y 160 se graduaron
de la universidad. ¿Es posible concluir que la distribución de los tarjetahabientes que no
pagan sus cargos es diferente a los demás? Utilice el nivel de significancia 0.01
Ejercicios 5.6 Se poseen tiendas en varias áreas metropolitanas. El gerente general de

ventas planea transmitir un comercial de una cámara digital en estaciones de televisión
locales antes del periodo de ventas que empezará el sábado y terminará el domingo. Planea
obtener la información de las ventas de la cámara digital durante el sábado y el domingo
66
en las diversas tiendas y compararlas con el número de veces que se transmitió el anuncio
en las estaciones de televisión. El propósito es determinar si hay alguna relación entre el
número de veces que se transmitió el anuncio y las ventas de cámaras digitales. Los pares
son:
Ubicación A B C D E
Transimisiones 4 2 5 6 3
Ventas de sábado a domingo 15 8 21 24 17
¿Cuál es la variable dependiente?
Trace un diagrama de dispersión
Determine el coeficiente de correlación.
Interprete estas medidas estadísticas.
Ejercicios 5.7 Una compañía estudia la relación entre el precio de la gasolina y el número
de galones que vende. En una muestra de 20 gasolineras el martes pasado, la correlación fue
0.78. A un nivel de significancia de 0.01, la correlación entre la población, ¿será mayor
que cero?
Ejercicios 5.8 Un estudio de 20 instituciones financieras de todo el mundo reveló que la

correlación entre sus activos y las utilidades antes del pago de impuestos es 0.86. A un
nivel de significancia de 0.05, ¿se puede concluir que hay una correlación positiva entre
la población?
Ejercicios 5.9 La asociación de pasajeros de aerolíneas estudió la relación entre el número

de pasajeros en un vuelo en particular y su costo. Parece lógico que más pasajeros impliquen
más peso y más equipaje, lo que a su vez generará un costo de combustible mayor. Con una
muestra de 15 vuelos, la correlación entre el número de pasajeros y el costo total del
combustible fue 0.667. ¿Es razonable concluir que hay una asociación positiva entre las dos
variables poblacionales? Utilice el nivel de significancia de 0.01.
Ejercicios 5.10 El consejo de la ciudad considera aumentar el número de policías en un

esfuerzo para reducir los delitos. Antes de tomar una decisión final, el ayuntamiento pide
al jefe de policía realizar una encuesta en otras ciudades de tamaño similar para determinar
la relación entre el número de policías y el número de delitos reportados. El jefe de policía
reunió la siguiente información muestral.
Policias 15 17 25 27 17 12 11 22
Número de delitos 17 13 5 7 7 21 19 6
a) Determine la ecuación de regresión.
b) Estime el número de delitos en una ciudad con 20 policías.
c) Interprete la ecuación de regresión.
Ejercicios 5.11 Se toma una muestra de 50 empresas, observando el número de trabajadores X

y la producción Y. Ver figura
X 5 15 20 30 70
Y 4 10 15 20 40
n1 15 10 10 5 10
67
Determine la recta de regresión de Y sobre X, el coeficiente de correlación lineal y la
varianza residual.
Ejercicios 5.12 La evolución temporal de la masa salarial de una empresa se recoge en el

siguiente cuadro:
Año 0 1 2 3 4 5
Masa salarial 2.5 3.5 4 4.2 4.3 4.6
1. Determine la recta que explica el salario en función del tiempo, calculando el

coeficiente de correlación lineal y la varianza residual.
2. Estime la masa salarial del sexto año.
Ejercicios 5.13 La recta de regresión X = 0.5Y + 3 expresa la relación estadística entre

un número X de unidades vendidas diariamente de un bien y el gasto mensual Y en hacerle
publicidad. Se sabe que la covarianza es 22.5 y que la distribución marginal de X es la
siguiente:
1. Determine las respectivas medias de X e Y, y la varianza de Y.
2. Determine la recta de regresión de Y sobre X, su coeficiente de determinación y la

varianza residual.
Ejercicios 5.14 Se sabe que la recta de regresión de Y sobre X para un conjunto de 10 datos
es Ŷ = 0.74X + 0.84, siendo Se2 = 3.218 la correspondiente varianza residual. También se
sabe que yj = 82.4 y xi = 3340. Determine la recta de regresión de X sobre Y, y el
P P 2
coeficiente de determinación.
Ejercicios 5.15 De una distribución bidimensional de frecuencias se sabe que:

n
1X
Ȳ = 5; X 2 = 200; SY2 = 5; SX = 10; SXY = 10
n i=1 i
1. Determine la regresión de Y sobre X y el coeficiente de correlación lineal.
2. Calcule la varianza residual de la anterior regresión.
Ejercicios 5.16 A partir de la regresión lineal de Y, ahorro anual, sobre X, renta mensual
de un grupo de familias (ambas variables en miles de dólares) se ha estimado que el ahorro
correspondiente a una renta de 3 mil dólares es de 0.4 miles de dólares, mientras que, si
la renta es de 2.5 miles de dólares, el ahorro es de 0.3 miles de dólares. Con estos datos,
calcule la ecuación de la recta de regresión de Y sobre X.
68
6. Bibliografía
1. Cuadras, Carles (2000). Problemas de Probabilidad y Estadística. Vol. 2: Inferencia
Estadística. EUB, S.L. Barcelona, España.
2. Martín-Pliego, F. Javier; Montero, José y Pérez, Luís (2006). Problemas de Probabilidad.

Segunda Edición. Thomson Editores Spain.
3. Navarro de la Horra, Julián (2003). Estadística Aplicada. Tercera Edición. Ediciones

Díaz de Santos, S.A. Madrid
4. Sanabria Alegría, José María (2000). Curso Práctico de Estadística. Segunda Edición.
Civitas Ediciones, S.L. Madrid.
CRÉDITOS:
LIC. AMERICO HIDALGO
LIC. JOSE LUIS LOPEZ AMAYA
MSC: INGRID CAROLINA MARTÍNEZ BARAHONA
LIC. MAURICIO HERNÁN LOVO CÓRDOVA
LIC. OSCAR ARMANDO MORALES
DR. JOSÉ NERYS FUNES TORRES
MSC. JOSÉ RENÉ PALACIOS BARRERA
MSC. DIMAS TEJADA
LIC. JOSÉ ANTONIO HERNÁNNDEZ
LIC. EDWIN AGUILAR
LIC. ENRY GARCIA
MSC. MARCELINO MEJIA
MSC. JORGE ALBERTO MARTINEZ GUTIERREZ
LIC. CAMILO SALVADOR ERNESTO ZAMORA CASTRO
LIC. WALTER WILLIAM ARANA
DR. MARTÍN ENRIQUE GUERRA CÁCERES
LIC. DONY CLAVEL
LIC. MARLON BLADIMIR ROSA VÁSQUEZ
Equipo de Especialista de Matemática.
69
Apéndice A: Tablas
Áreas bajo la curva normal
Ejemplo:
Si z = 1.96, entonces
P(0 a z) = 0.4750.
0.4750
z 0 1.96
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981
2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990
Apéndice B
Distribución t de Student
a a 2 a
1
2a
1
–t t –t 0 t 0 t –t 0 t
Intervalo de confianza Prueba de cola izquierda Prueba de cola derecha Prueba de dos colas
Intervalo de confianza, c Intervalo de confianza, c

80% 90% 95% 98% 99% 99.9% 80% 90% 95% 98% 99% 99.9%
Nivel de significancia de una prueba de una cola, a Nivel de significancia de una prueba de una cola, a
gl 0.10 0.05 0.025 0.01 0.005 0.0005 gl 0.10 0.05 0.025 0.01 0.005 0.0005
Nivel de significancia de una prueba de dos colas, a Nivel de significancia de una prueba de dos colas, a
0.20 0.10 0.05 0.02 0.01 0.001 0.20 0.10 0.05 0.02 0.01 0.001
1 3.078 6.314 12.706 31.821 63.657 636.619 36 1.306 1.688 2.028 2.434 2.719 3.582
2 1.886 2.920 4.303 6.965 9.925 31.599 37 1.305 1.687 2.026 2.431 2.715 3.574
3 1.638 2.353 3.182 4.541 5.841 12.924 38 1.304 1.686 2.024 2.429 2.712 3.566
4 1.533 2.132 2.776 3.747 4.604 8.610 39 1.304 1.685 2.023 2.426 2.708 3.558
5 1.476 2.015 2.571 3.365 4.032 6.869 40 1.303 1.684 2.021 2.423 2.704 3.551
6 1.440 1.943 2.447 3.143 3.707 5.959 41 1.303 1.683 2.020 2.421 2.701 3.544
7 1.415 1.895 2.365 2.998 3.499 5.408 42 1.302 1.682 2.018 2.418 2.698 3.538
8 1.397 1.860 2.306 2.896 3.355 5.041 43 1.302 1.681 2.017 2.416 2.695 3.532
9 1.383 1.833 2.262 2.821 3.250 4.781 44 1.301 1.680 2.015 2.414 2.692 3.526
10 1.372 1.812 2.228 2.764 3.169 4.587 45 1.301 1.679 2.014 2.412 2.690 3.520
11 1.363 1.796 2.201 2.718 3.106 4.437 46 1.300 1.679 2.013 2.410 2.687 3.515
12 1.356 1.782 2.179 2.681 3.055 4.318 47 1.300 1.678 2.012 2.408 2.685 3.510
13 1.350 1.771 2.160 2.650 3.012 4.221 48 1.299 1.677 2.011 2.407 2.682 3.505
14 1.345 1.761 2.145 2.624 2.977 4.140 49 1.299 1.677 2.010 2.405 2.680 3.500
15 1.341 1.753 2.131 2.602 2.947 4.073 50 1.299 1.676 2.009 2.403 2.678 3.496
16 1.337 1.746 2.120 2.583 2.921 4.015 51 1.298 1.675 2.008 2.402 2.676 3.492
17 1.333 1.740 2.110 2.567 2.898 3.965 52 1.298 1.675 2.007 2.400 2.674 3.488
18 1.330 1.734 2.101 2.552 2.878 3.922 53 1.298 1.674 2.006 2.399 2.672 3.484
19 1.328 1.729 2.093 2.539 2.861 3.883 54 1.297 1.674 2.005 2.397 2.670 3.480
20 1.325 1.725 2.086 2.528 2.845 3.850 55 1.297 1.673 2.004 2.396 2.668 3.476
21 1.323 1.721 2.080 2.518 2.831 3.819 56 1.297 1.673 2.003 2.395 2.667 3.473
22 1.321 1.717 2.074 2.508 2.819 3.792 57 1.297 1.672 2.002 2.394 2.665 3.470
23 1.319 1.714 2.069 2.500 2.807 3.768 58 1.296 1.672 2.002 2.392 2.663 3.466
24 1.318 1.711 2.064 2.492 2.797 3.745 59 1.296 1.671 2.001 2.391 2.662 3.463
25 1.316 1.708 2.060 2.485 2.787 3.725 60 1.296 1.671 2.000 2.390 2.660 3.460
26 1.315 1.706 2.056 2.479 2.779 3.707 61 1.296 1.670 2.000 2.389 2.659 3.457
27 1.314 1.703 2.052 2.473 2.771 3.690 62 1.295 1.670 1.999 2.388 2.657 3.454
28 1.313 1.701 2.048 2.467 2.763 3.674 63 1.295 1.669 1.998 2.387 2.656 3.452
29 1.311 1.699 2.045 2.462 2.756 3.659 64 1.295 1.669 1.998 2.386 2.655 3.449
30 1.310 1.697 2.042 2.457 2.750 3.646 65 1.295 1.669 1.997 2.385 2.654 3.447
31 1.309 1.696 2.040 2.453 2.744 3.633 66 1.295 1.668 1.997 2.384 2.652 3.444
32 1.309 1.694 2.037 2.449 2.738 3.622 67 1.294 1.668 1.996 2.383 2.651 3.442
33 1.308 1.692 2.035 2.445 2.733 3.611 68 1.294 1.668 1.995 2.382 2.650 3.439
34 1.307 1.691 2.032 2.441 2.728 3.601 69 1.294 1.667 1.995 2.382 2.649 3.437
35 1.306 1.690 2.030 2.438 2.724 3.591 70 1.294 1.667 1.994 2.381 2.648 3.435
Apéndice C
Valores críticos de ji cuadrada
Esta tabla contiene los valores de y2 correspondientes a un área específica de la

cola derecha y un número específico de grados de libertad.
Ejemplo: con 17
gl y un área de 0.02
en la cola superior,
y2 = 30.995
0 y2
Grados de Área de la cola derecha

libertad,
gl 0.10 0.05 0.02 0.01
1 2.706 3.841 5.412 6.635
2 4.605 5.991 7.824 9.210
3 6.251 7.815 9.837 11.345
4 7.779 9.488 11.668 13.277
5 9.236 11.070 13.388 15.086
6 10.645 12.592 15.033 16.812

7 12.017 14.067 16.622 18.475
8 13.362 15.507 18.168 20.090
9 14.684 16.919 19.679 21.666
10 15.987 18.307 21.161 23.209
11 17.275 19.675 22.618 24.725

12 18.549 21.026 24.054 26.217
13 19.812 22.362 25.472 27.688
14 21.064 23.685 26.873 29.141
15 22.307 24.996 28.259 30.578
16 23.542 26.296 29.633 32.000

17 24.769 27.587 30.995 33.409
18 25.989 28.869 32.346 34.805
19 27.204 30.144 33.687 36.191
20 28.412 31.410 35.020 37.566
21 29.615 32.671 36.343 38.932

22 30.813 33.924 37.659 40.289
23 32.007 35.172 38.968 41.638
24 33.196 36.415 40.270 42.980
25 34.382 37.652 41.566 44.314
26 35.563 38.885 42.856 45.642

27 36.741 40.113 44.140 46.963
28 37.916 41.337 45.419 48.278
29 39.087 42.557 46.693 49.588
30 40.256 43.773 47.962 50.892

ESTADÍSTICA

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ESTADÍSTICA

Uploaded by

Copyright:

Available Formats

MINISTERIO DE EDUCACIÓN

MÓDULO DE ESPECIALIZACIÓN DOCENTE

San Salvador, 2018

2. Unidad I: Introducción a la Estadística 4

3. Unidad II: Estadística Descriptiva. 16

4. Unidad III: Inferencia Estadística. 42

5. Unidad IV: Distribuciones bidimensionales. 59

El profesor, como principal facilitador en la experiencia educativa de sus alumnos, debe

En general la Estadística es fundamental para muchas ramas de la ciencia desde la Medicina

1.1. Contenido del Módulo.

En la Unidad II se estudiará los conceptos básicos en estadística descriptiva. Las

La Unidad III es un estudio básico sobre inferencia estadística, estimación de parámetros

Para finalizar, en la Unidad IV, con el estudio de las distribuciones bidimensionales.

1.2. ¿Cómo Desarrollar el Módulo?.

La apertura se ha de iniciar socializando los objetivos de la jornada y centrando la

El desarrollo incluye la exposición dialogada de la teoría básica y demostración de las

El cierre se dedica a evaluar el aprendizaje grupal a través de la socialización de los

2.1.2. Estadística Descriptiva.

2. La encuesta Gallup informa una ventaja de 5 % para el candidato de izquierda.

3. Una persona promedio gastó $ 80 en mercancía alusiva a San Valentín el 14 de febrero

2.1.3. Estadística Inferencial.

Estadística Inferencial es un proceso

Preste atención a las palabras población y muestra en la definición de estadística

Nivel de confianza: concepto que esta relacionado directamente con el tamaño de la

2.2. El Método de Investigación Estadística.

La investigación científica es esencialmente como cualquier tipo de investigación, sólo

Empírica. Significa que se basa en fenómenos observables de la realidad.

La investigación cumple dos propósitos fundamentales:

¿Qué tipos de hipótesis hay ?

La abundante literatura existente sobre metodología de la investigación, describe una gran

1. Hipótesis de Investigación. Se define como una aseveración, conjetura o proposición

2. Hipótesis de Nulidad. Este tipo de hipótesis expresa la ausencia de relación, diferencia

3. Hipótesis Alternativa. Como su nombre lo indica, son posibilidades alternativas a la

4. Hipótesis Estadísticas. Una hipótesis estadística expresa en términos o símbolos

2.3. Instrumentos de Obtención de Datos.

Características de los Censos:

5. Unidad censal. En un censo de población, la unidad censal es el individuo, mientras

6. Simultaneidad. La población total empadronada debe referirse a un momento preciso en el

7. Periodicidad. Los censos deben ser realizados periódicamente. La recomendación hecha

¿Qué tipo de información se puede recolectar en un censo de población?

1. Geográficos. Ubicación de la persona en el momento censal, residencia habitual, tipo

2. Demográficos. Información sobre el hogar y relación de parentesco entre los miembros.

3. Educación. En este ámbito interesa el alfabetismo y el nivel de instrucción de las

4. Actividad económica. Se consulta si la persona es económicamente activa o inactiva.

¿Cuáles son los principales usos de la información censal.?

1. Determinar los cambios en la magnitud y composición de la población.

2. Proporciona las bases para las proyecciones de población.

3. Fuente básica de los países en desarrollo para el estudio de la migración.

2.4. Tipos de Variables.

2.5. Escalas de Medición.

4. Razón. Todos los datos cuantitativos son registrados en el nivel de razón de la

1. Establecer las diferencias entre variables cualitativas y cuantitativas.

2. Definir al menos dos ejemplos de variables cualitativas y de variables cuantitativas.

3. Establecer las diferencias entre variables discretas y continuas.

4. Definir al menos dos ejemplos de variables discretas y de variables continuas.

1. Todos los salvadoreños.

3. Todos los salvadoreños mayores de 18 años.

4. Todos los salvadoreños residentes en la Región Metropolitana

2. Se desea investigar el porcentaje de hogares en el país que han sido víctima de un

1. Coeficientes intelectuales de los estudiantes.

2. La distancia que viajan los estudiantes para llegar a clases.

3. Los números en los jerseys de un equipo universitario femenino de fútbol.

4. Una clasificación de estudiantes por fecha de nacimiento.

6. Número de horas que los alumnos estudian a la semana