Professional Documents
Culture Documents
ESTADSTICA
1
2
Presentacin
Esta gua de clases ha sido elaborada con el objetivo exponer al teora del
curso de Estadstica para los alumnos de las distintas especialidades de Estudios
Generales Letras que lleven el curso. La gua busca ayudar al estudiante a acom-
paar su proceso de aprendizaje, por lo que se recomienda que los alumnos la
impriman, lleven a clases y completen durante el desarrollo de las clases . Este
proceso debe obviamente complementarse con la resolucin de los problemas
que se presentan al final de cada captulo.
Deseo agradecer profundamente a la profesora Ana Valdivia y los profeso-
res Sergio Pavletich y Walter Luna quienes me brindaron desinteresadamente la
gua base de estas notas. Un buen nmero de los problemas aqu considerados
son de su autora.
3
Contenido
Captulo 2. Regresin Lineal Simple .......... Error! Bookmark not defined.Error! Bookmark not
defined.
2.1. Medidas de asociacin entre dos variables cuantitativasError! Bookmark not defined.
2.2. La recta de mnimos cuadrados ..................................... Error! Bookmark not defined.
2.3. Ejercicios ..................................................................... Error! Bookmark not defined.
4
Captulo 1. Estadstica Descriptiva
1.1. Conceptos bsicos
Definicin de Estadstica
La Estadstica es la Ciencia y el Arte de dar sentido a los datos. Ella se ocupa de la recoleccin, organi-
zacin, presentacin y anlisis de estos para transformarlos en informacin til que pueda ser utili-
zada para la toma de decisiones.
Estadstica Descriptiva
Son mtodos y tcnicas de recoleccin, caracterizacin y presentacin que permiten describir, apro-
piadamente, las caractersticas de un conjunto de datos. Comprende el uso de grficos, tablas y me-
didas resumen as como la aplicacin de otras tcnicas.
Estadstica Inferencial
Son mtodos y tcnicas que hacen posible estudiar una o ms caractersticas de una poblacin o
tomar decisiones sobre la poblacin basados en el resultado de muestras.
Poblacin
Es el conjunto de todos los elementos de inters en determinado estudio.
Los elementos que forman la poblacin pueden ser personas, cosas, eventos, animales, institu-
ciones, etc.
A cada elemento de la poblacin se le llama unidad estadstica.
Muestra
Es un subconjunto de elementos de la poblacin.
Cuando el objetivo es hacer inferencia estadstica es necesario que la muestra sea seleccionada
de acuerdo a un diseo aleatorio; es decir, que sus elementos sean escogidos al azar.
Ejemplo 1
El Programa para la Evaluacin Internacional de Alumnos de la OCDE (PISA, por sus siglas en ingls)
es el estudio internacional en educacin de mayor escala del mundo. Evala estudiantes de 15 aos
de edad que estn cursando algn grado de secundaria en comprensin lectora, matemtica y cien-
cias. El Per se reintegr a este programa para la evaluacin del 2009. Defina la poblacin del estudio
para el caso peruano.
Resultados del estudio PISA 2013 por pases
Puesto Pas Comprensin lectora Matemtica Ciencias
1 Shanghai-China 613 570 580
2 Singapur 573 542 551
3 Hong Kong-China 561 545 555
4 Taipei 560 523 523
--- --- --- --- ---
65 Indonesia 375 396 382
66 Per 368 384 373
Fuente: OECD PISA 2013 database
5
Ejemplo 2
Se desea determinar el porcentaje de mujeres en edad frtil que usa algn mtodo anticonceptivo.
Defina la poblacin para el caso peruano.
Variable estadstica
Una variable es una caracterstica que interesa observar o medir en las unidades estadsticas y que
puede asumir al menos dos valores diferentes.
Una variable estadstica es una funcin que a cada elemento de la poblacin le asigna un nmero.
Los nmeros se asignan de acuerdo con una escala y representan la medicin de una determina-
da caracterstica en cada unidad estadstica.
En una poblacin se pueden definir muchas variables estadsticas.
Rango de la variable estadstica
Es el conjunto formado por todos los valores que puede asumir la variable estadstica.
Dato
Es el valor de la medicin de una variable, realizada en una unidad estadstica.
Ejemplo 3
En una investigacin, se quiere estimar el porcentaje de personas, por grupos de edades, que vota-
ran por cierto candidato a la alcalda de Lima. Indique la poblacin y las variables a medir.
Ejemplo 4
En una investigacin, se quiere estimar el gasto total semanal en fotocopias de los alumnos de la
PUCP. Indique la poblacin y la variable a medir.
Ejemplo 5
El jefe de produccin de una fbrica de electrodomsticos define la poblacin de estudio como el
conjunto E formado por todas las licuadoras fabricadas en la planta del Callao durante el ao 2013.
Cul es la unidad estadstica de la poblacin E?
6
Parmetro
Es un valor que describe una caracterstica de la poblacin. Para calcular un parmetro se requiere
medir la caracterstica de inters en TODOS los elementos que conforman la poblacin.
Estadstico
Es un valor que describe alguna caracterstica de la muestra. Para calcular el estadstico se usan las
mediciones de la caracterstica de inters en los elementos que conforman la muestra de estudio.
Ejemplo 6
Muestra: Alumnos de la poblacin que estn matriculados en el horario del profesor Valdivieso.
Estadstico: Proporcin de alumnos que conforman la muestra.
Estadstico: _________________________________________________________________________
Ejemplo 7
Segn los Censos Nacionales X de Poblacin y V de Vivienda 2007 ejecutados por el INEI, el 50,06%
de los peruanos es mujer. Indique si este valor es un parmetro o un estadstico.
Ejemplo 8
En octubre del 2011, Ipsos Apoyo present los resultados de una encuesta sobre sexualidad, repro-
duccin y desigualdades de gnero, en la cual se indica que el 55% de los entrevistados afirma que la
violencia fsica es el principal problema de la mujer peruana. Indique si este valor es un parmetro o
un estadstico.
Ejemplo 9
En una muestra de viviendas del rea urbana de Ica se observ que en el 35% de los casos, el mate-
rial predominante de las paredes exteriores era adobe. Indique si este valor es un parmetro o un
estadstico.
7
Tipos de variables
Las variables se pueden clasificar en cualitativas o cuantitativas.
Variables cualitativas
Son las variables que miden una cualidad. Son de carcter no numrico y por lo general clasifican a
las unidades estadsticas en categoras.
Son ejemplos de variables cualitativas las siguientes: gnero de una persona, sector industrial al que
pertenece una empresa, tipo de material de construccin de una vivienda.
Variables cuantitativas
Son variables que miden una cantidad. Son de carcter numrico.
A su vez, las variables cuantitativas se pueden clasificar en discretas y continuas.
Ejemplo 10
Indique el tipo de las siguientes variables.
Variable Tipo de variable
Nombre de una persona
Nivel socioeconmico de una persona (bajo, medio, alto)
rea, en metros cuadrados, del jardn de una casa
Nmero de bytes que puede almacenar una memoria USB
Cantidad de dinero gastado en un fin de semana, en soles
Estatura, en centmetros, de una persona
Color de un lapicero
Escala de pagos de un alumno de la PUCP
Nmero de pacientes atendidos por da en la sala de
emergencia de cierta clnica.
Tipo de empresa (privada, pblica, otro)
Nmero de RUC de un contribuyente
8
Escalas de medicin de las variables
Medicin
Es el proceso de observacin de una caracterstica de inters (variable), sobre una unidad estadstica.
Escala de medicin
Es una regla (funcin) que asigna nmeros a las mediciones realizadas en las unidades estadsticas.
Los nmeros asignados por las escalas deben informar lo ms precisamente posible acerca de las
caractersticas de cada unidad observada.
Tipos de escalas de medicin
Stanley Smith Stevens (1906 1973), en la revista Science de junio de 1946, present su artculo So-
bre la Teora de las Escalas de Medicin. La clasificacin de Stevens considera cuatro tipos de escala:
nominal, ordinal, de intervalo y de razn.
Nominal
Una variable est medida en escala nominal cuando los valores de la variable clasifican a las unidades
estadsticas en iguales o diferentes. Aqu los valores de la variable funcionan simplemente como eti-
quetas que identifican a los distintos valores de las variables, por lo que incluso estos no necesitan
ser nmeros.
Por ejemplo: Sexo: 1 = femenino; 2 = masculino.
Estado civil: 1 = casado; 2 = soltero; 3 = viudo; 4 = otro.
Especialidad de un alumno de Psicologa: social = 0; educacional = 1; clnica = 2
Ordinal
Una escala ordinal es una escala nominal cuyos valores reflejan el orden existente entre los valores
de la variable, segn el mayor o menor grado en el que se encuentre presente la caracterstica.
Por ejemplo: Escala de pagos de un alumno de la PUCP: 1, 2, 3, 4, 5.
Grado de instruccin: 1 = primaria completa; 2 = secundaria completa; 3 = superior completa.
Grado de satisfaccin de un cliente: 1 = muy insatisfecho; 2 = insatisfecho; 3 = satisfecho; 4 = muy
satisfecho.
Intervalo
Una escala de intervalo es una escala ordinal en la que, adems, las diferencias entre los valores
asignados proporcionan informacin acerca de la diferencia en el grado en que se presenta la carac-
terstica observada. Esta escala no tiene un cero real sino un cero relativo, definido arbitrariamente y
que no indica ausencia de la caracterstica medida.
Por ejemplo: Temperatura, en grados centgrados.
Razn
Es una escala de intervalos en la que adems los nmeros asignados representan las cantidades de la
caracterstica que se mide.
La proporcin entre dos nmeros corresponde a la misma proporcin entre las cantidades de la ca-
racterstica medida.
El cero aqu es real e indica ausencia total de la caracterstica que mide la variable.
Por ejemplo: Sueldo bruto mensual, en nuevos soles, de los empleados de una empresa.
Tiempo, en minutos, que tarda un alumno en terminar una prueba de agilidad mental.
9
Ejemplo 11
Indique el tipo y la escala de medicin adecuada para las siguientes variables.
Variable Tipo de variable Escala de medicin
Cdigo de una alumna o alumno de la PUCP
Peso en kilogramos
Estrato Socio-Econmico
10
1.2. Organizacin y tratamiento de datos
Distribucin de frecuencias
Es la representacin estructurada, en forma de tabla, de los datos que se han recolectado sobre una
variable en estudio.
Es til para resumir grandes volmenes de datos.
Permite que quienes toman decisiones puedan extraer directamente la informacin relevante.
Frecuencias simples
La frecuencia absoluta ni de una clase es la cantidad de datos que pertenecen a esa clase.
La frecuencia relativa fi de una clase es la proporcin de datos que pertenecen a esa clase.
frecuencia relativa f i
frecuencia absoluta de la clase i n
i
nmero total de datos n
La frecuencia porcentual fi (%) de una clase es el porcentaje de datos que pertenecen a esa clase. Se
obtiene multiplicando la frecuencia relativa por 100 y se expresa en %.
Frecuencias acumuladas
Dado un conjunto de n datos cuantitativos, organizados en k clases, se define:
La frecuencia acumulada absoluta Ni de una clase es la cantidad de datos que pertenecen hasta esa
clase.
i
Se tiene que N i n
j 1
j , i 1, 2,..., k
La frecuencia relativa acumulada Fi de una clase es la proporcin de datos que pertenecen hasta esa
clase.
Frecuencia absoluta acumulada i N
Frecuencia relativa acumulada Fi i
Nmero total de datos n
La frecuencia relativa acumulada porcentual Fi (%) de una clase es el porcentaje de datos que perte-
necen hasta esa clase y se obtiene multiplicndose la frecuencia relativa acumulada por 100.
Ejemplo 13 Se tom una muestra de personas y se les pregunt por su bebida gaseosa preferida. Los
resultados se muestran en la siguiente tabla. Construya la distribucin de frecuencias de la variable
en estudio. Comente.
Inca Kola Otras Coca Cola Coca Cola Inca Kola Kola Real Sprite Coca Cola Kola Real
Kola Real Kola Real Inca Kola Inca Kola Sprite Inca Kola Inca Kola Otras Coca Cola
Kola Real Kola Real Sprite Inca Kola Inca Kola Inca Kola Otras Kola Real Coca Cola
Inca Kola Coca Cola Otras Kola Real Coca Cola Coca Cola Coca Cola Inca Kola Kola Real
Inca Kola Coca Cola Inca Kola Inca Kola Coca Cola Inca Kola Inca Kola Sprite Coca Cola
Marca de gaseosa ni : Nmero de fi: Proporcin de fi(%): Porcentaje
preferida personas personas de personas
Total
11
Ejemplo 14
Los siguientes datos muestran el nmero de veces que fueron al cine el ltimo mes un grupo de
alumnos de Estudios Generales Letras.
2 3 4 0 0 8 1 0 5 3 2 1 2 2 3 2 1 2 1 4 3 4 0 1 0 0 2 2 3 4
1 0 0 2 1 1 2 0 4 3 5 3 5 1 4 1 4 0 2 1 5 1 2 2 0 0 0 2 2 0
Construya la tabla de distribucin de frecuencias de la variable en estudio. Comente.
Nmero de veces ni: Nmero de fi(%): Porcentaje Ni: Nmero acu- Fi(%): Porcentaje
que fue al cine el alumnos de alumnos mulado de alum- acumulado de
ltimo mes nos alumnos
Total
12
Grficos para datos de variables cualitativas
Grfico de barras
Se usa para representar grficamente la distribucin de un conjunto de datos cualitativos.
En uno de los ejes, se representan las
categoras o clases de la variable; para el
otro eje, se puede usar una escala de fre-
cuencias absolutas, relativas o porcentua-
les. Se traza una barra sobre cada indica-
dor de clase de una altura proporcional a
la frecuencia correspondiente.
Las barras deben ser del mismo ancho y
deben estar separadas para enfatizar el
hecho de que cada clase es diferente de
otra.
13
Grficos para datos de variables cuantitativas discretas
Grfico de bastn
Es un grfico que muestra la frecuencia de ocurrencia de cada valor observado de la variable discreta
mediante un segmento (bastn) cuya altura es proporcional a la frecuencia correspondiente.
Ejemplo 15
Los siguientes datos muestran el nmero de veces que fueron al cine el ltimo mes un grupo de
alumnos de Estudios Generales Letras.
2 3 4 0 0 8 1 0 5 3 2 1 2 2 3 2 1 2 1 4 3 4 0 1 0 0 2 2 3 4
1 0 0 2 1 1 2 0 4 3 5 3 5 1 4 1 4 0 2 1 5 1 2 2 0 0 0 2 2 0
Construya el grfico de bastones correspondiente, (recuerde que ya construy la distribucin de fre-
cuencias para estos datos en el ejemplo 13).
14
Distribucin de frecuencias por intervalos para variables cuantitativas continuas
Cuando se realiza mediciones de una variable continua, por lo general, los datos observados tienen
muchos valores diferentes, por ello, para presentarlos en una tabla de forma tal que se facilite su
anlisis, estos datos deben agruparse primero en clases o intervalos.
Tres pasos previos para la construccin de una distribucin de frecuencias por intervalos son los
siguientes:
Determinar la cantidad de intervalos o clases.
Determinar el ancho o amplitud de cada intervalo o clase.
Determinar los lmites de cada intervalo o clase.
Aqu usaremos la convencin de que nuestros intervalos sern abiertos por la izquierda y cerra-
dos por la derecha, con excepcin del primer intervalo que es cerrado por la derecha.
Cantidad de clases: k
Se recomienda usar entre 5 y 20 intervalos o clases.
La idea es emplear suficientes clases para mostrar la variacin de los datos, pero no tantas que
varias contendran muy pocos o ningn elemento.
Hay algunas reglas que sugieren el nmero de clases o intervalos que se deben usar que depen-
den del nmero de datos disponibles, sin embargo en la prctica la decisin generalmente se
toma atendiendo a una necesidad especfica o por experiencia. Una de las reglas comentadas es
la de Sturges y viene dada por el nmero entero ms prximo por exceso a:
k 1 3.3 log 10 (n)
Amplitud de cada clase: c
Por lo general, se usa la misma amplitud o ancho para todas las clases.
Se calcula de la siguiente manera:
Dato mximo Dato mnimo x xmn Rango
c mx
k k k
La amplitud se aproxima por exceso de acuerdo con la cantidad de decimales que tienen los da-
tos o segn la precisin con que se desea trabajar.
Se usa la aproximacin por exceso para asegurar que el mayor de los datos pertenezca a alguna
de las clases.
Marca de clase
La marca de clase es el punto medio de cada intervalo. Se obtiene calculando la semi suma de los
lmites de cada intervalo o clase.
La marca de clase se considera un valor que representa a cada uno de los datos que pertenecen
al intervalo o clase correspondiente. Por eso es importante que los intervalos no sean demasiado
grandes porque la marca de clase no sera un buen representante, ni demasiado pequeos como
para complicar la construccin de la tabla o para que hayan varias clases sin datos.
La marca de clase de la clase i se denota mi
15
Ejemplo 16
Construya una distribucin de frecuencias de siete intervalos o clases para los siguientes datos que
representan los tiempos (en minutos), que demoraron 48 alumnos en resolver una prueba.
8.8 8.7 10.2 10.3 8.2 11.7 7.8 9.8 11.1 8.9 9.3 8.3 8.2 9.0 9.2 8.5
8.9 12.4 9.6 10.1 9.6 9.7 9.6 11.3 10.9 9.8 9.5 12.0 10.9 12.4 9.3 9.4
12.7 8.4 10.5 10.9 11.9 9.9 9.5 10.7 12.6 10.8 8.6 9.2 8.5 9.6 10.0 9.8
Solucin
El rango R se calcula con:
R = dato mximo dato mnimo = xmax xmin = 12.7 - 7.8 = 4.9
De acuerdo a lo indicado, el nmero de clases o intervalos a usar es k = 7.
La amplitud de cada intervalo es:
R 4.9
c 0.7
k 7
En el curso recordemos estamos usando la convencin que nuestros intervalos sern cerrados por la
derecha y abiertos por la izquierda con la excepcin del primer intervalo. Los intervalos o clases para
los datos de este ejemplo son:
I1: [xmin , xmin +c] = [7.8 , 7.8 + 0.7] = [7.8 , 8.5]
I2: ]xmin +c , xmin + 2c] = ]8.5 , 9.2]
...
I7: ]xmin + 6c , xmin + 7c] = [12.0 , 12.7]
Distribucin de frecuencias
Marca de clase ni: nmero de fi: proporcin Ni: No. acum. Fi: prop. acum.
Tiempo (min.)
(mi) alumnos de alumnos de alumnos de alumnos
Distribucin de frecuencias por intervalos para datos de una variable cuantitativa discretas
Si los datos que se quiere organizar en una distribucin de frecuencias corresponden a mediciones de
una variable discreta pero se han observado muchos valores diferentes, entonces tambin podemos
utilizar una distribucin de frecuencias por intervalos para facilitar el anlisis de estos datos.
Ejemplo 17
La manzana delicia (manzana Red Delicious), tiene piel o cscara color rojo brillante, pulpa blanque-
cina, es algo arenosa y con un sabor algo cido, de esta variedad procede la variedad Royal Red Deli-
cious. Se ha tomado una muestra de estas manzanas obtenindose los siguientes pesos, en gramos.
16
130 158 163 166 168 170 171 174 178 180 183 185 186 187 189
190 190 192 192 193 193 193 193 194 195 196 198 198 199 203
205 211 214 215 217 218 222 224 226 227 233 235 238 239 305
Construya una distribucin de frecuencias usando seis intervalos para los pesos de las manzanas de
la muestra.
Ttulo: _____________________________________________________________________________
mi ni fi(%) Ni Fi (%)
[ ]
] ]
] ]
] ]
] ]
] ]
Total
Interprete el valor de n4
Interprete el valor de m3
17
Grficos de variables cuantitativas continuas
Para presentar estos grficos usaremos los datos correspondientes a la experiencia laboral de los
obreros de una fbrica que han sido organizado previamente en la siguiente distribucin de frecuen-
cias por intervalos.
Experiencia mi: marca ni: nmero de fi: proporcin de Ni: Nmero acu- Fi: proporcin
laboral de clase obreros obreros mulado de obre- acumulada de
(en aos) ros obreros
Histograma
Este grfico se construye a partir de
una distribucin de frecuencias por
intervalos.
Cada frecuencia de clase se repre-
senta trazando un rectngulo, cuya
base es el intervalo de clase sobre
el eje horizontal y cuya altura es
proporcional a la frecuencia co-
rrespondiente (absoluta, relativa o
porcentual).
Los rectngulos adyacentes se
tocan entre s.
Polgono de frecuencias
Es la representacin por medio de una
figura poligonal cerrada de una distri-
bucin de frecuencias absolutas, rela-
tivas o porcentuales.
Se obtiene uniendo con segmentos
de recta los puntos con la marca
de clase como abscisa y la corres-
pondiente frecuencia absoluta o
relativa como ordenada.
Los polgonos de frecuencias se
cierran en los puntos del eje hori-
zontal correspondientes al lmite
inferior del primer intervalo y al
lmite superior del ltimo interva-
lo.
18
Ojiva
Es la grfica de una distribucin de
frecuencias acumuladas (absolutas, Experiencia laboral de los obreros de la
relativas o porcentuales). empresa A 100.00%
La ojiva parte del punto que tiene 100%
al lmite inferior del primer inter- 90% 99.02%
valo como abscisa y a cero como
80%
ordenada. 86.63%
Porcentaje acumulado
70%
Se obtiene uniendo con segmen-
tos de recta los puntos con el l- 60% 65.85%
mite superior de cada intervalo 50%
como abscisa y la frecuencia 40%
27.80%
acumulada respectiva como or- 30%
denada.
20%
Con la ojiva se puede estimar el
10%
nmero o porcentaje aproximado
de observaciones que correspon- 0%
den a un intervalo determinado. 0 4 8 12 16 20
Experiencia laboral (en aos)
Fuente: Empresa A. Encuesta RRHH 2013
Ejemplo 18
La anchoveta es el pez ms importante del ecosistema de la Corriente de Humboldt. Su abundancia
ha permitido el desarrollo y sustento de muchas otras especies de peces, aves, mamferos e inverte-
brados que hoy en da habitan en nuestro mar. Una muestra de 250 anchovetas de un ao de edad
ha dado una longitud mnima de 6 cm. Los datos se muestran organizados en la tabla siguiente.
Ttulo: _______________________________________________________________________
19
20
1.4. Tablas de contingencia
Tambin llamadas tablas cruzadas o tablas de doble entrada.
Se usan para resumir de manera simultnea los datos para dos variables.
Ejemplo 19
Como parte del estudio que se est realizando a fin de resolver un antiguo problema limtrofe entre dos
distritos vecinos A y B, se requiere evaluar si el nmero de pisos que tienen los edificios depende del dis-
trito en cual se realiza la construccin. En la siguiente tabla se muestra la distribucin de una muestra
aleatoria de 300 edificios de acuerdo al distrito en que estn ubicados y al nmero de pisos.
Distrito A 50 40 30 120
Distrito B 70 20 90 180
Evale la verdad o falsedad de las siguientes afirmaciones respecto a los edificios de la muestra:
iii. El 33.3% de los edificios estn ubicados en el distrito A y tienen entre 6 y 10 pisos ( )
iv. En la muestra hay 230 edificios que estn en el distrito B o tienen menos de 6 pisos ( )
21
Ejemplo 20
Existe relacion entre el estado nutricional y el rendimiento academico de los estudiantes de en-
sen anza basica? En un estudio se midio el estado nutricional de 1,000 nin os de ensen anza basica de
cierta poblacin, el cual fue clasificado como "malo", "regular y "bueno"; mientras que el rendi-
miento academico fue clasificado como bajo, medio y alto, resultando la siguiente tabla de
contingencia:
En la poblacin, el ..% de los nin os han tenido mala nutricin y bajo rendimiento.
En la poblacin, el ..% de los nin os con mala nutricin mostraron un bajo rendimiento.
En la poblacin, el ..% de los nin os de alto rendimiento tuvieron una mala nutricin.
Un grfico de barras componentes muestra todas las categoras de una de las variables apiladas en
una sola barra para cada categora de una segunda variable. El alto de cada barra es proporcional a la
frecuencia de cada categora de la segunda variable.
22
Grfico de barras componentes al 100%
Un grfico de barras componentes al 100% muestra todas las categoras de una de las variables api-
ladas en una sola barra para cada categora de una segunda variable. El alto de cada barra es el mis-
mo para cada categora.
23
Grfico de barras agrupadas
Un grfico de barras agrupadas muestra las distintas categoras de una de las variables mediante
barras contiguas para cada una de las categoras de la otra variable. Esta representacin es suma-
mente til para analizar si las variables pudieran estar o no relacionadas.
OBSERVACION:
Diremos que no existe una relacin entre las variables en estudio, o tambin que estas variables son
independientes, si la distribucin de frecuencias relativas de una de las variables es ms o menos la
misma para cada categora de la otra variable. Por ejemplo, en el grfico anterior aparentemente no
hay independencia, pues por citar las distribuciones de frecuencias relativas porcentuales por tipo de
juego son muy distintas para los grupos etarios de menos de 18 y entre 18 y 49 aos. En el primer
grupo predominan los juegos tradicionales; mientras que en el segundo los juegos de movilidad so-
cial.
La idea detrs del concepto de independencia recae en el hecho de que si las variables son indepen-
dientes no interesara saber la categora que toma una de las variables para conocer la distribucin
relativa de los valores que toma la otra variable. Las barras de cada categora en el eje horizontal
tendran casi la misma forma. En este caso podramos reportar sin ningn problema cual es la cate-
gora ms frecuente o menos frecuente de una de las variables, sin tener que preguntar para nada el
valor que toma la otra variable.
24
Ejemplo 21
En el II Censo Nacional Universitario del ao 2010 realizado por el INEI se pregunt a los alumnos de
pregrado de todo el Per por su tipo de universidad y su gnero. Los datos se muestran en los si-
guientes cuadros.
Per. Alumnos censados en pregrado por gnero y tipo de universidad. 2010
Gnero Pblica Privada Total
Femenino 135,082 247,743 382,825
Masculino 174,093 226, 052 400,145
Total 309,175 473,795 782,970
Fuente: INEI. Censo Universitario. 2010
a) Elabore un grfico de barras componentes que permita comparar la composicin porcentual
segn gnero por tipo de universidad.
Ttulo ....
Gnero Pblica Privada Total
Femenino
Masculino
Total 100%
Fuente:
Ttulo ....
c) Elabore un grfico apilado al 100% que permita ver la composicin porcentual segn gnero por
tipo de universidad.
Ttulo ....
Gnero Pblica Privada
Femenino
Masculino
Total 100% 100%
Fuente: INEI. Censo Universitario. 2010
Ttulo ....
d) Elabore un grfico de barras agrupadas que le permita comparar la distribucin porcentual segn
gnero por tipo de universidad.
Ttulo ....
Gnero Pblica Privada Total
Femenino 100%
Masculino 100%
Fuente: INEI. Censo Universitario. 2010
26
Ttulo ....
Parece haber relacin entre el gnero del estudiante y el tipo de universidad en que estudia?
Ejemplo 22
Se seleccion una muestra de 3,300 clientes de un banco que tienen prstamos con el banco hace al
menos dos aos. En esta muestra se encontr que:
- 600 de los clientes tienen sueldos de S/.3,000 o menos y de ellos 400 son buenos pagadores.
- 2,700 de los clientes tienen sueldos mayores a S/.3,000
- 1,100 clientes son malos pagadores.
Use la informacin anterior para completar la tabla siguiente:
27
Ejemplo 23
Responda a la pregunta planteada en el ejemplo 19.
Describa a manera de resumen algunas ventajas y desventajas de utilizar un grfico de barras com-
ponentes o agrupadas
Caractersticas de la moda
La moda se puede calcular para datos medidos en cualquier escala de medicin. En particular, es
la nica medida de tendencia central para variables medidas en escala nominal.
El valor de la moda no se ve afectado por valores extremos.
La moda no siempre es un valor nico. Una serie de datos puede tener dos modas (bimodal) o
ms modas (multimodal).
28
Moda de un conjunto de n datos
Agrupe los datos de acuerdo con sus frecuencias, el dato con mayor frecuencia es la moda.
Ejemplo 24
Calcule e interprete la moda de los siguientes datos, que representan el nmero de artculos com-
prados por 14 clientes de cierto supermercado.
2 2 2 4 2 5 5 4 5 2 5 5 5 4
Ejemplo 25
En la empresa A, se midi el nmero de errores por da que cometieron 158 obreros al ensamblar un
determinado producto. Calcule e interprete la moda del nmero de errores por obrero.
Empresa A. Distribucin de obreros por el nmero de errores al ensamblar el producto
xi : Nmero de errores ni : Nmero de obreros
0 25
3 45
5 60
8 28
Fuente: Gerencia de Produccin. Empresa A
29
La mediana
Es el valor de los datos que ocupa la posicin central cuando los datos se ordenan de menor a mayor.
Caractersticas de la mediana
Se puede calcular para variables medidas en escala de ordinal, intervalo o razn.
La mediana es un estadstico que no se ve afectado por valores extremos. Por eso se le utiliza
cuando hay datos inusuales o el polgono de frecuencias no es muy simtrico.
En los grficos anteriores el nmero de datos fue siempre impar, por lo que fue inmediato encontrar
el dato que ocupaba la posicin del medio. Si el nmero de datos es par, habrn dos valores en el
medio, por lo que convendremos que la mediana ser la media de estos datos; vale decir, el valor
que se ubica a igual distancia entre estos dos datos.
Ejemplo 26
El tiempo, en horas, que se tarda un grupo de obreros, capacitados y no capacitados, en realizar una
tarea se muestra en la siguiente tabla.
Capacitados 4.5 4.3 2.7 8.2 8.3 6.4 5.4 3.4 2.7 5.6
No capacitados 8.3 7.4 8.5 8.5 9.0 8.4 18
Calcule e interprete la mediana del tiempo para cada grupo. Compare los valores hallados y comente.
La media aritmtica
La media aritmtica es el valor que se obtiene al dividir la suma total de los datos entre el nmero de
datos.
Caractersticas de la media
Se puede calcular para datos medidos en escala de intervalo o razn.
El clculo de la media es sencillo y es la medida de tendencia central ms conocida.
El valor de la media depende de todos los datos, por lo que la presencia de valores muy grandes
o muy pequeos con respecto a los dems pueden cambiar drsticamente su valor. Estos valores
tienden a jalar la media hacia su lado.
30
n
x
i 1
i nx
x x 0
i 1
i
b. Si decide fijar el precio de venta de tal manera que gane 20% sobre el costo de cada computado-
ra, cul sera el precio medio de venta de las computadoras?
c. Si decide fijar el precio de venta aumentando un 10% sobre el costo de cada computadora ms
un monto fijo de 50 dlares, cul sera el precio medio de venta de las computadoras?
31
Sean x1, x2, xn un conjunto de n datos de una variable cuantitativa X. La media aritmtica de
n
x i
estos n datos es: x i 1
n
Ejemplo 28
Calcule la media de los siguientes datos que representan el nmero de papeletas pendientes de pago
de cada uno de 11 choferes de vehculos de transporte pblico seleccionados al azar.
12 13 25 20 17 19 15 14 28 5 4
Ejemplo 29
En la empresa A, se midi el nmero de errores que cometieron 158 obreros al ensamblar un deter-
minado producto. Calcule la media y la mediana del nmero de errores por obrero. Compare estas
medidas e indique cul le parecera ms representativa como promedio.
Empresa A. Nmero de errores al ensamblar un producto
xi: Nmero de errores ni: Nmero de obreros fi: Proporcin de obreros
0 25
3 45
5 60
8 8
Fuente: Gerencia de Recursos Humanos. Empresa A
w
i i
i xi
xp n
w
i 1
i
32
Ejemplo 29
Calcule la nota final de un alumno del curso de Estadstica de Estudios Generales Letras que tiene las
siguientes notas: prctica calificada 1 = 18, prctica calificada 2 = 10, prctica calificada 3 = 12, prcti-
ca calificada 4 = 15, examen parcial = 14 y examen final = 9. Los pesos del promedio de prcticas,
examen parcial y examen final son 3, 3 y 4, respectivamente. La prctica con menor nota se anula.
El primer cuartil de la variable Edad es 29, esto quiere decir que el 25% de los postulantes tiene
29 aos o menos.
El segundo cuartil de la variable Conocimientos generales es 30, esto quiere decir que el 50% de
los postulantes obtuvieron 30 o menos puntos en la prueba de conocimientos generales.
El tercer cuartil de la variable Neuroticismo es 77.5, esto quiere decir que el 75% de los postulan-
tes obtuvieron 77.5 o menos puntos en la evaluacin de Neuroticismo.
Ejemplo 31
En los ltimos 150 aos, los holandeses han pasado a ser los habitantes ms altos del mundo, y se-
gn los expertos siguen creciendo. El estudio de la altura de los holandeses a lo largo de los siglos
ofrece un panorama sobre la salud y riqueza de la nacin. No siempre fue as, en 1848, uno de cada
cuatro varones era rechazado del servicio militar porque no alcanzaba la estatura de 1.57 metros.
Actualmente, el percentil 1 de la estatura de los varones holandeses es 1.57 metros y el percentil 70
es 1.88 metros. Indique el significado de estos percentiles.
Fuente http://www.ap.org/ Associated Press.
33
Percentil k para un conjunto de n datos
Para su clculo utilizaremos la siguiente convencin en el curso (que por cierto no es nica):
Ordene los n datos de manera ascendente: x1 x2 x3 xn
K
Calcule la posicin j del percentil K: j n
100
Si el valor calculado de j es un nmero entero, entonces el percentil K ser la media de los datos
xj y xj+1 ; es decir, la media de los datos que ocupan esa posicin y la siguiente.
Si el valor calculado de j no es un nmero entero, entonces el percentil K ser el dato xj+1 ; es
decir, el dato que ocupa la posicin entera inmediata superior a j.
Ejemplo 32
Dadas las siguientes edades de una muestra de personas asistentes al tnel de la Ciencia, calcule e
interprete el percentil 30 y el percentil 50.
10 12 15 14 8 25 19 10 7 14 12 6 18 13 11 15 13 15 16 14 13 15
Ejemplo 33
En la tabla siguiente se muestra la distribucin de los trabajadores de una empresa segn el nmero de
tardanzas en el mes pasado. Calcule e interprete el percentil 30 y el percentil 75.
0 48
1 80
2 57
3 15
Total
Rango
El rango (alcance, amplitud o recorrido) de un conjunto de datos observados se define como:
R = dato mximo dato mnimo
Rango intercuartil
Es la diferencia entre el tercer y primer cuartil.
Rango intercuartil = RIC = Q3 Q1= P75 P25
35
Varianza
Dados n datos cuantitativos x1, x2,, xn la varianza de los datos se define como:
n
x x
2
i n
1
S2 i 1
( xi2 n( x) 2 )
n 1 n 1 i 1
Desviacin estndar
Dados n datos cuantitativos x1, x2,, xn la desviacin estndar de los datos se define como la raz cua-
drada de la varianza:
S S2
Ejemplo 35
Las notas de cuatro alumnos son x1 = 6, x2 = 11, x3 = 15, x4 = 16.
6 11 15 16
Luego la media aritmtica de las notas es x 12 puntos
4
Las diferencias o desvos de cada dato con respecto a la media son d1 = 6 12 = -6, d2 = 11 - 12 = -1,
d3 = 15 - 12 = 3, d4 = 16 - 12 = 4.
( 6) 2 ( 1) 2 32 42
Luego, la desviacin estndar de las notas es: S 4.546 puntos
3
Ejemplo 36
Calcule e interprete la media y la desviacin estndar de los siguientes datos que representan el n-
mero de personas atendidas por da en la caseta de informacin de un proyecto inmobiliario, en una
muestra de 15 das.
18 5 2 4 2 6 2 10 5 8 11 4 5 6 7
36
Ejemplo 37
En una muestra de ferreteras se ha registrado el precio de las varillas de acero de 12 mm, encon-
trndose un precio medio de 19.80 nuevos soles y una desviacin estndar de 0.85 nuevos soles.
Si los precios se redujeran en un 5% en todas las tiendas, calcule el nuevo precio medio y la nueva
desviacin estndar de los precios.
Dato atpico
Es un dato inusualmente grande o pequeo con respecto a los otros datos. Se considera un dato
atpico a cualquier dato que est:
a ms de 1.5(RIC) por arriba (o a la derecha) del tercer cuartil
a ms de 1.5(RIC) por debajo (o a la izquierda) del primer cuartil.
37
Diagramas de caja comparativos
Una ventaja de los diagramas de cajas es que se pueden presentar varios juntos, ello permite la fcil
comparacin visual de las caractersticas de varios conjuntos de datos.
Los diagramas de caja permiten comparar las distribuciones de los valores de una variable cuantitati-
va en los diferentes niveles de otra variable cualitativa.
Ejemplo 38
Se seleccion una muestra de 45 viviendas y se registr el monto cobrado por la empresa proveedora
por consumo de luz en el ltimo mes. Obtenga un diagrama de cajas para mostrar la distribucin de
los montos cobrados.
10.7 45.0 59.8 65.7 87.4 97.1 98.1 98.8 99.2 99.5 99.6 99.7 102.4 106.3 107.3
108.2 108.7 109.2 109.3 109.9 111.4 112.1 112.6 112.9 115.0 115.4 116.4 116.5 119.1 119.2
119.6 120.4 120.6 121.5 122.1 122.7 124.0 124.5 124.9 125.1 125.2 127.1 128.1 129.0 200.8
38
Ejemplo 39
Se desea comparar los resultados de la primera prctica en tres horarios de Estadstica de EEGGLL,
para lo cual se ha registrado las notas de una muestra de alumnos de cada horario.
H1 0 2 3 4 11 11 12 12 12 12 12 12 12 13 13 13 14 14 15 15 15 15 15 15 20 20
H2 11 12 12 12 13 13 14 14 14 14 14 14 15 15 16 16 16 16 16 17 17 18 18 18 18
H3 0 1 8 8 8 9 10 10 11 11 12 12 13 13 13 14 15 15 16 16 16 17 17 17
Construya un diagrama de cajas que permita comparar las distribuciones de notas en los tres hora-
rios.
Ttulo: .
39
Ejemplo 40
Los datos siguientes muestran el salario mensual en soles de los 13 trabajadores de cierta divisin en
una empresa:
3,210 450 780 380 990 1,250 6,288 800 850 820 1,500 1,900 700
a. Halle la media y mediana de estos salarios y comente cul promedio representa mejor a estos
datos.
b. Con el propsito de incrementar los salarios y hacer de que estos sean ms equitativos, la ge-
rencia de la divisin tiene 2 propuestas. La primera consiste en incrementarles los salarios en un
10% y darles un bono de 100 soles. La segunda consiste en dividir a los salarios en cuartiles para
luego incrementar los sueldos en x%, a los que ganan igual o menos que el percentil 25, en 2% a
los que ganan ms que el percentil 75 y en 15 % al resto. Cul sera el valor de x para que en
promedio los nuevos salarios sean los mismos bajo las dos polticas?
40
Una respuesta parcial a esta interrogante se basa en la marcas de clase anteriormente definidas para
una distribucin de frecuencias. Ellas actan como representantes de cada clase o intervalo y nos
permiten reconstruir los datos originales tan solo reemplazndolos por sus marcas de clase respec-
tivas. Una vez reconstruidos los datos, uno tan slo debe de aplicar las frmulas estndar para el
clculo de la medida de inters.
Ejemplo 41
La siguiente es la distribucin de frecuencias hipottica del nmero de botellas de yogurt vendidas
diariamente durante un mes en un supermercado
m n i i k
x i 1
n
m f
i 1
i i
41
k
n m x
2
i i k
1
S i 1
( mi2 ni n( x) 2 )
n 1 n 1 i 1
Ejemplo 42
Calcule la desviacin estndar de los siguientes datos que representan el nmero artculos defectuo-
sos encontrados en cada uno de 122 lotes recibidos. Cada lote tiene 1,000 artculos. SUGERENCIA:
Note que en este caso cada categora de la variable puede considerarse como su marca de clase.
xi: nmero de defectuosos ni: nmero de lotes
2 8
4 58
8 26
10 30
Ejemplo 43
Calcule la media y la desviacin estndar de los siguientes datos que corresponden a los pesos de los
equipajes de los pasajeros de un vuelo Lima - Arequipa
42
Identificaremos el intervalo Ii = ]Li , Ui] en el que se encuentra el percentil PK mirando en la co-
K
lumna de frecuencias relativas acumuladas. Se debe cumplir que: Fi 1 Fi .
100
El valor del percentil PK se determina por la siguiente expresin:
K c
PK Li Fi 1
100 fi
donde:
Li = lmite inferior del intervalo que contiene al percentil K
fi = frecuencia relativa del intervalo que contiene al percentil K
Fi-1 =Frecuencia relativa acumulada del intervalo anterior al que contiene al percentil K
c = Amplitud del intervalo.
Note que el hecho de dividir K entre 100 puede omitirse si las frecuencias se dan en trminos
porcentuales.
Para deducir la frmula para percentiles de datos agrupados en intervalos, podemos establecer
la siguiente semejanza de tringulos usando la ojiva de frecuencias relativas acumuladas
U i Li Fi Fi 1
PK Li K
Fi 1
100
Cuartiles
Primer cuartil: Q1 = P25
Segundo cuartil: Q2 = P50
Tercer cuartil: Q3 = P75
43
Ejemplo 44
A continuacin, se presenta la distribucin de los tiempos totales, en minutos, que diferentes esta-
ciones de radio dedicaron a los avisos comerciales entre las 8:00 a. m. y las 12:00 m. de un da de la
semana pasada. Calcule e interprete el primer y tercer cuartil de la distribucin.
Tiempo
[0 , 6] ]6 , 12] ]12 , 18] ]18 , 24] ]24 , 30] ]30 , 36] ]36 , 42] ]42 , 48] ]48 , 54] ]54 , 60]
(minutos)
Nmero de
1 3 17 2 1 10 0 0 2 14
emisoras
Ejemplo 45
Segn la definicin oficial de la Organizacin Meteorolgica Mundial, la lluvia es la precipitacin de
agua en forma de gotas, cuando stas alcanzan un dimetro superior a los 0.5 mm. La cantidad de
lluvia que cae en un lugar se mide con un pluvimetro. La intensidad de la precipitacin es medida en
milmetros por hora (mm/h), es decir, la altura medida en milmetros, del agua cada en una hora en
una superficie plana de 1 m2.
Las lluvias se categorizan en:
dbiles: cuando su intensidad es menor o igual a 2 mm/h,
moderadas: intensidad mayor a 2 mm/h y menor o igual a 15 mm/h,
fuertes: intensidad mayor a 15 mm/h y menor o igual a 30 mm/h,
muy fuertes: intensidad mayor a 30 mm/h y menor o igual a 60 mm/h
torrenciales: intensidad mayor a 60 mm/h
En la ciudad A se realizaron 120 mediciones de una hora de la cantidad de lluvia, en una muestra de
120 das del ao pasado, obtenindose los siguientes resultados.
44
a. Calcule e interprete el P80 de las mediciones.
b. Calcule la cantidad de precipitacin mxima para estar en el 15% de las precipitaciones ms bajas
de las 120 medidas.
d. Calcule el porcentaje de mediciones que fueron clasificadas como lluvia dbil o moderada.
e. Calcule el porcentaje de mediciones que fueron clasificadas como lluvia fuerte o muy fuerte.
f. Calcule la media y mediana porcentaje de estas mediciones, cul promedio sera en su opinin
ms apropiado para representar estos datos? Justifique.
45
1.10. Otros indicadores estadsticos
El coeficiente de variacin
El coeficiente de variacin (CV) de un conjunto de datos es una medida de dispersin relativa que
indica qu proporcin de la media es la desviacin estndar.
El coeficiente de variacin se determina calculando el cociente de la desviacin estndar de los
datos entre la media de los datos
Sx
CV
x
Es til al comparar la variabilidad de dos o ms series de datos que se miden en distintas o igua-
les unidades, pero difieren a tal punto que una comparacin directa de las respectivas desviacio-
nes estndar no es muy til, por ejemplo, cuando las medias estn muy distantes. Note que el
coeficiente de variacin es adimensional; es decir, no dependen de las unidades de medicin.
Un valor mayor del coeficiente de variacin indica mayor dispersin del conjunto de datos.
Ejemplo 46
En una tienda, el precio medio y la desviacin estndar del precio de los jeans es de 74 y 15.4 nuevos
soles, respectivamente. Si se rebaja 10 nuevos soles a todos los precios, calcule e interprete el nuevo
coeficiente de variacin de los precios. Despus del descuento, los precios de los jeans son ms
homogneos que antes?
Ejemplo 47
El coeficiente de variacin de los salarios un grupo de trabajadores es 0.12. Si se aprueba un aumen-
to del 20% ms una bonificacin especial de S/.115, el nuevo coeficiente de variacin ser igual a
0.06. Determine el valor de la media y la varianza de los salarios de los obreros, antes y despus del
aumento.
46
Ejemplo 48
El siguiente cuadro muestra la distribucin de sueldos mensuales de los empleados de tres empresas
A,B y C en el mes de julio del 2013. Note que los sueldos en A y B estn expresados en soles; mien-
tras que en C en dlares, pues esta empresa se ubica en el extranjero.
Empresas A,B y C. Sueldos mensuales en julio del 2013
Sueldos (en Empleados de la em- Empleados de la em- Sueldos (en Empleados de la em-
nuevos soles) presa A presa B dlares US) presa C
[2,500 , 3,500] 8 14 [800 , 1,200] 3
]3,500 , 4,500] 25 25 ]1,200 , 1,600] 10
]4,500 , 5,500] 35 83 ]1,600 , 2,000] 22
]5,500 , 6,500] 8 15 ]2,000 , 2,400] 15
Fuente: Gerencias de Recursos Humanos Empresa A,B y C.
Cul de los grupos presenta mayor variabilidad de sueldos?
Puntuacin estandarizada Z
Si los datos son x1 x2, . , xn entonces los datos estandarizados son:
xi x
zi , i = 1, 2,, n
Sx
Se cumple que z 0 y que s z 1 .
EL valor estandarizado del dato xi indica a cuntas desviaciones estndar, por arriba o por debajo
de la media, se encuentra este dato.
Ejemplo 49
Un conjunto de alumnos rindi dos exmenes. En el primer examen, la nota media fue 13.4 y la des-
viacin estndar de 2.3, mientras que en el segundo examen la nota media fue 15.4 y la desviacin
estndar 4.3. Una persona obtuvo 14 en el primer examen y 16 en el segundo examen. En trminos
relativos a los resultados de los exmenes, en cul de ellos el alumno tuvo un mejor rendimiento?
47
Indicadores de asimetra
Mide si los datos estn ubicados simtricamente o no respecto a una medida de tendencia central.
Distribucin de frecuencias simtrica
Una distribucin de frecuencias de k clases es simtrica, si se cumple que f1 f k ,
f2 fk 1 , f3 fk 2 , ...
Ejemplo 50
El salario, en cientos de nuevos soles, de los trabajadores una empresa se presenta a continuacin:
25 14 19 14 15 16 15 15 18 15 52 24 36 15 15 23 24
48
Ejemplo 51
El siguiente cuadro muestra la distribucin del sueldo mensual de los empleados de dos empresas A y
B en julio del 2013.
Empresas A y B. Sueldos mensuales en julio del 2011
Sueldos (en nuevos soles) Empleados de la empresa A Empleados de la empresa B
[1,500 , 2,500] 2 1
]2,500 , 3,500] 40 6
]3,500 , 4,500] 12 25
]4,500 , 5,500] 3 6
]5,500 , 6,500] 1 1
Fuente: Gerencias de Recursos Humanos Empresa A y B.
a) Calcule la media, desviacin estndar y coeficiente de variacin de los sueldos para los trabajado-
res de las empresas A y B. En cul de las dos empresas los sueldos son ms homogneos?
b) En un solo grfico muestre los dos polgonos de frecuencias para los sueldos de los trabajadores
de las empresas A y B. Comente comparativamente las distribuciones de los sueldos mensuales.
c) Compare la simetra de las distribuciones de los sueldos en las empresa A y B grficamente (use el
grfico de la parte b) y usando el coeficiente de asimetra de Pearson. Comente.
d) Responda ahora a la pregunta c) utilizando un grfico de cajas.
49
1.11. Ejercicios
1. Clasifique las siguientes variables segn tipo y escala de medicin: Prestigio social de la profe-
sin, consumo de energa elctrica en Kwh, actitud hacia las matemticas, precio de un produc-
to, estrato socioeconmico, ansiedad de rasgo y rea en metros cuadrados.
2. En cierto pas al cual va de viaje con una maleta de 18 kilos, se utiliza una escala de peso medida
en dracs. Al llegar y ser revisado usted observa que en la balanza del aeropuerto de este pas su
maleta pesa 45.72 dracs. Cunto pesar en ese pas su laptop si este tiene una especificacin
de 2.5 kilos ?
a. Construya un grfico que permita observar la composicin porcentual de los asistentes, se-
gn sus profesiones, a la charla informativa. El grfico debe tener un ttulo adecuado.
b. Calcule una medida de tendencia central para la variable cualitativa.
50
5. Un auditor, luego de revisar las declaraciones juradas de impuesto a la renta de 50 personas
naturales, hace un informe de los montos omitidos. El informe lo presenta con una distribucin
de frecuencias de 6 intervalos de la misma longitud. Los montos omitidos varan de 0 soles a
3,000 soles, y las frecuencias acumuladas del primero al sexto intervalo son respectivamente: 5,
15, 35, 43, 48, 50.
a. Encuentre e interprete la mediana y el coeficiente de variacin.
b. Halle el porcentaje de declaraciones en las que el monto omitido supera la media.
c. Grafique la ojiva.
6. En una encuesta realizada a 200 familias se ha obtenido la siguiente distribucin de frecuencias
relativas acumuladas del nmero de miembros que componen la unidad familiar.
Nmero de 1 2 3 4 5 6 7
miembros
Hi 0.15 0.32 0.57 0.74 0.87 0.96 1
7. En la empresa A se tom una muestra aleatoria de 560 trabajadores y se les pregunt por su
ingreso mensual, en dlares, obtenindose los siguientes resultados.
Distribucin de trabajadores por sus ingresos mensuales (en dlares)
mi: Marca de
Ingresos (en dlares) ni fi Ni Fi
clase
] 30
] ] 0.1339
771,70000
] ]
190
275 275
] ]
275 325
] ]
130
325 325
]
25
22,500
Fuente: Gerencia de Recursos Humanos. Empresa A
a. Complete la tabla de distribucin de frecuencias
b. Calcule aproximadamente la mediana de los ingresos de los trabajadores de la muestra.
Interprete.
c. Qu porcentaje de trabajadores en la muestra tiene ingresos superiores a los 1,750 d-
lares?
51
8. En el distrito A se tom una muestra aleatoria de jvenes y se les pregunt por su estatura, en
centmetros, obtenindose los siguientes resultados.
Distrito A. Estaturas de una muestra de 800 jvenes
150 ] 0.48
] 166 ] 0.32
] ] 0.95
] 800
Fuente: Gerencia de Desarrollo Humano. Municipalidad del distrito A
a. Complete la tabla de distribucin de frecuencias
b. Calcule la estatura media para la muestra de jvenes.
c. Obtenga e interprete los cuartiles de esta distribucin.
a. Se puede decir que el canal A con su principal competencia, el canal C, cubren en el hora-
rio de las 8 pm. ms del 50 % de toda la teleaudiencia ?
b. Comente los resultados de este estudio y en base a l reconstruya la distribucin
de frecuencias del nmero de personas que ve cada canal, segn cada sexo.
c. Represente esta grca como un grco de barras agrupadas.
d. Podra decirse que la preferencia por un canal en el horario de las 8pm, no tiene nada
que ver con el sexo de la teleaudiencia ?.
52
10. La siguiente lista contiene los tiempos de horas de permanencia en Intranet de un grupo de 50
alumnos a lo largo de un da
0.43, 0.33, 1.25, 0.02, 3.10, 0.04, 0.35, 1.33, 0.72, 0.09,
0.10, 0.50, 0.70, 0.44, 0.30, 0.06, 1.31, 0.26, 3.30, 0.08,
0.03, 0.04, 1.53, 1.09, 0.12, 0.22, 0.69, 0.18, 2.04, 2.24,
0.09, 0.52, 5.25, 0.08, 0.45, 0.03, 1.69, 2.78, 0.43, 1.10,
0.61, 2.52, 2.16, 0.17, 1.72, 0.35, 1.59, 0.18, 1.49, 0.25.
en el cual los primeros 20 alumnos (empezando de arriba hacia abajo y de izquierda a derecha)
son hombres y el resto mujeres.
a. Realice un grfico circular con la variable sexo.
b. Obtenga manualmente la distribucin de frecuencias de estos datos y graque su
histograma y polgono. Qu puede decir acerca de la asimetra de la distribucin
c. Arme o refute la siguiente aseveracin: aproximadamente ms de la cuarta parte de es-
tos alumnos permanecen ms de una hora y media al dia en Intranet.
d. Halle aproximadamente el porcentaje de alumnos que permanecen en Intranet ms que el
tiempo promedio (referido a la media aritmtica).
e. Graque las distribuciones de tiempos de permanencia tanto para los hombres como para
las mujeres y comente las diferencias entre estos grupos.
11. Hay 10 personas en un ascensor, 4 mujeres y 6 hombres. El peso medio de las mujeres es de 60
kilos con una desviacin estndar de 8 kilos y el peso medio de los hombres es de 80 kilos con
una varianza de 25 kilos2.
a. Cul es el peso medio de las 10 personas en el ascensor?
b. Si el peso de cada una de las mujeres aumentara al doble cules seran el nuevo peso me-
dio y la nueva varianza de los pesos de las mujeres?
c. Suponga que cada uno de los hombres se pesa en una balanza que no est bien calibrada y
que aumenta 2,5 kilos en cada medicin. Cul sera el coeficiente de variacin que se ob-
tendra con esas mediciones de los pesos de los hombres?
12. En los reportes estadsticos de una empresa, correspondientes al perodo de los ltimos 100
das, se lee la siguiente informacin sobre el nmero de facturas diarias emitidas por la empresa
en dicho perodo.
Nmero de facturas Proporcin de das
a. Calcule el valor aproximado de la media y la mediana del nmero de facturas diarias emiti-
das por la empresa en dicho perodo, compare los valores y comente cul le parece ms
adecuado para representar este conjunto de datos.
b. Calcule aproximadamente el porcentaje de das en los que fueron emitidas ms facturas
que la media.
53
13. En una compaa se tiene inters en analizar si la eleccin del proveedor est o no aso-
ciada a la calidad de los circuitos elctricos que la compaa compra y utiliza en la ela-
boracin de sus artefactos. Para ello el departamento de control de calidad ha reportado la si-
guiente tabla de contingencia de todos los circuitos adquiridos hasta el momento por la compa-
a segn el proveedor de estos y la calidad determinada por este departamento.
A 60 4 8
B 158 20 13
C 105 5 8
54
15. A continuacin, se presenta la distribucin de los tiempos totales, en minutos, que diferentes
estaciones de radio dedicaron a los avisos comerciales entre las 8:00 a. m. y las 12:00 m. de un
da de la semana pasada.
Tiempo (minutos) [0 , 6] ]6 , 12] ]12 , 18] ]18 , 24] ]24 , 30] ]30 , 36] ]36 , 42] ]42 , 48] ]48 , 54] ]54 , 60]
Nmero de radios 1 3 17 2 1 10 0 0 2 14
Porcentaje [3,7] ]7 , 11] ]11 , 15] ]15 , 19] ]19 , 23] ]23 , 27]
de grasa
Frecuencia 16 66 44 60 10 4
absoluta
a. Grafique el polgono de frecuencias y la ojiva de la distribucin.
b. Calcule e interprete el coeficiente de variacin.
c. Halle e interprete los cuartiles de la distribucin.
d. Se considera que un hombre tiene sobrepeso si tiene un porcentaje de grasa corporal ma-
yor a 18%. Qu porcentaje de entrevistados tuvo sobrepeso?
17. La anchoveta es el pez ms importante del ecosistema de la Corriente de Humboldt. Su abun-
dancia ha permitido el desarrollo y sustento de muchas otras especies de peces, aves, mamfe-
ros e invertebrados que hoy en da habitan en nuestro mar. Una muestra de 250 anchovetas de
un ao de edad ha dado una longitud media de 11.24 cm. Los datos se muestran en la tabla.
55
18. En una asociacin se tienen registrados los siguientes da tos de sus asociados:
S u j et o
Variable 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Estado 0 0 1 1 1 0 1 0 0 1 1 0 0 0
m a r i ta l
Nivel 3 2 3 2 4 1 3 1 4 2 1 3 2 1
e d u c a ti v o
Ingreso 130 190 200 230 260 260 280 280 280 290 310 370 390 400
mensual
S u j et o
Variable 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Estado 1 1 0 0 1 0 0 0 0 0 1 1 0 1
m a r i ta l
Nivel 2 3 2 1 2 4 3 4 4 3 2 1 3 1
e d u c a ti v o
Ingreso 420 430 480 480 530 550 580 600 600 700 700 720 720 750
mensual
S u j et o
Variable 29 30 31 32 33 34 35 36 37 38 39 40
Estado 0 0 1 0 0 0 0 1 1 1 0 0
m a r i ta l
Nivel 3 2 1 3 2 3 3 2 2 4 1 3
e d u c a ti v o
Ingreso 7 6 0 7 8 0 8 3 0 8 9 0 9 2 0 1 , 0 20 1 , 0 90 1 , 1 70 1 , 4 40 1 , 4 80 1 , 5 30 2 , 8 30
mensual
56
19. Los salarios que ofrece una empresa a los practicantes varan entre $180 y $300. Si los salarios
se agrupan en cuatro intervalos de clase de longitudes iguales de manera que el 40% de los
practicantes tienen salarios menores o iguales que $225, el 80% tienen salarios menores o igua-
les que $255 y el 15% tiene salarios mayores que $262,50.
a. Hallar el porcentaje de practicantes en cada intervalo.
b. Si el ingreso mnimo se fija en $265 y la empresa aumenta una misma cantidad a todos los
practicantes de modo que el 25% supere el ingreso mnimo, cunto sera el aumento?
c. Si se aumentase como en b), seran ahora los salarios ms equitativos?
20. El porcentaje de germinacin es uno de los principales factores para decidir la calidad de las
semillas. Un fabricante afirma que el porcentaje de germinacin de sus semillas de maz es del
85%. Para verificar tal afirmacin, una cooperativa de agricultores seleccion 120 muestras de
100 semillas cada una y anot el porcentaje de germinacin en cada muestra. Los valores ob-
servados se organizaron en la siguiente tabla.
[ 70 , ] 10
0.20
0.70
22
] , 95 ]
21. En dos ros de determinada regin se han soltado cras de truchas marcadas y se han recogido
muestras de las mismas despus de cierto periodo de tiempo. Se ha medido el peso (en gramos)
de esos ejemplares resultando la tabla siguiente:
57
22. Se realiz una prueba de destreza manual entre los obreros de una fbrica. Se midi el nmero
de errores cometidos en la prueba, obtenindose los siguientes resultados:
23. En agosto del 2005, la empresa LibroOnLine dict un curso sobre redes en computadoras me-
diante dos sistemas: presencial y a distancia. Con el objetivo de comparar las notas promedio, la
variabilidad de los valores centrales y el rango de las notas, se tom un examen final y se regis-
tr los resultados en la siguiente distribucin de frecuencias.
a. Realizar un grfico que permita llegar al objetivo deseado y realizar dos conclusiones sobre
el grfico.
b. Encontrar, en cada uno de los dos sistemas, el porcentaje de notas que son mayores que su
respectiva media.
i Intervalo fi
1 [0 , 18] 0.0548
2 0.1905
3 0.2500
4 0.2857
5 0.1071
6 0.0762
7 0.0357
a. Calcule el tiempo mnimo para estar en el quinto superior de los que ms usan la Internet.
b. Calcule el porcentaje de alumnos que usan una hora o menos la Internet.
c. Encuentre la media y la varianza del nmero de minutos diarios que usan la Internet.
d. Calcule el coeficiente de asimetra de esta distribucin en interprete.
58
25. Se aplic un cuestionario a 16 trabajadores de una gran empresa y se obtuvieron los datos pre-
sentados en la siguiente tabla:
Cdigo del Ao de naci- Nivel educativo Categora Salario anual Salario anual
Gnero
trabajador miento (aos) laboral actual en S/. inicial en S/.
9534 F 1966 10 Empleado 27,900 12,750
2041 F 1960 12 Empleado 26,250 11,550
1187 F 1952 16 Ejecutivo 41,500 18,750
1842 F 1980 12 Empleado 24,000 12,750
1813 F 1960 12 Empleado 27,450 10,200
2519 F 1979 12 Empleado 23,100 11,250
3338 F 1985 16 Ejecutivo 37,050 18,000
3012 F 1973 12 Empleado 24,450 12,450
1056 M 1980 8 Empleado 28,350 12,000
2087 M 1960 19 Directivo 95,000 56,980
1004 M 1967 12 Empleado 30,900 15,000
6589 M 1975 12 Empleado 26,700 14,500
1723 M 1962 20 Directivo 69,250 42,800
2013 M 1968 16 Directivo 48,200 21,000
1096 M 1981 12 Empleado 27,900 16,500
2873 M 1979 16 Ejecutivo 40,350 19,500
(Gnero: F = Femenino, M = Masculino)
a. Clasifique cada una de las variables e indique la escala de medicin adecuada para cada ca-
so.
b. Calcule la moda, la media y la mediana de la variable nivel educativo y comente su sime-
tra.
c. Haga un grfico que permita comparar el rango y los cuartiles de los salarios iniciales de los
hombres y mujeres. Comente el grfico.
26. En la siguiente tabla se muestra la distribucin de frecuencias del nmero de hojas impresas por
un grupo de impresoras durante un da:
59
27. Los siguientes datos representan la cantidad de bebida gaseosa en una muestra de 25 botellas
de 2 litros. 1.928 1.946 1.984 2.013 2.045
1.928 1.957 1.996 2.014 2.066
1.938 1.969 1.997 2.014 2.075
1.941 1.971 1.999 2.015 2.086
1.941 1.973 2.003 2.034 2.088
a. Las especi- ficaciones
del proceso de llenado de las botellas establecen que el contenido medio debe estar entre
1.950 y 2.050 litros y que la desviacin estndar del contenido debe ser menor a 0.050 li-
tros. A partir de los datos de la muestra, dira usted que el proceso cumple las especifica-
ciones?
b. Construya un diagrama de cajas y comente la simetra de la distribucin de los contenidos
de gaseosa observados.
28. En un estudio sobre consumo de petrleo en una gran ciudad se eligi dos grifos y se tom una
muestra de 100 camiones en cada uno de ellos y se observ el nmero de galones que consu-
man en un da, obtenindose la siguiente distribucin de frecuencias.
Grifo A Grifo B
Nmero de galones Nmero de camiones Nmero de galones Nmero de camiones
1 , 5] 4 10 20
]5 , 9] 8 15 37
]9 , 13] 35 20 25
]13 , 17] 30 25 10
]17 , 21] 20 30 8
]21 , 25 3
a. En cul de los dos grifos el consumo de petrleo presenta mayor variabilidad?
b. Realice un diagrama de cajas que permita comparar el consumo de petrleo de los dos gri-
fos.
29. La ojiva de los ingresos mensuales, en miles de nuevos soles, de una empresa se muestran en el
siguiente grfico.
Ojiva de ingresos mensuales
1
0.9
0.8
0.7
0.6
Fi
0.5
0.4
0.3
0.2
0.1
0
0 1000 2000 3000 4000 5000 6000 7000 8000
Ingresos
60
30. Se tom una muestra aleatoria de 80 viajes de la empresa de transporte interprovincial A y una
muestra aleatoria de 20 viajes de la empresa B. Las tablas siguientes muestran los datos del
nmero de pasajeros por viaje de esas muestras.
Secretaria A 12.1 11.6 12.5 8.2 11.9 10 7.5 7.4 9.1 10.6
Secretaria B 17.5 16 19 15.9 15.8 13.6 12.9 14.2 15.4 14.2
Secretaria Secretaria
A B
Media 15.45
Mediana 10.3
Moda
Desviacin estndar
Varianza de la muestra 3.39
Coeficiente de Variabilidad
(en %) 11.92
Rango 5.1 6.1
Mnimo 7.4 12.9
Mximo 12.5 19
61
y diagramas de cajas
18
16
14
12
10
8
1 2
32. Las siguientes son las calificaciones obtenidas por los 16 estudiantes egresados de una promo-
cin de un instituto tecnolgico
11.14, 11.92, 12.05, 12.26, 12.58, 12.71, 12.81, 12.90, 12.92, 13.05, 13.86, 14.76, 14.89,
14.98, 15.00, 19.48
a. Qu medida de tendencia central considerara ms adecuada para este conjunto de da-
tos?. Indique la razn de su eleccin y calcule el valor de esta medida.
b. Una empresa ha ofrecido contratar al tercio superior de esta promocin. Cunto debera
haber obtenido un estudiante como mnimo en esta promocin para ser contratado por la
empresa?
c. Se desea transformar estas calificaciones en puntuaciones que tengan una media aritmtica
de 50 y una desviacin estndar de 10. Para ello se le multiplicar a cada calificacin por una
constante b y luego se le sumara una constante a. Halle el valor de las constantes a y b.
33. Una compaa requiere los servicios de un tcnico especializado. De los expedientes presenta-
dos, se han seleccionado 2 candidatos: A y B, los cuales renen los requisitos mnimos requeri-
dos. Para decidir cul de los 2 se va a contratar, los miembros del jurado deciden tomarles 7
pruebas. Todas las pruebas se calificaron utilizando una escala de 0 a 80, donde 80 es el mximo
puntaje posible. Los resultados se dan a continuacin:
Prueba
1 2 3 4 5 6 7
Puntaje obtenido por A 57 55 54 52 62 55 59
Puntaje obtenido por B 80 40 62 72 46 80 40
62