You are on page 1of 44

2.

Estadstica Descriptiva

En toda investigacin cientfica y, en general, en la toma de decisiones de cualquier
actividad humana, se requiere tener informacin. Por ejemplo, en demografa, interesa
conocer la edad al momento de contraer matrimonio, el nmero de hijos, la longevidad, etc.
Del mismo modo, en economa interesa conocer el ingreso de las personas, su situacin
ocupacional, su nivel socioeconmico; si se trata de empresas, interesan los capitales,
ganancias, etc. En salud, es importante tener informacin sobre desnutricin infantil,
incidencia de determinadas enfermedades, nmero de prestaciones hospitalarias, entre
muchas otras variables.

2.1.Conceptos Bsicos.

En los ejemplos anteriores la informacin consiste en el conocimiento detallado de las
caractersticas de ciertos elementos. Por ejemplo nos puede interesar saber:

La edad de una persona al momento de contraer matrimonio.
El nmero de hijos de una familia.
El capital de una empresa.
La presencia de defectos en un envase de vidrio.

En el primer caso, los elementos son personas individuales; en el segundo, se trata de
familias; y en los casos restantes, son empresas y envases de vidrio. Las caractersticas que
nos interesan medir o determinar (en cada elemento), varan de uno a otro. Nos referiremos
a ellas en lo sucesivo con el nombre de variables. De esta forma, edad, nmero de hijos,
capital y presencia de defectos, son ejemplos de variables.

Cuando queremos estudiar una variable, es importante tener claro cuales son aquellos
elementos de los que queremos saber su valor. Al conjunto de estos elementos los
llamaremos poblacin y al nmero de elementos de este conjunto lo llamaremos tamao
de la poblacin, el cual suele denotarse por la letra N. El uso de la palabra poblacin tiene

aqu un significado tcnico. En efecto, los elementos de la poblacin no son necesariamente
personas. As en los ejemplos precedentes, aparecen poblaciones de personas, familias,
empresas y envase de vidrio. No es difcil pensar en otras situaciones donde las poblaciones
estn constituidas por huevos, automviles o componentes electrnicos.

Es conveniente clasificar las variables de acuerdo al conjunto de valores posibles que ellas
puedan tener. Los valores de las variables edad, capital, nmero de hijos, se expresan en
forma numrica. En cambio presencia de defectos, sabor, posicin poltica muestran una
cualidad del elemento y no pueden expresarse numricamente, salvo de manera artificial.
Entonces podemos distinguir dos tipos de variables:

- Variables cualitativas o no numricas.
- Variables cuantitativas o numricas.

Las variables edad y nmero de hijos, son cuantitativas. Sin embargo, el nmero de hijos
puede tomar los valores 0,1,2,..., vale decir, un entero no negativo. No tiene sentido hablar
de valores intermedios como 1.3 hijos. Por el contrario, si bien la
edad se expresa en aos cumplidos, esto lo podemos refinar usando meses, das, horas,
minutos, segundos, etc. O sea, entre dos valores cualesquiera de la variable edad, por
cercanos que sean, existe siempre un valor intermedio.

Esto nos sugiere, que las variables cuantitativas pueden ser clasificadas segn los valores
que tomen. Por tanto si una variable cuantitativa toma valores en un conjunto finito o
infinito numerable, careciendo de sentido valores intermedios, la denominaremos variable
discreta. Ahora si una variable cuantitativa toma valores en un rango o intervalo (es decir,
si dados dos valores cualesquiera de la variable, siempre existe un valor intermedio)
diremos que ella es una variable continua.

Por otro lado, las variables sexo y grados en l ejercito son variables cualitativas. La
variable sexo toma los valores masculino y femenino, en cambio la variable grados del
ejercito puede tomar los valores soldado, suboficial, oficial. La diferencia entre ambas

variables es que en grados del ejercito existe un orden jerrquico, propio de la variable. De
esta manera, si una variable cualitativa toma valores en un conjunto donde los valores son
solo nombres, la llamaremos variable nominal, y si adems estos nombres tienen un orden
propio o jerarqua la llamaremos variable ordinal.

Hay situaciones en que necesitamos informacin sobre los valores de ciertas variables de
inters en cada uno de los elementos de la poblacin. Por ejemplo, la estructura exacta de
las edades en la poblacin chilena, slo puede conocerse determinando la edad de cada uno
de los habitantes de Chile. La determinacin de los valores de una o ms variables de
inters, en cada uno de los elementos de una poblacin, es una actividad que llamaremos
censo.

La realizacin de un censo es una actividad compleja y costosa. Por ejemplo en el caso de
los envases de vidrio, deberamos examinar cada uno de ellos, y estos podran ser
millones!!. An cuando esto se pudiera realizar, el costo de una revisin exhaustiva sera
tan alto que encarecera excesivamente el valor del envase. La palabra censo aparece
vinculada normalmente con los censos nacionales de poblacin. Estos se efectan, por
razones econmicas, slo cada diez aos. En el nter tanto es necesario contar con la
informacin sobre la situacin del momento. Las decisiones no pueden basarse slo en el
resultado del ltimo censo, ni pueden esperar a que se realice el prximo.

Adems de las dificultades ya sealadas, los censos slo miden variables de tipo general.
Por ejemplo, poco aportan los resultados del ltimo censo que se haya realizado, a la
prediccin del comportamiento de los votantes en una prxima eleccin. La discusin
anterior indica, que muy raramente, es posible recolectar informacin completa. Tenemos
que contentarnos, entonces, con informacin incompleta o parcial, lo que significa que los
valores de las variables que nos interesan, se miden slo en algunos elementos de la
poblacin. Se puede preguntar la edad slo a algunas personas, determinar el capital de slo
algunas empresas, revisar slo algunos envases, etc. Cuando compramos fruta es posible,
con buena suerte, que podamos probar algunas de ellas. Es ilusorio pensar que podramos
probar toda la fruta antes de comprarla. Las personas a las cuales se les pregunta la edad,

las empresas cuyo capital se determinan, los envases que se revisan, o las frutas que se
prueban, constituyen ejemplos de lo que denominaremos muestra. La definicin formal de
este concepto es particularmente sencilla, ya que una muestra es un subconjunto de la
poblacin. El tamao de la muestra es el nmero de elementos que ella contiene y se denota
por n.

Naturalmente, existe el riesgo de que los valores observados en la muestra difieran
sustancialmente de los valores determinados en la poblacin completa. Este riesgo se
acenta si los elementos de la muestra son seleccionados sin un mtodo claro y utilizando
juicios subjetivos, como por ejemplo:
Un 2 medio de cierto colegio de la capital, ser medido, por el ministerio de
educacin, para poder determinar el nivel de conocimiento de los alumnos. Ante esta
situacin, la profesora jefe le indica a los alumnos de rendimiento deficiente que estn
autorizados para faltar a clases el da de la prueba, pero los alumnos de buen rendimiento
estn obligados a asistir a clases y rendir la prueba.

Los resultados de la prueba representan el rendimiento del curso? Como se puede ver, en
realidad, los resultados obtenidos no representan el rendimiento del curso. Llamamos a este
problema sesgo de seleccin.

Para reducir o eliminar es sesgo de seleccin en la determinacin de los elementos que
compondran la muestra, se utiliza, a propsito, el azar. De esta forma se elimina la
subjetividad del proceso de seleccin de estos elementos. Existe un rea de la estadstica
preocupada de esto, llamada teora de muestreo.

El mtodo ms sencillo para la seleccin de una muestra es el muestreo aleatorio simple,
en el que todos los elementos de la poblacin tienen la misma posibilidad de pertenecer a la
muestra. Ahora, si la poblacin se clasifica en un cierto nmero de grupos (llamados
estratos) y luego, al interior de cada estrato, se obtiene una muestra por muestreo aleatorio
simple, este mtodo de seleccin de una muestra se denomina muestreo estratificado. En

la prctica, los mtodos de seleccin empleados suelen ser ms complejos, pero la idea
bsica de uso del azar sigue siendo la misma.

2.2. Tablas de frecuencia.

Como hemos mencionado anteriormente, la edad es una variable, en el sentido que cambia
de una persona a otra. Sin embargo, una vez seleccionada la persona cuya edad queremos
determinar, su edad es un nmero fijo. Para aclarar esta idea supongamos que Claudia
Reyes pertenece a cierta poblacin y tiene 17 aos. Diremos entonces que el valor de la
variable edad (expresada en aos) para el elemento Claudia Reyes es 17. A este valor lo
llamaremos el dato de Claudia Reyes.

Suponga, que en un estudio realizado a un grupo de trabajadores, se les consult por su
nivel de instruccin educacional. Los datos recopilados a estos trabajadores se muestran en
la siguiente tabla:
Trabajador Nivel de
Instruccin
Trabajador Nivel de
Instruccin
1 Bsico 11 Superior
2 Medio 12 Medio
3 Superior 13 Bsico
4 Superior 14 Bsico
5 Bsico 15 Medio
6 Bsico 16 Medio
7 Medio 17 Bsico
8 Medio 18 Medio
9 Medio 19 Superior
10 Superior 20 Bsico

Al conjunto de datos, lo llamaremos la informacin. Se puede pensar que un dato es la
informacin de un individuo en particular. Bueno, a cada dato lo consideraremos como la
unidad bsica de informacin. Generalmente, la informacin no presenta una imagen
valiosa, debido a su extensin o al desorden que esta presenta. Por ejemplo, en la tabla
anterior se observa lo segundo.

Entonces, debemos organizar la informacin de una manera simple y que sea entendible. A
esta organizacin la llamaremos tabla de frecuencias, que nos muestra el comportamiento
de la variable en estudio. La construccin de esta tabla es bastante sencilla y se muestra en
el siguiente diagrama:

El nmero de veces que se repite cada valor de la variable, nos indica cuan frecuente es
cada uno de estos valores. A esta cantidad la llamaremos frecuencia absoluta (
i
n ).
Notemos que si m es la cantidad de valores posibles de la variable, entonces
n n n n
m
= + + +
2 1
que es el total de datos. La proporcin, corresponde a lo que
llamaremos frecuencia relativa (
i
f ) y es calculada como
n
n
f
i
i
=
. La suma de las
frecuencias relativas debe dar 1. El porcentaje no es ms que % 100 *
i
f y la suma de
estos debe dar 100%.

La tabla de frecuencias, para la variable nivel de instruccin de los trabajadores, queda:

En esta tabla de frecuencia se ha suprimido la columna de frecuencias relativas, por ser
redundante, ya que est la columna de porcentajes.

La tabla anterior se aplica a variables cualitativas, tanto nominales como ordinales, como a
Nivel de Frecuencia Porcentaje
Instruccin Absoluta
Bsico 7 35
Medio 8 40
Superior 5 25
Total 20 100

variables cuantitativas discretas. En cambio para variables cuantitativas continuas, la tabla
se frecuencias se construye de manera diferente. Para aclarar ideas, consideremos el
siguiente ejemplo:

Se quiere estudiar el comportamiento de las notas obtenidas por 20 alumnos de la
universidad en la primera ctedra. La informacin recopilada se muestra a continuacin:







Si se considera la variable nota como variable discreta, entonces la tabla de frecuencia
tendra tantas filas como datos, a que nos referimos con estos, en este ejemplo tendramos
17 filas. Imaginen si en vez de ser 20 alumnos fuesen 500, en este caso la tabla de
frecuencia tendra a lo menos unas 300 filas. Esto nos conduce a desarrollar herramientas
para este caso tan especial.

Vale la pena recordar que una variable continua toma valores en un intervalo o rango de
valores. En el ejemplo de las notas de los 20 alumnos, este intervalo es de 3,1 a 7,0. La
idea natural es dividir este intervalo, en intervalos ms pequeos. Para realizar esto, se
deben contestar las siguientes preguntas: En cuntos intervalos debemos dividir el
intervalo? y Cul es la amplitud o largo de cada uno de estos intervalos?. La respuesta a la
primera pregunta debiese ser dada por el investigador. Si no es as se puede usar alguna de
las siguientes aproximaciones:

a) Algunos autores consideran que una buena aproximacin para la cantidad de intervalos
es dada por n m= .
Alumno Nota Alumno Nota Alumno Nota Alumno Nota
1 6,2 6 5,7 11 4,9 16 6,8
2 4,8 7 6,4 12 3,1 17 4,7
3 3,8 8 5,4 13 3,8 18 5,5
4 4,6 9 6,3 14 5,5 19 7,0
5 4,4 10 4,8 15 5,1 20 4,2

b) Otros autores prefieren usar la frmula de Sturger (1926) para obtener la cantidad de
intervalos, la que es )] ( log * 3 , 3 [ 1
10
n m + =
A pesar de existir diferencia entre ambas aproximaciones cuando la cantidad de
informacin es pequea, para grandes cantidades de datos los resultados de ambas
expresiones son similares.

Una vez determinada la cantidad de intervalos m, se debe contestar la segunda pregunta.
Se usar como norma que la amplitud de cada uno de estos intervalos es la misma, lo que
conduce a la siguiente expresin matemtica:
m
Mnimo Mximo
c

=

donde c es la amplitud de cada intervalo.

No siempre, la amplitud de los intervalos es constante. Hay muchas situaciones en las que
la asignacin de los largos de los intervalos es dada por el investigador.

As, la cantidad de intervalos en que debemos dividir el intervalo de 3,1 a 7,0 es
5 )] 20 ( log * 3 , 3 [ 1
10
= + = m y la amplitud de cada uno de ellos es
78 , 0
5
1 , 3 0 , 7
=

= c
. Con esta informacin se construyen los intervalos:

3,88 4,66 5,44 6,22 7,00
| | | | | |
3,10 3,10+0,78 3,88+0,78 4,66+0,78 5,44+0,78

De esta manera, en la tabla de frecuencias, los valores que toma la variable son los
intervalos que se han construido. Las frecuencias absolutas corresponden a la cantidad de
datos que caen en cada intervalo. La columna de frecuencias relativas sigue igual que antes.
Pero se incorporan dos nuevas columnas, correspondientes a las frecuencias acumuladas
absolutas y relativas. La frecuencia absoluta acumulada (
i
N
) representa la cantidad de

datos, que estn, acumulados hasta cada uno de los intervalos, es decir,
i i
n n n N + + + =
2 1
. La frecuencia relativa acumulada (
i
F ) corresponde a la
proporcin de datos acumulados hasta cada uno de los intervalos y se calcula como
i
i
i
f f
n
N
F + + = =
1
.

Una vez construida la tabla de frecuencias, se pensar que la informacin original
desaparece, como por arte de magia, entonces se produce ya un resumen de la informacin,
porque a diferencia del caso de variables cualitativas o discreta, se puede reconstruir la
informacin original. No as en el caso continuo. Por lo tanto es necesario obtener un
representante de cada intervalo. Dicho representante se llamar marca de clase y
corresponder a la mitad de cada intervalo, es decir,
2


i i
i
Inf Lim Sup Lim
Clase Marca
+
=
, donde
i
Inf Lim y
i
Sup Lim son el lmite
inferior y superior, respectivamente, de intervalo i -simo.

La tabla de frecuencias, para el estudio de las notas de los 20 alumnos queda:

2.3. Representacin grfica

Al comn de las personas, les es muy difcil la comprensin e interpretacin de una tabla de
frecuencias. Por esto se recurre a la representacin grfica. Los mtodos grficos poseen la
ventaja de hacer ms rpida la comprensin de la informacin y es slo una forma distinta
de mostrar lo que se desprende de la tabla de frecuencias. Es importante destacar que
cuando se elabora una representacin grfica no existe solamente una respuesta correcta. El
Nota Marca de Frecuencia Frecuencia Frec. AbsolutaFrec. Relativa
Clase Absoluta Relativa Acumulada Acumulada
3,10-3,88 3,49 3 0,15 3 0,15
3,88-4,66 4,27 3 0,15 6 0,30
4,66-5,44 5,05 6 0,30 12 0,60
5,44-6,22 5,83 4 0,20 16 0,80
6,22-7,00 6,61 4 0,20 20 1,00
20 1,00

juicio del analista y las circunstancias que rodean el problema desempean un papel
primordial en el desarrollo de esta.

Una empresa tabacalera realiza un estudio de mercado, para determinar cual es el tipo de
cigarrillo que prefieren los consumidores (fumadores). Para este estudio se considera una
muestra de 110 fumadores y se examina la marca del cigarrillo. La informacin es resumida
en la siguiente tabla de frecuencias:



La representacin grfica de la informacin en la tabla de frecuencias anterior, es mostrada
en las siguiente figura:

Este grfico recibe el nombre de grfico de barras separadas. Como se aprecia el eje
horizontal es el eje de los valores de la variable, mientras que el eje vertical es el eje de la
frecuencia absoluta frecuencia relativa el porcentaje. Es importante recalcar que los
anchos de las barras debe ser el mismo, ya que puede distorsionar la informacin que se
quiere mostrar. Otro grfico til para este tipo de dato, es el grfico circular de torta:
Marca de Frecuencia Porcentaje
Cigarros Absoluta
Kent 22 20,00
Belmont 27 24,55
Derby 31 28,18
Viceroy 30 27,27
Total 110 100,00

La torta completa representa el 100% de la informacin y cada sector representa el
porcentaje que le corresponde a cada valor de la variable.

Este grfico, como el de barras separadas, indica que los cigarrillos preferidos por este
grupo de fumadores son el Derby y el Viceroy (55,45%), mientras que el menos preferido
es el Kent.

Para el caso de una variable cuantitativa agrupada en intervalos, como el ejemplo de las
notas de los 20 alumnos visto anteriormente, se realizan los siguientes grficos:



Porcentaje de fumadores segn marca de cigarro
KENT
20%
BELMONT
25%
DERBY
28%
VICEROY
27%

A diferencia del grfico de barras separadas visto anteriormente, este es un grfico de
barras juntas. Este grfico recibe el nombre tcnico de histograma, donde el eje horizontal
del grfico se colocan los intervalos y en el eje vertical la frecuencia absoluta la
frecuencia relativa el porcentaje, siendo la altura de la barras la frecuencia
correspondiente a cada intervalo. Ntese que los anchos de los intervalos son iguales, esto
se debe a que por construccin la amplitud de los intervalos es la misma. Otro grfico que
presenta la misma informacin que el histograma, es la poligonal de frecuencia, la que es
mostrada en la siguiente figura:
La construccin de esta figura se basa en unir los puntos medios de la parte superior de
cada una de las barras. Es importante dejar que baje a cero y esto se puede realizar de la
siguiente manera, se construye un intervalo a la derecha del mximo (de igual amplitud que
el ltimo intervalo) y se une el punto medio de la ltima barra con el punto medio de este
intervalo. Anlogamente, se construye un intervalo a la izquierda del mnimo (de igual
amplitud que el primer intervalo) y se une el punto medio de la primera barra con el punto
medio de este intervalo. Como se menciono en el prrafo anterior, esta figura contiene la
misma informacin que el histograma y se debe a la forma en que se construye.

2.4. Medidas descriptivas.

Llamaremos medidas descriptiva resmenes, a aquellas cantidades que resumen la
informacin y en algn sentido sean representativos del conjunto de datos. En el riguroso
sentido, las medidas descriptivas reciben el nombre de estaddrafos, cuyos valores son

obtenidos a travs de los datos. Estas medidas descriptivas se dividen en tres categoras
como se muestra en el siguiente esquema:
Medidas de tendencia central
y posicin
Medidas de dispersin Medidas de forma

Moda
Promedio
Mediana
Percentiles
Rango
Rango intercuartlico
Varianza
Desviacin estndar
Coeficiente de variacin
Coeficiente de asimetra
Coeficiente de Curtosis

En este escrito, se estudiaran las medidas de tendencia central y posicin como las medidas
de dispersin. Los otros tipos de medidas se dejan al lector.

2.4.1. Medidas de tendencia central y posicin.

Las medidas de tendencia central, como su nombre lo indica, nos describen el centro de la
informacin. Dentro de estas medidas la ms conocida es el promedio o media aritmtica.

La moda ( ) Mo , es aquel valor de la variable en estudio, que ms se repite o que tiene
mayor frecuencia. En el ejemplo de nivel de instruccin de los 20 trabajadores, se observa
que lo ms frecuente es el nivel de instruccin medio, por lo tanto la moda es nivel de
instruccin medio. En el ejemplo de la marca de cigarrillo la moda es la marca Derby.
Ahora, en el ejemplo de las 20 notas, lo que se obtiene es un intervalo modal, que en este
caso es el tercer intervalo [4.66, 5.44). Entonces, en el caso de datos agrupados en
intervalos la moda es una aproximacin. La pregunta natural es cual aproximacin se debe
usar. En la mayora de los libros de textos la moda es aproximada de la siguiente manera:
i
i i i i
i i
i
c
n n n n
n n
Inf Lim Mo
|
|
.
|

\
|
+

+ =
+

) ( ) (
) (

1 1
1
,

donde
i
Inf Lim es el lmite o cota inferior de intervalo modal,
i
n es la frecuencia
absoluta del intervalo modal,
1 i
n es la frecuencia absoluta del intervalo anterior al
intervalo modal,
1 + i
n es la frecuencia absoluta del intervalo siguiente al intervalo modal y
i
c es la amplitud del intervalo modal. As, la moda en el problema de las notas de los 20
alumnos es
128 . 5 78 . 0
) 4 6 ( ) 3 6 (
) 3 6 (
66 . 4 =
|
|
.
|

\
|
+

+ = Mo
.

Una observacin importante es que la moda puede no existir. Considere los siguientes datos
recopilados a 8 estudiantes de la universidad sobre la cantidad de hijos en su grupo
familiar: 1, 1, 2, 2, 3, 3, 4, 4. Como se aprecia, bajo la definicin de moda, en este caso, no
existe moda. Adems puede ocurrir que exista ms de una moda, y en estos casos se hablara
de multimodalidad.

El promedio o media aritmtica ( ) X , tal vez, es la medida de tendencia central ms
conocida, la que es calculada sumando todos los valores de la variable en estudio y
dividiendo por el total de datos. Formalmente, si
n
x x x , , ,
2 1
son los valores observados
de una variable X , entonces el promedio se expresa matemticamente por
n
x
X
n
i
i
=
=
1
.
Considere la siguiente informacin obtenida al consultar a 5 individuos: 6, 3, 8, 6 y 4. La
media de estos 5 sujetos es
4 . 5
5
8 6 6 4 3
=
+ + + +
= X
. La interpretacin del promedio
se puede representar de la siguiente manera: cada dato, en el ejemplo anterior, es
representado por pequeo paraleleppedo y el eje real se considera como tabla, donde
colocamos cada uno de los datos sobre ella. La siguiente figura muestra la situacin
anterior:





Como se aprecia, si se coloca el punto de apoyo a la izquierda del 3 la tabla se inclina hacia
la derecha. Anlogamente si se coloca el punto de apoyo a la derecha del 8 la tabla se
inclina hacia la izquierda, por lo tanto la idea es buscar un punto de apoyo donde la tabla se
mantenga en equilibrio, bueno el promedio es ese punto de poyo. Por eso en muchos textos,
el promedio es interpretado como un punto de equilibrio o un centro de gravedad.

Qu pasa si los datos estn agrupados en intervalos, como el ejemplo de las notas de los 20
alumnos?. Recordemos la informacin:

Lamentablemente, no disponemos de la informacin original. Pero se puede pensar por un
momento, que la marca de clase de cada intervalo, es el dato observado. Entonces de esta
manera se puede reconstruir la informacin de la siguiente manera:
6.61 6.61, 6.61, 6.61, 5.83, 5.83, 5.83, 5.83, 5.05, 5.05,
5.05 5.05, 5.05, 5.05, 4.27, 4.27, 4.27, , 49 . 3 , 49 . 3 , 49 . 3

as, . 167 . 5
20
4 61 . 6 4 83 . 5 6 05 . 5 3 27 . 4 3 49 . 3
=
+ + + +
= X Lgicamente, la
informacin anterior no es la real, pero cuntas veces no se obtienen verdades de
mentiras?, en todo caso el promedio calculado de esta manera es una aproximacin al
Nota Marca de Frecuencia Frecuencia Frec. AbsolutaFrec. Relativa
Clase Absoluta Relativa Acumulada Acumulada
3,10-3,88 3,49 3 0,15 3 0,15
3,88-4,66 4,27 3 0,15 6 0,30
4,66-5,44 5,05 6 0,30 12 0,60
5,44-6,22 5,83 4 0,20 16 0,80
6,22-7,00 6,61 4 0,20 20 1,00
20 1,00

promedio real. La idea anterior permite dar la siguiente expresin para calcular el promedio
en el caso de datos agrupados en intervalos:
n
n clase marca
X
m
i
i i
=

=
1


donde m es la cantidad de intervalos.

La mediana ( ) Me , es aquel valor de la variable que ocupa la posicin central cuando los
datos estn ordenados de menor a mayor. En forma tcnica se define como aquel valor de la
caracterstica en estudio que deja bajo s al 50% de la informacin. La siguiente figura
muestra la definicin anterior:
Sean
n
x x x , , ,
2 1
los valores observados de una variable X . Generalmente los datos
vienen desordenados, as que lo primero que se debe realizar es ordenarlos de menor a
mayor digamos
( ) ( ) ( )
max min
2 1
= s s s =
n
x x x
. Entonces la mediana se define
como:
( )
( ) ( )

+
=
+
+
par es si ,
2
impar es si ,
1
2 2
2
1
n
x x
n x
Mediana
n n
n

Imagine que la informacin observada es 6, 3, 8, 5 y 3. Ordenando la informacin de menor
a mayor queda 3, 3, 5, 6 y 8. Como la cantidad de datos es impar debemos encontrar aquel
dato que ocupa la posicin 3
2
1 5
2
1
=
+
=
+ n
, que corresponde al valor 5, por lo tanto la

5 = Mediana . Ahora considere la siguiente informacin: 9, 6, 7, 9, 10 y 8. Ordenando
los datos de menor a mayor queda 6, 7, 8, 9, 9 y 10. Como la cantidad de datos es par
debemos encontrar los datos que ocupan las posiciones 3
2
6
2
= =
n
y 4 1
2
6
1
2
= + = +
n
,
que corresponden a los datos 8 y 9, as la mediana es
5 . 8
2
9 8
=
+
= Mediana
. En el
caso de datos agrupados en intervalos, la mediana ser calculada usando el siguiente
algoritmo:

i. Determinar la posicin que le corresponde a la mediana como
2 100
50 n
n Posicin = =
ii. Determinar en que intervalo cae la mediana, comparando la posicin obtenida
en i) y la columna de las frecuencias absolutas acumuladas.
iii. La mediana se calcula como:
i
i
i i
n
c n
N Me |
.
|

\
|
+ =
1
2
Inf lim , donde
i
Inf lim es
el lmite o cota inferior del intervalo en que esta la mediana (obtenido en ii.);
i
c
es la amplitud del intervalo en que esta la mediana;
i
n es la frecuencia absoluta
del intervalo en que esta la mediana y
1 i
N es la frecuencia absoluta acumulada
del intervalo anterior al intervalo en que esta la mediana.

Para aprender a aplicar el algoritmo anterior, se ver con detalles en el ejemplo de las notas
de los 20 alumnos. En el paso i. Se tiene que la posicin que le corresponde a la mediana es
10. En el paso ii. recordemos la tabla de frecuencias. Como se aprecia, la posicin 10 cae
en el tercer intervalo, por lo tanto la mediana es ( ) 18 . 5
6
78 . 0
6 10 66 . 4 = + = Me

Los percentiles, son cantidades que tienen la caracterstica de acumular informacin hasta
ellos. Para aclara ideas, imagine que la informacin la dividimos en 100 partes iguales
donde cada una de las partes corresponde a un 1% de informacin, como muestra la
siguiente figura:

Como se aprecia,
1
P es aquel valor de la variable que tiene acumulado el 1% de la
informacin,
2
P es aquel valor de la variable que tiene acumulado el 2% de la informacin,
, y
99
P es aquel valor de la variable que tiene acumulado el 99% de la informacin.
Con esto, se define el percentil o % ( )
o
P como aquel valor de la variable en estudio que
deja bajo s al o % de la informacin. Para calcular
o
P se debe realizar el siguiente
procedimiento:

a) Ordenar los datos del ms pequeo al ms grande.
b) Calcular
100
o
n .
c) Si en el paso 2 se obtiene un entero, digamos, k n =
100
o
. Entonces el percentil o
% es el promedio de los datos que ocupan la posicin k y la posicin 1 + k .
Si en el paso 2 se obtiene un nmero con decimales, digamos decimal k n .
100
=
o
. Entonces el percentil o %, es el dato que ocupa la posicin 1 + k .

En un estudio realizado a 10 familias, se obtuvo el ingreso bruto mensual (expresado en
salarios mnimos): 12, 16, 18, 20, 28, 30,40, 48, 50 y 54. Se quiere encontrar el ingreso
mnimo del 30% de los ingresos ms altos. Para aclara ideas observe la siguiente figura:


Por lo tanto, se debe calcular el percentil 70%. Como los datos ya estn ordenados se
calcula 7
100
70
10
100
70
= = n . Como nos da una valor entero, debemos promediar los
datos que ocupan las posiciones 7 y 8, es decir 44
2
48 40
70
=
+
= P . Por lo tanto, el ingreso
mnimo del 30% de los ingresos ms altos es de 44 sueldos mnimos.

En el caso de datos agrupados en intervalos, el percentil o % es calculado usando el
siguiente algoritmo:

i. Determinar la posicin que le corresponde al percentil o %
100
o
= n Posicin
ii. Determinar en que intervalo cae el percentil o %, comparando la posicin
obtenida en i) y la columna de las frecuencias absolutas acumuladas.
iii. El percentil o % es calculado por:
i
i
i i
n
c
n N P |
.
|

\
|
+ =

1
100
Inf lim
o
o
, donde
i
Inf lim es el lmite o cota inferior del intervalo en que esta el percentil o %
(obtenido en ii.);
i
c es la amplitud del intervalo en que el percentil o %;
i
n es la
frecuencia absoluta del intervalo en que esta el percentil o % y
1 i
N es la
frecuencia absoluta acumulada del intervalo anterior al intervalo en que esta el
percentil o %.

Para aprender a aplicar el algoritmo anterior, se ver con detalles en el ejemplo de las notas
de los 20 alumnos. Imagine que se quiere calcular la nota mnima del 40% de las mejores

notas. As al aplicar el algoritmo anterior se tiene que en el paso i. la posicin que le
corresponde al percentil 60% es 12. En el paso ii. recordemos la tabla de frecuencias.

Como se aprecia, la posicin 12 cae en el tercer intervalo, por lo tanto el percentil 60% es
( ) 44 . 5
6
78 . 0
6 12 66 . 4
60
= + = P . Por lo tanto, la nota mnima del 40% de las mejores
notas es 5.44.

Se deja al lector, investigar que son los cuartiles, deciles y quintiles.


2.4.2. Medidas de dispersin o de variabilidad

Las medidas de dispersin o de variabilidad, como su nombre lo indica, son cantidades que
describen cuan cercanos o alejados estn los datos, es decir cuan homogneos o
heterogneos son los datos. La siguiente figura muestra este problema.




Como se puede apreciar, para determinar cuan separado est el conjunto de datos, las
medidas de dispersin, deben estar relacionadas con la idea de distancia. Porque, a menor
distancia, los datos son homogneos y a mayor distancia los datos son heterogneos.

La medida ms simple para medir dispersin es el rango ( ) R , que ya se ha estudiado. Una
de las dificultades del rango es que depende de los valores extremos y por lo tanto no
siempre refleja adecuadamente la dispersin existente en los datos ya que tiende a sobre
estimarla. Para evitar de sobre estimar la dispersin, se utiliza el rango intercuartlico
( ) RI que es el rango del 50% central de los datos, es decir, es la distancia entre
75
P y
25
P ,
como se muestra en la siguiente figura.

Por lo tanto, el rango intercuartlico es calculado por
25 75
P P RI = . As, en el ejemplo de
las notas de los 20 alumnos, el rango es 9 . 3 = R y el rango intercuartlico es 63 . 1 = RI .

Otra medida de dispersin es la varianza ( )
2
S , que mide la heterogeneidad de los datos
considerando un punto de referencia que es el promedio. Sean
n
x x x , , ,
2 1

los valores
Nota Marca de Frecuencia Frecuencia Frec. AbsolutaFrec. Relativa
Clase Absoluta Relativa Acumulada Acumulada
3,10-3,88 3,49 3 0,15 3 0,15
3,88-4,66 4,27 3 0,15 6 0,30
4,66-5,44 5,05 6 0,30 12 0,60
5,44-6,22 5,83 4 0,20 16 0,80
6,22-7,00 6,61 4 0,20 20 1,00
20 1,00

observados de una variable X . La varianza, se define como ( )

=
n
i
i
X x
n
S
1
2
2
1
1
. Esta
cantidad se puede calcular como ( )
|
|
.
|

\
|

=

=
2
1
2
2
1
X
n
x
n
n
S
n
i
i
, donde

=
n
i
i
n
x
1
2
es el
promedio de los cuadrados. Para aclarar ideas considere los siguientes datos: 1, 3, 5, 6 y 10.
El promedio de estos datos es
5
5
10 6 5 3 1
=
+ + + +
= X
y el promedio de los cuadrados
es
2 . 34
5
10 6 5 3 1
5
2 2 2 2 2 5
1
2
=
+ + + +
=

= i
i
x
. Por lo tanto la varianza es
( ) ( ) 5 . 11 5 2 . 34
4
5
2 2
= = S . En el caso de datos agrupados en intervalos la varianza es
( )
( )
|
|
.
|

\
|

=

= =
m
i
i i
m
i
i i
X
n
x n
n
n
n
X x n
S
1
2
2
1
2
2
1 1
-
, donde mes la cantidad de
intervalos y
i
x es la marca de clase del i-simo intervalo. En el ejemplo de las notas de los
20 alumnos:

La nota promedio y el promedio de los cuadrados son: 167 . 5 = X y
7489 . 27
20
61 . 6 4 83 . 5 4 05 . 5 6 27 . 4 3 49 . 3 3
20
2 2 2 2 2 5
1
2
=
+ + + +
=

= i
i i
x n


Entonces la varianza es
( ) ( ) 10633 . 1 167 . 5 7489 . 27
19
20
2 2
= = S
.

Uno de los problemas de la varianza es que si la variable en estudio es la estatura y la
unidad de medida es el metro, entonces, la unidad de medida de la varianza es (metro)
2
, si
la variable en estudio es el peso y la unidad de medida es kilogramo, entonces, la unidad de
medida de la varianza es (kilogramo)
2
. Para evitar esta dificultad se inventa la desviacin
estndar desviacin tpica, la que se define como la raz cuadrada de la varianza, es
decir,
2
S S =
. Como se aprecia, la unidad de medida de la desviacin estndar es la

unidad de medida de la variable en estudio. En el ejemplo de las notas de los 20 alumnos,
la desviacin estndar es 0518 . 1 10633 . 1 = = S .

Una de las grandes dificultades de las medidas de dispersin, que hasta el momento se han
estudiado, es que dependen de la unidad de medida de la variable en estudio. Debido a esta
dificultad, se inventa el coeficiente de variacin. El coeficiente de variacin se define
como
X
S
CV =
. Como se aprecia, esta medida de dispersin es adimensional y si
multiplicamos 100 por el coeficiente de variacin, tenemos el porcentaje de variabilidad, es
decir, % 100 CV . Algunos autores, proponen la siguiente clasificacin para determinar
si los datos son homogneos o heterogneos:

os. heterogne muy son datos Los % 50 % 100 Si )
os. heterogne son datos Los % 50 % 100 25% Si )
. homogneos son datos Los % 25 % 100 5% Si )
. homogneos muy son datos Los % 5 % 100 Si )
>
s <
s <
s
CV d
CV c
CV b
CV a


En el ejemplo de las notas de los 20 alumnos, el coeficiente de variacin es
2036 . 0
167 . 5
0518 . 1
= = CV , el porcentaje de dispersin es de un 20.36%. Segn la
clasificacin anterior se concluye que las notas de los 20 alumnos son homogneas.


2.5. Transformacin Lineal.

Existen situaciones donde las cantidades calculadas no son las que se utilizan. Considere la
siguiente situacin: ...Usted realiza un estudio sobre el calentamiento global, utilizando
como unidad de medida grados Celsius. Ahora, un importante investigador lo invita con
todos los gastos pagados a Estados Unidos, para que en un congreso internacional, que trata
sobre el calentamiento global, usted exponga los resultados obtenidos en su trabajo.
Lamentablemente, como se puede dar cuenta, en Estados Unidos se utilizan grados

Fahrenheit, lo que implicara rehacer todo el trabajo.... A continuacin se entregan
resultados, cuando se realiza una transformacin lineal a los datos.

Sean
n
x x x ...... ,
2 1
, las observaciones de una variable X , la pregunta es, Qu pasa con las
cantidades calculadas, si a los datos, se les multiplica por una constante y luego se les suma
otra?, es decir,
i
x se transforma en b x a
i
+ (con a = 0) en todas las observaciones. Por
ejemplo, se estudian las estaturas de 20 alumnos de la universidad, los resultados son
resumidos en la siguiente tabla de frecuencias:

Estatura
(cm)
Marca de
Clase
Frecuencias
Absolutas
) 166 ; 161 [ 163,5 2
) 171 ; 166 [ 168,5 5
) 176 ; 171 [ 173,5 6
) 181 ; 176 [ 178,5 2
] 186 ; 181 [ 183,5 5
Total 20

La media, mediana, varianza, desviacin estndar y el coeficiente de variacin son
mostrados en la siguiente tabla:

Promedio 25 , 174 = X cm
Percentil 50
5 , 173
50
= P cm
Varianza 45,46
2
= S cm
2
Desviacin Estndar 6,74 = S cm
Coeficiente de
variacin
25 , 174
74 , 6
= CV =0.0387


A estos alumnos se les dar un golpe vitamnico, que se sabe que aumenta en un 1% (
01 . 1 = a ) sus estaturas, ms 3 centmetros (b=3). La pregunta es, Qu pasa con el
promedio, mediana, varianza, desviacin estndar y coeficiente de variacin de las nuevas
estaturas?.

El siguiente cuadro, resume el cambio de los indicadores, si las observaciones sufren una
transformacin lineal.

Transformacin Indicador Inicial Modificado
i
x
se transforma en
b x a
i
+ *
Promedio
X
b X a +
Moda Mo b Mo a +
Percentil o%
o
P b P a +
o

Varianza
2
S
2 2
S a
Desviacin
Estndar
S S a
Coeficiente de
variacin
X
S
CV =
| | b X a
S a
CV
+

=


Al aplicar estos resultados al problema planteado anteriormente se tiene que:
3 y 01 , 1 = = b a
Datos agrupados en la tabla de frecuencias
Transformacin Indicador Inicial Modificado
i
x
se transforma en
3 * 01 , 1 +
i
x
Promedio 25 , 174 = X 178,99
Percentil 50 5 , 173
50
= P 178,235
Desviacin
Estndar
6,74 = S 6,8074
Coeficiente
de
variacin
25 , 174
74 , 6
= CV =0.0387
= CV 0.0380

Algunas transformaciones tiles ocurren cuando corresponde en aumentar o disminuir un
ingreso en un porcentaje p, ms un valor fijo b, lo que equivale a transformar
i
x por
b x p
i
+ ) 100 / 1 ( , por ejemplo al aumentar un ingreso en un 25% y sumarle 30.000 por
concepto de locomocin mensualmente, lo que equivale a transformar
i
x por
= + + 000 . 30 ) 100 / 25 1 (
i
x 000 . 30 25 , 1 +
i
x . Otro ejemplo es cuando se disminuye un
ingreso en un 10% por ajuste y quitarle 6.000 para fiestas de navidad mensualmente, lo que
equivale a transformar
i
x por = 000 . 6 - ) 100 / 10 - 1 (
i
x 000 . 6 - 9 , 0
i
x .

2.6. Problemas Resueltos.

1. La siguiente informacin corresponde a los gastos mensuales en publicidad, expresados
en millones de pesos, de un grupo de empresas de una determinada industria:

Gastos
(en millones de pesos)
Nmero de empresas
2 5 6
5 8 10
8 11 14
11 14 12
14 17 8
17 - 20 5

a) Determine y clasifique la variable de inters
b) Cul es el gasto mensual en publicidad que se observa con mayor frecuencia?
c) Cul es el promedio de gastos mensual en publicidad de las empresas?
d) Calcule e interprete
84
P
e) Cuntas empresas tienen un gasto comprendido entre $6.2 millones y $12.7
millones?
f) Determine la desviacin estndar y el coeficiente de variacin de los gastos

Solucin : Construyamos la tabla de frecuencias


Gastos
(millones de
$)
Marca
de
clase
i
n
i
N
i
f
i
F
i
f *100
i
F *100
2 5 3.5 6 6 0,11 0,11 11 11
5 8 6.5 10 16 0,18 0,29 18 29
8 11 9.5 14 30 0,25 0,54 25 54
11 14 12.5 12 42 0,22 0,76 22 76
14 17 15.5 8 50 0,15 0,91 15 91
17 20 18.5 5 55 0,09 1.00 9 100
Total 55 1.00 100

a) La variable de inters es Gastos, y es una variable cuantitativa continua
b) Ubicacin de la moda (intervalo con mayor frecuencia), es decir, i=5 (
i
n =14),
entonces la moda es Mo =
( )
( ) ( )
10 3
6
4
8 3
12 - 14 10 - 14
10 - 14
8 = + =
+
+ , Luego el
gasto mensual que ms se repite es de 10 millones de pesos.

c) 65 . 10
55
5 . 18 * 5 5 . 15 * 8 5 . 12 * 12 5 . 9 * 14 5 . 6 * 10 5 . 3 * 6
=
+ + + + +
= X Luego el gasto
promedio mensual de las empresas es de 10.650.000


d)
( )
575 . 15
8
3
) 42 -
100
84 55
( 14
84
= + = P , as el 84% de las empresas realizan un gasto
mensual en publicidad menor a $15.575.000 pesos

e) Primero determinamos el porcentaje de empresas que tienen un gasto menor a 6.2
millones, digamos x, luego determinaremos el porcentaje de empresas que tienen un
gasto menor a 12,7 millones, digamos y, finalmente el porcentaje de empresa que
gastan entre 6.2 y 12.7 millones ser, y-x% . Para el Clculo de x% = P
x
6.2
(en el intervalo 2 de la variable) , as,
10
3
) 6 -
100
* 55
( 5 2 . 6
x
+ = , de lo que se

desprende, que x=18.2%. De la misma forma para y% , = P
Y
12.7 (en el intervalo 4
de la variable), entonces
12
3
) 30 -
100
* 55
( 11 7 . 12
y
+ = , de lo que se desprende, que
y=66.9%. finalmente el 66.9% - 18.2% = 47.7%, es decir, un 47,7% de las
empresas gastan entre 6.2 y 12.7 millones, lo es equivalente decir que, 26 empresas
(0.47*55) gastan entre 6.2 y 12.7 millones

f) La varianza muestral es 2 . 19
2
= S , y por lo tanto, la desviacin estndar muestral es
4 , 4
2
= = S S millones de pesos y finalmente el coeficiente de variacin es C.V. =
65 . 10
4 , 4
= 0,41 , es decir hay un 41% de dispersin, lo que nos indica que los datos
son heterogneos.

2. Una lnea Area transportaba, en trmino medio, en cada vuelo 72 pasajeros. Para
aumentar la cantidad media de pasajeros, hace seis meses atrs , contrato a una Agencia
de Publicidad para realizar un nuevo comercial para Diarios y Televisin. Para verificar
la llegada del comercial, se recopil la siguiente informacin:

Cantidad de
Pasajeros
Nmero de
Vuelos
50 60 3
60 70 7
70 80 18
80 90 12
90 100 8
100 120 2

a) En base a estos resultados Usted dira que el comercial ha sido efectivo?
b) Si la lnea area quiere utilizar esta informacin para predecir los prximos 50 das
y decide eliminar el 25% de los vuelos con menor nmero de pasajeros, Cul sera
el mnimo nmero de pasajeros que la lnea area permitira por cada vuelo?

c) Determine la Mediana e interprete su valor
d) Construya un grfico adecuado para la distribucin anterior.

Solucin : Construyamos la tabla de frecuencias

Cantidad de
Pasajeros
Marca
de
clase
i
n
i
N
i
f
i
F
i
f *100
i
F
*100
50 60 55 3 3 0,06 0,06 6 6
60 70 65 7 10 0,14 0,20 14 20
70 80 75 18 28 0,36 0,56 36 56
80 90 85 12 40 0,24 0,80 24 80
90 100 95 8 48 0,16 0,96 16 96
100 120 110 2 50 0,04 1.00 4 100
Total 50 1.00 100

a) 4 . 79
50
110 * 2 95 * 8 85 * 12 75 * 18 65 * 7 55 * 3
=
+ + + + + +
= X
Suponiendo, que no existen otros factores que afecten la cantidad de pasajeros,
podramos decir, que el comercial ha tenido efecto, que se observa en el aumento
promedio de 72 a 79,4.

b) La cantidad de pasajeros que acumula el 25% de los vuelos corresponde al percentil 25
el que vale
( )
4 . 71
18
10
) 10 -
100
25 50
( 70
25
= + = P . La cantidad mnima de pasajeros que
permitira cada vuelo ser de 72 pasajeros (aproximadamente).
c) La mediana es 3 . 78
18
10
) 10 -
2
50
( 70 = + = Me . En el 50% de los vuelos, se
transportan 78 o menos pasajeros.

d) Al graficar el histograma con las frecuencias relativas se obtiene la siguiente figura:




3. Se realiz un estudio en la 1 plaza de peaje saliendo de Santiago hacia el norte, en la
fecha del 16 y 17 de Septiembre con respecto a las siguientes variables: X = Nmero
de personas que viajan dentro de cada vehculo que fue encuestado. Y = Monto en
miles de pesos destinado a gastos. Z = Si el vehculo en que viajan es P=propio o
A=arrendado. Obteniendo los siguientes datos que se dan a continuacin:

Gastos (miles de pesos)
0 100 100 150 150 300 300 500
N de
personas
P A P A P A P A
1
2
3
4
2 3
3 1
3 2
2 3
3 4
2 5
3 5
2 4
2 4
7 6
8 7
6 5
3 0
5 0
4 0
7 2

a) Clasifique las variables en estudio.
b) Determine una medida de tendencia central adecuada para resumir las variables
monto destinado a gastos y al nmero de personas que viajan en vehculos propios.
c) Grafique la distribucin de frecuencias absolutas de la variable vehculo propio
d) Si para el prximo ao se ha estimado que el monto destinado a gastos de fiestas
patrias aumentar en un 10% ms 30 mil pesos. Compare la homogeneidad del
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
55 65 75 85 95
F
r
e
c
u
e
n
c
i
a
s

r
e
l
a
t
i
v
a
s


Marca de Clase
(Cantidad de Pasajeros)
Histograma de frecuencias relativas

monto destinado a gastos actual con el estimado para el prximo ao, solamente
para los que en vehculos arrendados viajan con tres personas.
e) Determine entre qu valores flucta el 50% de la variacin central de las
observaciones del monto dedicado a gasto para los que viajan en vehculo
arrendado.
Solucin :

a) Las variables en el estudio son :
X = Nmero de personas que viajan dentro de cada vehculo que fue
encuestado que es Cuantitativa discreta
Y = Monto en miles de pesos destinado a gastos que es Cuantitativa continua
Z = Si el vehculo en que viajan es P=propio o A=arrendado que es
Cualitativa

b) Consideramos los promedios de ambas variables:

- Construyamos una tabla asociada al Monto en miles de pesos destinado a gastos

Esta tabla es llamada distribucin marginal de Y= Monto destinado a Gastos.

Monto
destinado a
gastos
*
i
y
i
n
i
N
i
f
i
F
i
f
*100
i
F
*100
0 100 50 19 19 0,17 0,17 17 17
100 150 125 28 47 0,25 0,42 25 42
150 300 225 45 92 0,40 0,82 40 82
300 450 375 21 113 0,18 1 18 100
Total 113 1.00 100

25 , 197
113
375 * 21 225 * 45 125 * 28 50 * 19
=
+ + + +
= Y
Luego, la cantidad promedio destinados a gastos es de 197.250 pesos.


- Anlogamente para Nmero de personas que viajan dentro de cada vehculo

Esta tabla es llamada distribucin marginal de X= Nmero de personas que viajan
dentro de cada vehculo

Nmero de
personas
i
n
i
N
i
f
i
F
i
f
*100
i
F
*100
1 21 21 0,19 0,19 19 19
2 29 50 0,26 0,44 26 44
3 32 82 0,28 0,73 28 73
4 31 113 0,27 1,00 27 100
Total 113 1.00 100

65 , 2
113
4 * 31 3 * 32 2 * 29 1 * 21
=
+ + + +
= X
Luego, el nmero promedio de personas que viajan dentro de los vehculo es 2,65.

c) La tabla de frecuencias asociada a la variable Z, vehculo propio (variable
cualitativa), llamada distribucin marginal de Z= Tipo de vehculo es

Tipo de vehculo
i
n
i
f
i
f *100
Propio 62 0.55 55
Arrendado 51 0.45 45
Total 113 1.00 100

Grfico de barras para Tipo de Vehculo



d) Construyamos una tabla asociada al Monto en miles de pesos destinado a gastos
solamente para los que en vehculos arrendados viajan con tres personas.

Esta tabla es llamada distribucin condicional de Y (Monto en miles de pesos
destinado a gastos) dado que X=3 (Nmero de personas que viajan dentro de cada
vehculo es tres)

Monto
destinado a
gastos
Marca
de
clase
i
n
i
N
i
f
i
F
i
f *100
i
F *100
0 100 50 2 2 0,14 0,14 14 14
100 150 125 5 7 0,36 0,50 36 50
150 300 225 7 14 0,50 1,00 50 100
Total 14 1.00 100

3 , 164
14
225 * 7 125 * 5 50 * 2
=
+ +
= Y
Luego, la cantidad promedio destinados a gastos es de 164.300 pesos para los que en
vehculos arrendados viajan hasta con tres personas

0
10
20
30
40
50
60
70
Propio Arrendado
F
r
e
c
u
e
n
c
i
a
s

a
b
s
o
l
u
t
a
s

(
C
a
n
t
i
d
a
d

d
e

v
e
h

c
u
l
o
s
)

Marca de Clase
(Tipo de vehculo)
Tipo de vehculo

La varianza muestral par el monto en miles de pesos destinado a gastos para los que en
vehculos arrendados viajan hasta con tres personas es 9 . 4587
2
= S , y por lo tanto, la
desviacin estndar muestral es 7 . 67
2
= = S S , es decir, 67 mil setecientos pesos.
Finalmente

Datos agrupados en la tabla de frecuencias
Transformacin Indicador Inicial Modificado
i
y
se transforma
en
30 + y * 1 , 1
i

Promedio 3 , 164 = Y 1,1*164,3+30=210,7
Varianza 9 , 587 4
2
= S
2
1 , 1 *4587,9=5551,4
Desviacin
Estndar
66,7 = S 1,1*66,7=73,4
Coeficiente
de variacin
412 , 0
3 , 164
7 , 66
= = CV = =
7 , 210
4 , 73
CV 0,348

Se espera que el coeficiente de variacin para el prximo ao sea menor que el actual
0.348 vs. 0.412, es decir, los datos actuales son ms heterogneos que los que se
esperan el prximo ao

e) Los valores donde flucta el 50% de la variacin central de las observaciones del
monto dedicado a gastos para los que viajan en vehculo arrendado, son entre el
percentil 25 (cuartil 1) y el percentil 75 (Cuartil 3)

Construyamos una tabla asociada al Monto en miles de pesos destinado a gastos
solamente para los que viajan en vehculos arrendados.

Esta tabla es llamada distribucin condicional de Y (Monto en miles de pesos destinado
a gastos) dado que Z=A (Tipo de vehculo es arrendado)




Monto
destinado a
gastos
Marca
de
clase
i
n
i
N
i
f
i
F
i
f *100
i
F
*100
70 100 50 9 9 0,18 0,18 18 18
100 150 125 18 27 0,35 0,53 35 53
150 300 225 22 49 0,43 0,96 43 96
300 450 375 2 51 0,04 1,00 4 100
Total 51 1,00 100

El percentil 25 es 4 , 110
18
50
) 9 -
100
25 * 51
( 100
25
= + = P . El percentil 75 es
7 , 226
22
150
) 27 -
100
75 * 51
( 150
75
= + = P . Luego el 50% de los datos se encuentra entre
110400 y 226700.


2.7. Problemas Propuestos.

1. Complete las siguientes aseveraciones
a) El proceso de, organizar y representar los datos demogrficos se
llama,.....................................................
b) El total de objetos bajo un estudio se llama, .....................................................
c) Una parte del Universo escogida para hacer el anlisis estadstico, se llama,
.....................................................
d) Un estudio que examina las caractersticas de la Poblacin en su totalidad se conoce
como .....................................................

2. Clasifique las variables de los siguientes problemas
a) El nmero de cuestionarios que una persona ha llenado el ltimo ao.
b) La Edad en aos cumplidos de una persona
c) El Peso de una persona
d) La profesin
e) La Temperatura en la sala de Clases

f) El grado de acuerdo o desacuerdo que se tiene por un poltico.
g) Presencia o ausencia de una caracterstica

3. El coordinador de Estadstica quiere determinar, cul de dos libros deben utilizar los
dos profesores del curso Introduccin a la Estadstica ?. Para llegar a una decisin,
se seleccionan 20 alumnos en cada uno de las dos secciones (81 y 82) y cada seccin
entregar 10 de cada libro. La informacin que se recolectara de los estudiantes ser:
Sexo, Edad (en aos), nota Final del semestre y libro utilizado.
a) Que dos variables son imprescindibles para el estudio?.
b) Que v ariables son cuantitativas?.
c) Que variables son cualitativas?.
d) Qu variables son discretas?.
e) Qu variables son continuas?.

4. La siguiente informacin fue obtenida al entrevistar a 300 alumnos de la Universidad
que trabajan y estudian.
Sueldo anual en
millones de pesos
Frecuencia
Relativa
1-2 0.35
2-3 0.30
3-4 0.10
4-5 0.25
Total 1.00

a) Identifique y clasifique la variable
b) Complete la tabla de frecuencias
c) Cuntos estudiantes ganan entre 2 y 4 millones de pesos?
d) Que % de los estudiantes gana a lo ms 3 millones?


5. El dueo de una empresa cree que el ausentismo diario en su oficina parece ir en
aumento. El ao pasado un promedio de 47.8 empleados estuvo ausente algunos das,
con una desviacin estndar de 14.7. Se recolect una muestra de 66 das para el ao en
curso y se ubicaron en la tabla que se muestra a continuacin.

Empleados
ausentes
Nmero de Das
20-30 5
30-40 9
40-50 8
50-60 10
60-70 12
70-80 11
80-90 8
90-100 3

a) Complete la tabla de frecuencias.
b) Determine la Moda, la Media y la Mediana del nmero de empleados ausentes.
c) Muestre que la desviacin estndar es de 19.7 empleados.
d) En base a cual de las medidas anteriores podra contestar al dueo de la empresa
Cul es su respuesta?.

6. Los sindicalistas de la planta de la empresa ZZZZ en valdivia, argumentan que, en
contra del contrato laboral, los trabajadores de la lnea de produccin tienen un
promedio salarial por hora menor y con una mayor variabilidad que los trabajadores de
oficina. Una muestra de 10 = n se toma de cada clase de trabajadores, entregando las
siguientes observaciones.

Sujeto (N)
Salario por hora
Lnea de produccin
(miles de pesos)
Salario por hora
oficina
(miles de pesos)
1 1.2 1.5
2 1.8 1.8
3 1.9 1.7
4 1.5 1.6
5 1.8 1.8
6 1.6 1.5

7 1.5 1.9
8 1.8 1.9
9 1.9 1.8
10 1.8 1.9

a) Determine, la Media y la Moda en cada grupo
b) Muestre que la desviacin estndar de los trabajadores de produccin es 0,23.
c) Si la desviacin estndar de los trabajadores de oficina es 0,16 y tomando en cuenta
los resultados obtenidos en a) y b) esta de acuerdo con los dos argumentos de los
sindicalistas

7. La siguiente tabla de frecuencias, entrega las ventas mensuales en miles de pesos de
equipos de paracaidismo en una tienda de la zona sur.
Ventas en miles de
pesos
Nmero de
meses
50-100 5
100-150 7
150-200 9
200-250 10
250-300 8
300-350 3
350-400 2
Total 44

a) Usted es el jefe de esa tienda, y su gerente le solicita una tabla de distribucin de
frecuencias de las ventas.
b) El gerente est interesado en el valor de la venta, para la cual se obtienen el 60%
ms bajo de las observaciones,
c) Adems, usted siente que sera de utilidad determinar los valores de los percentiles
10, 50 y 90.
d) Si el gerente quiere que investigue las facturas de los meses, para los cuales no
superaron los 130.000 pesos de venta Cuntos meses tendr que investigar? .

8. Los vendedores de una empresa comercial fueron clasificados de acuerdo al volumen
de dichas ventas en miles de $.


Volumen en
miles de $
N de
Trabajadores
5 15 3
15 25 24
25 45 46
45 75 27

a) Clasifique e identifique la variable en estudio
b) Determine el volumen promedio de ventas.
c) Determine el 20% de los mayores volmenes de ventas.
d) Si para el prximo mes se determina un incremento en los volmenes de ventas
dados por la siguiente expresin Y = 1.2X + 100. Determine el coeficiente de
variabilidad del nuevo volumen de ventas.

9. Un fabricante desea comparar los tiempos de armado de cierto producto, utilizando el
proceso de armado estndar y un nuevo proceso. Para este propsito se seleccionaron
124 trabajadores con habilidades similares y se asignaron en forma aleatoria 62
trabajadores a cada proceso. Los resultados obtenidos se resumen en la tabla
siguiente:
Nmero de trabajadores
Tiempo de Armado
(seg)
Estndar Nuevo
15 25
25 35
35 45
45 55
55 60
8
12
16
14
12
12
16
14
12
8

a) Qu grupo es ms homogneo en el tiempo de armado?.
b) A nivel descriptivo, Cul mtodo es mejor?. Justifique.
c) Qu porcentaje de los trabajadores que utiliza el mtodo estndar demora ms de
medio minuto en armar el producto?.
d) Cuntos trabajadores que utilizan el mtodo nuevo superan el Percentil 25 de los
que utilizan el estndar?.
e) Para un curso de capacitacin se va a elegir al 40% de los trabajadores ms rpidos
que utilizan el mtodo nuevo. Qu tiempo de armado deben obtener?.

f) Si el tiempo de armado con el mtodo estndar disminuye en un 10%, calcule el
porcentaje de variabilidad.

10. En una empresa se han tabulado los sueldos diarios de 180 empleados:
Sueldos en
miles de $
Frecuencia
Acumulada
15 20
20 25
25 30
30 35
35 40
35
75
130
160
180

La empresa ofrece dos tipos de reajuste:
(A) Reajustar en un 15% ms $2120
(B) Reajustar en un 11% ms $3200
a) En total Qu reajuste es ms conveniente a la empresa?
b) Calcule la desviacin estndar de los sueldos

11. Las distribuciones de sueldos mensuales de 200 obreros de dos Empresas A y B del
mismo rubro son las siguientes (100 obreros en cada una):
Empresa A
(miles de $)
N Trabajadores Empresa B
(miles de $)
N Trabajadores
18 22
22 26
26 30
30 34
34 38
38 42
42 46
45
25
15
7
3
3
2
17 23
23 29
29 35
35 41
41 47
47 53
53 59
38
22
12
3
13
7
5

a) En qu empresa es ms uniforme la distribucin de los sueldos de los obreros?.
b) En la Empresa A, al 40% de los obreros con sueldos ms bajos se les otorgar una
bonificacin. Cul es el sueldo mximo que recibir tal beneficio?.
c) En la Empresa B, Qu porcentaje de los obreros ganan ms de $44500?.

d) Despus de algn tiempo los obreros de la Empresa A recibirn un reajuste de
$3000 y los de la empresa B un reajuste del 30%. Cmo se ven afectados los
coeficientes de variacin y los resultados de las partes (b) y (c)?.

12. Las primas directas en miles de pesos (X) en 100 contratos de seguros se encuentran
clasificadas en la siguiente tabla:
Primas (miles de $) N de contratos
0 50
50 100
100 150
150 200
200 250
250 300
300 350
350 400
7
28
20
18
12
8
5
2

a) Obtenga la prima directa mediana e interprete su valor.
b) Determine el nmero de contratos que tienen prima directa entre 60 y 180 miles de
pesos.
c) Si se decide aumentar los riesgos de manera que todas las primas aumenten en un
12%, determine la nueva prima media y compare el porcentaje de variabilidad antes
y despus de aplicada la medida
d) Si se clasifican las primas directas segn los siguientes criterios:
- Inferior a 150 : monto asegurado reducido
- 150 a 270 : monto asegurado de bajo riesgo
- De 270 a 325 : valor monto asegurado alto
- Sobre 325 : seguro de alto riesgo
Construya un histograma de frecuencias relativas.

e) Suponga que se decide establecer a priori los porcentajes de cada categora de la
pregunta anterior (d), de la forma que al final se tenga un 24% de montos
asegurados reducidos, un 50% de bajo riesgo, un 18% de valor monto asegurado
alto y un 8% de seguros de alto riesgo. Qu lmites de primas deberamos poner a
estas categoras para conseguir estos porcentajes?.


13. Los siguientes datos corresponden a los gastos fijos diarios asignados a publicidad
(X) y al monto de las ventas diarias (Y) de un grupo de 40 empresas dedicadas al
rubro de seguro automotor.



a) Clasifique e identifique las variables en estudio
b) Calcule medidas de tendencia central que resuman la informacin.
c) Qu porcentaje de las empresas gastan en publicidad entre 32 y 67 U.F.?
d) Calcule la desviacin estndar de las dos variables y compare los coeficientes de
variacin.

14. En una empresa comercial se estudiaron los montos de las compras efectuadas
durante el ao anterior (divididos en trimestres) de 100 clientes.





a) Clasifique e identifique la variable en estudio
b) Si los montos se clasifican de la siguiente forma:
- Compras bajas si son inferiores a $150000
- Compras normales si estn entre $150000 y $480000
- Compras altas si son superiores a $480000
- Se pide graficar esta nueva variable (tipo de compra)
c) Calcule medidas de tendencia central que resuman la informacin para los montos
de las compras del 1 trimestre
1. Monto de las Ventas (en U.F.)
Gastos fijos (en U.F.) 120 140 140 - 160 160 180 180 200
30 50
50 70
70 90
4
2
3
10
8
2
0
6
2
2
1
0
1. Trimestres
(en miles de $) Primer Segundo Tercero Cuarto
0 100
100 300
300 500
500 900
8
10
4
10
5
5
6
9
10
6
4
0
2
4
4
0

d) Si para el prximo ao en el 3 y 4 trimestre se ha proyectado un aumento del
12.5% ms $120000 para los montos de las compras. Compare la homogeneidad de
ambos aos bajo las caractersticas dadas. Justifique su respuesta.
e) Si se sabe que el monto promedio total de las compras es de $329000 para todo el
ao. Determine el monto promedio de las compras efectuadas en los dos primeros
trimestres y la varianza sabiendo que el porcentaje de variabilidad de los dos
ltimos trimestres es mayor en un 7% que el porcentaje de variabilidad de los dos
primeros trimestres.

15. Una empresa encargada de vender suministros computacionales, ha realizado un
estudio con respecto a la cantidad en miles de $ que vende, al tipo de empresa a las
cuales atiende y al tipo de insumos, durante un mes, obteniendo la siguiente
informacin (tipos de empresas: G = Grande, M = Medianas y pequeas).
Cantidad en miles de $ que venden
Tipos de
Insumos
Tipo de
Empresas
0 50 50 100 100 110 110 200 200 300
Papeles
G 0 10 12 4 3
M 0 15 20 20 2
Otros
G 6 3 10 10 8
M 0 8 10 10 8

a) Clasifique e identifique las variables en estudio
b) Calcule medidas de tendencia central que resuman la informacin de la variable
cantidad que vende en miles de $, para las empresas Grande y para las empresas
Medianas.
c) Esta empresa ha realizado un estudio para predecir las ventas del prximo mes, con
un incremento del 12.5% ms $105000. Se pide comparar la homogeneidad de la
distribucin de las ventas para ambos meses, slo para las ventas de papeles.
d) Si se sabe que el promedio total de las ventas de este mes es de $160000, Cul
debera ser el promedio de las ventas en dichas empresas que han comprado hasta
$100000?.
e) Cul es el porcentaje de las empresas que no compran papeles y compran otros
insumos y que gastan entre $58000 y $210000 en este tipo de insumos?.


16. Los pesos en Kg. de 58 cerdos fueros los siguientes :
36 69 71 97 36 63 128 63 45 78 58 41
83 53 48 80 51 107 69 75 57 36 50 86
148 65 129 112 56 57 76 72 125 99 55 51
66 39 48 39 105 63 112 70 59 72 136 65
72 89 80 149 60 92 114 93 51 32

a) Construya una tabla de frecuencias y construir el histograma de frecuencias
absolutas. Dibuje, sobre el histograma el polgono de frecuencias.
b) Calcule Medidas de tendencia central y de dispersin a partir de los datos y a partir
de la tabla del punto a).
c) Construya un polgono de frecuencias relativas acumuladas y selo para determinar
el porcentaje de cerdos que satisface los siguientes enunciados.
- Que un Cerdo tomado al azar pese 80 Kg. o ms
- Que un Cerdo tomado al azar pese entre 60 y 100 Kg.
- Que un Cerdo tomado al azar pese hasta 70 Kg.

You might also like