Professional Documents
Culture Documents
1 Estadstica descriptiva
1.1 Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Que significa estadstica? . . . . . . . . . . . . . . . .
1.1.2 Por que usted necesita conocer estadstica? . . . . . . .
1.1.3 Algunas aplicaciones de la estadstica . . . . . . . . . .
1.1.4 Los computadores, la calculadora y la estadstica . . . .
1.1.5 Terminos com
unmente usados en estadstica . . . . . . .
1.1.6 Estadsticas descriptiva e inferencial . . . . . . . . . . .
1.2 Organizaci
on de datos . . . . . . . . . . . . . . . . . . . . . . .
1.2.1 Organizaci
on de datos de acuerdo al tipo . . . . . . . .
1.2.2 Organizaci
on de datos de acuerdo a escalas de medidas .
1.2.3 Organizaci
on de datos mediante tablas . . . . . . . . . .
1.2.4 Organizaci
on de datos mediante representaciones graficas
1.3 Analisis de datos en tablas de frecuencias no agrupadas . . . . .
1.3.1 Medidas de tendencia central o de centralizaci
on . . . .
1.3.2 Medidas de colocaci
on o de posici
on relativa . . . . . . .
1.3.3 Medidas de dispersi
on o de variabilidad . . . . . . . . .
1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . .
1.4 Analisis de datos en tablas de frecuencias agrupadas . . . . . . .
1.5 Analisis exploratorio de datos . . . . . . . . . . . . . . . . . . .
1.5.1 Resumen de cinco n
umeros . . . . . . . . . . . . . . . .
1.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . .
1.6 Uso de Statgraphics en la estadstica descriptiva . . . . . . . . .
1.6.1 Analisis de un solo conjunto de datos . . . . . . . . . .
1.6.2 Analisis simultaneo de dos o mas conjuntos de datos . .
1.7 Uso de la calculadora en la estadstica . . . . . . . . . . . . . .
Ejercicios complementarios . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
4
4
5
5
7
8
9
11
11
12
13
22
32
33
40
42
53
61
67
67
69
73
73
79
83
85
Contenido
CAPITULO
Estadstica descriptiva
Contenido
1.1
Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.1 Que significa estadstica? . . . . . . . . . . . . . . . . . .
1.1.2 Por que usted necesita conocer estadstica? . . . . . . . .
1.1.3 Algunas aplicaciones de la estadstica . . . . . . . . . . .
1.1.4 Los computadores, la calculadora y la estadstica . . . . .
1.1.5 Terminos com
unmente usados en estadstica . . . . . . .
1.1.6 Estadsticas descriptiva e inferencial . . . . . . . . . . . .
1.2 Organizaci
on de datos . . . . . . . . . . . . . . . . . . . . .
1.2.1 Organizaci
on de datos de acuerdo al tipo . . . . . . . . .
1.2.2 Organizaci
on de datos de acuerdo a escalas de medidas .
1.2.3 Organizaci
on de datos mediante tablas . . . . . . . . . . .
1.2.4 Organizaci
on de datos mediante representaciones graficas
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
1.3.1 Medidas de tendencia central o de centralizacion . . . . .
1.3.2 Medidas de colocacion o de posici
on relativa . . . . . . . .
1.3.3 Medidas de dispersion o de variabilidad . . . . . . . . . .
1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . .
1.4 An
alisis de datos en tablas de frecuencias agrupadas . .
1.5 An
alisis exploratorio de datos . . . . . . . . . . . . . . . .
1.5.1 Resumen de cinco n
umeros . . . . . . . . . . . . . . . . .
1.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . .
1.6 Uso de Statgraphics en la estadstica descriptiva . . . .
1.6.1 Analisis de un solo conjunto de datos . . . . . . . . . . . .
1.6.2 Analisis simultaneo de dos o m
as conjuntos de datos . . .
1.7 Uso de la calculadora en la estadstica . . . . . . . . . . .
Ejercicios complementarios . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
5
5
7
8
9
11
11
12
13
22
32
33
40
42
53
61
67
67
69
73
73
79
83
85
1.1 Introducci
on
Empleo de la estadstica
La directora de producci
on de una empresa debe informar a su superior sobre
el n
umero de das promedio que los empleados de la empresa se ausentan del trabajo. Sin embargo, la planta emplea m
as de dos mil trabajadores, y la directora de
producci
on no tiene tiempo de revisar los registros personales de cada empleado.
Como asistente usted debe decidir c
omo puede ella obtener la informaci
on necesaria. Que consejo podra darle?
1.1
1.1.1
Introducci
on
Qu
e significa estadstica?
1.1 Introducci
on
1.1.2
Por qu
e usted necesita conocer estadstica?
1.1.3
En esta secci
on presentaremos ejemplos que ilustran algunas de las aplicaciones de la
estadstica en la ingeniera, en la administraci
on y en la economa.
1.1 Introducci
on
La variabilidad es el resultado de cambios en las condiciones bajo las que se hacen la observaciones.
1.1 Introducci
on
Despues de revisar la exactitud de las cuentas muestreadas, los auditores llegan a una
conclusi
on acerca de si la cantidad que aparece en cuentas por cobrar, en los estados
financieros de sus cliente, es aceptable.
Finanzas
Los asesores financieros recurren a una gama de informaci
on estadstica para guiarse
en sus recomendaciones de inversi
on. En el caso de las acciones, revisan una variedad
de datos financieros, que incluyen relaciones de precio a rendimiento y los dividendos.
Al comparar la informaci
on de determinadas acciones con la correspondiente acerca
de promedios del mercado accionario, un asesor financiero puede comenzar a sacar
conclusiones sobre si esas acciones estan sobre o subevaluadas.
Mercadotecnia
Los escaners en las cajas de los almacenes al detalle se emplean para reunir datos que
tienen muchas aplicaciones de investigaci
on de mercados.
Producci
on
Con el enfasis actual hacia la calidad, el control de calidad es una aplicaci
on importante
de la estadstica en la producci
on. Para vigilar el resultado de un proceso de producci
on
se emplean diversas graficas de control estadstico de calidad, en especial, se usa una
grafica para vigilar el promedio de un producto. Por ejemplo, supongamos que una
maquina llena envases con 12 onzas de una bebida muy conocida. Peri
odicamente
se selecciona una muestra de envases y se le determina su contenido promedio. Este
promedio, o valor x, se anota en una grafica, a partir de la cual se observa si es necesario
ajustar o corregir el proceso de producci
on.
Economa
Con frecuencia se pide a los economistas su pron
ostico acerca del futuro de la economa
o de alguno de sus aspectos. Recurren a diversas informaciones estadsticas para elaborarlo. As, para pronosticar las tasas de inflaci
on usan indicadores como el ndice de
precios al productor, la tasa de desempleo y la ocupaci
on de la capacidad de producci
on.
Muchas veces, esos indicadores estadsticos se introducen en modelos computarizados
de pron
ostico, cuyo resultado son predicciones sobre las tasas de inflaci
on.
1.1.4
1.1 Introducci
on
1.1.5
T
erminos com
unmente usados en estadstica
Definici
on 1.1.3 Una muestra es un subconjunto de la poblaci
on.
Definici
on 1.1.5 Los datos u observaciones son n
umeros o denominaciones
que podemos asignar a un individuo o elemento de la poblaci
on.
Ejemplo 1.1.6 Son ejemplos de datos: la edad de una persona, la respuesta a la pregunta
Usted fuma?, el tipo de sangre, el salario mensual de una trabajador, etc.
Ejemplo 1.1.8 El ingreso promedio de todos los trabajadores de una determinada empresa
es un ejemplo de par
ametro, si todos los trabajadores se consideran como una poblacion.
Definici
on 1.1.9 Un estadstico es cualquier caracterstica medible de una muestra.
Ejemplo 1.1.10 El ingreso promedio de todos los asalariados de una determinada secci
on
de la empresa (viendo a los trabajadores de esta como una muestra de todos los trabajadores
de esta empresa) es un ejemplo de estadstico.
1.1 Introducci
on
Definici
on 1.1.11 Un censo (palabra derivada del latn censere que significa
valuar o tasar) es una enumeraci
on completa de la poblaci
on.
1.1.6
Los procedimientos y analisis que aparecen en estadstica caen en dos categoras generales, estadstica descriptiva (o deductiva) y estadstica inferencial (o inductiva), dependiendo del prop
osito del estudio.
Definici
on 1.1.13 La estadstica descriptiva comprende aquellos metodos que
incluyen tecnicas para recolectar, presentar, analizar e interpretar datos.
En general, la estadstica descriptiva tiene como funci
on el manejo de los datos recopilados en cuanto se refiere a su ordenaci
on y presentaci
on, para poner en evidencia ciertas
caractersticas en la forma que sea mas objetiva y u
til. En este sentido, investiga los
metodos y procedimientos y establece reglas para que el manejo de los datos sea mas
eficiente y para que la informaci
on entregada resulte confiable, y exprese correctamente
ciertos contenidos en un lenguaje que permita que cualquier persona los comprenda y
pueda establecer comparaciones.
Ejemplo 1.1.14 Las siguientes situaciones utilizan estadstica descriptiva:
(a) A un empresario le interesa determinar el promedio semanal total de sus gastos en
algunos productos durante un tiempo determinado.
(b) Una entidad quiere calcular la proporci
on de colombianos encuestados que estan a
favor de determinado candidato poltico.
Definici
on 1.1.15 La estadstica inferencial abarca aquellos metodos y conjuntos de tecnicas que se utilizan para obtener conclusiones sobre las leyes de comportamiento de una poblaci
on bas
andose en los datos de muestras tomadas de esa
poblaci
on.
Ejemplo 1.1.16 Las situaciones siguientes, que son paralelas a las situaciones descriptivas
dadas anteriormente, requieren estadstica inferencial:
(a) Con base en una muestra de estudiantes, cierta universidad desea determinar el porcentaje de estudiantes que fuman.
(b) Con base en una encuesta de opinion, al poltico le gustara calcular la oportunidad
de reelegirse en las proximas elecciones.
1.1 Introducci
on
10
Definici
on 1.1.17 Las tecnicas y metodos utilizados por la ciencia estadstica,
todos
tanto en su parte descriptiva como en la parte inferencial son los llamados me
estadsticos.
Ejercicios de la secci
on 1.1
1. Describa una posible muestra de tama
no 5 de cada una de las siguientes poblaciones:
(a) Todos los periodicos publicados en Colombia.
(b) Todas las empresas importantes de Colombia.
(c) Todos los estudiantes de su curso.
(d) Todos los promedios de calificaciones de los alumnos de su universidad.
2. Una revista publica datos sobre la clasificacion de las 300 corporaciones industriales mas
grandes de un pais, en terminos de ventas y utilidades. En la tabla 1.1 vemos datos acerca
de una muestra de estas 300 compa
nas.
(a) Cuantos elementos hay en este conjunto de datos?
(b) Cual es la poblacion?
(c) Calcule las ventas anuales en la muestra.
(d) Con el resultado del inciso (c), cual es la estimaci
on de las ventas promedio para la
poblacion?
Compa
na
Todo Confort
Alles klar
Ramos del Caribe
Sofort
Express
El u
nico
Integer
Good
Pueblo City
Report Info
Ventas
($ millones)
38.420
20.847
8.071
3.075
8.092
10.272
8.588
6.371
9.844
6.454
Utilidades
($ millones)
2.586,0
5.157,0
234,0
212,2
168,7
1.427,0
213,3
49,7
580,0
87,0
C
odigo del ramo
industrial
12
15
2
22
48
8
11
10
19
19
1.2 Organizaci
on de datos
11
(b) Por que se necesita usar una muestra en este caso? Explique su respuesta.
4. El se
nor Marim
on, candidato a alcalde de un pueblo peque
no, quiere determinar si debe
hacer una campa
na mas fuerte contra su oponente. Para ello entrevistara a 300 de los
1, 700 votantes registrados. Si los resultados indican que tiene 35% mas votos que su
oponente, no intensificar sus esfuerzos de campa
na contra su rival.
(a) Identifique la poblacion, la muestra, un estadstico y un parametro.
(b) Que hara el se
nor Marim
on si tuviera el 75% de los votos de la muestra?
5. Se estableci
o que el costo promedio de los textos escolares en un colegio peque
no durante
el ultimo a
no fue de $ 354.400, con base en una inscripci
on de 1.500 estudiantes. Como
un trabajo de clase en el colegio, un grupo de estadstica encuesto a 30 estudiantes para
determinar el promedio del costo de un libro de texto en el u
ltimo a
no y se concluy
o que
fue de $ 399.700.
(a) Identifique la poblacion, la muestra, los parametros y dos estadsticos.
(b) Que podra concluir el grupo de estadstica si el costo promedio de un libro para la
muestra de 30 estudiantes fuera de $ 1.050.000?
1.2
Organizaci
on de datos
Nosotros estudiaremos cuatro formas de organizar los datos, a saber, por el tipo de dato,
de acuerdo a escalas de medidas, mediante tablas y mediante representaciones graficas.
1.2.1
Organizaci
on de datos de acuerdo al tipo
1.2 Organizaci
on de datos
12
1.2.2
Organizaci
on de datos de acuerdo a escalas de medidas
1.2 Organizaci
on de datos
13
1, esto no quiere decir que con A, el estudiante sabe el doble que un estudiante con C.
Todo lo que podemos decir es que la calificaci
on A es mejor o de un grado superior a la
de C, ya que una escala ordinal no admite unidad de distancia.
1.2.3
Organizaci
on de datos mediante tablas
1.2 Organizaci
on de datos
14
Definici
on 1.2.1 La frecuencia (absoluta) de un dato, simbolizado con la letra
f, es el n
umero de veces que aparece ese dato en una colecci
on de datos.
Existen dos tipos generales de tablas para reportar datos usando frecuencias, estas son:
tablas de frecuencias no agrupadas y tablas de frecuencias agrupadas. Ambas tablas se
mencionan simplemente como tablas de frecuencia.2
3
2
4
1
5
2
6
3
7
4
Frecuencia
4
8
5
2
1
1.2 Organizaci
on de datos
15
Las clases de frecuencias agrupadas poseen lo que se llama lmites de clase. Consideremos la tabla 1.2. En la clase 10-14, a 10 se le llama lmite inferior de clase y
a 14, lmite superior de clase. La distancia entre cualquiera de dos lmites superiores consecutivos o entre cualquiera de dos lmites inferiores consecutivos es llamada
amplitud de clase. La amplitud de cada clase en la tabla 1.2 es 5.
Cada clase en una tabla de frecuencia tiene lmites de clases te
oricos llamados lmites
reales de clase o frontera de clase (termino que utilizaremos en el texto). Al
lmite superior te
orico se le llama frontera superior de clase (o lmite real
superior de clase) y al lmite inferior te
orico de clase se le llama frontera inferior de clase (o lmite real inferior de clase). En general, para una clase
dada, cualquier frontera se calcula de la siguiente manera:
lmite inf. de la clase dada + lmite sup. de la clase anterior
.
2
Observemos que la frontera inferior de una clase siempre conincide con la frontera superior de la clase superior. Por ejemplo, para los datos de la tabla 1.2, la frontera inferior
para la tercera clase es 19,5 (que es la misma frontera superior de la segunda clase) y la
frontera superior para esa misma clase es 24,5 (que es la misma frontera inferior de la
quinta clase). Todas estas fronteras aparecen ya calculadas en la segunda columna de
la tabla 1.3.
Frontera inferior =
Frecuencia
4
8
5
2
1
El punto medio de cada clase se denomina marca de clase. Es decir, para una clase
dada, la marca de clase se encuentra usando la f
ormula
Marca de clase =
1.2 Organizaci
on de datos
16
3. Las clases deben ser mutuamente excluyentes, es decir, cada dato debe quedar
exactamente en una sola clase, no en dos al mismo tiempo.
4. Para mayor comodidad en el proceso de construcci
on de las clases, acordaremos
que todas las clases deben tener la misma amplitud (en la realidad, esto no siempre
es as).
Determinaci
on de la amplitud de clase. Para determinar la amplitud de clase en
cualquier tabla de frecuencias agrupadas, restense dos lmites superiores de clases
consecutivos o dos lmites inferiores de clases consecutivos, o dos fronteras inferiores consecutivas, o dos fronteras superiores consecutivas, o restese la frontera
inferior de una clase de la frontera inferior superior de dicha clase.
5. Mientras menos clases escojamos sera mas facil el trabajo, pero se perdera mas
informaci
on. Debido a que no hay un acuerdo general entre los estadsticos acerca
del n
umero de clases que debe usarse y dado que la elecci
on es arbitraria, para
nuestros fines, escogeremos entre 5 y 20. Una sugerencia u
til para el n
umero de
clases esta dado por la regla de Sturges.
Regla de Sturges. La regla de Sturges establece como n
umero de clases
necesario, aproximadamente
c = 3, 3(log n) + 1,
donde n es el n
umero de medidas y log n es el logaritmo de n en base 10. El
valor de c es com
un redondearlo al entero mas cercano.
Otra regla razonable para el n
umero de clases es
c = n.
R
.
c
El valor de w es com
un redondearlo al entero siguiente.
1.2 Organizaci
on de datos
17
21
19
19
23
18
24
21
19
28
16
21
15
19
12
22
22
16
24
25
17
20
16
18
22
16
23
24
24
25
22
24
20
20
25
23
19
16
SOLUCION:
Paso 1. Primero determinamos el rango R. Como la medida mayor es 28 y la menor es 12,
entonces, el rango es
R = 28 12 = 16.
Paso 2. El ejemplo no nos dice con cuantas clases debemos construir la tabla de frecuencias
agrupadas. Podemos seleccionar esta cantidad arbitrariamente (entre 5 y 20) o aplicar
la regla de Sturges (que es la que utilizaremos). Como tenemos n = 40 datos, la regla
de Sturges sugiere usar c = 6 clases, porque el n
umero de clase es
c = (3, 3) log 40 + 1 = (3, 3)(1, 60) + 1 = 6, 2867 6.
donde significa aproximadamente igual
que. Observemos que con la otra regla se
obtiene el mismo resultado porque c = 40 = 6, 324 6.
Paso 3. Ahora, determinamos w, la amplitud de cada clase. En este caso,
w =
16
R
=
= 2, 666.
c
6
Como la unidad de precision para los datos es 1, escogemos el mnimo entero mayor
que 2,666 como el valor de la amplitud. En este caso, el mnimo entero mayor que
2,666 es 3. Por lo tanto, w = 3.
Paso 4. A continuacion se construye la primera clase con un ancho de w = 3. Para ello,
primero, tenemos que encontrar las fronteras inferior y superior de esta clase. Como
la unidad de medida es 1 (porque todos los datos son enteros) y como el punto medio
de cada unidad de medida es
Unidad de medida
1
=
= 0, 5,
2
2
1.2 Organizaci
on de datos
18
Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta que
la frontera inferior de la clase precedente coincide con la frontera superior de la clase
anterior y que la amplitud del intervalo es w = 3. De esta forma, las seis clases
resultan ser las siguientes:
Clase
Clase
Clase
Clase
Clase
Clase
1:
2:
3:
4:
5:
6:
11,5
14,5
17,5
20,5
23,5
26,5
14,5
17,5
20,5
23,5
26,5
29,5
(Observe:
(Observe:
(Observe:
(Observe:
(Observe:
17, 5 = 14, 5 + 3)
20, 5 = 17, 5 + 3)
23, 5 = 20, 5 + 3)
26, 5 = 23, 5 + 3)
29, 5 = 26, 5 + 3)
Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.
Si uno de los datos cae en una clase, anotamos una marca (|) en la columna correspondiente a esa clase. La tabla 1.4 contiene la tabla de frecuencias agrupadas para
los 40 datos dados.
Clase
11,5 - 14,5
14,5 - 17,5
17,5 - 20,5
20,5 - 23,5
23,5 - 26,5
26,5 - 29,5
Cuenta
||
||||| |||
||||| ||||| |
||||| |||||
||||| |||
|
Frecuencia
2
8
11
10
8
1
10,2
9,5
11,5
11,5
7,8
11,2
10,0
14,9
12,2
7,5
13,5
10,0
14,1
6,0
10,0
15,8
12,2
11,5
SOLUCION:
Paso 1. Como la medida mayor es 15,8 y la menor es 6,0, entonces, el rango es
R = 15, 8 6, 0 = 9, 8.
Paso 2. Ya que tenemos n = 20 datos, entonces, por la regla de Sturges debemos usar c = 5
clases, porque el n
umero de clase es
c = (3, 3) log 20 + 1 = (3, 3)(1, 30) + 1 = 5, 2933 5.
donde significa aproximadamente igual que.
Paso 3. Ahora, determinamos w, la amplitud de cada clase. En este caso,
w =
9, 8
R
=
= 1, 96.
c
5
1.2 Organizaci
on de datos
19
Paso 4. Como la unidad de medida es 0,1 (por tener los datos un solo lugar decimal) y como
el punto medio de cada unidad de medida es
0, 1
Unidad de medida
=
= 0, 05,
2
2
1:
2:
3:
4:
5:
5,95 - 7,95
7,95 - 9,95
9,95 - 11,95
11,95 - 13,95
13,95 - 15,95
(Observe: 9, 95 = 7, 95 + 2)
(Observe: 11, 95 = 9, 95 + 2)
Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.
Si uno de los datos cae en una clase, anotamos una marca (|) en la columna correspondiente a esa clase. La tabla 1.5 contiene la tabla de frecuencias agrupadas para los 20
datos dados. Ademas, all tambien aparecen las marcas de clase X correspondientes
a cada clase. Por ejemplo, la primera marca de clase se calcula as:
X=
6, 0 + 7, 9
= 6, 95.
2
Clase
5,95 - 7,95
7,95 - 9,95
9,95 - 11,95
11,95 - 13,95
13,95 - 15,95
Cuenta
||||
||
||||| |||
|||
|||
Frecuencia
4
2
8
3
3
Marcas de clase X
6,95
8,95
10,95
12,95
14,95
28,30
82,71
17,89
28,31
43,63
60,20
17,95
41,17
48,14
44,47
47,32
22,78
46,65
52,16
38,22
31,47
25,94
23,25
33,45
50,32
29,17
35,25
1.2 Organizaci
on de datos
20
SOLUCION:
Paso 1. El rango es R = 82, 71 17, 89 = 64, 82.
Paso 2. Aplicando la regla de Sturges, obtenemos que el n
umero de clase es
c = (3, 3) log 25 + 1 = (3, 3)(1, 3979) + 1 = 5, 613 6.
R
c
Paso 4. Como la unidad de medida es 0,01 (por tener los datos dos lugares decimales) y como
como el punto medio de cada unidad de medida es
0, 01
Unidad de medida
=
= 0, 005,
2
2
Clase
17,885 - 28,885
28,885 - 39,885
39,885 - 50,885
50,885 - 61,885
61,885 - 72,885
72,885 - 83,885
Cuenta
||||| ||
||||| ||
||||| |||
||
|
Frecuencia
7
7
8
2
0
1
Marcas de clase X
23,385
34,385
45,385
56,385
67,385
78,385
1.2 Organizaci
on de datos
21
Definici
on 1.2.8 (a) La frecuencia relativa de un dato o de una clase se encuentra dividiendo la frecuencia de dicho dato (o de la clase) entre el total de
datos. Entonces, a la tabla se le llama tabla de frecuencias relativas.
(b) La frecuencia acumulada de cualquier dato o clase, es la suma de la frecuencia de ese mismo dato o clase con las frecuencias de todos los dem
as datos o
clases anteriores. A la tabla se le llama tabla de frecuencias acumuladas.
(c) La frecuencia relativa acumulada de un dato o de una clase se obtiene
dividiendo la frecuencia acumulada del dato o de la clase por el n
umero total de
datos. A la tabla que contiene a estas frecuencias se les denomina tabla de
frecuencias relativas acumuladas.
Ejemplo 1.2.9 En la tabla 1.7 se muestra la tabla de frecuencias relativas, de frecuencias
acumuladas y de frecuencias acumuladas relativas para los 40 datos del ejemplo 1.2.5.
Clase
11,5 - 12,5
12,5 - 15,5
15,5 - 18,5
18,5 - 21,5
21,5 - 24,5
24,5 - 27,5
Frec.
2
8
11
10
8
1
Frec. rel.
2/40 = 0,05
8/40 = 0,20
11/40 = 0,275
10/40 = 0,25
8/40 = 0,32
1/40 = 0,025
5%
20%
27,5%
25%
32%
2,5%
Frec. acum.
2
10 (= 8+2)
21 (= 11+10)
31 (= 21+10)
39 (= 8+31)
40 (= 1+39)
Tablas bivariadas
Una tabla de frecuencias bivariadas es un arreglo de datos clasificados en dos
categoras con sus respectivas frecuencias. Las categoras pueden ser n
umeros discretos,
intervalos numericos o valores cualitativos como genero, color de cabello o religi
on.
Ejemplo 1.2.10 Una encuesta sobre el deporte preferido tuvo los resultados en hombres y
mujeres que se muestran en la siguiente tabla bivariada.
Hombres
Mujeres
Total
Beisbol
19
16
35
Deporte preferido
B
asquetbol
15
18
33
F
utbol
24
16
40
Total
58
50
108
La informaci
on que sigue, entre otras, puede leerse facilmente de la tabla:
(a) Se han encuestado en total a 108 personas.
1.2 Organizaci
on de datos
22
1.2.4
Organizaci
on de datos mediante representaciones gr
aficas
Hay graficas de varios tipos, entre los cuales se encuentran los siguientes: el diagrama
circular o de pastel, el pictograma, el diagrama de barras, el diagrama de caja y bigote,
el histograma, el polgono (de frecuencia o de frecuencias relativas), la ojiva (o polgono
de frecuencias acumuladas o polgono de frecuencias relativas acumuladas) y el diagrama
de tallo y hojas. Discuteremos cada uno de ellos con excepci
on del diagrama de caja y
bigotes, que se introducira en la secci
on 1.5.2.
Diagramas circulares (o de pastel)
Estos diagramas se utilizan para hacer representaciones porcentuales y se utilizan generalmente para datos categ
oricos.
Ejemplo 1.2.11 La siguiente tabla presenta los datos sobre la cantidad de refrescos de
marca A, B, C, D y E que se vendieron en una tienda.
Refresco
A
B
C
D
E
Frecuencia
19
8
5
13
5
Frecuencia relativa
0,38
0,16
0,10
0,26
0,10
Esta informaci
on se puede presentar a traves de un diagrama circular como el que se muestra
en la figura 1.3.
1.2 Organizaci
on de datos
23
grados. Se efect
uan c
alculos semejantes para las demas clases, obteniendose el diagrama
de la figura 1.3. Los valores numericos que se ven para cada sector pueden ser frecuencias,
frecuencias relativas o porcentajes.
Pictogramas o pict
ografos
Un pictograma es la representaci
on de datos estadsticos por medio de smbolos que
por su forma sugieren la naturaleza del dato.
Ejemplo 1.2.12 El siguiente pictograma representa una informaci
on sobre las casas construidas en algunos a
nos por una firma constructora. En el se hacen las siguientes convenciones: significa 1.000 casas construidas y significa 500 casas construidas.
A
nos
2.000
2.001
2.002
2.003
Casas construidas
Diagrama de barras
Es una representaci
on grafica en la que cada una de las modalidades del aspecto de
interes se representa mediante una barra. En este grafico se suelen disponer los datos
en el primer cuadrante de unos ejes coordenados, levantando sobre el eje de las abscisas
una barra para cada modalidad del dato observado. La altura de la barra ha de ser
proporcional a la frecuencia absoluta o relativa, que se representara en el eje de las
ordenadas. Estos diagramas se utilizan tanto para datos categ
oricos como numericos.
Ejemplo 1.2.13 La figura 1.4 muestra un diagrama de barras sobre los datos del ejemplo
1.2.11.
1.2 Organizaci
on de datos
24
Histogramas
Los histogramas son una forma de representaci
on grafica de una distribuci
on de frecuencia que consiste en representar las frecuencias (absolutas, relativas, acumuladas o
relativas acumuladas) por medio de areas de rectangulos (barras). Cuando utilizamos frecuencias absolutas, hablamos de histograma de frecuencias; cuando usamos frecuencias
relativas, histogramas de frecuencias relativas, etc. Los histogramas pueden construirse
para distribuciones de frecuencias agrupadas y no agrupadas.
Histogramas para frecuencias agrupadas
La idea de construir un histograma para frecuencia no agrupada de los datos, es representar cada frecuencia por una barra cuya area sea proporcional a ella. Tpicamente, el
ancho de cada barra se escoge como 1 y as el area de la barra es igual a la frecuencia
(absoluta, relativa, acumulada o relativa acumulada) del dato.
Es importante se
nalar que aqu los datos pueden ser categ
oricos o n
umericos y que
estos se colocan en el horizontal y sus correspondientes frecuencias (absolutas, relativas,
acumuladas o relativas acumuladas) en el eje vertical del diagrama.
Ejemplo 1.2.14 El diagrama que se muestra en la figura 1.4 es un ejemplo de un histograma
para la frecuencia de los datos de compra de refrescos.
Clase
5,95 - 7,95
7,95 - 9,95
9,95 - 11,95
11,95 - 13,95
13,95 - 15,95
Frecuencia
4
2
8
3
3
Frecuencia acumulada
4
6
14
17
20
Frecuencia relativa
0,2
0,1
0,4
0,15
0,15
Tabla 1.8: Tabla de frecuencia agrupada para los datos del ejemplo 1.2.6
Los histogramas de frecuencias relativas y de frecuencias acumuladas para estos datos son
como se ve en las figuras 1.5 y 1.6, respectivamente.
1.2 Organizaci
on de datos
25
Fig. 1.5: Histograma de frecuencias relativas para los datos del ejemplo 1.2.6
Fig. 1.6: Histograma de frecuencias acumuladas para los datos del ejemplo 1.2.6
Polgonos
Estos graficos se utilizan para representar series cronol
ogicas y se construye usando una
tabla de frecuencias (absoluta o relativa) agrupadas con marcas de clase. Si se usan
frecuencias absolutas, se denomina polgono de frecuencias y si se utilizan frecuencias
relativas, polgono de frecuencias relativas.
Ejemplo 1.2.16 Construir un polgono de frecuencia para los datos del ejemplo 1.2.6.
SOLUCION:
Consideremos la tabla 1.5 corresponde a la tabla de frecuencias agrupadas para los 20 datos
del ejemplo 1.2.6, con sus correspondientes marcas de clase. Ahora, construimos el polgono
con frecuencias absolutas mostrada en la figura 1.7. Las marcas de clase se colocan en el eje
horizontal y las frecuencias en el eje vertical. Notemos que el polgono se baja en ambos
extremos, colocando el primer y el u
ltimo puntos en puntos del eje horizontal que distan
w = 2 de las marcas de clase m
as cercanas.
1.2 Organizaci
on de datos
26
Fig. 1.7: Polgono de frecuencias para los datos del ejemplo 1.2.6
Ojivas
La ojiva, llamada tambien polgono de frecuencias acumuladas (o polgono de frecuencias relativas acumuladas), se construye a partir de tablas de frecuencias (acumuladas o
relativas acumuladas). Las ojivas ofrecen un medio grafico para interpolar o aproximar
el n
umero o porcentaje de observaciones menores o iguales que un valor especfico.
Ejemplo 1.2.17 La figura 1.8 representa una ojiva con frecuencias acumuladas para los
datos del ejemplo 1.2.6. Para su construcci
on consideramos la tabla 1.8.
1.2 Organizaci
on de datos
27
tallo
34
hoja
53
tallo
hoja
La exhibici
on grafica de datos es muy facil de realizar usando tallos y hojas; cada dato
aporta una hoja de alg
un tallo.
Ejemplo 1.2.18 Los datos de abajo muestran el n
umero de anuncios radiofonicos de 30
segundos pagados el a
no pasado por cada uno de los 45 miembros de una empresa. Organice
los datos en un diagrama de tallo y hojas y determine la forma que toma este diagrama.
Alrededor de que valores tiende a acumularse el n
umero de anuncios? Cu
al es el menor
n
umero de anuncios pagados por un comerciante? El mayor n
umero pagado?
96
107
106
93
125
139
88
155
134
117
155
119
127
103
97
95
112
89
113
127
118
96
117
136
108
120
125
94
112
143
148
135
120
156
132
103
139
111
113
142
125
124
94
104
138
SOLUCION:
En el conjunto de datos se observa que el menor n
umero de anuncios pagados es 88. As es
que el valor del primer tallo sera 8. El n
umero m
as grande es 156. Entonces, los valores de
los tallos empezar
an en 8 e ir
an hasta 15. El primer n
umero en los datos es 96, que tendr
a
como tallo 9 y como hoja 6. Moviendose por el rengl
on superior el segundo valor es 93 y el
tercero 88. Despues de tomar los tres primeros valores del conjunto de datos, su diagrama
es
8
9
10
11
12
13
14
15
8
6
1.2 Organizaci
on de datos
28
8
9
10
11
12
13
14
15
8
6
8
7
7
9
8
6
9
3
7
3
5
5
2
5
5
3
2
7
2
3
5
6
4
7
0
9
4
6
2
5
4
4
3
1
5
6
7
9
0
8
8
4
Lo que suele hacerse es ordenar los valores de las hojas de menor a mayor y, en este caso, el
diagrama final se ver
a as:
8
9
10
11
12
13
14
15
8
3
3
1
0
2
2
5
9
4
3
2
0
4
3
5
4
4
2
4
5
8
6
5
6
3
5
6
6
7
3
5
8
6
8
7
5
9
7
7
7
9
8
7
Del diagrama de tallos y hojas se pueden sacar varias conclusiones como, entre otras, las
siguientes:
Primero, el menor n
umero de anuncios comprados es 88 y el mayor es 156.
Dos comerciantes compraron menos de 90 anuncios y tres, m
as de 150.
Puede observarse, por ejemplo, que los tres comenrciantes que compraron m
as de 150,
compraron 155, 155 y 156 comerciales.
La mayor concentraci
on del n
umero de comerciales esta entre 110 y 130.
Hubo 9 comerciantes que compraron entre 110 y 119 anuncios y que 8 compraron
entre 120 y 129.
Tambien podemos decir que dentro del grupo de 120 a 129 el n
umero de anuncios
comprados se repartio uniformemente.
Dos comerciantes compraron 120, un comenrciante compr
o 124, tres compraron 125
y dos, 127.
Para concentrarnos en la forma que toma el diagrama de tallos y hojas, coloquemos un
rectangulo para representar la cantidad de hojas de cada tallo. Al hacerlo obtenemos la
siguiente representacion:
8
9
10
11
12
13
14
15
8
3
3
1
0
2
2
5
9
4
3
2
0
4
3
5
4
4
2
4
5
8
6
5
6
3
5
6
6
7
3
5
8
6
8
7
5
9
7
7
7
9
8
7
Si giramos la pagina 90 grados en el sentido de las manecillas del reloj, obtenemos una
imagen de los datos que se parece mucho a la de un histograma con clases de 80 a 90,
90 a 100, 100 a 110, etc. Aunque el diagrama de tallos y hojas parece ofrecer la misma
informaci
on que un histograma, tiene dos ventajas principales:
1.2 Organizaci
on de datos
29
1. Es m
as facil de construir.
2. Dentro de un intervalo de clase, el diagrama de tallo y hojas da m
as informaci
on que
un histograma porque muestra los valores reales.
Ejercicios de la secci
on 1.2
6. Clasifique los datos siguientes en cuantitativos (numericos) y cualitativos (categoricos).
En caso de ser numerico, como discretos o continuos:
(a) Estaturas en centmetros de cuatro jugadores de f
utbol.
(b) El n
umero de goles anotados por Pele en toda su carrera deportiva.
(c) Los sueldos ganados por unos profesores universitarios.
(d) Las temperaturas promedios diarias en el u
ltimo mes.
(e) Clasificacion etnica de 30 empleados.
(f) N
umeros telef
onicos ciertas personas.
(g) Calificaciones del primer parcial de Estadstica de unos estudiantes un universitarios.
(h) Distancia (en metros) recorrido por un atleta en una temporada.
(i) Peso perdido (en kilogramos) por 10 personas debido a una dieta.
(j) Fecha de cumplea
nos de determinadas personas.
(k) Calificaciones (E, S, A, D, I) de unos estudiantes de bachillerato.
(l) Rango militar.
7. Diga la clase de graficas que son apropiadas para datos (a) cualitativos, (b) cuantitativos
y (c) nominales.
8. La tabla siguiente contiene la distribuci
on de vehculos que hay en un aparqueadero.
Clase
1
2
3
4
Tipo de vehculo
Taxi
Camioneta
Motocicleta
Bicicleta
Cifra registrada
30
20
35
40
(a) Identifique los datos de cada una de las tres columnas como cuantitativos o cualitativos.
(b) Identifique los datos de la tercera columna como discretos o continuos.
(c) Determine los datos de cada una de las tres columnas como nominales, ordinales, de
intervalo o de raz
on.
9. A continuacion, se presenta una escala numerica para medir la efectividad de la tecnologa
en la ense
nanza de una determinada asignatura: 1, si necesita mejorarse; 3, si es efectiva
y competente; y 5, si es verdaderamente extraordinaria.
(a) Identifique el tipo de escala de medicion.
(b) Suponga que 20 estudiantes usan esta escala para evaluar a su maestro de estadstica.
Sera mas facil interpretar esos resultados que los que se obtendran si los 20 estudiantes evaluaran a su maestro mediante una opinion escrita de respuesta libre?
Explique.
1.2 Organizaci
on de datos
30
10. Los datos anotados representan los totales, en miles de pesos, gastados en fotocopias por
una muestra de 25 estudiantes durante un semestre.
29
42
89
36
77
72
72
69
39
68
47
41
64
52
84
39
88
84
57
45
28
52
63
72
38
127,9
126,9
119,9
130,9
122,8
118,9
121,9
126,9
119,8
132,9
137,9
116,9
120,8
115,9
129,9
115,9
115,9
122,8
117,9
121,9
119,9
131,9
Mediante cinco clases construya una tabla de frecuencias relativas acumuladas agrupadas.
12. Se clasific
o a los estudiantes de un programa universitario de acuerdo a con el semestre
que cursa y su preferencia deportiva. Los resultados estan registrados en la siguiente tabla.
Primero
15
12
5
26
7
F
utbol
Beisbol
Voleivol
Basquetbol
Natacion
Segundo
14
22
5
7
8
Tercero
5
6
9
6
4
Cuarto
9
6
5
7
2
21,15
30,22
30,96
25,12
25,49
33,38
23,47
20,80
20,77
27,81
23,83
19,98
19,80
25,35
35,87
36,05
23,48
22,02
28,50
25,81
26,66
21,07
20-40
14
40-60
23
60-80
15
80-100
20
100-120
28
Trace un histograma de frecuencias relativas, un histograma de frecuencias relativas acumuladas, un polgono de frecuencias absolutas y una ojiva de frecuencias acumuladas para
estos datos.
15. Los datos que se indican a continuacion representan el costo (en miles de pesos) de la
energa electrica durante un determinado mes del a
no para una muestra aleatoria de 50
apartamentos en cierta ciudad importante:
1.2 Organizaci
on de datos
128
153
135
111
143
31
144
197
191
148
187
168
127
137
213
166
109
82
129
130
139
167
96
158
165
149
141
171
108
157
95
149
202
119
185
163
206
178
183
90
150
175
147
151
116
154
123
102
114
172
130
20,3
32,9
20,3
24,0
30,3
24,7
29,6
39,5
18,7
19,4
13,3
36,8
38,0
28,0
31,2
24,5
19,9
50,9
21,5
24,6
25,6
32,3
Construir un diagrama de tallo y hojas, una tabla de frecuencias y con ayuda de esta tabla
responda las preguntas que se formulan en los siguientes incisos:
(a) Que porcentaje de empresas tienen el porcentaje de rentabilidad de las acciones
mayor que 34,25%?
(b) Cuantas empresas tienen el porcentaje de rentabilidad de las acciones entre 20,25%
y 48,25%?
(c) Que porcentaje de empresas tienen el porcentaje de rentabilidad de las acciones
entre 34,25% y 41,25%?
(d) Cuantas empresas tienen el porcentaje de rentabilidad de las acciones menor que
27,25% o mayor que 41,25%?
18. Seg
un un estudio reciente, en cierto pas mueren cada a
no 40.000 mujeres a causa del
cancer de mama y 85.000 a causa de diabetes. Dibujar un diagrama de barras y un
pictograma que represente esta informacion.
19. En 1.986 se produjeron 50,2 nacimientos por cada mil mujeres con una edad entre 15 y 19
a
nos. En 1.991, el n
umero de nacimiento fue de 62,1 por cada mil mujeres de la misma
edad. Dibujar un diagrama de barras que represente esta informacion.
20. De las pelculas que estan en cartelera en una gran ciudad, el 30% son dramas, el 35%
comedias, un 15% son pelculas de accion, otro 6% de ciencia ficci
on, el 10% son policiacas,
y el 4% son de terror. Construir un diagrama circular que represente esta informaci
on.
21. La siguiente tabla se refiere a los usos mas comunes citados en una encuesta realizada
a usuarios de computadores de peque
nas y medianas empresas. Construir un diagrama
circular para representar esta informacion.
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
Area
Contabilidad
Procesadores de texto
Hojas de calculo
Bases de datos
Puntos de venta
Telecomunicaciones
Otros
32
Respuestas (%)
22
12
16
13
1
4
32
22. Un reporte sobre galletas reporto las siguientes calificaciones para varias marcas:
Integral:
No integral:
32
30
47
75
53
40
40
80
50
50
34
47
65
56
62
56
45
30
52
62
40
22
62
50
56
56
53
34
44
68
75
42
62
41
42
36
32
1.3
An
alisis de datos en tablas de frecuencias no agrupadas
A continuaci
on, estudiaremos las medidas que describen el comportamiento de un conjunto de datos. Estas medidas son: las de tendencia central (o de centralizaci
on), las de
colocaci
on (o de posici
on relativa), las de dispersi
on (o de variabilidad) y las de forma.
Estas se pueden visualizar intuitivamente en las siguientes graficas (que corresponden a
las graficas de los llamados histogramas suavizados):
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
1.3.1
33
Al estudiar la informaci
on estadstica mediante su representaci
on grafica, se puso en
evidencia un significativo comportamiento de los datos en cuanto a la frecuencia con
que se presentan los valores: algunos de estos valores son mas frecuentes que otros.
Ademas, se observ
o una clara tendencia de agrupaci
on en el vecindario de los valores
mas frecuentes, haciendo que las graficas representativas adquieran formas especiales.
Por lo general, la mayor densidad de frecuencia esta en la parte central de las graficas,
de aqu deriva el nombre de medidas de tendencia central que se da a la media,
la mediana, la moda, el rango medio, la media geometrica, la media arm
onica y la media
cuadratica. En esta secci
on estudiaremos estas medidas de tendencia central.
Media
tica de cierto conjunto de n
Definici
on 1.3.1 La media aritme
umeros se encuentra sumando los n
umeros y dividiendo despues entre la cantidad de datos. En otras
palabras, si x1, . . . , xn son n
umeros, entonces, la media aritmetica de este conjunto
de n
umeros est
a dada por
Media aritmetica =
x1 + + x n
.
n
tica poblacional, y se simboliza por , cuando el conEn estadstica se habla de media aritme
tica muestral, y se simboliza
junto de datos corresponden a los de la poblaci
on; y de media aritme
por x, cuando se tienen en cuentan los datos de una muestra.
10
x1
f1
x2
f2
...
...
xn
fn
tica pondeen donde fi es la frecuencia del dato xi. Entonces, la media aritme
tica, de los datos x1, . . . , xn se define como
rada o, simplemente, media artime
Media aritmetica =
x1f1 + + xnfn
.
f1 + + fn
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
34
Ejemplo 1.3.4 La media aritmetica de los datos del ejemplo 1.3.2 se pueden calcular con
ayuda de la llamada media aritmetica ponderada. Para ello, organizamos estos datos en una
tabla de frecuencias no agrupadas, tal como
Dato
Frecuencia
18
4
19
3
20
2
21
1
Luego, aplicamos la definicion 1.3.3 y hallamos la media de los datos de la siguiente manera:
x =
Desventaja de la media
La media tiene una seria desventaja: se ve afectada por los valores extremos del final de
una distribuci
on. Como depende del valor de cada medida, los valores extremos pueden
llevarla a representar defectuosamente los datos.
Mediana y moda
La mediana y la moda son medidas de tendencia central que no tienen propiedades que
les permitan intervenir en desarrollos algebraicos como la media aritmetica, por eso son
de menor importancia te
orica que ella. Sin embargo, poseen propiedades que ponen en
evidencia ciertas cualidades de un colectivo, cosa que no ocurre con la media aritmetica
que promedia todos los valores igualando en un justo reparto todas las observaciones,
es decir, suprimiendo sus individualidades. En cambio, la mediana y la moda destacan
los valores individuales, de lo que se desprende su utilidad e importancia en cierto tipo
de analisis.
Mediana
Definici
on 1.3.5 Para datos medidos en al menos una escala de intervalo, la
mediana es el puntaje medio ordenado.
Para determinar la mediana de un conjunto de n datos, hay que realizar los siguientes
pasos:
Ordene los datos de menor a mayor con ayuda con ayuda de un diagrama de tallo y hojas
ordenado.
El valor de la mediana depender
a del hecho de que n sea par o impar:
Si n es impar, entonces, la mediana ser
a el dato en el centro, es decir, la mediana es
el dato que se encuentra en el lugar n+1
;
2
si n es par, entonces, la mediana es la media de los dos datos que ocupan posiciones
centrales, es decir, la mediana es el promedio de las datos que se encuentran en los
lugares n2 y n2 + 1.
N
otese que, por ejemplo, n+1
no representa uno de los datos, sino el n
umero de valores que
2
deben contarse para llegar a la mediana.
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
35
Ejemplo 1.3.8 Encuentre la mediana para los datos organizados en la siguiente tabla de
frecuencias.
Dato
Frecuencia
0
10
1
10
2
8
3
4
4
8
SOLUCION:
Como los datos se presentan en una tabla de frecuencias no agrupadas, para calcular la mediana es conveniente determinar las frecuencias acumuladas de los datos. Estas se encuentran
en la tabla 1.9.
Dato
0
1
2
3
4
Frecuencia
10
10
8
4
8
Frecuencia acumulada
10
20
28
22
40
Tabla 1.9: Tabla de frecuencia acumulada para los datos del ejemplo 1.3.8
Como el total de datos es n = 40 (par), entonces, la mediana es el promedio de las medidas
n
que estan en las posicones n
2 = 20 y 2 + 1 = 21. Para encontrar la mediana recomendamos
contar los datos en direccion de la medida menor a la mayor. De la tabla es facil ver que el
dato en lugar 20 es 1 y que el dato en la posici
on 21 es 2. Por tanto, la mediana es
Mediana =
1+2
dato en la posici
on 20 + dato en la posici
on 21
=
= 1, 5.
2
2
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
36
La moda tiene varias desventajas como medida de tendencia central: una de ellas
es que para un cierto conjunto de datos no puede haber moda. Esta situaci
on
surge cuando todos los datos tienen la misma frecuencia. Otra desventaja es que
la moda puede existir pero no ser u
nica.
Ejemplo 1.3.12
Rango medio
Definici
on 1.3.13 El rango medio de un conjunto de datos es el promedio de las
medidas mayor y menor.
Ejemplo 1.3.14 El rango medio del conjunto de datos 32, 38, 45, 44, 27, 36, 40 y 38 esta
dado por
27 + 45
= 36,
Rango medio =
2
ya que 45 y 27 son los datos mayor y menor, respectivamente.
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
37
xf11 xfnn
1/(f1 ++fn )
Ejemplo 1.3.16 El director ejecutivo de una empresa desea determinar la tasa de crecimiento promedio en los ingresos con base en las cifras dadas en la tabla 1.10. Si la tasa de
creciemiento promedio es menor que el promedio industrial del 10%, se asumira una nueva
campa
na publicitaria.
A
no
1.992
1.993
1.994
1.995
1.996
Ingreso (en d
olares)
50.000
55.000
66.000
60.000
78.000
Porcentaje del a
no anterior
55/50 = 1, 10
66/55 = 1, 20
60/66 = 0, 91
78/60 = 1, 30
1, 1 + 1, 2 + 0, 91 + 1, 3
= 1, 1275
4
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
38
63.563 d
olares 1, 1275 =
71.667 dolares 1, 1275 =
56.375 dolares
63.563 dolares
71.667 dolares
80.805 dolares
Ya que 80.805 dolares excede los 78.000 que la empresa en realidad gan
o, el incremento del
12,75% es obviamente muy alto. Si se utiliza la tasa de crecimiento de la media geometrica
del 11,79%, se obtiene
50.000 dolares 1, 1179 =
55.895 dolares
62.485 dolares
69.852 dolares
78.088 78.000 dolares
x =
y la media geometrica,
G =
1
48%
+
2
1
34%
0, 0208 + 0, 0294
= 0, 0251
2
y la media geometrica es
G =
1
1
Debido a que
1
= 0, 02439 6= 0, 0251 = x
x
y, en cambio,
1
1
=
= 0, 0247 = G .
G
40, 4%
1
Debido a que x1 6= x y a que G
= G , podemos afirmar que la media geometrica es mejor
que la media artimetica para promediar porcentajes y proporciones.
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
39
A continuaci
on se presenta un ejemplo que ilustra el calculo de la media geometrica de
un conjunto de datos que aparecen en una tabla frecuencias no agrupadas.
Ejemplo 1.3.18 La media geometrica de la distribucion de frecuencias que aparece en la
tabla
Dato
Frecuencia
1
3
3
2
4
3
6
5
13 32 43 65
1/13
3, 248.
Media arm
onica
nica es el recproco de la media aritmetica de
Definici
on 1.3.19 La media armo
los datos. Es decir, la media arm
onica de los datos x1, x2, . . . , xn est
a dada por
Media arm
onica =
1
x1
1
x2
n
+ +
1
xn
Si estos datos x1, . . . , xn tienen frecuencias (ponderaciones o pesos) f1, . . . , fn, res nica (ponderada) de estos datos viene
pectivamente, entonces, la media armo
dada por
f1 + f2 + + fn
.
Media arm
onica = f
f2
fn
1
x1 + x2 + + xn
Ejemplo 1.3.20 Una ama de casa ha ido comprando durante cuatro a
nos arroz a distintos
precios:
El primer a
no a $ 1.200 el kilogramo.
El segundo a
no a $ 1.400 el kilogramo.
El tercer a
no a $ 1.600 el kilogramo.
El cuarto a
no a $ 1.700 el kilogramo.
Hallar el costo promedio del arroz durante estos cuatro a
nos, suponiendo que:
(a) El n
umero promedio de kilos consumidos al a
no por el ama de casa es constante.
(b) La cantidad de dinero gastado al a
no es constante.
SOLUCION:
Aqu nos piden calcular el cociente
T := Costo promedio =
Costo total
.
Cantidad total comprada
(a) Si K representa al n
umero de kilos consimidos cada a
no, entonces, el costo promedio T
sera
T
=
=
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
40
lo cual no es m
as que la media aritmetica de los precios.
(b) Ahora, sea D la cantidad de dinero gastado por a
no. Entonces, en este caso, el costo
promedio T sera
T
=
=
D
$ 1.200
1
$ 1.200
D
$ 1.400
1
$ 1.400
4D
D
+ $ 1.600
+
4
+
1
$ 1.600
D
$ 1.700
1
$ 1.700
$4
= $ 1.449, 27 por kilogramo,
0, 00276
lo cual no es m
as que la media armonica de los precios.
La media arm
onica tambien es u
til para promediar velocidades desarrolladas en distancias
iguales, como se ilustra en el siguiente
Ejemplo 1.3.21 Una persona viaja en auto de Barranquilla a Cartagena con una velocidad
media de 60 kilometros por hora y regresa (por la misma va) a una velocidad media de 120
kilometros por hora. Hallar su velocidad media en el viaje completo.
SOLUCION:
Sea D la distancia recorrida por el auto de Barranquilla a Cartagena (que es la misma que
recorre el auto de Cartagena a Barranquilla). Entonces,
Tiempo para ir de Barranquilla a Cartagena =
Tiempo para ir de Cartagena a Barranquilla =
D
,
60km/h
D
.
120km/h
Por consiguiente,
Velocidad media del viaje total
=
=
distancia total
=
tiempo total
D
60km/h
D
60km/h
2D
D
+ 120km/h
2D
= 80km/h,
D
+ 120km/h
que corresponde3 a la media armonica de 60 km/h y 120 km/h. Notemos que uno hubiera
estado tentado de calcular la media aritmetica de 60 km/h y 120 km/h obteniendo 45 km/h,
lo cual es incorrecto.
1.3.2
Medidas de colocaci
on o de posici
on relativa
n o de posicio
n relativa para
Definici
on 1.3.22 Una medida de colocacio
una distribuci
on de frecuencias es aquel valor para el cual una porci
on especfica de
la distribuci
on queda en o debajo de el.
La mediana, los percentiles, deciles y cuartiles son ejemplos de medidas de posici
on relativa.
3
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
41
Percentiles
simo (punto) percentil es un valor tal que por lo
Definici
on 1.3.23 El p-e
menos un p% de los datos tienen dicho o menos de ese valor y, al menos, un
(100 p)% de los datos tienen este valor o m
as.
Para calcular el p-esimo (punto) percentil de un conjunto de n datos, es importante tener
en cuenta los siguientes pasos:
Ordenar los datos de manera ascendente.
Ejemplo 1.3.24 Calcule (a) el 85-esimo punto percentil y (b) el 50-esimo punto percentil
de los siguientes datos que representan los salarios (en millones de pesos) de 12 empleados
en una empresa:
2, 350
2, 450
2, 550
2, 380
2, 255
2, 210
2, 390
2, 630
2, 440
2, 825
2, 420
2, 380.
SOLUCION:
Como primer paso fundamental, debemos ordenar los datos de manera ascendente (preferiblemente, con ayuda de un diagrama de tallo y hojas):
2, 210
2, 255
2, 350
2, 380
2, 380
2, 390
2, 420
2, 440
2, 450
2, 550
2, 630
2, 825.
(a) Para determinar el 85-esimo punto percentil, calcular el ndice i = np/100, con p = 85
y n = 12. Reemplazando, obtenemos que i = 10, 2. En este caso, como i = 10, 2 no
es entero, entonces redondeamos a 11. Por lo tanto, el lugar del 85-esimo percentil es
el lugar 11. En nuestros datos ordenados corresponde a 2,630. Esto quiere decir que el
85% de los empleados de la empresa ganan $2.630.000 o menos de este valor y que el
25% de estos empleados ganan $2.630.000 o m
as que este valor.
(b) En este caso, p = 50. Con ello y con n = 12, obtenemos que i = 6 (que es un n
umero
entero). Es decir, el 50% percentil es el promedio de los valores sexto (2,390) y septimo
(2,420), o sea, 2,405. Observemos que este valor coincide con la mediana del conjunto
de datos. En conclusion, podemos decir que el 50% de los empleados tienen un salario
menor o igual (o mayor o igual) que $2.405.000.
Cuartiles
Como veremos en la siguiente definici
on, los cuartiles son casos particulares de los percentiles.
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
42
Definici
on 1.3.25 Los cuartiles son las medidas de posici
on relativa correspondiente a un conjunto ordenado de datos divididos en cuatro partes (iguales) y se
definen como sigue:
Q1 = primer cuartil o 25-esimo percentil.
Q2 = segundo cuartil o 50-esimo percentil o tambien mediana.
Q3 = tercer cuartil o 75-esimo percentil.
Ejemplo 1.3.26 Calcule todos los cuartiles del conjunto de datos del ejemplo 1.3.24.
SOLUCION:
Como Q2 coincide con la mediana, entonces, Q2 = 2, 405. Calculando los percentelis como
en el ejemplo 1.3.24 podemos verificar que
Q1 =
2, 350 + 2, 380
= 2, 365
2
Q3 =
2, 450 + 2, 550
= 2, 500.
2
Estos resultados se interpretan de la siguiente manera: el valor del primer cuartil significa
que el 25% de los empleados gana al menos $2.365.000 o el 75%, gana m
as de este salario y
el valor del tercer cuartil significa que el 75% de los empleados gana al menos $2.500.000 o
el 25%, gana m
as de este salario.
Deciles
Al igual que los cuartiles, los deciles tambien son casos particulares de los percentiles.
Definici
on 1.3.27 Los deciles son las medidas de posici
on relativa correspondiente a un conjunto de datos (ordenado ascendentemente) que est
a dividido en diez
partes, de tal forma que cada parte contiene aproximadamente 10% de las medidas.
Hay nueve deciles, denotados por D1 , D2 , . . . y D9 .
cada punto decil corresponde a un punto percentil. Por ejemplo, D4 es el 40-esimo punto percentil,
D7 es 70-esimo punto percentil, etc.
1.3.3
Medidas de dispersi
on o de variabilidad
Los datos que se presentan en la tabla 1.11 muestran los salarios anuales de siete supervisores de ventas de una empresa y los de siete, de otra empresa. Observemos que
ambos conjuntos de datos tienen la misma media (33.500 d
olares) y la misma mediana
(33.800 d
olares).
Por tanto, si nos limitasemos a fijarnos en las medidas de centralizaci
on, no tendramos
base alguna para distinguir entre la distribuci
on de los salarios en las dos empresas.
Sin embargo, estas dos distribuciones son muy diferentes, como podemos apreciar en
la figura 1.9. Evidentemente que los datos del segundo conjunto estan mucho mas
dispersos que los del primero. Una medida de centralizaci
on, casi nunca es suficiente
por s sola, para analizar adecuadamente las caractersticas de un conjunto de datos. Por
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
Empresa 1:
Empresa 2:
34.500
34.000
30.700
27.500
32.900
31.600
36.000
39.700
34.100
35.300
43
33.800
33.800
32.500
31.700
cantidad de datos que hay en un conjunto (de datos), ignorando as el resto de los datos.
Rango intercuartil
Una medida de dispersi
on que elimina la influencia de los valores extremos de los datos
es el rango intercuartil.
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
44
Definici
on 1.3.30 El rango intercuartil, simbolizado por R.I, es la diferencia
entre el tercer y el primer cuartil. Es decir,
R.I = Q3 Q1.
El rango intercuartil contiene el 50% de los datos, dejando a la izquierda el 25% inferior de los
datos y a la derecha, el 25% superior.
Desviaci
on
n de un dato se define como la diferencia entre el
Definici
on 1.3.32 La desviacio
dato y la media del conjunto de datos de donde proviene dicho dato. Es decir, sean
dados los datos x1, . . . , xn. Entonces, la desviaci
on del dato xi se define como
Desviaci
on del dato xi = xi x.
Una desviaci
on positiva para una medida, indica que la medida est
a por encima de la media, mientras
que una desviaci
on negativa nos se
nala que est
a por debajo de la media. Una desviaci
on 0 para un
dato indica que el dato es igual a la media.
Ejemplo 1.3.33 Calcule la desviacion de los puntaje para los datos siguientes, que representen el n
umero de defectos encontrados por un inspector de automoviles en una lnea de
ensamblaje en los u
ltimos cinco automoviles producidos: 1, 4, 6, 6 y 8.
SOLUCION:
Se puede determinar que la media muestral es x = 5. Las desviaciones de los valores se
presentan en la tabla siguiente:
x
1
4
6
6
8
xx
1-5 = -4
4-5 = -1
6-5 = 1
6-5 = 1
8-5 = 3
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
45
n esta
ndar (o tpica) poblacional de un conjunto de datos, simLa desviacio
bolizada por , se define como la raz cuadrada positiva de la varianza poblacional
de los datos. Es decir,
p
= Varianza poblacional.
Por razones de comodidad en los calculos, para determinar la varianza de la poblaci
on
se usa normalmente la f
ormula que aparece en el siguiente
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
46
Esta f
ormula es equivalente a la que se introdujo en la definici
on 1.3.35 y puede recordarse f
acilmente
mediante la espresi
on: la media de los cuadrados menos el cuadrado de la media.
Ejemplo 1.3.37 Encuentre la varianza y desviacion de los datos 62, 80, 83, 72 y 73 si estos
constituyen una poblacion.
SOLUCION:
La media de estos datos es = 74. Por lo tanto, la varianza poblacional esta dada por
266
(62 74)2 + (80 74)2 + (83 74)2 + (72 74)2 + (73 74)2
=
= 53, 2.
5
5
Definici
on 1.3.38 La varianza de una muestra con valores x1, . . . , xn se denota por s2 y se define por
s2 =
n esta
ndar (o tpica) muestral de un conjunto de datos , denoLa desviacio
tada por s, se define como la raz cuadrada positiva de la varianza muestral de los
datos. Es decir,
s = Varianza muestral.
Al igual que la varianza poblacional, la varianza muestral se puede calcular de otra manera como se ilustra en el siguiente
Teorema 1.3.39 La varianza muestral de un conjunto de datos x1, . . . , xn se puede
calcular por
(x21 + x22 + + x2n) nx2
.
s2 =
n1
Ejemplo 1.3.40 Encuentre la varianza y desviacion estandar de los datos del ejemplo 1.3.37
si estos constituyen una muestra de una poblacion.
SOLUCION:
Nuevamente, x = 74. Por lo tanto, la varianza muestral esta dada por
266
(62 74)2 + (80 74)2 + (83 74)2 + (72 74)2 + (73 74)2
=
= 66, 5
51
4
s2 =
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
47
Desviaci
on media
Otro tipo de medida de dispersi
on es la que se define a continuaci
on.
n media de un conjunto de datos es la media de
Definici
on 1.3.41 La desviacio
las desviaciones de cada dato. Es decir, la desviaci
on media de los datos x1, . . . , xn
se define como
|x1 x| + |x2 x| + + |xn x|
DM =
.
n
La definici
on es an
aloga para datos poblacionales. Observemos que la desviaci
on media est
a medida
en las mismas unidades que la de los datos.
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
48
Varianza y desviaci
on tpica para datos en tablas de frecuencia
A menudo tendremos ocasi
on de encontrar la varianza y la desviaci
on estandar para
datos desplegados en una tabla de frecuencia.
Definici
on 1.3.43 Las varianzas poblacional y muestral (ponderadas) de
un conjunto de datos x1, . . . , xn con frecuencias f1, . . . , fn se calculan mediante las
siguientes f
ormulas:
2 =
f1(x1 )2 + + fn(xn )2
,
f1 + + fn
s2 =
f1(x1 )2 + + fn(xn )2
.
(f1 + + fn) 1
Ejemplo 1.3.44 Dados los siguientes datos de una poblacion, hallar la media, varianza y
desviacion estandar.
Dato
Frecuencia
28
1
31
10
34
14
37
33
40
14
43
7
46
3
SOLUCION:
Primero construimos la tabla 1.12 que nos ayudar
a en los c
alculos.
Dato x
28
31
34
37
40
43
46
Sumas
Frecuencia f
1
10
14
33
14
7
3
82
fx
28
310
476
1.221
560
301
138
3.034
x
-9
-6
-3
0
3
6
9
(x )2
81
36
9
0
9
36
81
f(x )2
81
360
126
0
126
252
243
1.188
y de esta forma =
f(x )2
1.188
P
=
= 14, 4878
f
82
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
49
Aplicaciones de la desviaci
on est
andar poblacional
Hasta ahora, hemos visto que la varianza y la desviaci
on estandar son muy u
tiles para
comparar la dispersi
on de dos poblaciones. Pero tambien podemos interpretar la desviaci
on de una u
nica poblaci
on. Concretamente, puede usarse esta cantidad para estimar
el porcentaje de valores de la poblaci
on que se encontraran a menos de una distancia
especfica de la media. Para construir tales estimaciones, utilizaremos dos reglas: la
regla de Tchebychev (valida para cualquier poblaci
on) y la emprica.
Teorema 1.3.45 (Regla de Tchebychev) Para cualquier poblaci
on con media
2
y desviaci
on est
andar , por lo menos el 100(11/k )% de los valores de la poblaci
on
se encuentran a una distancia de la media menor que k veces la desviaci
on est
andar,
para cualquier n
umero k > 1. En otras palabras, dentro del intervalo que va desde
k hasta + k se encuentra por lo menos el 100(1 1/k2)% de los valores de
la poblaci
on.
Para ver como funciona la regla de Tchebychev en la practica, hemos construido la
siguiente tabla:
k
100(1 1/k2)%
1,5
55,6%
2
75%
2,5
84%
3
88,9%
3,5
91,18%
4
93,7%
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
50
Ejemplo 1.3.46 Consideremos los datos de la empresa 1 de la tabla 1.11(a), que tena una
media de 33.000 dolares y una desviacion estandar de 1.554 dolares. La regla de Tchebychev
nos dice que, para esta poblacion, al menos el 55% de los salarios deben estar a una distancia
de la media menor que (1,5)(1.554)=2.331 dolares. En otras palabras, dentro del intervalo
que va desde 31.169 dolares a 35.831 dolares estan por lo menos el 55,6% de los salarios.
Analogamente, dentro del intervalo que va desde 30.392 a 36.608 dolares se encuentran por
lo menos el 75% de los salarios.
2, 55
2, 50
2, 60
2, 51
2, 52
2, 70
2, 40
2, 36
2, 53
2, 54
2, 52
2, 51
2, 55.
Si el inspector decide excluir los clavos que estan fuera del intervalo x 2s, cual es el
porcentaje de clavos excluidos? Se verifica la regla de Tchebychev?
SOLUCION:
Vemos que x = 2, 52 y s = 0, 07. Como deseamos desechar los clavos que estan fuera
del intervalo x 2s, es decir, [2, 38; 2, 66], observamos que dos clavos no pertenecen a ese
intervalo (los de longitud 2,70 y 2,36) que corresponde al 14, 28% de la muestra. La regla
de Tchebychev afirma que por lo menos el 75% de los clavos deber
an estar en el intervalo
x 2s, es decir, a lo m
as el 25% estar
an fuera de dicho intervalo, lo cual verifica la regla de
Tchebychev.
Ejemplo 1.3.49 Supongamos que tenemos una poblacion de salarios que tienen forma
acampanada con una media de 33.000 dolares y una desviacion estandar de 1.554 dolares.
La regla emprica estimara que aproximadamente el 68% de los salarios estar
an dentro del
intervalo que va desde 31.946 d
olares a 35.054 y que aproximadamente el 95% estar
a dentro
del intervalo que va desde 30.392 a 36.608 dolares.
El coeficiente de variaci
on
Para comparar las dispersiones de dos o mas conjuntos de valores no podemos confrontar
simplemente las varianzas o las desviaciones estandar respectivas, puesto que estos coeficientes de dispersi
on vienen afectados por la escala de medida del respectivo valor. Es
necesario, por tanto, eliminar esa influencia convirtiendo dichos valores en n
umeros sin
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
51
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
52
El coeficiente de variaci
on es muy u
til cuando se comparan dos o mas conjuntos de datos
que se miden con las mismas unidades, pero son tan diferentes que una comparaci
on
directa de las desviaciones estandar respectivas no ayuda mucho. Esto se ilustra en el
siguiente
Ejemplo 1.3.53 Un inversionista potencial piensa adquirir acciones en una de dos compa
nas
A o B, listadas en la Bolsa de Valores de Nueva York. Si ninguna de las compa
nas ofrece
dividendos a sus clientes y ambas tienen igual clasificacion (seg
un varios servicios de inversion) en terminos de crecimiento potencial, el posible inversionista quiz
as considere la
volatilidad (variabilidad) de ambas acciones para ayudar en la decision de inversion. En los
u
ltimos meses, el precio promedio de las acciones en la compa
na A fue de 50 dolares con una
desviacion estandar de 10 dolares. Ademas, durante el mismo periodo, el precio promedio
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
53
1.3.4
Medidas de formas
Sim
etra y asim
etra
Una distribuci
on de frecuencias sera simetrica o asimetrica seg
un lo sea su representaci
on
grafica.
trica
Definici
on 1.3.54 Decimos que una distribuci
on de frecuencias es sime
cuando lo es su representaci
on gr
afica, es decir, los datos equidistantes a una
medida central de la misma tienen frecuencias iguales. Esta medida central coincide
con la mediana y la media.
trica. La
Una distribuci
on de frecuencias que no es simetrica, se denomina asime
asimetra se puede presentar a la derecha ( asimetra positiva) o a la izquierda
( asimetra negativa) si la representaci
on gr
afica est
a m
as estirada hacia la
derecha o hacia la izquierda, respectivamente.
Los conceptos explicados en la defici
on se ilustran en la figura 1.12. Ahora, consideremos
los siguientes comentarios para el caso en que la distribuci
on de frecuencias tiene una
sola moda:
En una distribuci
on simetrica, la media, la media y la moda siempre coinciden
(comparese con la figura 1.13a). Es decir, se cumple la relaci
on
Media = mediana = moda.
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
(a) Distribuci
on simetrica unimodal
(b) Distribuci
on simetrica bimodal
(c) Distribuci
on asimetrica a
la derecha
(d) Distribuci
on asimetrica a
la izquierda
54
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
55
Para distribuciones que tengan mas de una moda, la media es igual a la mediana
si y s
olo si la representaci
on grafica de la distribuci
on es simetrica.
(a) Distribuci
on simetrica
(b) Distribuci
on asimetrica a la derecha
(c) Distribuci
on asimetrica a la izquierda
Medidas de asimetra
Las medidas de asimetra o coeficientes de sesgo tienen como finalidad la
de elaborar un indicador que permita establecer el grado de simetra (o asimetra) que
presenta una distribuci
on, sin necesidad de llevar a cabo su representaci
on grafica. La
medida de asimetra mas utilizada en la practica es el llamado coeficiente de asimetra
de Pearson.
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
56
Definici
on 1.3.55 El coeficiente de asimetra de Pearson, simbolizado por
Ap, se define como la diferencia entre la media aritmetica y la mediana dividida por
la desviaci
on est
andar. Es decir,
Ap =
g1
gs = p
.
6/n
Si g1 = 0 la distribuci
on es simetrica; si g1 > 0, la distribuci
on es sesgada positivamente, y si
g1 > 0, la distribuci
on es sesgada negativamente. Interpretaciones an
alogas se tienen con el valor
de gs .
Relaci
on emprica entre media, mediana y moda
El siguiente terema fue encontrado empricamente por Pearson. All se puede observar
claramente una relaci
on emprica entre la media, la mediana y la moda.4
4
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
57
Ejercicios de la secci
on 1.3
23. Responda las siguientes preguntas. Justifique sus respuestas.
(a) Que escala de medida se requiere para la mediana? Y para la moda?
(b) En que condiciones coinciden la media, la mediana y la moda de una muestra?
(c) En que caso sera demasiado grande la diferencia entre la media y la mediana?
(d) Que efecto tiene el tama
no de la muestra en la desviacion estandar y en la varianza?
24. Supongamos que en un conjunto de 10 observaciones la media es 20 y la mediana es 15.
Si hay en ese conjunto dos seis, y todos los otros valores son diferentes, cual es la moda?
25. Veinti
un personas en un salon de clase tienen altura promedio de 168 centmetros. Si al
salon entra una persona adicional, entonces, cual es la altura que debe tener esta persona
para que la altura promedio se incremente en un centmetro?
26. Una empresa de servicio electrico de una ciudad le realiza la lectura del contador de luz a
un usuario, obteniendo los siguientes datos:
Fecha
Agosto 27
Agosto 30
Septiembre 4
Lectura
00553 Kwh
00571 Kwh
00605 Kwh
El recibo de pago le llego al usuario con lectura de 00638 Kwh, realizada el 9 de septiembre,
pero la empresa no dejo constancia de lectura, hecho que motiv
o el reclamo del usuario
alegando que le estaban cobrando de mas. Tiene la raz
on el usuario? Explique.
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
58
27. Un piloto A de la Formula 1 gano 60 carreras de las 152 en las cuales participo, mientras
que otro piloto B gano 52 carreras de las 115 en las que participo. Cual de los dos es
mejor piloto? Explique su respuesta.
28. Durante cierto da caluroso en Barranquilla, se registro una temperatura de 38 C a las
3:00 p.m. De repente un viento fro se hizo acompa
nado con lluvias que hizo descender
la temperatura a 25 C a las 3:35 p.m. Se puede afirmar que la temperatura promedio de
ese da fue de 31,5 C? Justifique sus respuestas.
29. Seg
un el recibo de energa electrica, los consumos de los u
ltimos cinco meses de un usuario
son: 1, 6, 33, 40 y 51 Kwh, respectivamente. Para el sexto mes, el recibo le llega con
una lectura estimada (no real) de 50 Kwh. Debe el usuario reclamar ante la empresa de
energa electrica? Por que?
30. Una cadena de grandes almacenes tiene diez establecimientos. Se analiza el volumen
de ventas durante el perodo de navidad y se comparan con las obtenidas en el mismo
perodo del a
no anterior. Los porcentajes de incrementos de ventas en dolares de los diez
establecimiento fueron
10,2
3,1
5,9
7,0
3,7
2,9
6,8
7,3
8,2
4,3
36,6
109,9
4,4
33,1
66,7
30,0
81,5
22,2
40,4
16,4
Determine el valor de la media y mediana muestrales. Por que la mediana es tan diferente
de la media?
34. Los valores de presion sangunea se reportan a veces a los 5 mm Hg mas cercanos (100,
105, 110, etc.). Suponga que los valores reales de presion sangunea para nueve individuos
seleccionados al azar son:
130,0
113,7
122,0
108,3
131,5
133,2
118,6
127,4
138,4
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
59
35. La propagaci
on de grietas por fatiga en diversas partes de aeronaves ha sido objeto de
profundo estudio en a
nos recientes. Los datos que aparecen a continuacion constan de
tiempo de propagaci
on (horas de vuelo/104 ) para llegar a un tama
no de grieta dado en
agujeros sujetadores que se usan en aeronaves militares:
0,915
1,132
0,937
1,140
0,983
1,153
1,007
1,253
0,736
1,394
0,863
1,011
0,865
1,064
0,913
1,109
32,2
232
32,5
236
13,8
118
18,3
149
(a) Calcule las desviaciones estandar muestrales de las observaciones de HC y CO. Parece
justificada la creencia general?
(b) Compare los coeficientes de variacion de cada conjunto de datos para determinar
cuales presentan mayor o menor variacion.
37. Los puntajes finales de 20 alumnos en un curso de Estadstica son:
50
54
55
77
61
72
60
76
71
81
73
83
53
87
54
44
67
48
67
67
38. Un taller de mecanica acepta una orden por 10.000 ruedas de 2 pulgadas de diametro.
Las especificaciones de tama
no del producto podran ser mantenidas solo si el diametro
medio es de 2 pulgadas y la desviacion estandar es muy peque
na. En este caso, cual es
el margen de tolerancia permitido para la desviacion estandar?
39. Un procesador de alimentos debe envasar su cafe instantaneo en frascos de 400 gramos
y para ello considera que la operacion de llenado esta funcionando adecuadamente si el
peso medio de cada frasco es de 405 gramos y la desviacion estandar es de 1 gramo.
Aproximadamente, cuantos frascos contienen menos de 400 gramos?
40. Millones de habitantes de un cierto pais se levantan cada ma
nana y trabajan en sus propias
casas. Se sugiere que el uso creciente de computadoras es una de las razones por las que
las personas pueden trabajar en empresas caseras. A continuacion vemos una muestra de
datos sobre las edades de esas personas.
1.3 An
alisis de datos en tablas de frecuencias no agrupadas
57
37
31
32
30
44
41
49
22
29
58
44
24
40
50
46
60
29
29
52
31
14,4
16,0
18,3
18,6
Campo:
13,2
15,3
18,6
18,5
15,3
16,2
19,2
18,7
16,8
16,1
17,4
19,0
16,2
15,3
19,4
21,1
16,7
15,2
20,6
19,4
15,9
17,2
Que la medida de tendencia central le servira mejor para su proposito? Cual es su valor
numerico?
45. La tabla siguiente contiene los salarios (en miles de pesos) de 30 trabajadores.
Salario anual
Frecuencia
550
8
600
6
700
7
800
5
3.000
4
1.4 An
alisis de datos en tablas de frecuencias agrupadas
61
(a) Determine un intervalo que contenga al menos 95% de las medidas de las muestras.
(b) Cual es el mnimo porcentaje de la muestra que esta contenido en el intervalo 18 34?
48. Suponga que una muestra tiene media 542 y desviacion estandar 10,4.
(a) Determine un intervalo que contenga al menos 93% de las medidas de las muestras.
(b) Cual es el mnimo porcentaje de la muestra que esta contenido en el intervalo 523,22
- 567,22?
49. La tabla siguiente da una muestra de los tiempos de recorrido (en minutos) de un camino
de 2,5 millas para el carro de Humberto y el de Greyci.
Humberto
Greyci
0,8
1,1
0,9
0,9
1,0
1,4
0,9
1,3
1,0
1,3
1,0
1,3
0,9
1,0
1,0
0,9
(a) Encuentre el promedio de los tiempos de recorrido para cada uno de los carros.
(b) Calcule la varianza de los tiempos de recorrido para cada uno de los carros, respectivamente.
(c) Que auto tuvo un desempe
no mas consistente, si la consistencia se mide con la
varianza?
(d) Encuentre el coeficiente de variacion para cada carro y comente al respecto.
50. Una gran lechera vigila continuamente el nivel de contenido de grasa en su producto. El
porcentaje de grasa no debe desviarse mucho del 1% de la leche, siendo aceptable una
desviacion estandar del 8%. Se obtuvo una muestra de 20 cartones de leche y se registro
el porcentaje grasa en cada uno. Los resultados se anotan a continuacion:
1,97
2,14
1,80
1,93
2,05
2,08
2,23
2,17
1,65
1,91
1,86
1,93
1,85
2,02
2,25
2,09
2,01
2,04
1,90
2,07
1.4
An
alisis de datos en tablas de frecuencias agrupadas
1.4 An
alisis de datos en tablas de frecuencias agrupadas
62
36
57
61
54
56
59
19
28
35
63
51
38
42
15
21
24
28
35
33
46
67
53
30
Los
datos han sido agrupados en la tabla de frecuencias agrupadas 1.13 usando la formula
umero de clases.
c = n para el n
N
umero de personas
14,5 - 25,5
25,5 - 36,5
36,5 - 47,5
47,5 - 58,5
58,5 - 69,5
N
umero de das
4
7
3
6
5
N
umero de personas
14,5 - 25,5
25,5 - 36,5
36,5 - 47,5
47,5 - 58,5
58,5 - 69,5
Sumas
N
umero de das f
4
7
3
6
5
25
Marca de clase X
20
31
42
53
64
fX
80
217
126
318
320
1.061
1.4 An
alisis de datos en tablas de frecuencias agrupadas
Clase
49,5 - 59,5
59,5 - 69,5
69,5 - 79,5
79,5 - 89,5
89,5 - 99,5
99,5 - 109,5
Frecuencia
3
7
18
12
8
2
63
Frecuencia acumulada
3
10
28
40
48
50
25 10
18
10 = 77, 83.
1.4 An
alisis de datos en tablas de frecuencias agrupadas
64
11
6 + 11
10 = 75, 97.
26, 5 + 47, 5
= 74.
2
Puntos de posici
on para datos de una tabla de frecuencia agrupada
Supongamos que queremos encontrar el sexagesimo punto percentil de los datos que
presentamos en la tabla 1.15. Para ello, primero debemos hallar la clase del sexagesimo
simo
punto percentil de la distribuci
on de frecuencias. En general, la clase del p-e
punto percentil es la mnima clase cuya frecuencia acumulada es mayor o igual a
p%n, siendo n el n
umero total de datos. Como n = 50 y p = 60, entonces, necesitamos
localizar la primera clase que tenga una frecuencia acumulada de (60%)(50)=30 o mas.
En este caso, la cuarta clase es la clase donde se encuentra el sexagesimo punto percentil
de los datos porque tiene una frecuencia acumulada de 40. Entonces, el sexagesimo
punto percentil puede determinarse como
p%n F
p-esimo punto percentil = Lp +
w,
fp
en donde
1.4 An
alisis de datos en tablas de frecuencias agrupadas
65
30 28
12
10 81, 16.
Varianza y desviaci
on tpica
Las marcas de clase se usan tpicamente para representar medidas que caen en las
clases de una tabla de frecuencia agrupada cuando se necesita obtener la varianza o
la desviaci
on estandar aproximadas de los datos. Al hacerse esto, se usan las f
ormulas
analogas para calcular la varianza y la desviaci
on estandar, para el caso de distribuciones
de frecuencias no agrupada.
Ejemplo 1.4.3 Calcular la varianza y desviacion estandar de los datos del ejemplo 1.4.1.
SOLUCION:
Como antes, debemos encontrar las marcas de clase m y con ello construimos la tabla 1.16,
siendo a la media poblacional aproximada de los datos.
Clase
26,5 - 29,5
29,5 - 32,5
32,5 - 35,5
35,5 - 38,5
38,5 - 41,5
41,5 - 44,5
44,5 - 47,5
Sumas
m
28
31
34
37
40
43
46
f
1
10
14
33
14
7
3
82
fm
28
310
476
1.221
560
301
138
3.034
m a
-9
-6
-3
0
3
6
9
(m a)2
81
36
9
0
9
36
81
f(m a)2
81
360
126
0
126
252
243
1.188
1.4 An
alisis de datos en tablas de frecuencias agrupadas
66
Ejercicios de la secci
on 1.4
51. Situemonos en el contexto del ejercicio 17, en el que se recogan los porcentajes de
rentabilidad de las acciones de 25 empresas:
(a) A partir de la agrupacion de datos usada para construir el histograma, estimar la
media, la mediana, la desviacion tpica y el rango intercuartil de los porcentajes de
rentabilidad.
(b) Calcular directamente la media y la desviacion tpica a partir de las 25 observaciones
y compararlas con las obtenidas en el apartado (a).
52. Se toma una muestra de 20 estudiantes. La tabla siguiente muestra la cantidad de tiempo
(en horas) empleado por cada uno de estos estudiantes de dicha muestra en preparar un
examen.
Tiempo de estudio (Horas)
N
umero de estudiantes
0-3
2
3-6
6
6-9
7
9-12
4
12-15
1
0-1
7
1-2
10
2-3
5
3-4
2
1,5-2,0
0,10
2,0-2,5
0,20
2,5-3,0
0,22
3,0-3,5
0,12
3,5-4,0
0,13
4,0-4,5
0,08
4,5-5,0
0,15
0-600
10
600-1.200
15
1.200-1.800
20
1.800-2.400
15
1.5 An
alisis exploratorio de datos
67
(d) Si se aumenta posteriormente las ayudas en once mil euros a cada proyecto, c
omo
afecta a los incisos anteriores?
(e) Si para el a
no siguiente las ayudas aumentan un 5% sobre el valor inicial, manteniendose el criterio del reparto, cual sera ahora la ayuda media? Sigue siendo
representativa?
56. A continuacion se presentan algunas medidas estadsticas (mediana, primer y segundo
cuartiles) y una tabla de frecuencia agrupada, para las edades de un grupo de personas
que hay en una sala de concierto. A partir de estos datos, responder las preguntas que
aparecen abajo. Mediana = 20, primer cuartil = 17,5 y tercer cuartil = 23.
Edades
11,5 - 14,5
14,5 - 17,5
17,5 - 20,5
20,5 - 23,5
23,5 - 26,5
26,5 - 29,5
Frecuencia
2
8
11
10
8
1
Frecuencia
relativa
0,0500
0,2000
0,2750
0,2500
0,2000
0,0250
Frecuencia
acumulada
2
10
21
31
39
40
Frec. acum.
relativa
0,0500
0,2500
0,5250
0,7750
0,9750
1,0000
1.5
An
alisis exploratorio de datos
Una vez que hemos estudiado las cuatro propiedades mas importante de los datos
numericos (tendencia central, posici
on relativa, dispersi
on y forma), es importante identificar y describir las caractersticas principales de los datos en forma resumida. Un enlisis exploratorio de datos5 consiste en desarrollar un resumen
foque a este ana
de cinco n
umeros y construir un diagrama de caja y bigotes.
1.5.1
Resumen de cinco n
umeros
lisis exploratorio de datos consisten en operaciones aritmeEn general, las tecnicas del ana
ticas sencillas y representaciones f
aciles de trazar, que pueden emplearse para resumir con rapidez los
datos. Muchos autores presentan el diagrama de tallo y hoja como tecnica del an
alisis exploratorio
de datos.
1.5 An
alisis exploratorio de datos
68
2, 365
2, 405
2, 500
2, 825.
De las situaciones que se presentaron en los teoremas 1.5.2 y 1.5.3 es claro que los salarios
estan sesgados a la derecha porque la distancia del valor mnimo a Q1 (es decir, 0,155) es
bastante menor que la distancia de Q3 al valor m
aximo (es decir, 0,325).
Ademas, si se compara la mediana (2,405) y el rango medio (2,5175), se observa que el
rango medio se mueve debido al valor extremo 2,825, y es por mucho la m
as grande de estas
medidas de resumen (comp
arese con la figura 1.14).
1.5 An
alisis exploratorio de datos
69
Fig. 1.14: Diagrama de barras para los datos del ejemplo 1.5.4
1.5.2
El diagrama de caja y bigotes, como el que se muestra en la figura 1.15, proporciona una representaci
on grafica de los datos mediante el resumen de cinco n
umeros.
Esta herramienta de analisis exploratorio de datos va a permitir estudiar la simetra de los
datos, detectar los valores atpicos y vislumbrar un ajuste de los datos a una distribuci
on
de frecuencias determinada.
1.5 An
alisis exploratorio de datos
70
la caja no hay asimetra en los datos. Los lados verticales estan situados en los cuartiles
inferior y superior de los datos. Partiendo del centro de cada lado vertical de la caja se
dibujan los dos bigotes, uno hacia la izquierda y el otro hacia la derecha, teniendo en
cuenta lo siguiente:
El bigote de la izquierda tiene un extremo en el primer cuartil Q1 y el otro en el
valor dado por el primer cuartil menos 1,5 veces el rango intercuartil R.I, esto es,
Q1 1, 5R.I.
El bigote de la derecha tiene un extremo en el tercer cuartil Q3 y el otro en el
valor dado por el tercer cuartil mas 1,5 veces el rango intercuartil R.I, esto es,
Q3 + 1, 5R.I.
Si hay datos que se encuentran a la izquierda del bigote izquierdo y a la derecha del
bigote derecho se les denomina valores atpicos.
Definici
on 1.5.5 Todo valor que est
a m
as alejado del 1,5R.I del cuarto m
as
cercano se dice que es atpico. Un valor atpico es extremo si est
a a m
as de
3R.I del cuarto m
as cercano y es moderado en otro caso.
En el diagrama de caja, los valores atpicos moderados se representan mediante un peque
no
cuadrado y los extremos, con un peque
no cuadrado con un signo m
as en su interior.
Un valor atpico puede ser un elemento para el cual se haya anotado su valor en forma
err
onea. Si es as, puede corregirse antes de proseguir con el analisis. Tambien, un valor
atpico puede ser uno que por error se incluy
o en el conjunto de datos y, en estos casos,
debe eliminarse. Por u
ltimo, puede ser tan s
olo un elemento poco com
un que se haya
anotado en forma correcta y que s pertenece al conjunto de datos. En estos casos ese
elemento debe mantenerse.
Ejemplo 1.5.6 Construir un diagrama de caja y bigotes para los datos del ejemplo 1.5.4.
SOLUCION:
Tenemos que el rango intercuartil es R.I = 2, 500 2, 365 = 0, 135, de donde se obtiene que
la longitud de los bigotes es 1, 5R.I = 0, 2025. Ahora
El bigote de la izquierda tiene un extremo en el primer cuartil Q1 = 2, 365 y el otro
en el valor Q1 1, 5R.I = 2, 1625.
El bigote de la derecha tiene un extremo en el tercer cuartil Q3 = 2, 500 y el otro en
el valor Q3 + 1, 5R.I = 2, 7025.
La figura 1.16 es el diagrama de caja y bigotes pedido. En el diagrama podemos observar
que hay un valor atpico (el valor 2,825) porque este se encuentra por fuera de los bigotes.
Debido a que Q3 + 3R.I = 2, 905, este valor atpico es moderado porque esta 2,825 es menor
que 2,905. Ademas, podemos afirmar que la distribucion de frecuencias esta sesgada a la
derecha porque el area del rectangulo a la izquierda de la mediana es menor que el del
rectangulo a la derecha de la mediana. Esto tambien se puede concluir al tener en cuenta
que media es mayor que la mediana.
1.5 An
alisis exploratorio de datos
71
Fig. 1.16: Diagrama de caja y bigotes para los datos del ejemplo 1.5.4
Diagramas de cajas m
ultiples (o comparativos)
Un diagrama de caja m
ultiple (o comparativo) es una forma muy eficaz de mostrar
semejanzas y diferencias entre dos o mas conjuntos de datos.
Ejemplo 1.5.7 La figura 1.17 contiene los diagramas de caja de las calificaciones en un
examen de matematicas para quince estudiantes de primer curso de primaria, quince de
segundo y quince de tercero.
1.5 An
alisis exploratorio de datos
72
Ejercicios de la secci
on 1.5
57. Un fabricante de bateras para linternas tom
o una muestra de 13 bateras de un da de
produccion y las us
o hasta que se agotaron. Las horas que funcionaron hasta fallar son:
166
342
426
492
562
298
264
631
451
1.049
317
545
512
1.023
820
852
511
809
907
596
1.251
744
941
652
975
576
400
1.112
711
971
1.174
Rendimiento
3,10
2,63
2,79
3,25
1,90
2,79
2,90
2,73
Rendimiento
2,28
3,01
2,53
2,00
3,05
2,02
3,05
15,8
17,3
5,0
52,7
31,1
30,3
17,3
6,2
12,8
12,3
19,2
12,2
9,0
14,7
14,5
19,6
9,6
9,2
22,9
8,6
41,6
11,2
Fabricante
PCG
Monch
RMA
Cuark
Magnifon
Sodium
Calificacion
73
89
79
75
80
86
Fabricante
Rernat
Kuril
Tosh
Pate
Wand
73
Calificacion
72
77
79
78
78
Fabricante
Katze
Sheck
Fish
Karl
Wind
Calificacion
81
76
77
79
90
25
30
29
31
32
32
41
35
34
33
28
29
29
31
32
33
37
32
33
34
(a) Calcule la media y la desviacion estandar de la muestra del tiempo que se lleva en
cada modo de transporte.
(b) Con base en los resultados del inciso (a), que modo de transporte debe preferirse?
Explique sus razones.
(c) Trace un diagrama de caja para cada modo. Al comparar los diagramas de caja, se
respalda la conclusion del inciso (b)?
1.6
A continuaci
on presentaremos una breve descripci
on de la forma c
omo se utiliza Statgraphics en el analisis descriptivo de uno o mas conjuntos de datos.
1.6.1
An
alisis de un solo conjunto de datos
En esta secci
on, trabajaremos con los datos que aparecen en el archivo calles.sf3. Este
contiene las variables longitud, anchura y nombre, que son la longitud, anchura y el
nombre de 112 calles del antiguo casco de Madrid (Espa
na). Utilizando este archivo y
con ayuda de Statgraphics realizaremos un analisis de la variable longitud. Al abrir el
archivo calles.sf3 sale la ventana de hojas de calculos que se muestra en la figura 1.18.
El acceso a todas las opciones analticas y graficas que se necesitan en cualquier practica
se realiza de la misma manera:
Se selecciona Describe . . . Numeric Data . . . One-Variable Analysis y aparecen
todas las variables que contiene el archivo.
Con el rat
on se elige la variable deseada (que en nuestro caso sera la variable longitud), aparecera resaltada, y a continuaci
on se pulsa el bot
on Data, apareciendo
el nombre de dicha variable como variable activa. Dicha ventana tiene la opci
on
74
75
de variables dentro del archivo y analisis seleccionado. Por ejemplo, dentro del
archivo calles.sf3 se puede cambiar la variable longitud por la varible anchura
utilizando este cono.
El segundo cono (Tabular options, cono de opciones tabulares) permite seleccionar opciones analticas.
El tercer cono (Graphical options, cono de opciones graficas) permite seleccionar
diferentes opciones de graficos.
El cuarto cono (Save results, cono de salvar resultados) permite salvar los resultados del analisis para tratarlos posteriormente o para imprimirlos.
Opciones num
ericas
Al marcar el segundo cono (Tabular options) de la barra de herramientas de la ventana
del analisis podemos seleccionar las siguientes opciones:
Analysis Summary (Resumen de procedimiento).
Nos presenta una informaci
on muy general del analisis (nombre de la variable,
n
umero de datos que ella tiene, datos mayor y menor, etc.).
Summary Statistics (Resumen estadstico).
Esta opci
on permite obtener algunas medidas estadsticas. Por defecto, ofrece el
numero de datos, la media, varianza, desviaci
on tpica, valores maximo y mnimo,
los coeficientes de asimetra y apuntamiento estandarizados y la suma de los valores
de las observaciones. Para obtener un n
umero mayor o menor de medidas es
suficiente con pulsar el bot
on derecho del rat
on y seleccionar Pane options, con lo
que aparece una ventana con un amplio conjunto de medidas.
Percentiles.
Permite el calculo simultaneo de hasta 10 percentiles a voluntad del usuario. Si,
estando situado sobre esta salida, pulsamos el bot
on derecho del rat
on y elegimos
Pane options, se introducen los percentiles que se deseen calcular.
Frequency Tabulation (Tabla de frecuancia).
Nos permite resumir la distribuci
on de los datos en una tabla de frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas. Si, estando situados
sobre esta salida, pulsamos el bot
on derecho del rat
on y elegimos Pane options,
obtenemos la ventana de dialogo Frequency Tabulation Options, en donde tenemos
los siguientes campos:
Number of Classes (N
umero de clases).
Aqu, se introduce el n
umero de intervalos de clase para agrupar los datos
de la distribuci
on.
Lower Limit (Lmite inferior ).
Se introduce el lmite inferior para la primera clase.
Upper Limit (Lmite superior ).
Se introduce el lmite superior para la u
ltima clase.
76
Hold (Mantener ).
Se se
nala cuando se quiere mantener la definici
on actual de clase para la
siguiente tabla de frecuencias que se realice.
Stem-and-Leaf Display (Diagrama de Tallo y Hojas).
Esta opci
on permite mostrar el diagrama de tallo y hojas. En este caso, el diagrama de tallo y hojas para la variable longitud esta formado por cuatro tallos.
Los valores que estan a la izquierda de cada tallo son la frecuencia absoluta acumulada de los tallos, donde dicha frecuencia se comienza a contar tanto por arriba
como por abajo, a excepci
on de valor que aparece entre parentesis que corresponde al tallo donde se encuentra la mediana. Si, estando situados sobre esta
opci
on, pulsamos el bot
on derecho del rat
on y elegimos Pane options, obtenemos
la ventana de dialogo Stem-and-Leaf Display Options, cuyo campo Flag Outliers
(Valores An
omalos) permite marcar valores atpicos en el diagrama. Como puede
observarse, el diagrama de tallo y hojas de la variable longitud presenta cuatro
valores atpicos.
Las otras dos opciones Confidence Intervals (Intervalos de confianza) y Hypothesis
Tests (Pruebas de hip
otesis) corresponden a conceptos de la estadstica inferencial.
Opciones gr
aficas
Al marcar el tercer cono (Graphical options) de la barra de herramientas de la ventana
del analisis podemos seleccionar las siguientes opciones:
Scatterplot (Grafico de dispersi
on).
Nos presenta un diagrama de dispersi
on para la variable en el que se presentan sus
valores mediante puntos no conectados a lo largo de un eje horizontal agrupados
por intervalos.
Box-and-Whisker Plot (Grafico de Cajas y Bigotes).
Nos permite realizar diagramas de cajas y bigotes. Si, estando situados sobre esta
salida, pulsamos el bot
on derecho del rat
on y elegimos Pane options, obtenemos la
ventana de dialogo Frequency Tabulation Options, en donde tenemos los siguientes
campos:
Direction (Direcci
on).
Se puede elegir Vertical u Horizontal para orientar el diagrama en el sentido
que uno lo desee.
Features (Aspectos).
Esta opci
on nos permite se
nalar o no en el grafico la media (Mean Marker ),
los valores atpicos (Outlier Symbols) y muescas sobre la mediana (Median
Nocht).
Frequency Histogram (Histograma de Frecuencia).
Esta opci
on nos permite realizar histogramas y polgonos de frecuencias absolutas
y relativas, que tambien pueden ser acumulados.6 Si, estando situados sobre el
6
Recordemos que los polgonos acumulados o acumulados relativos son las llamadas ojivas.
77
78
Transformaci
on de la variable longitud
Las cuatro transformaciones mas habituales para resolver este tipo de problemas son:
logaritmo, raz cuadrada, inversa y cuadrado.
Los comandos que representan estas tres transformaciones son:
LOG(nombre variable) para el logaritmo neperiano,
SQRT(nombre variable) para la raz cuadrada
y 1/(nombre variable) para la inversa.
Para trabajar con la variable transformada es suficiente con escribir en lugar del nombre
de la variable la transformaci
on adecuada. Por ejemplo, si quisieramos trabajar con el
logaritmo de la variable escribimos LOG(longitud) en vez de longitud. Otro metodo para
escribir la transformaci
on adecuada es desde la opci
on de One Variable Analysis; en la
parte inferior de la ventana activar el bot
on Transform, lo que nos permite acceder a los
diferentes operadores (Operators) entre los que se encuentran las transformaciones antes
mencionadas. De las estas transformaciones, la que ofrece una distribuci
on mas simetrica
es el logaritmo. A continuaci
on presentamos las conclusiones obtenidas del estudio
descriptivo (medidas caractersticas, diagrama de tallo y hojas, caja e histograma) de la
variable LOG(longitud).
1.6.2
79
An
alisis simult
aneo de dos o m
as conjuntos de datos
Mediante la opci
on Compare . . . Two Samples . . . Two Sample Comparison . . . podemos analizar dos conjuntos de datos simultaneamente (vease el ejercicio 68).
Para obtener diagramas de cajas m
ultiples para dos o mas conjuntos de datos, una
alternativa es mediante las opciones Compare . . . Multiple Samples . . . Multiple-Sample
Comparison . . . Multiple Data Columns . . . Ok . . . Samples= (en esta u
ltima opci
on
mencionar los datos que se quieren comparar).
Statgrpahics tambien habilita la subopci
on Plot . . . Exploratory Plots . . . Multiple Boxand-Whishker Plot . . . Data=distancia . . . Level codes=year . . . para obtener diagramas
de cajas m
ultiples de varios conjuntos de datos con respecto diferentes grupos en que
se puede dividir los conjuntos de datos (vease el ejercicio 64c).
Ejercicios de la secci
on 1.6
s 63. Considere la variable anchura que contiene el conjunto de datos que se encuentra en el
archivo calles.sf3 y que corresponde al ancho de 112 calles de Madrid (Espa
na).
(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo y
octavo deciles, los percentiles 35, 66, 81 y 93, el sesgo y el coeficiente de variaci
on.
Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera
frontera inferior sea 0 y la u
ltima frontera superior sea 40. A partir de ella, responda
las siguientes preguntas:
i.
ii.
iii.
iv.
v.
vi.
80
s 64. En el archivo de datos autos.sf3 se muestran las distancias recorridas (dadas en millas
por galon) de 154 modelos de autom
oviles sacados al mercado entre los a
nos 1978 y
1982 por diferentes fabricantes: americanos (origen=1), europeos (origen=2) y japoneses
(origen=3). Tambien aparecen los respectivos cilindrajes de los autos, las potencias, etc.
(a) Construya un diagrama de caja y bigotes para los datos de la distancia recorrida y a
partir de el, responda las siguientes preguntas: Entre cuales valores vara la distancia
recorrida? Cuanto recorre el 50% central de los autos? Hay valores atpicos? Es
simetrica o asimetrica la distribuci
on de los datos? En caso de ser asimetrica, es
asimetrica a la izquierda o a la derecha? Cuales son los valores de la media y de la
mediana?
(b) Estudie el grado de simetra de los datos de la distancia recorrida de cuatro maneras
diferentes (compare sus respuestas):
i. Utilizando las medidas estadsticas (media, mediana, moda, sesgo, etc. )
ii. Construyendo un histograma de frecuencias con 5 clases.
iii. Construyendo un un histograma con 13 clases. Porque este histograma resulta
mas adecuado que el que construy
o con 5 clases?
iv. Construyendo un grafico de simetra con la opci
on graphical options . . . symmetry
plot de Statgraphics.
(c) Considere ahora por separado los conjuntos de distancias recorridas de los modelos
de cada uno de los cinco a
nos.
i. Analice grafica y numericamente cada uno de estos conjuntos.
ii. Utilizando la opci
on Plot . . . Exploratory Plots . . . Multiple Box-and-Whishker
Plot . . . Data=distancia . . . Level codes=year . . . obtenga los diagramas de cajas
(m
ultiples) de los cinco conjuntos de distancias recorridas con respecto a cada
uno de los a
nos. Que se observa? Conoce alguna raz
on que pueda explicar
lo que resulta de los analisis numericos y de la observaci
on de los diagramas de
cajas?
(d) Ahora, construya el diagrama de caja m
ultiple de la distancia recorrida de los autom
oviles seg
un su cilindrada.
i. Teniendo en cuenta cada uno de los diagramas, responda las preguntas formuladas en la parte (a).
ii. Compare entre s los distintos diagramas y responda las siguientes preguntas:
D
onde es mas fuerte la asimetra? D
onde es menor? D
onde no existe? Vara
bastante los valores de la media y de la mediana para los diferentes grupos?
(e) Construya el diagrama de caja m
ultiple de la potencia de los autom
oviles seg
un su
origen y responda las preguntas formuladas en el inciso anterior.
s 65. Se han medido los diametros (en milmetros) de 50 tornillos y se han obtenido los resultados
que se encuentran en el archivo tornillos.sf3.
(a) Obtenga la mediana, la moda, el primer y tercer cuartiles, el sexto y septimo deciles
y los percentiles 54, 47, 82. Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 6 clases para los datos y, a partir de ella, responda
las siguientes preguntas:
i.
ii.
iii.
iv.
81
s 66. Los datos del archivo fotocopia.sf3 muestran el gasto en fotocopias (en miles de pesos)
de 70 estudiantes universitarios durante un determinado a
no.
(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo y
octavo deciles, los percentiles 33, 67, 84 y 93, el sesgo y el coeficiente de variaci
on.
Interprete cada uno de sus resultados.
(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera frontera
inferior sea 0 y la u
ltima frontera superior sea $ 1.400.000. A partir de ella, responda
las siguientes preguntas:
i. Cuantos estudiantes han gastando entre $ 175.000 y $ 525.00 en el a
no?
ii. Que porcentaje de estudiantes han gastando entre $ 700.000 y $ 1.225.000 en
el a
no?
iii. Cuantos estudiantes han gastando mas de $ 1.050.000 en el a
no?
iv. Que porcentaje de estudiantes han gastando mas de $ 350.000 en el a
no?
v. Cuantos estudiantes han gastando menos de $ 875.000 en el a
no?
vi. Que porcentaje de estudiantes han gastando menos de $ 525.000 en el a
no?
(c) Con 8 clases (en donde la primera frontera inferior sea 0 y la u
ltima frontera superior
sea $ 1.400.000), construir los histogramas de frecuencias absolutas y de frecuencias
absolutas acumuladas, los polgonos de frecuencia y de frecuencias relativas y las
ojivas de frecuencias acumuladas y de frecuencias relativas acumulada. A partir de
estos graficos, responda las siguientes preguntas:
i. Aproximadamente cuantos estudiantes han gastando mas de $ 767.810 en el
a
no?
ii. Aproximadamente cuantos estudiantes han gastando menos de $ 391.821 en el
a
no?
iii. Que porcentaje aproximado de estudiantes han gastando mas de $ 601.583 en
el a
no?
iv. Cuantos estudiantes han gastando menos de $ 1.104.220 en el a
no?
(d) Estudie la simetra de la distribuci
on de los datos.
(e) Existen valores atpicos? Cuantos? Cuales?
(f) Realice una transformacion logartmica de los datos e interprete los resultados. Comente las diferencias con los datos sin transformar.
s 67. En el archivo de datos doscientos.sf3 se proporcionan las sesenta y nueve mejores marcas
de todos los tiempos en la prueba de 200 metros lisos masculinos (las marcas se dan en
segundos), as como el nombre del atleta y la fecha en que se consiguio la marca.
82
(c) Con 8 clases (en donde la primera frontera inferior sea 19,2 segundos y la u
ltima frontera superior sea 20,2 segundos.), construir los histogramas de frecuencias absolutas
y de frecuencias absolutas acumuladas, los polgonos de frecuencia y de frecuencias
relativas y las ojivas de frecuencias acumuladas y de frecuencias relativas acumulada.
A partir de estos graficos, responda las siguientes preguntas:
i.
ii.
iii.
iv.
s 70. En 1893 Lord Rayleigh investigo la densidad del nitrogeno empleando en su obtencion
distintas fuentes. Previamente haba comprobado la gran discrepancia existente entre la
densidad del nitrogeno producido tras la eliminacion del oxgeno del aire y el nitrogeno
83
s 71. Una de las medidas de seguridad de los reactores nucleares frente a desajustes en el proceso
de generacion de energa o de extraccion de esta es el disparo del reactor. Esta medida
consiste en la detencion del proceso de fusion mediante la inserci
on en el n
ucleo del reactor
de venenos neutronicos. El n
umero de disparos no previstos de un reactor en un periodo es
un indicador de problemas de comportamiento y de fiabilidad en la planta. En el archivo
de datos disparos.sf3 se proporciona, para dos a
nos diferentes (1984 y 1993), el n
umero
de disparos no previstos en sesenta y seis reactores nucleares de los Estados Unidos de
Norteamerica.
(a) Analice numerica y graficamente, por separado, el n
umero de disparos de reactor en
cada uno de los dos a
nos considerados.
(b) Compare graficamente las distribuciones de ambas variables Se aprecian diferencias
importantes entre ellas? Que conclusiones le merece esta comparaci
on?
1.7
C
alculos estadsticos
Para realizar calculos estadsticos en la calculadora, tenga en cuenta los siguientes comentarios:
Utilice las teclas mode 2 para ingresar el modo SD cuando desea realizar calculos
estadsticos con ayuda de las funciones estadsticas que hay incorporadas en la
calculadora.
El ingreso de datos comienza siempre con shift
memoria de estadsticas.
clr
para borrar la
x,
84
s-sum
shift
s-sum
shift
s-sum
shift
s-var
shift
s-var
shift
s-var
2.
clr
=.
shift
shift
shift
shift
shift
shift
s-sum
s-sum
s-sum
s-var
s-var
s-var
1
2
3
1
2
3
=
=
=
=
=
=
85
Ejercicios de la secci
on 1.7
72. Una determinada persona es propietario de 12 terrenos cuyos tama
nos (en kilometros
cuadrados) son:
21
22
27
36
22
29
22
23
22
28
36
33
26,6
15,6
12,4
22,9
25,0
22,4
18,5
27,9
11,6
5,0
8
2,5
2
3,2
6
2,0
3
Ejercicios complementarios
76. Diga si la afirmacion dada es verdadera o falsa. Justifique siempre su respuesta. En caso
que sea falso, de un contraejemplo.
(a) La suma de las desviaciones de los valores respecto a la media para cualquier conjunto
de datos es uno.
(b) Si la desviacion estandar de un conjunto de datos es 0, entonces, los datos son iguales.
(c) El valor de la desviacion estandar es menor que el de la varianza.
(d) No existen datos de tal forma que sean iguales el rango y la desviacion estandar.
(e) No existen datos de tal forma que sean iguales el rango y la varianza.
(f) Si el ingreso medio de 25 trabajadores es de $ 2.500.000, entonces, el ingreso total es
de $ 10.000.000.
(g) Si 10 calificaciones tienen una media de 2,0 y 27 calificaciones una media de 3,0,
entonces, la media del grupo total de 37 calificaciones es 2,5.
(h) Existen datos con desviacion estandar negativa.
(i) En una distribuci
on simetrica, la media, la mediana y la moda son iguales.
(j) En una distribuci
on positivamente sesgada, la mediana es mayor que la media.
(k) La desviacion estandar esta dada por las mismas unidades que la media.
86
7,0
7,0
7,6
6,3
6,8
7,9
5,9
8,2
7,2
8,7
7,3
7,8
6,3
9,7
8,1
7,7
11,6
9,7
9,0
7,8
11,8
7,7
10,7
7,4
11,3
(a) Construya un diagrama comparativo de tallo y hojas de los datos. Cual parece
ser un valor representativo de la resistencia? Parecen estar las observaciones muy
concentradas cerca del valor representativo, o solo estan dispersas?
(b) Parece ser razonablemente simetrico el diagrama respecto a un valor representativo,
o describira su forma de otra manera?
(c) Parece haber alg
un valor extra
no o atpico?
(d) Que proporcion de observaciones de resistencia fueron mayores que 10 megapascales?
78. El reporte del ejercicio 77 tambien presenta las siguientes observaciones de resistencia de
cilindros:
9,2
9,8
6,6
9,7
8,3
14,1
7,0
12,6
8,3
11,2
6,1
7,8
5,8
8,1
7,8
7,4
7,1
8,5
7,2
8,9
(a) Construya un diagrama comparativo de tallo y hojas de los datos para vigas y para
cilindros y a continuacion conteste las preguntas de la parte (b) a (d) de aquel ejercicio,
sobre las observaciones con cilindros.
(b) En que aspectos se parecen los dos lados del diagrama? Hay diferencias obvias
entre las observaciones para vigas y para cilindros?
79. Seg
un un diario, en Colombia la donacion y disponibilidad de sangre es muy baja, tomando
en cuenta que la captacion anual es tan solo de 485 mil unidades, lo que equivale al 1 por
ciento de la poblacion. Cual es el promedio de unidades de sangre para 1.000 personas?
80. Un multicentro ha vendido el 70 por ciento de sus metros cuadrados por un valor de 399
millones de dolares. Si el multicentro tiene 190 mil metros cuadrados, cual es el precio
promedio por metro cuadrado? Cuanto recibira aproximadamente la cadena por la venta
de todos los locales del multicentro?
81. Si cada colombiano consume cien botellas de 8 onzas de una marca de gaseosa al a
no,
cuanto consume de dicha gaseosa diariamente en botellas y en onzas?
82. Una revista efectu
o una encuesta para estudiar sus suscriptores en ciertos pases. Una de
las preguntas peda el valor del portafolio del suscriptor (acciones, bonos, fondos hipotecarios y certificados de dep
ositos). La siguiente distribuci
on de frecuencias porcentuales
fue preparada con las respuestas.
87
Inversi
on (dolar)
Menos de 15.000
15.000 - 40.000
40.000 - 90.000
90.000 - 240.000
240.000 - 490.000
490.000 - 990.000
990.000 y mas
Frecuencia porcentual
27
7
10
18
5
13
20
3,02
6,10
3,54
6,19
3,20
3,79
5,13
5,12
4,21
6,46
5,55
0,38
4,77
(a) Calcule la media, la mediana, la moda, el rango medio, los tres cuartiles, el rango, el
rango intercuartil, la varianza, la desviacion estandar y el coeficiente de variaci
on.
(b) Estan los datos sesgados? Si es as, como?
(c) Un cliente entra en la sucursal a la hora del almuerzo y pregunta cuanto tiempo tendra
1,04
4,60
0,90
4,70
0,99
4,50
0,92
4,52
0,98
4,35
Despues de ver esta muestra de tiempos, uno de los entrenadores comento que los corredores de cuarto de milla corran con mas consistencia. Emplee la desviacion estandar y
el coeficiente de variacion para resumir la variabilidad de los datos. El coeficiente de
variacion indica que es cierta la afirmacion del entrenador?
88
87. La maxima temperatura registrada durante el verano en una ciudad europea durante los
u
ltimos 8 a
nos son: 25; 24; 23,2; 25,5; 24,8; 23,6; 26 y 35 C. Se puede considerar la
u
ltima temperatura como fuera de lo normal? Justifique.
88. Dos poblaciones constan de n datos cada una. La media de estas dos poblaciones es
la misma, y tambien lo son sus desviaciones tpicas. Si (a) n = 2, (b) n = 3, son
necesariamente iguales los valores numericos de los datos de las dos poblaciones?
Pn
i=1 (xi
c)2 es minimizada?
(b) P
Mediante el resultado del inciso (a), cual de las dos cantidades
n
2
a menor que la otra (suponiendo que x 6= )?
i=1 (xi ) ser
Pn
i=1 (xi
x)2 y
90. Supongamos que a cada dato de un conjunto de datos se le suma una constante c, es
decir, supongamos que se agrega una constante c a cada xi en una muestra, obteniendo
yi = xi + c.
(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datos
originales mas la constante. Es decir, y = x + c.
(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de los
datos originales mas la constante. Es decir,
(Mediana de los yi ) = (Mediana de los xi ) + c.
(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de los
datos originales. Es decir,
(Varianza de los yi ) = (Varianza de los xi ).
(d) Demuestre que la desviacion estandar del nuevo conjunto de datos es igual a la
desviacion estandar de los datos originales. Es decir,
(Desviaci
on estandar de los yi ) = (Desviaci
on estandar de los xi ).
91. Supongamos que a cada dato de un conjunto de datos se le multiplica una constante, es
decir, supongamos que se multiplica una constante k a cada xi en una muestra, obteniendo
yi = kxi .
(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datos
originales multiplicada por la constante. Es decir, y = kx.
(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de los
datos originales multiplicada por la constante. Es decir,
(Mediana de los yi ) = k (Mediana de los xi ).
(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de los
datos originales por la constante al cuadrado. Es decir,
(Varianza de los yi ) = k2 (Varianza de los xi ).
(d) Demuestre que la desviacion estandar del nuevo conjunto de datos es igual a la
desviacion estandar de los datos originales multiplicada por el valor absoluto de la
constante . Es decir,
(Desviaci
on estandar de los yi ) = |k| (Desviaci
on estandarde los xi ).
89
Aplique los resultados de los ejercicios 90 y 91 para resolver los problemas 92 y 93.
92. (a) Una muestra de temperatura para iniciar cierta reaccion qumica dio una media muestral de 87, 3 C y una desviac
on estandar muestral de 1, 04 C. Cual son la media y
desviacion estandar muestrales medidas en F? (Sugerencia: F = 95 C + 32.)
(b) Si se suma 5 a cada dato en un conjunto de diez que tiene una desviacion estandar
de 7, cual es la desviacion estandar del nuevo conjunto de datos?
(c) Suponga que 3,0 es la media de una muestra de cuatro calificaciones.
i. Si se suma 5 decimas a cada calificacion, cual es la media del nuevo conjunto?
ii. Si cada calificacion se multiplica por 1,5 puntos, cual sera la media?
93. El propietario de una peque
na empresa tiene asignado un sueldo de 3.910 euros mensuales.
Los salarios de los empleados aparecen a continuacion:
480
1.172
510
853
739
487
883
553
859
944
499
920
505
1.713
1.106
1.893
980
595
(a) Cual es el salario medio de todos los que trabajan en la empresa incluyendo al
propietario? Cual es la desviacion estandar?
(b) Si se decide aumentar el salario a cada uno en 20 euros, como vara la media? Y
la desviacion estandar?
(c) Si se aumenta solo el sueldo del due
no en 600 euros, que ocurre con la media?
(d) Hallar la mediana. Como vara la mediana si se aumentan todos los sueldos en 300
euros? Y si solo se aumenta el salario del director en 1.200 euros?
2
5
4
4
4
5
5
2
4
4
4
3
4
4
5
3
4
4
3
4
5
4
5
5
4
5
3
5
4
4
1
4
5
5
4
5
4
5
2
3
1
4
5
5
5
4
3
3
5
3
4
4
4
4
3
3
3
90
s 96. Una de las principales atracciones tursticas del Parque Nacional de Yellowstone (Estado de
Wyoming, Estados Unidos de Norteamerica) es el geiser Old Faithful, cuyo nombre procede
del hecho de que sus erupciones siguen una pauta bastante estable a lo largo del tiempo.
En el archivo de datos parque.sf3 se proporcionan los lapsos de tiempo transcurridos
entre sucesivas erupciones (variable Lapso) y las duraciones de esas erupciones (variable
Duracion). Ambas variables se dan en minutos. Estudie numerica y graficamentre ambas
variables. Se observa alguna peculiaridad en ellas?
s 97. En el archivo de datos pi.sf3 se proporcionan los 200 primeros dgitos del numero .
Analice numerica y graficamente este conjunto de datos.
s 98. En el archivo de datos sismo.sf3 se muestran el tiempo transcurrido (dado en das) entre
sismos sucesivos acaecidos en el mundo. Todos los sismos considerados o tuvieron una
intensidad de al menos 7,5 en la escala de Richter o produjeron mas de 1000 vctimas
mortales. Los sismos registrados ocurrieron entre el 16 de diciembre de 1902 y el 4 de
marzo de 1977. Estudie numerica y graficamente estos datos.
Captulo 1
5. (b) Se ha cometido un error.
7. (a) de barras, circular (b) histograma,
ojiva (c) de barras
9. (a) Ordinal
43. 2,9
45. (a) 963,33; 550; 700; 1.775; 413,3 (b)
Mediana (c) 550; 800; 700 (d) 2.450;
803,52; 250
92
Indice
Amplitud de clase, 15
Analisis exploratorio de datos, 67
Censo, 9
Clase, 14
del p-esimo punto percentil, 64
mediana, 63
modal, 63
Coeficiente
de sesgo, 55
de asimetra
de Fisher, 56
de Fisher estandarizado, 56
de Pearson, 56
de variacion de Pearson, 51
Cuartil, 42, 64
Dato, 8
categorico o cualitativo, 11
numerico o cuantitativo, 11
continuo, 12
discreto, 12
Datos
agrupados, 14
de nivel
de intervalo, 13
de raz
on, 13
nominal, 12
ordinal, 12
no agrupados, 14
Decil, 42
Desviaci
on, 44
estandar
muestral, 46
poblacional, 45
media, 47
INDICE
de clase, 15
inferior de clase, 15
superior de clase, 15
Histograma, 24
suavizado, 32
Individuo de una poblacion, 8
Intervalos de clase, ver clase
Lmite
de clase, 15
inferior de clase, 15
real
inferior de clase, ver Frontera inferior
de clase
superior de clase, ver Frontera superior de clase
real de clase, ver frontera de clase
superior de clase, 15
Marca de clase, 15
Media
aritmetica ponderada, 33
aritmetica, 33, 61
arm
onica, 39
arm
onica ponderada, 39
geometrica, 37
geometrica ponderada, 37
Mediana, 34, 63
Medidas
de asimetra, 55
de colocacion o de posici
on relativa, 40
de curtosis o apuntamiento, 57
de forma, 53
de tendencia central, 33
Moda, 35, 63
cruda, 63
Muestra, 8
Observacion, 8
Ojiva, 26
Parametro, 8
Percentil, 41, 64
Pictografos, ver pictograma
Pictograma, 23
Poblacion, 8
Polgono, 25
Rango, 16, 43
intercuartil, 44
medio, 36, 64
Recorrido, ver Rango
94
Regla
de Sturges, 16
de Tchevichev, 49
emprica, 50
Resumen de cinco n
umeros, 67
Tabla de frecuencias, 14
acumuladas, 21
agrupadas, 14
bivariadas, 21
no agrupadas, 14
relativas, 21
relativas acumuladas, 21
Valor atpico, 70
extremo, 70
moderado, 70
Varianza
muestral, 46
muestral ponderada, 48
poblacional, 45
poblacional ponderada, 48