You are on page 1of 23

UNEFA-Anzotegui

Trmino III-2006
Gua Terica # 04 de Probabilidades y Estadstica
Unidad IV. INTRODUCCIN A LA ESTADSTICA.
Objetivo 4
Aplicar los parmetros
estadsticos
Definicin de Estadstica. Poblacin y Muestra. Distribucin de
frecuencias. Construccin de una distribucin de frecuencias.
Estadstica y Parmetros. Estadsticos muy Importantes (media,
varianza, desviacin tpica). Clculo de media, Varianza y desviacin
tpica para datos agrupados y no agrupados.

Esta gua contiene informaciones diversas, provenientes del Libro Walpole Meyers, La pgina
webs de algunos profesores de otras universidades, wikipedia.org, enciclopedias electrnicas
como Encarta , el libro de Mendenhall y El libro de Murray R. Spiegel, conjugadas de manera
que ofrezca la informacin de la manera ms fresca, concisa e interesante.
DEFINICIN DE LA ESTADSTICA.
La Estadstica se ocupa de los mtodos y procedimientos para recoger, clasificar, resumir,
hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea
una causa intrnseca de los mismos; as como de realizar inferencias a partir de ellos, con la
finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. La Estadstica
descriptiva, que se dedica a los mtodos de recoleccin, descripcin, visualizacin y resumen
de datos originados a partir de los fenmenos en estudio.
La Estadstica inferencial, que se dedica a la generacin de los modelos, inferencias y
predicciones asociadas a los fenmenos en cuestin.
En esta gua nos dedicaremos especficamente a la rama de la Estadstica Descriptiva.
La estadstica descriptiva analiza, estudia y describe a la totalidad de individuos de una
poblacin. Su finalidad es obtener informacin, analizarla, elaborarla y simplificarla lo
necesario para que pueda ser interpretada cmoda y rpidamente y, por tanto, pueda
utilizarse eficazmente para el fin que se desee. El proceso que sigue la estadstica descriptiva
para el estudio de una cierta poblacin consta de los siguientes pasos:
Seleccin de caracteres dignos de ser estudiados.
Mediante encuesta o medicin, obtencin del valor de cada individuo en los caracteres
seleccionados.
Elaboracin de tablas de frecuencias, mediante la adecuada clasificacin de los
individuos dentro de cada carcter.
Representacin grfica de los resultados (elaboracin de grficas estadsticas).
Obtencin de parmetros estadsticos, nmeros que sintetizan los aspectos ms
relevantes de una distribucin estadstica.
1/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
Otras Definiciones
Parmetro: funcin definida sobre los valores numricos de caractersticas medibles de una
poblacin.
Estadstico: funcin definida sobre los valores numricos de una muestra.
POBLACIN, ELEMENTOS Y CARACTERES.
Es obvio que todo estudio estadstico ha de estar referido a un conjunto o coleccin de
personas o cosas. Este conjunto de personas o cosas es lo que denominaremos poblacin.
Las personas o cosas que forman parte de la poblacin se denominan elementos. En
sentido estadstico un elemento puede ser algo con existencia real, como un automvil o una
casa, o algo ms abstracto como la temperatura, un voto, o un intervalo de tiempo.
A su vez, cada elemento de la poblacin tiene una serie de caractersticas que pueden ser
objeto del estudio estadstico. As por ejemplo si consideramos como elemento a una persona,
podemos distinguir en ella los siguientes caracteres:
Sexo, Edad, Nivel de estudios, Profesin, Peso, Altura, Color de cabello, Etc.
Luego por tanto de cada elemento de la poblacin podremos estudiar uno o ms aspectos
cualidades o caracteres.
La poblacin puede ser segn su tamao de dos tipos:
Poblacin finita: cuando el nmero de elementos que la forman es finito, por ejemplo el
nmero de estudiantes de una universidad, o grupo de clase.
Poblacin infinita: cuando el nmero de elementos que la forman es infinito, o tan grande
que pudiesen considerarse infinitos. Como por ejemplo si se realizase un estudio sobre los
productos que hay en el mercado. Hay tantos y de tantas calidades que esta poblacin podra
considerarse infinita.
Ahora bien, normalmente en un estudio estadstico, no se puede trabajar con todos los
elementos de la poblacin sino que se realiza sobre un subconjunto de la misma. Este
subconjunto puede ser una muestra, cuando se toman un determinado nmero de elementos
de la poblacin, sin que en principio tengan nada en comn; o una subpoblacin, que es el
subconjunto de la poblacin formado por los elementos de la poblacin que comparten una
determinada caracterstica, por ejemplo de los alumnos de la universidad la subpoblacin
formada por los estudiantes del 3er Trmino, o la subpoblacin de los varones.
MUESTRA
Muestra es un subconjunto de la poblacin al que tenemos acceso y sobre el que
realmente hacemos las observaciones (mediciones)
2/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
o Debera ser representativo
o Esta formado por elementos seleccionados de la poblacin (individuos,
unidades experimentales).
Ejemplo.
La poblacin de un pueblo ubicado en el sur del Estado Amazonas es de 2500 habitantes. Una
muestra de esta poblacin seran, por ejemplo, 750 personas a ser analizadas segn un
estudio estadstico deseado. Es importante destacar que es ms sencillo tratar la muestra que
la poblacin completa.
Otras definiciones relacionadas:
Caracteres: propiedades, rasgos o cualidades de los elementos de la poblacin. Estos
caracteres pueden dividirse en cualitativos y cuantitativos.
Modalidades: diferentes situaciones posibles de un carcter. Las modalidades deben ser a la
vez exhaustivas y mutuamente excluyentes; cada elemento posee una y slo una de las
modalidades posibles.
Exhaustivo: No podemos olvidar ningn posible valor de la variable
Excluyente: Nadie puede presentar dos valores simultneos de la variable
Clases: conjunto de una o ms modalidades en el que se verifica que cada modalidad
pertenece a una y slo una de las clases.
VARIABLES ESTADSTICAS
Como hemos venido haciendo, al hablar de variable nos referimos a un smbolo (X, Y, A,. . .)
que puede tomar cualquier modalidad (valor) de un conjunto determinado, que llamaremos
dominio de la variable o rango. En funcin del tipo de dominio, las variables las clasificamos
del siguiente modo:
Variables cualitativas, cuando las modalidades posibles son de tipo nominal.
Por ejemplo, el grupo sanguneo tiene por modalidades:
Grupos Sanguneos posibles: A, B, AB, O.
Variables cuasicuantitativas u ordinales son las que, aunque sus modalidades son de
tipo nominal, es posible establecer un orden entre ellas. Por ejemplo, si estudiamos el grado
de recuperacin de un paciente al aplicarle un tratamiento, podemos tener como modalidades:
Grado de recuperacin: Nada, Poco, Moderado, Bueno, Muy Bueno.
3/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
A veces se representan este tipo de variables en escalas numricas, por ejemplo, puntuar el
dolor en una escala de 1 a 5. Debemos evitar sin embargo realizar operaciones algebraicas
con estas cantidades.
Variables cuantitativas o numricas son las que tienen por modalidades cantidades
numricas con las que podemos hacer operaciones aritmticas. Dentro de este tipo de
variables podemos distinguir dos grupos:
Discretas, cuando no admiten siempre una modalidad intermedia entre dos cualesquiera de
sus modalidades. Un ejemplo es el nmero de hijos en una poblacin de familias:
Nmero de hijos posibles: 0, 1, 2, 3, 4, 5, . . .
Continuas, cuando admiten una modalidad intermedia entre dos cualesquiera de sus
modalidades, por ejemplo el peso X de un nio al nacer.
Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como discreta.
Este es el caso en que hay limitaciones en lo que concierne a la precisin del aparato de
medida de esa variable, por ejemplo, si medimos la altura en metros, de personas con una
regla que ofrece dos decimales de precisin, podemos obtener
Alturas medidas en cm: 1.50, 1.51, 1.52, 1.53,. . .
En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el
verdadero valor de la misma se encuentra en un intervalo de radio 0,005. Por tanto cada una
de las observaciones de X representa ms bien un intervalo que un valor concreto.
Tal como hemos citado anteriormente, las modalidades son las diferentes situaciones posibles
que puede presentar la variable. A veces stas son muy numerosas (por ejemplo cuando una
variable es continua) y conviene reducir su nmero, agrupndolas en una cantidad inferior de
clases. Estas clases deben ser construidas, tal como hemos citado anteriormente, de modo
que sean exhaustivas y excluyentes, es decir, cada modalidad debe pertenecer a una y slo
una de las clases.
Variable cualitativa: Aquella cuyas modalidades son de tipo nominal (nombres o
denominaciones)
Variable cuasicuantitativa: Modalidades de tipo nominal, en las que existe un orden.
Variable cuantitativa discreta: Sus modalidades son valores enteros.
Variable cuantitativa continua: Sus modalidades son valores reales.

4/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
TABULACIN DE DATOS Y DISTRIBUCINDE FRECUENCIAS
En este tema introductoria sobre estadstica, nos remitiremos solamente a estadsticas de una
sola variable o "Estadsticas Unidimensionales".
Para esto, se muestran a continuacin tres formas de organizar los datos, en funcin de la
cantidad de observaciones.
Tablas Tipo I:
Estas se emplean cuando el tamao de la muestra y el recorrido de la variable son pequeos,
por ejemplo si tenemos una muestra de las edades de 5 personas, por lo que no hay que
hacer nada especial simplemente anotarlas de manera ordenada en filas o columnas.
Edad de los 5 miembros de una familia:
5, 8, 16, 38, 45.

Tablas tipo II:
Cuando el tamao de la muestra es grande y el recorrido de la variable es pequeo, por lo
que hay valores de la variable que se repiten. Por ejemplo, si preguntamos el nmero de
personas activas que hay en 50 familias obtenemos la siguiente tabla:
Personas Activas en 50 familias
2 1 2 2 1 2 4 2 1 1
2 3 2 1 1 1 3 4 2 2
2 2 1 2 1 1 1 3 2 2
3 2 3 1 2 4 2 1 4 1
1 3 4 3 2 2 2 1 3 3

5/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
Podemos observar que la variable toma valores comprendidos entre 1 y 4, por lo que
precisaremos una tabla en la que resumamos estos datos quedando de la siguiente forma:
Personas Activas Nmero de Familias
1 16
2 20
3 9
4 5
Total 50

Tablas tipo III:
Cuando el tamao de la muestra y el recorrido de la variable son grandes, por lo que ser
necesario agrupar en intervalos los valores de la variable. Por ejemplo si a un grupo de 30
estudiantes de una universidad espaola les preguntamos el dinero que en ese momento
llevan encima, nos encontramos con los siguientes datos:

450 1152 250 300 175 80 25 2680 605 785 1595 2300 5000 1200 100
5 180 200 675 500 375 1500 205 985 185 125 315 425 560 1100

Evidentemente, la variable estadstica tiene un rango muy grande, 4995 pesetas, por lo que
si queremos hacer una tabla con estos datos tendremos que tomar intervalos. Para decidir la
amplitud de los intervalos, necesitaremos decidir cuntos intervalos queremos?
Normalmente se suele trabajar con no ms de 10 o 12 intervalos, sin embargo la cantidad de
clases no de be ser menor de 5 ni mayor a 15.
Rango = Dato Mayor Dato Menor.
Rango = 5000 - 5 = 4995 pesetas.
Amplitud = Rango / 10 = 4995/10 = 499,5 pesetas.
Por lo que tomaremos intervalos de amplitud de 500 pesetas.
6/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
Debemos tener en cuenta las siguientes consideraciones:

Tomar pocos intervalos implica que la "prdida de informacin" sea mayor.
Los intervalos sern siempre Cerrados por la izquierda y Abiertos por la Derecha [ L
i-1
, L
i
),
donde L
i-1
y

L
i
representan el lmite inferior y el lmite superior del intervalo,
respectivamente.
Procuraremos que en la decisin de intervalos los valores observados no coincidan con los
valores de los extremos del intervalo y si esto ocurre que no sea en ms de un 5% del total de
observaciones.
Con estas recomendaciones tendremos la siguiente tabla:
[ L
i-1
, L
i
) Frecuencia
[ 0,500) 16
[ 500, 1000) 6
[ 1000,1500) 3
[ 1500, 2000) 2
[ 2000, 2500) 1
[ 2500, 3000) 1
[ 3000, 3500) 0
[ 3500, 4000) 0
[ 4000, 4500) 0
[ 4500, 5000) 0
[ 5000,5500) 1

FRECUENCIA DE LAS OBSERVACIONES
Una de los primeros pasos que se realizan en cualquier estudio estadstico es la tabulacin de
resultados, es decir, recoger la informacin de la muestra resumida en una tabla en la que a
cada valor de la variable se le asocian determinados nmeros que representan el nmero de
veces que ha aparecido, su proporcin con respecto a otros valores de la variable, etc. Estos
nmeros se denominan frecuencias: As tenemos los siguientes tipos de frecuencia:
1. Frecuencia absoluta
2. Frecuencia relativa
7/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
3. Porcentaje
4. Frecuencia absoluta acumulada
5. Frecuencia relativa acumulada
6. Porcentaje acumulado

Frecuencia absoluta:
La frecuencia absoluta de una variable estadstica es el nmero de veces que aparece en la
muestra dicho valor de la variable, la representaremos por n
i

Frecuencia relativa:
La frecuencia absoluta, es una medida que est influida por el tamao de la muestra, al
aumentar el tamao de la muestra aumentar tambin el tamao de la frecuencia absoluta.
Esto hace que no sea una medida til para poder comparar. Para esto es necesario introducir
el concepto de frecuencia relativa, que es el cociente entre la frecuencia absoluta y el tamao
de la muestra. La denotaremos por f
i
i
i
n
f
N
=

Donde N = Tamao de la muestra
Porcentaje:
La frecuencia relativa es un tanto por uno, sin embargo, hoy da es bastante frecuente hablar
siempre en trminos de tantos por ciento o porcentajes, por lo que esta medida resulta de
multiplicar la frecuencia relativa por 100. La denotaremos por p
i
.
100%
i i
p f =


Frecuencia Absoluta Acumulada:
Para poder calcular este tipo de frecuencias hay que tener en cuenta que la variable
estadstica ha de ser cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido
el clculo de esta frecuencia. La frecuencia absoluta acumulada de un valor de la variable, es
8/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
el nmero de veces que ha aparecido en la muestra un valor menor o igual que el de la
variable y lo representaremos por N
i
.

Frecuencia Relativa Acumulada:
Al igual que en el caso anterior la frecuencia relativa acumulada es la frecuencia absoluta
acumulada dividido por el tamao de la muestra, y la denotaremos por F
i
i
i
N
F
N
=

Porcentaje Acumulado:
Anlogamente se define el Porcentaje Acumulado y lo vamos a denotar por P
i
como la
frecuencia relativa acumulada por 100.
100%
i i
P F =

Veamos todo esto con un ejemplo: Tomamos para ello los datos relativos al ejemplo de las
personas activas.

Personas
Activas
Nmero
Familias
Frecuencia
relativa
%
Frecuencia
Absoluta
Acumulada
Frecuencia
relativa
acumulada
Porcentaje
Acumulado
X
i
n
i
f
i
p
i
N
i
F
i
P
i
1 16 16/50 32% 16 16/50 32%
2 20 20/50 40% 36 36/50 72%
3 9 9/50 18% 45 45/50 90%
4 5 5/50 10% 50 50/50 100%
Total 50
En este ejemplo se puede observar fcilmente como se calculan estas frecuencias.

I
9/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
CONSTRUCCIN DE UNA DISTRIBUCIN DE FRECUENCIAS
(IC: Intervalo de Clase, LI: Lmite inferior del Intervalo de Clase, LS: Lmite Superior del
Intervalo de Clase, A: Amplitud, R: Rango)
Regla de Sturgess
La regla de Sturgess no es sino una recomendacin acerca del nmero de clases que deben
considerarse a la hora de elaborar un histograma. ste viene dado por la siguiente expresin:
Nmero de clases = 1 + 3.3 * Log10 (tamao de la muestra)

Pasos para elaborar una Distribucin de Frecuencias:
1. Determina el Rango de la serie (R). Esto lo logras restando el valor mnimo al mximo.
2. Fija el nmero mnimo de intervalos de clase deseado. Esta decisin va por el
observador, lo determinar en dependencia de sus necesidades. El nmero de clases
depende del nmero de puntos de dato y del alcance de los datos recolectados.
Cuantos ms puntos de dato se tengan o cuanto ms grande sea el alcance, ms clases
se necesitarn para dividir los datos. Recuerde que los estadsticos rara vez utilizan
menos de 5 y ms de 15 clases. No siempre este es el nmero definitivo de ICs,
ocasionalmente requerirs un IC adicional. Otra opcin es emplear la regla de Sturgess.
3. Calcula la amplitud (A) de los intervalos. Para ello, divide el rango que obtuviste en el
paso 1 por el nmero de clases que fijaste en el paso anterior.
4. Delimita los lmites inferiores (LI) de los intervalos. Partiendo del valor mnimo de la
serie, luego adele la amplitud y tendrs el LI del intervalo siguiente, a este le sumas
la amplitud y tendrs el subsiguiente, y as hasta llegar al ltimo LI de la escala.
5. Delimita los lmites superiores (LS). Lo hars sustrayendo una unidad al LI siguiente. En
el caso del LS del ltimo intervalo, lo obtendrs sumndole la amplitud al ltimo LI, y
luego restando al resultado una unidad.
6. Elabora la tabla de distribucin con estos valores, vaciando los datos de las
observaciones.
Se sugiere redondear en el paso 3 para convertir la amplitud en un nmero redondo, lo que te
facilitar la construccin de la escala.
10/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
Nota: Los puntos medios de los intervalos se denominan marcas de clase, MC, (valor
que nos representa la informacin que contiene un intervalo). Y se calculan de la siguiente
manera
(LS del intervalo de clase + LI del intervalo de clase) / 2, es decir
( )
2
LS LI
MC
+
=

A este procedimiento tambin se le explica como la semisuma de los lmites inferior y
superior de un intervalo.


Veamos un ejemplo. Se tiene una lista con los pesos (en libras) de 20 adolescentes, y deseas
agruparlos en una escala cuantitativa con intervalos de igual amplitud.
Peso Peso Peso Peso
1. 160,00 6. 170,54 11. 166,00 16. 150,00
2. 160,36 7. 160,20 12. 156,70 17. 151,78
3. 158,20 8. 163,20 13. 154,50 18. 152,00
4. 174,00 9. 165,80 14. 155,00 19. 154,80
5. 170,00 10. 165,90 15. 155,90 20. 156,70
Para visualizar mejor el recorrido, comencemos por ordenar los pesos:
Peso Peso Peso Peso
1. 150,00 6. 155,00 11. 160,00 16. 165,90
2. 151,78 7. 155,90 12. 160,20 17. 166,00
3. 152,00 8. 156,70 13. 160,36 18. 170,00
4. 154,50 9. 156,70 14. 163,20 19. 170,54
5. 154,80 10. 158,20 15. 165,80 20. 174,00
El valor mnimo es 150.00, y el mximo es 174.00, de tal suerte que la escala se construira
de la siguiente manera:
1. El recorrido de la serie es R = 174.00 150.00 = 24.
2. Supongamos que deseas como mnimo 4 intervalos de clase.
3. La amplitud que tendrn los intervalos es A = 24 / 4 = 6.
11/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
4. Lmites inferiores: 5. Lmites superiores:
IC
LIs

1.
150

2.
150 + 6 = 156

3. 156 + 6 = 162
4. 162 + 6 = 168
IC LS
1. 156 - 1 = 155
2. 162 - 1 = 161
3. 168 - 1 = 167
4. 174 - 1 = 173

Con lo que hemos hecho hasta ahora, la escala ser 150-155, 156-161, 162-167, 168-173,
completando as los cuatro intervalos deseados. Mas, como puedes comprobar, en los datos
existe un valor que supera 173, de ah que sea necesario aadir un intervalo de clase al
nmero predicho con el objetivo de lograr la exhaustividad de la escala:
Lmite inferior del quinto IC: 168 + 6 = 174
Lmite superior del ltimo intervalo: 174 + 6 - 1 = 179
Finalmente, la escala que necesitabas construir es la siguiente:

150
155
156
161
162
167
168
173
174
179





Determine usted, las marcas de clase, para cada clase obtenida. (deben ser valores
intermedios para cada clase, aplicando la semisuma de los lmites superior e inferior
correspondientes)

12/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
REPRESENTACIN GRFICA DE LAS DISTRIBUCIONES DE FRECUENCIAS
Las grficas dan los datos en un diagrama de dos dimensiones. Sobre el eje horizontal
podemos mostrar los valores de la variable (la caracterstica que estamos midiendo). Sobre el
eje vertical sealamos las frecuencias de las clases mostradas en el eje horizontal.
Las grficas de distribuciones de frecuencias simples y de distribuciones de frecuencias
relativas son de utilidad debido a que resaltan y aclaran los patrones que no se pueden
distinguir fcilmente en las tablas. Atraen la atencin del que las observa hacia los patrones
existentes en los datos. Las grficas pueden tambin ayudarnos a resolver problemas
concernientes a las distribuciones de frecuencias. Nos permitirn estimar algunos valores con
slo una mirada y nos proporcionarn una verificacin visual sobre la precisin de nuestras
soluciones.
Histogramas.

Un histograma consiste en una serie de rectngulos, cuyo ancho es proporcional al alcance de
los datos que se encuentran dentro de una clase, y cuya altura es proporcional al nmero de
elementos que caen dentro de cada clase. Si las clases que utilizamos en la distribucin de
frecuencias son del mismo ancho, entonces las barras verticales del histograma tambin
tienen el mismo ancho. La altura de la barra correspondiente a cada clase representa el
nmero de observaciones de la clase. Como consecuencia, el rea contenida en cada
rectngulo (ancho por altura) ocupa un porcentaje del rea total de todos los rectngulos
igual al porcentaje de la frecuencia de la clase correspondiente con respecto a todas las
observaciones hechas.
13/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
Un histograma que utiliza las frecuencias relativas de los puntos de dato de cada una de las
clases, en lugar de usar el nmero real de puntos, se conoce como histograma de frecuencias
relativas. Este tipo de histograma tiene la misma forma que un histograma de frecuencias
absolutas construido a partir del mismo conjunto de datos. Esto es as debido a que en
ambos, el tamao relativo de cada rectngulo es la frecuencia de esa clase comparada con el
nmero total de observaciones.
Recomendaciones:
Cuando se trabaja con muestras, recopilar el mayor nmero de datos posible.
Usar 5 clases como mnimo y 15 como mximo para agrupar los datos, en funcin del
nmero de datos disponibles.
Trabajar con intervalos de clase de igual longitud.
Tener cuidado con la clasificacin automtica que hacen los paquetes estadsticos.
Al calcular frecuencias relativas como proporcin trabajar con cuatro dgitos
despus de la coma, para evitar errores de redondeo en la suma.
Al dibujar un grfico, no exagerar la escala vertical u horizontal. Un grfico
desproporcionado complica su interpretacin y puede resultar engaoso a simple vista.

MEDIDAS ESTADSTICAS PARA LAS DISTRIBUCIONES DE FRECUENCIA.
Las medidas estadsticas pretenden "resumir" la informacin de la muestra para poder tener
as un mejor conocimiento de la poblacin. Se clasifican en:
Tipos de medida:
1. Medidas de Centralizacin:
o Que sirven para determinar los valores centrales o medios de la distribucin
2. Medidas de Dispersin:
o Nos van a dar una idea sobre la representatividad de las medidas centrales, a
mayor dispersin menor representatividad.
3. Medidas de Localizacin:
o tiles para encontrar determinados valores importantes, para una "clasificacin"
de los elementos de la muestra o poblacin.
4. Medidas de la Simetra:
o Sirven para ver si la distribucin tiene el mismo comportamiento por encima y
por debajo de los valores centrales.
(Los puntos 3 y 4, sern tratados en un tema posterior)
Consideraciones:
El Estadstico Yule ha definido algunas propiedades deseables para una medida estadstica:
14/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
1. Debe definirse de manera objetiva: dos observadores distintos deben llegar al mismo
resultado numrico.
2. Usar todas las observaciones y no algunas de ellas solamente, de manera que si varia
alguna observacin la medida considerada debe reflejar esta variacin.
3. Tener un significado concreto: la interpretacin debe ser inmediata y sencilla.
4. Ser sencilla de calcular.
5. Prestarse fcilmente al clculo algebraico: Lo que permitir demostraciones ms
elegantes.
6. Ser poco sensible a las fluctuaciones muestrales. Esta condicin es imprescindible en la
Estadstica Matemtica y en la Teora de Sondeos.
Nota: Estas medidas se aplican tanto para datos agrupados como para datos no
agrupados, pero, para cada caso se aplica un tratamiento especfico.
Datos no agrupados: son aquellos que se expresan u ordenan sin una clasificacin
determinada, simplemente se colocan en un listado de datos.
Ejemplo: 1, 4, 6, 45, 34, 1, 4.
Datos agrupados: son aquellos que se ordenan y clasifican, para facilitar su anlisis. Cuando
se elabora una tabla de distribucin de frecuencias con intervalos de clase, se est hablando
de datos agrupados. (Podr observarse la presencia de intervalos de clase, LS, LI, etc.)
En el texto, UD podr darse cuenta de cul ecuacin le corresponde a cada caso, observando
las caractersticas de los datos presentados.
MEDIDAS DE CENTRALIZACIN
Media ( x ).
En el anlisis de las distribuciones e pueden utilizar tres tipos de medias, la aritmtica, la
geomtrica y armnica. Sin embargo, para los efectos de este curso de Probabilidades y
estadstica, solo emplearemos la media aritmtica.
Media aritmtica:
La media aritmtica de una variable se define como la suma ponderada de los valores de la
variable por sus frecuencias relativas y lo denotaremos por x y se calcula mediante la
expresin:
1
i
n
i
i i
i
x n
x x f
N
=

= =


15/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
x
i
representa el valor de la variable o en su caso la marca de clase.
Si multiplicamos o dividimos todas las observaciones por un mismo nmero, la media queda
multiplicada o dividida por dicho numero.

Mediana (Me):
La mediana es el valor central de la variable, es decir, supuesta la muestra ordenada en
orden creciente o decreciente, el valor que divide en dos partes la muestra.
Para calcular la mediana debemos tener en cuenta si la variable es discreta o continua.

Clculo de la mediana en el caso discreto:
Tendremos en cuenta el tamao de la muestra.
Si N es Impar, hay un trmino central, el trmino
1
2
N
X
+
, que ser el valor de la mediana.
Si N es Par, hay dos trminos centrales,
1
2 2
,
N N
X X
+
, la mediana ser la media de esos dos
valores.
Veamos un ejemplo.
N par N Impar
1, 4, 6, 7, 8, 9, 12, 16, 20, 24, 25, 27 N=12 1, 4, 6, 7, 8, 9, 12, 16, 20, 24, 25, 27, 30 N=13
Trminos Centrales el 6 y 7: 9 y 12 Trmino Central el 7: 12
9 12
10,5
2
Me
+
= =
12 Me =

Clculo de la mediana en el caso continuo:
Si la variable es continua, la tabla vendr en intervalos, por lo que se calcula de la siguiente
forma:
16/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
Nos vamos a apoyar en un grfico de un histograma de frecuencias acumuladas.

De donde la mediana vale:
1
1
1
2
i
i
i i
N
N
i
Me L a
N N

= +

donde a
i
es la amplitud del intervalo.
Vemoslo por medio de un ejemplo.
Supongamos los pesos de un grupo de 50 personas se distribuyen de la siguiente forma:
L
i-1
L
i
n
i
N
i
45 55 6 6
55 65 10 16
65 75 19 35
75 85 11 46
85 95 4 50
Como el tamao de la muestra es N=50, buscamos el intervalo en
el que la Frecuencia acumulada es mayor que 50/2=25, que en este
caso es el 3 y aplicamos la frmula anterior. Luego la Mediana ser
50
16
2
65 10 69.74
35 16
Me

= + =



Moda (Mo):
La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que ms se repite,
es la nica medida de centralizacin que tiene sentido estudiar en una variable cualitativa,
pues no precisa la realizacin de ningn clculo.
17/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
Por su propia definicin, la moda no es nica, pues puede haber dos o ms valores de la
variable que tengan la misma frecuencia siendo esta mxima. En cuyo caso tendremos una
distribucin bimodal o polimodal segn el caso.

Por lo tanto el clculo de la moda en distribuciones discretas o cualitativas no precisa de una
explicacin mayor; sin embargo, debemos detenernos un poco en el clculo de la moda para
distribuciones cuantitativas continuas.

Apoyndonos en el grfico podemos llegar a la determinacin de la expresin para la Moda
que es:
( ) ( )
1
1
1 1
i i
i i
i i i i
n n
Mo L a
n n n n
+

= +
+

donde a
i
es la amplitud del intervalo.
Otros autores dan una expresin aproximada para la moda que viene dada por la siguiente
expresin:
1
1
1 1
i
i i
i i
n
Mo L a
n n
+
+
+
= +
+


18/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
Veamos su clculo mediante un ejemplo, para ello usaremos los datos del apartado anterior
L
i-1
L
i
n
i
N
i
45 55 6 6
55 65 10 16
65 75 19 35
75 85 11 46
85 95 4 50
( ) ( )
19 10
65 10 70,29
19 10 19 11
Mo

= + =
+

Utilizando la frmula aproximada
11
65 10 70,24
10 11
Mo = + =
+


MEDIDAS DE DISPERSIN:
Hasta el momento hemos estudiado los valores centrales de la distribucin, pero tambin es
importante conocer si los valores en general estn cerca o alejados de estos valores centrales,
es por lo que surge la necesidad de estudiar medidas de dispersin.
Rango:
Es la primera medida que vamos a sealar, como ya vimos, se define como la diferencia
existente entre el valor mayor y el menor de la distribucin, denotado como R. Realmente no
es una medida muy significativa en la mayora de los casos, pero indudablemente es muy fcil
de calcular.
Hemos estudiado varias medidas de centralizacin, por lo que podemos hablar de desviacin
con respecto a cualquiera de ellas, sin embargo, la mas utilizada es con respecto a la media.
Desviacin: Es la diferencia que se observa entre el valor de la variable y la media
aritmtica. La denotaremos por d
i
.
No es una medida, sino muchas medidas, pues cada valor de la variable lleva asociada su
correspondiente desviacin, por lo que precisaremos una medida que resuma dicha
informacin.
La primera solucin puede ser calcular la media de todas las desviaciones, es decir, si
consideramos como muestra la de todas las desviaciones y calculamos su media. Pero esta
solucin es mala pues como veremos siempre va a ser 0.
Luego por lo tanto esta primera idea no es valida, pues las desviaciones positivas se
contrarrestan con las negativas.
19/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
Para resolver este problema, tenemos dos caminos:
Tomar el valor absoluto de las desviaciones. Desviacin media
Elevar al cuadrado las desviaciones. Varianza.
Desviacin media:
Es la media de los valores absolutos de las desviaciones, y la denotaremos por d
m
.
1 1
n n
i
i i
i i
x x n
d n
dm
N N
= =

= =


Varianza:
Es la media de los cuadrados de las desviaciones, y la denotaremos por
2
X
.
( )
2
2
2
1 1
n n
i
i i
X
i i
x x n
d n
N N

= =

= =


Este estadstico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado
de la unidad de la variable, por ejemplo, si la variable viene dada en cm, la varianza vendr en
cm
2
.
Desviacin tpica:
Es la raz cuadrada de la varianza, se denota por
X

.
2
1
n
i i
X
i
d n
N

=


Este estadstico se mide en la misma unidad que la variable por lo que se puede interpretar
mejor.
Otros dos estadsticos importantes son la cuasivarianza y la cuasidesviacin tpica, que como
veremos cuando estudiemos el tema de estimacin estadstica, son los estimadores de la
varianza y desviacin tpica poblacionales respectivamente (los cuales se emplearn en temas
posteriores).
20/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
Con un ejemplo se ilustra el clculo de la media, la varianza y la desviacin estndar.
Ejemplo.
Calcular la varianza y desviacin tpica de las siguientes cantidades medidas en metros:
3, 3, 4, 4, 5

Solucin: Para calcular dichas medidas de dispersin es necesario calcular previamente el
valor con respecto al cual vamos a medir las diferencias. ste es la media:
(3 3 4 4 5)
3,8_
5
x metros
+ + + +
= =
Luego elaboramos una tabla resumen de los siguientes clculos:
3,8_
5_
x metros
N elementos
=
=


x
i
d
i
d
i
2
n
i
d
i
2
.n
i
3 -0,8 0,64 2 1,28
4 0,2 0,04 2 0,08
5 1,2 1,44 1 1,44
Total 5 2,80


La varianza es:

( )
2
2
2 2
1 1
2,80
0,56_
5
n n
i
i i
X
i i
x x n
d n
metros
N N

= =

= = = =

siendo la desviacin tpica su raz cuadrada:
2
1
0,56 0,748_
n
i i
X
i
d n
metros
N

= = =


21/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
Cuasivarianza:
Es una medida de dispersin, cuya nica diferencia con la varianza es que dividimos por N-1,
la representaremos por , y la calcularemos de la siguiente forma:
2
1 N


( )
2
2
2
1
1 1
1 1
n n
i
i i
N
i i
x x n
d n
N N


= =

= =




Cuasidesviacin tpica:
La raz cuadrada de la cuasivarianza y la denotaremos por
1 N


.
Se calcula de la siguiente manera:
2
1
1
1
n
i i
N
i
d n
N


o tambin
1
1
N X
N
N


Ejercite la aplicacin de estos dos ltimos trminos, continuando el ejemplo anterior.
Todas estas medidas de dispersin vienen influidas por la unidad en la que se mide la
variable, esto implica que si cambiamos de unidad de medida, los valores de estos estadsticos
se vean a su vez modificados. Adems, no permite comparar por ejemplo, en un grupo de
estudiantes si los pesos o las alturas presentan ms dispersin. Pues no es posible comparar
unidades de distinto tipo.
Precisamos por lo tanto, una medida "escalar", es decir, que no lleve asociado ninguna unidad
de medida.

22/23 Profesor: Ernesto Vaquero
18/10/2006
UNEFA-Anzotegui
Trmino III-2006
Coeficiente de Variacin:
Es un estadstico de dispersin que tiene la ventaja de que no lleva asociada ninguna unidad,
por lo que nos permitir decir entre dos muestras, cual es la que presenta mayor dispersin.
La denotaremos por C.V.
. . 100%
X
CV
x

=

Ejemplo (Para datos agrupados)
Veamos por ltimo un ejemplo de cmo se calculan todas estas medidas.
L
i-1
L
i
n
i
N
i
x
i
n
i
.x
i
d
i
n
i
.d
i
n
i
.d
i
2
n
i
.x
i
2
45 55 6 6 50 300 -19,4 116,4 2258,16 15000
55 65 10 16 60 600 -9,4 94 883,6 36000
65 75 19 35 70 1330 0,6 11,4 6,84 93100
75 85 11 46 80 880 10,6 116,6 1235,96 70400
85 95 4 50 90 360 20,6 82,4 1697,44 32400
N= 50 3470 420,8 6082 246900
x =

3470
69,4
50
=
m
d =

420,8
8,416
50
=
2
X
=

6082
121,64
50
=
X
=

121.64 11,029 =
2
1 N


=

50
121,64 124.122
49
=
1 N


=

124,122 11,141 =
. . CV =

11,029
100 15,892%
69,4
=

23/23 Profesor: Ernesto Vaquero
18/10/2006

You might also like