Professional Documents
Culture Documents
=
n
i
i
x x
n
s
1
2
2
1
1
DESVIACIN ESTNDAR.
La varianza representa unidades al cuadrado, por lo que no es una medida adecuada de dispersin si se pretende expresar este
concepto en trminos de las unidades originales. Para obtener la medida de dispersin en medidas originales, siempre se obtiene la
raz cuadrada de la varianza. El resultado se llama desviacin estndar de una muestra se obtiene mediante la siguiente formula:
( )
= =
n
i
i
x x
n
s s
1
2
2
1
1
La Desviacin estndar de una poblacin finita se obtiene con la raz cuadrada de la cantidad resultante de la ecuacin de la
varianza se denota por S y presenta varias ventajas sobre la varianza, pues sus unidades son las mismas que las observaciones,
mientras que la varianza son unidades fsicas cuadradas. Por otra parte la desviacin estndar es la ms usada en anli sis
estadsticos.
Si la distribucin es aproximadamente normal el intervalo para la media muestral es dado por:
- S X , contiene aproximadamente 68% de las observaciones.
- S X 2 , contiene aproximadamente 95% de las observaciones.
- S X 3 , contiene aproximadamente casi todas las observaciones (99.7%)
Roy Jonny Sida Lpez
Universidad Autnoma de Durango
Campus Culiacn
Probabilidad y Estadstica
13
COEFICIENTE DE VARIACIN.
Es una medida de dispersin relativa, pues esta exenta de unidades y se expresa en porcentaje. Se usa para comparar
distribuciones con diferentes unidades o para comparar la dispersin de dos distribuciones diferentes. Su formula es:
100 =
X
S
CV
USO DE LAS MEDIDAS DE DISPERSIN.
Las indicaciones siguientes ayudan a los investigadores a decidir cul medida de dispersin deben usar para un conjunto
determinado de datos.
- La desviacin estndar se emplea cuando tambin es apropiado el uso de la media; es decir con distribuciones simtricas
(no sesgadas) de datos numricos.
- El rango es una medida apropiada para datos numricos cuando el propsito es enfatizar valores extremos.
- El coeficiente de variacin es til cuando la intencin es comparar dos distribuciones numricas medidas en escalas
diferentes.
Roy Jonny Sida Lpez
Universidad Autnoma de Durango
Campus Culiacn
Probabilidad y Estadstica
14
DATOS AGRUPADOS
Aunque un conjunto de observaciones puede hacerse ms comprensible y ms significativo por medio de un arreglo ordenado, es
ms til el resumen que se obtiene mediante la agrupacin de datos. Antes de la era de las computadoras, uno de los principal es
objetivos de agrupar grandes conjuntos de datos era el de facilitar el clculo de las medidas descriptivas. Debido a que las
computadoras pueden ejecutar esos clculos a partir de grandes conjuntos sin agrupacin previa, actualmente el propsito
principal de agrupar los datos es el de resumir la informacin.
Para agrupar un conjunto de observaciones se debe seleccionar un conjunto de intervalos contiguos que no se traslapen, para que
cada valor en el conjunto de observaciones pueda ser puesto en uno y slo uno de los intervalos. Estos intervalos normalmente se
identifican como intervalos de clase. Una de las consideraciones cuando se agrupan datos es la de cuntos intervalos se deben
incluir. Resulta inadecuado incluir pocos intervalos, porque se perdera informacin. Por otro lado, si se utilizan muchos
intervalos, el objetivo de resumir no se consigue. Una regla emprica que habitualmente se sigue establece que deben ser entre 6 y
15 intervalos.
Quienes deseen guas ms especficas para decidir cuntos intervalos de clase son necesarios, pueden utilizar la frmula
propuesta por Sturges. Esta frmula se enuncia como: k = 1+3.322 (log
10
n), donde k es el nmero de intervalos de clase y n es el
nmero de valores en el conjunto de datos en observacin. La respuesta que se obtiene no es definitiva, nicamente se considera
como gua.
Otra pregunta que se debe responder se refiere a la amplitud del intervalo de clase. Los intervalos de clase generalmente deben
ser de la misma amplitud, aunque algunas veces esto es imposible. La amplitud se determina dividiendo el rango entre k, que es el
nmero de intervalos de clase. Simblicamente, la amplitud de los intervalos de clase est dada por:
k
R
C =
Por lo general, con este procedimiento se obtiene una amplitud que no es conveniente usar, y de nuevo se debe utilizar el sentido
comn para elegir la amplitud.
Roy Jonny Sida Lpez
Universidad Autnoma de Durango
Campus Culiacn
Probabilidad y Estadstica
15
TABLAS DE FRECUENCIAS
Para construir tablas de frecuencias adems de los principios generales expuestos anteriormente debemos seguir las siguientes
reglas:
1. El primer intervalo o clase debe contener la observacin mnima y el ltimo la mxima.
2. Los intervalos deben ser mutuamente exclusivos; es decir, cada observacin debe quedar exactamente en una sola clase,
no en dos al mismo tiempo.
3. Los intervalos debern ser exhaustivos en cuanto a los datos; es decir, cada observacin deber quedar en alguna clase
(no deben quedar datos por fuera).
4. Todos los intervalos debern tener la misma longitud o amplitud, de ser posibles.
5. Los intervalos se escogern de manera que los centros de clase o marcas de clase correspondan a nmeros con pocos
dgitos decimales diferentes de cero.
6. Mientras menos clases escojamos ser ms fcil el trabajo, pero se perder ms informacin.
Roy Jonny Sida Lpez
Universidad Autnoma de Durango
Campus Culiacn
Probabilidad y Estadstica
16
Ejemplo:Para el siguiente conjunto de datos,Construir una tabla de frecuencia con 8 clases que contenga: lmites, centro de clase
(marca de clase), frecuencias, frecuencias acumuladas y % de frecuencias acumuladas o porcentaje acumulado.
12.8 10.8 14.0 14.1 11.1 13.7 14.0 11.7 14.0 12.8
16.3 14.0 13.2 13.7 13.6 14.3 13.7 14.0 10.1 13.7
11.2 11.5 13.4 13.9 11.4 10.1 12.0 12.0 12.9 14.2
Primero buscamos la amplitud o rango, restando la observacin mnima de la mxima:
16.3 10.1 0.1 6.3 R = + =
Como se nos indican 8 clases, dividimos el rango 6.3por 8 para conocer la amplitud de cada clase:
6.3
0.7875 8
8
C = = ~
Como la primera clase debe contener la menor de las observaciones, comenzamos con: (10.0, 10.8] y adems como todas deben
tener la misma amplitud y ser mutuamente exclusivas, la segunda clase ser (10.8, 11.6], para garantizar que 10.8 estar en la
primera clase pero no en la segunda. As continuamos construyendo las clases hasta que la ltima (octava) contenga la mayor de
las observaciones, 16.3. As tenemos que:
Lmite
de clase
Marca
de clase
Frec.
f
Frec. Acum.
F
% F
(10.0, 10.8]
(10.8, 11.6]
(11.6, 12.4]
(12.4, 13.2]
(13.2, 14.0]
(14.0, 14.8]
(14.8, 15.6]
(15.6, 16.4]
10.4
11.2
12.0
12.8
13.6
14.4
15.2
16.0
3
4
3
4
11
4
0
1
3
7
10
14
25
29
29
30
10.00
23.33
33.33
46.67
83.33
96.67
96.67
100.00
C = 0.8 30
Roy Jonny Sida Lpez
Universidad Autnoma de Durango
Campus Culiacn
Probabilidad y Estadstica
17
MEDIDAS DE TENDENCIA CENTRAL
(Datos agrupados)
MEDIA ARITMTICA.
Debido a que los valores individuales de la muestra se pierden al agruparse, para calcular las medidas de tendencia central y las
de dispersiones se utilizan las marcas de clase o centros de clase como representantes de clase. En consecuencia, si m
i
es el
centro de clase y f
i
es la frecuencia de clase para la clase i-esima, la media aritmtica puede definirse como:
n
m f
x
k
i
i i
=
=
1
Donde k es el nmero de clases.
Ejemplo: La media aritmtica para el ejemplo anterior es:
Marcade clase m
i
Frec.f
i
f
i
m
i
10.4
11.2
12.0
12.8
13.6
14.4
15.2
16.0
3
4
3
4
11
4
0
1
31.20
44.80
36.00
51.20
149.60
57.60
0.00
16.00
n = 30 386.40
88 12
30
40 386
.
.
x = =
Roy Jonny Sida Lpez
Universidad Autnoma de Durango
Campus Culiacn
Probabilidad y Estadstica
18
MEDIANA.
Para determinar la mediana Mdprimero se determina la clase mediana(Clase que contiene al dato central) y para determinarla
utilizamos la frmula:
2 n F
Md LRI c
f
| |
= +
|
\ .
Donde: LRI=Limite real inferior
= Limite Inferior (Unidad de Medicin)
n = Tamao de la muestra
F = Frecuencia acumulada de la clase anterior a la clase mediana.
f = Frecuencia de la clase mediana.
C =Amplitud de la clase.
Ejemplo: Para nuestro ejemplo
( )
30 2 14
13.2 0.8 13.27
11
Md
| |
= + =
|
\ .
MODA.
Para determinar la moda primero se determina la clase modal (clase con mayor frecuencia absoluta) y para determinarla
utilizamos la frmula:
c LRI M
(
A + A
A
+ =
2 1
1
Donde: LRI = Limite real inferior
= Limite Inferior (Unidad de Medicin)
1
A = Diferencia entre la frecuencia de la clase modal y la anterior.
2
A = Diferencia entre la frecuencia de la clase modal y la posterior.
C = Amplitud de la clase.
Para nuestro ejemplo:
60 . 13 8 . 0
7 7
7
2 . 13 =
(
+
+ = M
Roy Jonny Sida Lpez
Universidad Autnoma de Durango
Campus Culiacn
Probabilidad y Estadstica
19
MEDIDAS DE DISPERSIN
(Datos agrupados)
VARIANZA Y DESVIACIN ESTNDAR.
La varianza muestral para datos agrupados se define mediante la frmula.
( )
1
2
1
2
2
=
=
n
x n m f
S
k
i
i i
Donde k es el nmero de clases.
Ejemplo: Para nuestro ejemplo:
Marcade clase m
i
Frec.f
i
f
i
m
i
2
10.4
11.2
12.0
12.8
13.6
14.4
15.2
16.0
3
4
3
4
11
4
0
1
324.48
501.76
432.00
655.36
2034.56
829.44
0
256.00
n = 30 5033.60
La varianza es:
( )( )
96 1
29
88 12 30 60 5033
2
2
.
. .
S =
=
Y la desviacin estndar es:
40 1 96 1 . . S = =
Roy Jonny Sida Lpez
Universidad Autnoma de Durango
Campus Culiacn
Probabilidad y Estadstica
20
ORGANIZACIN Y REPORTE DE DATOS
(TABLAS Y GRAFICAS)
Los datos tal como se obtienen de una investigacin estn en forma desordenada por lo que es difcil su interpretacin en un
anlisis. Debido a esto se deben organizar en forma de tablas y graficas para permitir una visualizacin clara y rpida de todo el
conjunto.
1. PRINCIPIOS GENERALES SOBRE LA CONSTRUCCIN DE TABLAS
2. Las tablas se explicaran por si mismas, se ha de dar suficiente informacin en l titulo y en los encabezados de las
columnas para permitir que el lector identifique claramente su contenido.
3. Cada variable numrica debe contener sus unidades.
4. La funcin del rayado debe ser: Dar claridad de interpretacin, debe evitarse el rayado excesivo e innecesario.
5. No se debe incluir demasiada informacin en una sola tabla.
6. Las anotaciones numricas de cero se deben escribir explcitamente en vez de usar un guin; ya que este se usara para
indicar datos que faltan o que no se han observado.
7. Una anotacin numrica no debe de iniciar con punto decimal.
8. Los numero que indican valores de una misma caracterstica se han de dar con el mismos nmeros de cifras decimales.
PRINCIPIOS GENERALES SOBRE LA CONSTRUCCIN DE GRAFICAS
1. Han de explicarse enteramente por s mismas.
2. Las escalas vertical (ordenadas) y horizontal (abscisas) estarn rotuladas con claridad dando las unidades y con los
mismos intervalos para las ordenadas y abscisas respectivamente.
3. No se debe abarcar demasiada informacin en un solo grafico. Es mejor hacer varios grficos que comprimir demasiada
informacin en uno solo
4. La finalidad de las graficas es dar una visin general y no una imagen detallada de un conjunto de datos.
5. Debe evitarse la inclusin de nmeros dentro del cuerpo de la grafica.
Roy Jonny Sida Lpez
Universidad Autnoma de Durango
Campus Culiacn
Probabilidad y Estadstica
21
USO DE LOS GRFICOS
Para variables categricas, como sexo, estado civil, profesin, etc., se quiere conocer la frecuencia el porcentaje del total de
casos que "caen" en cada categora. Una forma muy sencilla de representar grficamente estos resultados es mediante diagramas
de barras o diagramas de sectores. En los grficos de sectores, tambin conocidos como diagramas de pastel, se divide un crculo
en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de crculo proporcional a su
frecuencia absoluta o relativa.
Si el nmero de categoras es excesivamente grande, la imagen proporcionada por el grfico de sectores no es lo suficientemente
clara y por lo tanto la situacin ideal es cuando hay pocas categoras. En este caso se pueden apreciar con claridad dichos
subgrupos.
Los diagramas de barras son similares a los grficos de sectores. Se representan tantas barras como categoras tiene la variable,
de modo que la altura de cada una de ellas sea proporcional a la frecuencia porcentaje de casos en cada clase, estos grficos
pueden utilizarse tambin para describir variables numricas discretas que toman pocos valores (nmero de hijos, nmero de
recibidos, etc.).
Para variables numricas continuas, tales como la edad, la tensin arterial o el ndice de masa corporal, el tipo de grfico ms
utilizado es el histograma. Para construir un grfico de este tipo, se divide el rango de valores de la variable en intervalos de i gual
amplitud, representando sobre cada intervalo un rectngulo que tiene a este segmento como base. El criterio para calcular la
altura de cada rectngulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de los datos en cada
intervalo y el rea de los rectngulos. Uniendo los puntos medios del extremo superior de las barras del histograma, se obtiene
una imagen que se llama polgono de frecuencias. Dicha figura pretende mostrar, de la forma ms simple, en qu rangos se
encuentra la mayor parte de los datos.
Los grficos de lneas pueden resultar tambin especialmente interesantes, sobre todo cuando interesa estudiar tendencias a lo
largo del tiempo. No son ms que una serie de puntos conectados entre s mediante rectas, donde cada punto puede representar
distintas cosas segn lo que nos interese en cada momento (el valor medio de una variable, porcentaje de casos en una categora,
el valor mximo en cada grupo, etc.).