Professional Documents
Culture Documents
Escuela de Estadstica
Febrero 2014
1. Estadstica Descriptiva
Las tcnicas de la estadstica descriptiva y del anlisis exploratorio de datos tienen como
objetivo obtener el mximo de informacin posible a partir de una muestra. Para esto se utili-
zan herramientas tales como:
Tablas de frecuencias.
1
Si se toma una muestra de n datos, de los cuales hay m distintos, que ordenados en forma
creciente son x1 , x2 , . . . , xm , entonces:
Propiedades y relaciones
0 ni n; i = 1, 2, 3, . . . , m
m
n1 + n2 + . . . + nm = n, es decir
X
ni = n
i=1
fi = fi
n
; 0 fi 1
m
f1 + f2 + . . . + fm = 1;
X
fi = 1
i=1
j
Nj = n1 + n2 + . . . + nj ; es decir Nj =
X
ni
i=1
Nm = n
n1 = N1 N2 . . . Nm = n
j
Fj = f1 + f2 + . . . + fj ; es decir Fj =
X
fi
i=1
f1 = F1 F2 . . . Fm = 1
2
L1 = L0 + c
..
.
Lm = Lm1 + c
Donde L0 = min(xi )
Ejemplo:
La frmula de los embutidos est perfectamente establecida en sus ingredientes y proporciones,
para obtener un producto de buena calidad. Una materia prima muy importante en la fabri-
cacin de los embutidos es la carne de cerdo. El contenido nal de grasa en el embutido es
una caracterstica determinante de la calidad, por su aspecto, textura y sabor. El contenido de
grasa en la mezcla se estima a partir de muestras de un lote de piezas de cerdo.
Para valorar el impacto de esta actividad, se prepar una muestra grande de carne de cer-
do, licuando su contenido de la misma manera como se procede siempre en el sitio de muestreo,
para producir homogeneidad se le midi su contenido de grasa por mtodos muy conables, el
cual resulto ser el 20 %. Se reparti la muestra homogenizada en 30 porciones (submuestras)
para ser enviadas en forma aleatoria al laboratorio a travs del da, junto con las muestras
normales del proceso, con el propsito de que no fueran tratadas de una manera especial.
3
00000011111111122222222223333333444445555555566666
777889
Blgica Blgica Blgica Blgica Francia Francia Francia Francia Francia Francia Francia Francia
Francia Francia Francia Francia Francia Francia Francia Francia Francia Francia Francia Fran-
cia Francia Francia Finlandia Finlandia Alemania Alemania Alemania Alemania Suiza USA
Alemania Alemania Alemania Holanda Japn Japn Japn Japn Japn Japn Japn Japn
Japn Japn Suecia Suecia Suecia USA USA USA USA USA USA USA USA USA USA USA
USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA
USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA
USA
Cuando se realiza el grco con la frecuencia absoluta acumulada este debera tomar
forma de escalera.
4
Figura 2: Grco de la distribucin absoluta acumulada.
5
Figura 4: Grco de sectores.
5. Indicadores
El objetivo de utilizar indicadores es resumir la informacin, para describir caractersticas
del comportamiento de la variable en estudio. Dentro de los indicadores mas importantes se
encuentran:
Indicadores de dispersin.
Indicadores de posicin.
Indicadores de forma.
6
m
= 1
X
X x i ni
n i=1
Propiedad 2: La suma de los cuadrados de las desviaciones de los datos con respecto a
un valor a es mnima cuando a = X n
X
(xi a)2
i=1
Propiedad 3: Si xi = k para todo i, es decir, todos los datos son iguales a una constante,
entonces:
=k
X
Propiedad 4: Si todos los datos de una muestra se multiplican por una constante, el
nuevo promedio seria la constante por el promedio inicial:
yi = a x i
Y = a X
G = x1 n1 + x1 n2 + . . . + xk nk
X
n1 + n2 + . . . + nk
6.4. La mediana
La mediana es el valor que no es superado por mas del 50 % de los datos.
7
x n+1 , si n es impar
( 2 )
Me =
x n + x( n +1)
(2)
, si n es par
2
2
Ejemplo: Calcular la mediana para el siguiente conjunto de datos:
19 27 31 14 19 42 28 57 52 53 13 57 42 38 16
6.7. La moda
En el caso de variables cuantitativas discretas, la moda es el valor de la observacin que
aparece con mas frecuencia.
7. Indicadores de dispersin
Los indicadores de dispersin o variabilidad evalan la conabilidad de la informacin
obtenida por algunos indicadores de tendencia central. Ya que la representatividad de los indi-
cadores depende de la dispersin de los datos.
7.1. El rango
Se dene como la distancia entre el valor mximo y el valor mnimo:
7.2. La varianza
La varianza es la medida de dispersin mas utilizada en el anlisis estadstico.
8
7.3. Varianza: datos no agrupados
n
2 1 X 2
S = xi X
n 1 i=1
Si una muestra esta dividida en k submuestras cada una con X 1 , X 2 , . . . , X k y S12 , S22 , . . . , Sk2 ,
entonces:
G 2 n1 + . . . + X
1 X G 2 nk
k X
n1 S12 + n2 S22 + . . . + nk Sk2 X
SG2 = +
n1 + n2 + . . . + nk n1 + n2 + . . . + nk
8. Coeciente de variacin
Este indicador involucra la magnitud de los datos que se estudian y expresa la desviacin
como un porcentaje de la media aritmtica, esto permite comparar la variabilidad relativa de
dos o mas caractersticas diferentes:
S
CV = 100
X
Ejemplo: Se requiere comparar la variabilidad de la resistencia a la compresin de dos
tipos de pernos, se tomo una muestra de cada tipo y se obtuvieron los siguientes indicadores:
9
Indicador Proceso 1 Proceso 2
X 10.08 3.77
S 1.00 1.30
9. Indicadores de posicin
9.1. Cuartiles
Los indicadores de posicin que mas se trabaja en el anlisis descriptivo son los cuartiles,
estos dividen la muestra ordenada en cuatro partes que contienen aproximadamente el mismo
numero de datos:
0.25 FLi1
Q1 = Li1 + ci
fi
0.5 FLi1
Q2 = Li1 + ci
fi
0.75 FLi1
Q3 = Li1 + ci
fi
9.2. Percentiles
Dentro del contexto de lo indicadores de posicin tambin es de suma importancia los
percentiles, estos dividen la muestra ordenada en 100 partes iguales, que contiene aproximada-
mente el mismo numero de datos:
x
FLi1
P (x) = Li1 + 100 ci
fi
9.3. Box-plot
Este diagrama constituye una sntesis muy buena de la distribucin de frecuencias y su
sencillez la hace mas til, sobre todo en aquellas situaciones donde se hace necesario comparar
dos o mas distribuciones (poblaciones o tratamiento).
10
Pasos para construirlo:
Calcular Q1 , Q2 , Q3
Calcular el rango intercuartilico: RIC = Q3 Q1
Calcular el limite inferior y superior:
LI = Q1 1.5 RIC
LS = Q3 + 1.5 RIC
11