You are on page 1of 11

Clase 2 - Fundamentos de Estadstica

Johann A. Ospina, BSc

Escuela de Estadstica

Universidad del Valle

Febrero 2014

1. Estadstica Descriptiva
Las tcnicas de la estadstica descriptiva y del anlisis exploratorio de datos tienen como
objetivo obtener el mximo de informacin posible a partir de una muestra. Para esto se utili-
zan herramientas tales como:

Tablas de frecuencias.

Grcos (diagramas de barras, histogramas de frecuencias, diagramas de cajas, etc).

Medidas o indicadores (tendencia central, variabilidad, posicin y forma).

2. Propiedades de una tabla de frecuencias


Deniciones: Sea una muestra x1 , x2 , . . . , xn .
La frecuencia absoluta de un dato, ni , es el numero de veces que dicho dato se repite
en el conjunto de la muestra.

La frecuencia relativa de un dato, fi , es la proporcin que dicho dato se repite en el


conjunto de la muestra, con respecto al numero total de datos n; f i = ni
n

La frecuencia absoluta acumulada se dene como: Ni = n1 + n2 + + ni

La frecuencia relativa acumulada se dene como: Fi = Ni


n
= f1 + f2 + . . . + fi

1
Si se toma una muestra de n datos, de los cuales hay m distintos, que ordenados en forma
creciente son x1 , x2 , . . . , xm , entonces:

Propiedades y relaciones
0 ni n; i = 1, 2, 3, . . . , m

m
n1 + n2 + . . . + nm = n, es decir
X
ni = n
i=1

fi = fi
n
; 0 fi 1

m
f1 + f2 + . . . + fm = 1;
X
fi = 1
i=1

j
Nj = n1 + n2 + . . . + nj ; es decir Nj =
X
ni
i=1

Nm = n

n1 = N1 N2 . . . Nm = n

j
Fj = f1 + f2 + . . . + fj ; es decir Fj =
X
fi
i=1

f1 = F1 F2 . . . Fm = 1

3. Construccin de una tabla de frecuencias


Para la construccin de la tabla de frecuencias se debe tener en cuenta los siguientes pasos:

1. Calcular el rango de los datos, rango = max(xi ) min(xi )


2. Calcular el numero de clases o intervalos: m
= 1 + 3.3 log(n)
3. Calcular la longitud del intervalo, c
= rango
m

4. Determinar los valores L0 , L1 , . . . , Lm que constituyen los lmites de los m intervalos de


clase:

2
L1 = L0 + c
..
.
Lm = Lm1 + c

Donde L0 = min(xi )

Ejemplo:
La frmula de los embutidos est perfectamente establecida en sus ingredientes y proporciones,
para obtener un producto de buena calidad. Una materia prima muy importante en la fabri-
cacin de los embutidos es la carne de cerdo. El contenido nal de grasa en el embutido es
una caracterstica determinante de la calidad, por su aspecto, textura y sabor. El contenido de
grasa en la mezcla se estima a partir de muestras de un lote de piezas de cerdo.

Para valorar el impacto de esta actividad, se prepar una muestra grande de carne de cer-
do, licuando su contenido de la misma manera como se procede siempre en el sitio de muestreo,
para producir homogeneidad se le midi su contenido de grasa por mtodos muy conables, el
cual resulto ser el 20 %. Se reparti la muestra homogenizada en 30 porciones (submuestras)
para ser enviadas en forma aleatoria al laboratorio a travs del da, junto con las muestras
normales del proceso, con el propsito de que no fueran tratadas de una manera especial.

Tabla 1: Contenido de grasa ( %)


19.6 19 19.8 16.4 15.1 23
21.8 18.7 19.7 16.4 23.1 18.4
14.9 16.9 14.3 23 20.1 11.5
23.1 23.1 23.1 19.6 15 22.9
23 23 21.1 15.5 12.4 23.1

3.1. Funcin emprica de distribucin acumulada


Cuando el valor se encuentra contenido dentro de algn intervalo de la tabla, se debe
recurrir a la funcin emprica de distribucin acumulada.
Denicin:

0;
x L0
fi
F (x) = F (Li1 ) + c
(x Li1 ) ; Li1 x Li

1; > Lm

3.2. Tabla de frecuencias para variables cuantitativas discretas


Ejemplo: Es una empresa con cadena de montaje donde se fabrican cables de acero, se
realiza un estudio sobre la calidad de la produccin. Los siguientes datos informan sobre el
numero de piezas defectuosas encontradas en una muestra de lotes examinados.

3
00000011111111122222222223333333444445555555566666
777889

3.3. Tabla de frecuencias para variables cualitativas


Ejemplo: Tomamos como poblacin 98 de las empacadoras mas grandes en todo el mun-
do. Nos jamos en la variable o dato referente al pas donde estn localizadas:

Blgica Blgica Blgica Blgica Francia Francia Francia Francia Francia Francia Francia Francia
Francia Francia Francia Francia Francia Francia Francia Francia Francia Francia Francia Fran-
cia Francia Francia Finlandia Finlandia Alemania Alemania Alemania Alemania Suiza USA
Alemania Alemania Alemania Holanda Japn Japn Japn Japn Japn Japn Japn Japn
Japn Japn Suecia Suecia Suecia USA USA USA USA USA USA USA USA USA USA USA
USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA
USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA USA
USA

4. Representacin grca de los datos


Se ha visto que la tabla de frecuencias resume los datos que disponemos de una muestra,
ahora bien, para darnos cuenta de un solo vistazo de las caractersticas de la muestra resulta
aun mas esclarecedor el uso de grcos y diagramas.

4.1. Grco para variables continua discreta


Cuando representamos una variable discreta, usamos el diagrama de lineas:

Figura 1: Diagrama de lnea.

Cuando se realiza el grco con la frecuencia absoluta acumulada este debera tomar
forma de escalera.

4
Figura 2: Grco de la distribucin absoluta acumulada.

4.2. Grco para variables continua


Uno de los grcos mas usados para este tipo de variables es el histograma de frecuencias,
para construirlo se divide el conjunto de datos en m clases, y se representan verticalmente las
frecuencias, absolutas o relativas, de las distintas clases

Figura 3: Histograma de frecuencias.

4.3. Grco para variables cualitativas


El diagrama de sectores es el mas usado y consisten en dividir un crculo en tantas
porciones como clases existan, de modo que a cada clase le corresponde un arco de crculo
proporcional a su frecuencia absoluta o relativa.

5
Figura 4: Grco de sectores.

5. Indicadores
El objetivo de utilizar indicadores es resumir la informacin, para describir caractersticas
del comportamiento de la variable en estudio. Dentro de los indicadores mas importantes se
encuentran:

Indicadores de tendencia central.

Indicadores de dispersin.

Indicadores de posicin.

Indicadores de forma.

6. Promedio o media aritmtica


6.1. Promedio o media aritmtica para datos no agrupados
Si los valores de una variable son y1 , y2 , . . . , yn y denotamos la media como Y entonces:
n
1X
Y = yi
n i=1
Ejercicio: Calcular la media aritmtica del siguiente conjunto de datos: 30,75,79,80,80,105,126,138,149

6.2. Promedio o media aritmtica para datos agrupados


En el caso que los datos estn agrupados en una distribucin de frecuencias el calculo de
la media aritmtica sigue la expresin:

6
m
= 1
X
X x i ni
n i=1

Donde xi es la marca de clase de intervalo i, xi = Li1 +Li


2

6.3. Propiedades de la media aritmtica


Propiedad 1: La suma de las desviaciones de los datos con respecto a su media es cero.
n
X
=0

xi X
i=1

Propiedad 2: La suma de los cuadrados de las desviaciones de los datos con respecto a
un valor a es mnima cuando a = X n
X
(xi a)2
i=1

Propiedad 3: Si xi = k para todo i, es decir, todos los datos son iguales a una constante,
entonces:
=k
X
Propiedad 4: Si todos los datos de una muestra se multiplican por una constante, el
nuevo promedio seria la constante por el promedio inicial:

yi = a x i
Y = a X

Propiedad 5: Si zi = axi + byi para todo i, donde a y b son constantes, entonces:


Z = aX
+ bY

Propiedad 6: Si una muestra de n individuos se divide en k submuestras de tamao


n1 , n2 , . . . , nk y con promedios x1 , x2 , . . . , xk , entonces:

G = x1 n1 + x1 n2 + . . . + xk nk
X
n1 + n2 + . . . + nk

6.4. La mediana
La mediana es el valor que no es superado por mas del 50 % de los datos.

6.5. Mediana para datos no agrupados


Primero se organizan los datos en orden ascendente:

7

x n+1 , si n es impar
( 2 )



Me =
x n + x( n +1)
(2)

, si n es par

2

2
Ejemplo: Calcular la mediana para el siguiente conjunto de datos:
19 27 31 14 19 42 28 57 52 53 13 57 42 38 16

6.6. Mediana para datos agrupados



0.5 FLi1
M e = Li1 + ci
fi
Ejercicio: Calcular la Mediana con los datos de resistencia a la compresin.

6.7. La moda
En el caso de variables cuantitativas discretas, la moda es el valor de la observacin que
aparece con mas frecuencia.

En el caso de variable cuantitativas continuas, la moda corresponde a los valores alrededor de


los cuales se produce la mayor concentracin de los datos.
fi fi1 !

Moda = Li1 +
ci ci1
fi fi1 fi+1
2 ci
ci1
ci+1

7. Indicadores de dispersin
Los indicadores de dispersin o variabilidad evalan la conabilidad de la informacin
obtenida por algunos indicadores de tendencia central. Ya que la representatividad de los indi-
cadores depende de la dispersin de los datos.

7.1. El rango
Se dene como la distancia entre el valor mximo y el valor mnimo:

Rango = max (xi ) min (xi )

Nota: El rango es sensible a valores extremos.

7.2. La varianza
La varianza es la medida de dispersin mas utilizada en el anlisis estadstico.

8
7.3. Varianza: datos no agrupados
n
2 1 X 2

S = xi X
n 1 i=1

7.4. Varianza: datos agrupados


m
2 1 X 2

S = n i xi X
n 1 i=1
Ojo: para datos agrupados xi es la marca de clase.

7.5. Propiedades de la varianza


S2 0

Si xi = k , donde k es una constante, entonces S 2 = 0

Si yi = k xi , entonces Sy2 = k 2 Sx2

Si yi = k + xi , entonces Sy2 = Sx2

Si una muestra esta dividida en k submuestras cada una con X 1 , X 2 , . . . , X k y S12 , S22 , . . . , Sk2 ,
entonces:

G 2 n1 + . . . + X
1 X G 2 nk
k X
 
n1 S12 + n2 S22 + . . . + nk Sk2 X
SG2 = +
n1 + n2 + . . . + nk n1 + n2 + . . . + nk

8. Coeciente de variacin
Este indicador involucra la magnitud de los datos que se estudian y expresa la desviacin
como un porcentaje de la media aritmtica, esto permite comparar la variabilidad relativa de
dos o mas caractersticas diferentes:
S
CV = 100
X
Ejemplo: Se requiere comparar la variabilidad de la resistencia a la compresin de dos
tipos de pernos, se tomo una muestra de cada tipo y se obtuvieron los siguientes indicadores:

9
Indicador Proceso 1 Proceso 2

X 10.08 3.77
S 1.00 1.30

9. Indicadores de posicin
9.1. Cuartiles
Los indicadores de posicin que mas se trabaja en el anlisis descriptivo son los cuartiles,
estos dividen la muestra ordenada en cuatro partes que contienen aproximadamente el mismo
numero de datos:


0.25 FLi1
Q1 = Li1 + ci
fi

0.5 FLi1
Q2 = Li1 + ci
fi

0.75 FLi1
Q3 = Li1 + ci
fi

9.2. Percentiles
Dentro del contexto de lo indicadores de posicin tambin es de suma importancia los
percentiles, estos dividen la muestra ordenada en 100 partes iguales, que contiene aproximada-
mente el mismo numero de datos:
x
FLi1
P (x) = Li1 + 100 ci
fi

9.3. Box-plot
Este diagrama constituye una sntesis muy buena de la distribucin de frecuencias y su
sencillez la hace mas til, sobre todo en aquellas situaciones donde se hace necesario comparar
dos o mas distribuciones (poblaciones o tratamiento).

10
Pasos para construirlo:
Calcular Q1 , Q2 , Q3
Calcular el rango intercuartilico: RIC = Q3 Q1
Calcular el limite inferior y superior:

LI = Q1 1.5 RIC
LS = Q3 + 1.5 RIC

11

You might also like