Professional Documents
Culture Documents
Resumen:
En esta sesión revisaremos los fundamentos principales de la Estadı́stica Descriptiva con el objetivo de entender y ser
capaz de analizar datos cuantitativos y cualitativos empleando métodos gráficos y numéricos.
1 M.Sc. en Estadı́stica, Lancaster University, Reino Unido
Estadı́stica es el arte de aprender de los datos. Estudia la mejor manera de recopilar, analizar y sacar conclusiones
de los datos. Los métodos estadı́sticos son usados en casi todas las disciplinas, incluyendo agricultura, astronomı́a,
biologı́a, negocios, comunicaciones, economı́a, educación, geologı́a, ciencias de la salud, control climático, epidemiologı́a
y muchos otros campos de la ciencia e ingenierı́a.
1. Tipos de Variables
Una variable está definida como cualquier caracterı́stica observada de los individuos o cosas que toma diferentes valores.
Se pueden clasificar de la siguiente manera:
1. Variable Cuantitativa o Numérica, representa una cantidad reflejada en una escala numérica.
• Discreta, referida al conteo de alguna caracterı́stica, toma valores numéricos. Ej. Cantidad de
población de una ciudad, número de hijos, número de accidentes laborales, número de hermanos.
• Continua, puede asumir cualquier valor dentro de un cierto rango dado un instrumento de medición
suficientemente preciso. Ej. Peso, volumen, tamaño de una persona, salario, distancia entre dos
ciudades.
2. Varibale Cualitativa o Categórica, describe categorı́as de una caracterı́stica o atributo.
• Nominal, contiene niveles o categorı́a sin ningún orden especı́fico. Ej. Género, profesión, estado civil,
carrera profesional.
• Ordinal, los niveles o categorı́as de la variable tienen un orden natural. Ej. Orden de mérito, nivel
socioeconómico.
Por ejemplo, se tiene información sobre los sectores asociados al empleo de los habitantes de un pequeño pueblo.
1
Introducción a los Datos
Turismo
60
Industria
Frecuencia
Sector
40
Educación
20 Comercio
Agricultura
0
6.0%
Sector
13.0% Agricultura
36.5%
Comercio
Educación
27.0%
Industria
17.5%
Turismo
3.1.1 Media
Es la manera más común de medir el centro de la distribución de los datos, algunas veces llamado promedio. Esta
medida se encuentra influenciada por la presencia de valores extremos (muy pequeños o muy elevados), resultando en
un valor no representativo de la tendencia central de los datos.
Sean x1 , x2 , ..., xn un conjunto de datos de una variable cuantitativa. La media de los datos se define como:
Pn
xi
x̄ = i=1
n
3.1.2 Mediana
Es el valor de la observación que ocupa el lugar central de un conjunto de datos luego de ser ordenados de acuerdo a su
magnitud. Entre sus principales caracterı́sticas tenemos:
• Divide al conjunto de datos en dos partes iguales. El 50% de los datos son menores a la mediana, y el 50% son
mayores a la mediana.
• Es influenciada por el número de las observaciones y no por los valores de las observaciones, permitiéndole ser más
robusta que la media.
x( n2 ) + x( n2 +1)
Me = , si n es par
2
3.1.3 Moda
Es el valor que ocurre con mayor frecuencia en los datos. Sus caracterı́sticas principales son:
3.2 Cuantiles
Son medidas de posición que permiten relacionar un dato respecto al conjunto global de los datos.
El cuantil p (Qp ) de los datos, donde 0 6 p 6 1, es el valor situado de tal modo que el 100p% de los valores sean
menores o iguales que él y el resto 100(1-p)% sean mayores.
• Percentiles, son los cuantiles que divien al conjunto de datos en 100 partes. Esto es, Pα = Qα/100 , donde
α = 1, 2, 3, ..., 99.
• Deciles, dividen al conjunto de datos en 10 partes iguales. Esto es, Dα = Qα/10 , para α = 1, 2, 3, ..., 9.
• Cuartiles, dividen a la información en cuatro partes iguales. Esto corresponde a los cuantiles 0.25, 0.5
(mediana) y 0.75.
R = Xmax − Xmin
RI = Q0.75 − Q0.25
3.3.3 Varianza
Cuantifica la dispersión o variabilidad de los datos con respecto a su centro de gravedad. Esto es, si los datos son más
dispersos o alejados de su media, la varianza será grande. Mientras que, si los datos tienden a concentrase cerca a la
media, la varianza será pequeña.
Sean x1 , x2 , ..., xn un conjunto de datos de una variable cuantitativa. La varianza muestral de esos datos se define
como: Pn
2 (xi − x̄)2
sn−1 = i=1
n−1
Pn 2
Pn 2
Pn Pn
x − 2x̄ i=1 xi + nx̄ x2 − 2x̄(nx̄) + nx̄2 x2 − nx̄2
s2n−1 = i=1 i = i=1 i = i=1 i
n−1 n−1 n−1
sn−1
CV =
|x̄|
Es utilizado para comparar la variabilidad en dos conjuntos de datos que poseen medias iguales o diferentes o que tengan
unidades de medida iguales o distintas.
Además, se puede tomar de manera referencial la siguiente tabla para clasificar a la distribución de un conjunto de datos
según su asimetrı́a:
3.4.2 Curtosis
Mide el grado de concentración de los datos alrededor de la zona central de la distribución. Presenta las siguientes
caracterı́sticas:
Coeficiente de Curtosis:
1
− Q1 )
2 (Q3
K=
(D9 − D1 )
4. Ejercicios
1. Una empresa lleva a cabo un estudio para analizar el número de laptops que existen en pequeñas empresas. Ppor
tal motivo, toma una muestra de 40 empresas y encuentra los siguientes resultados sobre el número de laptops que
utilizan.
5 6 9 7 8 5 2 4 3 7 8 4 9 6 8 7 6 9 8 4
6 4 7 4 3 5 8 5 9 6 7 9 4 7 5 8 7 9 6 8
a) Calcule las medidas de tendencia central (media, mediana y moda) e interprete los valores obtenidos.
b) Calcule la varianza, desviación estándar y coeficiente de variación. Interprete los resultados.
2. Se realizó un estudio para evaluar los volúmenes de venta (miles de soles por dı́a) de los establecimientos comerciales
de un distrito de Lima. Para tal fin, se eligieron al azar 36 establecimientos y se encontraron los siguientes
resultados:
11.7 5.7 10.1 8.5 6.4 2.1 5.8 4.6 8.7 9.1 3.7 5.3
7.8 4.4 9.8 15.4 2.5 4.6 7.4 12.1 5.4 7.4 3.2 1.5
4.5 7.2 6.7 8.4 6.1 5.7 4.7 5.2 4.6 6.7 7.7 8.4
a) Calcule la media, mediana, moda y el percentil 75. Interprete los valores obtenidos.
b) Calcule la varianza, desviación estándar y coeficiente de variación. Interprete los resultados.