You are on page 1of 7

Guı́a de Clase:

Introducción a los Datos


Vilma S. Romero Romero1

Resumen:
En esta sesión revisaremos los fundamentos principales de la Estadı́stica Descriptiva con el objetivo de entender y ser
capaz de analizar datos cuantitativos y cualitativos empleando métodos gráficos y numéricos.
1 M.Sc. en Estadı́stica, Lancaster University, Reino Unido

Estadı́stica es el arte de aprender de los datos. Estudia la mejor manera de recopilar, analizar y sacar conclusiones
de los datos. Los métodos estadı́sticos son usados en casi todas las disciplinas, incluyendo agricultura, astronomı́a,
biologı́a, negocios, comunicaciones, economı́a, educación, geologı́a, ciencias de la salud, control climático, epidemiologı́a
y muchos otros campos de la ciencia e ingenierı́a.

1. Tipos de Variables
Una variable está definida como cualquier caracterı́stica observada de los individuos o cosas que toma diferentes valores.
Se pueden clasificar de la siguiente manera:

1. Variable Cuantitativa o Numérica, representa una cantidad reflejada en una escala numérica.
• Discreta, referida al conteo de alguna caracterı́stica, toma valores numéricos. Ej. Cantidad de
población de una ciudad, número de hijos, número de accidentes laborales, número de hermanos.
• Continua, puede asumir cualquier valor dentro de un cierto rango dado un instrumento de medición
suficientemente preciso. Ej. Peso, volumen, tamaño de una persona, salario, distancia entre dos
ciudades.
2. Varibale Cualitativa o Categórica, describe categorı́as de una caracterı́stica o atributo.
• Nominal, contiene niveles o categorı́a sin ningún orden especı́fico. Ej. Género, profesión, estado civil,
carrera profesional.
• Ordinal, los niveles o categorı́as de la variable tienen un orden natural. Ej. Orden de mérito, nivel
socioeconómico.

2. Análisis de Datos Categóricos o Cualitativos


2.1 Distribución de Frecuencias
Respresenta la cantidad de veces que se repite cada respuesta correspondiente a la serie de valores (categorı́as) de una
variable cualitativa. Si se divide el conteo (frecuencia absoluta) entre el tamaño del conjunto de datos, se obtiene la
distribución de frecuencias relativas.

Por ejemplo, se tiene información sobre los sectores asociados al empleo de los habitantes de un pequeño pueblo.

1
Introducción a los Datos

Sectores Frecuencia Absoluta Frecuencia Relativa


Agricultura 73 0.365
Educación 54 0.270
Industria 26 0.130
Turismo 12 0.060
Total 200 1

2.2 Diagrama de Barras

Turismo
60

Industria
Frecuencia

Sector

40
Educación

20 Comercio

Agricultura
0

Agricultura Comercio Educación Industria Turismo 0 20 40 60


Sector Frecuencia

2.3 Diagrama de Sectores o Circular

6.0%
Sector
13.0% Agricultura
36.5%

Comercio
Educación
27.0%
Industria
17.5%
Turismo

Estadı́stica II - Ciclo 2017-I 2


Introducción a los Datos

3. Análisis de Datos Numéricos o Cuantitativos


3.1 Medidas de Tendencia Central
También llamadas medidas de posición pues definen un determinado valor que se considera el centro de los datos.

3.1.1 Media
Es la manera más común de medir el centro de la distribución de los datos, algunas veces llamado promedio. Esta
medida se encuentra influenciada por la presencia de valores extremos (muy pequeños o muy elevados), resultando en
un valor no representativo de la tendencia central de los datos.

Sean x1 , x2 , ..., xn un conjunto de datos de una variable cuantitativa. La media de los datos se define como:
Pn
xi
x̄ = i=1
n

3.1.2 Mediana
Es el valor de la observación que ocupa el lugar central de un conjunto de datos luego de ser ordenados de acuerdo a su
magnitud. Entre sus principales caracterı́sticas tenemos:

• Divide al conjunto de datos en dos partes iguales. El 50% de los datos son menores a la mediana, y el 50% son
mayores a la mediana.

• Es influenciada por el número de las observaciones y no por los valores de las observaciones, permitiéndole ser más
robusta que la media.

Según el número de datos n:


M e = x( n+1 ) , si n es impar
2

x( n2 ) + x( n2 +1)
Me = , si n es par
2

3.1.3 Moda
Es el valor que ocurre con mayor frecuencia en los datos. Sus caracterı́sticas principales son:

• Puede existir más de una moda o no puede existir.

• No está influenciada por valores extremos.

3.2 Cuantiles
Son medidas de posición que permiten relacionar un dato respecto al conjunto global de los datos.

El cuantil p (Qp ) de los datos, donde 0 6 p 6 1, es el valor situado de tal modo que el 100p% de los valores sean
menores o iguales que él y el resto 100(1-p)% sean mayores.

Existen algunos tipos de cuantiles comúnmente usados:

Estadı́stica II - Ciclo 2017-I 3


Introducción a los Datos

• Percentiles, son los cuantiles que divien al conjunto de datos en 100 partes. Esto es, Pα = Qα/100 , donde
α = 1, 2, 3, ..., 99.
• Deciles, dividen al conjunto de datos en 10 partes iguales. Esto es, Dα = Qα/10 , para α = 1, 2, 3, ..., 9.

• Cuartiles, dividen a la información en cuatro partes iguales. Esto corresponde a los cuantiles 0.25, 0.5
(mediana) y 0.75.

3.3 Medidas de Dispersión


3.3.1 Rango, Amplitud o Recorrido
Está definido como la diferencia entre los valores máximo y mı́nimo del conjunto de datos observados de la variable X.
Generalmente, se utiliza cuando se desea tener una idea rápida de la dispersión de los datos de una variable cuantitativa.

R = Xmax − Xmin

3.3.2 Rango Intercuartil


Está definido como la diferencia del cuartil 3 menos el cuartil 1. Es decir, excluye tanto el 25% superior como inferior
de los datos, lo cual permite que no esté influenciado por los valores extremos.

RI = Q0.75 − Q0.25

3.3.3 Varianza
Cuantifica la dispersión o variabilidad de los datos con respecto a su centro de gravedad. Esto es, si los datos son más
dispersos o alejados de su media, la varianza será grande. Mientras que, si los datos tienden a concentrase cerca a la
media, la varianza será pequeña.

Sean x1 , x2 , ..., xn un conjunto de datos de una variable cuantitativa. La varianza muestral de esos datos se define
como: Pn
2 (xi − x̄)2
sn−1 = i=1
n−1
Pn 2
Pn 2
Pn Pn
x − 2x̄ i=1 xi + nx̄ x2 − 2x̄(nx̄) + nx̄2 x2 − nx̄2
s2n−1 = i=1 i = i=1 i = i=1 i
n−1 n−1 n−1

3.3.4 Desviación Estándar


Está definida como la raı́z cuadrada positiva de la varianza. Esto es,
q
sn−1 = s2n−1

Estadı́stica II - Ciclo 2017-I 4


Introducción a los Datos

3.3.5 Coeficiente de Variación


Es una medida de dispersión relativa, no tiene unidades de medición, que se define como el cociente entre la desviación
estándar y la media del conjunto de datos (en valor absoluto).

sn−1
CV =
|x̄|

Es utilizado para comparar la variabilidad en dos conjuntos de datos que poseen medias iguales o diferentes o que tengan
unidades de medida iguales o distintas.

3.4 Medidas de Forma


3.4.1 Asimetrı́a
Intuitivamente, la asimetrı́a es una medida de simetrı́a (igual porcentaje de datos por debajo y por encima de la media
de una distribución de datos). Entre sus caracterı́sticas se tiene:

• Aplicable a distribuciones unimodales.

• No tiene unidad de medida.

Coeficiente de Asimetrı́a de Pearson:


3(x̄ − M e)
As =
s

• Asimetrı́a a la izquierda o Distribución con asimetrı́a negativa


Ocurre cuando As < 0 cumpliéndose µ < M e < M o.
• Asimetrı́a a la derecha o Distribución con asimetrı́a positiva
Ocurre cuando As > 0 cumpliéndose µ > M e > M o.
• Distribución simétrica
Ocurre cuando As = 0 cumpliéndose µ = M e = M o.

Además, se puede tomar de manera referencial la siguiente tabla para clasificar a la distribución de un conjunto de datos
según su asimetrı́a:

Estadı́stica II - Ciclo 2017-I 5


Introducción a los Datos

Coeficiente de Pearson Descripción


0 Simétrica
0 < As ≤ 0.3 ó −0.3 ≤ As < 0 Ligeramente asimétrica
0.3 < As ≤ 0.6 ó −0.6 ≤ As < −0.3 Moderadamente asimétrica
As > 0.6 ó As < −0.6 Muy asimétrica

3.4.2 Curtosis
Mide el grado de concentración de los datos alrededor de la zona central de la distribución. Presenta las siguientes
caracterı́sticas:

• Aplicable en distribuciones unimodales, simétricas o casi simétricas.


• No tiene unidad de medida.

Coeficiente de Curtosis:
1
− Q1 )
2 (Q3
K=
(D9 − D1 )

Se pueden clasificar en tres tipos de acuerdo al valor obtenido:

Coeficiente de Curtosis Descripción


K < 0.243 Platicúrtica
0.243 ≤ K ≤ 0.253 Mesocúrtica
K > 0.253 Leptocúrtica

4. Ejercicios
1. Una empresa lleva a cabo un estudio para analizar el número de laptops que existen en pequeñas empresas. Ppor
tal motivo, toma una muestra de 40 empresas y encuentra los siguientes resultados sobre el número de laptops que
utilizan.

5 6 9 7 8 5 2 4 3 7 8 4 9 6 8 7 6 9 8 4
6 4 7 4 3 5 8 5 9 6 7 9 4 7 5 8 7 9 6 8

a) Calcule las medidas de tendencia central (media, mediana y moda) e interprete los valores obtenidos.
b) Calcule la varianza, desviación estándar y coeficiente de variación. Interprete los resultados.

Estadı́stica II - Ciclo 2017-I 6


Introducción a los Datos

2. Se realizó un estudio para evaluar los volúmenes de venta (miles de soles por dı́a) de los establecimientos comerciales
de un distrito de Lima. Para tal fin, se eligieron al azar 36 establecimientos y se encontraron los siguientes
resultados:

11.7 5.7 10.1 8.5 6.4 2.1 5.8 4.6 8.7 9.1 3.7 5.3
7.8 4.4 9.8 15.4 2.5 4.6 7.4 12.1 5.4 7.4 3.2 1.5
4.5 7.2 6.7 8.4 6.1 5.7 4.7 5.2 4.6 6.7 7.7 8.4

a) Calcule la media, mediana, moda y el percentil 75. Interprete los valores obtenidos.
b) Calcule la varianza, desviación estándar y coeficiente de variación. Interprete los resultados.

Estadı́stica II - Ciclo 2017-I 7

You might also like