You are on page 1of 13

Apuntes del curso de estadstica I Datos univariados

Datos univariados.
Presentacin y anlisis descriptivo de datos univariados.

LAS GRFICAS.

Una grfica tiene muchas ventajas al momento de presentarlas al pblico. En una sola imagen se
puede presentar todos los datos de manera sinttica (para un mejor entendimiento visual). Tambin
se pueden observar patrones o distribuciones de los datos.

Una imagen dice ms que mil palabras. Por lo tanto, al momento de elaborar una grfica debes
hacerla cuidadosamente. Algunas recomendaciones que debes considerar son:

La formalidad en las grficas:

1) Analiza qu informacin (mensaje) que quieres transmitir en la grfica, debe ser objetiva.
2) Debe tener ttulo, un identificador (ID) consecutivo y un pie de grfica con una breve
descripcin (la razn del porqu est ah). Evita las abreviaciones, salvo que indiques el
significado.
3) Las grficas tienen que estar mencionadas en el texto a travs del identificador.
4) Deben de tener escalas claras y explcitas en la horizontal y vertical (en su caso) y todos los
atributos debe estar bien definidos. Puedes usar porcentajes o frecuencias segn lo deseado.
5) En caso de que los datos presentados no sean propios, debes mencionar el autor o la fuente
de informacin. De igual manera cuando tomas informacin parcial o haces modificaciones.

El diseo grfico (enfoque acadmico):

1) Una grfica sencilla con texto claro es la mejor opcin para entender el mensaje. Evita saturar
las grficas, entre menos palabras es mejor.
2) Elige una buena tipografa: el tamao de la fuente debe ser lo suficientemente grande para
ser legible (al menos tamao 11 en escritos y 20 en diapositivas). El tipo de fuente tambin
es importante, utiliza letras legibles como: Times New Roman, Arial, Avenir LT35, Palatino,
Franklin, Myriad, Etc. Utiliza mximo dos tipos de tipografa.
3) Elige un buen contraste de colores para tus grficas. El negro en fondo blanco es el contraste
perfecto. Las lneas de los grficos debe ser gruesos. En lo posible, el menor nmero de
colores en tu grfico (2 o 3 colores es ideal).
4) Alinea los textos y grficos siempre. Utiliza los patrones o reglas proporcionados en los
programas para alinear tus grficas. Alinea tanto en la horizontal como en la vertical, esto
potencializa la visualizacin de tu grfica.
5) Haz una prueba: saca copias fotostticas de tu grfica, disminyela al 50%, y scale 3 copias
a las copias y s al final es perfectamente legible, entonces es un buen diseo.

GRFICAS PARA VARIABLES CUALITATIVAS.

Para las variables cualitativas, se usan comnmente las siguientes grficas:

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados

Grfica de pastel: resumen datos cualitativos donde la frecuencia de cada atributo o categora es
proporcional al rea del crculo. La suma de las proporciones da el 100%.

Grfica de barras: resumen datos cualitativos donde cada rectngulo representa una proporcin de
la frecuencia de cada categora o atributo. Las categoras van sobre la horizontal y la frecuencia en
la vertical, con escala proporcional. Las barran deben estar separadas.

Grfica de parapeto: grfica de barra ordenada de mayor a menor (segn la categora o atributo)
que incluye una lnea de frecuencia acumulada porcentual. Es recomendable incluir el resumen en
una tabla debajo de la grfica.

Fig. 1. Grfica de pastel. Fig. 2. Grfica de barras.

Fig. 3. Grfica de parapeto.

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados

GRFICAS Y TABLAS PARA VARIABLES CUANTITATIVAS (DATOS NO AGRUPADOS).

El objetivo de mostrar grficas de una variable cuantitativa es mostrar la distribucin de dicha


variable sobre una escala. La distribucin es el patrn que muestra los datos de una variable, donde
se presenta la frecuencia de cada valor de los datos.

Considere los siguientes valores de la calificacin de un grupo de estadstica:

76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 76 80

Grfica de puntos: Describe los


datos de una muestra al
representar cada valor de los
datos como un punto a lo largo
de una escala cuantitativa
(continua o discreta).

Grfica de tallo y hojas: Es una tcnica de ordenacin y un tanto grfica.


Presenta los datos de una muestra con los dgitos reales que constituyen los
valores de todos los datos. Se divide en el tallo (eje principal con el primer
dgito numrico) y en las hojas (el segundo dgito de cada dato).

DISTRIBUCIN DE FRECUENCIAS.

La distribucin de frecuencias es un listado, expresado en forma de tabla o X F


grficas que relaciona los valores de una variable con su frecuencia (conteo). Un 0 1
ejemplo de tabla de distribucin de frecuencias (para datos no agrupados) es la 1 3
siguiente tabla, donde se tienen 16 valores cuando la variable =0 < x 3. 2 8
Cuando se tienen muchos datos (ms de 20) puede ser conveniente agrupar los 3 4
datos en clases (hacer una clasificacin), anlogo hacer cajones para ordenar = 16
nmeros dentro de cada cajn o clase.

PASOS PARA AGRUPAR DATOS PARA UNA DISTRIBUCIN DE FRECUENCIAS.

1. Ordene los datos de mayor a menor. As puedes identificar el rango de tus datos (A-B).
2. Selecciona un nmero de clases (m) apropiado, el cual se obtiene con (cuando n<125)
con la regla de Sturges donde m=1+3.222(log N). Se recomienda que sean entre 5 y 12
clases para agrupar datos.
3. Una vez determinado m, se divide el rango/ m, para obtener el ancho de clase. El ancho de
clase debe ser igual en todas las clases.
4. Elije el nmero ms bajo y smale el ancho de clase para obtener los lmites inferiores y
superiores de clase (aqu en realidad ests construyendo intervalos numricos).
5. Haz un conteo de frecuencia de los datos e inclyelos en las clases que corresponden.

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados

6. Realiza una tabla de distribucin de frecuencia de datos agrupados.

Ejemplo: agrupe los siguientes datos (n=50) segn los pasos anteriores, pero utiliza m=7 y un ancho
de clase de 10. La variable corresponde a las calificaciones de una clase de estadstica.

60 47 82 95 88 72 67 66 68 98 90 77 86 58 64 95 74 72 88 74 77 39 90 63 68 97 70
64 70 70 58 78 89 44 55 85 82 83 72 77 72 86 50 94 92 80 91 75 76 78

Tabla de distribucin de frecuencias de datos agrupados.

m intervalos f x f% f % acum f % acum


1 35-45 2 40 0.04 0.04 4
2 45-55 2 50 0.04 0.08 8
3 55-65 7 60 0.14 0.26 26
4 65-75 13 70 0.26 0.52 52
5 75-85 11 80 0.22 0.74 74
6 85-95 11 90 0.22 0.96 96
7 95-105 4 100 0.08 1 100
50

Aqu se eligi arbitrariamente el valor 35 como lmite inferior de clase y se le sum el ancho de clase
10 para asignar el lmite superior de clase 45. Numricamente la primer clase es 35 x < 45.

GRFICAS PARA VARIABLES CUANTITATIVAS (DATOS AGRUPADOS).

A partir de la tabla de frecuencia de datos agrupados se puede generar histogramas de frecuencia


y ojivas mostrando las frecuencias o frecuencias relativas segn lo apropiado.

Histograma de frecuencias: es una


grfica de barras que representa
una distribucin de frecuencias
(datos agrupados) de una variable
cuantitativa. La escala vertical ser
la frecuencia o frecuencia relativa y
la horizontal identifica las clases
(lmites superior e inferior) o marca
de clases. Las barras deben de estar
contiguas (pegadas).

El eje vertical del histograma puede


corresponder a la frecuencia
relativa (%).

En esta grfica adjunta, la clase modal es la que tiene mayor frecuencia (x=70). El eje horizontal
puede identificarse por la marca de clase (centro de cada barra) o los lmies inferiores y superiores
de clase (intervalo de clase).

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados

Ojiva: grfica lineal de una


frecuencia relativa acumulada de
datos agrupados. Se representa el
eje horizontal con los lmites
superiores de los intervalos de
clase y su frecuencia relativa
acumulada.

Esta grfica ayuda a interpretar el


% que adquiere cada categora.
Por ejemplo, cerca del 50% de las
calificaciones fueron de 75; o 20%
del grupo obtuvo arriba de 90 de
calificacin.
Realiza el Laboratorio 1.

MEDIDAS DE TENDENCIA CENTRAL DE LOS DATOS.

A veces es conveniente representar todos tus datos con un solo valor que indique un promedio
general. Las medidas de tendencia central (MTC) describe el valor que tiende al centro del valor de
los datos. Las siguientes son estadsticos muestrales:

Media aritmtica ( ). Se calcula al sumar todos los valores de los datos y dividir la suma
entre el nmero de valores n (tamao muestral).

Mediana. Valor de los datos que ocupa la posicin del medio cuando los datos estn ordenados de
acuerdo a su magnitud. Cuando hay dos valores centrales, se suman y se dividen entre 2.

Moda: es el valor que ocurre con ms frecuencia. Puede existir valores bimodales y trimodales.

Rango medio. Nmero exactamente a la mitad entre un dato de valor ms alto (A) y un dato de valor
ms bajo (B). Se calcula promediando (A+B)/2.

Ojo cuando escuches el promedio de alguna variable, podra tratarse de cualquiera de los
estadsticos anteriores.

Media aritmtica ponderada. Cuando se obtiene la media pero dentro de los datos
se le asigna un valor de peso w a ciertos valores de inters (se pondera).

Por ejemplo, usted realiz 4 exmenes en el semestre y obtuvo: 50, 65, 91, 85; pero el ltimo vale 3
veces ms (es decir, tiene un peso mayor 3:1), entonces la media ponderada es:
(1)(50)+(1)(65)+(1)(91)+(3)(85)
= = 92.2 entonces tu calificacin promedio semestral es de 92.
1+1+1+3

Media aritmtica para datos agrupados. Cuando tienes una distribucin de


frecuencias de datos agrupados, es posible calcular la media aritmtica con
la siguiente frmula. Donde A es la marca de clase con mayor frecuencia (f)
y (x-A) es la desviacin de las marcas de clase respecto al valor de A.

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados

Ejemplo: calcule las MTC del siguiente conjunto de datos: {6, 7, 8, 9, 9, 10} y ubquelos con una flecha
en la escala de abajo. Para la media ponderada suponga que valor 8 tiene un peso doble sobre el
resto de los valores.

Cuando se hable del promedio de datos se debe tener precaucin. Las MTC a veces pueden dar
valores muy distintos entre s, sobre todo cuando son dispersos los datos. Por ejemplo compare las
MTC de los siguientes datos de ingreso familiar en k$: 55.8, 27.5, 14.7, 12.25, 8.9, 8, 7.95, 6.7, 6.3, 5.7,
5.7, 5.7.

MEDIDAS DE DISPERSIN DE LOS DATOS.

Estas medidas describen la variabilidad o dispersin de los datos de una variable cuantitativa por
medio de un solo valor. Entre ms grande sea el valor de la medida, ms dispersos son los datos.
Las siguientes son estadsticos muestrales comunes:

Rango: es el valor ms alto de los datos menos el ms bajo: Rango= xA- xB

Desviacin de la media: es la diferencia promedio del valor de cada dato x y la media (x- )/n.
Ejemplo: obtenga la desviacin de la media del siguiente conjunto de datos: {6, 3, 8, 5, 3}

x 6 3 8 5 3 = 5
)
(x- 1 -2 3 0 -2 (x- )/n=0

La desviacin de la media es un valor nulo (cero o casi cero), por


lo cual se eleva al cuadro para arrojar un indicador de cuanto est
alejado cada valor de la media en promedio, a este indicador se
le conoce como la varianza s2 :

x 6 3 8 5 3 = 5
)2
(x- 1 4 9 0 4 (x- ) 2/n-1 =4.5

)
(
La varianza, s2= es un indicador de qu tan dispersos son los datos respecto a la media, sin

embargo, como se elev al cuadrado, para revertir el efecto se le aplica la raz cuadrada a s 2 y se
obtiene un segundo indicador conocido como desviacin estndar:

)
(
Desviacin estndar s = es la raz cuadrada de la varianza. Para el conjunto de datos {6, 3,

8, 5, 3}, la desviacin estndar, s = 2.12

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados

EJERCICIO MTC Y MD.

1) Compare los siguientes conjuntos de datos obtenidos de dos muestras n=7. Calcule la media
aritmtica, varianza y desviacin estndar: Muestra A= {3, 3, 4, 5, 6, 6, 8} y Muestra B= {1, 2, 3, 5, 7,
8, 10}. Compare descriptivamente y grficamente.

Datos de la muestra A Datos de la muestra B

)
( ( ) )
( ( )
3 3-5=-2 (-2)2=4 1 1-5.14=-4.14 (-4.14) =17.14
2

3 3-5=-2 (-2)2=4 2 2-5.14=-3.14 (-3.14)2=9.86


4 4-5=-1 (1)2=1 3 3-5.14=-2.14 (-2.14)2=4.58
5 5-5=0 0 5 5-5.14=-0.14 (-0.14)2=0.02
6 6-5=1 (1)2=1 7 7-5.14=1.86 (1.86)2=3.45
6 6-5=1 (1)2=1 8 8-5.14=2.86 (2.86)2=8.18
8 8-5=3 (3)2=9 10 10-5.14=4.86 (4.86)2=23.61
n=7 =0 =20 n=7 =0 =67.1

=5, s2 =3.3, s=1.8


=5.14, s2 =11.18, s=3.3

Comparacin: los datos de la muestra A y B tienen un promedio similar (media=5 y 5.14). Pero segn
la desviacin estndar, la muestra B presenta una mayor dispersin (S A=1.8 y SB=3.3). Grficamente:

COEFICIENTE DE VARIACION abundar CV=(s/media)100

MEDIDAS DE POSICIN DE LOS DATOS (CUANTILES).

Las medidas de posicin (o cuantiles) se usan para describir


la posicin que un subconjunto de valores especficos
poseen en relacin con el resto de los datos cuando estn
en orden clasificado.

Por ejemplo, la mediana es el valor central de todos los datos; pero si dividimos todos los datos en
4 partes iguales, entonces se obtienen 3 valores centrales llamados cuartiles Q1, Q2 y Q3 (donde Q2=
a la mediana).

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados

Si el total de datos los dividimos en 10 partes iguales, entonces se obtienen 9 valores centrales
llamados deciles D1, D2, D9. S dividimos todos los datos en 100 partes iguales, entonces se
obtienen 99 valores centrales llamados percentiles P1, P2, P99 (donde P25 y P75 son iguales a Q1 y Q3
respectivamente).

Pasos para encontrar la posicin del k-simo percentil Pk:

1. Ordena los datos del ms bajo (B) al ms alto (A) o usa un diagrama de tallo y hojas.

2. Calcula la posicin C= donde k es el percentil de inters.
100

El resultado sali entero, entonces:


Entonces el siguiente valor
a) ubica la posicin C;
entero de C, es la posicin que
b) al valor de la posicin C
hay que ubicar en los datos. El
smale +1 (es decir C+1);
valor que resulte en la ubicacin
c) el valor Pk est en medio del
es el que corresponde a Pk
valor en la posicin C y C+1.

Ejemplo 1: obtenga Q1, Q2 y Q3 del conjunto de datos: {1, 2, 2.7, 3, 5.1, 8, 8.3, 9, 9.1}. R= Dado que
9(25)
estn ordenados y Q1=P25= = =2.25, por lo tanto el siguiente valor es 3, entonces P 25
100 100
adquiere el valor del nmero en la posicin 3, Pk=2.7. Por otro lado, Q2=P50 =mediana, entonces es
9(75)
Q2=5.1. Finalmente, Q3=P75=
100
= 100
=6.75, por lo tanto, el siguiente nmero entero es 7,
entonces Q3=P75 est en la sptima posicin y Q3=P75= 8.3 (el valor del nmero de la posicin 7).

Ejemplo 2: obtenga el D3 del siguiente conjunto: {1, 1.3, 1.4, 2.2, 2, 3, 3.9, 4, 5, 6.1}. R= dado que
10(30)
estn ordenados los datos, y D3=P30 entonces, D3=P30= = =3, por lo tanto P30 est en la
100 100
tercera posicin 1.4 y al sumar 1.4+1, el valor est en medio: D3=1.4+2.4=1.9.

Ejemplo 3: de las 50 calificaciones de estadstica utilizadas anteriormente, Calcule Q1, P58 y Q3. R=
Q1=67 P58=77.5 y Q3=86.

Una medida adicional de tendencia central asociada a los cuartiles, es el cuartil medio = (Q1+Q3)/2.
Este valor est a la mitad entre los cuartiles Q 1 y Q3 (ojo es diferente a la mediana). El 50% de los
datos se encuentra entre Q1 y Q3, a este rango se le conoce como rango intercuartlico.

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados

RESUMEN DE LOS 5 NMEROS Y DIAGRAMA DE CAJAS Y BIGOTES.

Otra manera efectiva e ilustrativa de describir un conjunto de datos, es por medio de 5 nmeros
claves:

1. B, el valor ms bajo.
2. Q1, el primer cuartil (o P25)
3. La mediana (=Q2=P50)
4. Q3, el tercer cuartil (o P75)
5. A, el valor ms alto.

En el ejemplo de las 50 calificaciones, el


resumen de los 5 nmeros son: B= 39,
Q1=67, mediana =75.5, Q3=86 y A=98.
Para graficar los 5 nmeros se utiliza las
grficas de cajas (llamadas tambin como
caja-bigotes).

Grfica de cajas: representacin grfica del resumen de los 5 nmeros (B, Q 1, mediana, Q3 y A) que
se ubican en una escala vertical u horizontal. La caja representa la mitad media de los datos que est
entre los cuartiles Q1 y Q3 (rango intercuartlico). Las lneas (llamados bigotes) representa la otra
mitad de los valores: un cuarto de los datos estn en un extremo y el otro cuarto est en el opuesto.

EL VALOR Z.

La posicin de un valor especfico tambin puede medirse en trminos de la media y la desviacin


estndar usando el valor estndar (comnmente llamado valor z).

El valor estndar o valor z: es la posicin que un valor particular de x tiene en relacin a su media y
se mide como el nmero de desviaciones estndar (alejado de la media). Por lo tanto:


z=

Por ejemplo, encuentra el valor z de la calificacin 92 y 72 del ejercicio anterior:


9274.92
z= = 1.2 por lo tanto el 92 se encuentra a 1.2 desviaciones estndar por arriba de la media.
14.2

7274.92
z= = -0.21 por lo tanto el 72 se encuentra a -0.21 s por debajo de la media.
14.2

Normalmente los valores de z se encuentran entre -3.00 y +3.00 respecto a la media. El valor z es
una medida relativa pero muy til, sirve para comparar datos de poblaciones separadas, por
ejemplo:

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados

Supn que obtuviste una calificacin de 45 en estadstica con el profe Urcdiz, mientras tu amiga del
otro curso sac 72. Quin tiene mejor calificacin? Para sacar conclusiones adecuadas, necesitas la
media y desviacin estndar de ambos grupos:

Calificacin Media Desviacin Valor z


a comparar estndar
Tu curos de Estadstica 45 38 7 1
El otro curso (de tu amiga) 72 65 14 0.5

Si analizas, ambas calificaciones estn 7 puntos arriba de la media, pero la dispersin de cada grupo
es diferente. Con ayuda del valor relativo de z, tu calificacin est 1 desviacin estndar por arriba
de la media de tu grupo, mientras que la calificacin de tu amiga est a 0.5 desviaciones estndar
de la media de su grupo, esto quiere decir que tu calificacin tiene mejor posicin relativa que el de
tu amiga.

EJERCICIOS MTC, MD, MP y valor z.

1. Henry Cavendish (qumico, fsico; 1731-1810), abord muchos experimentos cuantitativos como
por ejemplo la densidad de la Tierra. Las siguientes 29 mediciones se realizaron con balanza de
torsin:

Muestras de densidad de la Tierra (g/cm3)

4.88 5.07 5.10 5.26 5.27 5.29 5.29 5.30 5.34 5.34 5.36 5.39 5.42 5.44 5.46 5.47 5.50 5.53
5.55 5.57 5.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85 (Cavendish 1977; Annals of Statistic 5).

a) Describa el conjunto de datos con la media, mediana y desviacin estndar.


b) Construya un histograma de frecuencias e inserte las medidas anteriores (ubique con flechas).
c) Calcule el resumen de los 5 nmeros.
d) Construye un diagrama de cajas e inserte los 5 nmeros y explique la grfica.
e) Con el histograma calcule aproximadamente cuntos datos hay dentro de la primera
desviacin estndar (es decir de la media +/- una desviacin estndar).

2. Una muestra tiene una =120 y una s=20. Encuentra el valor de x cuando z=0, z= -1.4, z= 1.2,
z=2.05.

3. En un examen de ingls hay una media de 50 y una varianza de 16. Encuentre el valor z cuando
x=54, x=50, x=59 y x=93.

REGLA EMPRICA, PRUEBA DE NORMALIDAD Y TEOREMA DE CHEBYSHEV.

Es momento de comprender e interpretar la desviacin estndar. La s mide la variacin (dispersin)


de los datos, y permite comparar la variacin entre muestras o poblaciones. La s se relaciona con
dos enunciados importantes: la regla emprica y el teorema de Chebyshev.

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados

R-68-95-99.7
La regla emprica: si una variable (tus datos) tiene una distribucin normal*, entonces:

1) Dentro de la primera desviacin estndar (+1s y -1s) respecto a la habr


aproximadamente el 68% de los datos.
2) Dentro de la segunda desviacin estndar (+2s y -2s) respecto a la habr
aproximadamente el 95% de los datos.
3) Dentro de la tercera desviacin estndar (+3s y -3s) respecto a la habr
aproximadamente el 99.7% de los datos.

Ejercicio: calcule cuntos datos hay (nmero de datos e intervalo de valor) dentro de la primera
desviacin estndar de los 50 datos de estadstica. Se cumple la regla emprica?

La regla emprica solo aplica cuando tus datos son normales. Si la distribucin de tu muestra es
aproximadamente normal, ser casi simtrica y se asemejar a una curva de campana.

*Cundo mis datos son normales?


1) Visualmente: Si los agrupas en un histograma, tendr forma de campana mayor
frecuencia en el centro y disminuye simtricamente hacia los lados.
2) Conceptualmente: Cuando tus datos sean mayores de 30, ests forzando a que se parezca
a una campana.
3) Matemticamente: realiza una prueba de normalidad siempre (ver laboratorio 2). La
siguiente es una prueba de normalidad para los datos de las calificaciones de estadstica:

La prueba arroja un valor p; y cuando el valor p> 0.05 entonces los datos son normales. De lo
contrario no son normales.

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados

Las siguientes grficas explican la regla emprica y otros valores entorno a una distribucin normal
estandarizada (representa una poblacin perfecta). La comprensin de estas grficas te ayudar al
entendimiento de la estadstica inferencial.

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados

Cuando los datos de tu muestra no son normales, la regla emprica no funciona, no se aplica. Cuando
los datos no son normales se puede utilizar el teorema de Chebyshev.

Teorema de Chebyshev: La proporcin de cualquier distribucin que yazca dentro de k


1
desviaciones estndar de la media es al menos 1- , donde k es cualquier nmero positivo mayor
2
que 1. Este teorema se aplica en todas las distribuciones; por ejemplo:

Realiza el laboratorio 2.

urcadiz@me.com 2015

You might also like