Professional Documents
Culture Documents
Datos univariados.
Presentacin y anlisis descriptivo de datos univariados.
LAS GRFICAS.
Una grfica tiene muchas ventajas al momento de presentarlas al pblico. En una sola imagen se
puede presentar todos los datos de manera sinttica (para un mejor entendimiento visual). Tambin
se pueden observar patrones o distribuciones de los datos.
Una imagen dice ms que mil palabras. Por lo tanto, al momento de elaborar una grfica debes
hacerla cuidadosamente. Algunas recomendaciones que debes considerar son:
1) Analiza qu informacin (mensaje) que quieres transmitir en la grfica, debe ser objetiva.
2) Debe tener ttulo, un identificador (ID) consecutivo y un pie de grfica con una breve
descripcin (la razn del porqu est ah). Evita las abreviaciones, salvo que indiques el
significado.
3) Las grficas tienen que estar mencionadas en el texto a travs del identificador.
4) Deben de tener escalas claras y explcitas en la horizontal y vertical (en su caso) y todos los
atributos debe estar bien definidos. Puedes usar porcentajes o frecuencias segn lo deseado.
5) En caso de que los datos presentados no sean propios, debes mencionar el autor o la fuente
de informacin. De igual manera cuando tomas informacin parcial o haces modificaciones.
1) Una grfica sencilla con texto claro es la mejor opcin para entender el mensaje. Evita saturar
las grficas, entre menos palabras es mejor.
2) Elige una buena tipografa: el tamao de la fuente debe ser lo suficientemente grande para
ser legible (al menos tamao 11 en escritos y 20 en diapositivas). El tipo de fuente tambin
es importante, utiliza letras legibles como: Times New Roman, Arial, Avenir LT35, Palatino,
Franklin, Myriad, Etc. Utiliza mximo dos tipos de tipografa.
3) Elige un buen contraste de colores para tus grficas. El negro en fondo blanco es el contraste
perfecto. Las lneas de los grficos debe ser gruesos. En lo posible, el menor nmero de
colores en tu grfico (2 o 3 colores es ideal).
4) Alinea los textos y grficos siempre. Utiliza los patrones o reglas proporcionados en los
programas para alinear tus grficas. Alinea tanto en la horizontal como en la vertical, esto
potencializa la visualizacin de tu grfica.
5) Haz una prueba: saca copias fotostticas de tu grfica, disminyela al 50%, y scale 3 copias
a las copias y s al final es perfectamente legible, entonces es un buen diseo.
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados
Grfica de pastel: resumen datos cualitativos donde la frecuencia de cada atributo o categora es
proporcional al rea del crculo. La suma de las proporciones da el 100%.
Grfica de barras: resumen datos cualitativos donde cada rectngulo representa una proporcin de
la frecuencia de cada categora o atributo. Las categoras van sobre la horizontal y la frecuencia en
la vertical, con escala proporcional. Las barran deben estar separadas.
Grfica de parapeto: grfica de barra ordenada de mayor a menor (segn la categora o atributo)
que incluye una lnea de frecuencia acumulada porcentual. Es recomendable incluir el resumen en
una tabla debajo de la grfica.
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados
76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 76 80
DISTRIBUCIN DE FRECUENCIAS.
1. Ordene los datos de mayor a menor. As puedes identificar el rango de tus datos (A-B).
2. Selecciona un nmero de clases (m) apropiado, el cual se obtiene con (cuando n<125)
con la regla de Sturges donde m=1+3.222(log N). Se recomienda que sean entre 5 y 12
clases para agrupar datos.
3. Una vez determinado m, se divide el rango/ m, para obtener el ancho de clase. El ancho de
clase debe ser igual en todas las clases.
4. Elije el nmero ms bajo y smale el ancho de clase para obtener los lmites inferiores y
superiores de clase (aqu en realidad ests construyendo intervalos numricos).
5. Haz un conteo de frecuencia de los datos e inclyelos en las clases que corresponden.
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados
Ejemplo: agrupe los siguientes datos (n=50) segn los pasos anteriores, pero utiliza m=7 y un ancho
de clase de 10. La variable corresponde a las calificaciones de una clase de estadstica.
60 47 82 95 88 72 67 66 68 98 90 77 86 58 64 95 74 72 88 74 77 39 90 63 68 97 70
64 70 70 58 78 89 44 55 85 82 83 72 77 72 86 50 94 92 80 91 75 76 78
Aqu se eligi arbitrariamente el valor 35 como lmite inferior de clase y se le sum el ancho de clase
10 para asignar el lmite superior de clase 45. Numricamente la primer clase es 35 x < 45.
En esta grfica adjunta, la clase modal es la que tiene mayor frecuencia (x=70). El eje horizontal
puede identificarse por la marca de clase (centro de cada barra) o los lmies inferiores y superiores
de clase (intervalo de clase).
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados
A veces es conveniente representar todos tus datos con un solo valor que indique un promedio
general. Las medidas de tendencia central (MTC) describe el valor que tiende al centro del valor de
los datos. Las siguientes son estadsticos muestrales:
Media aritmtica ( ). Se calcula al sumar todos los valores de los datos y dividir la suma
entre el nmero de valores n (tamao muestral).
Mediana. Valor de los datos que ocupa la posicin del medio cuando los datos estn ordenados de
acuerdo a su magnitud. Cuando hay dos valores centrales, se suman y se dividen entre 2.
Moda: es el valor que ocurre con ms frecuencia. Puede existir valores bimodales y trimodales.
Rango medio. Nmero exactamente a la mitad entre un dato de valor ms alto (A) y un dato de valor
ms bajo (B). Se calcula promediando (A+B)/2.
Ojo cuando escuches el promedio de alguna variable, podra tratarse de cualquiera de los
estadsticos anteriores.
Media aritmtica ponderada. Cuando se obtiene la media pero dentro de los datos
se le asigna un valor de peso w a ciertos valores de inters (se pondera).
Por ejemplo, usted realiz 4 exmenes en el semestre y obtuvo: 50, 65, 91, 85; pero el ltimo vale 3
veces ms (es decir, tiene un peso mayor 3:1), entonces la media ponderada es:
(1)(50)+(1)(65)+(1)(91)+(3)(85)
= = 92.2 entonces tu calificacin promedio semestral es de 92.
1+1+1+3
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados
Ejemplo: calcule las MTC del siguiente conjunto de datos: {6, 7, 8, 9, 9, 10} y ubquelos con una flecha
en la escala de abajo. Para la media ponderada suponga que valor 8 tiene un peso doble sobre el
resto de los valores.
Cuando se hable del promedio de datos se debe tener precaucin. Las MTC a veces pueden dar
valores muy distintos entre s, sobre todo cuando son dispersos los datos. Por ejemplo compare las
MTC de los siguientes datos de ingreso familiar en k$: 55.8, 27.5, 14.7, 12.25, 8.9, 8, 7.95, 6.7, 6.3, 5.7,
5.7, 5.7.
Estas medidas describen la variabilidad o dispersin de los datos de una variable cuantitativa por
medio de un solo valor. Entre ms grande sea el valor de la medida, ms dispersos son los datos.
Las siguientes son estadsticos muestrales comunes:
Desviacin de la media: es la diferencia promedio del valor de cada dato x y la media (x- )/n.
Ejemplo: obtenga la desviacin de la media del siguiente conjunto de datos: {6, 3, 8, 5, 3}
x 6 3 8 5 3 = 5
)
(x- 1 -2 3 0 -2 (x- )/n=0
x 6 3 8 5 3 = 5
)2
(x- 1 4 9 0 4 (x- ) 2/n-1 =4.5
)
(
La varianza, s2= es un indicador de qu tan dispersos son los datos respecto a la media, sin
embargo, como se elev al cuadrado, para revertir el efecto se le aplica la raz cuadrada a s 2 y se
obtiene un segundo indicador conocido como desviacin estndar:
)
(
Desviacin estndar s = es la raz cuadrada de la varianza. Para el conjunto de datos {6, 3,
8, 5, 3}, la desviacin estndar, s = 2.12
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados
1) Compare los siguientes conjuntos de datos obtenidos de dos muestras n=7. Calcule la media
aritmtica, varianza y desviacin estndar: Muestra A= {3, 3, 4, 5, 6, 6, 8} y Muestra B= {1, 2, 3, 5, 7,
8, 10}. Compare descriptivamente y grficamente.
)
( ( ) )
( ( )
3 3-5=-2 (-2)2=4 1 1-5.14=-4.14 (-4.14) =17.14
2
Comparacin: los datos de la muestra A y B tienen un promedio similar (media=5 y 5.14). Pero segn
la desviacin estndar, la muestra B presenta una mayor dispersin (S A=1.8 y SB=3.3). Grficamente:
Por ejemplo, la mediana es el valor central de todos los datos; pero si dividimos todos los datos en
4 partes iguales, entonces se obtienen 3 valores centrales llamados cuartiles Q1, Q2 y Q3 (donde Q2=
a la mediana).
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados
Si el total de datos los dividimos en 10 partes iguales, entonces se obtienen 9 valores centrales
llamados deciles D1, D2, D9. S dividimos todos los datos en 100 partes iguales, entonces se
obtienen 99 valores centrales llamados percentiles P1, P2, P99 (donde P25 y P75 son iguales a Q1 y Q3
respectivamente).
1. Ordena los datos del ms bajo (B) al ms alto (A) o usa un diagrama de tallo y hojas.
2. Calcula la posicin C= donde k es el percentil de inters.
100
Ejemplo 1: obtenga Q1, Q2 y Q3 del conjunto de datos: {1, 2, 2.7, 3, 5.1, 8, 8.3, 9, 9.1}. R= Dado que
9(25)
estn ordenados y Q1=P25= = =2.25, por lo tanto el siguiente valor es 3, entonces P 25
100 100
adquiere el valor del nmero en la posicin 3, Pk=2.7. Por otro lado, Q2=P50 =mediana, entonces es
9(75)
Q2=5.1. Finalmente, Q3=P75=
100
= 100
=6.75, por lo tanto, el siguiente nmero entero es 7,
entonces Q3=P75 est en la sptima posicin y Q3=P75= 8.3 (el valor del nmero de la posicin 7).
Ejemplo 2: obtenga el D3 del siguiente conjunto: {1, 1.3, 1.4, 2.2, 2, 3, 3.9, 4, 5, 6.1}. R= dado que
10(30)
estn ordenados los datos, y D3=P30 entonces, D3=P30= = =3, por lo tanto P30 est en la
100 100
tercera posicin 1.4 y al sumar 1.4+1, el valor est en medio: D3=1.4+2.4=1.9.
Ejemplo 3: de las 50 calificaciones de estadstica utilizadas anteriormente, Calcule Q1, P58 y Q3. R=
Q1=67 P58=77.5 y Q3=86.
Una medida adicional de tendencia central asociada a los cuartiles, es el cuartil medio = (Q1+Q3)/2.
Este valor est a la mitad entre los cuartiles Q 1 y Q3 (ojo es diferente a la mediana). El 50% de los
datos se encuentra entre Q1 y Q3, a este rango se le conoce como rango intercuartlico.
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados
Otra manera efectiva e ilustrativa de describir un conjunto de datos, es por medio de 5 nmeros
claves:
1. B, el valor ms bajo.
2. Q1, el primer cuartil (o P25)
3. La mediana (=Q2=P50)
4. Q3, el tercer cuartil (o P75)
5. A, el valor ms alto.
Grfica de cajas: representacin grfica del resumen de los 5 nmeros (B, Q 1, mediana, Q3 y A) que
se ubican en una escala vertical u horizontal. La caja representa la mitad media de los datos que est
entre los cuartiles Q1 y Q3 (rango intercuartlico). Las lneas (llamados bigotes) representa la otra
mitad de los valores: un cuarto de los datos estn en un extremo y el otro cuarto est en el opuesto.
EL VALOR Z.
El valor estndar o valor z: es la posicin que un valor particular de x tiene en relacin a su media y
se mide como el nmero de desviaciones estndar (alejado de la media). Por lo tanto:
z=
7274.92
z= = -0.21 por lo tanto el 72 se encuentra a -0.21 s por debajo de la media.
14.2
Normalmente los valores de z se encuentran entre -3.00 y +3.00 respecto a la media. El valor z es
una medida relativa pero muy til, sirve para comparar datos de poblaciones separadas, por
ejemplo:
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados
Supn que obtuviste una calificacin de 45 en estadstica con el profe Urcdiz, mientras tu amiga del
otro curso sac 72. Quin tiene mejor calificacin? Para sacar conclusiones adecuadas, necesitas la
media y desviacin estndar de ambos grupos:
Si analizas, ambas calificaciones estn 7 puntos arriba de la media, pero la dispersin de cada grupo
es diferente. Con ayuda del valor relativo de z, tu calificacin est 1 desviacin estndar por arriba
de la media de tu grupo, mientras que la calificacin de tu amiga est a 0.5 desviaciones estndar
de la media de su grupo, esto quiere decir que tu calificacin tiene mejor posicin relativa que el de
tu amiga.
1. Henry Cavendish (qumico, fsico; 1731-1810), abord muchos experimentos cuantitativos como
por ejemplo la densidad de la Tierra. Las siguientes 29 mediciones se realizaron con balanza de
torsin:
4.88 5.07 5.10 5.26 5.27 5.29 5.29 5.30 5.34 5.34 5.36 5.39 5.42 5.44 5.46 5.47 5.50 5.53
5.55 5.57 5.58 5.61 5.62 5.63 5.65 5.68 5.75 5.79 5.85 (Cavendish 1977; Annals of Statistic 5).
2. Una muestra tiene una =120 y una s=20. Encuentra el valor de x cuando z=0, z= -1.4, z= 1.2,
z=2.05.
3. En un examen de ingls hay una media de 50 y una varianza de 16. Encuentre el valor z cuando
x=54, x=50, x=59 y x=93.
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados
R-68-95-99.7
La regla emprica: si una variable (tus datos) tiene una distribucin normal*, entonces:
Ejercicio: calcule cuntos datos hay (nmero de datos e intervalo de valor) dentro de la primera
desviacin estndar de los 50 datos de estadstica. Se cumple la regla emprica?
La regla emprica solo aplica cuando tus datos son normales. Si la distribucin de tu muestra es
aproximadamente normal, ser casi simtrica y se asemejar a una curva de campana.
La prueba arroja un valor p; y cuando el valor p> 0.05 entonces los datos son normales. De lo
contrario no son normales.
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados
Las siguientes grficas explican la regla emprica y otros valores entorno a una distribucin normal
estandarizada (representa una poblacin perfecta). La comprensin de estas grficas te ayudar al
entendimiento de la estadstica inferencial.
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos univariados
Cuando los datos de tu muestra no son normales, la regla emprica no funciona, no se aplica. Cuando
los datos no son normales se puede utilizar el teorema de Chebyshev.
Realiza el laboratorio 2.
urcadiz@me.com 2015