Professional Documents
Culture Documents
Un buen anlisis de datos no slo implica la presentacin (graficacin) de los datos numricos recolectados y la
observacin de lo que los datos tratan de transmitir (tendencias y patrones), sino que tambin implica el clculo
(resumen) de las caractersticas clave y la descripcin del resultado. Las tres caractersticas o propiedades esenciales
de los datos numricos son la tendencia central, la variacin y la forma.
Media aritmtica
La mayor parte de las series de datos muestran una clara tendencia a agruparse alrededor de un cierto punto central. La
tendencia central se refiere al punto medio de una distribucin. Las tres medidas de tendencia central ms utilizadas
son: la media, la mediana y la moda.
La media aritmtica ( x ) o promedio de las observaciones representa un centro del conjunto de datos. Se calcula
sumando todas las mediciones x1, x2, x3, ... , xn, y dividiendo esta suma entre el nmero total de datos (n). Debido a que
su clculo se basa en cada observacin, la media aritmtica se ve afectada en gran medida por cualquier valor extremo.
La media aritmtica de datos brutos de un conjunto de n observaciones x 1, x2,
x3, ... , xn es la suma de esta observaciones divididas entre n. La media se denota
por x (para muestra) o (para poblacin), se expresa operacionalmente como:
n
X = (x
+ x 2 + x 3 + ..+ x n ) / n o bien X =
x
i 1
n
Cuando el nmero de observaciones es grande (preferentemente mayor a 30) se realiza una distribucin de frecuencia
con los datos recopilados. A pesar de que se pierde el valor individual de cada observacin la estimacin de la media es
ms fcil y muy cercana a la obtenida con los datos brutos. Es por ello que se puede utilizar este clculo, que aunque no
es el real, slo pierde precisin.
La media aritmtica de los datos agrupados se calcula obteniendo la marca de
cada clase y utilizando la frmula:
k
X =
fM
i
i 1
n
k = nmero de intervalos
f i = es la frecuencia del i-simo intervalo
n = nmero total de datos
M i = es la marca de clase del i-simo intervalo
Las ventajas de la media aritmtica son:
La media es til para llevar a cabo procedimientos estadsticos como la comparacin de medias de
varios conjuntos de datos.
Las desventajas:
Aunque la media es confiable en el sentido de que toma en cuenta todos los valores del conjunto de
datos, puede verse afectada por valores extremos que no son representativos del resto de los datos.
Si los datos no estn en una distribucin de frecuencias, resulta tedioso calcular la media si las
observaciones realizadas son extensas.
Ejemplo:
Los siguientes datos representan las edades de personas que utilizan aparatos auditivos y que en un cierto da del
presente mes compraron pilas para stos.
85
75
66
43
40
88
80
56
56
67
89
83
65
53
75
87
83
52
44
48
a) Calcule la media aritmtica de los datos brutos.
n
a) x =
xi
i1
40 43 44 48 52 53 56 56 65 66 67 75 75 80 83 83 86 87 88 89
20
1335
20
= 66.75
=
b) Para calcular la media aritmtica de los datos agrupados se debe generar la distribucin de frecuencia
correspondiente:
Clase
Frecuencia
(f)
40 - 50
50 - 60
60 - 70
70 - 80
80 - 90
Total
4
4
3
2
7
20
X =
Marca de la
clase M i
45
55
65
75
85
fi M i
180
220
195
150
595
1340
fi M i
i 1
n
1340
20
= 67
=
Comparando la media obtenida con los datos brutos y la obtenida por medio de la distribucin de frecuencia, se aprecia
que la diferencia es mnima.
Media ponderada
La media ponderada permite calcular la media que toma en cuenta la importancia de cada valor con respecto del total.
La media ponderada se obtiene mediante la frmula:
xw =
(w * x)
w
Ejemplo:
La Fbrica de Gajos de Fruta public seis anuncios en los peridicos locales durante el mes de diciembre y realiz
encuestas sobre el nmero de veces que un lector haba visto el anuncio, con la finalidad de saber el nmero promedio
de veces que un lector vio el anuncio. Los resultados son los siguientes:
No. Veces que un lector
vio el anuncio durante
Frecuencia
diciembre
0
897
1
1,082
2
1,325
3
814
4
307
5
253
6
198
Calcular la media.
El peso de los datos lo da la frecuencia, de ah que se debe multiplicar el peso por el nmero de veces que se vio el
anuncio y dividir el resultado entre la suma total de las frecuencias.
xw =
(w * x)
w
Mediana
La mediana es una medida de tendencia central representada por un solo valor calculado a partir del conjunto de datos
que mide la observacin central de stos. Esta sola observacin es la ms central o la que est ms en medio en el
conjunto de valores ordenados de menor a mayor. La mitad de los elementos estn por arriba de este punto y la otra
mitad est por debajo.
La mediana m de un conjunto de n observaciones x1, x2, x3, ... , xn es el valor medio
del conjunto ordenado de menor a mayor. Si n es nmero impar, hay un nico valor
medio y ese es la mediana. Si n es par, hay dos valores medios y entonces la
mediana se define como la media de ellos.
Ciertos procedimientos estadsticos que utilizan la mediana son ms complejos que aquellos que utilizan la
media.
n 1
simo trmino del arreglo de datos
2
n Fa
C
2
fx
~ =L+
X
Para obtener la clase mediana, a partir de haber estimado la posicin del elemento central, se suman las frecuencias de
cada clase de manera acumulativa hasta encontrar la que contenga ese elemento, esa clase es la clase mediana.
Ejemplo:
Tomando los siguientes datos del ejemplo se calcular la mediana tanto de los datos brutos como de los datos
agrupados.
85
89
75
83
66
65
43
53
40
75
88
87
80
83
56
52
56
44
67
48
66
Posicin 10
66 67
2
= 66.5
m=
67
75 75 80 83 83 85 87 88 89
Posicin 11
b) Para obtener la mediana de los datos agrupados, primero se ubicar la clase mediana, esto es la clase donde se
encuentra el dato de la posicin 10 y el de la posicin 11.
Clase
Clase mediana
40 - 50
50 - 60
60 - 70
70 - 80
80 - 90
Total
Frecuencia
(f)
4
4
3
2
7
20
Aplicando la frmula:
n Fa
C
2
fx
~ =L+
X
20
2 8
10
= 60 +
3
= 66.6
Moda
La moda es aquel valor que ms se repite en el conjunto de datos, esto es, que
aparece con ms frecuencia.
En ocasiones el azar desempea un papel importante en la organizacin de datos y hace que un solo elemento no
representativo se repita lo suficiente para ser el valor ms frecuente del conjunto de datos. Tambin puede ocurrir que en
el conjunto de datos no exista moda, o que dos o ms valores pueden ocurrir el mismo nmero elevado de veces, es
decir, un conjunto de datos puede tener 2 ms modas. Es por estas razones que rara vez se utiliza la moda de un
conjunto de datos brutos como medida de tendencia central.
Las ventajas de la moda:
Se puede utilizar como medida de tendencia central para datos tanto cualitativos como cuantitativos
No se ve afectada mayormente por los valores extremos. Incluso los valores extremos son muy altos o muy
bajos, siempre se elige el valor ms frecuente del conjunto de datos como el valor modal.
Las desventajas de la moda:
Cuando el conjunto de datos contienen dos, tres o ms modas, resultan difciles de interpretar y comparar.
Es una medida intil cuando: no existe un valor modal debido a que el conjunto de datos no contiene valores
que se presenten ms de una vez, o cuando cada valor es la moda, pues cada uno de ellos se presenta el
mismo nmero de veces.
1
C
X = L +
1 2
L = Lmite real inferior del intervalo que contiene la moda
1 = Es la diferencia entre la frecuencia del intervalo que contiene a la moda y la
frecuencia del intervalo anterior
2 = Es la diferencia entre la frecuencia del intervalo que contiene a la moda y la
frecuencia del intervalo siguiente.
C = Es el tamao del intervalo que contiene a la moda
Ejemplo:
Utilizando los datos del ejercicio anterior
40 43 44 48 52 53 56 56 65 66 67 75 75 80 83 83 85 87 88 89
se aprecia que el conjunto de datos es bimodal, ya que tiene dos modas: 56 y 75 porque ambos valores se repiten dos
veces y dos es la frecuencia mxima de las observaciones.
Calculando la moda en los datos agrupados, se tiene que:
1
C
X = L +
1 2
la clase modal es el intervalo 80-90, ya que ste es tiene la frecuencia ms alta y sustituyendo los valores:
Clase
40 - 50
50 - 60
60 - 70
70 - 80
80 - 90
Total
Clase modal
Mo = 80 +
Mo = 84.17
72
7 2 7 0
10
Frecuencia
(f)
4
4
3
2
7
20
Conforme la distribucin se vuelve asimtrica, o sesgada, la relacin entre las tres medidas cambia. En una distribucin con asimetra
positiva (sesgo positivo o hacia la derecha), la moda se encuentra en el punto ms alto de la distribucin, la media aritmtica es mayor
que la mediana. En la distribucin con asimetra negativa (sesgo negativo o hacia la izquierda) la moda sigue siendo el punto ms alto
de la distribucin pero la media es menor que la mediana.
Distribucin sesgada a
la derecha
Moda
Mediana
Media
Media
Moda
Mediana
Considerando el uso de las tres medidas en relacin con datos muestrales, la moda no es una medida aceptable de
posicin central respecto de stos, porque su valor puede variar ampliamente de una muestra a otra La mediana es
mejor que la moda porque su valor es ms estable entre muestra y muestra. No obstante, el valor de la media es el ms
estable de estas tres medidas.
La seleccin de la media, la mediana o la moda como medida de tendencia central representativa del conjunto de datos,
en ocasiones, depende de la prctica comn de un problema en particular. Con frecuencia se habla del salario de fbrica
promedio (media aritmtica) y ste puede ser de utilidad para tomar muchas de las decisiones en la planeacin de
negocios. Pero el precio mediano de una casa nueva es una estadstica ms til para personas que se mudan a un
nuevo vecindario (evita el problema causado por la presencia de uno o dos precios que pueden distorsionar la media). Y
mientras que la familia promedio consiste de 1.7 nios, tiene ms sentido para los diseadores de automviles pensar en
la familia modal (con dos nios) cuando planean el diseo de automviles nuevos.
MEDIDAS DE DISPERSIN
Concepto de dispersin
Las medidas de tendencia central descritas en el captulo anterior, son tiles para identificar el valor representativo
de un conjunto de datos, sin embargo se necesita de algn instrumento que permita evaluar la confiabilidad de estas
medidas. Una segunda propiedad que describe al conjunto de datos es la variacin, la cual se define como la
cantidad de dispersin o propagacin en los datos.
Curva A
Curva B
Curva C
Una dispersin pequea indica que los datos se encuentran acumulados cercanamente, por ejemplo, alrededor de la
media aritmtica. Por lo tanto, la media se considera una medida bastante representativa de los datos. Esto es, la media
es un promedio confiable. Por el contrario, una dispersin grande indica que la media no es muy confiable,
ya que los datos presentan una variabilidad entre sus valores.
La dispersin de una distribucin es una caracterstica importante, debido a que
proporciona informacin adicional que permite juzgar la confiabilidad de la medida de
tendencia central y porque quiz se desee comparar las dispersiones de diferentes
muestras.
Media
Existen diversas tcnicas para medir el grado de variabilidad
en un conjunto de datos:
Medidas de
dispersin
Absolutas
Relativas
Coeficiente de variacin
xx
n
(x )
n
2 =
f (x )
donde
2 =
f (x )
n
en donde:
2 = varianza de la poblacin
f = frecuencia de cada una de las clases
x = marca de clase de cada una de las clases
= media aritmtica de los datos
n = nmero total de observaciones
(x )
Por lo comn la desviacin estndar se emplea como una medida para comparar la dispersin de dos o ms conjuntos
de observaciones.
Coeficiente de variacin
Una comparacin directa de dos o ms medidas de dispersin es imposible cuando las unidades del conjunto de
observaciones que se estn comparando son diferentes. Para realizar una comparacin significativa es necesario
convertir cada una de estas medidas a una expresin relativa, es decir a un porcentaje. Esa medida relativa es la
denominada coeficiente de variacin (CV) y es til cuando:
a) Los datos estn en unidades diferentes;
b) Al comparar dos o ms conjuntos de datos que son medidos en las mismas unidades difieren hasta un punto que una
comparacin directa de las respectivas desviaciones estndar no es muy til.
El coeficiente de variacin, denotado como CV, mide la dispersin relativa de los datos a
la media aritmtica, expresada como un porcentaje:
s
CV =
(100) para datos muestrales
x
CV =
Ejemplo:
Desviacin media datos no agrupados
Dado el siguiente conjunto de datos calcular la desviacin de la media
110, 112, 112, 114, 118, 119, 120, 128, 130, 130, 135, 147, 150, 150, 154, 160, 160, 160, 166, 172, 175,178, 183, 195,
200, 205, 216, 220, 234, 245.
Para ello primero se debe obtener la media aritmtica de las observaciones:
x=
x
n
110 112 112 114 118 119 120 128 130 130 135 147 150 150 154 160 160 160 166 172 175 1
30
4798
30
= 159.9333
Se resta a cada
dato la media
aritmtica
110 159.9333
112 159.9333
112 159.9333
114 159.9333
118 159.9333
119 159.9333
120 159.9333
128 159.9333
130 159.9333
130 159.9333
135 159.9333
147 159.9333
150 159.9333
150 159.9333
154 159.9333
160 159.9333
160 159.9333
160 159.9333
166 159.9333
172 159.9333
175 159.9333
178 159.9333
183 159.9333
195 159.9333
200 159.9333
205 159.9333
216 159.9333
220 159.9333
234 159.9333
245 159.9333
TOTALES:
DM =
Se suman los
resultados de la
resta
|xx|
43.9333
41.9333
41.9333
39.9333
35.9333
34.9333
33.9333
25.9333
23.9333
23.9333
18.9333
6.9333
3.9333
3.9333
0.0667
6.0667
6.0667
6.0667
12.0667
18.0667
21.0667
24.0667
29.0667
41.0667
46.0667
51.0667
62.0667
66.0667
80.0667
91.0667
940.1334
(x x )2
1,930.1378
1,758.4044
1,758.4044
1,594.6711
1,291.2044
1,220.3378
1,151.4711
672.5378
572.8044
572.8044
358.4711
48.0711
15.4711
15.4711
0.0044
36.8044
36.8044
36.8044
145.6044
326.4044
443.8044
579.2044
844.8711
1,686.4711
2,122.1378
2,607.8044
3,852.2711
4,364.8044
6,418.6711
8,293.1378
44,755.8660
xx
n
940.1334
=
30
= 31.3378
(x )
N
= 38.6246
44,755.8660
30
= 1,491.8622
=
CV =
2
1,491.8622
(100)
38.6246
x 100
153.9333
= 25.09 %
=
Frecuencia
8
4
7
4
3
2
2
Frecuencia
(f)
8
4
7
4
3
2
2
30
( f * m)
Marca de
clase (m)
120
140
160
180
200
220
240
m*f
m -
(m - )2
f (m - )2
960
560
1,120
720
600
440
480
4,880
- 42.6667
- 22.667
- 2.6667
17.3333
37.3333
57.3333
77.3333
1,820.4473
513.7793
7.1113
300.4433
1,393.7753
3,287.1073
5,980.4393
14,563.5784
2,055.1172
49.7791
1,201.7732
4,181.3259
6,574.2146
11,960.8786
40,586.667
= 162.6667
4,880
=
30
2 =
f (x )
n
40,586.667
30
= 1,352.8889
=
(100)
36.7816
x 100
162.6667
= 22.61 %
=
Datos no agrupados: DM =
xi x
n
Desviacin media para dtos agrupados:
x es la media del conjunto de datos
f i M i nx = nmero total de datos
DM =
f i = es la frecuencia del i-simo intervalo
M i = es la marca de clase del in simo intervalo
Varianza: se define como el promedio de los cuadrados de las desviaciones de los
datos con respecto a la media. Su valor indica la forma en que estn distribuidos
2
xi =es
los datos respecto a la media. Se representa mediante
el valor del i-simo dato
Varianza para datos no agrupados. 2 =
datos
n = nmero total de datos
2 =
f M
i
i
n f = es la frecuencia del i-simo intervalo
simo intervalo
2
x es la media del conjunto de datos
xn = nmero total de datos
f i = es la frecuencia del i-simo intervalo
M i = es la marca de clase del in
simo intervalo
f M
i
PROBABILIDAD
16
dgitos 2, 5 y 8 y reflejan valores muy diferentes entre s. Lo mismo puede decirse con las
letras A, V y E: AVE EVA y VEA son palabras diferentes.
Permutar algunos objetos, de todos diferentes. El nmero de formas diferentes en que
se pueden ordenarse n objetos, cuando se toman algunos de estos (r), es el nmero de
permutaciones.
n = es el nmero total de objetos.
n!
Permutaciones de n objetos tomados de r en r n pr
n r ! r = es el nmero de objetos que se
desea considerar
Permutar todos los objetos de todos diferentes. El nmero de formas diferentes en que
pueden ordenarse n objetos diferentes cuando se toman de uno en uno es el factorial de
n
n
pn n!
Permutar todos los objetos, de algunos repetidos. El nmero de formas diferentes en que
pueden ordenarse n 1 , n 2 , n 3 , y n r
n!
n pn n n
n1!n2 !nr !
1
n n!
nCr
r !nr r!
17
P(A) =
1
nmero..de..resultados .. posibles
5
16
18
1 1 2
40%
5 5 5
P(as corazn) =
52 52 52 52 13
19