Professional Documents
Culture Documents
112
Captulo 3.
ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS.
3.1. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICION.
En el capitulo anterior estudiamos de que manera los datos podran ser presentados
en forma compacta, comprensible mediante tablas y grficos. Sin embargo, con
frecuencia necesitamos resumir an ms para facilitar el anlisis e interpretacin de
la informacin. Cuando la variable en estudio es cuantitativa, podemos estar
interesados en encontrar un solo valor, que pueda caracterizar ms ntidamente la
naturaleza de los datos que se estn midiendo.
Un valor que refleje la tendencia de los datos puede darse mediante las medidas de
tendencia central o de posicin. Estas medidas aplicadas a las caractersticas de las
unidades en una muestra se les denomina estimadores o estadgrafos. En cambio
aplicado a las caractersticas de los elementos de una poblacin se les conoce como
parmetros o valores estadsticos de la poblacin.
Las medidas de tendencia central o de posicin ms importantes y muy usadas son:
la media aritmtica o media, la mediana, la media geomtrica y la media armnica.
Tambin podemos mencionar a la moda, los cuartiles, los percentiles, etc. Estas
medidas o estadgrafos son considerados como medidas de localizacin, puesto que
sealan la localizacin de los valores ms frecuentes o de valores extremos.
3.1.1. La media aritmtica.
La media aritmtica o simplemente media, es la medida de tendencia central ms
utilizada, la ms conocida y sencilla de calcular, de gran estabilidad en el muestreo y
sus frmulas admiten tratamientos algebraicos.
a) Clculo de la media aritmtica para datos no agrupados.
Sea x1, x2,..., xn valores de la variable X. La media aritmtica simple de X
representada por X (lase X barra) es dado por:
n
x
i 1
x1 x 2 x n
n
X
i 1
X 1 X 2 X N , N = es el tamao de la poblacin.
N
(2)
113
x
i 1
ni
, donde n n i .
i 1
(3)
Ejemplo 3.1. Diez observaciones del tiempo de servicio efectivo en minutos de
bateras usadas en una computadora personal porttil son las siguientes:
176 191 214 220 205 192 201 190 183 185
Calcular el tiempo medio de servicio de las bateras.
Solucin.
En este caso n = 10, x1 = 176, x2 = 191, x3 = 214,., x9 = 183 y x10 = 185.
La media o promedio del tiempo de servicio ser:
10
x
i 1
10
10
Ejemplo 3.2. Considerando la informacin contenida en la tabla 2.8 (ver pagina 90),
correspondiente a una muestra de 100 alumnos, en la cual se estudia la variable
estatura. Se pide determinar la estatura media de alumnos.
Tabla 2.8. Distribucin de frecuencias de 100 alumnos de la UNP,
segn su estatura (en cm.).
( Yi1 Yi
Yi
ni
Yini
150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total
152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5
4
5
12
33
17
16
9
4
100
610.0
787.5
1950.0
5527.5
2932.5
2840.0
1642.5
750.0
17040.0
y
i 1
ni
centmetros.
17040.0
170.4
100
114
N de alumnos
% de Mujeres
Biologa
40
70
Estadstica
25
50
Matemticas
20
40
0.57 57%
40 25 20
85
115
3.1.2. La Mediana.
La mediana es un valor que divide a un conjunto de observaciones ordenadas en
forma ascendente o descendente en dos grupos de igual nmero de observaciones. La
~
notacin que vamos a emplear ser: X Med(X) mediana
Clculo de la mediana
a) Datos no agrupados.
Para calcular el valor de la mediana de los datos x1, x2, ...,xn se tendr en cuenta el
siguiente procedimiento:
1) Se ordenan los datos en forma ascendente o descendente.
2) Si n es impar, el valor de la mediana es el valor del centro, es decir,
Me X (n 1) / 2
donde
(7)
n 1
es la posicin que ocupa la mediana.
2
X n 2 X n 2 1
(8)
Esto quiere decir, que el valor de la mediana es igual al promedio aritmtico de los
valores centrales cuya posicin son: n/2 y (n/2+1).
Ejemplo 3.4. Las siguientes cifras son los importes del consumo (en soles) de 13
personas en un restaurante: 13, 15, 20, 20, 25, 35 25, 40, 44, 48, 50, 44, 30.
Determinar la mediana de estos importes.
Solucin. Ordenando la informacin en forma ascendente, tenemos:
13, 15, 20, 20, 25, 25, 30, 35, 40, 44, 44, 48, 50.
Como el nmero de datos es impar (n = 13), se tiene que la posicin de la mediana
es:
n 1
~
7 , luego la mediana de los importes es: X
Med(x)
2
soles.
Esto significa que el 50% de las personas (es decir, 6 de ellos) tienen un importe
menor o igual que 30 soles y el 50% restante de las personas tienen un importe
mayor que 30 soles.
Ejemplo 3.5. El riesgo de manifestar deficiencia de hierro en algn momento es alto,
en particular durante el embarazo. El problema con la deteccin de esta deficiencia,
es que algunos mtodos para cuantificar el hierro se ven afectados por el estado de
embarazo. Considere los siguientes datos en relacin con la concentracin del
receptor de transferan para una muestra de mujeres con pruebas de laboratorio de
anemia explcita por deficiencia de hierro (Serum Transferrin receptor for the
116
9.3
7.6
11.9
10.4
9.7
20.4
9.4
11.5
16.2
9.4
8.3
8.3
9.3
9.4
9.4
9.7
10.4
11.5
11.9
15.2
16.2
20.4
En este caso, n =12 es par, por consiguiente la mediana se localiza entre los valores
centrales X6 y X7 , es decir, entre los valores 9.7 y 10.4. Por tanto, el valor mediano
es:
Me
9.7 10.4
n
, M e Yj
2
(9)
Caso 2. Cuando N j 1
Y Yj
n
, M e j 1
2
2
(10)
117
2 N j1
~
Me Y Yj1 c
N j N j1
(11)
Donde:
Y j1 = lmite inferior de la clase que contiene a la mediana.
n = tamao de la muestra.
c = amplitud de la clase que contiene a la mediana.
Nj = frecuencia acumulada de la clase que contiene a la mediana.
Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que
contiene a la mediana.
En este caso el problema consiste en determinar un punto dentro del intervalo en que
est comprendida la mediana.
Procedimiento:
1. Calcular la posicin de orden
n
.
2
n
Nj,
2
Con lo cual la mediana estar en la clase que tiene como frecuencia acumulada Ni.
3. Utilizar la formula:
N j1
2
N j N j1
~ Y
Y
j1 C
ni
Ni
2
2
3
5
N j -1
6 11
Nj
5 16
4 20
20
Solucin.
n 20
10
2
2
Como N j1
n
o sea 5 < 10 N j1 N 1 5
2
N j N 2 11
118
1.
( Yi1 Yi
Yi
ni
Ni
150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total
152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5
4
5
12
33
17
16
9
4
100
4
9
21
54
71
87
96
100
n 100
50 vo posicin
2
2
Interpretacin.- Este valor mediano significa, que el 50% de los alumnos tienen una
estatura menor o igual que 169.4 cm., en tanto que el otro 50% tienen una estatura
mayor que 169.4 cm.
3.1.3. Los Cuartiles.
Son valores que dividen a un conjunto de datos ordenados en forma ascendente o
descendente en cuatro partes iguales (Figura 3.6).
0%
Q1
25%
50%
Q2
Q3
75%
100%
119
Figura 3.6
r(n 1)
ii. Si
no es un entero, hacemos una interpolacin lineal entre los datos
4
Como n =11,
observacin ordenada.
n 1 11 1
Q1 x
n 1
)
4
x (3) 7
Interpretacin. Este valor de significa que el 25% de las facturas no pagadas tienen
una deuda menor o igual a 7000 soles, en tanto que, las 75% de las facturas no
pagadas restantes tiene una deuda mayor a 7000 soles.
120
Clculo de Q3
3(n 1) 3(11 1)
Como n =11,
ordenada, es decir,
Q1 x
3(
n 1
)
4
x (9) 18
rn
, para r = 1, 2, 3.
4
rn
Nj
4
3. Se aplica la frmula:
Q r Y j1
rn
N j1
c 4
N j N j1
r = 1, 2, 3.
(13)
Dnde:
Y j1 = lmite inferior de la clase que contiene al cuartil Qr.
n = tamao de la muestra.
c = amplitud de la clase que contiene a Qr.
Nj = frecuencia acumulada de la clase que contiene a Qr.
Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que
contiene a Qr.
( Yi1 Yi
150
155
160
165
155
160
165
170
Yi
ni
Ni
152.5
157.5
162.5
167.5
4
5
12
33
4
9
21
54
170 - 175
175 - 180
180 - 185
185 - 190
Total
172.5
177.5
182.5
187.5
121
17
16
9
4
100
71
87
96
100
Solucin.
1.
n 100
25 vo ;
4
4
3 n 300
75 vo
4
4
2. Por las frecuencias acumuladas identificamos las clases que contienen a Q1 y Q3.
n
25 54 N 4 , entonces el intervalo de clases que contiene a
4
Como N 3 21
Q1 es (165 - 170].
3n
75 87 N 6 , entonces el intervalo de
4
Q 1 Y j1
4 N3
25 21
c
165 5
165.61
N
N
54 21
4
3
Q 3 Y j1
3n
4 N5
75 71
c
176.25
175 5
87 71
N6 N5
centmetros.
centmetros.
25%
Q1 = 165.61
25%
Q2 = 169.40
25%
Q3 = 176.25
190
3.1.4. Deciles.
Los deciles son valores que dividen a un conjunto de datos ordenados en forma
ascendente o descendente en 10 partes iguales (Fig. 3.7).
0%
D1
10%
D2
20%
D3
30%
D4
40%
50%
D5
D6
Figura 3.7
60%
D7
70%
D8
80%
D9
90% 100%
122
c 10
N j N j1
D r Y j1
r = 1, 2,, 9
(14)
Donde:
Y j1 = lmite inferior de la clase que contiene a Dr , r = 1, 2, ..., 9.
n = tamao de la muestra.
c = amplitud de la clase que contiene a Dr.
Nj = frecuencia acumulada de la clase que contiene al r-simo decil, Dr.
Nj-1 = frecuencia acumulada de la clase anterior a la clase que contiene a Dr.
3.1.5. Percentiles.
Son valores que dividen la muestra ordenada en forma ascendente o descendente en
100 partes iguales.
0%
P1
1%
2%
P2
50%
P50
P98
98%
99%
100%
P99
Figura 3.8
Pr Y j1
rn
100 N j1
c
N j N j1
r = 1, 2, ... , 99
(15)
Donde:
Y j1 = lmite inferior de la clase que contiene a Pr , r = 1, 2, ..., 99.
n = tamao de la muestra.
c = amplitud de la clase que contiene a Pr.
123
( Yi1 Yi
Yi
ni
Ni
150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total
152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5
4
5
12
33
17
16
9
4
100
4
9
21
54
71
87
96
100
3.1.6. La Moda.
es: X M 0 .......
Ejemplo 3.10. Considere la distribucin de los pesos (en kilos) de 15 adultos:
63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83.
La moda de estas observaciones es:
X ....... kilos
X ....... kilos
124
Cuando los datos estn tabulados: La clase que contiene mayor frecuencia ser la que
contiene a la moda, y se llama clase modal.
a) Tablas sin intervalos.
En este caso la moda se determina fijndose en el valor de la variable que ms se
repite.
Ejemplo 3.11. Determine la moda de la distribucin siguiente:
N de hijos por familia
Yi
0
1
2
3
4
5
6 a ms
N de familias
ni
60
120
210
360
160
50
30
Total
990
Solucin.
1. La frecuencia absoluta mxima
es n 4 = 360.
2. Luego, la moda es el valor de
la variable que corresponde a
la frecuencia n 4 = 360, M 0 = 3
hijos.
1 2
M o Y Yj1 c j
(17)
Donde:
( Yi1 Yi
Yi
ni
150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total
152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5
4
5
12
33
17
16
9
4
100
125
Solucin.
1. El intervalo de clase de mayor frecuencia absoluta ( n 4 n Mo 33 ) es el cuarto
intervalo: (165 170
1 33 12 21
2 33 17 16
c = 5.
2. Aplicando la formula tenemos:
21
Y 165 5
167.8378 167.84 centmetros.
21 16
Este valor modal significa que: la estatura ms frecuente en los alumnos es de 167.84
cm.; o tambin que la mayora de los alumnos tienen una estatura igual a 167.84 cm.
Observacin. La moda tiene una caracterstica especial, pues es la nica medida de
posicin que se puede utilizar sin restricciones a datos cualitativos.
3.1.6.2. Ventajas de la Moda.
1. La moda se puede usar como una localizacin tanto para datos cualitativos
como cuantitativos.
2. La moda no est indebidamente afectada por valores extremos. An si los
valores altos son muy altos y los valores pequeos muy pequeos, se escoge
el valor ms frecuente del conjunto de datos como el valor modal.
3. La moda se puede calcular an cuando una ms de las clases sean abiertas en
los extremos.
4. Es el valor tpico, y por ello el promedio ms descriptivo. Esto ocurre cuando
la distribucin es asimtrica; y cuando el valor de la moda y del promedio es
diferente, es preferible usar la moda.
3.1.6.3. Desventajas de la Moda.
1. Muy a menudo, no hay un valor modal, por que el conjunto de datos no
contiene valores que se repitan ms de una vez. Otras veces, cada valor es la
moda, por que cada uno aparece el mismo nmero de veces. Claramente, la
moda no es una medida til en estos casos.
2. Cuando el conjunto de observaciones contiene dos, tres o ms modas. stas
son difciles de interpretar y comparar.
3. La moda no se presta a manipulaciones algebraicas posteriores.
126
~
X X X
ni
x ~
x x
Figura 3.10
127
(18)
i 1
x G 6 3 5 8 3 5 2 6 32 52 4 2 3 3 5 4 3 60 3.914867 3.915
En la prctica, el clculo de la media geomtrica se hace ms rpido tomando
logaritmo y luego el antilogaritmo de ste como sigue:
log x G log n x 1 x 2 x n
log x G
1
log x1 log x 2 log x n
n
1 n
log x i
n i 1
log x
x G antilog
i 1
(19)
Hemos usado logaritmo de base 10, es claro que puede usarse cualquier sistema de
logaritmo.
En cuanto a la denominacin media geomtrica proviene del hecho de que es el
trmino central de una progresin geomtrica de un nmero impar de observaciones.
Es decir, de una sucesin de nmeros positivos, tales que la relacin de cada una con
el precedente es una constante. Por ejemplo, en las progresiones geomtricas:
1.
2.
18
54
162
128
x G 3 2 4 8 3 64 4
En efecto:
x G 5 2 6 18 54 162 5 2 6 18 18 3 18 9 5 185 18
En efecto:
ni
i
(20)
i 1
k
1
n1log y1 n 2log y 2 n k log y k 1 n i log yi
n
n i1
Luego,
y G antilog
i 1
log y i
n
(21)
ni
4
11
21
10
4
50
log y i
1.9637878
1.9689829
1.9731278
1.9777236
1.9822712
n i log y i
7.8551513
21.653312
41.435684
19.777236
7.929084
98.650469
log x G
1 k
98.650469
n i log y i
n i 1
50
1.97300938
Luego,
x G antilog(1.97300938) 93.974363
129
1
/n
i 1 x i
n
n
n
x
i 1
(22)
4
1 1 1 1
3 4 6 8
4
4
4 24 32
4.57143
8 6 4 3 21
21
7
24
24
Observemos que la aritmtica y la media geomtrica con los mismos datos son
respectivamente:
x 5.25 y x G 4.899
1
k
1
ni
n i1 y i
n
ni
i 1 y i
n
(23)
yi-1 yi
2.0 - 6.0
6.0 - 10.0
10.0 - 14.0
14.0 - 18.0
18.0 - 22.0
ni
3
7
12
16
20
yi
4
8
12
16
20
n i /y i
0.750
0.875
1.000
1.000
1.000
yH
130
58
4.625
n
58
12.54
n i 4.625
i 1 y i
n
(24)
131
R P75 P25
(25)
de elementos
observacin
menor
de elementos
1er. Cuartil
2do. Cuartil
3er. Cuartil
Q1 = P25
Q2 = P50
Q3 = P75
X(n)
observacin
mayor
Figura 3.13
n =13,
3(n 1) 42
n 1 14
3.5 y
10.5 . Entonces
4
4
4
4
para el ejemplo 1, es
Q1= X(3) + (X(4) X(3)) (0.5) = 7 + (7 7)(0.5) = 7
Q3= X(10) + (X(11) X(10)) (0.5) = 9 + (9 9)(0.5) = 9
para el ejemplo 2, es
132
7, 7, 8, 8, 8, 8, 9,
5, 6, 7, 8, 9, 10, 11,
Q1
9, 9, 14
12, 13, 14
Q3
DM
i 1
(27)
n
k
DM
xi x
i 1
yi y n i
(28)
donde :
k = nmero de clases
ni = frecuencia absoluta de la clase i,
yi = marca de clase o punto medio de la clase i.
La desviacin media se puede utilizar como medida de dispersin en todas aquellas
distribuciones en las que la medida de tendencia central ms significativa haya sido
la media. Pero, para las mismas distribuciones es mucho ms significativa la
desviacin estndar, que se ver despus.
Ejemplo 3.15. Los pesos respectivos de ocho nios (en kilogramos) son:
15, 12, 10, 18, 14, 22, 17, 20
Determine la desviacin media absoluta.
133
Desviacin
xi x
Desviacin
absoluta
xi x
10
12
14
15
17
18
20
-6
-4
-2
-1
1
2
4
6
4
2
1
1
2
4
22
128
x
n
DM
6
26
128
16 kg.
8
i
26
3.25 kg.
8
DMe
x
i 1
Me
(29)
n
k
DMe
i 1
y i Me n i
(30)
Ejemplo 3.16. Hallar la desviacin mediana de los pesos de los nios del ejemplo
3.30.
Solucin.
En primer se determina la mediana de los datos:
Las observaciones escritas en forma ascendente son:
10, 12, 14, 15, 17, 18, 20, 22
n = 8, es par, entonces la mediana es la semisuma de los valores centrales
Me
15 17
16
2
Desviacin
x i Me
Desviacin absoluta
x i Me
10
12
14
15
17
-6
-4
-2
-1
1
6
4
2
1
1
18
20
22
128
2
4
6
2
4
6
26
DMe
134
26
3.25
8
kg
3.2.6. La varianza. Esta medida al igual que la desviacin estndar son las utilizadas
en el estudio de la dispersin. La varianza mide la dispersin de los datos con
respecto a la media aritmtica. Daremos primero la definicin de varianza
poblacional.
Definicin 1. Varianza Poblacional. La varianza o variancia de una poblacin finita
de N elementos x1, x2,, xN, se define como la media aritmtica del cuadrado de las
desviaciones de los elementos con respecto a su media , y se denota por 2 . Es
decir:
N
2 M (x ) 2
(x
i 1
) 2
(31)
V(x) S2X M (x x ) 2
(x
i 1
x)2
(32)
n
k
V(y) S2y M (y y) 2
(y
i 1
y) 2 n i
n
(33)
Donde :
n i = frecuencia absoluta de la clase i.
y i = marca de clase o punto medio de la clase i.
Si conocemos el valor de la media aritmtica poblacional , la mejor estimacin de
la varianza poblacional 2 a partir de una muestra sera:
N
V(X)
(x
i 1
) 2
Sin embargo, rara vez, si es que ello es posible, conocemos el valor de , de modo
que en el numerador de la expresin anterior se sustituye por su estimado x .
Ahora bien x , vara de muestra a muestra y rara vez es exactamente igual a .
(x
i 1
135
x ) 2 es mnimo, es decir es
(x
i 1
x) 2 <
(x
i 1
) 2 .
(x
i 1
n
n
(x
i 1
x)2
x) 2
(x
i 1
) 2
n
ah resulta que la correccin apropiada puede ser hecho mediante la utilizacin en el
denominador de n - 1 en vez de n. Es decir, se tendra:
n
(x
i 1
x)
(x
i 1
La diferencia entre
(x i x ) 2 / n y
i 1
x)
n -1
n
(x
i 1
(x
i 1
) 2
pequeas se usa
(x
i 1
V(x) S2
(x
i 1
Note que
S2
(34)
(35)
n -1
k
V(y) S2
x)2
(y
i 1
n 2
S .
n 1
y) 2 n i
n -1
V(y) S2
n
n 1
(y
i 1
y) 2 n i
n
136
n k
(yi y) 2 h i
n 1 i1
n
se conoce como la correccin de Bessel.
n 1
El factor
Nota. En inferencia estadstica se ver otras razones por el cual se usa n - 1 en vez de
n en la definicin de la varianza muestral.
Ejemplo 3.17. Las frecuencias cardiacas de 5 nios son: 130, 132, 127, 129, 132
pulsaciones por minuto.
Determinar la varianza de la frecuencia cardiaca de la muestra.
Solucin.
Primero debemos determinar la media muestral x , en efecto tenemos,
n
x
i 1
Por tanto:
n
S 2
(x
i 1
(x
i 1
(130 130) 2 (132 130) 2 (127 130) 2 (129 130) 2 (132 130) 2
5
18
3.6
5
S2
x)2
x) 2
n -1
18
4.5
4
pequea.
Ejemplo 3.18. El siguiente cuadro muestra la distribucin de acuerdo a su estatura en
centmetros de 100 estudiantes de la UNP.
Estatura
( Yi1 Yi
150
155
160
165
170
- 155
- 160
- 165
- 170
- 175
Yi
Nmero de
alumnos, n i
152.5
157.5
162.5
167.5
172.5
4
5
12
33
17
175 - 180
180 - 185
185 - 190
Total
177.5
182.5
187.5
137
16
9
4
100
( Yi1 Yi
Yi
150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total
152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5
Se sabe que:
i 1
ni
Nmero de
alumnos, n i
(y i y) 2
(y i y) 2 n i
4
5
12
33
17
16
9
4
100
320.41
166.41
62.41
8.41
4.41
50.41
146.41
292.41
1055.28
1281.64
832.05
748.92
277.53
74.97
806.56
1317.69
1169.64
6509.00
centmetros.
17040.0
170.4
100
Luego,
k
S
2
(y y) n
2
i 1
n
k
V(y) S2
(y
i 1
y) 2 n i
n -1
centmetros al cuadrado.
6509
65.09
100
centmetros al cuadrado.
6509
65.7474
99
S2 y S .
2
i 1
i 1
138
(x i x ) 2 (x i2 2x i x x )
2
i 1
i 1
x i2 2x x i x
i 1
x i2 2x n
x /n
i 1
nx
i 1
x i2 2n x 2 n x x i2 n x
2
i 1
i 1
S2
1 n
1
(x i x ) 2
n i1
n
x
2
i
i 1
x
i 1
i 1
x i2 /n
i 1
x i /n
x i2 /n x
i 1
S2 M(x 2 ) M(x) 2
(36)
1
1
S
(x i x ) 2 n - 1
n - 1 i 1
2
x
2
i
i 1
i 1
xi
i 1
2
i
i1
n 1
/n
(37)
S 2
y n
2
i
i 1
y n
i 1
S
2
y n
i 1
2
i
M(y 2 ) M(y)
(38)
y n
i1
n -1
/n
(39)
139
Ejemplo 3.19. Usando las formulas de trabajo, determinar la varianza para las
frecuencias cardiacas de los 5 nios del ejemplo 3.31.
Solucin. Calculamos en una tabla todos los valores que necesitamos sustituir en las
(36) y (37).
x i 650 130
xi
M(x) x
x i2
n
5
127 16129
2
x i 84518 16903.6
129 16641
M(x 2 ) x
130 19900
n
5
132
132
650
17424
17424
84518
Clculo de 2 :
primero se halla
x
i
(650) 2 422500
S2
1
n -1
x i2
i 1
xi
i 1
4
5
4
( Yi1 Yi y i
150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total
Luego,
152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5
ni
yi n i
y i2
y i2 n i
4
5
12
33
17
16
9
4
100
610.0
787.5
1950.0
23256.25
24806.25
26406.25
93025.0
124031.25
316875.0
17040.0
232250.0
2910124.9
S 2 M(y 2 ) M(y)
y i2 n i
i 1
yi n i
i 1
140
2910124 .9 17040
100
100
29101.249 29036.16
65.089
y
1
S
n 1
2
y n
i 1
2
i
y n
i 1
1
17040 2
2910124.9
/n
99
100
1
2910124.9 2903616 6508.9 65.746
99
99
V(X)
(44)
10
10
x i 21 18 25 191
i 1
i 1
2
i
141
212 18 2 25 2 4059
Luego:
S2
1
n 1
x
i 1
2
i
i 1
xi
2
1 4059 (191) 45.6555
9
10
Por tanto, la desviacin estndar ser la raz cuadrada del valor obtenido en la
varianza, es decir:
S
45.6555 6.7569
gramos.
S
x
(51)
El coeficiente de variacin, significa, por tanto, el nmero de veces (o tanto por uno,
ya que habitualmente el cociente ser inferior a la unidad) que supone la desviacin
estndar respecto a la media.
Generalmente el coeficiente de variacin se expresa en porcentaje. El C.V es un
nmero puro independiente de la unidad de medicin.
Observacin. Si el C.V es menor del 10% se dice que hay poca dispersin;
Si el C.V oscila entre el 10% y el 33% la dispersin existente es aceptable;
Si el C.V oscila entre el 33% y el 50% se dice que hay alta dispersin;
Pero si el C.V es mayor del 50% se dice que la dispersin es muy alta.
Ejemplo 3.45. Calcular la dispersin relativa para los datos de la ejemplo 3.33.
Solucin. Se sabe que: Y 170.4 centmetros y S = 8.1085 centmetros, entonces
el C.V es:
C.V
8.1085
100 4.76%
170.4
142
Como el valor de C.V = 4.76% es menor que el 10% y 33%, indica que existe poca
dispersin (baja dispersin).
Ejemplo 3.46. Para 2 acciones comunes de empresas de la industria electrnica, el
precio promedio de cierre en el mercado de valores durante un mes fue, para la
accin A, de $1500, con una desviacin estndar de $500. Para la accin B, el precio
promedio fue de $5000, con una desviacin estndar de $300.
a) Efectuar Hacer una comparacin de la variabilidad absoluta de las acciones.
b) Realizar una comparacin de la variabilidad con respecto al nivel medio de los
precios.
Solucin.
a) Al hacer una comparacin absoluta, result ser superior la variabilidad en el
precio de la accin A debido a que muestra una mayor desviacin estndar.
b)
500
0.33
1500
C.V(B)
300
0.060
5000
Por ello, puede concluirse que el precio de la accin A ha sido casi 5 veces ms
variable que el precio de la accin B (con respecto al precio promedio para cada una
de las dos).
Ejemplo 3.22. Las notas del curso A tuvieron una media aritmtica de 75 puntos y
una varianza de 225. Las del curso B, tuvieron una media de 70 puntos y una
varianza de 196. Si en ambos cursos las notas se aumentaron en 10%, cul de los
dos cursos tienen un coeficiente de variacin mayor despus de arreglar las notas?
Solucin.
Sea xA la variable que representa las notas del curso A. Por tanto, las notas
aumentadas en 10% sern:
y A 1.1x A
Luego,
C.VA
Sy A
yA
16.5
0.2
82.5
(20%)
Similarmente, sea xB la variable que representa las notas del curso B. Entonces, las
notas aumentadas en 10% sern:
y B 1.1x B
Luego.
C.VB
Sy B
yB
15.4
0.2
77
143
(20%)
x ~
x x
Figura
ni
3.15.
~
x
Distribucin
x
simtrica
ni
~
x
144
LI
LS
Primer cuartil
Segundo cuartil
Puntos atpicos
Tercer cuartil
Puntos atpicos
Punto atpico extremo
En este tipo de grfica se representan los tres cuartiles y los datos mnimo y mximo
en una caja rectangular alineada en sentido horizontal o vertical. La caja abarca el
recorrido intercuartilico, con el borde izquierdo (o el inferior) en el primer cuartil,
Q1, y el borde derecho (o el superior) en el tercer cuartil, Q3. Se traza una lnea a
travs de la caja en el segundo cuartil (que es el precentil 50 o la mediana), Q 2 = ~
x.
Una lnea, o bigote, se extiende desde cada extremo de la caja. El bigote bajo o
izquierdo es una lnea que va del primer cuartil al punto correspondiente al menor de
los datos dentro de 1.5 rangos intercuartlicos a partir del primer cuartil. El bigote
superior o derecho es una lnea que va del tercer cuartil al punto correspondiente al
mayor de los datos dentro de 1.5 rangos intercuartlicos a partir del tercer cuartil. Los
datos que se encuentran alejados de la caja ms all de los bigotes se grafican como
puntos individuales. A un punto situado despus de un bigote, pero a menos de 3
rangos intercuartlicos del borde de la caja, se le llama punto atpico. A un punto
situado a ms de 3 rangos o a menos de 3 rangos intercuartlicos del borde de la caja,
se le llama punto atpico extremo (vease la figura 3.18). Ocasionalmente se usan
smbolos diferentes, tales como crculos vacos o rellenos, para identificar las dos
clases de puntos atpicos. En ocasiones los diagramas de cajas reciben el nombre de
diagramas de cajas y bigotes.
En la figura 3.18 se muestra el diagrama de caja e indica que la distribucin no es
simtrica alrededor del valor central, ya que tanto los bigotes izquierdo y derecho
como las longitudes de las cajas izquierda y derecha alrededor de la mediana son
desiguales. Es decir que la distribucin tiene una asimetra positiva. Hay tambin dos
puntos ligeramente atpicos en cada extremo de los datos.
Construccin de un diagrama de caja.
145
1.
2.
3.
Se calculan los lmites admisibles superior e inferior que sirven para identificar
los valores atpicos, como sigue:
Recorrido intercuartlico = RI = Q3 Q1
Longitud del bigote bajo o izquierdo = LI = Q1 1.5 RI = Q1 1.5 (Q3 Q1)
Longitud del bigote superior o derecho = LS = Q3 1.5 RIQ = Q3 + 1.5 (Q3 Q1)
4.
Dibujar un segmento de lnea recta que vaya desde cada extremo del rectngulo
central hasta los lmites admisibles LI y LS.
5.
Identificar todos los datos que estn fuera del intervalo [LI ; LS], marcndolos
como atpicos.
LI
LS
Valores atpicos
Valores atpicos
1.5 (Q3 - Q1)
1.5 (Q 3 - Q1)
RI
1.5 RI
Me = Q 2
Q3
x mn.
Q1
x mx.
146
n 1 16
4
4
4
As, Q1 X ( 4 ) 80
2(n 1) 16
8 , con lo que
4
2
3(n 1) 3 16
12 , entonces
4
4
L S = 110
x mn.
Q1
Q2
Q3
x mx
74
80
87
92
103
147
L I= 149.65
x mn.
LS = 192.21
Q1
Q2
Q3
x mx
150
165.61
169.4
176.25
190
Media Moda
xx
CA S
Desviacion estndar
S
(59)
Si CA S 0 , la distribucin es simtrica.
Si CA S 0 , la distribucin tiene asimetra positiva o sesgada hacia la derecha.
Si CA S 0 , la distribucin tiene asimetra negativa o sesgada hacia la izquierda.
Es razonable pensar que tiene sentido obtener este coeficiente en distribuciones
unimodales.
Sin embargo, es conocido que la moda de una distribucin no es fcil de calcular y
para muchas distribuciones solo es una aproximacin. Entonces, podemos expresar el
numerador de la expresin anterior en funcin de la mediana. Considerando la
relacin emprica entre la media, la mediana y moda (ver 3.7.1) para distribuciones
de frecuencias unimodales y moderadamente asimtricas.
x Mo 3( x Me)
3( x Me) 3( x ~
x)
S
S
CA S
148
(60)
M 3 M (x - x ) 3
(x
i 1
x)3
n
k
M r M (y - y)
3
n (y
i
i 1
y)3
(x
CA S
i 1
x ) 3 /n
S
k
CA S
n (y
i 1
i 1
(x
i 1
(62)
(x i x )
Pero S3
(61)
y)3 /n
x)2
M2
CA S
M3
M2
(63)
149
E (x )
1/2
E (X ) 3
3
(66)
3
momentos muestrales (x i x ) y
i 1
(x
i 1
n (x i x ) 3
i 1
n (x i x ) 3
(67)
(n 1)(n 2)
i 1
g
3
S
(n 1)(n 2)S3
n
donde
(x
i 1
x) 2
( Yi1 Yi
Yi
150 - 155
152.5
ni
(y i y) 2
320.41
(y i y) 2 n i (y i y) 3 n i (y i y) 4 n i
1281.64
-22941.356
410650.27
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total
157.5
162.5
167.5
172.5
177.5
182.5
187.5
5
12
33
17
16
9
4
100
166.41
62.41
8.41
4.41
50.41
146.41
292.41
1055.28
832.05
748.92
277.53
74.97
806.56
1317.69
1169.64
6509.00
150
-10733.445
-5916.468
-804.837
157.437
5726.576
15944.049
20000.844
1433.267
138461.44
46740.097
2334.0273
330.6177
40658.689
192922.99
342014.43
1137519.50
y 169.4 , S = 8.1085 y
, y 167.84 , ~
(x
i 1
x ) 3 1433.267
x x 170.4 167.84
CA S
0.3157 > 0
S
8.1085
3 (x ~
x ) 3(170.4 169.4)
0.1233 > 0.
S
8.1085
CA S
M3
S3
(x
i 1
x ) 3 /n
0.0269
3
533.1158
(8.1085)
ni
4
6
7
11
84 90
90 96
8
4
b) El coeficiente
de asimetra por
la formula de
los momentos.
151
x
Figura
3.19
K1
n (y
i 1
y) 4 /n
4
M4
2
M2
(68)
M4
3
2
M2
152
Q 3 Q1
2(P90 P10 )
(69)
153
E (X ) 4
3
4
(70)
n(n 1) (X i X) 4
i 1
3(n 1) 2
(n 2)(n 3)
(71)
n (y
i 1
y) 4 1137519 .5
K1
M4
M2
n (y
i 1
y) 4 /n
4
2.63146
4
4322.7694
(8.1085)
154
Este coeficiente nos indica que la distribucin es un poco menos apuntada que la
distribucin normal, es decir que tiene una deformacin vertical ligeramente
Platicrtica.
2. Coeficiente de curtosis percentlico.
K2
Q 3 Q1
176.25 165.61
10.64