You are on page 1of 43

Captulo 3.

ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

112

Captulo 3.
ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS.
3.1. MEDIDAS DE TENDENCIA CENTRAL Y DE POSICION.
En el capitulo anterior estudiamos de que manera los datos podran ser presentados
en forma compacta, comprensible mediante tablas y grficos. Sin embargo, con
frecuencia necesitamos resumir an ms para facilitar el anlisis e interpretacin de
la informacin. Cuando la variable en estudio es cuantitativa, podemos estar
interesados en encontrar un solo valor, que pueda caracterizar ms ntidamente la
naturaleza de los datos que se estn midiendo.
Un valor que refleje la tendencia de los datos puede darse mediante las medidas de
tendencia central o de posicin. Estas medidas aplicadas a las caractersticas de las
unidades en una muestra se les denomina estimadores o estadgrafos. En cambio
aplicado a las caractersticas de los elementos de una poblacin se les conoce como
parmetros o valores estadsticos de la poblacin.
Las medidas de tendencia central o de posicin ms importantes y muy usadas son:
la media aritmtica o media, la mediana, la media geomtrica y la media armnica.
Tambin podemos mencionar a la moda, los cuartiles, los percentiles, etc. Estas
medidas o estadgrafos son considerados como medidas de localizacin, puesto que
sealan la localizacin de los valores ms frecuentes o de valores extremos.
3.1.1. La media aritmtica.
La media aritmtica o simplemente media, es la medida de tendencia central ms
utilizada, la ms conocida y sencilla de calcular, de gran estabilidad en el muestreo y
sus frmulas admiten tratamientos algebraicos.
a) Clculo de la media aritmtica para datos no agrupados.
Sea x1, x2,..., xn valores de la variable X. La media aritmtica simple de X
representada por X (lase X barra) es dado por:
n

x
i 1

x1 x 2 x n
n

donde n = es el tamao de la muestra.


(1)

En la poblacin se utiliza la letra griega para representar la media, la cual se


determina mediante la formula:
N

X
i 1

X 1 X 2 X N , N = es el tamao de la poblacin.
N
(2)

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

113

b) Clculo de la media aritmtica para datos agrupados.


Sean x1, x2,, xk valores de la variable X ponderada por sus respectivas
frecuencias absolutas: n1, n2,, nk. La media aritmtica ponderada de la variable
X es dado por:
K

x
i 1

ni

, donde n n i .
i 1

(3)
Ejemplo 3.1. Diez observaciones del tiempo de servicio efectivo en minutos de
bateras usadas en una computadora personal porttil son las siguientes:
176 191 214 220 205 192 201 190 183 185
Calcular el tiempo medio de servicio de las bateras.
Solucin.
En este caso n = 10, x1 = 176, x2 = 191, x3 = 214,., x9 = 183 y x10 = 185.
La media o promedio del tiempo de servicio ser:
10

x
i 1

176 191 185 1957

10
10

minutos por bateras.

Ejemplo 3.2. Considerando la informacin contenida en la tabla 2.8 (ver pagina 90),
correspondiente a una muestra de 100 alumnos, en la cual se estudia la variable
estatura. Se pide determinar la estatura media de alumnos.
Tabla 2.8. Distribucin de frecuencias de 100 alumnos de la UNP,
segn su estatura (en cm.).

( Yi1 Yi

Yi

ni

Yini

150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total

152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5

4
5
12
33
17
16
9
4
100

610.0
787.5
1950.0
5527.5
2932.5
2840.0
1642.5
750.0
17040.0

Luego la media aritmtica de estos datos ser:


8

y
i 1

ni

centmetros.
17040.0
170.4
100

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

114

Ejemplo 3.3. Si los porcentajes de mujeres en 3 secciones diferentes escogidas de las


escuelas profesionales de la facultad de ciencias, en el presente semestre son:
Escuela profesional

N de alumnos

% de Mujeres

Biologa

40

70

Estadstica

25

50

Matemticas

20

40

Hallar el porcentaje global de mujeres en las tres secciones escogidas.


Solucin.
Aplicando la formula de promedio ponderado tenemos:
Xp

(0.7)( 40) (0.5)(25) (0.4)(20) 48.5

0.57 57%
40 25 20
85

Luego, el porcentaje global de mujeres en las tres secciones es de 57%.


Ventajas de la media aritmtica.
La media aritmtica, como un solo nmero que representa todo un conjunto de
datos, tiene ventajas importantes:
1. Es un concepto familiar a la mayora de las personas e intuitivamente claro.
2. Es una medida que puede ser calculada y es nica. Ya que cada conjunto de datos
tiene una y slo una media.
3. En el clculo de la media, es tomada en cuenta cada observacin del conjunto de
datos.
4. La media es una medida digna de confianza, por que se determina con mayor
certeza que otras caractersticas de un conjunto de datos.
Desventajas de la media aritmtica.
Como cualquier medida estadstica, la media aritmtica tiene sus desventajas de las
cuales se debe estar consciente.
1. La media aritmtica puede verse afectado por los valores extremos que no son
representativos del resto de las observaciones. Por ello, cuando se sta utilizando
esta medida en un anlisis, vale la pena advertir la representatividad de los valores
extremos y la influencia que estos tiene sobre el resultado.
2. No se puede calcular la media aritmtica en las distribuciones que tienen
intervalos de clase abierto en los extremos, es decir de extremos abiertos en la
primera y en la ltima clase.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

115

3.1.2. La Mediana.
La mediana es un valor que divide a un conjunto de observaciones ordenadas en
forma ascendente o descendente en dos grupos de igual nmero de observaciones. La
~
notacin que vamos a emplear ser: X Med(X) mediana
Clculo de la mediana
a) Datos no agrupados.
Para calcular el valor de la mediana de los datos x1, x2, ...,xn se tendr en cuenta el
siguiente procedimiento:
1) Se ordenan los datos en forma ascendente o descendente.
2) Si n es impar, el valor de la mediana es el valor del centro, es decir,
Me X (n 1) / 2

donde

(7)

n 1
es la posicin que ocupa la mediana.
2

3) Si n es par, el valor de la mediana va a estar dado por:


Me

X n 2 X n 2 1

(8)

Esto quiere decir, que el valor de la mediana es igual al promedio aritmtico de los
valores centrales cuya posicin son: n/2 y (n/2+1).
Ejemplo 3.4. Las siguientes cifras son los importes del consumo (en soles) de 13
personas en un restaurante: 13, 15, 20, 20, 25, 35 25, 40, 44, 48, 50, 44, 30.
Determinar la mediana de estos importes.
Solucin. Ordenando la informacin en forma ascendente, tenemos:
13, 15, 20, 20, 25, 25, 30, 35, 40, 44, 44, 48, 50.
Como el nmero de datos es impar (n = 13), se tiene que la posicin de la mediana
es:

n 1
~
7 , luego la mediana de los importes es: X
Med(x)
2

soles.

Esto significa que el 50% de las personas (es decir, 6 de ellos) tienen un importe
menor o igual que 30 soles y el 50% restante de las personas tienen un importe
mayor que 30 soles.
Ejemplo 3.5. El riesgo de manifestar deficiencia de hierro en algn momento es alto,
en particular durante el embarazo. El problema con la deteccin de esta deficiencia,
es que algunos mtodos para cuantificar el hierro se ven afectados por el estado de
embarazo. Considere los siguientes datos en relacin con la concentracin del
receptor de transferan para una muestra de mujeres con pruebas de laboratorio de
anemia explcita por deficiencia de hierro (Serum Transferrin receptor for the

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

116

Detection of Iron Deficiency in Pregnancy, Amer. J. of Clinical Nutrition, 1991:


pg. 1077-1081):
15.2

9.3

7.6

11.9

10.4

9.7

20.4

9.4

11.5

16.2

9.4

8.3

Determine la mediana para este grupo de valores.


Solucin.
Ordenando los valores resulta:
7.6

8.3

9.3

9.4

9.4

9.7

10.4

11.5

11.9

15.2

16.2

20.4

En este caso, n =12 es par, por consiguiente la mediana se localiza entre los valores
centrales X6 y X7 , es decir, entre los valores 9.7 y 10.4. Por tanto, el valor mediano
es:
Me

9.7 10.4

Estas frmulas y procedimientos son muy objetivas y de fcil aplicacin, pero no


siempre se utilizan; generalmente se apela a una distribucin de frecuencias, cuando
es grande la cantidad de datos disponibles.
b) Datos agrupados.
Consideremos dos casos para datos agrupados en tablas sin intervalos y otros en
tablas por intervalos.
Para tablas sin intervalos.
Caso 1. Cuando N j 1

n
, M e Yj
2

(9)

Caso 2. Cuando N j 1

Y Yj
n
, M e j 1
2
2

(10)

Para tablas con intervalos.


Consideremos una distribucin de datos agrupados en intervalos cuyo polgono de
frecuencias acumuladas se puede visualizar en uno de los tipos de grficos,
analizados en la primera parte del captulo:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

117

2 N j1
~
Me Y Yj1 c

N j N j1

(11)

Donde:
Y j1 = lmite inferior de la clase que contiene a la mediana.

n = tamao de la muestra.
c = amplitud de la clase que contiene a la mediana.
Nj = frecuencia acumulada de la clase que contiene a la mediana.
Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que
contiene a la mediana.
En este caso el problema consiste en determinar un punto dentro del intervalo en que
est comprendida la mediana.
Procedimiento:
1. Calcular la posicin de orden

n
.
2

2. Por las frecuencias acumuladas se identifica la clase que contiene a la mediana,


esto es, la clase para el cual se cumple:
N j1

n
Nj,
2

Con lo cual la mediana estar en la clase que tiene como frecuencia acumulada Ni.
3. Utilizar la formula:

N j1
2

N j N j1

~ Y
Y
j1 C

Ejemplo 3.6. Dada la siguiente distribucin, se pide determinar su valor mediano:


Xi
0
1
2
3
4

ni
Ni
2
2
3
5
N j -1
6 11
Nj
5 16
4 20
20

Solucin.
n 20

10
2
2

Como N j1

n
o sea 5 < 10 N j1 N 1 5
2

N j N 2 11

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

118

Se tiene que aplicar la siguiente formula: Me Yj Y2 2


Ejemplo 3.7. A partir de la distribucin de frecuencia de los 100 alumnos de la UNP,
segn su estatura (ver tabla 2.8, captulo 2), se pide determinar el valor mediano de
las estaturas.
Solucin.

1.

( Yi1 Yi

Yi

ni

Ni

150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total

152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5

4
5
12
33
17
16
9
4
100

4
9
21
54
71
87
96
100

n 100

50 vo posicin
2
2

2. Se identifica la clase que contiene a la mediana por la frecuencia acumulada, esto


es, a travs de la desigualdad:
N 3 21 50 vo N 4 54

En este caso, la clase que contiene a la mediana es el cuarto.


3. Reemplazar los datos en la formula obtenemos:
~ 165 5 50 21 169.3939 169.4
Y
Centmetros.
54 21

Interpretacin.- Este valor mediano significa, que el 50% de los alumnos tienen una
estatura menor o igual que 169.4 cm., en tanto que el otro 50% tienen una estatura
mayor que 169.4 cm.
3.1.3. Los Cuartiles.
Son valores que dividen a un conjunto de datos ordenados en forma ascendente o
descendente en cuatro partes iguales (Figura 3.6).
0%
Q1

25%

50%
Q2

Q3

75%

100%

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

119

Figura 3.6

Q1 = 1er cuartil, deja 25% de las observaciones menores o iguales a l y el 75%


superiores a l.
Q2 = 2do cuartil, coincide con la mediana.
Q3 = 3er cuartil, deja 75% de las observaciones inferiores o iguales a l y el 25% de
stas superiores a l.
Es importante notar que entre dos cuartiles consecutivos se halla el 25% del nmero
de valores.
Determinacin de Q r (r=1, 2, 3)
a) Para datos no agrupados o no tabulados. Sea x1, x2, , xn un conjunto de
observaciones de una variable o caracterstica X. Entonces:
1. Se ordenan los datos en forma ascendente: x (1), x (2), , x (n)
2. Se localiza el punto de posicin del valor correspondiente a la r(n+1)/4
observacin ordenada.
r(n 1)
i. Si
es un entero, entonces
4
Qr = a la observacin particular correspondiente al punto de posicin de
X r(n 1)
r(n+1)/4 =
.
4

r(n 1)
ii. Si
no es un entero, hacemos una interpolacin lineal entre los datos
4

correspondientes a las dos observaciones entre las cuales se encuentra la


fraccin.
Ejemplo 3.8. Al examinar los registros de facturacin mensual de una empresa
editora con ventas a crdito, el auditor toma una muestra de 11 de las facturas no
pagadas. Las sumas que se adeudan a la compaa en miles de soles son: 4, 18, 11,
7,7, 10, 21, 5, 33, 9 y 12. Determine Q1 y Q3.
Solucin.
Clculo de Q1
1.
Los datos ordenados en forma ascendente son: 4, 5, 7, 7, 9, 10, 11, 12,
18, 21, 33
2.

Como n =11,
observacin ordenada.

n 1 11 1

3 es un entero, entonces, Q1 es la tercera


4
4

Q1 x

n 1
)
4

x (3) 7

Interpretacin. Este valor de significa que el 25% de las facturas no pagadas tienen
una deuda menor o igual a 7000 soles, en tanto que, las 75% de las facturas no
pagadas restantes tiene una deuda mayor a 7000 soles.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

120

Clculo de Q3
3(n 1) 3(11 1)

9 , entonces, Q3 es la novena observacin


4
4

Como n =11,

ordenada, es decir,

Q1 x

3(

n 1
)
4

x (9) 18

b) Para datos agrupados o tabulados.


Las formulas para calcular los cuartiles se derivan de la formula utilizada para
calcular la mediana y los pasos para el clculo son los mismos:
Procedimiento.
1. Se calcula

rn
, para r = 1, 2, 3.
4

2. Se identifica la clase que contiene a Qr por medio de las frecuencias acumuladas,


esto es, por la desigualdad:
N j1

rn
Nj
4

3. Se aplica la frmula:
Q r Y j1

rn
N j1

c 4
N j N j1

r = 1, 2, 3.

(13)
Dnde:
Y j1 = lmite inferior de la clase que contiene al cuartil Qr.

n = tamao de la muestra.
c = amplitud de la clase que contiene a Qr.
Nj = frecuencia acumulada de la clase que contiene a Qr.
Nj-1 = frecuencia acumulada de la clase inmediatamente anterior a la clase que
contiene a Qr.

Ejemplo 3.9. Dada la siguiente distribucin, determinar los cuartiles Q1 y Q3.

( Yi1 Yi
150
155
160
165

155
160
165
170

Yi

ni

Ni

152.5
157.5
162.5
167.5

4
5
12
33

4
9
21
54

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

170 - 175
175 - 180
180 - 185
185 - 190
Total

172.5
177.5
182.5
187.5

121

17
16
9
4
100

71
87
96
100

Solucin.
1.

n 100

25 vo ;
4
4

3 n 300

75 vo
4
4

2. Por las frecuencias acumuladas identificamos las clases que contienen a Q1 y Q3.
n
25 54 N 4 , entonces el intervalo de clases que contiene a
4

Como N 3 21
Q1 es (165 - 170].

Por otro lado, como N 5 71

3n
75 87 N 6 , entonces el intervalo de
4

clases que contiene a Q3 es (175 - 180].


3. Usando las formulas dada para calcular Q1 y Q3 tenemos:

Q 1 Y j1

4 N3
25 21
c
165 5
165.61
N

N
54 21
4
3

Q 3 Y j1

3n

4 N5
75 71
c
176.25
175 5
87 71
N6 N5

centmetros.

centmetros.

De acuerdo a estos resultados, podemos afirmar que, en est distribucin tenemos:


25%
150

25%

Q1 = 165.61

25%

Q2 = 169.40

25%

Q3 = 176.25

190

3.1.4. Deciles.
Los deciles son valores que dividen a un conjunto de datos ordenados en forma
ascendente o descendente en 10 partes iguales (Fig. 3.7).
0%
D1

10%
D2

20%
D3

30%
D4

40%

50%
D5

D6

Figura 3.7

60%
D7

70%
D8

80%
D9

90% 100%

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

122

D1 = 1er decil, deja 10% de las observaciones menores o iguales a l.


D2 = 2do decil, deja 20% de las observaciones menores o iguales a l.
.
.
.

D9 = 9no decil, deja 90% de las observaciones inferiores o iguales a l y el 10% de


stas superiores a l.
Para determinar los deciles se aplica la siguiente formula:
rn
N j1

c 10
N j N j1

D r Y j1

r = 1, 2,, 9

(14)

Donde:
Y j1 = lmite inferior de la clase que contiene a Dr , r = 1, 2, ..., 9.
n = tamao de la muestra.
c = amplitud de la clase que contiene a Dr.
Nj = frecuencia acumulada de la clase que contiene al r-simo decil, Dr.
Nj-1 = frecuencia acumulada de la clase anterior a la clase que contiene a Dr.
3.1.5. Percentiles.
Son valores que dividen la muestra ordenada en forma ascendente o descendente en
100 partes iguales.
0%
P1

1%

2%
P2

50%

P50

P98

98%

99%

100%

P99

Figura 3.8

P1 = 1er percentil, deja 1% de las observaciones menores o iguales a l y el 99%


superiores a l.
.
.
.

P99 = 99vo percentil, deja 99% de las observaciones menores o iguales a l y el 1%


superiores a l.
La formula para determinar los percentiles, son parecidos a los cuartiles y deciles,
as:

Pr Y j1

rn
100 N j1
c
N j N j1

r = 1, 2, ... , 99

(15)
Donde:
Y j1 = lmite inferior de la clase que contiene a Pr , r = 1, 2, ..., 99.
n = tamao de la muestra.
c = amplitud de la clase que contiene a Pr.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

123

Nj = frecuencia acumulada de la clase que contiene a Pr.


Nj-1 = frecuencia acumulada de la clase anterior a la clase que contiene a Pr.
Ejercicio. Determinar el 4to decil y el 72vo percentil de la siguiente distribucin de
frecuencias.

( Yi1 Yi

Yi

ni

Ni

150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total

152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5

4
5
12
33
17
16
9
4
100

4
9
21
54
71
87
96
100

3.1.6. La Moda.

La moda denotada por X M 0 , es un valor de la variable X que tiene la ms alta


frecuencia, esto es, es el valor ms se repite en un conjunto de datos. La moda puede
no existe, incluso si existe puede no ser nica.
Ejemplo 3.9. En mes, 8 vendedores de artculos electrnicos vendieron los
siguientes nmeros de aparatos: 8, 11, 5, 14, 8, 11, 16 y 11. Considerando a este mes
como a la poblacin estadstica que interesa, el nmero modal de unidades vendidas

es: X M 0 .......
Ejemplo 3.10. Considere la distribucin de los pesos (en kilos) de 15 adultos:
63, 67, 70, 69, 81, 57, 63, 73, 68, 63, 71, 71, 71, 83.
La moda de estas observaciones es:

X ....... kilos

X ....... kilos

En este caso la distribucin se llamar bimodal.


Ejemplo 3.18. Las notas promocinales de 7 alumnos son: 15, 16, 17, 14, 13, 12, 11.
Estos datos No tienen moda. Las distribuciones de este tipo se llaman uniforme.
En general, se tiene lo siguiente:
i) La distribucin que tiene una sola moda se llama unimodal.
ii) La distribucin que tiene dos modas se llama bimodal.
iii) La distribucin que tiene ms de dos modas se llama multimodal.
3.1.6.1. Clculo de la Moda para datos agrupados.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

124

Cuando los datos estn tabulados: La clase que contiene mayor frecuencia ser la que
contiene a la moda, y se llama clase modal.
a) Tablas sin intervalos.
En este caso la moda se determina fijndose en el valor de la variable que ms se
repite.
Ejemplo 3.11. Determine la moda de la distribucin siguiente:
N de hijos por familia
Yi
0
1
2
3
4
5
6 a ms

N de familias
ni
60
120
210
360
160
50
30

Total

990

Solucin.
1. La frecuencia absoluta mxima
es n 4 = 360.
2. Luego, la moda es el valor de
la variable que corresponde a
la frecuencia n 4 = 360, M 0 = 3
hijos.

b) Tablas con intervalos.


Para un conjunto de datos tabulados con intervalos de clases de igual amplitud
(c i = c), la estimacin de la moda se calcula por la frmula obtenida grficamente
como sigue:
si hacemos: 1 n j n j - 1 , 2 n j n j 1
Por tanto, se tiene la siguiente expresin conocida como la frmula de Czuber:

1 2

M o Y Yj1 c j

(17)
Donde:

Y j1 = lmite inferior de la clase modal.


n j = frecuencia absoluta de la clase modal.
n j - 1 = frecuencia absoluta de la clase inmediatamente anterior a la clase modal.
n j 1 = frecuencia absoluta de la clase inmediatamente posterior a la clase modal.

c = amplitud de la clase modal


Para datos agrupados en intervalos de clase, aplicaremos el siguiente procedimiento
para el clculo de la moda.
1. Se identifica la clase modal (la clase con mayor frecuencia).
2. Se aplica la formula para la moda.
Ejemplo 3.12. Determinar la moda para la siguiente distribucin.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

( Yi1 Yi

Yi

ni

150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total

152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5

4
5
12
33
17
16
9
4
100

125

Solucin.
1. El intervalo de clase de mayor frecuencia absoluta ( n 4 n Mo 33 ) es el cuarto
intervalo: (165 170
1 33 12 21
2 33 17 16

c = 5.
2. Aplicando la formula tenemos:

21

Y 165 5
167.8378 167.84 centmetros.
21 16

Este valor modal significa que: la estatura ms frecuente en los alumnos es de 167.84
cm.; o tambin que la mayora de los alumnos tienen una estatura igual a 167.84 cm.
Observacin. La moda tiene una caracterstica especial, pues es la nica medida de
posicin que se puede utilizar sin restricciones a datos cualitativos.
3.1.6.2. Ventajas de la Moda.
1. La moda se puede usar como una localizacin tanto para datos cualitativos
como cuantitativos.
2. La moda no est indebidamente afectada por valores extremos. An si los
valores altos son muy altos y los valores pequeos muy pequeos, se escoge
el valor ms frecuente del conjunto de datos como el valor modal.
3. La moda se puede calcular an cuando una ms de las clases sean abiertas en
los extremos.
4. Es el valor tpico, y por ello el promedio ms descriptivo. Esto ocurre cuando
la distribucin es asimtrica; y cuando el valor de la moda y del promedio es
diferente, es preferible usar la moda.
3.1.6.3. Desventajas de la Moda.
1. Muy a menudo, no hay un valor modal, por que el conjunto de datos no
contiene valores que se repitan ms de una vez. Otras veces, cada valor es la
moda, por que cada uno aparece el mismo nmero de veces. Claramente, la
moda no es una medida til en estos casos.
2. Cuando el conjunto de observaciones contiene dos, tres o ms modas. stas
son difciles de interpretar y comparar.
3. La moda no se presta a manipulaciones algebraicas posteriores.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

126

3.1.7. Relacin entre la Media, Mediana y Moda.


a) Distribuciones simtricas.
Se dice que una distribucin de frecuencia es simtrica cuando valores de la
variable equidistantes de un valor central tienen las mismas frecuencias. Es
importante destacar en este caso que:

~
X X X
ni

x ~
x x
Figura 3.10

b) Si la distribucin es moderadamente asimtrica y unimodal, se cumple


aproximadamente la relacin:
x Mo 3( x Me)

Ejercicio. Considerando la distribucin de frecuencias sobre la estatura de los


alumnos (ver tabla 2.8, pagina 90), se pide analizar la asimetra de la distribucin.

3.1.7. 1. Escogimiento entre la Media, la Mediana y la Moda.


De las tres medidas de posicin central, la media aritmtica suele ser ms
frecuentemente utilizada, quiz por la facilidad de su clculo a pesar de que muchas
ocasiones la mediana o la moda resultan de mayor inters.
a) La media aritmtica como medida de resumen tiene la ventaja de tomar en cuenta
la totalidad de los valores del conjunto de datos, aumentando o disminuyendo de
acuerdo con ellos, pero a causa de esta propiedad, puede ser desventajosamente
afectado por la existencia de valores anormalmente altos o anormalmente bajos. Por
regla general, sin embrago, puede decirse que cuando la serie o conjunto de datos es
ms o menos simtrica, el promedio debe ser preferido a cualquier otra medida de
resumn.
b) La mediana por su parte debe ser utilizada cuando entre los valores que se
estudian, hay alguno muy diferente de los otros. Adems hay ocasiones en que debe
usarse la mediana por no ser el calculo del promedio. Tal caso sucede en aquellas
distribuciones en las cuales la primera o la ltima clase no tienen lmites precisos.
c) La moda no es una medida de tendencia central muy usual, pero se emplea cuando
el inters se centra en conocer el valor que se presenta ms frecuentemente. Por
ejemplo en los negocios, sirve para determinar qu tamao del producto es el de
mayor demanda. Similarmente para programar la produccin de un medicamento el

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

127

fabricante estar interesado en cual es la dosis ms comnmente recetada por los


mdicos?
3.1.8. La media Geomtrica.
3.1.8.1. Media geomtrica para datos no agrupados.
La media geomtrica simple M g x G de n observaciones x 1, x 2,, x n positivas,
esta dada por la raz ensima del producto de los n valores observados, es decir
x G M g n x1 x 2 x n n

(18)

i 1

Ejemplo 3.20. Hallar la media geomtrica de los nmeros 3, 5, 8, 3, 5, 2.


Solucin. En este caso la media geomtrica es:

x G 6 3 5 8 3 5 2 6 32 52 4 2 3 3 5 4 3 60 3.914867 3.915
En la prctica, el clculo de la media geomtrica se hace ms rpido tomando
logaritmo y luego el antilogaritmo de ste como sigue:
log x G log n x 1 x 2 x n

log x G

1
log x1 log x 2 log x n
n

1 n
log x i
n i 1

Ahora basta calcular el antilogaritmo de la expresin anterior para tener:

log x

x G antilog

i 1

(19)

Hemos usado logaritmo de base 10, es claro que puede usarse cualquier sistema de
logaritmo.
En cuanto a la denominacin media geomtrica proviene del hecho de que es el
trmino central de una progresin geomtrica de un nmero impar de observaciones.
Es decir, de una sucesin de nmeros positivos, tales que la relacin de cada una con
el precedente es una constante. Por ejemplo, en las progresiones geomtricas:
1.

2.

18

54

162

En la primera serie, el trmino central 4 es la media geomtrica.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

128

x G 3 2 4 8 3 64 4

En efecto:

En la segunda progresin geomtrica, el trmino central 18 es la media geomtrica.

x G 5 2 6 18 54 162 5 2 6 18 18 3 18 9 5 185 18

En efecto:

3.1.8.2. Media geomtrica para datos agrupados.


Si los datos estn agrupados en clases, la media geomtrica ponderada, es la raz
ensima del producto de las marcas de clases elevadas a sus respectivas frecuencias,
es decir:
y G n y1n1 y n2 2 y nk k n

ni
i

(20)

i 1

Donde n n i , y i = marca de clase, i = 1, 2,, k, k=nmero de clases.


i 1

Aplicando logaritmo a ambos miembros de la expresin anterior se tiene:


log y G

k
1
n1log y1 n 2log y 2 n k log y k 1 n i log yi
n
n i1

Luego,

y G antilog

i 1

log y i
n

(21)

Ejemplo 3.13. Hallar la media geomtrica de la siguiente distribucin de


frecuencias:
Marca de clase 92 93 94 95 96
frecuencia
4 11 21 10 4

Solucin. Las operaciones pueden verse en la siguiente tabla:


yi
92
93
94
95
96
Totales

ni
4
11
21
10
4
50

log y i
1.9637878
1.9689829
1.9731278
1.9777236
1.9822712

n i log y i
7.8551513
21.653312
41.435684
19.777236
7.929084
98.650469

log x G

1 k
98.650469
n i log y i

n i 1
50
1.97300938

Luego,
x G antilog(1.97300938) 93.974363

3.1.8.3. Ventajas y desventajas de la Media Geomtrica.


Ventajas.
1. Se utiliza cuando se quiere dar importancia a valores pequeos de la
variable.
2. Su valor no es muy influenciable por los datos extremos, como sucede con
los otros promedios.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

129

3. Se debe utilizar cuando lo que se va a promediar son tasas de cambio o


proporciones.
4. Es indispensable cuando se desea sacar el promedio de una serie de valores
que estn dados en progresin geomtrica o aproximadamente geomtrica.
Desventajas.
1. Su clculo es muy engorroso.
2. Est limitado para valores positivos para que pueda ser interpretado.
3. Si algn valor de la variable es cero, la media geomtrica ser cero.
4. Si aparece algn valor negativo, el estadgrafo toma un valor negativo o
imaginario y cuando el nmero de datos es par, tericamente tiene dos
valores: uno positivo y otro negativo.
3.1.9. La media Armnica.
3.1.9.1. Media Armnica de datos no agrupados. La media armnica Mh x H de
n trminos no nulos x1, x2,, xn es el recproco de la media aritmtica de los
recprocos de esos trminos. Es decir
x H Mh

1
/n

i 1 x i
n

n
n

x
i 1

(22)

Ejemplo 3.14. La media armnica de los nmeros 3, 4, 6 y 8 es:


xH

4
1 1 1 1

3 4 6 8

4
4
4 24 32

4.57143
8 6 4 3 21
21
7
24
24

Observemos que la aritmtica y la media geomtrica con los mismos datos son
respectivamente:
x 5.25 y x G 4.899

3.1.9.2. Media Armnica de datos agrupados. La media armnica para datos


tabulados (media armnica ponderada) se define por:
yH M h

1
k

1
ni

n i1 y i

n
ni

i 1 y i
n

(23)

donde k = nmero de clases, yi = marca de clase, ni = frecuencia de clase con


i=1, 2,, k
Ejemplo 3.14. Con los datos de la siguiente tabla de frecuencias, correspondiente a
una distribucin continua, calcular la media armnica.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

yi-1 yi
2.0 - 6.0
6.0 - 10.0
10.0 - 14.0
14.0 - 18.0
18.0 - 22.0

ni
3
7
12
16
20

yi
4
8
12
16
20

n i /y i
0.750
0.875
1.000
1.000
1.000

yH

130

58

4.625

n
58

12.54
n i 4.625

i 1 y i
n

3.1.9.3. Ventajas y desventajas de la Media Armnica.


Ventajas.
1. Se usa preferentemente para calcular la velocidad media.
2. De gran utilidad cuando la variable est dada en forma de tasa, costo
medio de bienes comprados con una cantidad fija.
Desventajas
1. La media armnica se basa en todas las observaciones por lo que est
afectado por los valores extremos.
2. La media armnica no esta definido, si alguno de los valores es cero.
3.2. Medidas de dispersin.
Todos los valores representativos discutidos en las secciones precedentes han sido
una especie de promedio o medida de posicin. Sin embargo, el uso de un solo valor
para describir una distribucin oculta muchos fenmenos importantes. Por ejemplo,
dos grupos separados de datos pueden contener la misma media, pero un grupo
puede estar ms disperso o esparcido alrededor del valor promedio que el otro.
Por lo que es necesario una medida de la dispersin, esparcimiento o variacin para
ayudar ms completamente la distribucin. Mientras menor es la dispersin, ms
tpico es el valor de la media para toda la distribucin.
Las medidas de dispersin que se utilizan con mayor frecuencia son: la varianza, la
desviacin estndar y el coeficiente de variacin.
A fin de obtener una primera impresin, rpida aunque no muy precisa, de la
dispersin que existe en una masa de datos (o en una tabla estadstica en estudio), se
emplean dos tipos de recorridos. El ms sencillo, es el que hemos definido en
acpites anteriores como recorrido de la variable o rango, el recorrido intercuartil,
recorrido interdecil, etc.
3.2.1. El recorrido de la variable. El recorrido R de la variable, es la diferencia
entre los dos valores extremos. Es decir:
R X max X min

(24)

Si el recorrido de la variable es mayor en un conjunto de observaciones que en otro,


debe esperarse, en principio que la dispersin de datos sea superior tambin en uno
que en el otro, como puede verse en los ejemplos (a) y (b).
a. 9, 10, 11, 12, 13, 14, 15

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

131

b. 6, 8, 10, 12, 14, 16, 18


Sin embargo, en ciertas ocasiones el recorrido ofrece una medida errnea de la
dispersin, debido a que slo se emplean para calcularlo los valores extremos. Por
tanto, ignora la naturaleza de la variacin entre todas las dems observaciones y est
altamente influenciado por los valores extremos. As en los ejemplos siguientes:
1. 2, 2, 7, 7, 7, 8, 8, 8, 8, 9, 9, 9, 14
2. 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14
en ambos casos el recorrido es R = 14 2 = 12 , y sin embargo, la dispersin de los
datos en la segunda serie es significativamente mayor. Este inconveniente se subsana,
al menos en parte, utilizando el recorrido intercuartilico.
3.2.2. El recorrido intercuartilico. Se define como la diferencia entre el tercer y
primer cuartil (o tambin la diferencia entre los percentiles 75 avo y 25 avo ). Es decir
RI Q 3 Q1

R P75 P25

(25)

El diagrama siguiente muestra esquemticamente el recorrido intercuartil.


Recorrido intercuartilico
X(1)

de elementos

observacin
menor

de elementos

1er. Cuartil

2do. Cuartil

3er. Cuartil

Q1 = P25

Q2 = P50

Q3 = P75

X(n)
observacin
mayor

Figura 3.13

Esta medida de dispersin es, evidentemente, ms exacta que el simple recorrido de


la variable, ya que evita el inconveniente de valores extremos anormales, tomando
aquellos dos valores que dejan entre s el 50% de los valores (los ms centrales) de la
variable. As, para los dos ejemplos, tenemos:

n =13,

3(n 1) 42
n 1 14

3.5 y

10.5 . Entonces
4
4
4
4

para el ejemplo 1, es
Q1= X(3) + (X(4) X(3)) (0.5) = 7 + (7 7)(0.5) = 7
Q3= X(10) + (X(11) X(10)) (0.5) = 9 + (9 9)(0.5) = 9
para el ejemplo 2, es

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

132

Q1= X(3) + (X(4) X(3)) (0.5) = 4 + (5 - 4)(0.5) = 4.5


Q3= X(10) + (X(11) X(10)) (0.5) = 11 + (12 11)(0.5) = 11.5
Es decir:
1. 2, 2, 7,
2. 2, 3, 4,

7, 7, 8, 8, 8, 8, 9,
5, 6, 7, 8, 9, 10, 11,
Q1

9, 9, 14
12, 13, 14

Q3

Por lo tanto, aunque el recorrido de la variable es igual en ambos casos, el recorrido


intercuartilico toma los valores:
RI1 Q 3 Q1 9 7 2
RI 2 Q 3 Q1 11.5 4.5 7

marcando claramente la mayor dispersin que existe en el segundo caso.


3.2.4. Desviacin Media Absoluta.
Definicin. Sea x1, x2,, xn una muestra de tamao n. La desviacin media absoluta
o simplemente desviacin media DM es la media aritmtica de los valores
absolutos de las desviaciones de los valores observados respecto de la media
aritmtica de stas. Es decir:
n

DM

i 1

si los datos no estn tabulados

(27)

n
k

DM

xi x

i 1

yi y n i

, si los datos estn tabulados.

(28)

donde :
k = nmero de clases
ni = frecuencia absoluta de la clase i,
yi = marca de clase o punto medio de la clase i.
La desviacin media se puede utilizar como medida de dispersin en todas aquellas
distribuciones en las que la medida de tendencia central ms significativa haya sido
la media. Pero, para las mismas distribuciones es mucho ms significativa la
desviacin estndar, que se ver despus.
Ejemplo 3.15. Los pesos respectivos de ocho nios (en kilogramos) son:
15, 12, 10, 18, 14, 22, 17, 20
Determine la desviacin media absoluta.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

133

Solucin. La tabla siguiente muestra el procedimiento a seguir para calcular la


desviacin media absoluta.
Observacin
xi

Desviacin

xi x

Desviacin
absoluta
xi x

10
12
14
15
17
18
20

-6
-4
-2
-1
1
2
4

6
4
2
1
1
2
4

22
128

x
n

DM

6
26

128
16 kg.
8
i

26
3.25 kg.
8

3.2.5. Desviacin Mediana Absoluta.


Definicin. La desviacin mediana DMe es el promedio de los valores absolutos
de las diferencias entre cada observacin y la mediana de stas. Es decir:
n

DMe

x
i 1

Me

, si los datos no estn tabulados

(29)

n
k

DMe

i 1

y i Me n i

, si los datos estn

(30)

Ejemplo 3.16. Hallar la desviacin mediana de los pesos de los nios del ejemplo
3.30.
Solucin.
En primer se determina la mediana de los datos:
Las observaciones escritas en forma ascendente son:
10, 12, 14, 15, 17, 18, 20, 22
n = 8, es par, entonces la mediana es la semisuma de los valores centrales
Me

15 17
16
2

El derecho del procedimiento restante para el clculo de la desviacin mediana, se


resume en la tabla adjunta.
Observacin
xi

Desviacin

x i Me

Desviacin absoluta
x i Me

10
12
14
15
17

-6
-4
-2
-1
1

6
4
2
1
1

18
20
22
128

2
4
6

2
4
6
26

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

DMe

134

26
3.25
8

kg
3.2.6. La varianza. Esta medida al igual que la desviacin estndar son las utilizadas
en el estudio de la dispersin. La varianza mide la dispersin de los datos con
respecto a la media aritmtica. Daremos primero la definicin de varianza
poblacional.
Definicin 1. Varianza Poblacional. La varianza o variancia de una poblacin finita
de N elementos x1, x2,, xN, se define como la media aritmtica del cuadrado de las
desviaciones de los elementos con respecto a su media , y se denota por 2 . Es
decir:
N

2 M (x ) 2

(x
i 1

) 2

(31)

Definicin 2. Varianza de una muestra. La varianza o variancia de una muestra x1,


x2,..., xn de la variable o caracterstica X (que abreviadamente escribiremos V(X) ),
se define como la media aritmtica del cuadrado de las desviaciones con respecto de
la media aritmtica x de esos datos. Si se denota S2 a la varianza de la
caracterstica x, entonces
n

V(x) S2X M (x x ) 2

(x
i 1

x)2

(32)

n
k

para datos no tabulados

V(y) S2y M (y y) 2

(y
i 1

y) 2 n i

para datos tabulados o agrupados

n
(33)

Donde :
n i = frecuencia absoluta de la clase i.
y i = marca de clase o punto medio de la clase i.
Si conocemos el valor de la media aritmtica poblacional , la mejor estimacin de
la varianza poblacional 2 a partir de una muestra sera:
N

V(X)

(x
i 1

) 2

Sin embargo, rara vez, si es que ello es posible, conocemos el valor de , de modo
que en el numerador de la expresin anterior se sustituye por su estimado x .
Ahora bien x , vara de muestra a muestra y rara vez es exactamente igual a .

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

(x

Por otro lado sabemos por la propiedad 3.6 que

i 1

135

x ) 2 es mnimo, es decir es

menor que la suma de cuadrados de las desviaciones de las observaciones respecto de


cualquier otro valor diferente de x .
n

(x

Por tanto, si x no es exactamente igual a ,

i 1

x) 2 <

(x
i 1

) 2 .

Si dividimos ambos miembros de la desigualdad por n tendramos:


n

(x
i 1

n
n

(x

Esto significa que

i 1

x)2

x) 2

(x
i 1

) 2

dar una estimacin demasiado pequeo de 2 . De

n
ah resulta que la correccin apropiada puede ser hecho mediante la utilizacin en el
denominador de n - 1 en vez de n. Es decir, se tendra:
n

(x
i 1

x)

(x
i 1

La diferencia entre

(x i x ) 2 / n y
i 1

x)

n -1
n

(x
i 1

(x
i 1

) 2

x ) 2 /(n 1) es grande para muestras

pequeas, y es mnima para muestras grandes, prcticamente son iguales. Entonces,


para muestras grandes n 60, puede usarse cualquiera de las frmulas. Para muestras
n

pequeas se usa

(x
i 1

x ) 2 /(n 1) , lo cual es llamada varianza muestral o

tambin varianza corregida, y se acostumbra denotarla por S2 x o simplemente S2


si no hay confusin. Es decir, la varianza muestral estar definida por
n

V(x) S2

(x
i 1

Note que

S2

para datos no tabulados

(34)

para datos tabulados

(35)

n -1
k

V(y) S2

x)2

(y
i 1

n 2
S .
n 1

Entonces para datos tabulados

y) 2 n i
n -1

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

V(y) S2

n
n 1

(y
i 1

y) 2 n i
n

136

n k
(yi y) 2 h i

n 1 i1

n
se conoce como la correccin de Bessel.
n 1

El factor

Nota. En inferencia estadstica se ver otras razones por el cual se usa n - 1 en vez de
n en la definicin de la varianza muestral.
Ejemplo 3.17. Las frecuencias cardiacas de 5 nios son: 130, 132, 127, 129, 132
pulsaciones por minuto.
Determinar la varianza de la frecuencia cardiaca de la muestra.
Solucin.
Primero debemos determinar la media muestral x , en efecto tenemos,
n

x
i 1

pulsaciones por minuto.


650
130
5

Por tanto:
n

S 2

(x
i 1

(x
i 1

(130 130) 2 (132 130) 2 (127 130) 2 (129 130) 2 (132 130) 2
5
18

3.6
5

S2

x)2

x) 2

n -1

18
4.5
4

Se puede observar que

S2 es claramente menor que S , debido a que la muestra es


2

pequea.
Ejemplo 3.18. El siguiente cuadro muestra la distribucin de acuerdo a su estatura en
centmetros de 100 estudiantes de la UNP.
Estatura

( Yi1 Yi
150
155
160
165
170

- 155
- 160
- 165
- 170
- 175

Yi

Nmero de
alumnos, n i

152.5
157.5
162.5
167.5
172.5

4
5
12
33
17

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

175 - 180
180 - 185
185 - 190
Total

177.5
182.5
187.5

137

16
9
4
100

Hallar la varianza de la muestra.


Solucin. En el siguiente cuadro se resume el procedimiento para el clculo de la
varianza.
Estatura

( Yi1 Yi

Yi

150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total

152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5

Se sabe que:

i 1

ni

Nmero de
alumnos, n i

(y i y) 2

(y i y) 2 n i

4
5
12
33
17
16
9
4
100

320.41
166.41
62.41
8.41
4.41
50.41
146.41
292.41
1055.28

1281.64
832.05
748.92
277.53
74.97
806.56
1317.69
1169.64
6509.00

centmetros.
17040.0
170.4
100

Luego,
k

S
2

(y y) n
2

i 1

n
k

V(y) S2

(y
i 1

y) 2 n i
n -1

centmetros al cuadrado.
6509
65.09
100

centmetros al cuadrado.
6509
65.7474
99

Note la diferencia entre las varianzas calculadas usando

S2 y S .
2

3.2.6.1. Formulas de trabajo para el clculo de la varianza.


Otra forma de expresar las frmulas de la definicin de la varianza que facilite los
clculos de sta se desarrolla a continuacin:
1. Desarrollemos la suma de los cuadrados de las desviaciones:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS


n

i 1

i 1

138

(x i x ) 2 (x i2 2x i x x )
2

i 1

i 1

x i2 2x x i x
i 1

x i2 2x n

x /n

i 1

nx

i 1

x i2 2n x 2 n x x i2 n x
2

i 1

i 1

2. Sustituyendo este resultado en la definicin de la varianza, denotado por:

S2

1 n
1
(x i x ) 2

n i1
n

x
2
i

i 1

x
i 1

i 1

x i2 /n

i 1

x i /n

x i2 /n x

i 1

S2 M(x 2 ) M(x) 2

(36)

3. Y sustituyendo, en la definicin de S2 se tiene:

1
1
S
(x i x ) 2 n - 1
n - 1 i 1
2

x
2
i

i 1

i 1

xi

i 1

2
i

i1
n 1

/n

(37)

Las formulas (36) y (37) para datos tabulados se escribe:


k

S 2

y n
2
i

i 1

y n

i 1

S
2

y n
i 1

2
i

M(y 2 ) M(y)

(38)

y n

i1
n -1

/n

(39)

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

139

Ejemplo 3.19. Usando las formulas de trabajo, determinar la varianza para las
frecuencias cardiacas de los 5 nios del ejemplo 3.31.
Solucin. Calculamos en una tabla todos los valores que necesitamos sustituir en las
(36) y (37).
x i 650 130
xi
M(x) x
x i2
n
5
127 16129
2
x i 84518 16903.6
129 16641
M(x 2 ) x
130 19900
n
5
132
132
650

17424
17424
84518

Luego, aplicamos la frmula:

Clculo de 2 :

S2 M(x 2 ) M(x) 2 16903.6 (130) 2 3.6

primero se halla

Clculo de S2 : primero calculamos

x
i

(650) 2 422500

Luego, se aplica la frmula:

S2

1
n -1

x i2

i 1

xi

i 1

1 84518 422500 18 4.5

4
5
4

Ejemplo 3.35. Usando las formulas de trabajo, determinar la varianza de la


distribucin de acuerdo a su estatura de 100 estudiantes de la UNP (ver ejemplo
3.33).
Solucin. Calculamos en una tabla todos los valores que necesitamos sustituir en las
(38) y (39).

( Yi1 Yi y i
150 - 155
155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total

Luego,

152.5
157.5
162.5
167.5
172.5
177.5
182.5
187.5

ni

yi n i

y i2

y i2 n i

4
5
12
33
17
16
9
4
100

610.0
787.5
1950.0

23256.25
24806.25
26406.25

93025.0
124031.25
316875.0

17040.0

232250.0

2910124.9

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

S 2 M(y 2 ) M(y)

y i2 n i
i 1

yi n i

i 1

140

2910124 .9 17040

100
100
29101.249 29036.16

65.089

y
1
S

n 1
2

y n
i 1

2
i

y n
i 1

1
17040 2
2910124.9
/n

99
100

1
2910124.9 2903616 6508.9 65.746
99
99

3.2.7. La Desviacin Estndar o Desviacin Tpica.


Si bien ya sabemos como expresar cuantitativamente la dispersin de un conjunto de
observaciones, ocurre un inconveniente en cuanto a la interpretacin de esta
cantidad, ya que ella est dada en el cuadrado de la dimensin en que se expresa la
caracterstica, y en ocasiones trae confusin. Es conveniente, entonces contar con
otro estadgrafo que basado en el valor de la varianza, sirva para dar una medida de
la dispersin en la misma dimensin e que estan los datos. Esta medida es la
desviacin estndar o desviacin tpica.
Definicin. La desviacin estndar o desviacin tpica de las observaciones
x1, x2,..., xn de la variable X, se define como la raz cuadrada positiva de la varianza,
y se denota por S. Es decir
D(x) S

V(X)

(44)

El valor numrico de S cuantifica el grado de dispersin de los valores de una


variable con respecto a su media. Mientras mayor es la dispersin de las
observaciones, mayor es la magnitud de sus desviaciones respecto a la media y por
ende, ms alto el valor numrico de la desviacin estndar.
Ejemplo 3.20. Se determino los pesos de una muestra de cartas procesadas en una
oficina postal, pesadas hasta el gramo ms prximo, son: 21, 18, 30, 12, 14, 17, 28,
10, 16 y 25.
Determine la desviacin estndar.
Solucin.
Aplicando formula de trabajo para el clculo de la varianza, tenemos:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

10

10

x i 21 18 25 191

i 1

i 1

2
i

141

212 18 2 25 2 4059

Luego:

S2

1
n 1

x
i 1

2
i

i 1

xi

2
1 4059 (191) 45.6555

9
10

Por tanto, la desviacin estndar ser la raz cuadrada del valor obtenido en la
varianza, es decir:
S

45.6555 6.7569

gramos.

Ejemplo 3.21. Con relacin al ejemplo 3.33, referida a la informacin de la


distribucin de 100 alumnos de la UNP, de acuerdo a su estatura en centmetros. Se
pide determinar la desviacin tpica de la distribucin.
Solucin.
Se sabe que la varianza toma el valor de 65.746 centmetros al cuadrado.
Por tanto la desviacin estndar es: S = 8.1085 centmetros.

Si la dispersin absoluta es la desviacin estndar S, la dispersin relativa recibe el


nombre de coeficiente de variacin. Es decir.
Coeficiente de variacin = C.V

S
x

(51)

El coeficiente de variacin, significa, por tanto, el nmero de veces (o tanto por uno,
ya que habitualmente el cociente ser inferior a la unidad) que supone la desviacin
estndar respecto a la media.
Generalmente el coeficiente de variacin se expresa en porcentaje. El C.V es un
nmero puro independiente de la unidad de medicin.
Observacin. Si el C.V es menor del 10% se dice que hay poca dispersin;
Si el C.V oscila entre el 10% y el 33% la dispersin existente es aceptable;
Si el C.V oscila entre el 33% y el 50% se dice que hay alta dispersin;
Pero si el C.V es mayor del 50% se dice que la dispersin es muy alta.
Ejemplo 3.45. Calcular la dispersin relativa para los datos de la ejemplo 3.33.
Solucin. Se sabe que: Y 170.4 centmetros y S = 8.1085 centmetros, entonces
el C.V es:
C.V

8.1085
100 4.76%
170.4

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

142

Como el valor de C.V = 4.76% es menor que el 10% y 33%, indica que existe poca
dispersin (baja dispersin).
Ejemplo 3.46. Para 2 acciones comunes de empresas de la industria electrnica, el
precio promedio de cierre en el mercado de valores durante un mes fue, para la
accin A, de $1500, con una desviacin estndar de $500. Para la accin B, el precio
promedio fue de $5000, con una desviacin estndar de $300.
a) Efectuar Hacer una comparacin de la variabilidad absoluta de las acciones.
b) Realizar una comparacin de la variabilidad con respecto al nivel medio de los
precios.
Solucin.
a) Al hacer una comparacin absoluta, result ser superior la variabilidad en el
precio de la accin A debido a que muestra una mayor desviacin estndar.
b)

Con respecto a la variabilidad relativa, deben compararse los respectivos


coeficientes de variacin:
C.V(A)

500
0.33
1500

C.V(B)

300
0.060
5000

Por ello, puede concluirse que el precio de la accin A ha sido casi 5 veces ms
variable que el precio de la accin B (con respecto al precio promedio para cada una
de las dos).
Ejemplo 3.22. Las notas del curso A tuvieron una media aritmtica de 75 puntos y
una varianza de 225. Las del curso B, tuvieron una media de 70 puntos y una
varianza de 196. Si en ambos cursos las notas se aumentaron en 10%, cul de los
dos cursos tienen un coeficiente de variacin mayor despus de arreglar las notas?
Solucin.
Sea xA la variable que representa las notas del curso A. Por tanto, las notas
aumentadas en 10% sern:
y A 1.1x A

Entonces, y A M(1.1x A ) 1.1x A 1.1 75 82.5


y S y 1.1SA 1.1 225 16.5
A

Luego,

C.VA

Sy A
yA

16.5
0.2
82.5

(20%)

Similarmente, sea xB la variable que representa las notas del curso B. Entonces, las
notas aumentadas en 10% sern:
y B 1.1x B

y B M(1.1x B ) 1.1x B 1.1 70 77

S y B 1.1SB 1.1 196 15.4

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

Luego.

C.VB

Sy B
yB

15.4
0.2
77

143

(20%)

Las notas de ambos cursos tienen igual coeficiente de variacin.

3.3.1. Medidas de Asimetra.


Las medidas de asimetra indican la deformacin horizontal de las distribuciones de
frecuencias. Una distribucin es simtrica, como sabemos, cuando su curva (o
polgono) de frecuencias es simtrica respecto al eje vertical.
En el caso de polgonos de frecuencias unimodales simtricas, como sabemos, la
media aritmtica, la mediana y moda coinciden (ver fig.3.15).
Cuando la curva de frecuencias est inclinada o alargada hacia derecha o hacia
valores grandes de la variable (ver fig. 3.16), se dir que la distribucin de frecuencia
unimodal presenta asimetra positiva o a la derecha, y si esta alargada o inclinada
hacia el lado izquierdo o hacia valores pequeos de la variable (ver fig. 3.17), se dir
que la distribucin de frecuencia unimodal presenta asimetra negativa o a la
izquierda.
n

x ~
x x
Figura

ni

3.15.

~
x

Distribucin

x
simtrica

Figura 3.16. Asimtrica positiva

ni

~
x

Figura 3.17. Asimtrica negativa

3.3.1.1. Diagrama de caja.


La representacin del histograma proporciona impresiones visuales generales acerca
de un conjunto de datos, en tanto que las cantidades numricas tales como x o S
proporcionan informacin acerca de una caracterstica particular de los datos. El

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

144

diagrama de caja es una representacin que describe simultneamente varias


caractersticas importantes de un conjunto de datos, como el centro, la dispersin,
desviacin de la asimetra y la identificacin de observaciones que caen
inusualmente lejos del grueso de los datos (a estas observaciones se les llama puntos
atpicos).
El diagrama de caja resulta bastante til cuando el tamao de la muestra no es muy
grande y los histogramas no muestran bien su forma.
El bigote se extiende desde el primer
cuartil hasta el punto del dato menor
dentro de 1.5 rangos intercuartlicos.

El bigote se extiende desde el tercer


cuartil hasta el punto del dato mayor
dentro de 1.5 rangos intercuartlicos

LI

LS
Primer cuartil

Segundo cuartil

Puntos atpicos

Tercer cuartil

Puntos atpicos
Punto atpico extremo

Figura 3.18. Descripcin de un diagrama de caja.

En este tipo de grfica se representan los tres cuartiles y los datos mnimo y mximo
en una caja rectangular alineada en sentido horizontal o vertical. La caja abarca el
recorrido intercuartilico, con el borde izquierdo (o el inferior) en el primer cuartil,
Q1, y el borde derecho (o el superior) en el tercer cuartil, Q3. Se traza una lnea a
travs de la caja en el segundo cuartil (que es el precentil 50 o la mediana), Q 2 = ~
x.
Una lnea, o bigote, se extiende desde cada extremo de la caja. El bigote bajo o
izquierdo es una lnea que va del primer cuartil al punto correspondiente al menor de
los datos dentro de 1.5 rangos intercuartlicos a partir del primer cuartil. El bigote
superior o derecho es una lnea que va del tercer cuartil al punto correspondiente al
mayor de los datos dentro de 1.5 rangos intercuartlicos a partir del tercer cuartil. Los
datos que se encuentran alejados de la caja ms all de los bigotes se grafican como
puntos individuales. A un punto situado despus de un bigote, pero a menos de 3
rangos intercuartlicos del borde de la caja, se le llama punto atpico. A un punto
situado a ms de 3 rangos o a menos de 3 rangos intercuartlicos del borde de la caja,
se le llama punto atpico extremo (vease la figura 3.18). Ocasionalmente se usan
smbolos diferentes, tales como crculos vacos o rellenos, para identificar las dos
clases de puntos atpicos. En ocasiones los diagramas de cajas reciben el nombre de
diagramas de cajas y bigotes.
En la figura 3.18 se muestra el diagrama de caja e indica que la distribucin no es
simtrica alrededor del valor central, ya que tanto los bigotes izquierdo y derecho
como las longitudes de las cajas izquierda y derecha alrededor de la mediana son
desiguales. Es decir que la distribucin tiene una asimetra positiva. Hay tambin dos
puntos ligeramente atpicos en cada extremo de los datos.
Construccin de un diagrama de caja.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

145

1.

Se ordenan los datos de la muestra, identificando el valor mnimo y el


mximo. Luego obtener Recorrido = x mx. x min. y los tres cuartiles Q 1, Q 2 y Q 3.

2.

Se dibuja un rectngulo cuyos extremos son Q 1 y Q 3, e indicar la posicin de la


mediana (Q 2) mediante un segmento de recta vertical. As, dentro de la caja
queda representado el 50% central de la informacin contenida en los datos.

3.

Se calculan los lmites admisibles superior e inferior que sirven para identificar
los valores atpicos, como sigue:
Recorrido intercuartlico = RI = Q3 Q1
Longitud del bigote bajo o izquierdo = LI = Q1 1.5 RI = Q1 1.5 (Q3 Q1)
Longitud del bigote superior o derecho = LS = Q3 1.5 RIQ = Q3 + 1.5 (Q3 Q1)

4.

Dibujar un segmento de lnea recta que vaya desde cada extremo del rectngulo
central hasta los lmites admisibles LI y LS.

5.

Identificar todos los datos que estn fuera del intervalo [LI ; LS], marcndolos
como atpicos.

LI

LS

Valores atpicos

Valores atpicos
1.5 (Q3 - Q1)

1.5 (Q 3 - Q1)
RI

1.5 RI

Me = Q 2

Q3

x mn.

Q1

x mx.

Con este diagrama se puede visualizar la simetra o asimetra de la distribucin.


As mirando la caja:
Si la lnea trazada en la mediana est en el centro de la caja, la distribucin de
los datos tiende a ser simtrica.
Si la lnea de la mediana se acerca al lmite inferior de la caja, hay indicios de
asimetra positiva o a la derecha.
Si la lnea de la mediana se acerca al lmite superior de la caja, es una
indicacin de asimetra negativa o a la izquierda.
Mirando las lneas, su longitud relativa puede usarse tambin como indicacin de
asimetra. As:
Si la lnea que se extiende desde el lmite superior de la caja al mximo valor
de la variable es ms larga, los datos presentan asimetra a la derecha.
Si es ms larga la lnea que va desde el lmite inferior de la caja hasta el
mnimo valor de la variable, hay indicios de asimetra a la izquierda.
Ejemplo 3.23. Cada da de la primera quincena de enero atracan en un puerto
pesquero el siguiente nmero de lanchas pesqueras:
95 89 77 87 81 89 92 103 87 82 80 100 79 74 83

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

146

Dibuje un diagrama de caja para estudiar la forma de la distribucin de los datos.


Solucin. Primero se ordenan los datos de menor a mayor.
74 77 79 80 81 82 83 87 87 89 89 92 95 100 103
donde Xmn.= X(1) = 74 y Xmx.= X(15) = 103
El recorrido de la variable es Re = 103 74 = 29
El cuartil inferior Q1 es el valor que ocupa el lugar

n 1 16

4
4
4

As, Q1 X ( 4 ) 80
2(n 1) 16

8 , con lo que
4
2

El segundo cuartil Q2 es el valor que ocupa el lugar


Q2 X (8) 87

El cuartil superior Q3 es el valor que ocupa el lugar


Q3 X (12 ) 92

3(n 1) 3 16

12 , entonces
4
4

Los lmites admisibles son:


LI = Q1 1.5 (Q3 Q1) = 80 1.5 (92 80) = 80 18 = 62
LS = Q3 + 1.5 (Q3 Q1) = 92 + 1.5 (92 80) = 92 + 18 = 110
El diagrama de caja es:
L I= 62

L S = 110

x mn.

Q1

Q2

Q3

x mx

74

80

87

92

103

Se puede concluir al observar el diagrama de caja, que hay indicios de asimetra


negativa para este conjunto de datos.
Ejemplo 3.24. Para la informacin contenida en el ejemplo 3.33, referente a los 100
alumnos de la UNP, segn su estatura, se pide construir el Diagrama de caja y
bigotes. Interprete el tipo de asimetra de la distribucin.
Solucin. Se tiene la siguiente informacin estadstica:
ymn. = 150, ymx = 190, Q1 165.61 , Q 2 169.4 , Q 3 176.25
Los lmites admisibles son:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

147

LI = Q1 1.5 (Q3 Q1) = 165.61 1.5 (176.25 165.61) = 149.65


LS = Q3 + 1.5 (Q3 Q1) = 176.25 + 1.5 (176.25 165.61) = 192.21
El diagrama de caja es:

L I= 149.65

x mn.

LS = 192.21

Q1

Q2

Q3

x mx

150

165.61

169.4

176.25

190

Se puede observar en el diagrama de caja, de que hay indicacin de una asimetra


positiva o a la derecha.

3.3.1.2. Coeficientes de Asimetra


Coeficiente de Pearson.
Teniendo en cuenta que la media aritmtica y la moda coinciden en una distribucin
simtrica, Pearson propuso un coeficiente relativo de asimetra para curvas de
frecuencias unimodales:

Media Moda
xx
CA S

Desviacion estndar
S

(59)

Si CA S 0 , la distribucin es simtrica.
Si CA S 0 , la distribucin tiene asimetra positiva o sesgada hacia la derecha.
Si CA S 0 , la distribucin tiene asimetra negativa o sesgada hacia la izquierda.
Es razonable pensar que tiene sentido obtener este coeficiente en distribuciones
unimodales.
Sin embargo, es conocido que la moda de una distribucin no es fcil de calcular y
para muchas distribuciones solo es una aproximacin. Entonces, podemos expresar el
numerador de la expresin anterior en funcin de la mediana. Considerando la
relacin emprica entre la media, la mediana y moda (ver 3.7.1) para distribuciones
de frecuencias unimodales y moderadamente asimtricas.
x Mo 3( x Me)

El coeficiente de asimetra anterior propuesto por Pearson se expresa como:

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

3( x Me) 3( x ~
x)

S
S

CA S

148

(60)

Los coeficientes de asimetra anteriores se llaman, respectivamente primero y


segundo coeficientes de Pearson.
Coeficiente de Asimetra en funcin de los momentos.
Veamos cmo se puede obtener otro coeficiente de asimetra que prescinda de la
moda y mediana.
El tercer momento respecto a la media es:
n

M 3 M (x - x ) 3

(x
i 1

x)3

n
k

M r M (y - y)
3

, para datos no tabulados. r = 1, 2, 3,...

n (y
i

i 1

y)3

, para datos no tabulados.

La unidad de medida de M3, no es la misma que la unidad de las observaciones, es


decir, tiene dimensin 3 respecto a la magnitud del fenmeno. Por ello para tener un
coeficiente de asimetra, no slo adimensional (puro), sino tambin invariante,
dividimos, M3 por el cubo de la desviacin tpica (S 3 >0), resultando el llamado
coeficiente de asimetra de Fisher:
n

(x

CA S

i 1

x ) 3 /n

S
k

CA S

n (y
i 1

i 1

(x

i 1

(62)

(x i x )

Pero S3

M 3 , para datos agrupados.


S3

(61)

y)3 /n

M 3 , para datos no agrupados.


S3

x)2

M2

Luego, el coeficiente de asimetra en funcin de los momentos se escribe:

CA S

M3
M2

La interpretacin de este coeficiente es semejante a los otros.

(63)

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

149

3.3.1.3. ndice de Asimetra.


Una medida clsica de la asimetra esta basado sobre el tercer momento con respecto
3
a la media, M 3 E (x ) . . Este momento es dividido por 3 , donde

E (x )

1/2

es la desviacin estndar. Este cociente resultante

E (X ) 3
3

(66)

es usado comnmente como un ndice de asimetra poblacional. Valores negativo


grande de nos indican que existe asimetra negativa, mientras que valores
positivos relativamente grande sugieren asimetra positiva.
ndice de asimetra muestral.
Para distribuciones muestrales el ndice de asimetra es estimado usando los
n

3
momentos muestrales (x i x ) y
i 1

(x
i 1

x ) 2 . El estimador del ndice , es el

ndice muestral de asimetra:


n

n (x i x ) 3
i 1

n (x i x ) 3

(67)

(n 1)(n 2)
i 1
g

3
S
(n 1)(n 2)S3
n

donde

(x
i 1

x) 2

es la desviacin estndar muestral.

Valores negativos de g indicaran una asimetra hacia la izquierda, mientras que


valores positivos de g indicaran una asimetra hacia a la derecha.
Para muestras grandes (n>30), el ndice muestral g se distribuye como una normal
con media 0 y varianza aproximada de 6/n.
Ejemplo 3.25. Para nuestro ilustrativo sobre la estatura de los 100 alumnos de la
UNP, se pide analizar la asimetra de la distribucin.
Solucin.
Estatura

( Yi1 Yi

Yi

150 - 155

152.5

ni

(y i y) 2

320.41

(y i y) 2 n i (y i y) 3 n i (y i y) 4 n i
1281.64

-22941.356

410650.27

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

155 - 160
160 - 165
165 - 170
170 - 175
175 - 180
180 - 185
185 - 190
Total

157.5
162.5
167.5
172.5
177.5
182.5
187.5

5
12
33
17
16
9
4
100

166.41
62.41
8.41
4.41
50.41
146.41
292.41
1055.28

832.05
748.92
277.53
74.97
806.56
1317.69
1169.64
6509.00

150

-10733.445
-5916.468
-804.837
157.437
5726.576
15944.049
20000.844
1433.267

138461.44
46740.097
2334.0273
330.6177
40658.689
192922.99
342014.43
1137519.50

A partir de la tabla de distribucin anterior se obtiene la siguiente informacin:


y 170.4

y 169.4 , S = 8.1085 y
, y 167.84 , ~

(x
i 1

x ) 3 1433.267

Consideremos a manera de ilustracin, el clculo de los coeficientes de asimetra de


Pearson y el coeficiente de asimetra en funcin de los momentos.
Coeficientes de Pearson
1er Coeficiente de Pearson:

x x 170.4 167.84
CA S

0.3157 > 0
S
8.1085

2er Coeficiente de Pearson:


CA S

3 (x ~
x ) 3(170.4 169.4)

0.1233 > 0.
S
8.1085

El coeficiente en funcin de los momentos


n

CA S

M3

S3

(x
i 1

x ) 3 /n

1433.267 / 100 14.33267


>0

0.0269
3
533.1158
(8.1085)

Como vemos, todos los coeficientes indican una distribucin de la estatura


ligeramente sesgada a la derecha (asimetra positiva). El ms fiable de todos es el
coeficiente de asimetra en funcin de los momentos.
Ejercicio. Para la tabla de distribucin de frecuencias siguiente, se pide calcular e
interpretar:
Intervalo
60 66
66 72
72 78
78 84

ni
4
6
7
11

84 90
90 96

8
4

a) Los coeficientes de asimetra de Pearson.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

b) El coeficiente
de asimetra por
la formula de
los momentos.

151

c) Los coeficientes por el mtodo de los


cuantiles.

3.3.2. Medidas de Curtosis o Apuntamiento.


Definicin. Se entiende por kurtosis el grado de deformacin vertical de una
distribucin de frecuencias, es decir la medida de apuntamiento o achatamiento de
una distribucin.
ni
Leptocrtica
Mesocrtica
Platicrtica

x
Figura

3.19

La idea de apuntamiento de una distribucin surgi de la comparacin de la


frecuencia de los valores centrales de una distribucin con la frecuencia de dichos
valores en la distribucin normal que le corresponde. Entonces, el apuntamiento de
distribucin de frecuencias indica la mayor o menor altura del mximo central, con
respecto a la altura de la curva normal con media y desviacin estndar igual que la
distribucin que se estudia. Con relacin al grado de apuntamiento (ver figura 3.19),
podemos tener curvas Leptocrtica, Mesocrtica y Platicrtica.
3.3.2.1. Forma de medir la curtosis.
El grado de curtosis o apuntamiento puede medirse en funcin de momentos o de
cuantiles.
Curtosis en funcin de Momentos.
El grado de curtosis o apuntamiento est dado por:
k

K1

n (y
i 1

y) 4 /n
4

M4
2
M2

(68)

donde: M4 = cuarto momento respecto a la media.


S = desviacin estndar
Como se observa K1 es positivo (K1 > 0) y se define de sta forma porque en una
distribucin normal, este coeficiente toma el valor 3, es decir se tiene que:

M4
3
2
M2

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

152

y al tomarla como referencia, K1 se interpreta como sigue:


Si K1 > 3, la distribucin de frecuencias es ms apuntada que la curva normal y
recibe el nombre de Leptocrtica.
Si K1 = 3, la distribucin es moderadamente apuntada, con igual apuntamiento que
la curva normal o campana de Gauss y se llama Mesocrtica.
Si K1 < 3, la distribucin es menos apuntada que la curva normal o sea achatada y
recibe el nombre de Platicrtica.
Curtosis en funcin de cuantiles.
Otro coeficiente de apuntamiento, usado con menos frecuencias y vlido slo para
distribuciones campaniforme y moderadamente asimtricas, es el coeficiente de
curtosis de Kelley est dado por:
K2

Q 3 Q1
2(P90 P10 )

(69)

Este coeficiente es llamado tambin coeficiente de apuntamiento percentlico.


Si K2 > 0.263, indica que la distribucin de frecuencia es Platicrtica (el recorrido
semiintercuartlico es mayor que el de la normal y, por tanto, es ms
aplanada que sta).
Si K2 < 0.263, expresa que la distribucin de frecuencia es Leptocrtica.
Si K2 = 0.263, la distribucin de frecuencias es Mesocrtica.
El valor de 0.263, resulta de calcular K2 para la distribucin normal.
De los dos coeficientes de curtosis, el ms fiable es el dado en funcin de los
momentos (expresin, 68), puesto que incluye en l no slo los datos en cuanto al
orden, sino el valor de cada uno de los datos.
Nota 2. Al igual que el caso de los coeficientes de asimetra de una distribucin, los
que representan a curtosis o apuntamiento se utiliza para ayudar a describir las
caractersticas de una distribucin y no precisamente como medidas, ya que a veces
el valor de la curtosis se contradice con la realidad por estar relacionado con la
distribucin normal.
3.3.2.2. ndice de Curtosis.
El momento central de cuarto orden constituye una medida de la curtosis de las
distribuciones, pues acenta las desviaciones a la media de los valores situados a la
derecha y a la izquierda de ella. Suele dividirse dicho momento por la cuarta potencia
de la desviacin estndar para conseguir una medida adimensional, esto es,
independiente de las unidades de medida de las observaciones.

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

153

La curtosis de la curva de frecuencias de una distribucin campaniforme y simtrica,


o con moderada asimetra, se mide respecto a la normal de igual media y varianza.
Puesto que el apuntamiento de la normal, medido por cociente E (x ) 4 / 4 ,
tiene valor de 3, este ndice mide la curtosis respecto a una distribucin normal. Por
tanto, en este tipo de distribuciones, una medida de la curtosis viene dada por el
siguiente ndice de curtosis poblacional:

E (X ) 4

3
4

(70)

Llamado ndice de curtosis de Fisher. Este ndice mide el apuntamiento o exceso en


la parte central de la distribucin de frecuencia.
Cuando > 0, la distribucin la distribucin es referida como Leptocrtica; si <
0, es Platicrtica, y si = 0, es Mesocrtica.
ndice de curtosis muestral.
Para distribuciones muestrales el ndice de curtosis es estimado por:
n

n(n 1) (X i X) 4
i 1

(n 1)(n 2)(n 3)S

3(n 1) 2
(n 2)(n 3)

(71)

Bajo la suposicin de normalidad para el estadstico muestral d, para muestras


grandes (n >30) tiene una distribucin normal con media cero y varianza 24/n.
Si d > 0 , la distribucin es referida como Leptocrtica.
Si d < 0 , la distribucin es llamada Platicrtica.
Si d = 0 , la distribucin es llamada Mesocrtica (normal).
Ejemplo. 3.52. Para el ejemplo 3.51, sobre la estatura de los 100 alumnos de la UNP,
se pide calcular el coeficiente de curtosis por momentos y percentlico.
Solucin. Se tiene la siguiente informacin estadstica:
Q1 = 165.61 , Q3 = 176.25 , P10 = 160.417 , P90 = 181.67 , S = 8.1085
8

n (y
i 1

y) 4 1137519 .5

1. Coeficiente de curtosis en funcin de los momentos:


k

K1

M4
M2

n (y
i 1

y) 4 /n
4

1137519 .5 / 100 11375 .195


< 3.

2.63146
4
4322.7694
(8.1085)

Captulo 3. ANALISIS DESCRIPTIVO DE DATOS UNIVARIADOS

154

Este coeficiente nos indica que la distribucin es un poco menos apuntada que la
distribucin normal, es decir que tiene una deformacin vertical ligeramente
Platicrtica.
2. Coeficiente de curtosis percentlico.

K2

Q 3 Q1
176.25 165.61
10.64

0.2503 < 0.263


2(P90 P10 ) 2(181.67 160.417) 42.506

Comparando con el valor 0.263 de la normal, ndica que la distribucin de


frecuencias es ligeramente Leptocrtica.
Esta discrepancia con el valor encontrado para K1 (coeficiente en funcin de los
momentos) pone de manifiesto la reserva con que hay que aplicar este coeficiente en
las distribuciones asimtricas.

You might also like