You are on page 1of 68

ESTADISTICA APLICADA

M.Sc. Sabino Edgar Mamani Choque


unapfie@yahoo.es

MEDIDAS DE TENDENCIA CENTRAL


Media

Mediana
Moda

MEDIDAS DE POSICIN
Mnimo y Mximo
Percentiles
Deciles
Quintiles
Cuartiles
MEDIDAS DE DISPERSIN

Rango
Rango intercuartil, desviacin cuartlica
Desviacin Media
Desviacin Estndar Varianza

MEDIDAS DE DISPERSIN RELATIVA


Coeficiente de variacin
Coeficiente de desviacin media
Coeficiente de desviacin cuartlica
MEDIDAS DE ASIMETRA

Coeficiente de Pearson
Coeficiente de Bowley
Sesgo

MEDIDAS DE CONCENTRACIN

( Apuntamiento )
MOMENTOS DE UNA DISTRIBUCIN
EFECTO
DE
TRANSFORMACIONES
LINEALES, SOBRE ALGUNAS MEDIDAS
DE
TENDENCIA
CENTRAL
Y
VARIABILIDAD

ANLISIS EXPLORATORIO DE DATOS


Proporciona la oportunidad, para quienes no estn
familiarizados con anlisis estadsticos, de
comprender los resultados, al conocer que estn
reflejando.
Tanto en caso de monitoreo como en evaluaciones
mas profundas constituye el primer paso.

Pretende revelar estructuras simples y patrones


presentes en los datos.

Permite detectar errores e inconsistencias antes


de avanzar a fases mas complejas del anlisis.
Incluye anlisis grfico, ordenamiento, clculo de
medidas de posicin, tendencia central y de
dispersin (variabilidad), identificacin de
puntos extraos, posibles transformaciones para
un adecuado manejo de datos y detectar
tendencias.

ANLISIS GRAFICO
Si se aprecian patrones especiales, se sugieren
posibles estrategias de anlisis y no solo el
resumen escueto de resultados.
Se pueden intuir relaciones especiales entre
variables que ameriten una exploracin mas
profunda.
Permite apreciar si los datos cumplen con los
requerimientos tericos de anlisis y si no, las
medidas remediales.

MEDIDAS DE TENDENCIA CENTRAL


Es un ndice de localizacin central, empleados en
la descripcin de las distribuciones de frecuencia.
Es el centro de una distribucin que puede ser
definida de diferentes maneras.

MEDIA ARITMETICA

X = ( X1 + X2 + ... Xn) / n
X = Xi / n

CARACTERSTICAS
1. Desviacin : Xi X
desviaciones : ( Xi X) = 0

La media equilibra los puntajes superiores e


inferiores a ella.
*
*
*
*

*
*
*
*
*
*
*
*
*

Promedio

*
*

*
*

2. La media es muy sensible a las mediciones


extremas cuando estas medidas no estn
equilibradas a ambos lados.
Ejemplos:
3, 5, 7, 9, 11

X=7

3, 5, 7, 9, 11, 25

X = 10

3. La suma de los cuadrados de las desviaciones


con respecto a la media es menor que si se
toma otro valor como punto de referencia.
Xi

(X-2)2

(X-20)2

(X-8)2

(X-9.2)2

2
4
8
12
20

0
4
36
100
324

324
256
144
64
0

36
16
0
16
144

51.84
27.04
1.44
7.84
116.64

46

464

788

212

204.8

Prom

9.2

El mtodo de localizacin de la media


mediante la suma de los cuadrados de las
desviaciones se llama mnimos cuadrados.

LA MEDIANA
Es un valor real o potencial por debajo del cual se
encuentra el 50% de los datos.
Si n, el nmero de datos es par
mediana

p=n/2
q = (n/2)+1
(Xp + Xq) / 2

Ejemplo:
4, 6, 8, 10
n=4
p=2
q=3

Mediana

: (X2 + X3) / 2 = (6 + 8) / 2 = 7

Si n, el nmero de datos es impar: r = ( n + 1) / 2


Mediana : Xr
Ejemplo:
4, 6, 8
n=3
r = ( 3 + 1) / 2 = 2

mediana

: X2 = 6

CARACTERSTICAS

Insensible a extremos.
No se obtiene con todos los datos
No es nica (valor potencial).

LA MODA.
Es el valor mas frecuente.
inspeccin.

Se obtiene por

En algunos casos hay dos valores mas


frecuentes, o varios, en cuyo caso se habla de
distribucin
bimodal
o
multimodal
respectivamente.
Ejemplo 1: 2, 3, 3, 3, 4, 6

Moda = 3

Ejemplo 2: 2, 3, 3, 4, 6, 6

Moda = 3, 6

Ejemplo 3: 2, 3, 4, 5, 6, 7

Moda = no hay

CARACTERSTICAS

No siempre puede determinarse.

En datos agrupados, puede cambiar segn la


definicin de los lmites de clase.

Resumen de las principales caractersticas.


Caractersticas

Madia aritmtica

Mediana

Moda

Clculo basado en:

Cada valor

Valor central

Valor con mayor


frecuencia

Afectada por valores


extremos

La mas afectada

No (afectada
solamente por
elementos)

No

Manipulacin
algebraica

Si: X = Xi / n

No (promedio
posicional, valor
interpolado en
muchos casos)

No (promedio
concentrado, cuatro
mtodos para datos
agrupados)

propiedades
matemticas

(Xi X) = 0
(Xi X)2 es mnimo

(Xi Md) es mnimo


(desdeando signos)

Aplicacin con clases


abiertas

Indeterminada

Determinada

Indeterminada

Tipo de datos
preferidos

Mayora de tipos

Valor central es
tpico, excluyendo
extremos.

Datos con distinta


tendencia central.

Comparacin de
respuestas para los
mismos datos.

Mayor que G y H

Entre X y Mo

Puede ser mayor o


menor que Md y X

MEDIDAS DE POSICIN
Son medidas que indican la posicin relativa de
una calificacin.
Se parte ordenando los datos en forma
ascendente y se calcula la frecuencia acumulada,
en trminos absolutos y relativos.
El ordenamiento permite ver los extremos:
Mnimo y Mximo

Se define como rango percentil, el porcentaje de


los casos que alcanz valores menores que el
citado.

A su vez, la calificacin asociada con un percentil


dado es el valor por debajo del cual est
acumulado el porcentaje sealado.
Rango percentil = (Frecuencia amulada * 100) / N
Frecuencia acumulada = (Rango percentil * N) / 100
Algunos percentiles mas utilizados son:
Percentil 10 = primer decil

Percentil 20 = segundo decil = primer quintil

Percentil 25 = primer cuartil


Percentil 50 = Mediana = segundo cuartil
Percentil 75 = tercer cuartil

600

510 3er. Cuartil

500

F
a
m
i
l
i
a
s

400

370 2do. Cuartil


300

200

190 1er. Cuartil

100

100

200

300

400

500

600

Ingresos

700

800

900

1000

Los Cuartiles: Son valores que dividen a la


muestra en 4 partes aprox. iguales. El 25% de los
datos son menores o iguales que el cuartil inferior
o primer cuartil, representado por Q1.

El siguiente 25 % de datos cae entre el cuartil


inferior y la mediana, la cual es equivalente al
segundo cuartil.
El 75 % de los datos son menores o iguales que el
cuartil superior o tercer cuartil, representado por
Q3, y el restante 25% de datos son mayores o
iguales que Q3.

Los Deciles: Son valores que dividen a la


muestra en 10 partes iguales.
Los Percentiles: Dado un cierto porcentaje
100p, donde p vara entre 0 y 1, el percentil del
100p% es un valor tal que 100p% de los datos
caen a la izquierda del percentil.
La mediana y los cuartiles son percentiles. El
primer cuartil es el percentil de 25%, la mediana
es el percentil del 50% y el tercer cuartil es el
percentil del 75%.

MEDIDAS DE DISPERSIN ABSOLUTA


Para una descripcin completa de una
distribucin se requiere informacin relativa a la
dispersin con respecto a la medida de tendencia
central.

RANGO
Distancia escalar entre la mayor y la menor de
las calificaciones

CARACTERSTICAS
Inestable por su sensibilidad a extremos

RANGO INTERCUARTIL

DESVIACIN CUARTILICA
No se han
superiores

hecho

desarrollos

analticos

DESVIACIN MEDIA
Desviacin con respecto a la media : Xi media
DM = ( |desviaciones con respecto a la media| ) / N

CARACTERSTICAS
Representa una medida muy prctica, pero
debido al manejo incmodo del valor absoluto
no se utiliza.

DESVIACIN ESTANDAR Y VARIANZA


Se toma la desviacin con respecto a la media, se
eleva al cuadrado (con lo cual se elimina el
problema de los signos) y se calcula el promedio,
este valor se llama varianza.
S2 = (Xi X)2 / N
La raz cuadrada de la varianza es la desviacin
estndar, la cual est expresada en unidades iguales
a las de la variable.
El hecho de que la varianza sea mnima cuando se
calcula con respecto a la media, nos permite suponer
que si sobre cierta poblacin se hace una prediccin
igual a su promedio, se comete el mnimo error.

Cuanto mayor sean la varianza y desviacin


estndar, mayor ser la dispersin de la
distribucin.

La varianza viene expresada en unidades de la


variable al cuadrado, mientras que la desviacin
estndar est en las mismas unidades de la
variable.

Significado Prctico de la D.E.


Desigualdad de Tchebysheff

Dado un nmero K > 1 y un conjunto de n


observaciones X1, X2, Xn, por lo menos
1 1/K2 de ellas se encuentran dentro

de K desviaciones estndar de la media.

Por lo menos
1 1/K2
X

P ( - K X + K) 1 K-2

La Distribucin
Normal
= Desviacin Estndar

Promedio

-3 -2 -1
+1 +2 +3
68.26%
95.44%
99.74%

DISPERSIN RELATIVA
Si dos conjuntos de valores estn siendo
comparados, los valores de su dispersin son
claros, solo cuando sus promedios son similares y
las unidades de medidas son iguales.
An cuando las unidades de medida fueran las
mismas, la diferencia en los promedios dificulta
la comparacin por lo tanto, una medida de
dispersin debe estandarizarse. Esto da lugar al
coeficiente de variacin.
CV = S / X

Medidas de Asimetra
Si al tomar la medida de tendencia central como
eje de referencia, la distribucin de los datos a
izquierda y a derecha es igual, se trata de una
distribucin simtrica.
De lo contrario, se dice que hay sesgo.

Distribucin simtrica:

_
X = Md = Md

El sesgo positivo indica que la mayora de los


valores estn al lado izquierdo, pero hay algunos
valores al lado derecho que pueden tener
magnitud extrema.
_
Mo Md X
El sesgo negativo indica que la mayora de los
valores estn al lado derecho, pero hay algunos
valores al lado izquierdo que pueden tener
magnitud extrema.
_
X Md Mo

Sesgo
Y

Area de asimetria

Mo Md X

Moda

Mediana

Media

Area de
asimetra

X Md Mo

Media

Mediana

Moda

Distribucin Simtrica
Y

Media
Mediana
Moda

X = Md = Mo

_
Skewness =
n
Xi X
(n-1)(n-2)
S

Valor positivo
: Sesgo hacia la derecha
Valor negativo
: Sesgo hacia la izquierda
Valor igual a cero : Distribucin normal

Coeficiente de sesgo de Pearson


_
P = 3 ( X Md)
S
P < 0 : Sesgo hacia la izqiuerda
P > 0 : Sesgo hacia la derecha
P = 0 : Distribucin Normal

Apuntamiento o Kurtosis
Es el cuarto recurso para identificar una distribucin y
muestra el grado de concentracin de los datos.
Y

Leptocrticas

Alta
concentracin en
valores altos
Kurtosis > 0

Mesocrtica
Normal

Concentracin
en un intervalo
mayor
Kurtosis = 0

Platicrticas

Muy disperso
Kurtosis < 0

_
Kurtosis =
n (n+1)
Xi X
(n-1)(n-2)(n-3)
S

3(n-1)2
(n-2)(n-3)

Valor positivo

: Concentracin en valores altos

Valor negativo

: Disperso

Valor igual a cero : Distribucin normal

Intervalos de confianza para


El procedimiento para calcular el intervalo (a,b) que
comprenda al parmetro con una propabilidad de 1 -
recibe el nombre e estimacin por intervalos.

Probabilidad ( a < < b) = 1 -


_
_
P (X Z x S / n < < X Z x S / n) = 1 -
Z
_
X

: Calificacin estndar a partir de la cual el rea vale /2

: Desviacin estndar

: Tamao de la muestra

b-a

: Medida de precisin

1-

: Medida de confiabilidad

: Media muestral

Ejemplo.
_
X = 200
S2 = 1225
n = 49

P ( a < < b) = 0.95


a = 180 1.96*35 /49 = 170.2

b = 180 + 1.96*35 /49 = 189.8


P ( 170.2 < < 189.8 ) = 0.95

Estadsticos descriptivos basados en los momentos

FIGURA 5
PRIMER MOMENTO (MEDIA)
1

1 2 2

Skewness = 0
Kurtosis = 0

1 1 2

Fuente: Mun J. (2006)

a) Primer momento, describe la tendencia central (media,


mediana y moda). Ilustra el primer momento donde la
distribucin se mide por la media () o valor promedio.

FIGURA 6
SEGUNDO MOMENTO (AMPLITUD)

Estadsticos descriptivos basados en los momentos


2

Skewness = 0
Kurtosis = 0

1 2

Fuente: Mun J. (2006)


b) Segundo momento, describe la amplitud o extensin de una
distribucin, mide la variabilidad o los potenciales escenarios de los
resultados, y constituye una medida de riesgo.
Primer momento idntico, pero segundos momentos (riesgos) diferentes.

Estadsticos descriptivos basados en los momentos


FIGURA 7.1
TERCER MOMENTO (SESGO)
1 2

Skewness > 0
Kurtosis = 0

1 2

Fuente: Mun J. (2006)

FIGURA 7.2
TERCER MOMENTO (SESGO)
1 2

Skewness < 0
Kurtosis = 0

1 2 1
Fuente: Mun J. (2006)

c) Tercer momento, mide la desviacin (sesgo o


eventos ms probables) de una distribucin. La
figura 7.1, ilustra sesgo hacia la izquierda y la
figura 7.2 ilustra sesgo hacia la derecha.
La media se mueve pero la desviacin
estndar, varianza o amplitud pueden
permanecer aun constante. Si el eje horizontal
representa beneficios netos, una distribucin
desviada negativamente podra ser preferida
puesto que denota probabilidad ms alta de
mayores beneficios, ocurrira lo contrario con
una distribucin con sesgo positivo.
En una distribucin sesgada, la media es la
mejor medida de los beneficios, puesto que la
mediana en ambos casos (figuras 7.1 y 7.2) es
idntica.
En consecuencia omitir el sesgo de una
distribucin podra significar escoger un
proyecto incorrecto, cabe la posibilidad de que
dos proyectos tengan primer y segundo
momento idnticos, es decir, ambos tienen
beneficios y perfiles de riesgo idnticos, pero el
sesgo de las distribuciones pueden ser muy
diferentes.

Estadsticos descriptivos basados en los momentos

FIGURA 8
CUARTO MOMENTO (CURTOSIS)
1 2

Skewness = 0
Kurtosis > 0

1 2

Fuente: Mun J. (2006)

d) Cuarto momento, mide el punto ms alto


de una distribucin, la amplitud en las colas
significan grandes ganancias o prdidas
catastrficas. Considerando 0 como el nivel
normal de Curtosis, los valores de Curtosis
negativas indican colas mas planas
(platicrticas), mientras que los valores
positivos indican colas ms gruesas
(leptocurticas).
La figura ilustra que la distribucin en lnea
continua tiene Curtosis mas alta, de modo
que el rea bajo la curva es ms gruesa en
las colas y tiene menos rea en el cuerpo
central, condicin que tiene mayor impacto
en el anlisis de riesgo.
Los primeros tres momentos (media,
desviacin estndar y sesgo) pueden ser
idnticos, pero el cuarto momento es
diferente.
Esta condicin significa que, aunque los
beneficios y riesgo sean idnticos, las
probabilidades de que ocurran eventos
extremos y catastrficos (grandes ganancias
o prdidas) sean ms altas para una
distribucin de alta Curtosis.

Posibles distribuciones de los rendimientos


1) asumiendo constante los otros
a

factores de la distribucin, los

agricultores preferiran (b) a (a).

2) los niveles variables de insumos


X

Max

1. Incremento en el rendimiento sin cambio en la varianza

afectan a la varianza y la simetra de la


distribucin; los agricultores adversos
al riesgo podran preferir un menor

rendimiento mas constante (c) que


otro mayor, pero con mayor

Max
X
X
2. Incremento en el rendimiento y cambio en la varianza
O

variabilidad (d).
3) bajo condiciones favorables, existe
mayor probabilidad de que los

rendimientos sean mayores al


e

promedio, con una distribucin


asimtrica negativa (e), mientras que

Max
X
X
3. Cambio en la asimetra de la distribucin; de positivo a negativo

Fuente: Adaptado de Crissman Ch. (1991).

en condiciones desfavorables ocurrira

lo contrario, correspondiendo a una


distribucin asimtrica positiva (f).

Transformacin de datos

Transformacin de datos

Transformacin de datos

Manejo de Datos Agrupados

Distribucin de frecuencias:
agrupamiento de datos en categoras
que muestran el nmero de observacines
en cada categora mutumente
excluyente.

Manejo de Datos Agrupados


1. Nmero de clases o categoras.
K = 1 + 3.3 Log (n);
2. Rango.
R = Mximo - Mnimo
3. Amplitud de clase (C).
C=R/K
4. Amplitud de tabla (r).
r=CxK

SQR(n)

5. Lmite inferior de la primera clase.


LI1 = X(I) (r R)
2
X(I): Valor Mnimo de los datos
6. Clases o categorias.
LS(1) = X(I) + C
LIi = LIi-1 + C

LSi = LIi + C
7. Lmites reales.
LRI = (LIi + LSi-1) / 2
LRS = (LSi + Lii+1) / 2

(1ra. Clase)

8. Marca de clase.
Xi = (LIi + LSi) / 2
Tabla de Frecuencias: Los datos cuantitativos
se organizan en tablas, llamadas Tablas de

Distribucin de frecuencias.

Frecuencia absoluta: Indica el nmero de veces


que se repite un valor de la variable.

Frecuencia absoluta acumulada: Indica el

nmero de valores que son menores o iguales que


el valor dado.

Frecuencia relativa: Indica la proporcin con que


se repite un valor.

Se obtiene dividiendo la frecuencia absoluta entre


el tamao de la muestra. Para una mejor
interpretacin es ms conveniente mutiplicarla por
100 para trabajar con una Frecuencia relativa

porcentual.

Frecuencia relativa porcentual acumulada:

Indica el porcentaje de datos que son menores o


iguales que el valor dado.

Lmites de
Clase

LI

LS

Lmites
reales

LRI

LRS

Marca
de clase

Xi

Frec.
Absolutas

Fec.
Relativas

fi

hi

Fi

Hi

fiXi

Xi2

fiXi2

Ejemplo.
Para evaluar el efecto de un suplemento alimenticio para
ganado bovino, se registraron los datos de peso vivo en un
lote de 100 vacunos, seleccionados por edad, peso, tamao
y raza. Los datos son (pesos en kg.):
110
137
147
158
166
170
176
186
193
203

115
140
150
158
167
171
177
186
193
204

117
140
152
159
168
172
179
188
193
206

122
142
153
161
168
172
179
188
196
206

126
143
153
161
168
173
180
188
196
207

128
143
153
162
168
173
182
189
197
210

128
143
153
163
169
173
185
189
199
214

133
144
154
164
169
174
185
190
201
215

135
146
155
165
169
175
186
191
201
218

137
146
157
166
169
175
186
192
201
220

Cuadro de distribucin de frecuencias.


Lmites de
Clase
LI
LS
110
123
124
137
138
151
152
165
166
179
180
193
194
207
208
221

Lmites
Marca de
reales
Clase
LRI
LRS
Xi
109.5 123.5
116.5
123.5 137.5
130.5
137.5 151.5
144.5
151.5 165.5
158.5
165.5 179.5
172.5
179.5 193.5
186.5
193.5 207.5
200.5
207.5 221.5
214.5

Abs.
fi
4
7
11
17
25
19
12
5
100

Frecuencias
Abs. Acum. Relat. R. Acum.
Fi
hi
Hi
4
0.04
0.04
11
0.07
0.11
22
0.11
0.22
39
0.17
0.39
64
0.25
0.64
83
0.19
0.83
95
0.12
0.95
100
0.05
1.00

fiXi
466.0
913.5
1589.5
2694.5
4312.5
3543.5
2406.0
1072.5
16998.0

Xi2
13572.3
17030.3
20880.3
25122.3
29756.3
34782.3
40200.3
46010.3

fiXi2
54289.0
119211.8
229682.8
427078.3
743906.3
660862.8
482403.0
230051.3
2947485.0

100
90
80
No. Vacas

70
60
50
40
30
20
10
0
116.5

130.5

144.5

158.5

172.5

186.5

Peso Vivo (Kg)


153

169

188

200.5

214.5

Un diagrama de caja es una ilustracin grfica, basada


en cuartiles, que ayuda a visualizar un conjunto de
datos.
Se requieren cinco tipos de datos para construir un
diagrama de caja: el valor mnimo, el primer cuartil, la
mediana, el tercer cuartil, y el valor mximo.

mediana

mn

Q1

12

14

Q3

16

18

20

22

mx

24

26

28

30

32

Medidas de tendencia central y dispersin


en datos agrupados

Media.
_
X = fiXi =
n
fi
Xi
n

fiXi
fi

: Frecuencia de observaciones de cada clase


: Marca de clase (punto medio de cada clase)
: Tamao de la muestra

La mediana.
Md = Lmd + n/2 - Fmd
fmd

Lmd

: Lmite inferior de la clase de la mediana

: Frecuencia acumulada de la clase anterior


a la clase de la mediana

fmd

: Frecuencia de la clase de la mediana

: Amplitud de clase

La moda
Mo = Lmo +

Da
Db + Da

Lmo

: Lmite inferior de la clase modal

Da

: Diferencia entre la frecuencia de la clase modal


y la clase anterior

Db

: Diferencia entre la frecuencia de la clase modal


y la clase posterior

: Amplitud de clase

La varianza.

_
S2 = fiXi2 - nX2
n-1

Desviacin Estndar
S = S2

La frmula de la variancia para datos


agrupados usada como estimador de la
variancia poblacional es:
( fX )
fX
n

n 1

donde f es la frecuencia de clase y X


es el punto medio de la clase.

El primer cuartil es el valor correspondiente


al punto debajo del cual se encuentra el
25% de las observaciones en un conjunto
ordenado de datos.
n
CF
4
Q1 L
(i )
f
donde L = lmite de las clasese que contienen Q1,
CF = frecuencia acumulda que precede a la clase
que contiene a Q1, f = frecuencia de la clase que
contiene Q1, i= tamao de la clase que contiene
Q1.

El tercer cuartil es el valor correspondiente


al punto debajo del cual se encuentra 75%
de las observaciones en un conjunto
ordenado de datos: 3n
Q3 = L + 4

CF

(i )

donde L = lmite inferior de la clase que contiene a


Q3, CF = frecuencia acumulada precedente a la clase
que contiene a Q3, f = frequencia de la clase que
contiene a Q3, i = tamao de la clase que contiene a
Q3.

Percentiles

P
Lp = ( n + 1)
100

You might also like