You are on page 1of 76

Clase # 3

17 Y 19 de
Marzo 2015

BIOESTADISTICA
20015-I

Aplica conocimientos de estadstica


descriptiva para calcular ciertas
medidas resmenes segn el tipo
de
variable
que
se
est
considerando.
Mg. TAMARA JORQUIERA MC
Tamara Jorquiera MC MSc

3/17/2015

Al trmino de la clase el
estudiante estar en
condiciones de calcular,
interpretar y saber usar las
medidas de posicin y
dispersin.
Tamara Jorquiera MC MSc

3/17/2015

Despus de construir tablas y grficos, a


partir de una coleccin de datos, se
requieren medidas ms exactas.
La estadstica de resumen, proporciona
medidas para describir un conjunto de
datos.
Existen dos tipos de medidas de resumen:
1. De tendencia central.

2.

De forma y de posicin

De dispersin.
Tamara Jorquiera MC MSc

3/17/2015

1. Reflejan la tendencia central y la


localizacin/posicin de los datos
2. Las medidas de tendencia central ms
importantes son la media, la mediana y la moda.
Medidas de
tendencia central

Media
Mediana
Moda

3. Tambin es til conocer las medidas de


localizacin: percentiles. Estas nos indican el
lugar de cada dato en relacin con los dems
datos.
Tamara Jorquiera MC MSc

3/17/2015

Las
medidas
de
tendencia
central
(denominadas tambin promedios) permiten
hallar un solo valor numrico alrededor del
cual los datos parecen agruparse de cierta
manera, como si fuera el centro de
gravedad de los datos. Debido a estas
circunstancias, suelen ser llamados de

POSICIN O TENDENCIA CENTRAL.

Tamara Jorquiera MC MSc

3/17/2015

Moda.
Mediana.
Media

Aritmtica.
Cuartiles.

Tamara Jorquiera MC MSc

3/17/2015

(Mo)
(Me)
(x o )
(Q)

La MODA es la observacin que ms se repite en


los datos, (observacin ms COMN).
Se puede utilizar para cualquier tipo de variable
pero generalmente se utiliza cuando la
caracterstica en estudio se ha medido en escala
nominal u ordinal.
Ejemplo:
Se tiene la siguiente informacin:
2, 3, 4, 5, 5, 6, 4, 5
Mo = ?

Tamara Jorquiera MC MSc

3/17/2015

1. Si todos los valores son diferentes, no hay


moda.
2. En una distribucin puede existir dos o
ms modas (Unimodal, Multimodal:
bimodal, trimodal).
3. Es usada para variables categricas o
cualitativas.
Tamara Jorquiera MC MSc

3/17/2015

Estado Civil de 100 personas


Estado Civil

fi

Soltero

30

Casado

60

Divorciado

10

Total

100

Nmero de hijos de 60 personas


Xi

fi

10

21

15

Tamara Jorquiera MC MSc

3/17/2015

En una tabla de distribucin de frecuencias es la


marca de clase o punto medio de la clase que
tiene la mayor frecuencia absoluta simple.
La moda estar ubicado en el intervalo: ?
Clase
I
II
III
IV
V

Variable
5-9
10 - 4
15 - 19
20 - 24
25 - 29
total

fi
3
9
15
8
5
40

Tamara Jorquiera MC MSc

Por lo tanto la marca


de clase ser:

3/17/2015

clase
III

variable
15 - 19

fi
15

Por lo tanto la marca de


clase ser:

Tamara Jorquiera MC MSc

3/17/2015

La mediana es un valor que divide a la distribucin


(ordenada en forma ascendente o descendente) en
dos mitades o partes iguales.
20, 3, 4, 19, 6, 7, 10, 21,12, 16

Tamara Jorquiera MC MSc

3/17/2015

1. Es nica , existe solamente una mediana


para un conjunto de datos.

2. Los valores extremos no tienen efectos


importantes sobre la mediana.
3. Se aplica tambin a variables que
pertenecen a la escala ordinal.
4. Es muy variable de muestra a muestra.
Tamara Jorquiera MC MSc

3/17/2015

Se ordena los datos en forma ascendente o


descendente.
Si el nmero de DATOS ES PAR, el valor de la
mediana ser la semisuma de los 2 valores
centrales.
Los valores centrales se encuentran en las
posiciones: X N/2 y X (N/2 +1)

N/2

+ X (N/2 +1)

Me = _________________
2
Tamara Jorquiera MC MSc

3/17/2015

Dado los valores:

11, 8, 13, 20, 14, 3, 7, 12.


Hallar la mediana

Tamara Jorquiera MC MSc

3/17/2015

par

Si

el nmero de DATOS ES IMPAR,


el valor de la mediana es el
valor del centro.
Me = X (N+1)/2
donde (N+1)/2 es la posicin
central, de la mediana.
Tamara Jorquiera MC MSc

3/17/2015

Calcular la mediana dado los valores:


11, 19, 12, 16, 13, 15, 17

Tamara Jorquiera MC MSc

3/17/2015

Clase
I
II
III
IV
V
VI
VI

Intervalos
1.66
1.70
1.74
1.78
1.82
1.86
1.90

1.69
1.73
1.77
1.81
1.85
1.89
1.93

Xi

fi

Fi

hi%

Hi%

1.675
1.715
1.755
1.795
1.835
1.875
1.915

6
9
26
15
16
6
2

6
15
41
56
72
78
80

7.50%
11.25%
32.50%
18.75%
20.00%
7.50%
2.50%

7.50%
18.75%
51.25%
70.00%
90.00%
97.50%
100.00%

Tamara Jorquiera MC MSc

3/17/2015

Lim Reales
1.655
1.695
1.735
1.775
1.815
1.855
1.895

1.695
1.735
1.775
1.815
1.855
1.895
1.935

Es un valor representativo de
un conjunto de datos que se
est estudiando y caracteriza a
toda una distribucin.
Se le conoce tambin como
promedio.
x

En su clculo intervienen todo los


valores que se estn estudiando.
(ESTADSTICO)

Tamara Jorquiera MC MSc

3/17/2015

(PARMETRO)

Si tenemos n datos representados por:


x1, x2, x3, ......xn.

La media aritmtica de estos n datos est dada


por:
__

X1 + X2 + X3 +..........+ Xn
= ________________________
n

Tamara Jorquiera MC MSc

3/17/2015

Xi
= _______
N

Xi
= _______
n

Tamara Jorquiera MC MSc

N es el tamao
de la poblacin

n es el tamao
de la muestra

3/17/2015

fi Xi

fi

es frecuencia
absoluta simple.

= ________

Tamara Jorquiera MC MSc

Xi es una
marca de clase.

3/17/2015

1.

Es nica, puede ser un valor positivo, cero o un valor negativo.

2.

Si a los valores que estudiamos le sumamos o restamos una


constante, el valor de la nueva media quedara como la media
aritmtica de los datos originales ms o menos la constante que se
ha agregado.
11,12,13

u= ?
= 12

+3 a todos los datos


14,15,16
u= ?

u= 12+3
= 15

3.

Si a cada valor de la serie le multiplicamos por una constante, la


nueva media aritmtica sera igual a la media aritmtica original
multiplicada por la constante.
Tamara Jorquiera MC MSc

3/17/2015

4. La suma de las desviaciones de los datos con


respecto a la media es cero, es decir
_
11-12 =-1
N
( xi - X) = 0
12-12 = 0
-1 + 0 + +1 = 0
i=1
13-12 =+1
5. Como incluye todos los datos, puede estar
afectado por valores extremos.
6. Es usada para variables medidas en escala de
intervalo o de razn.

Tamara Jorquiera MC MSc

3/17/2015

Los siguientes datos son edades de 10 madres


que asisten a un centro de salud en un da :
30, 43, 58, 61, 70, 42, 58, 39, 60, 55.
La edad promedio de estas madres ser:

Tamara Jorquiera MC MSc

3/17/2015

A continuacin se
presenta las
edades de 30
personas con
cncer pulmonar
que pasan a
consulta en el
Hospital Mara
Auxiliadora. Lima.
Julio 2004:
Determinar la Media

30,43,58,61,70,42,58,39
60,55,71,70,65,39,40,61
65,56,38,57,49,61,69,43
46,69,44,59, 62,66
Edad
30 - 36
37 - 43
44 - 50
51 - 57
58 - 64
65 - 71
Total

Tamara Jorquiera MC MSc

3/17/2015

fi
1
7
3
3
8
8
30

Xi
33
40
47
54
61
68

fi . Xi
33
280
141
162
488
544
1648

Cuando los datos de una poblacin se


distribuyen con igual frecuencia y
alejamiento por debajo y por encima
de la media aritmtica, se dice que la
distribucin es simtrica; pero,
si los datos por debajo de la media son
ms frecuentes que aquellos por
encima de la media, o viceversa, se
dice que la distribucin es asimtrica.
Tamara Jorquiera MC MSc

3/17/2015

Tamara Jorquiera MC MSc

3/17/2015

30

Moda
Mediana
Media

25
20
15
10
5
0
1

Tamara Jorquiera MC MSc

6
3/17/2015

10

11

12

13

Distribucin Sesgada a la Izquierda


30

Moda
Mediana
Media

25
20
15
10
5
0
1

Tamara Jorquiera MC MSc

6
3/17/2015

10

11

12

13

30

Moda
Mediana
Media

25
20
15
10
5
0
1

Tamara Jorquiera MC MSc

6
3/17/2015

10

11

12

13

Distribucin Sesgada a la Derecha


30

Moda
Mediana
Media

25
20
15
10
5
0
1

Tamara Jorquiera MC MSc

3/17/2015

10

11

12

13

Tamara Jorquiera MC MSc

3/17/2015

Llamadas tambin medidas de variabilidad,


miden el grado de separacin de los datos
respecto a un valor central.
Son tiles porque:
1.
Permiten juzgar la confiabilidad de la
medida de tendencia central.
2.
Los datos demasiados dispersos tienen un
comportamiento especial.
3.
Es posible comparar dispersin de
diversas muestras.
Tamara Jorquiera MC MSc

3/17/2015

Una medida de Dispersin indica


cmo las observaciones se separan
de la Media Artmetica.
Esta medida de dispersin ser grande
si las observaciones estn distantes
de la media y pequea si estn
cerca.
Tamara Jorquiera MC MSc

3/17/2015

Rango

Amplitud (A)
(V 2 s2)

Varianza
Desviacin

Estndar
Desviacin Cuartil

Tamara Jorquiera MC MSc

3/17/2015

( s)
(DC)

RANGO

( Amplitud Total )

Es la medida ms simple de dispersin.


La que menos informacin nos ofrece sobre la agrupacin de las
variables en torno a las medidas de tendencia central.

A =

Obs

Max

- Obs

Min

Se aplica a variables cuantitativas discretas o continuas pero no a


las cualitativas.
Tamara Jorquiera MC MSc

3/17/2015

Es una medida de dispersin


que
cuantifica
la
variabilidad de los datos con
respecto
a
la
Media
Aritmetica.
Junto con la desviacin estndar, es la medida de dispersin que
mejor expresa la variabilidad del fenmeno.

Tamara Jorquiera MC MSc

3/17/2015

Si tenemos N datos X1, X2, X3, ...., XN . La


varianza de estos datos se define como:
V(X)

( Xi - )2
____________
N

[(Xi- )2 ]/ N

Tamara Jorquiera MC MSc

3/17/2015

Para una muestra de tamao n:


V(X)

= ( Xi - X )2
n-1
=

[(Xi-X)2 ]/ n-1

Tamara Jorquiera MC MSc

3/17/2015

Es la medida de dispersin para datos simtricos

Es la medida de dispersin ms comn para definir datos mdicos y del


rea de la salud.

Es la raz cuadrada de la varianza


= V(X)

s= V(X)

Requieren datos numricos.

Cuanto menor sea la desviacin estndar, menor ser la dispersin (ms


homognea) y

Cuanto mayor sea la desviacin tpica, mayor dispersin (menos


homognea).
Tamara Jorquiera MC MSc

3/17/2015

Es la medida de dispersin para datos asimtricos

Rango Intercuartil
entre 2

R. I. Q
2

El Rango intercuartil se define como:


R.I. (Q) = Q3 - Q1

Q1 es el primer cuartil
Q3 es el tercer cuartil
Excluye el 25% ms alto y el 25% ms bajo, dando un rango
del 50% de los datos.
Tamara Jorquiera MC MSc

3/17/2015

Rango,
Desviacin estndar y
Varianza.
Son absolutas porque siempre van
acompaadas de sus unidades de medida.

Rango de 6 hijos
Desviacin estndar de 1.5 hijos

Tamara Jorquiera MC MSc

3/17/2015

Es

una medida relativa de variabilidad de los datos


entre la media y la desviacin estndar de una
poblacin o muestra. Permite comparar la
variabilidad de dos o ms conjuntos de datos
expresados en unidades diferentes.
por ejemplo
peso en Kg. y libras
peso y talla
Es

el porcentaje que la desviacin estndar


representa de la media.

Tamara Jorquiera MC MSc

3/17/2015

a) Clculos a partir de datos no agrupados


para la muestra:

s
CV 100
x

para la poblacin:

CV 100

As podremos decidir cul de los grupos de datos es


ms disperso.
Pero

slo se puede usar si la escala de medida de la


variable es de razn.
Si

cambiamos el cero arbitrariamente, cambia tambin la media


y por lo tanto cambiar el CV.
Tamara Jorquiera MC MSc

3/17/2015


CV 100

Supongamos que de dos poblaciones se han


obtenido los siguientes datos:
Grupo 1
Grupo 2
Edad

= 25 aos
= 72.5 Kg
= 5 Kg

21 aos
165cm
5 cm

N = 15
15
Que grupo es ms homogneo o menos variable?
Tamara Jorquiera MC MSc

3/17/2015


CV 100

Edad

Tamara Jorquiera MC MSc

Grupo 1
= 25 aos
= 72.5 Km
= 5 Kg
= 15

3/17/2015

Grupo 2
21 aos
165 cm
5 cm
15

SI:
C.V 50%

Dispersin aceptable.

distribucin homognea
C.V 50%

La dispersin es muy alta.

distribucin heterognea

Tamara Jorquiera MC MSc

3/17/2015

Sitan

a un individuo en la distribucin de la
variable que se est estudiando.
Primero deben ordenarse los datos.
Se usan mucho en test psicomtricos y
medidas antropomtricas.

Tamara Jorquiera MC MSc

3/17/2015

Son aquellos que dividen a la


distribucin en cuatro, diez o
cien partes iguales:
Cuartiles.
Deciles.
Percentiles.

Tamara Jorquiera MC MSc

3/17/2015

Son aquellos que dividen a la distribucin en cuatro partes iguales,


en donde cada uno de ellos incluye el 25% de las observaciones.
__25%_._25%__.__25%__.__25%__
Q1
Q2
Q3
Me
Clase
I
II
III
IV
V
VI
VI

Intervalos
1.66
1.70
1.74
1.78
1.82
1.86
1.90

1.69
1.73
1.77
1.81
1.85
1.89
1.93

Xi

fi

Fi

hi%

Hi%

1.675
1.715
1.755
1.795
1.835
1.875
1.915

6
9
26
15
16
6
2

6
15
41
56
72
78
80

7.50%
11.25%
32.50%
18.75%
20.00%
7.50%
2.50%

7.50%
18.75%
51.25%
70.00%
90.00%
97.50%
100.00%

Tamara Jorquiera MC MSc

3/17/2015

Lim Reales
1.655
1.695
1.735
1.775
1.815
1.855
1.895

1.695
1.735
1.775
1.815
1.855
1.895
1.935

CUARTILES

75%

25%

25%

75%

25%
Mnimo

25%

Cuartil 1

Q1

25%

Mediana
Cuartil 2

Q2

Tamara Jorquiera MC MSc

3/17/2015

25%

Cuartil 3

Q3

Mximo

Son aquellos que dividen a la distribucin en diez partes iguales en


donde cada uno de ellos incluye el 10% de las observaciones
_10%_._10%_.10%_._10%_._10%_._10%_._10%_._10%_._10%_._10%_
D1

D2

D3

D4

D5

D6

D7

D8

D9

Q2
Me

Clase
I
II
III
IV
V
VI
VI

Intervalos
1.66
1.70
1.74
1.78
1.82
1.86
1.90

1.69
1.73
1.77
1.81
1.85
1.89
1.93

Xi

fi

Fi

hi%

Hi%

1.675
1.715
1.755
1.795
1.835
1.875
1.915

6
9
26
15
16
6
2

6
15
41
56
72
78
80

7.50%
11.25%
32.50%
18.75%
20.00%
7.50%
2.50%

7.50%
18.75%
51.25%
70.00%
90.00%
97.50%
100.00%

Tamara Jorquiera MC MSc

3/17/2015

Lim Reales
1.655
1.695
1.735
1.775
1.815
1.855
1.895

1.695
1.735
1.775
1.815
1.855
1.895
1.935

Son aquellos que dividen a la distribucin en cien partes


iguales en donde cada
uno de ellos incluye el 1% de las observaciones:
_1%_._1%_. 1%_._1%_._1%_. .........._1%_._1%_._1%_._1%_._1%_
P1

Clase
I
II
III
IV
V
VI
VI

P2

Intervalos
1.66
1.70
1.74
1.78
1.82
1.86
1.90

1.69
1.73
1.77
1.81
1.85
1.89
1.93

P3

P4 ...........

P96

P97

Xi

fi

Fi

hi%

Hi%

1.675
1.715
1.755
1.795
1.835
1.875
1.915

6
9
26
15
16
6
2

6
15
41
56
72
78
80

7.50%
11.25%
32.50%
18.75%
20.00%
7.50%
2.50%

7.50%
18.75%
51.25%
70.00%
90.00%
97.50%
100.00%

Tamara Jorquiera MC MSc

3/17/2015

P98

P99

Lim Reales
1.655
1.695
1.735
1.775
1.815
1.855
1.895

1.695
1.735
1.775
1.815
1.855
1.895
1.935

PERCENTILES

20%

80%
Mximo

Mnimo Percentil 20

P20

Tamara Jorquiera MC MSc

3/17/2015

Como los clculos de los cuantiles, deciles y percentiles


son similares se calcular el Q3 de la siguiente distribucin:

Variable
55 - 58
59 - 62
63 - 66
67 - 70
71 - 74
75 - 78
Total
1.
2.

3.

Q3:
P45:
P90:

fi
20
30
80
70
40
10
250

Fi
20
50
130
200
240
250

hi
8%
12%
32%
28%
16%
4%

INTERPRETAR
Tamara Jorquiera MC MSc

3/17/2015

Hi
8%
20%
52%
80%
96%
100%

Q1

= P25
Q2 = Mediana = P50
Q3 = P75

Tamara Jorquiera MC MSc

3/17/2015

Con

distribuciones simtricas (no


sesgadas) se emplean la media y la
desviacin estndar de datos numricos.

Cuando

la distribucin no es
simtrica(sesgada) se emplean la mediana
y Percentiles y rango intercuartilicos y
desviacin cuartil.

Tamara Jorquiera MC MSc

3/17/2015

El

rango es una medida apropiada


para datos numricos cuando el
propsito es enfatizar valores
extremos.

El

coeficiente de variacin es til


cuando la intencin es comparar dos
distribuciones numricas medidas en
escalas diferentes.
Tamara Jorquiera MC MSc

3/17/2015

Es un grfico representativo de las distribuciones de un conjunto


de datos en cuya construccin se usan cinco medidas
descriptivas: mediana, primer cuartil, tercer cuartil, valor
mximo y valor mnimo.
Presenta, al mismo tiempo, informacin sobre la tendencia
central, dispersin y simetra de los datos de estudio.
Adems, permite identificar con claridad y de forma individual,
observaciones que se alejan de manera poco usual del resto de
los datos. A estas observaciones se les conoce como valores
atpicos. outliers (valores extremos).
Al igual que el histograma y el grfico de Tallos y Hojas permite
tener una idea visual de la distribucin de los datos (simetra y
variabilidad)
Alternativa grfica a pruebas estadsticas

Tamara Jorquiera MC MSc

3/17/2015

1.

Dibujar una caja cuyo lmite inferior ser Q1 y


el superior Q3. Dentro de la caja trazar una
lnea que localice la mediana.

2.

Calcular el rango intercuartlico:


R.I. (Q) = RIQ = Q3 Q1

3.

Dibujar un bigote del borde inferior de la


caja hasta Q1-1.5 x RIQ .

Tamara Jorquiera MC MSc

3/17/2015

5.

Dibujar otro bigote del borde


superior de la caja hasta Q3+1.5 x RIQ .

6.

Dibujar cualquier observacin que se


ubique fuera de los bigotes (estos sern
los outliers).

Tamara Jorquiera MC MSc

3/17/2015

EDAD

fi

Tamara Jorquiera MC MSc

EDAD

3/17/2015

fi

Tamara Jorquiera MC MSc

3/17/2015

EDAD

fi

Fi

Tamara Jorquiera MC MSc

EDAD

3/17/2015

fi

Fi

Tamara Jorquiera MC MSc

3/17/2015

Tamara Jorquiera MC MSc

3/17/2015

Tamara Jorquiera MC MSc

3/17/2015

Tamara Jorquiera MC MSc

3/17/2015

Cajas

anchas nos sugieren distribuciones muy


dispersas en la parte central.
Cajas angostas nos muestran una gran
concentracin de datos.
La longitud de las colas por su parte nos
dirn la mayor o menor concentracin de los
datos en las zonas extremas.

Tamara Jorquiera MC MSc

3/17/2015

Mientras ms larga la caja y los bigotes, ms dispersa es la distribucin


de datos.

La distancia entre las cinco medidas descritas en el boxplot (sin incluir la


media aritmtica) puede variar, sin embargo, recuerde que la cantidad
de elementos entre una y otra es aproximadamente la misma. Entre el
lmite inferior y Q1 hay igual cantidad de opiniones que de Q1 a la
mediana, de sta a Q3 y de Q3 al lmite superior. Se considera aproximado
porque pudiera haber valores atpicos, en cuyo caso la cantidad de
elementos se ve levemente modificada.

La lnea que representa la mediana indica la simetra. Si est


relativamente en el centro de la caja la distribucin es simtrica. Si por
el contrario se acerca al primer o tercer cuartil, la distribucin pudiera
ser sesgada a la derecha (asimtrica positiva) o sesgada a la izquierda
(asimtrica negativa respectivamente. Esto suele suceder cuando las
opiniones de los estudiantes tienden a concentrase ms hacia un punto
de la escala.

La mediana puede inclusive coincidir con los cuartiles o con los lmites de
los bigotes. Esto sucede cuando se concentran muchos datos en un mismo
punto
Tamara Jorquiera MC MSc

3/17/2015

Las medidas de resumen numrico


empleadas para variables cualitativas son:
Razn
Proporcin
Tasa

Tamara Jorquiera MC MSc

3/17/2015

Es la comparacin por cociente entre dos cifras de


diferentes o similar naturaleza en donde el
numerador y el denominador son excluyentes.
Por ejemplo, si tenemos 380 camas hospitalarias y 95
enfermeras y queremos encontrar la razn entre
ellas, tenemos que dividir:
380 camas hospitalarias/95 enfermeras=
4 camas/enfermera

Este nmero constituye un valor que refleja una


relacin.
En este caso, el nmero 4 se interpreta como que por
cada cuatro camas hospitalarias hay una enfermera.
Tamara Jorquiera MC MSc

3/17/2015

Es la comparacin por cociente entre el nmero


de elementos de un subconjunto y el nmero de
elementos de un conjunto al que pertenece
dicho subconjunto. En este caso el numerador
est incluido en el denominador, por este motivo
los valores siempre van a ser menores que la
unidad.
Por ejemplo, si en la poblacin hubo 175 casos
de cncer pulmonar de un total de 1925 casos
de todos los tipos de cncer, la proporcin se
calcular.

175 / 1925 = 0.09


Tamara Jorquiera MC MSc

3/17/2015

Es la comparacin por cociente entre un


nmero de eventos ocurridos en un tiempo y
lugar determinados y la poblacin que estuvo
expuesta al riesgo de que le ocurriera dichos
eventos en la misma poca y en ese lugar.

Tamara Jorquiera MC MSc

3/17/2015

GRACIAS

Tamara Jorquiera MC MSc

You might also like