Professional Documents
Culture Documents
Conceptos Bsicos
La ESTADISTICA es la ciencia que se ocupa de la
Sistematizacin, recogida, ordenacin y presentacin
de los datos referentes a un fenmeno que presenta
variabilidad o incertidumbre para su estudio
metdico, con objeto de
deducir las leyes que rigen esos fenmenos,
y poder de esa forma hacer previsiones sobre los
mismos, tomar decisiones u obtener conclusiones.
a
v
i
t
p
i
cr
s
De
ad
d
li
i
b
a
ob
r
P
ia
c
en
r
e
f
In
Conceptos Bsicos
Conceptos Bsicos
Caracteres o variables: Cualquier cualidad o propiedad inherente al individuo.
Una caracterstica observable que vara entre los diferentes individuos de una
poblacin. La informacin que disponemos de cada individuo es resumida en
variables, que representamos normalmente por las ltimas letras maysculas X,
Y, Z,
En los individuos de la poblacin espaola, de uno a otro es variable:
El grupo sanguneo
{A, B, AB, O} Var. Cualitativa
Su nivel de felicidad declarado
{Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal
El nmero de hijos
{0,1,2,3,...} Var. Numrica discreta
La altura
{162 ; 174; ...} Var. Numrica continua
Conceptos Bsicos
Cualitativas
Si sus valores no se pueden asociar naturalmente a un nmero (no se pueden
hacer operaciones algebraicas con ellos)
Cuantitativas o Numricas
Si sus valores son numricos (tiene sentido hacer operaciones algebraicas con
ellos)
Conceptos Bsicos
Es buena idea codificar las variables como nmeros para poder procesarlas con
facilidad en un ordenador.
Es conveniente asignar etiquetas a los valores de las variables para recordar qu
significan los cdigos numricos.
Sexo (Cualit: Cdigos arbitrarios)
1 = Hombre
2 = Mujer
Raza (Cualit: Cdigos arbitrarios)
1 = Blanca
2 = Negra,...
Felicidad Ordinal: Respetar un orden al
codificar.
1 = Muy feliz
2 = Bastante feliz
3 = No demasiado feliz
Se pueden asignar cdigos a respuestas
especiales como
0 = No sabe
9 = No contesta
Estas situaciones debern ser tenidas en
cuenta en el anlisis. Datos perdidos
(missing data)
Conceptos Bsicos
Conceptos Bsicos
Modalidades o valores de las variables: Cada uno de los posibles valores
que puede tomar una variable y se representan con las letras minsculas x1, x2,
, xn.
Ejemplo: La variable cualitativa estado civil puede tomar los valores o
modalidades: casado, soltero o viudo. La variable cuantitativa edad puede
tomar las modalidades o valores: 10 aos, 12 aos, 15 aos, etc
Gnero
Frec.
Hombre
Mujer
Variable
Frecuencias relativas
(Valor)
Simple
x1
n1
N1= n1
f1 = n 1 / N
F1= f1
x2
n2
N2= n1 + n2
f2 = n 2 / N
F2= f1 + f2
...
...
...
...
...
xn-1
nn-1
Nn-1= n1 + n2
fn-1 = nn-1 /
Fn-1= f1 + f2
+ ...+ nn-1
+ + f
Nn = n = N
fn = n n / N
Fn = f =1
xn
nn
Acumulada
Simple
Nmero de hijos
Acumulada
Vlidos
n-1
Perdidos
Total
0
1
2
3
4
5
6
7
Ocho o ms
Total
No contesta
Frecuencia
419
255
375
215
127
54
24
23
17
1509
8
1517
Porcentaje
27,6
16,8
24,7
14,2
8,4
3,6
1,6
1,5
1,1
99,5
,5
100,0
Porcentaje
vlido
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0
Porcentaje
acumulado
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0
Qu porcentaje de individuos
tiene 6 hijos o menos?
97,3%
Nmero de hijos
0
1
2
3
4
5
6
7
Ocho+
Total
Frec.
419
255
375
215
127
54
24
23
17
1509
Porcent.
(vlido)
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0
Porcent.
acum.
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0
50%
Descripciones grficas
Datos de un carcter cualitativo
Diagramas de barras
Pictogramas
Fciles de entender.
El rea de cada modalidad debe ser proporcional a
la frecuencia.
Descripciones grficas
Datos, sin agrupar, de un carcter cuantitativo
Diagrama de barras
N de hijos (Xi)
N de familias (ni)
Descripciones grficas
Datos, agrupados, de un carcter cuantitativo
Histogramas
Ii
ni
fi
Ni
Fi
7'5 - 9
0'088
0'088
9 10'5
0'236
11
0'324
10'5 - 12
10
0'294
21
0'618
12 - 13'5
10
0'294
31
0'912
13'5 - 15
0'029
32
0'941
15 - 16'5
0'059
34
Descripciones Numricas
Posicin
Dividen un conjunto ordenado de datos en grupos con la misma
cantidad de individuos.
Percentiles, cuartiles, deciles,...
Centralizacin
Indican valores con respecto a los que los datos parecen agruparse.
Media, mediana y moda
Dispersin
Indican la mayor o menor concentracin de los datos con respecto a
las medidas de centralizacin.
Desviacin tpica, coeficiente de variacin, rango, varianza
Forma
Asimetra
Apuntamiento o curtosis
Descripciones Numricas
Medidas de posicin
Cuartiles: Sea q un nmero real tal que 0 q 4. El cuartil q (cq) es un
valor del recorrido de las observaciones tal que el q/4 de las observaciones
son menores o iguales que cq.. El cuartil 2 es la mediana
Deciles: Sea q un nmero real tal que 0 q 10. El decil q (dq) es un
valor del recorrido de las observaciones tal que el q/10 de las observaciones
son menores o iguales que dq.. El decil 5 es la mediana.
Percentiles: Sea q un nmero real tal que 0 q 100. El percentil q (pq)
es un valor del recorrido de las observaciones tal que el q % de las
observaciones son menores o iguales que pq. El percentil 50 es la mediana.
Descripciones Numricas
Medidas de posicin (EJEMPLO)
El 5% de los recin nacidos tiene un peso demasiado bajo. Qu peso se considera
demasiado bajo?
Percentil 5 o cuantil 0,05
10
15
20
25
frecuencia
3
Peso al nacer (Kg) de 100 nios
Descripciones Numricas
Medidas de posicin (EJEMPLO)
Qu peso es superado slo por el 25% de los individuos?
Percentil 75 o tercer cuartil
15
10
5
0
frecuencia
20
25
30
50
55
60
65
70
75
80
85
Descripciones Numricas
Medidas de posicin (EJEMPLO)
El colesterol se distribuye simtricamente en la poblacin. Supongamos que se
consideran patolgicos los valores extremos. El 90% de los individuos son
normales Entre qu valores se encuentran los individuos normales?
10
15
20
Percentiles 5 y 95
frecuencia
180
200
220
Colesterol en 100 personas
240
260
Descripciones Numricas
Medidas de centralizacin
Descripciones Numricas
Altura mediana
Descripciones Numricas
Medidas de centralizacin
Media
Media Aritmtica
x n
i
Mediana :
Datos agrupados
Me = x[N/2] + 1
Me = xj
Descripciones Numricas
xi
ni
Ni
Ejemplo:
La distribucin de frecuencias acumuladas del ejemplo del nmero de hijos era
N de hijos (xi)
11
19
23
25
Descripciones Numricas
Datos Agrupados: Las grficas siguientes, correspondientes a polgonos de frecuencias
absolutas acumuladas, nos plantea dos situaciones diferentes a considerar:
Descripciones Numricas
Ejemplo:
La distribucin de frecuencias del ejemplo de los niveles de colinesterasa es:
Intervalo
Ii
7'5-9
Frecuencia
ni
10
10
Frecuencia
Acumulada
Ni
11
21
31
32
34
Descripciones Numricas
Medidas de dispersin
Conjunto 1: 10 20 30 40 50 media = 30, mediana = 30, moda = no existe
Conjunto 2: 10 30 30 30 50 media = 30, mediana = 30, moda = 30
Conjunto 3: 30 30 30 30 30 media = 30, mediana = 30, moda = 30
A la vista de estas medidas podramos llegar a la conclusin equivocada de que
los tres conjuntos de datos son muy similares. Sin embargo, si dibujamos los
histogramas:
Descripciones Numricas
Medidas de dispersin
P25
P50
P75
Mx.
0.03
Amplitud o Rango:
Diferencia entre observacines extremas.
2,1,4,3,8,4. El rango es 8-1=7
Es muy sensible a los valores extremos.
0.02
Mn.
0.04
0.05
25%
25% 25%
25%
Rango intercuartlico
0.01
Rango intercuartlico:
Rango
Es la distancia entre primer y tercer cuartil.
Rango intercuartlico = P - P
75
25
150
160
170
180
190
Parecida al rango, pero eliminando las observaciones ms extremas
inferiores y superiores.
No es tan sensible a valores extremos.
0.00
Descripciones Numricas
Medidas de dispersin
Varianza S2: Mide el promedio de las desviaciones (al cuadrado) de las
observaciones con respecto a la media.
Descripciones Numricas
Medidas de dispersin
Desviacin tpica: Es la raz cuadrada de la
varianza
S S2
50
40
30
20
10
N = 407,00
Descripciones Numricas
0.01
0.01
0.02
0.02
0.03
0.03
0.04
0.04
0.05
0.05
Medidas de dispersin
xs
x 2s
95 %
0.00
0.00
68.5 %
150
160
170
180
190
150
160
170
180
190
Descripciones Numricas
Medidas de dispersin
Coeficiente de variacin: Es la razn entre la desviacin tpica y la media.
S
Cv
x x
Mide la desviacin tpica en forma de qu tamao tiene con respecto a la
media
Tambin se la denomina variabilidad relativa.
Es frecuente mostrarla en porcentajes
Si
la media es 80 y la desviacin tpica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa)
Es una cantidad adimensional. Interesante para comparar la variabilidad de
diferentes variables.
Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan ms dispersin en peso que en altura.
No debe usarse cuando la variable presenta valores negativos o donde el valor
0 sea una cantidad fijada arbitrariamente
Por ejemplo 0C 0F
Los ingenieros electrnicos hablan de la razn seal/ruido (su inverso).
Descripciones Numricas
Medidas de forma
Asimetra o sesgo
Descripciones Numricas
Medidas de forma
Asimetra o sesgo
Descripciones Numricas
Medidas de forma
Apuntamiento o Curtosis
g2< 0 Platicrtica
g2 = 0 Mesocrtica
g2 > 0 Leptocrtica
Ejercicios
1) En una clnica infantil se han ido anotando, durante un mes, el nmero de
metros que el nio anda, seguido y sin caerse, el primer da que comienza a
caminar. Obtenindose as la tabla adjunta:
Nmero de nios 2
10
10
Nmero de
metros
Se pide:
1.
Tabla de frecuencias.
2.
Diagrama de barras para frecuencias absolutas.
3.
Diagramas de frecuencias acumuladas (absolutas).
4.
Mediana, Moda y Cuartiles.
5.
Media aritmtica.
Ejercicios
2) Se han medido los pesos y alturas de seis personas, obtenindose los datos
siguientes:
Pesos
65
60
65
63
68
68
Alturas
1,70
1,50
1,68
1,70
1,75
1,80
Se quiere saber:
a) Qu medidas estn ms dispersas, los pesos o las alturas?.
b) Cul es el coeficiente de variacin de Pearson en cada caso?.
Ejercicios
3) En la caja de reclutas se ha medido la altura de 110 jvenes, obtenindose la
siguiente tabla:
Altura
N jvenes
1,55-1,60
18
1,60-1,70
31
1,70-1,80
24
1,80-1,90
20
1,90-2,00
17
Calclense:
a) Los percentiles 21 y 87 y los deciles 3 y 9.
b) Se consideran "bajos" a aquellos cuya altura est bajo el percentil 3.
Cul es la altura mxima que pueden alcanzar?
c) Se consideran "altos" aquellos cuya altura est sobre el percentil 82.
Cul ser su altura mnima?.
d) En qu percentil estar un joven de altura 1,78?
e) Coeficiente de asimetra de Fisher.