Professional Documents
Culture Documents
Ordinales
Categóricas
Nominales
Variables =
Continuas
Numéricas
Discretas
Categórica
Cuando el registro de la medición es un elemento de una categoría.
I Ordinales
Cuando el registro de la medición se expresa en grados de
intensidad que tienen un orden, pero no se puede determinar el
incremento entre los grados.
Con variables de tipo ordinal podemos calcular: la moda, la
mediana o los porcentiles de los datos.
Ejemplo: Grados de satisfacción en un servicio Muy bueno,
Bueno, Regular y Malo.
I Nominales
Cuando las categorías sólo se les da un nombre pero no tienen un
orden entre ellas, deben ser mutuamente excluyentes (no hay un
elemento que pertenezcan a dos o más categorías a la vez) y
exhaustivas (todo elemento pertenece a una categoría). Podemos
calcular la(s) moda(s) y la frecuencia de ocurrencia en cada una de
las categorías.
Ejemplo: ¾Está de acuerdo con las obras de continuación del
segundo piso del Periférico? Sí No.
Numéricas
I Discretas
I Continuas
(
1 si cae águila
X =
0 si cae sol.
Existen v.a. continuas y discretas, pero para cada variable aleatoria
nosotros podemos asignarle una función de densidad, denotada f (·)
con las siguientes propiedades:
I f(x ) ≥ 0, y
X
f (x ) = 1 cuando la v.a. es discreta
∀x ∈Ω
I
∞
−∞ f (x )dx = 1 cuando la v.a. es continua.
(x − µ)2
( )
1
X(
f x ) =
σ
√
2π
exp −
2σ 2
, para −∞<x <∞
1
En honor al matemático Johann Carl Friedrich Gauss 1777 1855.
Observaciones
µ, σ 2
1. A se les conoce como los parámetros de la función de
densidad.
2. µ√ 2
coincide con la media, σ coincide con la varianza de la v.a.
y σ 2 = σ se le conoce como la desviación estándar.
3. Cada par de valores µ y σ2 determinan una función de
densidad distinta
µ = 0 σ2 = 1 2
0.6
0.4
σ2 = 1 µ = 0
0.2
µ = 0 σ2 = 2
0.0
−4 −2 0 2 4
x
A partir de cualquier v.a. X ∼ N (µX , σX2 ) con σX2 > 0, podemos
llevarla a una v.a. normal estándar haciendo la siguiente
transformación
X − µX
= ,
σX
Z
P (a ≤ X ≤ b) = P (a − µX ≤ X − µX ≤ b − µX )
a − µX X − µX b − µX
= P ≤ ≤
σX σX σX
a − µX b − µX
= P ≤Z ≤ .
σX σX
En resumen calcular la probabilidad del evento a ≤ X ≤ b, es
a − µX b − µX
equivalente a el evento ≤Z ≤ , donde
σX σX
Z ∼ N (0, 1).
Recordemos que para calcular probabilidades en el caso de v.a.´s
continuas es necesario calcular el área bajo la curva que determina la
función de densidad f (x ), es decir
b
P (a ≤ X ≤ b ) = P (X ≤ b ) − P (X ≤ a) = F (b ) − F (a) = a f (x )dx ,
donde F (·) es la función de distribución. En general no es fácil calcular el
área bajo la curva determinada por la función de densidad normal
estándar f (z ). Por fortuna existen tablas de la función de distribución
F (z ) = P (Z ≤ z ) para la normal estándar. Estas tablas están integrada
de las siguiente forma: a) la primera columna tiene valores de la variable
Z de -3.6 a 3.62 b) el primer renglón permiten obtener valores más nos
de la variable aleatoria hasta centésimos, y c) el resto de la tabla contiene
las probabilidades de que la v.a. Z , es decir, P (Z ≤ z ).
2
Para ver la tabla completa ver el apéndice
Por ejemplo, si deseamos calcular P (Z ≤ 1.48), buscamos en la primera
columna el número 1.4 y en la primera hilera el número 0.08. El número
ubicado en la intersección de la hilera con el número 1.4 y la columna
encabezada por 0.08 es la probabilidad buscada, es decir:
P (Z ≤ 1.48) = 0.93056
Ejemplo. Sea una v.a. Z ∼ N (0, 1). Deseamos encotrar
P (Z ≤ 2.33) y P (Z ≥ 2.33). La primera probabilidad corresponde
al área sombreada en la siguiente gura
0.4
0.3
0.2
yv
0.1
0.0
−3 −2 −1 0 1 2 3
xv
2
W = Z1 + · · · + Zk2 ,
Z
= ,
W
Y q
k
diremos que Y se distribuye t de Student con k grados de
libertad, y lo denotaremos por Y ∼ tk .
Observaciones
I Los grados de libertad de k son los mismos grados de la χ2
t
que la genera.
I Esta función de distribución es parecida a la normal centrada
en cero
I en el sentido de que también es simétrica alrededor del cero,
I pero la tk se diferencía de la normal en que tiene colas más
pesadas.
I Cuando los grados de libertad k tienden a innito, entonces tk
tiende a una N (0, 1), y lo podemos escribir como
t(50)
0.4
t(5)
0.3
t(1)
0.2
0.1
0.0
−4 −2 0 2 4
x
Distribución F de Snedecor
Si u y v son números enteros positivos y denimos las siguentes
v.a.´s como V ∼ χ2u y W ∼ χ2v donde V y W son independiente.
Entonces la v.a. denida por la transformación
V/d1
K = ,
W/d2
distintas u s y v s :
0.8
F(1,1)
0.6
F(1,5)
0.4
F(1,5)
0.2
F(100,1)
0.0
0 2 4 6 8
x
La Distribución de la Media Muestral X̄
Media y varianza de la media muestral.
Sea X1 , X2 , ..., Xn una muestra aleatoria de una función de
distribución de probabilidades fX( x ), con media µX y varianza σX2 .
La media y la varianza de la media muestral X̄ son:
E(X̄ ) = µX̄ = µX
σX2
( ) = σX̄2 =
Var X̄
n
σX2
2 N −n
σX̄ =
N − 1 n
σ2
˙ N µX , X
X̄ ∼
n
donde el símbolo ∼
˙ debe leerse se distribuye aproximadamente.
Si se estandariza la variable aleatoria X̄ , tenemos:
√
X̄ − µX (
n X̄ − µX )
= ∼ N (0, 1).
σX
√
n σX
El Teorema Central del Límite establece que para un tamaño de
muestra grande la distribución de X̄ es aproximadamente normal:
muestreando,
3
Siempre y cuanto tenga hasta segundo momento nito.
Ejemplo
La función de probabilidades de una varible aleatoria X es:
X -4 -3 -2 0 1 2 3
0.20
0.15
0.10
−4 −3 −2 −1 0 1 2 3
x
15
10
Frequency
5
0
−4 −3 −2 −1 0 1 2
muestra[, 4]
4
2
0
−3 −2 −1 0 1
rowMeans(muestra)
Calidad en los datos
Inspección visual. Para detectar si hay datos fuera de los rangos
establecidos, conocer el máximo y mínimo de cada variable.
Vericar que las codicaciones sean consistentes en toda la base.
Distribución de frecuencias de las variables de mayor interés, ver
distribución de la muestra.
Grácas de dispersión. Identicar grupos u observaciones
discrepantes.
Vericar métodos de recolección de los datos para detectar
posibles fuentes de sesgo.
Observaciones faltantes. Tratar de rastrearlas, ir a registros
originales, razones de su omisión. Denir que se hará con estas
observaciones, se puede usar algún valor de reemplazo o imputación
o seleccionar cuáles si se desechan. Los valores faltantes generan
sesgo este tema es de suma importancia
Cuidado con el número de dígitos a usar, puede perderse precisión o
al revés desperdiciar espacio.
Tener control sobre los estándares de medición.
Un grupo de datos de poca calidad no merece un análisis muy
Observaciones Discrepantes
i
relacionada con el valor mismo de x o con el de cualquier otra
variable.
Por ejemplo si las personas con un nivel de ingresos alto tienden a
no contestar por miedo a ser sujetos secuestrables, entonces esa
observación no se perdió completamente al azar.
MCAR corresponde a pensar que ese dato se perdió con la misma
probabilidad que cualquier otro dato. Si la persona no responde
acerca de sus ingresos, de la misma manera que no responde a
cuántos hijos tiene, entonces se considera MCAR. En este caso los
parámetros pueden estimarse sin sesgo.
A diferencia de los datos MCAR, donde la probabilidad de no
i i
observar a X no depende del valor mismo de x o de otras
variables. En este caso esa probabilidad no dependerá de x i luego
de controlar o condicionar con otra variable.
Por ejemplo, una persona con depresión puede ser que tienda más a
no contestar acerca de su ingreso, la gente con depresión a su vez
en general tiene menos ingresos, entonces lo que ocurre es que si
hay un tasa alta de no respuesta entre las personas con depresión,
la media real puede ser menor que la calculada con los datos
existentes, es decir sin tomar en cuenta a los datos faltantes. Ahora
si entre las personas con depresión la probabilidad de no contestar
acerca de su ingreso no está relacionada con su nivel de ingreso,
Esto
entonces los datos se consideran faltantes al azar, (MAR).
No signica que estos faltantes no produzcan sesgo y que se
pueda uno olvidar del problema.
Cuando no son MCAR ni MAR entonces se dice que son datos
faltantes no al azar (MNAR).
Ejemplo: Si se estudia una cierta enfermedad y las persona que
padecen esa enfermedad son las que tienen una mayor probabilidad
a no contestar a si la padecen, entonces los datos son faltantes no
al azar, MNAR. Claramente el estimador de la proporción que
padece esa enfermedad será menor que la proporción que se
obtendría con los datos completos. Lo mismo ocurre en el caso de
las personas con menor ingreso son las que tienden a no contestar
su nivel de ingreso. Esta falta de datos no al azar es un problema,
la única manera de obtener un estimador insesgado
Referencia bibliográca:
http://www.uvm.edu/~dhowell/StatPages/More_Stu/Missing_Data/M
Tratamiento de datos faltantes
Omisión total
Software.
http://www.stefvanbuuren.nl/publications/MICEinR-Draft.pdf
Grácas datos univariados
> dotchart(pie.sales)
Gráco de Barras
> barplot(VADeaths)
0 | 00000000000000000000000000000111111222338
2 | 07
4 | 5
6 | 8
8 | 4
10 | 5
12 |
14 |
16 | 0
> stem(log10(islands))
1 | 1111112222233444
1 | 5555556666667899999
2 | 3344
2 | 59
3 |
3 | 5678
4 | 012
> as.data.frame(islands)
islands Moluccas 29
Africa 11506 New Britain 15
Antarctica 5500 New Guinea 306
Asia 16988 New Zealand (N) 44
Australia 2968 New Zealand (S) 58
Axel Heiberg 16 Newfoundland 43
Baffin 184 North America 9390
Banks 23 Novaya Zemlya 32
Borneo 280 Prince of Wales 13
Britain 84 Sakhalin 29
Celebes 73 South America 6795
Celon 25 Southampton 16
Cuba 43 Spitsbergen 15
Devon 21 Sumatra 183
Ellesmere 82 Taiwan 14
Europe 3745 Tasmania 26
Greenland 840 Tierra del Fuego 19
Hainan 13 Timor 13
Hispaniola 30 Vancouver 12
Hokkaido 30 Victoria 82
Honshu 89
Iceland 40
Ireland 33
Java 49
Kyushu 14
Luzon 42
Madagascar 227
Melville 16
Mindanao 36
Histograma
# normal fit
qqnorm(x); qqline(x)
> x<-rchisq(20,3)
> qqnorm(x); qqline(x)
Grácas datos multivariados
Si p es par
> cardata
Weight Disp.
[1,] 2560 97
[2,] 2345 114
[3,] 1845 81
[4,] 2260 91
[5,] 2440 113
[6,] 2285 97
[7,] 2275 97
[8,] 2350 98
[9,] 2295 109
[10,] 1900 73
…
[59,] 3185 146
[60,] 3690 146
> bagplot(cardata,factor=3,show.baghull=TRUE,
+ show.loophull=TRUE,precision=1,dkmethod=2)
> title("car data Chambers/Hastie 1992")
Gráca de paralelas
Se usan sobre todo cuando hay varias mediciones para un solo
individuo.
parallel(~iris[,1:4],col=as.numeric(iris$Species),main="Parallelplot IRIS")
Gráco series de tiempo múltiples
> USeconomic
log(M1) log(GNP) rs rl
1954 Q1 6.111246 7.249073 0.010800000 0.02613333
1954 Q2 6.115892 7.245084 0.008133333 0.02523333
1954 Q3 6.129268 7.257003 0.008700000 0.02490000
1954 Q4 6.141177 7.271565 0.010366667 0.02566667
1955 Q1 6.151881 7.292746 0.012600000 0.02746667
1955 Q2 6.159307 7.303641 0.015133333 0.02816667
1955 Q3 6.162472 7.316880 0.018633333 0.02926667
1955 Q4 6.161840 7.325610 0.023466667 0.02890000
1956 Q1 6.164157 7.323633 0.023800000 0.02886667
…
1987 Q1 6.448731 8.236606 0.055333333 0.07636667
1987 Q2 6.453310 8.248791 0.057333333 0.08576667
1987 Q3 6.445879 8.259795 0.060333333 0.09083333
1987 Q4 6.446513 8.274612 0.060033333 0.09240000