Modopresentacion

Estadística Básica
Leticia Gracia Medrano.

lety@sigma.iimas.unam.mx
30 de julio del 2012

La denición de Agresti y Franklin
Estadística es el arte y la ciencia de diseñar estudios y analizar los

datos que esos estudios generan. Su n último es traducir los datos
en conocimiento y entendimiento del mundo que nos rodea. En
resumen Estadística es el arte y la ciencia de aprender de los datos.
La denición de Manzano Arrondo
La estadística es la ciencia que se ocupa del estudio de fenómenos

de tipo genérico, normalmente complejos y enmarcados en un
universo variable, mediante el empleo de modelos de reducción de
la información y de análisis de validación de los resultados en
términos de la representatividad
Las humorísticas
I Se dice por ejemplo, que si una persona gana un millón y otra

nada, la estadística" establece que las dos han ganado medio
millón.
I La estadística dice: que si una persona pone la cabeza en le

congelador y los pies en el horno, su temperatura media será
correcta.
I La estadística pronostica como un acierto el caso de un

soldado, que dispara sobre un blanco, una vez medio metro a
la derecha y otra medio metro a la izquierda.
Cabe mencionar que en estos tres casos la media aritmética, está

afectada por una escasa representatividad.
Tipos de fenómenos
Una característica del humano es tratar de interpretar los

fenómenos que lo rodean, aprender del mundo a partir de lo que se
observa y de su experiencia a lo largo del tiempo.
A partir de estas experiencias uno aprende a hacer deducciones
útiles del mundo en que vive. No en balde el método cientíco tiene
como parte fundamental la observación.
Hay una gran variedad de fenómenos que quisiéramos describir,
pero podemos empezar por clasicarlos como fenómenos
deterministas y fenómenos aleatorios.
Un fenómeno determinista es aquel que, cuando se reproduce en
las mismas condiciones, podemos predecir con certeza cuál va a ser
el resultado, en otras palabras se rige bajo leyes causales. Este tipo
de fenómenos no son parte de nuestro estudio.
Por otro lado, el fenómeno aleatorio es aquel que cada vez que se
realiza, aun bajo condiciones idénticas (o casi), el resultado no se
conoce con certeza, además el resultado sólo se sabe después de
realizado el experimento.
Las herramientas con la que contamos para estudiar los fenómenos aleatorios son:
1. La probabilidad
I Grado de conanza o fundada apariencia de que algo suceda.

I En los juegos o probabilidad clásica, es la razón entre el
número de casos favorables y el número de casos posibles.
I y su formalización basada en planteamiento axiomático de
Kolmogorov en 1933.
2. La estadística.
I que es el estudio de los datos cuantitativos de la población
I disciplina que utiliza grandes conjuntos de datos numéricos
para obtener inferencias basadas en el cálculo de
probabilidades.
I la estadística clásica o frecuentista se basa en la regularidad
estadística, es decir que, al repetir un fenómeno aleatorio un
número grande de veces en condiciones constantes, las
proporciones en las que ocurren los posibles resultados son
muy estables.
I la estadística subjetiva o Bayesiana que incorpora el
conocimiento que tiene el individuo sobre el fenómeno
aleatorio.
Concepto de medición y de variable
Para cuanticar o clasicar lo que percibimos de un fenómeno

aleatorio necesitamos hacer mediciones u observaciones que nos
ayudarán a investigar una o varias características de interés sobre el
fenómeno.
Para un correcto manejo de nuestras mediciones, las observaciones
deben ser registradas tomando en cuenta su tipo, para poder saber
que operaciones aritméticas podemos hacer con ellas.
Como al medir un fenómeno aleatorio obtenemos diferentes
registros llamaremos variable al conjunto de posibles resultados
que podemos obtener.
De acuerdo a la característica que se desea estudiar, a los valores
que toma la variable, se tiene la siguiente clasicación:
 


 Ordinales

Categóricas





 



 Nominales
Variables =

 
Continuas

 


Numéricas



 

Discretas

Categórica
Cuando el registro de la medición es un elemento de una categoría.
I Ordinales
Cuando el registro de la medición se expresa en grados de
intensidad que tienen un orden, pero no se puede determinar el
incremento entre los grados.
Con variables de tipo ordinal podemos calcular: la moda, la
mediana o los porcentiles de los datos.
Ejemplo: Grados de satisfacción en un servicio Muy bueno,
Bueno, Regular y Malo.
I Nominales
Cuando las categorías sólo se les da un nombre pero no tienen un
orden entre ellas, deben ser mutuamente excluyentes (no hay un
elemento que pertenezcan a dos o más categorías a la vez) y
exhaustivas (todo elemento pertenece a una categoría). Podemos
calcular la(s) moda(s) y la frecuencia de ocurrencia en cada una de
las categorías.
Ejemplo: ¾Está de acuerdo con las obras de continuación del
segundo piso del Periférico? Sí No.
Numéricas
Cuando los registros son valores numéricos
I Discretas
son las variables que toman un número nito o numerable de

valores.
Ejemplo: Número de hijos en un matrimonio, número de accidentes.
I Continuas
Toman cualquier valor numérico entero, fraccionario o irracional.

La precisión del registro dependerá del instrumento de medición.
Ejemplo: la estatura de una persona tomada al azar.
Variables aleatorias
Las variables aleatorias (v.a.) serán nuestros modelos que nos

serviran para representar la regularidad estadística. Y las
denotaremos letras mayúsculas X , Y , W , etc.
Una v.a.´s es una función que sirve para cuanticar los resultados
de modo que se asigne un número real a cada uno de los resultados
posibles del experimento.
Por ejemplo, en el experimento de lanzar una moneda, los
resultados posibles son Ω = {águila, sol}, entonces podemos denir
la v.a. X como
(
1 si cae águila
X =
0 si cae sol.
Existen v.a. continuas y discretas, pero para cada variable aleatoria
nosotros podemos asignarle una función de densidad, denotada f (·)
con las siguientes propiedades:
I f(x ) ≥ 0, y
X
 f (x ) = 1 cuando la v.a. es discreta
∀x ∈Ω


I
 ∞



−∞ f (x )dx = 1 cuando la v.a. es continua.
Area bajo la curva que determina f (x )

En el estudio de la regularidad estadística con variables categóricas
o bien con variables numéricas con muchos valores (y se establecen
clases o intervalos), la suma de las frecuencias relativas o
proporciones siempre es uno (el 100%).
Distribución Normal
La función de densidad normal o Gaussiana
1 destaca entre las
distribuciones de tipo continuo, ya que es un modelo que se adecúa

a una gran cantidad de situaciones en el mundo real, y porque su
manejo matemático es más sencillo en muchas técnicas de
inferencia.
Denición
Diremos que una v.a. X se distribuye normal con media µ y
varianza σ 2 , denotado por X ∼ N (µ, σ 2 ), si su función de
densidad es:
(x − µ)2
( )
1
X(
f x ) =
σ
√
2π
exp −
2σ 2
, para −∞<x <∞
donde , µ = E (X ), −∞ < µ < ∞, Var (X ) = σ 2 y σ 2 > 0.
1
En honor al matemático Johann Carl Friedrich Gauss 1777 1855.
Observaciones
µ, σ 2

1. A se les conoce como los parámetros de la función de
densidad.
2. µ√ 2
coincide con la media, σ coincide con la varianza de la v.a.
y σ 2 = σ se le conoce como la desviación estándar.
3. Cada par de valores µ y σ2 determinan una función de
densidad distinta
4. La función de densidad es simétrica alrededor del parámetro µ.

5. La media, la moda y la mediana coinciden en µ.
6. Si hacemos que µ= 0 y σ
2 = 1 entonces
2
1
X(
x
f x ) = √ exp − , para − ∞ < x < ∞
2π 2
que se conoce como la función de distribución normal

estándar. Este miembro de la familia de normales es muy
importante porque a partir de ella se pueden calcular las
probabilidades de cualquier miembro de la familia.
0.8
µ = 0 σ2 = 1 2
0.6
0.4
σ2 = 1 µ = 0
0.2
µ = 0 σ2 = 2
0.0
−4 −2 0 2 4
x
A partir de cualquier v.a. X ∼ N (µX , σX2 ) con σX2 > 0, podemos
llevarla a una v.a. normal estándar haciendo la siguiente
transformación
X − µX
= ,
σX
Z
a este proceso se le llama estandarización o estandarizar la v.a.

X.
Con el n de ejemplicar lo antes dicho, supongamos que tenemos

dos números reales jos a y b tales que a ≤ b; entonces si queremos
sacar la probabilidad de que la v.a. X tome alguno de los valores
en el intervalo [a, b ] esto lo calculamos de la siguiente forma:
P (a ≤ X ≤ b) = P (a − µX ≤ X − µX ≤ b − µX )
a − µX X − µX b − µX

= P ≤ ≤
σX σX σX
a − µX b − µX

= P ≤Z ≤ .
σX σX
En resumen calcular la probabilidad del evento a ≤ X ≤ b, es
a − µX b − µX
equivalente a el evento ≤Z ≤ , donde
σX σX
Z ∼ N (0, 1).
Recordemos que para calcular probabilidades en el caso de v.a.´s
continuas es necesario calcular el área bajo la curva que determina la
función de densidad f (x ), es decir
b
P (a ≤ X ≤ b ) = P (X ≤ b ) − P (X ≤ a) = F (b ) − F (a) = a f (x )dx ,
donde F (·) es la función de distribución. En general no es fácil calcular el
área bajo la curva determinada por la función de densidad normal
estándar f (z ). Por fortuna existen tablas de la función de distribución
F (z ) = P (Z ≤ z ) para la normal estándar. Estas tablas están integrada
de las siguiente forma: a) la primera columna tiene valores de la variable
Z de -3.6 a 3.62 b) el primer renglón permiten obtener valores más nos
de la variable aleatoria hasta centésimos, y c) el resto de la tabla contiene
las probabilidades de que la v.a. Z , es decir, P (Z ≤ z ).
2
Para ver la tabla completa ver el apéndice
Por ejemplo, si deseamos calcular P (Z ≤ 1.48), buscamos en la primera
columna el número 1.4 y en la primera hilera el número 0.08. El número
ubicado en la intersección de la hilera con el número 1.4 y la columna
encabezada por 0.08 es la probabilidad buscada, es decir:
P (Z ≤ 1.48) = 0.93056
Ejemplo. Sea una v.a. Z ∼ N (0, 1). Deseamos encotrar
P (Z ≤ 2.33) y P (Z ≥ 2.33). La primera probabilidad corresponde
al área sombreada en la siguiente gura
0.4
0.3
0.2
yv
0.1
0.0
−3 −2 −1 0 1 2 3
xv
y puede obtenerse directamente de la tabla. Por lo tanto,

P (Z ≤ 2.33) = 0.9901. La segunda probabilidad pedida
corresponde al área que no está sombreada en la gura. Puesto que
el área total bajo la curva es uno, entonces
P (Z ≥ 2.33) = 1 − 0.9901 = 0.0099.
Distribución χ2 o de Pearson
Una v.a. χ2 (se lee, ji cuadrada) se genera a partir de la suma de

variables aleatorias independientes normales con media cero y
varianza uno. Es decir, si Z1 , Z2 , . . . , Z k∼ N (0, 1) y son
independientes entonces si denimos la nueva v.a. W como
2
W = Z1 + · · · + Zk2 ,
entonces diremos W se distribuye como una ji cuadrada con k
grados de libertad, y lo denotaremos como W ∼ χ2k .

Observaciones
1. El número de términos en la suma son los grados de libertad.
2. Se puede probar que la esperanza de W es k , es decir que

E (W ) = k , y
3. la varianza de W es 2k , es decir Var (W ) = 2k .

A continuacion algunas funciones de densidad W ∼ χ2k , para
distintas k ´s.
Distribución t de Student
Si Z ∼ N (0, 1) y W ∼ χ2k donde Z y W son independiente. Si
entonces la v.a. denida por la transformación
Z
= ,
W
Y q
k
diremos que Y se distribuye t de Student con k grados de
libertad, y lo denotaremos por Y ∼ tk .
Observaciones
I Los grados de libertad de k son los mismos grados de la χ2
t
que la genera.
I Esta función de distribución es parecida a la normal centrada
en cero
I en el sentido de que también es simétrica alrededor del cero,
I pero la tk se diferencía de la normal en que tiene colas más
pesadas.
I Cuando los grados de libertad k tienden a innito, entonces tk
tiende a una N (0, 1), y lo podemos escribir como
t(50)
0.4
t(5)
0.3
t(1)
0.2
0.1
0.0
−4 −2 0 2 4
x
Distribución F de Snedecor
Si u y v son números enteros positivos y denimos las siguentes
v.a.´s como V ∼ χ2u y W ∼ χ2v donde V y W son independiente.
Entonces la v.a. denida por la transformación
V/d1
K = ,
W/d2
se dice que K se distribuye F de Snedecor con u y v grados de

libertad, y lo denotaremos por K ∼ Fu,v .
Observaciones
I Los grados de libertad u y v de la F , uv los determinan los
grados de la χ2 en el numerador y en el denominador
respectivemete.
1
I Si K ∼ Fu,v entonces =K −1 ∼ Fv ,u .
K
A continuación se ilustran alguna funciones de densidad F ,
0 0
uv para
distintas u s y v s :
0.8
F(1,1)
0.6
F(1,5)
0.4
F(1,5)
0.2
F(100,1)
0.0
0 2 4 6 8
x
La Distribución de la Media Muestral X̄
Media y varianza de la media muestral.
Sea X1 , X2 , ..., Xn una muestra aleatoria de una función de
distribución de probabilidades fX( x ), con media µX y varianza σX2 .
La media y la varianza de la media muestral X̄ son:
E(X̄ ) = µX̄ = µX
σX2
( ) = σX̄2 =
Var X̄
n
Si la muestra se toma sin reemplazo de una población nita de

tamaño N , la expresión anterior debe modicarse como sigue:
σX2

2 N −n
σX̄ =
N − 1 n
Los resultados que se presentan son para la media de variables

aleatorias , es decir, para la media de lo que llamamos una muestra
aleatoria, y no volveremos a ocuparnos del muestreo sin reemplazo.
Teorema Central del Límite
Sea X1 , X2 , ..., X n una muestra aleatoria de una función de
probabilidades f X ( )
x, con media µ X y varianza σX2 . Sea
2 + ... + n ) la media aritmética de las variables

1
X̄ = n( X1 +X X
aleatorias que integran la muestra. Para un tamaño de muestra (n)

grande,la distribución de la variable aleatoria X̄ es
aproximadamente normal con media µX y varianza σX2 /n. En
símbolos esto se escribe:
σ2
˙ N µX , X

X̄ ∼
n
donde el símbolo ∼
˙ debe leerse se distribuye aproximadamente.
Si se estandariza la variable aleatoria X̄ , tenemos:
√
X̄ − µX (
n X̄ − µX )
= ∼ N (0, 1).
σX
√
n σX
El Teorema Central del Límite establece que para un tamaño de
muestra grande la distribución de X̄ es aproximadamente normal:
1. independientemente de que la v.a. X

3 de la cual se está
muestreando,
2. el teorema funciona aún si la distribución es discreta,
3. sea simétrica o asimétrica la forma de la densidad de f X( x )

4. la expresión tamaño de muestra grande es ambigüa, por lo
tanto el tamaño de muestra para el cual la aproximación es
buena depende de la forma de f X( x ).
3
Siempre y cuanto tenga hasta segundo momento nito.
Ejemplo
La función de probabilidades de una varible aleatoria X es:
X -4 -3 -2 0 1 2 3
P (X = x ) 0.3 0.1 0.1 0.1 0.2 0.1 0.1
Como podemos ver la densidad de X no se parece a una

distribución Normal. Con objeto de ver la rapidez con que la
distribución de medias se aproxima a una Normal, se tomaron 100
muestras aleatorias de tamaño 2 de f X(
x ) y se calculó la media
aritmética para cada una de las 100 muestras.
0.30
0.25
probabilidad
0.20
0.15
0.10
−4 −3 −2 −1 0 1 2 3
x
15
10
Frequency
5
0
−4 −3 −2 −1 0 1 2
muestra[, 4]
El anterior histograma correspondiente los pormedios las muestras

aleatorias de tamaño dos. A pesar de que el histograma no tiene
una gran similitud con una distribución normal, notemos que es
más simétrica que f X( x ). No perdamos de vista que cada muestra
es de tamaño 2.
El siguiente histograma es el que se obtuvo al obtener 100 muestras
aleatorias tamaño 10 de la misma f X(
x ), y notamos un parecido
mayor a la normal con tan solo una muestra de tamaño 10.
10
8
6
Frequency
4
2
0
−3 −2 −1 0 1
rowMeans(muestra)
Calidad en los datos
Inspección visual. Para detectar si hay datos fuera de los rangos
establecidos, conocer el máximo y mínimo de cada variable.
Vericar que las codicaciones sean consistentes en toda la base.
Distribución de frecuencias de las variables de mayor interés, ver
distribución de la muestra.
Grácas de dispersión. Identicar grupos u observaciones
discrepantes.
Vericar métodos de recolección de los datos para detectar
posibles fuentes de sesgo.
Observaciones faltantes. Tratar de rastrearlas, ir a registros
originales, razones de su omisión. Denir que se hará con estas
observaciones, se puede usar algún valor de reemplazo o imputación
o seleccionar cuáles si se desechan. Los valores faltantes generan
sesgo este tema es de suma importancia
Cuidado con el número de dígitos a usar, puede perderse precisión o
al revés desperdiciar espacio.
Tener control sobre los estándares de medición.
Un grupo de datos de poca calidad no merece un análisis muy
Observaciones Discrepantes
Estas observaciones también son conocidas como aberrantes,

discordantes, contaminantes,sorprendentes, en inglés OUTLIER.
Puede denírseles de varias formas, una de ellas es decir que es una
observación que se encuentra a una distancia ANORMAL de las
demás, y entonces hay que denir lo que es una distancia
NORMAL, es decir la observación se encuentra fuera de la nube de
datos.
Estas observaciones pueden distorsionar la información, también
pueden ser una señal de que el modelo de distribución de los datos
NO es el adecuado, o reejar el haber encontrado una situación
sorprendente o peculiar. Si la observación causa un impacto en el
observador se le llama generalmente discrepante.
Una observación contaminante será cualquiera que no
corresponda a la distribución supuesta, y ésta puede no ser
percibida por el observador.
Estas observaciones afectan fuertemente al estimador X̄ de la
media µ, y consecuentemente a los estimadores de Var (X ), de las
de Cov (X , Y ) y de Corr (X , Y ).
En análisis de regresión interesa identicar a las observaciones

inuyentes, que son aquellas que al omitirlas del análisis los
valores de las β̂ 's varían mucho.
Detectar estas observaciones puede ser una tarea bastante
complicada, sobre todo cuando se tienen datos altamente
multivariados.
En el caso univariado se les puede detectar muy fácilmente a través
de grácos boxplot o también al vericar si la media de los datos
diere mucho de la mediana.
Datos Faltantes
Datos faltantes completamente al azar
Pueden ser muy variadas las razones por las que existan valores
faltantes. Ya sea porque las condiciones climáticas, de seguridad o
políticas no permiten recoger la información, porque ese día los
instrumentos se descomponen, por que no se encontró a la persona
u objeto de la encuesta, aquí se puede pensar que la información se
perdió completamente al azar (MCAR por su siglas en inglés). Es
i no observada no está
decir cuando la probabilidad de que X sea
i
relacionada con el valor mismo de x o con el de cualquier otra
variable.
Por ejemplo si las personas con un nivel de ingresos alto tienden a
no contestar por miedo a ser sujetos secuestrables, entonces esa
observación no se perdió completamente al azar.
MCAR corresponde a pensar que ese dato se perdió con la misma
probabilidad que cualquier otro dato. Si la persona no responde
acerca de sus ingresos, de la misma manera que no responde a
cuántos hijos tiene, entonces se considera MCAR. En este caso los
parámetros pueden estimarse sin sesgo.
A diferencia de los datos MCAR, donde la probabilidad de no
i i
observar a X no depende del valor mismo de x o de otras
variables. En este caso esa probabilidad no dependerá de x i luego
de controlar o condicionar con otra variable.
Por ejemplo, una persona con depresión puede ser que tienda más a
no contestar acerca de su ingreso, la gente con depresión a su vez
en general tiene menos ingresos, entonces lo que ocurre es que si
hay un tasa alta de no respuesta entre las personas con depresión,
la media real puede ser menor que la calculada con los datos
existentes, es decir sin tomar en cuenta a los datos faltantes. Ahora
si entre las personas con depresión la probabilidad de no contestar
acerca de su ingreso no está relacionada con su nivel de ingreso,
Esto
entonces los datos se consideran faltantes al azar, (MAR).
No signica que estos faltantes no produzcan sesgo y que se
pueda uno olvidar del problema.
Cuando no son MCAR ni MAR entonces se dice que son datos
faltantes no al azar (MNAR).
Ejemplo: Si se estudia una cierta enfermedad y las persona que
padecen esa enfermedad son las que tienen una mayor probabilidad
a no contestar a si la padecen, entonces los datos son faltantes no
al azar, MNAR. Claramente el estimador de la proporción que
padece esa enfermedad será menor que la proporción que se
obtendría con los datos completos. Lo mismo ocurre en el caso de
las personas con menor ingreso son las que tienden a no contestar
su nivel de ingreso. Esta falta de datos no al azar es un problema,
la única manera de obtener un estimador insesgado
Referencia bibliográca:
http://www.uvm.edu/~dhowell/StatPages/More_Stu/Missing_Data/M
Tratamiento de datos faltantes
Omisión total
Si los datos son MCAR las estimaciones obtenidas serán insesgadas

si no son MCAR serán sesgadas, hay que tener en cuenta que esta
pérdida de datos genera pérdida de potencia en las pruebas.
Por ejemplo en el cálculo de las correlaciones se usan las
observaciones disponibles, pero entonces cada estimación está
soportada por diferentes bases de datos. Puede ser el caso que se
llegue a una matriz de correlaciones estimada NO denida positiva.
No hay que olvidar que hay que analizar a las observaciones NA y
tratar de ver si se comportan (en ciertas variables ) como la
población total o si dieren.
Otra cosa importante es considerar qué es lo que se tiene perdido.
La situación de perder variables explicativas es diferente a perder
variables respuesta.
Hot Deck
sustituir el caso por alguno semejante (de dónde sacamos a alguien
semejante si ya acabó la encuesta, tener la providencia de guardar
un montoncito extra para la sustitución?).
Imputación Simple
I Sustituir los valores faltantes por la media (el estimador de
máxima verosimilitud), pero eso tiene consecuencias sobre la
estimación de la varianza, porque siempre estaremos
sustituyendo con el mismo valor.
I se puede sustituir usando una regresión, pero el problema sigue
siendo que se sustituye por una media ( esta vez condicionada)
SPSS permite sumar una variación aleatoria, se subsana en
algo este tipo de problema.
I Se puede usar el Algoritmo EM. En regresión si se conocieran
los NA, estimar los parámetros del modelo sería fácil, y si se
conocieran los parámetros del modelo de los datos sería
sencillo hacer predicciones insesgadas de las observaciones
faltantes. Este algoritmo es iterativo y va haciendo ambas
cosas: con los datos existentes se estiman los parámetros del
modelo de los datos, enseguida con estos parámetros se hacen
Imputación múltiple
Se generan valores para hacer la imputación basados en los datos
existentes. Suponiendo que se estimay usando x , pero esta
imputación se hace varias veces, es decir tendremos varios
conjuntos de datos completados. Para hacer esto se usan métodos
conocidos Markov Chain Monte Carlo.
El programa NORM en la parte llamada data augmentation lo hace.
SAS tiene dos procedimientos MI y MIANALYZE.
Schafer, J.L. & Olsden, M. K.. (1998). Multiple imputation for
multivariate missing-data problems: A data analyst's perspective.
Multivariate Behavioral Research, 33, 545-571.
En R esta el paquete MICE, material con referencia en: Van

Buuren, S., Groothuis-Oudshoorn, K. (2011) MICE: Multivariate
Imputation by Chained Equations in R. Journal of Statistical
Software.
http://www.stefvanbuuren.nl/publications/MICEinR-Draft.pdf
Grácas datos univariados
I gráca de barras y de pie son solo para datos categóricos,

debe haber espacios entre las barras.
I histograma debe tenerse cuidado con los anchos de barras y

con los puntos que se consideran en el eje de las x.
I boxplot permite rápidamente ver observaciones discrepantes.
I q-qplot permite ver si dos muestras provienen de la misma

distribución.
I tallo y hoja, una versión de los histogramas pero permite ver

los datos tal cual.
Grácos de Pie y Dot Chart
El uso de grácos circulares o pasteles es bastante común entre

personas no profesionales en estadstica y lamentablemente se ha
trivializado tanto que si en muchas de las situaciones donde se usan
se suprimieran se ahorraran muchas hojas de papel.
Los grácos de puntos son elegantemente simples y permite
numerosas variaciones. La única razón por la cual no se han vuelto
populares es que los programas de hojas electrónicas no los
elaboren presionando una tecla.
> pie(pie.sales) # default colours
> pie(pie.sales, col = c("purple", "violetred1", "green3",
+ "cornsilk", "cyan", "white"))
> dotchart(pie.sales)
Gráco de Barras
> barplot(VADeaths)
> barplot(VADeaths, beside = TRUE,

+ col = c("lightblue", "mistyrose", "lightcyan",
+ "lavender", "cornsilk"),
+ legend = rownames(VADeaths), ylim = c(0, 100))
> title(main = "Death Rates in Virginia", font.main = 4)
Gráco de Tallo y Hoja
Este gráco fue propuesto por Tukey (1977) y a pesar de no ser un
gráco para presentación denitiva se utiliza a la vez que el analista
recoge la información ve la distribución de los mismos. Estos
grácos son fáciles de realizar a mano y se usan como una forma
rápida y no pulida de mirar los datos. Qué nos muestra?
1. El centro de la distribución
2. La forma general de la distribución
Simétrica si las porciones a cada lado del centro son imágenes
espejos de las otras.
Sesgada a la izquierda Si la cola izquierda (los valores menores) es
mucho más larga que los de la derecha (los valores mayores)
Sesgada a la derecha opuesto a la sesgada a la izquierda.
3. Desviaciones marcadas de la forma global de la distribución.
Outliers Observaciones individuales que caen muy por fuera del
patrón general de los datos.
gaps Huecos en la distribución
> stem(islands)
The decimal point is 3 digit(s) to the right of the |
0 | 00000000000000000000000000000111111222338
2 | 07
4 | 5
6 | 8
8 | 4
10 | 5
12 |
14 |
16 | 0
> stem(log10(islands))
The decimal point is at the |
1 | 1111112222233444
1 | 5555556666667899999
2 | 3344
2 | 59
3 |
3 | 5678
4 | 012
> as.data.frame(islands)
islands Moluccas 29
Africa 11506 New Britain 15
Antarctica 5500 New Guinea 306
Asia 16988 New Zealand (N) 44
Australia 2968 New Zealand (S) 58
Axel Heiberg 16 Newfoundland 43
Baffin 184 North America 9390
Banks 23 Novaya Zemlya 32
Borneo 280 Prince of Wales 13
Britain 84 Sakhalin 29
Celebes 73 South America 6795
Celon 25 Southampton 16
Cuba 43 Spitsbergen 15
Devon 21 Sumatra 183
Ellesmere 82 Taiwan 14
Europe 3745 Tasmania 26
Greenland 840 Tierra del Fuego 19
Hainan 13 Timor 13
Hispaniola 30 Vancouver 12
Hokkaido 30 Victoria 82
Honshu 89
Iceland 40
Ireland 33
Java 49
Kyushu 14
Luzon 42
Madagascar 227
Melville 16
Mindanao 36
Histograma
El histograma es el gráco estadístico por excelencia. El histograma

de un conjunto de datos es un gráco de barras que representan las
frecuencias con que aparecen las mediciones agrupadas en ciertos
rangos o intervalos. Para uno construir un histograma se debe
dividir la recta real en intervalos o clases (algunos recomiendan que
sean de igual longitud) y luego contar cuantas observaciones caen
en cada intervalo.
formula de Sturges para determinar el numero de barras.
Regla de Sturges: k = 1 + log2 (n)
Scott (1992), basado en la distribuci´on normal recomienda el
siguiente número de barras para el histograma Regla de
Scott:k = (2n)1/3
> hist(islands)
> utils::str(hist(islands, col="gray", labels = TRUE))

List of 7
$ breaks : num [1:10] 0 2000 4000 6000 8000 10000 12000 14000
16000 18000
$ counts : int [1:9] 41 2 1 1 1 1 0 0 1
$ intensities: num [1:9] 4.27e-04 2.08e-05 1.04e-05 1.04e-05 1.04e-05
...
$ density : num [1:9] 4.27e-04 2.08e-05 1.04e-05 1.04e-05 1.04e-05
...
$ mids : num [1:9] 1000 3000 5000 7000 9000 11000 13000 15000
17000
$ xname : chr "islands"
$ equidist : logi TRUE
- attr(*, "class")= chr "histogram"
> hist(sqrt(islands), breaks = 12, col="lightblue", border="pink")
Boxplot o Caja de Tukey
Realizado por Tukey (1977). Es un gráco simple, ya que se realiza

básicamente con cinco números.
Permite comparar diversos conjuntos de datos simultáneamente.
Este gráco contiene un rectángulo, usualmente orientado con el
sistema de coordenadas tal que el eje vertical tiene la misma escala
del conjunto de datos. La parte superior y la inferior del rectángulo
coinciden con el tercer cuartil y el primer cuartil de los datos. Esta
caja se divide con una linea horizontal a nivel de la mediana. Se
dene un paso como 1.5 veces el rango intercuartil, y una linea
vertical (un bigote) se extiende desde la mitad de la parte superior
de la caja hasta la mayor observación de los datos si se encuentran
dentro de un paso. Igual se hace en la parte inferior de la caja Las
observaciones que caigan más allá de estas líneas son dibujadas
individualmente. La denición de los cuartiles puede variar y otras
deniciones de el paso son planteadas por otros autores.
La localización esta representada en la linea que corta la caja y
representa la mediana (que esta dentro de la caja), la dispersión
esta dada por la altura de la caja, como por la distancia entre los
extremos de los bigotes. El sesgo se observa en la desviación que
exista entre la linea de la mediana con relación al centro de la caja,
y también la relación entre las longitudes de los bigotes. Las colas
se pueden apreciar por la longitud de los bigotes con relación a la
altura de la caja, y también por las observaciones que se marcan
explícitamente.
> boxplot(decrease ~ treatment, data = OrchardSprays, col = "bisque")
> boxplot(decrease ~ treatment, data = OrchardSprays,

+ log = "y", col = "bisque")
¾Qué es un cuantil?
Son puntos tomados a intervalos regulares de la función
acumulativa de distribución de una variable aleatoria. Dividir al
conjunto de los datos ordenados en q conjuntos del mismo tamaño,
es el objetivo de los q-cuantiles. Los cuantiles son las fronteras
entre los conjuntos.
Cuantiles más comunes
El 2-cuantil, parte en dos partes iguales y es la mediana.
Los 3-cuantiles o terciles,
Los 4-cuantiles o cuartiles,
los 10-cuantiles o deciles,
los 100-cuantiles o porcentiles.
El k-ésimo q cuantil satisface lo siguiente:
(
Pr X < x ) ≤ k /q . y Pr (X ≤ x ) ≥ k /q
Para un conjunto tamaño N
puede calcularse como I p= N ∗ (k /q ), si es un entero se elige la
observación que ocupe esa posición ordenada y ¾si no es un
entero???, se redondea, o se toma una cierta interpolación entre las
dos observaciones.
QQplot
Sirve para determinar si dos conjuntos de datos provienen de
poblaciones con la misma distribución.
Se gracan los cuantiles del primer conjunto contra los cuantiles del
segundo conjunto. Se dibuja también una recta de 45 grados de
pendiente(es decir y = x ). Si las observaciones provienen de la
misma distribución, caerán aproximadamente sobre la recta. Entre
más se separan de la recta, más alejadas serán sus distribuciones.
Si caen sobre una recta con pendiente de 45 grados pero con
distinta ordenada al origen, tendrán un traslado en el parámetro de
localización, si varía la pendiente variará en la desviación estándar.
Los conjuntos pueden ser de distinto tamaño( se hacen
corresponder los cuantiles del conjunto más grande con los valores
ordenados del más pequeño, y los cuantiles intermedios se
interpolan).
Una gráca de probabilidad es semejante a una qqplot solo que
se sustituyen al segundo conjunto de datos por los cuantiles de la
distribución teórica a probar.
> x1<-rnorm(100,5,1)
> z<-rnorm(100)
> x2<-rnorm(100,0,5)
> z<-rnorm(100)
> x2<-rnorm(110,0,5)
> par(mfrow=c(1,2))
> qqplot(z,x1,main="N(5,1) Q-Q Plot")### variando la media
> abline(0,1)
> abline(5,1,col=2)
> qqplot(z,x2,main="N(0,5) Q-Q Plot")#### variando la desviacion
estandar
> abline(0,1)
> abline(0,5,col=2)
x <- rt(100, df=3)
# normal fit
qqnorm(x); qqline(x)
> x<-rchisq(20,3)
> qqnorm(x); qqline(x)
Grácas datos multivariados
I Estrellas. Convienen cuando no se tienen muchos atributos,

pues con más de 10 o 12 aristas las confundimos en su forma.
I Caritas, debidas a Chernov, dado que el ojo humano esta muy

entrenado para reconocer rostros humanos. A cada elemento
de la cara: pelo, ancho cara, largo nariz, tamaño de ojos se le
asocia una característica.
> stars(longley)
> faces(longley)
effect of variables:
modified item Var
"height of face " "GNP.deflator"
"width of face " "GNP"
"structure of face" "Unemployed"
"height of mouth " "Armed.Forces"
"width of mouth " "Population"
"smiling " "Year"
"height of eyes " "Employed"
"width of eyes " "GNP.deflator"
"height of hair " "GNP"
"width of hair " "Unemployed"
"style of hair " "Armed.Forces"
"height of nose " "Population"
"width of nose " "Year"
"width of ear " "Employed"
"height of ear " "GNP.deflator"
Curvas de Andrews
A cada individuo se le asigna una curva de la siguiente manera:

t ∈ [−π, π] Si p es impar
i ( ) = √i21 + i 2 sin( ) + i 3 cos( ) + . . . + ip cos(

X ( p − 1)
f t X t X t X t )
2
Si p es par
i ( ) = √i21 + i 2 sin( ) + i 3 cos( ) + . . . + ip sin( 2

X p
f t X t X t X t )
Estas tres grácas no son únicas, pues según ordenemos las

variables darán origen a estrellas, curvas o caras distintas.
andrews.curves(iris[,c(4,2,1,3)], iris[,5], title="Iris Data")
Bagplot
Parecida a un boxplot pero en dos dimensiones.
> cardata
Weight Disp.
[1,] 2560 97
[2,] 2345 114
[3,] 1845 81
[4,] 2260 91
[5,] 2440 113
[6,] 2285 97
[7,] 2275 97
[8,] 2350 98
[9,] 2295 109
[10,] 1900 73
…
[59,] 3185 146
[60,] 3690 146
> bagplot(cardata,factor=3,show.baghull=TRUE,
+ show.loophull=TRUE,precision=1,dkmethod=2)
> title("car data Chambers/Hastie 1992")
Gráca de paralelas
Se usan sobre todo cuando hay varias mediciones para un solo
individuo.
parallel(~iris[,1:4],col=as.numeric(iris$Species),main="Parallelplot IRIS")
Gráco series de tiempo múltiples
> USeconomic
log(M1) log(GNP) rs rl
1954 Q1 6.111246 7.249073 0.010800000 0.02613333
1954 Q2 6.115892 7.245084 0.008133333 0.02523333
1954 Q3 6.129268 7.257003 0.008700000 0.02490000
1954 Q4 6.141177 7.271565 0.010366667 0.02566667
1955 Q1 6.151881 7.292746 0.012600000 0.02746667
1955 Q2 6.159307 7.303641 0.015133333 0.02816667
1955 Q3 6.162472 7.316880 0.018633333 0.02926667
1955 Q4 6.161840 7.325610 0.023466667 0.02890000
1956 Q1 6.164157 7.323633 0.023800000 0.02886667
…
1987 Q1 6.448731 8.236606 0.055333333 0.07636667
1987 Q2 6.453310 8.248791 0.057333333 0.08576667
1987 Q3 6.445879 8.259795 0.060333333 0.09083333
1987 Q4 6.446513 8.274612 0.060033333 0.09240000

Modopresentacion

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Modopresentacion

Uploaded by

Copyright:

Available Formats

Estadística Básica

Leticia Gracia Medrano.

30 de julio del 2012

Estadística es el arte y la ciencia de diseñar estudios y analizar los

La estadística es la ciencia que se ocupa del estudio de fenómenos

I Se dice por ejemplo, que si una persona gana un millón y otra

I La estadística dice: que si una persona pone la cabeza en le

I La estadística pronostica como un acierto el caso de un

Cabe mencionar que en estos tres casos la media aritmética, está

Una característica del humano es tratar de interpretar los

I Grado de conanza o fundada apariencia de que algo suceda.

Para cuanticar o clasicar lo que percibimos de un fenómeno

Cuando los registros son valores numéricos

son las variables que toman un número nito o numerable de

Toman cualquier valor numérico entero, fraccionario o irracional.

Las variables aleatorias (v.a.) serán nuestros modelos que nos

Area bajo la curva que determina f (x )

distribuciones de tipo continuo, ya que es un modelo que se adecúa

donde , µ = E (X ), −∞ < µ < ∞, Var (X ) = σ 2 y σ 2 > 0.

4. La función de densidad es simétrica alrededor del parámetro µ.

que se conoce como la función de distribución normal

a este proceso se le llama estandarización o estandarizar la v.a.

Con el n de ejemplicar lo antes dicho, supongamos que tenemos

y puede obtenerse directamente de la tabla. Por lo tanto,

Una v.a. χ2 (se lee, ji cuadrada) se genera a partir de la suma de

entonces diremos W se distribuye como una ji cuadrada con k

grados de libertad, y lo denotaremos como W ∼ χ2k .

2. Se puede probar que la esperanza de W es k , es decir que

3. la varianza de W es 2k , es decir Var (W ) = 2k .

se dice que K se distribuye F de Snedecor con u y v grados de

Si la muestra se toma sin reemplazo de una población nita de

Los resultados que se presentan son para la media de variables

2 + ... + n ) la media aritmética de las variables

aleatorias que integran la muestra. Para un tamaño de muestra (n)

1. independientemente de que la v.a. X

2. el teorema funciona aún si la distribución es discreta,

3. sea simétrica o asimétrica la forma de la densidad de f X( x )

P (X = x ) 0.3 0.1 0.1 0.1 0.2 0.1 0.1

Como podemos ver la densidad de X no se parece a una

El anterior histograma correspondiente los pormedios las muestras

Estas observaciones también son conocidas como aberrantes,

En análisis de regresión interesa identicar a las observaciones

Si los datos son MCAR las estimaciones obtenidas serán insesgadas

Multivariate Behavioral Research, 33, 545-571.

En R esta el paquete MICE, material con referencia en: Van

I gráca de barras y de pie son solo para datos categóricos,

I histograma debe tenerse cuidado con los anchos de barras y

I boxplot permite rápidamente ver observaciones discrepantes.

I q-qplot permite ver si dos muestras provienen de la misma

I tallo y hoja, una versión de los histogramas pero permite ver

El uso de grácos circulares o pasteles es bastante común entre

> barplot(VADeaths, beside = TRUE,

The decimal point is at the |

El histograma es el gráco estadístico por excelencia. El histograma

> utils::str(hist(islands, col="gray", labels = TRUE))

Realizado por Tukey (1977). Es un gráco simple, ya que se realiza

> boxplot(decrease ~ treatment, data = OrchardSprays,

I Estrellas. Convienen cuando no se tienen muchos atributos,

I Caritas, debidas a Chernov, dado que el ojo humano esta muy

A cada individuo se le asigna una curva de la siguiente manera:

i ( ) = √i21 + i 2 sin( ) + i 3 cos( ) + . . . + ip cos(

i ( ) = √i21 + i 2 sin( ) + i 3 cos( ) + . . . + ip sin( 2

Estas tres grácas no son únicas, pues según ordenemos las

I Grado de conanza o fundada apariencia de que algo suceda.

Para cuanticar o clasicar lo que percibimos de un fenómeno

son las variables que toman un número nito o numerable de

Con el n de ejemplicar lo antes dicho, supongamos que tenemos

Si la muestra se toma sin reemplazo de una población nita de

En análisis de regresión interesa identicar a las observaciones

I gráca de barras y de pie son solo para datos categóricos,

El uso de grácos circulares o pasteles es bastante común entre

El histograma es el gráco estadístico por excelencia. El histograma

Realizado por Tukey (1977). Es un gráco simple, ya que se realiza

Estas tres grácas no son únicas, pues según ordenemos las