You are on page 1of 49

Estadística e

Informática Aplicada
a las Ciencias
Sociales
Profesora: Myriam Sofía Rodríguez G.
Octubre de 2018
Estadística y ramas de la
estadística
La estadística es la ciencia que se ocupa de recolectar, describir,
organizar e interpretar una serie de datos, para transformarlos
en información, y poder tomar decisiones más eficientes ante
fenómenos de tipo aleatorio.
Estadística Descriptiva: Se refiere a la metodología que se sigue
para recolectar, organizar, resumir, analizar e interpretar una
serie de datos, (por ejemplo, edad de empleados de una
empresa, altura de los estudiantes de una escuela, temperatura
en los meses de verano, entre otros) que pueden ser
presentados en forma numérica o gráfica.
Metodología:
• Selección de la muestra a partir de la población de estudio.
• Obtención de los datos.
• Clasificación de los datos.
• Análisis descriptivo de los datos.
Estadística
• Representación gráfica de los datos.
• Si se requiere hacer contraste de la hipótesis.
• Conclusiones.

Estadística Inferencial: Son métodos usados para deducir


características de toda la población basados en una muestra. Es
decir, se pretende tomar como generales propiedades que sólo
se han verificado para casos particulares.
La estadística inferencial comprende:
• Muestreo.
• Estimación puntual y por intervalos.
• Prueba de hipótesis estadística.
• Diseño experimental.
• Inferencia Bayesiana.
Conceptos básicos
• Los individuos son las personas o los objetos incluidos en el
estudio.
• Una variable Característica observable que varía entre los
diferentes individuos de una población. El valor que toma
puede ser un número, una palabra o un símbolo.
• La población es un conjunto finito o infinito de individuos,
objetos o eventos cuyas propiedades serán analizadas
Cuando la población es muy grande, la observación de todos los
elementos se dificulta, en cuanto al trabajo, tiempo y costos
necesarios para hacerlo. A menudo es imposible o poco práctico
observar la totalidad de los individuos. En lugar de examinar el
grupo entero llamado población o universo, se examina una
pequeña parte del grupo llamada muestra.
• Datos: Son un conjunto de valores recolectados para la
variable asociada a cada uno de los elementos de la población
o muestra.
Conceptos básicos
• Un parámetro poblacional es una medida numérica que
describe un aspecto de una población.
• Un estadístico muestral es una medida numérica que
describe un aspecto de un muestra.
Clasificación de las variables
• Cuantitativas o categóricas: Describen a un individuo
clasificándolo en una categoría o grupo, como el género, la
filiación política, el estado de salud, entre otros. No tienen
ningún grado de comparación numérica.
• Numéricas o cuantitativas: toman valores numéricos para los
cuales las operaciones como la suma o el promedio tienen
sentido. Se pueden distinguir dos tipos.
• Discretas: Solo pueden tomar ciertos valores aislados en un
intervalo. Por ejemplo, el número de hijos, la cantidad de
habitaciones por hogar, etc.
• Continuas: Pueden tomar cualquier valor en un intervalo.
Normalmente se miden magnitudes, tales como peso, longitud,
superficie, volumen, tiempo, etc.
Escalas de Medición

Escala de medición

Cualitativa o Atributo Cuantitativa o Númerica

Nominal Intervalo

Ordinal Razón
Escalas de Medición
• Nominal: Las observaciones sólo se pueden clasificar por categorías,
no admiten un criterio de orden. Por ejemplo: género, estado civil,
grupo sanguíneo, entre otros.
• Ordinal: Los elementos son clasificados en categorías que presentan
un orden. Por ejemplo: nivel educativo, estado de salud, entre otros.
• Intervalo: Se clasifican los elementos en categorías que tienen un
orden o jerarquía, se pueden realizar diferencias (restas) entre los
valores y estas tienen un significado. No existe el cero (0) absoluto.
Por ejemplo, la temperatura en grados Fahrenheit. Sin embargo,
para la escala de temperaturas, no hay un punto de partida. El valor
0°F puede parecer ser un punto de partida, pero este valor no indica
el estado de "sin temperatura". Por otra parte, no es correcto decir
que 20°F es dos veces tan caliente como 10°F.
• De razón: Se clasifican los elementos en categorías que tienen un
orden o jerarquía, se pueden realizar diferencias significativas entre
los valores. Existe el 0 absoluto. Por ejemplo, el salario.
Ejemplo
Transductores de temperatura de un cierto tipo se envían en
lotes de 50. Se seleccionó una muestra de 60 lotes, y se
determino el número de transductores de cada lote que difieren
de las especificaciones de diseño, dando como resultado los
siguientes datos:
212401320533132470230421311341232284
513150232106421603336123
• 1. Determine la tabla de distribución de frecuencias.
• 2. Represente gráficamente los datos.

• 2,1,2,4,0,1,3,2,0,5,3,3,1,3,2,4,7,0,2,3,0,4,2,1,3,1,1,3,4,1,2,3,2,
2,8,4,5,1,3,1,5,0,2,3,2,1,0,6,4,2,1 ,6,0,3,3,3,6,1,2,3
Tabla de frecuencias en R
• Nombramos al vector que contendrá los datos:
datos<-c( 2,1,2,…) (F5 ó ctrl r)
• Crea una tabla de la variable transductores con la frecuencia
absoluta:
tabla1=data.frame(table(datos)) (se puede usar = ó <-)
• Frela representa la frecuencia relativa ajustada a 2 decimales;
Freac=cumsum(Freq) la frecuencia absoluta acumulada;
Freac=round(cumsum(prop.table(Freq)),2) la frecuencia
relativa acumulada:
tabla2=transform(tabla1,Freac=cumsum(Freq),Frela=round(prop
.table(Freq),2),Freac=round(cumsum(prop.table(Freq)),2))
Vista en R
Tabla de Frecuencias para
variable cuantitativas
• Identificar el tipo de variable
• Determinar el valor máximo 𝑥𝑚𝑎𝑥 y el valor mínimo 𝑥𝑚𝑖𝑛
• Hallar el Rango, 𝑅 :
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
• Si la variable es cuantitativa discreta y el rango es pequeño, se
trabaja con los datos originales ordenados. Si el rango es grande se
trabaja con los datos ordenados en intervalos de clase.
• Si la variable es cuantitativa continua, se determina el número de
intervalos 𝑘 (o clases). Usaremos la Regla de Sturges, para
determinar 𝑘:
𝑘 = 1 + 3,322 log 𝑛
Donde 𝑛 es el número total de datos de la muestra.
𝑅
• Determinar la amplitud 𝐴, del intervalo; 𝐴 =
𝐾
Ejemplo
Jarjour et al. (A-2) realizaron un estudio en el que se midieron los
niveles de histamina del fluido de lavado bronquialveolar (BAL, siglas
en inglés) en individuos con rinitis alérgica, individuos con asma y
voluntarios normales. Una de las mediciones obtenidas es la proteína
total (mg=ml) en muestras de BAL. Los siguientes son los resultados de
61 muestras analizadas:
• 76.33, 57.73 74.78, 100.36, 73.50, 77.63, 88.78, 77.40, 51.16, 62.20,
• 149.49, 86.24, 57.90, 72.10, 67.20, 54.38, 54.07, 91.47, 62.32, 44.73,
• 55.47, 95.06, 71.50, 75.53, 57.68, 51.70, 114.79, 61.70, 47.23, 78.15,
• 53.07, 106, 35.90, 85.40, 72.30, 61.10, 72.20, 41.98, 59.36, 63.96,
• 66.60, 69.91, 59.20, 54.41, 59.76, 128.40, 67.10, 83.82, 95.33, 88.17,
• 109.30, 79.55, 58.50, 82.60, 153.55, 84.70, 62.80, 70.17, 44.40,
61.90, 55.05
• 1. Determine la tabla de distribución de frecuencias.
• 2. Represente gráficamente los datos
Datos Agrupados (a mano)
• Calculamos 𝑥𝑚𝑎𝑥 y 𝑥𝑚𝑖𝑛
• Hallamos el rango: 𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
• Número de clases: 𝑘 = 1 + 3,322 log 𝑛
𝑅
• Amplitud 𝐴 =
𝐾
En R
• # Datos agrupados
• #Le damos nombre a nuestros datos
• histamina=c(76.33, 57.73, 74.78, 100.36,73.50, 77.63, 88.78,
77.40, 51.16, 62.20,149.49, 86.24, 57.90, 72.10, 67.20, 54.38,
54.07, 91.47, 62.32, 44.73,55.47, 95.06, 71.50, 75.53, 57.68,
51.70, 114.79, 61.70, 47.23, 78.15,53.07, 106, 35.90, 85.40,
72.30, 61.10, 72.20, 41.98, 59.36, 63.96,66.60, 69.91, 59.20,
54.41, 59.76, 128.40, 67.10, 83.82, 95.33, 88.17,109.30,79.55,
58.50, 82.60, 153.55, 84.70, 62.80, 70.17, 44.40, 61.90, 55.05)
• # Para saber entre qué valores se encuentran nuestros datos
• range(histamina)
• #Para definir el número de intervalos con la regla de Sturges
• nclass.Sturges(histamina)
Datos agrupados en R
• #Obtenemos los extremos de los intervalos con:
• seq(35.9,153.55,length=nclass.Sturges(x))
• #Construimos los intervalos:
• intervalosx=cut(x,breaks=seq(35.9,153.55,length=nclass.Sturg
es(x)),include.lowest=TRUE)
• #Tabla de frecuencias absolutas:
• tabla1=data.frame(table(intervalosx))
• #Agregar frecuencias relativas, acumuladas:
• tabla2=transform(tabla1,Frela =
round(prop.table(Freq),2),Freac = cumsum(Freq),Freac =
round(cumsum(prop.table(Freq)),2),)
En R
Histograma
Describe una distribución de frecuencias de variables discretas o
continuas. En el eje horizontal se escriben los límites exactos de
los diferentes intervalos; el eje vertical describe la frecuencia o
la frecuencia relativa de las observaciones dentro de cada
intervalo. Las barras del histograma deben ser adyacentes. Para
hacer un histograma simplemente debemos de escribir la
siguiente orden:
hist(histamina)
Histograma con Instrucciones
El problema es que R por defecto selecciona el número de clases
siguiendo un método de Sturges. Para poder utilizar el número
de clases que a nosotros nos interesa, tenemos que crear un
vector con los puntos de corte de las clases. Esto se puede hacer
mediante:
# Número de clases
numeroclases = 7
• puntos=min(histamina)+(0 : numeroclases)*(max(histamina)-
min(histamina))/numeroclases
• hist(histamina,breaks = puntos)
• hist(histamina,breaks= puntos, col=”lightblue”,xlab=”Proteina
Total”, ylab=”Número de Personas”,main = ”Histograma”)
hist(x,breaks= puntos, col= c("lightblue","blue","darkblue",
"red","yellow", "pink","purple"),xlab="Proteina Total", ylab="Número de
Personas",main = "Histograma")
Tipos de Histogramas
• Unimodal: Es el histograma que sube hasta un solo pico y
después baja; puede ser simétrico si la forma en un lado del
pico es aproximadamente igual al otro lado. Un histograma
simétrico indica que la distribución de los datos es simétrica.
Esto significa que los valores de la variable están distribuidos
uniformemente alrededor del valor con mayor frecuencias. Un
histograma con el pico en la izquierda, es un histograma que
está sesgado hacia la derecha. Un histograma con el pico en la
derecha, es un histograma sesgado hacia la izquierda.
• Bimodal: Tiene dos picos distintos. La bimodalidad resulta
cuando el conjunto de datos consiste en observaciones de dos
clases bastante distintas de individuos u objetos.
• Uniforme: Cada clase tiene igual freciancia.
Tipos de Histogramas
Datos Atípicos o Outliers
Son datos numéricamente distantes del resto de datos.

Los valores atípicos pueden indicar errores de registro de datos.


Los valores atípicos válidos pueden ser tan inusuales que deben
examinarse por separado del resto de los datos. Por ejemplo, en
un estudio de los salarios de los empleados en una empresa, el
salario del director general puede ser tan alto y único para la
empresa que debe considerarse por separado de la otros
salarios. Las decisiones sobre valores atípicos que no son errores
de grabación deben ser hecho por personas familiarizadas con el
campo y el propósito del estudio.
Ojiva
• Es un gráfico que se construye utilizando la distribución
acumulada de frecuencias. Para graficarla se emplean
segmentos de recta, que se unen al final de cada intervalo, ya
que representa el número de individuos acumulados hasta esa
clase. Como el valor de la frecuencia acumulada es mayor a
medida que avanzamos en la distribución, la poligonal que se
obtiene siempre va a ser creciente.

• Las coordenadas de cada punto son (upper class boundary,


cumulative class frequency)
Ojiva en R
#Damos nombre a las frecuencias acumuladas
fracum=(c(13,38,52,57,59,61)
#Graficamos los segmentos
plot(y, type = "o", col = "red")
#Sin ejes para luego etiquetarlos:
plot(y, type = "o", axes=FALSE,col = "red")
axis(1,at = 1 : 7, lab =c("(35.8,52.6]","(52.6,69.5]", "(69.5,86.3]“
,"(86.3,103]","(103,120]","(120,137]","(137,154]"))
box()
• title(main = ”Ojiva”)
• title(xlab = ”Proteína Total”)
• title(ylab = ”Frecuencia Acumulada”)
Gráfico en R
Tarea
• Diagrama de Tallo y hojas
• Gráfico de Caja y Bigotes
Diagrama de Tallo y Hojas
• Es un método de análisis de datos exploratorios que se utiliza
para ordenar por rango y organizar los datos en grupos.

• Ejemplo: Los siguientes datos muestran el peso del equipaje


de mano en libras de una muestra de 40 pasajeros de cierta
aerolínea:
¿Cómo
Para hacer una visualización de tallo y hojas, dividimos los
dígitos de cada valor de datos en dos partes. El grupo de dígitos
izquierdo se llama un tallo, y el grupo de dígitos restantes a la
derecha se llama una hoja. Somos libres de elegir la cantidad de
dígitos que se incluirán en el tallo. Los pesos en nuestro ejemplo
consisten en números de dos dígitos. Para un número de dos
dígitos, la selección del tallo es obviamente el dígito izquierdo.
En nuestro caso, los dígitos de las decenas formarán los tallos, y
los dígitos de las unidades formarán las hojas:
Diagrama de Tallo y Hojas
En R: Ejercicio 4 (pág 65)
# Damos nombre a nuestro datos
p=c(132, 118, 124, 109, 104, 101, 125, 83, 99,131, 98, 125, 97,
106, 112, 92, 120, 103,111 ,117 ,135 ,143 ,112 ,112 ,116 ,106
,117,119 ,110 ,105, 128, 112, 126, 105, 102)

# Diagrama de Tallo y Hojas con R


stem(p)
Medidas de Tendencia Central
Datos simples (No Agrupados)
• Moda: De un conjunto de datos, es el dato que ocurre con mayor
frecuencia. Si un conjunto de datos tiene dos modas, se dice que el
conjunto de datos es bimodal. Si hay más de dos modas,
multimodal.
No todos los conjuntos de datos tienen moda. La moda no es muy
estable, sin embargo puede ser útil si se quiere conocer el dato que
aparece con mayor frecuencia, como por ejemplo, la talla que más se
vende de cierto artículo.
• Mediana: Es el valor central en una distribución ordenada de datos.
1. Ordene los datos
2. Para un número impar de valores:
Mediana=𝑀𝑒 =Valor central
3. Para un número par de datos:
𝑆𝑢𝑚𝑎 𝑑𝑒 𝑙𝑜𝑠 𝑑𝑜𝑠 𝑑𝑎𝑡𝑜𝑠 𝑐𝑒𝑛𝑡𝑟𝑎𝑙𝑒𝑠
𝑀𝑒 =
2
Medidas de Tendencia Central
Datos simples (No Agrupados)
La mediana usa la posición en lugar del valor específico de cada
entrada de datos. Si los valores extremos de un conjunto de datos
cambian, la mediana generalmente no cambia. Esta es la razón por la
cual la mediana se usa a menudo como la medida central.
• Media Aritmética: Es equivalente al promedio simple de un
conjunto de datos. Para diferenciar datos muestrales de datos
poblacionales, la media aritmética se representa con un símbolo
para cada uno de ellos: 𝜇 cuando trabajamos con población, 𝑋ത en el
caso de que estemos trabajando con una muestra.
Para datos poblacionales:
σ𝑁
𝑖=1 𝑋𝑖
𝜇=
𝑁
Para datos muestrales:
σ𝑛𝑖=1 𝑋𝑖
𝑋ത =
𝑛
Ejercicio 1 (pág. 84)
Información horas-crédito de un grupo de 40 estudiantes:
17 12 14 17 13 16 18 20 13 12 12 17 16 15 14 12 12 13 17 14
15 12 15 16 12 18 20 19 12 15 18 14 16 17 15 19 12 13 12 15

Calcule la moda, la mediana y la media:


17, 12, 14, 17, 13, 16, 18, 20, 13, 12, 12, 17, 16, 15, 14, 12, 12,
13, 17, 14,15, 12, 15, 16, 12, 18, 20, 19, 12, 15, 18, 14, 16, 17,
15, 19, 12, 13, 12, 15
En R
Moda:
• Abrir R y en la ventana paquetes>seleccionar espejo CRAN
• Paquetes>instalar paquetes>modeest
• Para cargar el paquete escribimos la sentencia en la consola:
library(modeest).
• El comando mfv(datos), calcula la moda.
Mediana:
median()
Promedio:
mean()
Nota
De las 3 medidas de centralidad vistas, la media es la más importante.
Una desventaja de la media es que puede verse afectada por valores
excepcionales.
Una medida resistente es aquella que no está influenciada por valores
de datos extremadamente altos o bajos. La media no lo es.
La mediana, por otro lado, es más resistente. Sin embargo, una
desventaja de la mediana es que no es sensible al tamaño específico
de un valor de datos.
Una medida de centro más resistente es la media recortada que es la
media de los valores de datos que quedan después de "recortar" un
porcentaje específico de los valores de datos más pequeños y más
grandes del conjunto de datos. Por lo general, se utiliza una media
recortada del 5%. Esto implica que recortamos el 5% más bajo de los
datos, así como el 5% más alto de los datos. Se usa un procedimiento
similar para una media recortada del 10%.
Medidas de Tendencia Central
para datos agrupados
• Moda:

• Mediana: Es el valor central. La mediana se encuentra en el


intervalo donde la frecuencia acumulada llega hasta la mitad
de la suma de las frecuencias absolutas. Es decir tenemos que
buscar el intervalo en el que se encuentre n/2. La formula para
hallar la mediana es:
Medidas de Tendencia Central
para datos agrupados
𝑛
− 𝐹𝑖
𝑀𝑒 = 𝐿𝑖 + 2 𝐴
𝑓𝑖
Medidas de Tendencia Central
para datos agrupados
• Media:
Ejemplo (A mano)
• Calcule la moda, la mediana y la media, para los datos
agrupados en la siguiente tabla de frecuencias:
Ejemplo
Jarjour et al. (A-2) realizaron un estudio en el que se midieron los
niveles de histamina del fluido de lavado bronquialveolar (BAL, siglas
en inglés) en individuos con rinitis alérgica, individuos con asma y
voluntarios normales. Una de las mediciones obtenidas es la proteína
total (mg=ml) en muestras de BAL. Los siguientes son los resultados de
61 muestras analizadas:
76.33, 57.73 74.78, 100.36, 73.50, 77.63, 88.78, 77.40, 51.16, 62.20,
149.49, 86.24, 57.90, 72.10, 67.20, 54.38, 54.07, 91.47, 62.32, 44.73,
55.47, 95.06, 71.50, 75.53, 57.68, 51.70, 114.79, 61.70, 47.23, 78.15,
53.07, 106, 35.90, 85.40, 72.30, 61.10, 72.20, 41.98, 59.36, 63.96,
66.60, 69.91, 59.20, 54.41, 59.76, 128.40, 67.10, 83.82, 95.33, 88.17,
109.30, 79.55, 58.50, 82.60, 153.55, 84.70, 62.80, 70.17, 44.40, 61.90,
55.05
• 1. Determine moda, mediana y media.
Nota
La media aritmética tiene ventajas:
Es la medida de tendencia central más usada.
Es estable en el muestreo.
Es sensible a cualquier cambio en los datos.
Se emplea en ocasiones en cálculos estadísticos posteriores.
En la gráfica de frecuencia representa el centro de gravedad.
Y desventajas
Es sensible a los valores extremos.
No es recomendable emplearla en distribuciones muy
asimétricas.
Si se emplean variables discretas o cuasi-cualitativas, la media
aritmética puede no pertenecer al conjunto de valores de la
variable.
Medidas de Dispersión o
Variabilidad
Las medidas de dispersión son importantes porque:
• Nos presentan información adicional que permite juzgar la
confiabilidad de la medida de tendencia central. Si los datos se
encuentran ampliamente dispersos, la posición central es menos
representativa de los datos.
• Debido a lo problemas característicos para datos ampliamente
dispersos, debemos ser capaces de distinguir que presentan esa
dispersión.
• En muchas ocasiones se desea comparar las dispersiones de
diferentes muestras. Si no se quiere tener una amplia dispersión de
valores con respecto al centro de distribución o esto presenta
riesgos inaceptables, necesitamos tener habilidad de reconocerlo y
evitar escoger distribuciones que tengan las dispersiones más
grandes.
Las medidas de dispersión son: Rango o recorrido, varianza, y
desviación típica.
Medidas de Dispersión o
Variabilidad
• Rango:
𝑅 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
• Varianza: (Datos simples)
Medidas de Dispersión o
Variabilidad
Para datos agrupados:
Medidas de Dispersión o
Variabilidad
• Desviación Estándar: Para datos simples
Medidas de Dispersión o
Variabilidad
• Desviación Estándar: Para datos agrupados
Medidas de Posición

You might also like