Professional Documents
Culture Documents
TERMINOLOGIA:
• Cuantitativas: Cuando los atributos que las definen son cuantificables, o medibles
numéricamente. Las V. Cuantitativas pueden ser Discretas o Continuas.
TALLER 1:
Definiciones:
Frecuencia: Cantidad de veces que aparece un dato.
Distribución de frecuencias: Representación tabular de los datos correspondientes a
una variable, que incluye:
Hay diversos tipos de gráficos de los cuales los más comunes son:
TALLER No. 2
Distribuciones Empíricas: Datos sin agrupar
Realice una distribución de frecuencias para cada uno de los siguientes conjuntos de datos, que
contenga Frecuencias: Absoluta; Relativa; Acumulada; Relativa Acumulada; además realice un
gráfico adecuado e interprete los resultados.
1. Los siguientes datos representan la distancia en Km. que recorren diariamente 30 personas desde
sus casas a los sitios de trabajo:
2.0 3.0 0.3 3.3 1.3 0.4 0.2 6.0 5.5 6.5 0.2 2.3
1.5 4.0 5.9 1.8 4.7 0.7 4.5 0.3 1.5 0.5 2.5 5.0
1.6 6.0 5.6 6.0 1.2 0.2
2. Los siguientes datos representan la cantidad en años de servicio de 50 personas en una empresa:
17 20 10 9 23 13 12 19 18 24 12 14
6 9 13 6 7 10 13 7 16 18 8 13
3 32 9 7 10 11 13 7 18 7 10 4
27 19 16 8 7 10 5 14 15 10 9 7
15 6
1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97 0.85 1.24 1.58
1.70 2.17 2.55 2.11 1.86 1.90 1.68 1.51 2.03 1.64 0.72
1.71 1.85 1.82 1.79 2.46 1.88 2.08 1.67 1.37 1.93 1.40
1.72 2.09 1.75 1.63 2.37 1.75 1.69
Para construir el diagrama de tronco y hoja se recomienda tomar cinco divisiones con troncos 1.a con
hojas de 00 a 19; 1.b con hojas 20 a 39; así sucesivamente hasta 1.e con hojas de 80 a 99 y luego
igual para los troncos en 2.
4. Los siguientes datos corresponden a la cantidad de dinero ( En miles de pesos) que mensualmente
gastan 60 empleados de una empresa en tintos o refrescos:
60 79 32 57 74 52 70 82 36 80 77 81 95
41 65 92 85 55 76 52 10 64 75 78 25 80
98 81 67 41 71 83 54 64 72 88 62 74 43
60 78 89 76 84 48 84 90 15 79 34 67 17
82 69 74 63 80 85 61 23
1. Aplicar una técnica de recolección de los datos, por ejemplo: Tronco y Hoja
2. Determinar el Rango de la información: R = DM − Dm . Donde DM = DatoMayor y
Dm = Dato − menor
3. Determinar la Amplitud de los Intervalos: Se divide el rango obtenido en 2) por
R
el número de intervalos en los que deseo agrupar. A= ; donde; A: Amplitud; R :
I
Rango;
I : Cantidad de intervalos en los que deseo agrupar.
4. Si la amplitud no me da un número entero, se puede realizar el siguiente ajuste:
4.1. Ajusto la amplitud obtenida al entero siguiente.
4.2. Con la amplitud anterior y el No. de Intervalos ( I ) hallo un nuevo rango.(
NR ).
4.3. Establezco la diferencia: NR − VR ; donde, VR es el viejo rango
4.4. Ajusto los datos originales de acuerdo con la diferencia anterior.
5. Establezco los Intervalos, partiendo del primer dato (O del primer dato ajustado),
y sumando la amplitud hasta cubrir el número de intervalos previamente definidos.
Linf + Lsup
6. Se calcula la marca de clase para cada intervalo Mci = ; Donde: Mc i =
2
Marca de clase del intervalo i ; Linf = Límite inferior del intervalo I; Lsup = Límite
superior del intervalo i.
La Marca de clase es un valor que representa a todos los del intervalo o clase.
7. Se realiza la distribución de frecuencias.
Observaciones:
Taller No. 3:
• La Mediana: Es un valor que divide a la distribución en dos partes iguales, cada una
de las cuales contiene el 50% de la información ( o de los datos).
• La Media: Se define como la suma de todos los valores (datos) que asume una
variable, dividida por el total de datos.
Cálculos de las Medidas de tendencia central :
• La Mediana:
• Sin el total de datos es impar, la mediana será aquel dato que ocupe el lugar
n +1
.
2
• Si el total de datos es par, la mediana será el promedio de los datos que
n n
ocupen las posiciones ( 2 ) y ( +1 )
2
cálculo de la media: −
∑x f i i
; donde xi : Dato I-ésimo; f i : frecuencia absoluta
i =1
X =
n
del dato iésimo; n: total de datos de la información.
Para la Moda:
∆1
M o = Linf + ( )A .
∆1 + ∆ 2
Para la Mediana:
n
− ∑ f ant
M ed = Linf +( 2 )A
f abs
Para la Media:
i. Método largo:
−
X =
∑M ci fi
n
Taller No 4:
5. Cuantiles
Se denominan así ciertos valores dentro de una información, que permiten dividirla en
partes iguales. Los cuantiles más usados son: Los Cuartiles (Q), los Deciles (D) y los
Percentiles (P).
Se utilizan para dividir la información en cuatro (4) partes iguales, cada una de las
cuales contiene un 25 % del total de los datos. Son 4 cuartiles notados como:
Q1 − Q2 − Q3 − y − Q4 .
En esquema:
Q1 Q2 Q3 Q4
Se usan para dividir una información en diez (10) partes iguales, cada una de las cuales
contiene un 10 % de los datos. Son 10 Deciles notados como: D1 − D2 − − − D10 .
En esquema:
D1 D2 D3 D4 D5 D6 D7 D8 D9
Los Percentiles (P):
Se usan para dividir una información en cien partes iguales, cada una de las cuales
contiene un 1 % de los datos. Son cien percentiles notados como: P1 − P2 − P3 − − − P100
Otro cuantil menos común es el Quintil: Se utiliza para dividir las informaciones en
cinco (5) partes iguales, cada una de las cuales contiene un 20 % de los datos.
Taller: No 5:
a) Q1 y Q3
b) D2; D3; D7 y D8
c) P5; P10; P20; P45; P60; P90 y P73
d) Q3 - Q1
e) P90 - P10
6. Medidas de dispersión:
Son valores numéricos que me dan información sobre lo esparcidos o aglutinados que se
encuentran los datos correspondientes a una variable cuantitativa dentro de un estudio
estadístico. Las medidas de dispersión más usadas son:
• Los Rangos: Común; Intercuartil; Percentil.
• La Varianza ( σ 2 )
• Las Desviaciones: La D. Media y la D. Típica o Standar. (S.D)
1. Los Rangos:
i) El rango común: Se define coma la diferencia entre los datos extremos de una
variable cuantitativa, así: Dato Mayor - Dato menor.
ii) El rango intercuartil: Q3 - Q1; proporciona información sobre el 50 % central
de la variable.
iii) El rango percentil: P90 - P10; se utiliza cuando se quieren excluir algunos datos
extremos de una información; recoge información sobre el 90 % central de los datos.
2. La Varianza: Da información global sobre la forma como varían los datos; juega un
papel trascendental en la estadística inferencial cuando de hacer estimaciones se trata; ya
que del análisis de la varianza de una información cuantitativa se pueden deducir
muchos resultados sobre el comportamiento general de los parámetros de una población.
i) Var ( x)= σ 2 =
∑ (x − x)
i
2
f i ; para datos sin agrupar.
n
−
n n
3. Las Desviaciones: Una desviación se define como la diferencia entre el valor del
dato y alguna medida estadística; por lo general las desviaciones más comunes se
toman con respecto a la media aritmética, pero se pueden tomar desviaciones respecto
a la moda, a la mediana, a uno cualquiera de los cuantiles ,etc.
SD = σ = ∑ (x − x ) 2
f i , para datos sin agrupar.
n
−
Taller No. 6:
Para cada una de las variables cuantitativas de los ejercicios propuestos anteriormente,
calcular e Interpretar:
1. Los Rangos
2. La Desviación Media.
3. La Varianza.
4. La Desviación típica.
5. El Coeficiente de Variación
Definición: Una variable cualitativa cuyos valores pueden agruparse en dos o más
categorías, se conoce en estadística como un variable categórica; veamos algunos
ejemplos:
VARIABLE CATEGORIAS
La base para analizar las variables categóricas está en contar la cantidad de datos que
corresponden a cada una de las distintas categorías, y a partir de tales cantidades,
observar diferentes aspectos de interés tales como:
Tablas de Contingencia:
Se llaman así a las tablas de resultados que se obtienen cuando se cruzan dos variables
categóricas y se consignan en ellas las cantidades correspondientes a las intersecciones
entre las distintas categorías; cada intersección recibe el nombre de celda EJ:
VOTO
SI NO TOTAL
MASCULINO 30 15 45
FEMENINO 20 25 45
TOTAL 50 40 90
Para cada tabla de contingencia que contenga las cantidades absolutas de un cruce de
variables, se pueden obtener tres tablas similares con proporciones correspondientes a:
• La variable que representa a las filas. (Fijar las Filas)
• La variable que representa a las columnas. (Fijar las columnas)
• El total de datos (n) (No fijar ni filas ni columnas)
Este tipo de proporción depende del estudio o del interés particular del investigador.
Las tablas de contingencia pueden utilizarse, entre otras cosas, para analizar:
Existen algunas formas de medir no solo si existe asociación entre las variables, sino
además el grado de asociación que pueda haber entre ellas; por ejemplo
• El estadístico de Pearson;
• El método del riesgo relativo; y
• La razón de Odds.
• El Coeficiente de Pearson ( φ)
n n
La razón de Odds ( O de ventajas ): θ = n n ; donde el valor de θ , se interpreta así
11 22
•
12 21
i) Si θ < 1: Es más ventajoso estar en la 2ª. fila que en la 1ª, en relación con la variable
que representa a las columnas
ii) Si θ = 1 : Hay Independencia entre las dos variables.
iii) Si θ > 1: Los elementos en la 1ª. Fila tendrán más ventaja de tener la
característica 1 de la variable en las columnas, que aquellos de la fila 2.
y1 y2 T
x1 n11 n12 n10
x2 n21 n22 n12
T n01 n02 n
i) Aleatorio Simple;
ii) Aleatorio Estratificado y
iii) Aleatorio por conglomerados.
i) Dirigido;
ii) Por Cuotas y
iii) Por Conveniencia.
Aunque el tamaño de las muestras es importante , debe tenerse presente que un tamaño
grande no es suficiente para garantizar mejor precisión en los resultados, ya que si se
presentan errores en cualquiera de los procesos de selección, recolección o análisis, una
muestra grande puede resultar muy mala para el logro de los objetivos; mientras que con
un mejor proceso previo, otra de menor tamaño puede resultar mejor. Para determinar el
tamaño de las muestras deben tenerse en cuenta, al menos, estas consideraciones:
• Deben tenerse muy presentes los objetivos del estudio que se realiza.
• El investigador debe conocer lo que se ha hecho en otros estudios similares.
• Deben tenerse en cuenta los recursos económicos con los que se cuenta.
Fórmulas para la obtención de Tamaños Muestrales:
Np (1 − p )
n=
• NB 2 ;
+ p (1 − p )
4
N −n
• Con factor de corrección para poblaciones finitas: ; se tiene que
N
4 pqN + B 2 N
n= ; Donde p: Probabilidad de éxitos y q = (1-p): probabilidad de
B 2 N + pq
fracasos, que cuando no son conocidos se pueden suponer p = 0.5 y q = 0.5
σi2 : Varianza del estrato i, que en el caso de estimar una proporción se puede
reemplazar así: σ 2 = p (1 − p) ; wi : Proporción de la población en el estrato i.
• Cuando los costos sean fijos y las varianzas iguales para cada estrato, se hace:
N ∑ N iσi2
N n=
wi = i , y entonces la fórmula anterior se reduce a: N 2 B2 ;
N ∑ i i
N σ 2
+
4
Luego de obtener el tamaño muestral n de toda la población, la asignación de muestras
Ni
para cada estrato se hace con la ecuación: ni = n
N
Aplicaciones: