You are on page 1of 18

PROBABILIDAD Y ESTADÍSTICA

CURSO BÁSICO DE ESTADISTICA DESCRIPTIVA

No TEMA TALLER TRABAJO


1 Conceptos básicos Diseño de Encuesta Iniciar
2 Distribuciones de Distribuciones Aplicar
Frecuencias
3 D. de F.: Datos Gráficas Aplicar
Agrupados
4 Medidas de Tendencia Cálculos e Aplicar
Central Interpretación
5 Cuantiles Cálculos e Aplicar
Interpretación
6 Medidas de Dispersión Manejo de Aplicar
Calculadora
7 Tablas de Contingencia Ejercicios y Aplicar
Aplicaciones
8 Informes de Trabajos
1. Conceptos básicos

Definición: La Estadística es el estudio científico de los métodos para recoger,


organizar, resumir y analizar los datos de una información, así como para obtener
conclusiones válidas y tomar decisiones razonables apoyadas en tal análisis.

La estadística posee tres campos bien definidos: La E. Descriptiva; la E. Inferencial y la


Teoría de Probabilidades.

• La E. Descriptiva: Trata de los estudios que se hacen sobre el total de individuos de


una población con el fin de establecer sus principales características, u otras de
interés para el investigador.

• La E. Inferencial: Se refiere a los estudios que se hacen sobre una parte de la


población (Muestra), con el fin de obtener (inferir) conclusiones sobre las
características de interés de dicha población.

• Teoría de Probabilidades: Aunque esta es una rama de la matemáticas, es de gran


importancia en los estudios inferenciales, dado que los valores que se obtienen sobre
el análisis de una muestra, no son exactamente iguales a los correspondientes
parámetros de la población.

TERMINOLOGIA:

• Población: Grupo de individuos u objetos que constituyen la base de interés para un


estudio estadístico.

• Muestra: Parte representativa de una población

• Variables: Atributos que poseen o se le pueden asignar a los individuos de una


población y que difieren de uno a otro.

• Dato u Observación: Valor o forma que asume una variable.

• Parámetros: Características cuantificables que posee una población.

• Estimadores: Características cuantificables que posee una muestra, y que se utilizan


para calcular los parámetros de la población
• Diagramas: Gráficos utilizados para representar los datos correspondientes a una
variable.

• Distribuciones: Formas de organización y representación tabular de los datos.


• Experimento Estadístico: Cualquier proceso que genera un conjunto de datos.

• Espacio Muestral: Conjunto de todos los posibles resultados de un experimento


estadístico.

Clasificación de las Variables:

• Cualitativas: Las que definen cualidades de los individuos; usualmente pueden


subdividirse en categorías; Ej: Variable: Sexo. Categorías: M . F.

• Indicadoras: Valores numéricos que se le asignan a las categorías de una


V. Cualitativa.

• Cuantitativas: Cuando los atributos que las definen son cuantificables, o medibles
numéricamente. Las V. Cuantitativas pueden ser Discretas o Continuas.

• Discretas: Cuando asumen valores de uno en uno. Ej: Experimentos de


conteo

• Continuas: Cuando pueden asumir cualquier valor entre dos enteros


consecutivos. Ej : Experimentos de medición.

TALLER 1:

• Formular un problema de su interés, que lo conduzca a realizar un estudio descriptivo,


donde la población está constituida por los asistentes a este curso.
• Plantear un Objetivo General (Enunciar lo que se desea conocer, buscar y lo que se
pretende realizar en el estudio.)
• Desagregar el objetivo general en varios objetivos específicos.
• Tomando como base los objetivos específicos, diseñar una técnica de recolección de
la información (Observación; entrevista; encuesta) que contenga entre 10 y 15
variables, asociadas con uno o más de los objetivos propuestos. (Como mínimo incluir
2 variables cuantitativas)
• Elabore el instrumento de recolección, identifique las V. Cualitativas con sus
respectivas categorías e indicadores, las V. cuantitativas y diseñe los cruces de dos
variables que puedan resultar de interés para su estudio.
• Reproducir el Instrumento y aplicarlo.

2ª. Distribuciones de Frecuencias (Datos sin agrupar).

Definiciones:
Frecuencia: Cantidad de veces que aparece un dato.
Distribución de frecuencias: Representación tabular de los datos correspondientes a
una variable, que incluye:

• Un ordenamiento, cuando la variable es cuantitativa.


• Frecuencia Absoluta ( f i ) : Cantidad de veces que aparece el dato.
• Frecuencia Relativa ( f r ) :La frecuencia absoluta dividida entre el total de datos.
fi
fr =
N
• Frecuencia Acumulada ( FA ): Suma de las frecuencias absolutas anteriores hasta el
dato actual. FA = ∑f i
• Frecuencia Relativa Acumulada ( FR ): La frecuencia acumulada dividida entre el
FA
total de datos. FR =
N
• Gráfica: Otra forma de representación que se hace de los datos.

El paso anterior a la realización de una distribución de frecuencias, es la recolección de


los datos; si éstos corresponden a V. cuantitativas o cualitativas codificadas, se puede
emplear el Método del Tronco y Hoja; si corresponden a variables cualitativas no
codificadas o a respuestas abiertas, se trata de agrupar de acuerdo con criterios
previamente establecidos en el diseño de instrumento, o en su defecto de acuerdo con
rasgos comunes de interés en las respuestas.

Hay diversos tipos de gráficos de los cuales los más comunes son:

• Diagrama D.O.T.: Para representar una sola variable cuantitativa, discreta o


continua.
• Gráfico de Trazos o Líneas: Para una o varias variables cuantitativas discretas.
• De barras (Verticales y horizontales): Para v. cualitativas solas o en comparación.
• Dentro de la representación en barras, se encuentran las Barras en
Porcentaje por componente, muy útiles cuando se trata de poblaciones con
tamaños muy diferentes.
• Circulares o de Pastel: Para una sola variable cualitativa o cuantitativa.
• Los Pictogramas: Representaciones usualmente de barras, que se apoyan en las
facilidades que brindan los gráficos por computados.

TALLER No. 2
Distribuciones Empíricas: Datos sin agrupar

Realice una distribución de frecuencias para cada uno de los siguientes conjuntos de datos, que
contenga Frecuencias: Absoluta; Relativa; Acumulada; Relativa Acumulada; además realice un
gráfico adecuado e interprete los resultados.
1. Los siguientes datos representan la distancia en Km. que recorren diariamente 30 personas desde
sus casas a los sitios de trabajo:

2.0 3.0 0.3 3.3 1.3 0.4 0.2 6.0 5.5 6.5 0.2 2.3
1.5 4.0 5.9 1.8 4.7 0.7 4.5 0.3 1.5 0.5 2.5 5.0
1.6 6.0 5.6 6.0 1.2 0.2

2. Los siguientes datos representan la cantidad en años de servicio de 50 personas en una empresa:

17 20 10 9 23 13 12 19 18 24 12 14
6 9 13 6 7 10 13 7 16 18 8 13
3 32 9 7 10 11 13 7 18 7 10 4
27 19 16 8 7 10 5 14 15 10 9 7
15 6

3. Los contenidos de nicotina, en miligramos, hallados en los dedos de 40 fumadores se registran a


continuación:

1.09 1.92 2.31 1.79 2.28 1.74 1.47 1.97 0.85 1.24 1.58
1.70 2.17 2.55 2.11 1.86 1.90 1.68 1.51 2.03 1.64 0.72
1.71 1.85 1.82 1.79 2.46 1.88 2.08 1.67 1.37 1.93 1.40
1.72 2.09 1.75 1.63 2.37 1.75 1.69

Para construir el diagrama de tronco y hoja se recomienda tomar cinco divisiones con troncos 1.a con
hojas de 00 a 19; 1.b con hojas 20 a 39; así sucesivamente hasta 1.e con hojas de 80 a 99 y luego
igual para los troncos en 2.

4. Los siguientes datos corresponden a la cantidad de dinero ( En miles de pesos) que mensualmente
gastan 60 empleados de una empresa en tintos o refrescos:

60 79 32 57 74 52 70 82 36 80 77 81 95
41 65 92 85 55 76 52 10 64 75 78 25 80
98 81 67 41 71 83 54 64 72 88 62 74 43
60 78 89 76 84 48 84 90 15 79 34 67 17
82 69 74 63 80 85 61 23

3. Distribuciones de frecuencias (Datos Agrupados)

En muchas ocasiones, cuando de recoger los datos (Usualmente correspondientes a


variables cuantitativas o indicadoras) de una información se trata, puede presentarse
alguna de las siguientes situaciones:

• Hay demasiados datos, para una sola variable.


• Pueden ser pocos datos, pero sus valores muy dispersos.
• Interesa una clasificación particular de los resultados.
En tales situaciones y en otras, similares que puedan ocurrir, el agrupamiento de los
datos resulta una buena técnica para el análisis de las variables dentro de un estudio
estadístico.

Proceso de Agrupamiento en Intervalos (Clases) con la misma amplitud:

1. Aplicar una técnica de recolección de los datos, por ejemplo: Tronco y Hoja
2. Determinar el Rango de la información: R = DM − Dm . Donde DM = DatoMayor y
Dm = Dato − menor
3. Determinar la Amplitud de los Intervalos: Se divide el rango obtenido en 2) por
R
el número de intervalos en los que deseo agrupar. A= ; donde; A: Amplitud; R :
I
Rango;
I : Cantidad de intervalos en los que deseo agrupar.
4. Si la amplitud no me da un número entero, se puede realizar el siguiente ajuste:
4.1. Ajusto la amplitud obtenida al entero siguiente.
4.2. Con la amplitud anterior y el No. de Intervalos ( I ) hallo un nuevo rango.(
NR ).
4.3. Establezco la diferencia: NR − VR ; donde, VR es el viejo rango
4.4. Ajusto los datos originales de acuerdo con la diferencia anterior.

5. Establezco los Intervalos, partiendo del primer dato (O del primer dato ajustado),
y sumando la amplitud hasta cubrir el número de intervalos previamente definidos.
Linf + Lsup
6. Se calcula la marca de clase para cada intervalo Mci = ; Donde: Mc i =
2
Marca de clase del intervalo i ; Linf = Límite inferior del intervalo I; Lsup = Límite
superior del intervalo i.
La Marca de clase es un valor que representa a todos los del intervalo o clase.
7. Se realiza la distribución de frecuencias.

Observaciones:

• El número de intervalos, puede definirse previamente a criterio de los investigadores,


o aplicando algunas técnicas sugeridas para ello de acuerdo con el tipo de estudio; una
fórmula comunmente empleada es la de Sturges: I= 1 + (3.3 log N), donde N= Total
de datos.
• En cualquier caso se recomienda que el número de intervalos no sea inferior a 5, ni
superior a 20.
• Hay dos tipos de gráficas para representar Distribuciones Agrupadas:
• El Histograma: Gráfico de barras verticales pegadas con igual amplitud y
centradas en la marca de clase.
• Polígonos de frecuencias: Gráfico de trazos, cerrado, que se hace uniendo
los puntos medios superiores de un histograma.

Taller No. 3:

Realizar una distribución de frecuencias agrupadas que incluya: Frecuencias absoluta,


relativa, acumulada, relativa acumulada, histograma y polígono de frecuencias para los
ejercicios del Taller No 2, de acuerdo con la siguiente indicación:

1. El ejercicio No 1 , con 5 intervalos.


2. El ejercicio No 2 , con 8 intervalos.
3. El ejercicio No 3, con 6 intervalos.
4. El Ejercicio No 4, con 7 intervalos.

4. Medidas de Tendencia Central

Se denominan así a algunos valores numéricos que se pueden obtener de la distribución


de una variable cuantitativa, y cuyos resultados se ubican por el centro de la misma

distribución; ellas son: La Moda ( M o ), la Mediana ( M ed ), y la Media ( X ).

• La Moda: Es el dato con mayor frecuencia absoluta dentro de una distribución; si en


una distribución aparecen dos Modas, se habla de una D. Bimodal; si son más de dos
modas se dirá una D. Multimodal.

• La Mediana: Es un valor que divide a la distribución en dos partes iguales, cada una
de las cuales contiene el 50% de la información ( o de los datos).

• La Media: Se define como la suma de todos los valores (datos) que asume una
variable, dividida por el total de datos.
Cálculos de las Medidas de tendencia central :

1. Para distribuciones no agrupadas:

• La Moda: Basta con observar la distribución, e identificar el dato con mayor


frecuencia absoluta.

• La Mediana:

• Sin el total de datos es impar, la mediana será aquel dato que ocupe el lugar
n +1
.
2
• Si el total de datos es par, la mediana será el promedio de los datos que
n n
ocupen las posiciones ( 2 ) y ( +1 )
2

• La Media: La definición conduce a la siguiente fórmula, que es la más utilizada en el


n

cálculo de la media: −
∑x f i i
; donde xi : Dato I-ésimo; f i : frecuencia absoluta
i =1
X =
n
del dato iésimo; n: total de datos de la información.

2. Para Distribuciones Agrupadas (Con intervalos de igual amplitud)

Se emplean las siguientes fórmulas en las cuales:

Linf : Límite inferior del intervalo de clase.


LSup : Límite superior del intervalo de clase.
A : Amplitu de los intervalos
M ci : Marca de clase del intervalo i.
∆1 : Diferencia entre la frecuencia absoluta del intervalo modal y la f. absoluta del
intervalo anterior.
∆2 : Diferencia entre la frecuencia absoluta del intervalo modal y la f. absoluta del
intervalo siguiente.

Para la Moda:
∆1
M o = Linf + ( )A .
∆1 + ∆ 2

Para la Mediana:
n
− ∑ f ant
M ed = Linf +( 2 )A
f abs

Para la Media:
i. Método largo:

X =
∑M ci fi
n

ii. Método corto:



X = M ca + (
∑µ. f i
)A ;
n
M ca : Marca de clase arbitraria
µ : Número de veces la amplitud de los intervalos, a partir de la marca de clase
arbitraria.

Taller No 4:

Calcular la Moda, la Mediana y la Media, para cada una de las distribuciones


generadas en los talleres de las reuniones 2 ( Frecuencias sin agrupar), y 3 (F.
agrupadas).

5. Cuantiles

Se denominan así ciertos valores dentro de una información, que permiten dividirla en
partes iguales. Los cuantiles más usados son: Los Cuartiles (Q), los Deciles (D) y los
Percentiles (P).

Los Cuartiles (Q):

Se utilizan para dividir la información en cuatro (4) partes iguales, cada una de las
cuales contiene un 25 % del total de los datos. Son 4 cuartiles notados como:
Q1 − Q2 − Q3 − y − Q4 .

En esquema:
Q1 Q2 Q3 Q4

Los Deciles (D):

Se usan para dividir una información en diez (10) partes iguales, cada una de las cuales
contiene un 10 % de los datos. Son 10 Deciles notados como: D1 − D2 − − − D10 .

En esquema:
D1 D2 D3 D4 D5 D6 D7 D8 D9
Los Percentiles (P):

Se usan para dividir una información en cien partes iguales, cada una de las cuales
contiene un 1 % de los datos. Son cien percentiles notados como: P1 − P2 − P3 − − − P100

Características generales de los cuantiles:

• El Q4; el D10 y el P100: Corresponden al último dato de la Información.


• El Q2, el D5, y el P50: Son iguales a la Mediana de la información.
• Q1 = P 25; Q3 = P 75.
• D1 = P10; D2 = P20; ….,D9 = P90.

Otro cuantil menos común es el Quintil: Se utiliza para dividir las informaciones en
cinco (5) partes iguales, cada una de las cuales contiene un 20 % de los datos.

Cálculo de los Cuantiles:

i) Para Informaciones Sin Agrupar:


kN
Se aplica la siguiente ecuación: Ck = ; y luego se busca el valor correspondiente
NoC
con la ayuda de la Frecuencia Acumulada.

Donde: Ck =Cuantil buscado; k = De 1 a 100; N =Total de datos;


NoC = 4 Para Cuartiles; 10 para Deciles y 100 para Percentiles

ii) Fórmula General para determinar el valor de un Cuantil en Informaciones


Agrupadas.

Se identifica el intervalo que contenga el cuantil buscado con la misma fórmula:


kN
kN − ∑ f ant
I cc = , y luego se aplica la Fórmula: C = L + ( NoC )A
NoC k inf
f abs

Taller: No 5:

Los siguientes datos representan el tiempo, en minutos, que duraron 50 llamadas


telefónicas atendidas por las secretarias de una oficina en una Institución Educativa:
2.2 2.4 3.3 1.8 7.8 3.1 2.4 0.4 4.2 6.3 0.2 4.4 9.7 4.7
0.8 3.7 4.6 1.3 1.2 7.6 2.9 5.8 2.5 0.7 0.9 7.2 3.8 1.1
0.5 1.4 0.4 2.8 5.6 6.2 0.4 1.6 1.5 5.5 6.8 0.5 3.3 9.5
1.2 1.3 1.9 2.7 3.4 5.2 1.4 2.8

Hallar e interpretar cada uno de los cuantiles pedidos:

1. Tomando los datos anteriores sin agrupar.


2. Agrupando la información en 5 intervalos de clase

a) Q1 y Q3
b) D2; D3; D7 y D8
c) P5; P10; P20; P45; P60; P90 y P73
d) Q3 - Q1
e) P90 - P10
6. Medidas de dispersión:

Son valores numéricos que me dan información sobre lo esparcidos o aglutinados que se
encuentran los datos correspondientes a una variable cuantitativa dentro de un estudio
estadístico. Las medidas de dispersión más usadas son:
• Los Rangos: Común; Intercuartil; Percentil.
• La Varianza ( σ 2 )
• Las Desviaciones: La D. Media y la D. Típica o Standar. (S.D)

1. Los Rangos:

i) El rango común: Se define coma la diferencia entre los datos extremos de una
variable cuantitativa, así: Dato Mayor - Dato menor.
ii) El rango intercuartil: Q3 - Q1; proporciona información sobre el 50 % central
de la variable.
iii) El rango percentil: P90 - P10; se utiliza cuando se quieren excluir algunos datos
extremos de una información; recoge información sobre el 90 % central de los datos.

2. La Varianza: Da información global sobre la forma como varían los datos; juega un
papel trascendental en la estadística inferencial cuando de hacer estimaciones se trata; ya
que del análisis de la varianza de una información cuantitativa se pueden deducir
muchos resultados sobre el comportamiento general de los parámetros de una población.

La varianza se define como:


i) Var ( x)= σ 2 =
∑ (x − x)
i
2
f i ; para datos sin agrupar.
n

ii) Var (x)= σ 2


=
∑ ( Mc − x ) i
2
f i ; para datos agrupados.
n
iii) Como fórmula alterna de la varianza que se emplea comúnmente está:
Var (x) = ∑x 2
fi
−(
∑x f ) =
i i 2
x2 - 
 x


2

 
n n

3. Las Desviaciones: Una desviación se define como la diferencia entre el valor del
dato y alguna medida estadística; por lo general las desviaciones más comunes se
toman con respecto a la media aritmética, pero se pueden tomar desviaciones respecto
a la moda, a la mediana, a uno cualquiera de los cuantiles ,etc.

La Desviación Media: Se define como el promedio de las desviaciones de una variable,


tomadas en valor absoluto, con respecto a la media aritmética de la variable; en fórmula:

∑x i − x fi
DM =
n

La Desviación Típica o Standar: Se define como la raíz cuadrada de la varianza; en


fórmula:

SD = σ = ∑ (x − x ) 2
f i , para datos sin agrupar.
n

SD = σ = ∑ ( Mci − x ) 2 f i , para datos agrupados.


n

Coeficiente de variación: es un valor que da información global sobre el grado de


SD
dispersión de la medida estadística utilizada, se define como : Cv = − , cuando la
x
medida empleada es la media aritmética.

Taller No. 6:

Para cada una de las variables cuantitativas de los ejercicios propuestos anteriormente,
calcular e Interpretar:

1. Los Rangos
2. La Desviación Media.
3. La Varianza.
4. La Desviación típica.
5. El Coeficiente de Variación

7. Algunos elementos para el Análisis de Datos Categóricos

Definición: Una variable cualitativa cuyos valores pueden agruparse en dos o más
categorías, se conoce en estadística como un variable categórica; veamos algunos
ejemplos:

VARIABLE CATEGORIAS

Sexo Masculino - Femenino


Estado Civil Soltero - Casado - Separado - Viudo -Unión Libre
Filiación Política Conservador - Liberal - Comunista -Independiente
Filiación Religiosa Católico - Protestante - Budista - Ortodoxo - Mahometano
Color Blanco - Rojo - Azul - Negro - Amarillo
Calificación Mala - Regular - Aceptable - Buena - Excelente

Análisis que pueden realizarse sobre las Variables Categóricas:

La base para analizar las variables categóricas está en contar la cantidad de datos que
corresponden a cada una de las distintas categorías, y a partir de tales cantidades,
observar diferentes aspectos de interés tales como:

• La probabilidad de ocurrencia de las distintas categorías.


• Si los datos se ajustan a algún modelo de distribución probabilística tal como una
distribució: Binomial; Poisson; Multinomial; Geométrica; Hipergeométrica; etc.
• La existencia de relaciones entre las distintas categorías.
• Cruzar dos variables y medir el grado de asociación de acuerdo con las categorías.

Tablas de Contingencia:
Se llaman así a las tablas de resultados que se obtienen cuando se cruzan dos variables
categóricas y se consignan en ellas las cantidades correspondientes a las intersecciones
entre las distintas categorías; cada intersección recibe el nombre de celda EJ:
VOTO
SI NO TOTAL
MASCULINO 30 15 45
FEMENINO 20 25 45
TOTAL 50 40 90

Para cada tabla de contingencia que contenga las cantidades absolutas de un cruce de
variables, se pueden obtener tres tablas similares con proporciones correspondientes a:
• La variable que representa a las filas. (Fijar las Filas)
• La variable que representa a las columnas. (Fijar las columnas)
• El total de datos (n) (No fijar ni filas ni columnas)

Este tipo de proporción depende del estudio o del interés particular del investigador.

Las tablas de contingencia pueden utilizarse, entre otras cosas, para analizar:

• Si existe relación entre las 2 características que intervienen.


• Cuál es el grado de asociación entre las características.

Existen algunas formas de medir no solo si existe asociación entre las variables, sino
además el grado de asociación que pueda haber entre ellas; por ejemplo

• El estadístico de Pearson;
• El método del riesgo relativo; y
• La razón de Odds.

• El Coeficiente de Pearson ( φ)

n11 n22 − n12 n21


φ=
n10 n20 n01 n02
−1 ≤ φ ≤ 1 ; Donde φcercano a 1, es signo de fuerte asociación;
cercano a cero, es signo de baja asociación; y cercano a -1 es signo de asociación
inversa.

• El riesgo relativo se fundamenta en la teoría básica de probabilidad condicional.

n n
La razón de Odds ( O de ventajas ): θ = n n ; donde el valor de θ , se interpreta así
11 22

12 21
i) Si θ < 1: Es más ventajoso estar en la 2ª. fila que en la 1ª, en relación con la variable
que representa a las columnas
ii) Si θ = 1 : Hay Independencia entre las dos variables.
iii) Si θ > 1: Los elementos en la 1ª. Fila tendrán más ventaja de tener la
característica 1 de la variable en las columnas, que aquellos de la fila 2.

La siguiente tabla sirve para interpretar las fórmulas anteriores:

y1 y2 T
x1 n11 n12 n10
x2 n21 n22 n12
T n01 n02 n

8. Elementos sobre Muestreo

El Muestreo es una herramienta de la investigación científica cuya función básica es


determinar que parte de una población debe examinarse con el fin de hacer inferencias
confiables sobre el total de la población de procedencia.

Se distinguen dos tipos de Muestreo: El Aleatorio o Probabilístico y el Circunstancial o


no probabilístico.

El Probabilístico: Parte de considerar que una muestra es representativa de la


población, cuando su elección es aleatoria, es decir cuando se garantiza que todas las
unidades de la población tienen la misma probabilidad de ser seleccionadas para la
muestra. Hay diversos métodos de aleatorizar una población, los más comunes son : La
utilización de tablas aleatorias y los programas de aleatorización en los paquetes
estadísticos para computador. Se distinguen los siguientes métodos de Muestreo
Aleatorio:

i) Aleatorio Simple;
ii) Aleatorio Estratificado y
iii) Aleatorio por conglomerados.

El Muestreo no Probabilístico o Circunstancial: Se distingue porque la forma de


seleccionar la muestra es sin obedecer a normas de ninguna clase; es decir la muestra se
selecciona de cualquier manera, deliberadamente, en forma caprichosa o por razones de
comodidad. Los tipos de muestreo sin norma más comunes son:

i) Dirigido;
ii) Por Cuotas y
iii) Por Conveniencia.

El Tamaño de Las Muestras:

Aunque el tamaño de las muestras es importante , debe tenerse presente que un tamaño
grande no es suficiente para garantizar mejor precisión en los resultados, ya que si se
presentan errores en cualquiera de los procesos de selección, recolección o análisis, una
muestra grande puede resultar muy mala para el logro de los objetivos; mientras que con
un mejor proceso previo, otra de menor tamaño puede resultar mejor. Para determinar el
tamaño de las muestras deben tenerse en cuenta, al menos, estas consideraciones:

• Deben tenerse muy presentes los objetivos del estudio que se realiza.
• El investigador debe conocer lo que se ha hecho en otros estudios similares.
• Deben tenerse en cuenta los recursos económicos con los que se cuenta.
Fórmulas para la obtención de Tamaños Muestrales:

1. M. A. Simple: Tamaño muestral n para estimar la media poblacional con un


límite de error B
Nσ 2
n=
• NB 2 Donde: N: Total de la población o del Marco Poblacional. B : Nivel de
+σ2
4
significancia o límite del error admisible. σ 2 = Varianza de la población; cuando ésta
no se conoce se reemplaza por una estimación que se puede obtener de un estudio
previo o de una prueba piloto.

2. Tamaño Muetral n para estimar una proporción poblacional dicótoma con


un límite para el error B:

Np (1 − p )
n=
• NB 2 ;
+ p (1 − p )
4
N −n
• Con factor de corrección para poblaciones finitas: ; se tiene que
N
4 pqN + B 2 N
n= ; Donde p: Probabilidad de éxitos y q = (1-p): probabilidad de
B 2 N + pq
fracasos, que cuando no son conocidos se pueden suponer p = 0.5 y q = 0.5

3. Muestreo Aleatorio Estratificado:


N i2σi2
∑ w
• n= i Donde N: Total de la población; N i : Población en el estrato i;
N 2 B2
∑ N iσ i + 4
2

σi2 : Varianza del estrato i, que en el caso de estimar una proporción se puede
reemplazar así: σ 2 = p (1 − p) ; wi : Proporción de la población en el estrato i.

• Cuando los costos sean fijos y las varianzas iguales para cada estrato, se hace:
N ∑ N iσi2
N n=
wi = i , y entonces la fórmula anterior se reduce a: N 2 B2 ;
N ∑ i i
N σ 2
+
4
Luego de obtener el tamaño muestral n de toda la población, la asignación de muestras
Ni
para cada estrato se hace con la ecuación: ni = n
N

Aplicaciones:

Proponga un tamaño muestral apropiado para estimar:

1. El promedio de una variable cualquiera x, para la cual se sabe que la varianza es


625, el total de la población es 5000 y el límite del error es 2. (Rta: n = 556)

2. La proporción de individuos que satisfacen una condición dada, con un error en la


estimación:
a) Del 0.10
b) Del 0.05
c) Del 0.01
En una población con 2500 individuos, en la cual la probabilidad de poseer dicha
condición es: i) Desconocida. (ii) p = 0.3 (iii) p = 0.8 ( Rta. b. i) n = 383)

3. La proporción de individuos que satisfacen una condición dada, a partir de los


datos de la siguiente estratificación:

ESTRATO Ni Cumple Condic Pi (%) Ni (Pi)(1 - Pi)


1 225 74 33 49.74
2 219 100 46 54.4
3 212 116 55 52.47
4 220 170 77 38.96
5 214 32 15 27.28
6 217 93 43 53.19
Totales 1307 585 45 276.04
Solución:

You might also like