Professional Documents
Culture Documents
IBAGU
FEBRERO 2013
COMITE DIRECTIVO
Jaime Alberto Leal Afanador
Rector
Gloria Herrera
Vicerrector de Medios y mediaciones Pedaggicos
Inferencia Estadstica
Tercera Versin
Actualizacin por Jeammy Julieth Sierra Hernndez
ISBN
2012
Unidad de Ciencias Bsicas UNAD
CAMPOS DE
Bsica CRDITOS: 2 TRABAJO INDEPENDIENTE: 72
TIPO
DE
CURSO
Terico CDIGO:100403 ACOMPAAMIENTO
TUTORIAL: 24
FORMACIN
Horas
Horas
OBJETIVO GENERAL:
Que el estudiante comprenda, aplique y desarrolle la teora y las tcnicas de la
inferencia estadstica en diversos campos de su saber formativo, y que dicha
aplicacin se convierta en una herramienta de uso matemtico para la toma de
decisiones sobre hiptesis cuantitativas de datos, basado en la informacin
extrada de una muestra.
OBJETIVOS ESPECFICOS:
Que el estudiante identifique las tcnicas y procedimientos que se
deben emplear para que las muestras sean representativas de la poblacin
que se pretende estudiar, de forma que los errores en la determinacin de
los parmetros de la poblacin objeto de estudio sean mnimos.
Que el estudiante comprenda el comportamiento de una poblacin a
partir del anlisis metdico de una muestra aleatoria de la misma, y que
entienda que la inferencia inductiva de los parmetros estadsticos que
estime sobre dicha muestra, conlleva un error, el cual es posible de ser
cuantificado.
Conocer los criterios tcnicos que hay que tener en cuenta antes
de seleccionar un tamao de muestra.
Identificar el tipo de muestreo de acuerdo a los objetivos del estudio.
Diferenciar y analizar las ventajas y desventajas de la estimacin
por intervalos de confianza y las pruebas de hiptesis.
Determinar la prueba o tcnica apropiada a aplicar en las diferentes
pruebas de hiptesis paramtricas y No paramtricas.
COMPETENCIA GENERAL DE APRENDIZAJE:
Identificar un procedimiento adecuado para seleccionar de una poblacin una
parte de ella, con el fin de obtener resultados confiables y poder generalizar los
resultados obtenidos a toda la poblacin.
Determinar los estadsticos necesarios para el anlisis y solucin de situaciones
que implican conjuntos de datos de su disciplina de formacin, por medio del
UNIDADES DIDCTICAS
INTRODUCCIN ..................................................................................................................................... 6
UNIDAD UNO: ........................................................................................................................................ 7
MUESTREO, DISTRIBUCIN MUESTRAL E INTERVALOS DE CONFIANZA ............................................. 7
CAPITULO UNO: PRINCIPIOS DE MUESTREO .................................................................................... 8
Leccin No 1: Conceptos Bsicos ................................................................................................ 10
Leccin No 2: Tipos de muestreo y seleccin de muestra ......................................................... 15
Leccin No 3: Tipos de Seleccin de Muestras .......................................................................... 30
Leccin No 4: Mtodos de Inferencias, Paramtrico y No Paramtrico.................................... 31
Leccin No 5: Estimadores y propiedades de los estimadores .................................................. 34
..................................................................................................................................................... 36
CAPITULO DOS: DISTRIBUCIONES MUESTRALES ............................................................................ 37
Leccin No 6: Distribuciones Muestrales ................................................................................... 38
Leccin No 7: Distribucin Muestral de la Media y de la Proporcin ....................................... 40
Leccin No 8: Distribucin Muestral de la proporcin .............................................................. 58
Leccin No 9: Distribucin Muestral de Diferencias de Medias y de la Proporciones .............. 63
Leccin No 10: Tamao de la muestra para estimar la media, la proporcin y el total de la
Poblacin ..................................................................................................................................... 67
CAPITULO TRES: INTERVALOS DE CONFIANZA ............................................................................... 74
Leccin No 11: Nociones Fundamentales. ................................................................................. 75
Leccin 12. Intervalos de confianza para medias y diferencias de medias con muestras
pequeas n 30 ....................................................................................................................... 80
Leccin 13. Intervalos de confianza para la media y diferencias de medias muestras grandes
n 30 ...................................................................................................................................... 101
Leccin 14. Intervalos de confianza para la proporcin y diferencias de proporciones (siempre
son muestras grandes) n 30 ................................................................................................ 105
Leccin 15. Intervalos de confianza para la varianza poblacional. .......................................... 107
INTRODUCCIN
UNIDAD UNO:
MUESTREO, DISTRIBUCIN MUESTRAL E INTERVALOS DE CONFIANZA
Objetivo general
Que los estudiantes identifiquen los principios sobre poblacin y
muestra, mtodos de muestreo,
distribucin de muestreo para medias,
el teorema central del lmite, aplicados al clculo de tamaos de muestras
pertinentes.
Objetivos especficos
10
Poblacin Y Muestra
Existe una serie de trminos estadsticos bsicos, que son muy utilizados y se
requiere sean comprendidos para avanzar en otros temas o unidades, en
esta seccin se tratarn los conceptos de poblacin y muestra.
Poblacin Universo: Se considera a todo aquello sobre el que se
desea
hacer
un
estudio estadstico. Segn el nmero de unidades,
elementos o casos que la constituyen, la poblacin puede ser finita o infinita.
Poblacin Finita: Es aquella conformada por un determinado o limitado nmero
de elementos.
Poblacin Infinita: Es aquella conformada por un determinado o limitado
nmero de elementos.
Cuando el nmero de unidades que integra una poblacin es muy grande, se
puede considerar a sta como una poblacin infinita. El investigador define la
11
12
13
es el Parmetro y es el estadstico.
1.2.
14
Entre los motivos que inducen a tomar una muestra aleatoria estn:
Naturaleza Destructiva: Existen casos donde se requiere destruir los
elementos de la muestra para medir la caracterstica, como es el caso de
medir la resistencia de un material, el vaco de un producto enlatado, otros. No
es lgico pensar en destruir todos los elementos de la poblacin, de all que se
tome una muestra.
Imposibilidad Fsica de Medir Todos los Elementos de la Poblacin:
Se sabe que existen poblaciones muy grandes, consideradas infinitas y es
casi imposible conocer todos los elementos de la misma.
Costos: Estudiar todos los elementos de la poblacin es muy costoso, tanto en
tiempo como en dinero, por lo que es ms rentable hacer un estudio Muestra.
Confiabilidad del Estudio Muestra: Esta demostrado con soporte matemtico
que una muestra representativa arroja resultados que permiten inferir sobre la
poblacin con una confiabilidad muy alta.
Unidad de observacin: Son los elementos que se miden; es decir, sobre los
que se toman los datos de las variables a medir. En el caso de los hogares, la
unidad de observacin sern las personas y en el caso de las llantas del
automvil, cada una sern las unidades de observacin.
Marco de muestreo: Se considera el referente para identificar las unidades de
observacin, ste NO incluye todos los elementos de la poblacin. Ejemplos de
marcos de muestreo tenemos el directorio telefnico de una ciudad, como
potenciales votantes, el registro de ventas de los ltimos 5 aos en
una compaa comercializadora y muchos otros.
1.3.
15
Muestreo probabilstico
Muestreo No probabilstico
16
17
b)
c)
d)
18
Recibo No.
11
12
13
14
15
16
17
18
19
20
$
$
$
$
$
$
$
$
$
$
Valor $
37.798
33.672
39.607
34.904
36.701
34.001
36.302
48.728
48.706
34.881
Recibo No.
21
22
23
24
25
26
27
28
29
30
$
$
$
$
$
$
$
$
$
$
19
Valor $
44.901
40.155
48.082
32.825
45.915
30.382
41.835
47.227
48.485
45.159
33850
97340
Este nmero no se escoge porque solo se escogen numerous entre
01 y 30. Se sigue buscando y se llega hasta un nmero menor o
igual a 30
Este nmero si se escoge porque es menor a 30.
14756
Se contina y si con la primera columna no se han encontrado los 5 nmeros para
la muestra se pasa a la siguiente.
Cabe notar que el nmero 23913 de la tabla se salta ya que se repite el 23 que se
encontr en 23236
La muestra est conformada por las observaciones que se ubican en la posicin:
14, 23, 09, 11 y 06
20
Tabla 2.
Nmeros aleatorios
Columna
00000
12345
00001
67890
11111
12345
11112
67890
22222
12345
22223
67890
33333
12345
33334
01
02
03
49280
61870
43898
00283
08612
86129
84598
85507
07275
97349
97653
89863
20775
91550
62993
33850
35779
07468
25078
30454
51438
81163
98083
78496
04
05
88924
41657
65923
93912
58555
56095
71865
20664
79488
12872
76783
02348
45091
08078
64647
31708
06
07
08
09
97340
70543
89382
37818
60430
03364
29776
93809
72142
22834
88472
10087
00796
67140
14130
04334
10072
95945
63919
55980
34101
36394
64688
81277
68239
66090
50785
96593
22380
23298
16703
56203
53362
92671
92470
20461
88872
44940
15925
82975
39087
55700
14756
32166
66158
71938
24586
19436
54324
55790
08401
11865
1367512
59208
43189
83832
63491
69229
26299
63397
32768
04233
28661
49420
44251
23997
53251
84731
40355
93247
78643
70654
18928
33825
57070
69662
23236
45794
09893
54382
94750
73751
31888
83246
47651
15130
14225
81718
82455
68514
06546
26926
20505
74598
89923
14523
20048
55058
56788
27686
94598
52551
96297
46162
26940
04877
47182
91499
37089
78305
46427
68479
80336
70297
85157
34135
47954
53140
32979
33340
26575
42050
57600
82341
40881
44104
22
23
24
11100
36871
02340
50775
12860
30592
96644
17381
51690
89439
68856
54607
28707
22255
60103
Rengln
10
11
13
14
15
16
17
18
19
20
21
32596
75912
92827
11095
12250
67890
78822
83554
36858
82949
73742
25815
35041
25
23913
48357
63308
74697
57143
16090
26
27
79348
92074
36085
54641
27973
53673
65157
54421
28
29
30
06873
21440
75593
41373
07456
18130
49502
17972
25626
69593
82578
12478
57175
37622
55564
99659
65411
31065
42547
83613
70457
69889
03426
58869
72937
83792
31
32
91616
78025
27587
11075
73539
67228
07831
39044
10175
59309
47450
12822
13276
03197
86687
26710
12787
65530
73000
47709
49325
16690
70183
20427
58065
80103
14621
80145
04251
65489
64477
31833
73709
82093
73945
16747
92396
10386
68263
59293
35385
93242
15679
13431
99742
24590
50866
02770
78028
48582
75573
67257
58595
38
90730
10934
82462
27463
47416
16285
13389
93699
80268
60912
40
02979
30166
10433
52997
79613
39
92709
90110
41
46888
75233
52507
42
53638
69929
83161
08289
12639
32097
08141
43
44
82433
61427
31672
17239
89160
50082
22795
19666
66948
42581
08792
13257
27398
90542
72906
63955
77563
51839
66530
16687
85264
35179
05575
34189
33
34
35
36
37
45
35766
10853
46
20341
47
48
54458
49
26337
34314
50
28603
23729
10708
07606
09079
68933
25853
72407
00906
05085
55538
57054
49464
16364
29571
94532
96666
95632
47506
53693
49892
37594
10067
28437
67327
08814
65581
37841
12847
84393
61973
24450
52351
15890
16602
17276
52901
10646
74692
48438
53355
46560
00123
83281
44546
19177
79896
96855
92166
23820
15181
11091
79821
66628
58599
12640
09268
Fuente:Web
Paso 3: Indicar segn las posiciones que arroja la tabla de nmeros aleatorios
21
$
$
$
$
$
$
$
$
$
$
Valor $
37.798
33.672
39.607
34.904
36.701
34.001
36.302
48.728
48.706
34.881
No. Recibo
21
22
23
24
25
26
27
28
29
30
$
$
$
$
$
$
$
$
$
$
Valor $
44.901
40.155
48.082
32.825
45.915
30.382
41.835
47.227
48.485
45.159
Este mtodo de seleccin permite que todos los elementos que constituyen la
poblacin tengan la misma posibilidad de ser incluidos en la muestra. Los
elementos se escogen en forma individual y aleatoriamente de la totalidad de
la poblacin. Esta seleccin puede ser sin reemplazamiento, similar a la que
se realiza en la extraccin aleatoria de nmeros en el juego denominado baloto.
Cada elemento que constituye la muestra se selecciona
una sola vez,
denominndose extracciones sin reposicin.
En otras ocasiones, cada elemento puede ser elegido ms s de una vez en
la misma muestra, como por ejemplo, cuando se selecciona aleatoriamente el
nmero ganador de una lotera, que puede ocurrir ser el mismo nmero; en
estos casos se dice que las extracciones son realizadas con reposicin.
b)
nmeros aleatorios
de una
poblacin de 1000
22
c)
Para seleccionar una muestra aleatoria simple mediante este mtodo hay que
seguir los siguientes pasos:
1. Para cada elemento de la poblacin se genera un nmero aleatorio entre 0
y 1. Ese nmero aleatorio se llamar r.
2. Se hace un recorrido secuencial de la poblacin y se incluye a la muestra
el nmero aleatorio r si cumple:
Comprobando que no estuviera anteriormente introducida, en el caso de
que est repetida se pasa a la siguiente unidad. Si se introduce la unidad
se vuelve a empezar en el paso 1.
3. El algoritmo termina cuando
d)
23
24
Ejemplo
Poblacin de tutores del CEAD Ibagu - UNAD (ver figura 3). El tamao de la
poblacin 18 tutores (N= 18), la cual est dividida en 3 escuelas o subgrupos
(H=3). Cada escuela es un estrato, y se tiene que son diferentes los perfiles de los
tutores de una escuela a otra pero al interior de cada una son similares sus
profesiones, esto significa que los subgrupos son heterogneos entre s, pero
homogneos dentro de cada uno.
precisa
de
ciertos
subgrupos
para
25
2.
Obtener informacin
comparaciones
hacer
3.
4.
5.
26
Donde
Tamao de la muestra
27
Dnde:
f = Fraccin de muestreo
N= Poblacin
n = Tamao de la muestra
Ejemplo
De una poblacin de 1.000 observaciones, se desea tomar una muestra de 10,
cules seran las observaciones que haran parte de la muestra sistemtica.
La fraccin de muestreo es:
f = Fraccin de muestreo
N= Poblacin
n = Tamao de la muestra
Como la fraccin de muestreo dio 100, el primer elemento se selecciona
aleatoriamente en el intervalo cero a cien, por ejemplo seleccionando el
nmero 25, el segundo elemento que se selecciona es 125 (25+100), luego el
225 (125+100) y as sucesivamente, hasta completar la muestra de diez.
28
29
30
3.2.
)
)
31
Ejemplo
Suponga que tenemos N = 4 unidades 1, 2, 3 y 5 en una poblacin
hipottica y
desea seleccionar muestras con reemplazamiento y sin
reemplazamiento de tamao n=2
Para los propsitos de esta seleccin, los valores podran ser el nmero de
las personas que viven en cada una de cuatro unidades habitacionales que
constituyen una poblacin. Se realizar una comparacin entre el muestreo
aleatorio con y sin reemplazamiento para una muestra de tamao n=2.
Primero se listan todas las posibles muestras no ordenadas de tamao n= 2.
Para recordar:
Tabla 4:
Tcnicas de conteo
Muestreo
Con Orden
Con Repeticin
Regla del exponente (o permutaciones
con repeticin)
Nn
Sin Orden
Combinaciones
(
(
(
)
)
Multiplicacin de opciones:
n1 x n2 x n3.
Sin Repeticin
Combinaciones
(de
N
elementos tomados de r en r.
con
)
(
32
Mtodos de
Inferencia
Parmetrico
Estimacin
Pruebas de
Hiptesis
No
Parmetrico
Pruebas No
Parmetricas
33
se denominan no paramtricos.
El trmino no paramtrico no se significa implicar que tales modelos carecen
totalmente parmetros, sino que el nmero y la naturaleza de los parmetros son
flexibles y no fijados por adelantado.
Ventajas y Desventajas
Las pruebas no paramtricas no necesitan suposiciones respecto a la
composicin de los datos poblacionales. Las pruebas no paramtricas son de
uso comn:
1. Cuando no se cumplen las suposiciones requeridas por otras
tcnicas usadas, por lo general llamadas pruebas paramtricas.
2. Cuando es necesario usar un tamao de muestra pequeo y no es
posible verificar que se cumplan ciertas suposiciones clave.
3. Cuando se necesita convertir datos cualitativos a informacin til para
la toma de decisiones.
Existen muchos casos en los que se recogen datos medidos en una escala
nominal u ordinal. Muchas aplicaciones de negocios involucran opiniones o
sentimientos y esos datos se usan de manera cualitativa.
Ventajas
Las pruebas no paramtricas tienen varias ventajas sobre las pruebas
paramtricas:
1. Por lo general, son fciles de usar y entender.
2. Eliminan la necesidad de suposiciones restrictivas
paramtricas.
3. Se pueden usar con muestras pequeas.
4. Se pueden usar con datos cualitativos.
Desventajas
Tambin las pruebas no paramtricas tienen desventajas:
1. A veces, ignoran, desperdician o pierden informacin.
2. No son tan eficientes como las paramtricas.
de
las
pruebas
34
35
36
Ejercicios propuestos
37
Objetivos especficos
38
39
Ejemplo
En la figura a continuacin se tiene que la variable X, es el nmero de prrafos
digitado por minuto, X: 1, 2, 3, 4.
Poblacionalmente se tiene:
Parmetros
E(X)=
2.5
Var (X)=
1.1180
E(x) es el valor esperado de la variable o promedio, y V(x) es la varianza.
( )
( )
)
(
)
)
(
)
40
Ejemplo
Si se quiere escoger una muestra de tamao 3, es decir compuesta por 3
personas y si adems las muestras se toman con reposicin es decir se puede
volver a incluir el individuo. La distribucin muestral ser:
14
12
10
8
6
4
2
0
1,00 1,33 1,67 2,00 2,33 2,67 3,00 3,33 3,67 4,00
Grfico No.2. Histograma de medias muestrales
41
42
su valor de una muestra a otra, por ello, se quiere estudiar la distribucin de todos
los valores posibles de un estadstico. Tales distribuciones sern muy importantes en
el estudio de la estadstica inferencial, porque las inferencias sobre las poblaciones
se harn usando estadsticas muestrales. Como el anlisis de las distribuciones
asociadas con los estadsticos muestrales, podremos juzgar la confiabilidad de un
estadstico muestral como un instrumento para hacer inferencias sobre un parmetro
poblacional desconocido.
Como los valores de un estadstico, tal como x, varan de una muestra aleatoria a
otra, se le puede considerar como una variable aleatoria con su correspondiente
distribucin de frecuencias.
La distribucin de frecuencia de un estadstico muestral se denomina distribucin
muestral. En general, la distribucin muestral de un estadstico es la de todos sus
valores posibles calculados a partir de muestras del mismo tamao.
Profesor
1
2
3
4
5
6
7
Salario $
7000
7000
8000
8000
7000
8000
9000
43
Entonces:
(9
9 9
9 9
699
7 2=
7!
7!
5! 6 7 42 42
=
=
=
=
= 21
(7 2)! 2! (5)! 2!
5! 2!
2!
2
Muestra
Prof.
Salario
Media Muestra
Prof.
Salario
Media
1y2
7000-7000
7000
12
3y4
8000-8000
8000
1y3
7000-8000
7500
13
3y5
8000-7000
7500
1y4
7000-8000
7500
14
3y6
8000-8000
8000
1y5
7000-7000
7000
15
3y7
8000-9000
8500
1y6
7000-8000
7500
16
4y5
8000-7000
7500
1y7
7000-9000
8000
17
4y6
8000-8000
8000
2y3
7000-8000
7500
18
4y7
8000-9000
8500
2y4
7000-8000
7500
19
5y6
7000-8000
7500
2y5
7000-7000
7000
20
5y7
7000-9000
8000
10
2y6
7000-8000
7500
21
6y7
8000-9000
8500
11
2y7
7000-9000
8000
Suma Total
162.000
Nmero de medias
Probabilidad
7000
0,1429
7500
0,4285
8000
0,2857
8500
0,1429
Suma
21
1,000
44
45
Ecuacin No.2
Primero se obtiene todas las muestras (todos los subconjuntos) y luego a cada
muestra le calcula la media, finalmente obtendr, tantas medias como muestras
haya, y con esas medias calcula de nuevo un promedio; es decir, se calcula una
media de medias.
6
Note que:
es la media poblacional.
46
Error Muestral
Cualquier medida conlleva algn error. Si se usa la media para medir, estimar, la
media poblacional , entonces la media muestral, como medida, conlleva algn
error. Por ejemplo, supongamos que se ha obtenido una muestra aleatoria de
tamao 25 de una poblacin con media
; si la media de la muestra es
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
7000
7500
7500
7000
7500
8000
7500
7500
7000
7500
8000
8000
7500
8000
8500
7500
8000
8500
7500
8000
8500
7714,3
7714,3
7714,3
7714,3
7714,3
7714,3
7714,3
7714,3
7714,3
7714,3
7714,3
7714,3
7714,3
7714,3
7714,3
7714,3
7714,3
7714,3
7714,3
7714,3
7714,3
-714,3
-214,3
-214,3
-714,3
-214,3
285,7
-214,3
-214,3
-714,3
-214,3
285,7
285,7
-214,3
285,7
785,7
-214,3
285,7
785,7
-214,3
285,7
785,7
Dnde:
:
9.
.
.
9.
6
Varianza
Desviacin
47
48
Ecuacin No.4
Ecuacin No.5
49
Ms adelante se ver que, estas dos concepciones hacen parte de los principios
del teorema del lmite central. Para lo cual se desarrollan dos ejemplos, uno de
muestreo con reemplazamiento y otro sin reemplazamiento.
si
Es la poblacin
infinita?
No
Se muestrea
con sustitucin?
si
No
si
Es N 20n?
50
Entonces:
Presenta una
Hay que destacar tres aspectos importantes del teorema central de lmite.
Primer principio:
Si el tamao de la muestra n es suficientemente grande, la distribucin muestral
de las medias ser ms o menos normal. Esto se cumple ya sea que la poblacin
est o no distribuida normalmente. Esto es, el teorema se verifica, ya sea que la
poblacin est distribuida en forma normal, o bien sea sesgada o uniforme.
Segundo principio:
Como se mostr con anterioridad, la media de la poblacin, , y la media de todas
las medias muestrales posibles,
51
X i 1,2,3,4,5
1 N
1 2 3 4 5
xi
3 Promedio de aos de experiencia por empleado.
N i 1
5
Paso 2: Varianza de dicha poblacin.
1 N
1
( xi ) 2 (1 3) 2 (2 3) 2 ... (5 3) 2 1.999
N i 1
5
2
C NN
N!
N n! xn!
Reemplazando:
C25
5!
5!
5 x4 x3!
10
5 2! x2! 3!2! 3! x2
Media Muestral X
1.5
2.0
2.5
3.0
2.5
Muestra
24
25
3 4
3 5
4-5
Media Muestral X
3.0
3.5
3.5
4.0
4.5
52
1.5 2.0 2.5 3.0 2.5 3.0 3.5 3.5 4.0 4.5
3
10
X 1.5 3 2.0 3
4.5 3.0
10
0.7499
X 0.7499 0.8660
Observemos que la desviacin estndar de la poblacin (1.4142) es diferente a la
desviacin estndar de la distribucin muestral de medias (0.8660), y una forma
de corregir esta diferencia es mediante la siguiente igualdad:
N n
n N 1
Ecuacin No.6
Dnde:
X
n
N
N n
Factor de correccin para poblaciones finitas.
N 1
53
1,4142 5 2
0,8660
5 1
2
El segundo principio del teorema central del lmite para poblaciones finitas se
expresa: La desviacin estndar de la distribucin muestral de medias es igual al
factor de correccin poblacional multiplicada por la relacin entre la desviacin
estndar poblacional y la raz cuadrada del tamao de la muestra. Dicho principio
queda demostrado con la relacin anterior.
Ejemplo: Muestreo con Reemplazamiento
Nn
No. muestra
14
15
16
17
18
19
20
21
22
23
24
25
Muestra
3-4
3-5
4-1
4-2
4-3
4-4
4-5
5-1
5-2
5-3
5-4
5-5
Media muestral
3.5
4.0
2.5
3.0
3.5
4.0
4.5
3.0
3.5
4.0
4.5
5.0
54
1.0
1.41421356
2
Para transformar una variable normal general en una normal estndar (este
proceso se llama tipificar) se debe:
X~N( ,
~ N(0,1)
Ejemplo
a) Probabilidad acumulada en el valor 0,67: la respuesta es 0,7486
b) Probabilidad acumulada en el valor 1,35: la respuesta es 0,9115
c) Probabilidad acumulada en el valor 2,19: la respuesta es 0,98574
La dcima del valor buscado (por ejemplo en 0.67, es 0.6) le indica el valor a
buscar en la primera columna; luego use la centsima para ubicarse en la primera
fila (por el ejemplo en 0.67, es 7); finalmente la interseccin de esas dos hileras es
la probabilidad buscada.
55
As mismo, las medias muestrales se distribuyen como una normal, por tanto, se
puede calcular la probabilidad del comportamiento del estadstico, en este caso la
media de la muestral, de la siguiente manera:
Poblaciones infinitas (o no se conoce):
Ecuacin No.7
Ecuacin No.8
Ejemplo
Clculo de Probabilidades. Distribucin de medias
Poblaciones infinitas (o no se conoce)
La altura media de los alumnos de un plantel de secundaria es de 1,50 mts. Y su
desviacin tpica es de 0,25 mts. Determinar la probabilidad de que en una
muestra de 36 alumnos, la media sea superior a 1,60 mts.
P( X > 1,60) = ?
Se estandariza la variable (aplicar ecuacin 7):
2,40
0,25
0,25 0,25
6
36
56
Entonces
Ejemplo
Clculo de Probabilidades. Distribucin de medias
Poblaciones finitas y muestreo con reemplazo
Una empresa elctrica fabrica focos que tienen una duracin que se distribuye
aproximadamente en forma normal, con media de 800 horas y desviacin
estndar de 40 horas. Encuentre la probabilidad de que una muestra aleatoria de
16 focos tenga una vida promedio de menos de 775 horas.
Se estandariza la media muestral (se aplica la ecuacin 7):
57
es equivalente:
58
observar a continuacin:
Entonces:
No importa que distribucin tenga la poblacin, pero la distribucin muestral de
medias a partir de esa poblacin, tiene una distribucin normal
59
Ahora bien, se debe tener en cuenta que cuando se hace anlisis de una
caracterstica cualitativa o atributo, se emplea la proporcin de xitos y no el
nmero de xitos como en la distribucin binomial.
Una distribucin es una distribucin total de xitos en las muestras, mientras que
una distribucin de proporciones es la distribucin de un promedio (media) de los
xitos.
Ejemplo
Construccin de la distribucin de las proporciones muestrales.
Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artculos
defectuosos. Se van a seleccionar 5 artculos al azar de ese lote sin reemplazo.
Genere la distribucin muestral de proporciones para el nmero de piezas
defectuosas.
Paso 1: Proporcin Poblacional
Por lo que podemos decir que el 33% de las piezas de este lote estn
defectuosas.
60
1
2
3
4
5
Total
Proporcin de
artculos
defectuoso
4
3
2
1
0
Nmero de
maneras en las que
se puede obtener la
muestra
4/5=0.8
3/5=0.6
2/5=0.4
1/5=0.2
0/5=0
8C1*4C4=8
8C2*4C3=112
8C3*4C2=336
8C4*4C1=280
8C5*4C0=56
792
( 6
6)
6)
61
( 6
.
Ecuacin No.9
Este valor no coincide con el de 0.1681, ya que nos falta agregar el factor de
correccin para una poblacin finita y un muestreo sin reemplazo:
Ecuacin No.10
( )( )
62
Ecuacin No.11
si se cumple con
Ejemplo
Clculo de Probabilidades. Distribucin de proporciones muestrales
Cuarenta y seis por ciento de los sindicatos del pas estn en contra de comerciar
con la China Continental; Cul es la probabilidad de que en una encuesta a 100
sindicatos muestre que ms del 52% tengan la misma posicin?
P = 0,46
Z
pP
PQ
n
p = 0,52
n = 100
0,52 0,46
0,460,54
100
P(p>0,52) = ?
0,06
0,2484
100
1,21
63
64
As que:
Ecuacin No.12
Ecuacin No.13
Ecuacin No.14
Ejemplo
Clculo de
muestrales
Probabilidades.
Distribucin
de
diferencia
de
medias
x = 20
y =
25
x= 6
y=
5,5
n1 = 10
P( x y > 0) = ?
Z
0 20 25
36 30,25
10
9
0 5
3,6 3,36
5
6,96
1,90
n2 = 9
9.2.
65
66
) y desviaciones proporcionales P
, siendo: P1 P1Q1 y P2 P2 Q2 .
El error estndar de las diferencias entre las dos medias proporcionales estar
dada por:
P1Q1 P2 Q2
n1
n2
P P
1
n1
n2
s P1 P2
p1 p2 P
P2
P1Q1 P2 Q2
n1
n2
p 2 P1 P2
p1 q1 p 2 q 2
n1
n2
cuando n1 y n 2 > 30
Ejemplo
Clculo de Probabilidades. Distribucin de diferencia de proporciones muestrales
n1 = 200
n 2 = 100
P1 = 0,14
P2 = 0,20
67
p1 p 2 = 8% = 0,08
0,08 0,06
0140,86 0,20,8
200
100
0,14
2,98
0,047
de la
n N 1
Ecuacin No.15
Despejando n, se obtiene:
Z (21 / 2) 2 N
( N 1) B 2 Z 2 2
Ecuacin No.16
68
Ejemplo
Un Banco desea identificar el promedio de cuentas por cobrar, estudios previos
han determinado que la variacin de las cuentas est en $1.000. El Banco cuenta
con 1.400 clientes activos. Si el lmite de error de estimacin es de $50 Cul
debe ser el tamao de la muestra a un nivel de significancia del 5%?
Se trata de una poblacin finita. Por teora la amplitud de variacin es 4 veces la
desviacin tpica: A = 4 entonces: = A/4 = 1.000/4 = 250
Z(1-/2) = Z0,975 = 1,96
Z (21 / 2) 2 N
89,93
(1400 1)(50) 2 (1,96) 2 (250) 2 3'497.500 240.100
10.1.2.
B Z (1 / 2)
2
n
Ecuacin No.17
Entonces:
Z (21 / 2) 2
B2
Ecuacin No.18
Ejemplo
En un estudio sobre el tamao de las manos para el diseo de guantes, se
estableci que la longitud de estas sigue una distribucin normal. Por datos
conocidos se sabe que la desviacin tpica es de 1,5 cm. Cul ser el tamao de
69
Z (1 / 2) 2
B2
(1,96) 2 (1,5) 2
34,57
(0,5) 2
Se sabe que: p
1 n
yi Para yi = 1.
n i 1
p * q N n
n 1 N
Ecuacin No.19
Despejando n se obtiene:
Z (21 / 2 ) p * qN NB 2
n
NB 2 Z (21 / 2 ) p * q
Ecuacin No.20
70
Ejemplo
En una ciudad se desea realizar una encuesta para determinar la proporcin de
habitantes que estn de acuerdo con el consumo de cigarrillo. La ciudad tiene
7.500 habitantes y por estudios previos se ha determinado que de cada 100
habitantes, 15 estn de acuerdo. Cul debe ser el tamao de la muestra para
estimar la proporcin poblacional P; con un lmite de error de estimacin de 0,05 y
un nivel de significancia del 5%.
Por los datos:
15
p
0,15 Luego
100
q 1 0,15 0,85
Z (21 / 2) p * qN NB 2 (1,96) 2 (0,15)(0,85)(7.500) (7.500)(0,05) 2
n
NB 2 Z (21 / 2) p * q
(7.500)(0,05) 2 (1,96) 2 (0,15)(0,85)
(1,96) 2 (0,15)(0,85)(7.500) (7.500)(0,05) 2
3673,53 18,75
n
2
2
(7.500)(0,05) (1,96) (0,15)(0,85)
18,75 0,4898
n
3673,53 18,75
3692,28
191,908
18,75 0,4898
19,2398
Por consiguiente se debe tomar una muestra de 192 habitantes para estimar la
proporcin poblacional, con un lmite de error de 0,05 y un nivel de confianza de
95%.
Ejemplo
En una compaa de 3.500 empleados, se desea saber la proporcin de
empleados que estn a favor de la organizacin de un Sindicato. El investigador
tomo una muestra de 400 empleados fruto del clculo respectivo; adems, asume
un nivel del 5%. Por ser una compaa relativamente nueva, NO hay datos al
respecto. De qu valor fue tomado el error de estimacin del muestreo?
Inicialmente por no conocer proporciones anteriores, entonces se asume un
fenmeno dudoso, as p = 0,5 luego q = 0,5. Conocemos el tamao de la
poblacin y de la muestra. Debemos despejar B de la ecuacin del tamao
muestral.
Z (21 / 2 ) p * qN NB 2
n
Despejando B:
NB 2 Z (21 / 2 ) p * q
B
2
Z (21 / 2) p * qN Z (21 / 2) p * qn
nN N
71
0,002132
400 * 3.500 3.500
1'396.500
2
B 0,002132 0,04617
El error de estimacin tomado fue casi de 0,04617, es decir casi 0,05
Ejemplos
1. El mantenimiento de cuentas puede resultar demasiado costoso, si el promedio
de compra por cuenta baja de cierto nivel. El gerente de un gran almacn por
departamentos desea estimar el promedio de lo comprado mensualmente por los
clientes que usan la cuenta de crdito, con un error de $1.500, y una probabilidad
aproximada de 0,95. Cuntas cuentas deber seleccionar, si sabe que la
desviacin estndar es de $30.000, la cual fue obtenida de los balances
mensuales de la cuenta de crdito?
Z 2 2
n=
E2
2 2 30.000
1.500 2
2. un auditor desea tener un nivel de confianza del 95%, para que la verdadera
proporcin de error no exceda del 2%. Si la poblacin es muy grande, Qu
tamao tendr la muestra que va a tomarse, si el auditor estima que la proporcin
de error es del 5%?
Z 2 PQ
n=
E2
2 2 0,050,95
=
0,02 2
475 cuentas
no
n=
n
1 o
N
donde:
Z 2 2
no
E2
En variables
no
n=
n
1 o
N
donde:
Z 2 PQ
no
E2
72
En proporciones
B Z (1 / 2)
2 N n
N
n N 1
2
Ecuacin No.21
Despejando n se obtiene:
n
Z (21 / 2) N 3 2
( N 1) B 2 Z (21 / 2) 2 N 2
Ecuacin No.22
Ejemplo
Una compaa que hace estudios a nivel social, desea estimar el total de ingresos
de una poblacin de 3.000 habitantes que tiene ingresos. Por estudios previos se
sabe que la varianza poblacional para los ingresos es de $40.000 Cuntas
personas se deben tomar como muestra, si se asume un lmite de error de
estimacin de $100.000 y un nivel de confianza del 95%?
Los datos:
N = 3.000
2 = 40.000
B = 100.000
Entonces:
n
Z (21 / 2) N 3 2
( N 1) B 2 Z (21 / 2) 2 N 2
4,148928 X 1015
2,9225 X 1015
7,281
3,9999 X 1014 1,382976 X 1012 4,01372976 X 1014
73
Ecuacin No.23
Ecuacin No.24
Tamaos Desiguales:
)
(
Ecuacin No.26
74
75
76
11. Estimacin.
El objetivo principal de la estadstica inferencial es la estimacin, esto es que
mediante el estudio de una muestra de una poblacin se quiere generalizar las
conclusiones al total de la misma. Como vimos en la seccin anterior, los
estadsticos varan mucho dentro de sus distribuciones muestrales, y mientras
menor sea el error estndar de un estadstico, ms cercanos sern unos de otros
sus valores.
ESTIMACION
Puntual:
Por intervalos:
77
ESTIMACIN PUNTUAL
Una estimacin puntual es un nico valor estadstico y se usa para
estimar un parmetro. El estadstico usado se denomina estimador
Media
poblacional
Proporcin
Total
poblacional
De
proporciones
Diferencias de
medias
78
MARGEN DE ERROR
Se conoce la varianza
Poblacional
Si
Estadstico
Media
( )
No
(
INTERVALOS DE
CONFIANZA
DOS
POBLACIONES
UNA POBLACIN
MUESTRAS
GRANDES n
>=30
MUESTRAS
PEQUEAS
n<30
Media
Proporcin
VARIANZA
Media
MUESTRAS
GRANDES n>=30
Diferencia de
proporciones
MUESTRAS
PEQUEAS n<30
Diferencia de
medias
Diferencia de
medias
79
0.200
0.150
0.100
0.050
0.025
0.010
Test unilateral
0.842
1.036
1.282
1.645
1.960
2.326
Potencia
(1-)
Zb
0.01
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
0.99
0.95
0.90
0.85
0.80
0.75
0.70
0.65
0.60
0.55
0.50
2.326
1.645
1.282
1.036
0.842
0.674
0.524
0.385
0.253
0.126
0.000
Test bilateral
1.282
1.440
1.645
1.960
2.240
2.576
Intervalo de
Intervalo de confianza
Intervalo de
confianza para la
para la diferencia de
confianza para la
media
medias
proporcin
80
x3, xn
son elegidas
Entonces, queda claro que cuando las muestras son pequeas la distribucin
muestral es la distribucin t. Esta se caracteriza porque es ms puntual que la
distribucin normal, reuniendo mayor proporcin de casos en los extremos de la
curva a diferencia de la distribucin normal.
La distribucin t a medida que el tamao de la muestra "n" aumenta, tal
distribucin t se va pareciendo ms a la normal, de tal modo que cuando n > 30
no existen diferencias entre la distribucin normal y la distribucin t. Entonces,
cuando n < 30 existe una curva diferente para cada valor de "n".
Grados de libertad.
Nmeros de elementos en una muestra que pueden variar despus de haber
seleccionado cierto nmero de ellas. Supngase que existen dos elementos en
una muestra y se conoce la media. Se tiene libertad para especificar slo uno de
los dos valores, ya que el otro queda determinado automticamente; queda claro
que el total de los dos valores es dos veces la media.
Ejemplo
Si la media es de $ 6 pesos es posible elegir slo un valor. Si se elige $ 4 pesos el
otro valor es $ 8, ya que $ 4 + $ 8 = 12 /2 = $ 6. As que hay un grado de libertad
en este ejemplo. Se podra haber determinado mediante n - 1 = 2 - 1 = 1 grados
de libertad. Si n=4, entonces hay 3 grados de libertad, lo que se obtiene mediante
n - 1 = 4 1 = 3.
81
12.
S
X t
n
Ecuacin No.27
82
0,45
0,4
Probabilidad
0,35
0,3
Grados de
Libertad n-1 =
10 - 1= 9
0,25
0,2
0,15
0,1
0,05
1 0,95
/2 0,025
/2 0,025
0
-2,26
+2.26
Valor estadstico t
6 (
Se interpreta que las cajas de atn tienen un promedio de peso entre 181.85 y
186.14 gramos con un nivel de confianza del 95% y expresado matemticamente
es: (
6 )
9
83
12.1.
Cuando las varianzas son desconocidas, se debe realizar previamente una prueba
estadstica para verificar si stas son iguales o diferentes. Para realizarlo debemos
hacer uso de la distribucin F, bien sea mediante el clculo de la probabilidad de
que la muestra tomada provenga de dos poblaciones con varianzas iguales, o
mediante el uso de un intervalo de confianza para la relacin de dos varianzas,
segn se estudiar ms adelante.
INTERVALO PARA LA
DIFERENCIA DE MEDIAS
(varianza desconocida
SI.
Aplicar la frmula:
NO.
Usar frmula de intervalo
para la diferencia de medias
pero con varianzas
desiguales
84
2.1
5.3
1.4
4.6
Sin Tratamiento
1.9
0.5
2.8
3.1
Con un nivel de significancia del 0.05 pruebe que las varianzas son iguales.
Datos:
Con tratamiento
6
s= 1.97
n=5
Estadstico de prueba: F
Sin tratamiento
s = 1.1672
n=4
0.9
85
Para hallar un valor crtico en la tabla de la F, se debe tener en cuenta que dichos
valor est calculando el rea bajo la curva hacia la derecha del mismo, es decir,
determinan el rea por arriba del valor critico.
Si quiere determinar el valor en la tabla F que deja por encima el 2.5% del rea,
debe hacer en Excel: =DISTR.F.INV(0,025;4;3)=15,1
Si quiere determinar el valor en la tabla F que deja por encima el 97.5% del rea,
debe hacer en Excel: =DISTR.F.INV(0,975;4;3)=0.10
VIDEOS :
Clic para ver video:
Valores crticos en la
tabla F
Regla de decisin:
Si 0.10
Fc
86
15.1 no hay evidencia para decir que las varianzas NO son iguales,
F
Decisin y Justificacin:
Como 2.85 esta entre los dos valores de Ho no se rechaza , y se concluye con
un = 0.05 que existe suficiente evidencia para decir que las varianza de las
poblaciones son iguales.
Segunda fase: intervalo de confianza
Si mediante el uso de la distribucin F se llega a la conclusin de que las
varianzas son iguales, el procedimiento a seguir para el clculo del intervalo de
confianza para la diferencia de dos medias ser el siguiente:
Pasos despus de verificar que las varianzas son iguales:
a) El estadstico usado como estimador puntual de la diferencia de medias 1 - 2
ser T, que es un estimador suficiente.
b) La variable aleatoria asociada con el estimador ser la variable T definida como:
Ecuacin No.28
Donde
es un estimador combinado de
(
, mejor que
(
Ecuacin No.29
por separado, y
87
]
Ecuacin No.30
Ecuacin No.31
Calcular
5. Calcular
88
Recordar:
Con tratamiento
6
s= 1.97
n=5
2.
3.
Sin tratamiento
s = 1.1672
n=4
6
entonces buscar en la tabla t-student, el valor para 7 grados de
libertad y
T=2,365
4.
( )
67
( )
67
5.
6 ( 6 )( 6 )
6 ( 6 )( 6 )
89
Marca A
10
3,1
0,5
Marca B
8
2,7
0,7
96
La diferencia de medias (
90
96
Debido a que la diferencia real puede ser nula, ya que el intervalo construido
contiene al cero, no se puede concluir que existe una diferencia en el contenido de
nicotina de las dos marcas de cigarrillos.
Ejercicio propuesto
El gerente de una refinera piensa modificar el proceso para producir gasolina a
partir de petrleo crudo. El gerente har la modificacin slo si la gasolina
promedio que se obtiene por este nuevo proceso (expresada como un porcentaje
del crudo) aumenta su valor con respecto al proceso en uso. Con base en
experimentos de laboratorio y mediante el empleo de dos muestras aleatorias de
tamao 12, una para cada proceso, la cantidad de gasolina promedio del proceso
en uso es de 24.6 con una desviacin estndar de 2.3, y para el proceso
propuesto fue de 28.2 con una desviacin estndar de 2.7. El gerente piensa que
los resultados proporcionados por los dos procesos son variables aleatorias
independientes normalmente distribuidas con varianzas iguales. Con base en esta
evidencia, debe adoptarse el nuevo proceso?
12.2.
91
( )
( )
Ecuacin No.32
Ejemplo
Un fabricante de monitores prueba dos diseos de microcircuitos para determinar si
producen un flujo de corriente equivalente. El departamento de ingeniera ha obtenido los
datos siguientes:
Diseo 1
n1 = 16
s12 = 10
Diseo 2
n2 = 10
s22 = 40
92
Estadstico de prueba:
F
0
0
Decisin y Justificacin:
Como 4 es mayor que 3.12, esta en la zona de rechazo, se concluye con un =
0.05 no existe suficiente evidencia para decir que las varianza de las poblaciones
son iguales, por tanto se suponen varianzas diferentes.
93
Para poder buscar el valor de t en la tabla, se necesita saber el valor de los grados
de libertad:
(
(
(
]
(
)
( )
6 ]
6
Este valor se redondea al prximo menor que sera 11. Entonces los grados de
libertad son 11.
Ver la tabla t-student en los Contenidos del curso, Anexo: Tablas estadsticas.
Recuerde que si el nivel de significancia es 0,05 debe ubicarse directamente en la
columna 0,05 con 11 grados de libertad, ya que siempre un intervalo de confianza
supone una distribucin a dos colas y el Excel por defecto supone distribucin a
dos colas con la funcin =DISTR.T.INV, por tanto, no es necesario dividir el alfa en
dos.
En el caso de las pruebas de hiptesis se pueden dar pruebas a una o dos colas,
por ello cuando se utilice la tabla t-student del anexo si la prueba tiene un alfa de
0,05 y es a una cola, usted deber ubicar la columna 0,10 ( es decir multiplica por
dos el alfa antes de ver en la tabla).
Estadstico de prueba
Se aplica el estadstico de prueba para la diferencia de medias con varianzas
desiguales:
9
( )
6
Y se compara con los valores encontrados en la tabla t-student con 11 grados de
libertad y un = 0.05
94
Justificacin y decisin:
Como 0.1395 esta entre 2.201 y 2.201, no se rechaza la hiptesis de que las
diferencia de medias es cero. Se concluye con un = 0.05, que no existe
diferencia significativa en el flujo de corriente promedio entre los dos diseos.
El intervalo de confianza aplicando la ecuacin No.32 es:
. )
. )
95
Ejercicio propuesto
Cierto metal se produce, por lo comn, mediante un proceso estndar. Se
desarrolla un nuevo proceso en el que se aade una aleacin a la produccin del
metal. Los fabricantes se encuentran interesados en estimar la verdadera
diferencia entre las tensiones de ruptura de los metales producidos por los dos
procesos. Para cada metal se seleccionan 12 ejemplares y cada uno de stos se
somete a una tensin hasta que se rompe. La siguiente tabla muestra las
tensiones de ruptura de los ejemplares, en kilogramos por centmetro cuadrado:
12.3.
Ejemplo
Usar los datos del ejemplo del fabricante de monitores que prueba dos diseos de
microcircuitos para determinar si producen un flujo de corriente equivalente, pero en este
caso construir un intervalo unilateral para diferencia de medias con varianzas
desconocidas pero iguales
Tamao de la muestra =
Cuasi varianza =
Media muestral =
Nivel de confianza =
Poblacin1 Poblacin2
16
10
10
40
24,2
23,9
0,95
96
2,063898562
3,835257238
-3,535257238
4,135257238
Intervalos unilaterales
to =
1,71088208
Radio =
3,179261327
Cota inferior =
-2,879261327
Cota superior =
3,479261327
Estadstico tabulado
to =DISTR.T.INV(2*(1-0,95);16+10-2)
Radio
Recordar:
(
12.4.
97
Ejemplo
Usar los datos del ejemplo del fabricante de monitores que prueba dos diseos de
microcircuitos para determinar si producen un flujo de corriente equivalente, pero en este
caso construir un intervalo unilateral para diferencia de medias con varianzas
desconocidad pero desiguales.
Caso de varianzas poblacionales desconocidas y desiguales
Intervalo bilateral
Intervalos unilaterales
Cuasivarianza1/Cuasivarianza2=
0,25
Grados de libertad=
11
to =
2,20098516
to =
1,795884819
Radio del intervalo =
4,733397564
Radio =
3,862196338
Lmite infer.=
-4,433397564
Cota inferior =
-3,562196338
Lmite super.=
5,033397564
Cota superior =
4,162196338
Estadstico tabulado
to =DISTR.T.INV(2*(1-0,95);GL)
Radio
12.5.
98
99
Dada la muestra aleatoria se calculan los siguientes estadsticos que servirn para
estimar la media y la varianza de la diferencia,
y
, respectivamente:
Ecuacin No.33
100
Se est investigando la utilidad de dos lenguajes de diseo para mejorar las tareas
de programacin. Se le ha pedido a 12 programadores expertos, familiarizados
con los dos lenguajes, que codifiquen una funcin estndar con ambos lenguajes,
y se registra el tiempo requerido, en minutos, para realizar estas dos tareas. Los
datos obtenidos son los siguientes:
Dado que la diferencia puede ser cero, se concluye que no hay evidencia para
rechazar la hiptesis de que ambos lenguajes requieren el mismo tiempo de
programacin, y por lo tanto no hay preferencia por ninguno de los dos lenguajes.
101
2.
13.1.
Ecuacin No.34
102
Ejemplo
Suponga por ejemplo que Ud. est dispuesto a aceptar un riesgo de error de
0.05 ; entonces 1 0.95 , se trata de un intervalo de confianza del nivel 0.95.
Dado que esta probabilidad se distribuye simtricamente a los dos lados de la
media, se obtiene 0.475 a cada lado. Ahora bien, recuerde que no buscar en la
tabla el valor de Z asociado a una probabilidad de 0.95, ya que debe agregarle la
cola, que en este caso es la mitad del nivel de significancia alfa (es decir
/2=0,05/2=0,025), entonces lo que buscar es el valor Z asociado a una
probabilidad de 0.975
que es 1.96 (de acuerdo a la tabla de la distribucin
normal) a la derecha de la media y de 1.96 a la izquierda, como se puede
apreciar en la siguiente grfica:
Intervalo de confianza para grandes muestras
; X 1.96
X 1.96
n
n
103
X 1.96
n
Si la poblacin es finita o si se muestrea sin reemplazamiento una poblacin finita,
la relacin es la siguiente:
X Z
N n
N 1
Ecuacin No.35
Recuerde que Z depende del nivel de confianza que se fije y que si la desviacin
estndar poblacional es desconocida, se utiliza como estima la desviacin
muestral (S).
Podr darse cuenta las semejanzas con los procedimientos utilizados para las
pruebas de hiptesis, vistas anteriormente para pruebas unilaterales y bilaterales.
Ejemplo
El contenido de protenas de una muestra de 100 pollos criados en una
determinada granja dio una media de 20.2 gramos con una desviacin estndar
de 1.14 gramos. Obtener el intervalo de confianza del 99% para el contenido
medio de protena de todos los pollos de la granja.
Como el intervalo de confianza se distribuye simtricamente a los dos lados de la
media, en este caso a cada lado le corresponde una probabilidad de 0.495 (0.99/2
= 0.495). El valor de Z asociado a una probabilidad de 0.995 es 2.58.
El intervalo para la media ser:
S
1.14
X Z
20.2 2.58
20.2 0.294
n
100
El contenido medio de protena de toda la poblacin de pollos de la granja est
dentro de un intervalo de 19.91 y 20.49 gramos con un nivel de confianza del 99%,
y se expresa de la siguiente forma:
P19.91 20.49 0.99
104
Ejemplo
Se toma una muestra al azar de 40 vasos de kumis de un lote de 500, dieron un
promedio de 76 caloras por cada 100 gramos con una desviacin estndar 2.9
caloras. Obtener el intervalo de confianza del 95% para el contenido medio de
caloras para todo el lote.
Ntese que se trata de una poblacin finita y muestreo sin reemplazamiento. El
valor de Z asociado a un nivel de confianza del 95% es 1.96 (0.95/2 = 0.475) de
acuerdo a la tabla de la distribucin normal.
El intervalo de confianza en este caso est dado por:
N n
2.9 500 40
X Z
76
76 0.87
499
n N 1
40
Por tanto el contenido medio de caloras del lote esta dentro del intervalo de 75.13
y 76.87 caloras con un 95% de nivel de confianza, y expresado matemticamente
es:
13.2.
12
n1
22
n2
Ecuacin No.36
X1 .
105
X1 X 2 Z
12 22
0.082 0.062
n1 n2
50
40
14.
Las proporciones.
PZ
PQ
n
Ecuacin No.37
PZ
PQ
N n
N 1
Ecuacin No.38
106
Ejemplo
De un lote de 500 frascos de jugo se extrae una muestra de 50 frascos de los
cuales 43 cumplen con las especificaciones exigidas y 7 fueron rechazados. Hallar
el intervalo de confianza del 95% para la proporcin de frascos de jugo aceptados
del lote de estudio.
Para un nivel de confianza de 95% el valor de Z = 1.96 (tabla de distribucin
normal)
Aplicando la frmula se tiene:
PZ
PQ
n
N n
43
1.96
N 1
50
0.86 1.96
43501 4350
50
500 50
500 1
(0.86)(0.14) 450
50
499
Con un nivel de confianza del 95% la proporcin de frascos aceptados fue de 0.77
y 0.95, es decir el nivel de aceptacin est entre 380 y 480 frascos de lujo de un
lote de 500 frascos
14.2.
p1q1 p2 q2
n1
n2
Ecuacin No.39
107
99% para la diferencia entre las proporciones de los quesos A y B que salen al
mercado y se venden.
Aplicando la frmula de la diferencia de proporciones se tiene:
P1 P2 Z
p1q1 p2 q2
380 333
500 500 450 450
2.58
n1
n2
500 450
500
450
(0.76)(0.24 (0.74)(0.26)
0.02 0.073
500
450
Por lo cual es de esperar con un nivel de confianza del 99% que la verdadera
diferencia de proporcin de venta de los quesos A y B se encuentre entre 0.053 y
0.093. La diferencia de proporcin negativa del lmite inferior del intervalo indica
que en esta regin la diferencia est a favor del queso B cuya proporcin de venta
es menor en las muestras estudiadas.
108
tal que:
02.975
n 1S 2
02.025
Esta ecuacin define un estimado de intervalo, porque el 95% de todos los valores
posibles de
n 1S 2
2
se encuentran en el intervalo de 0,975 a 02.025 .
1 0,95
2(0,975) =8,90
38
36
34
32
30
28
26
24
22
20
18
16
14
/2 =0,025
12
10
/2= 0,025
0,001
0,08
0,07
0,06
0,05
0,04
0,03
0,02
0,01
0
2(0,025) =32,85
02.975
n 1S 2
2
n 1S 2
02.975
n 1S 2
02.025
109
n 1S 2
02.025
n 1S 2
02.025
n 1S 2
02.975
20 10.0025 2 20 10.0025
32,8523
8,90655
n 1S 2
2
n 1S 2
21
2
Ecuacin No.40
110
EJERCICIOS COMPLEMENTARIOS
1. Una investigacin efectuada a 400 familias de clase medias, revel que un
62% de sus ingresos anuales son utilizados para servicios de salud.
Determinar los lmites de confianza del 99%
111
REFERENTES
112
113
Sitios Web
http://ice.unizar.es/uzinnova/jornadas/pdf/95.pdf
http://www.fcnym.unlp.edu.ar/catedras/estadistica/programa2002.html#2
http://aprendeenlinea.udea.edu.co/lms/moodle/mod/resource/view.php?inpopup=tr
ue&id=3
http://aprendeenlinea.udea.edu.co/portal/
http://egkafati.bligoo.com/content/view/182409/Del_como_y_porque_ensenar_esta
distica.html
http://metro40.edv.uniovi.es/metroweb/charlas/Estadistica.pdf
http://www.uned.es/experto-metodos-avanzados/
http://aprendeenlinea.udea.edu.co/lms/moodle/course/view.php?id=322
http://server2.southlink.com.ar/vap/PROBABILIDAD.htm
http://es.wikipedia.org/wiki/Probabilidad
http://www.terra.es/personal2/jpb00000/pprobjunio99.htm
http://www.fvet.edu.uy/estadis/probabilidad.htm
http://thales.cica.es/rd/Recursos/rd98/Matematicas/28/matematicas-28.html
http://www.aulafacil.com/CursoEstadistica/CursoEstadistica.htm
http://www.uantof.cl/facultades/csbasicas/Matematicas/academicos/emartinez/Esta
distica/index.html
IBAGU
FEBRERO 2013
COMITE DIRECTIVO
Jaime Alberto Leal Afanador
Rector
Gloria Herrera
Vicerrector de Medios y mediaciones Pedaggicos
Inferencia Estadstica
Tercera Versin
Actualizacin por Jeammy Julieth Sierra Hernndez
ISBN
2012
Unidad de Ciencias Bsicas UNAD
CAMPOS DE
Bsica CRDITOS: 2 TRABAJO INDEPENDIENTE: 72
TIPO
DE
CURSO
Terico CDIGO:100403 ACOMPAAMIENTO
TUTORIAL: 24
FORMACIN
Horas
Horas
OBJETIVO GENERAL:
Que el estudiante comprenda, aplique y desarrolle la teora y las tcnicas de la
inferencia estadstica en diversos campos de su saber formativo, y que dicha
aplicacin se convierta en una herramienta de uso matemtico para la toma de
decisiones sobre hiptesis cuantitativas de datos, basado en la informacin
extrada de una muestra.
OBJETIVOS ESPECFICOS:
Que el estudiante identifique las tcnicas y procedimientos que se
deben emplear para que las muestras sean representativas de la poblacin
que se pretende estudiar, de forma que los errores en la determinacin de
los parmetros de la poblacin objeto de estudio sean mnimos.
Que el estudiante comprenda el comportamiento de una poblacin a
partir del anlisis metdico de una muestra aleatoria de la misma, y que
entienda que la inferencia inductiva de los parmetros estadsticos que
estime sobre dicha muestra, conlleva un error, el cual es posible de ser
cuantificado.
Conocer los criterios tcnicos que hay que tener en cuenta antes
de seleccionar un tamao de muestra.
Identificar el tipo de muestreo de acuerdo a los objetivos del estudio.
Diferenciar y analizar las ventajas y desventajas de la estimacin
por intervalos de confianza y las pruebas de hiptesis.
Determinar la prueba o tcnica apropiada a aplicar en las diferentes
pruebas de hiptesis paramtricas y No paramtricas.
COMPETENCIA GENERAL DE APRENDIZAJE:
Identificar un procedimiento adecuado para seleccionar de una poblacin una
parte de ella, con el fin de obtener resultados confiables y poder generalizar los
resultados obtenidos a toda la poblacin.
Determinar los estadsticos necesarios para el anlisis y solucin de situaciones
que implican conjuntos de datos de su disciplina de formacin, por medio del
UNIDADES DIDCTICAS
UNIDAD DOS:......................................................................................................................................... 6
PRUEBA DE HIPTESIS, ANLISIS DE VARIANZAS Y ESTADSTICAS NO PARAMTRICAS ..................... 6
CAPITULO CUATRO: PRUEBAS DE HIPTESIS ................................................................................... 7
Leccin 16: Conceptos Bsicos ..................................................................................................... 8
Leccin 17: Pruebas para la Media y la Diferencia de medias con grandes muestras. ............. 14
Leccin 18: Pruebas para la proporcin y la Diferencia de proporciones (siempre con grandes
muestras)..................................................................................................................................... 26
Leccin 19: Pruebas para la media y la diferencia de medias (muestras pequeas). ............... 34
Leccin 20: Pruebas para la varianza.......................................................................................... 44
CAPITULO CINCO: ANLISIS DE VARIANZA .................................................................................... 47
Leccin 21: Generalidades .......................................................................................................... 49
Leccin 22. Anlisis de Varianza de un Factor ............................................................................ 50
Leccin 23. Comparacin Mltiple de Medias (Pruebas a Posteriori) .................................. 60
Leccin 24. Anlisis de varianza con dos factores (diseo de bloques aleatorizados). ........... 61
Leccin 25. Anlisis de varianza de dos factores con interaccin. (Diseo factorial). ............. 66
CAPITULO SEIS: PRUEBAS NO PARAMETRICAS .............................................................................. 80
Leccin 26. Generalidades .......................................................................................................... 82
Leccin 27. Prueba de Bondad de Ajuste de Ji-cuadrado
................................................... 83
UNIDAD DOS:
PRUEBA DE HIPTESIS, ANLISIS DE VARIANZAS Y
ESTADSTICAS NO PARAMTRICAS
Objetivo general.
Contrastar la validez de una hiptesis o conjetura que se haya planteado en
relacin con una situacin determinada de la empresa, analizando errores
estadsticos posibles en las pruebas de hiptesis
Objetivos especficos.
10
*Meias
*Diferencia de Medias
*Medias
*Proporciones
*Diferencia de Proporciones
*Diferencia de Medias
Varianza
11
DECISIN SOBRE Ho
VERDADERA
FALSA
Aceptar H0
Correcta
Rechazar H0
Error tipo I
Nivel de significancia
Error tipo II
Correcta 1
Potencia de la prueba
Cuando se tiene una hiptesis esta puede ser verdadera o falsa y la decisin que
se toma en la prueba es aceptar o rechazar la hiptesis. Si la decisin que se
toma est de acuerdo con la realidad no se cometen errores, en este caso las
dos buenas decisiones son: aceptar la hiptesis nula cuando es cierta o rechazar
la hiptesis nula cuando es falsa.
Pero cuando la decisin no est de acuerdo con la realidad se pueden comete r
dos tipos de errores vistos anteriormente: rechazar la hiptesis nula cuando en
realidad es cierta, llamado error tipo I representado por alfa ( ); aceptar la
hiptesis nula cuando en realidad es falso, llamado error tipo II representado por
beta ( ), llamados tambin nivel de significancia. El procedimiento utilizado
consiste en limitarlos a un nivel preestablecido pequeo, generalmente 0.01
0.05. Este planteamiento se le denomina la potencia de la prueba y se
representa as:
Probabilidad de cometer el error tipo I
Probabilidad de rechazar Ho cuando es verdadera.
Probabilidad de NO cometer el error tipo I
(1 - ) Probabilidad de acertar la Ho cuando es verdadera.
Probabilidad de cometer el error tipo II
Probabilidad de aceptar Ho cuando es falsa.
Probabilidad de NO cometer el error tipo II
(1 - ) Probabilidad de rechazar Ho cuando es falsa.
Toda prueba de hiptesis determina una regin de rechazo de la hiptesis
llamada regin crtica, la cual depende del tipo de hiptesis que se pruebe y se
determina utilizando un nivel de significancia .
12
13
Prueba de hiptesis:
<
Ho
Verdadera)
Probabilidad
1
/2
/2
valor crtico
Regin de rechazo
Valor crtico
Regin de aceptacin
Regin de rechazo
14
Probabilidad
Ho
(Verdadera)
Valor crtico
Regin de rechazo
Regin de aceptacin
Probabilidad
Ho
(verdadera)
Valor crtico
Regin de aceptacin
Regin de rechazo
17.1.1.
15
H 0 : 0
H1 : 0
Estadstico de prueba para desviacin estndar poblacional conocida:
Ecuacin No.1
Rechazar H0 si z -Z o si Z Z
2
Ejemplo
La empresa coca cola ha establecido como poltica general para su produccin en
pequea escala, un promedio ( ) de llenado para sus envases de 200
centmetros cbicos con una desviacin estndar ( ) de 16 centmetros cbicos.
Dado que recientemente se han contratado y diseado nuevos mtodos de
produccin, utilizando un nivel de significancia del 0.01, se desea probar la
hiptesis, que el promedio de llenado sigue siendo de 200 centmetros cbicos.
Para tal efecto se tom una muestra de 100 envases llenos, los cuales mostraron
una media de llenado de 203.5 centmetros cbicos.
16
) es
17
17.1.2.
18
Con anterioridad de dijo que la hiptesis alternativa indica una direccin ya sea
mayor que o menor que, la prueba es de una cola. El procedimiento para
demostrar la hiptesis es por lo general igual a la prueba de dos colas, excepto
que el valor crtico es diferente. Ahora se modificar la hiptesis alternativa del
problema anterior, sobre el llenado de los envases de una factora de coca cola,
pues se sospecha que el promedio de llenado est por encima de lo que la
empresa determina (por eso en la hiptesis alterna se plantea una relacin mayor
que).
Paso 1: Planteamiento de hiptesis
H 0 : 200
H1 : 200
Prueba de
hiptesis para la
media (unilateral)
19
Probabilidad
Ho (verdadera)
200
|2.33
Escala Z
Regin de rechazo
Regin de aceptacin
la
media
(desconocida
la
desviacin
estndar
Ecuacin No.2
Ejemplo
Una cadena grande de almacenes expide su propia tarjeta de crdito y Ud. desea
saber si los saldos promedios por crditos de los clientes son mayores que 400
unidades monetarias. El nivel de significancia se fija en 0.05. Una revisin
aleatoria de 172 clientes, revel que el promedio por crdito de los clientes es de
407 unidades monetarias y la desviacin estndar de la muestra es de 38
20
unidades monetarias. Concluye UD. que la media poblacional es mayor que 400
unidades monetarias?
Paso 1: Planteamiento de hiptesis
H 0 : 400
H1 : 400
Dado que la hiptesis alternativa se enuncia mayor que, se aplica una cola a la
derecha, y como la muestra es grande (n >= 30), se aplica la distribucin normal
estandarizada en Z.
Paso 2: Nivel de significancia
El nivel de significancia se fija en 0.05
Paso 3: Estadstico de prueba (o calculado)
Z
X 407 400
2.42
S
38
n
172
Probabilidad
Ho (verdadera)
1- =0,95
= 0,05
200
|1,645
Regin de aceptacin
Unidades
monetarias de
crdito
Escala Z
|2.42
Regin de rechazo
21
) (
2
1
1
2
2
2
Ecuacin No.3
Ejemplo
Una obra de construccin requiere un gran nmero de bloques de concreto. Dos
empresas abastecedoras A y B licitan para su adjudicacin, y dentro del pliego de
condiciones se estipula que la resistencia mnima es de 1.000 unidades mtricas a
la resistencia, y el contrato se adjudicar a la empresa que mayor resistencia
presente su producto.
Paso 1: Planteamiento de hiptesis
Se plantea la hiptesis nula (Ho) que no existe diferencia entre las resistencias
medias a la compresin de los bloques de concreto. La hiptesis alternativa se
plantea en trminos que hay alguna diferencia significativa entre las dos
resistencias medias a la compresin. Simblicamente se expresa as:
22
H0 : A B
H1 : A B
Dado que la hiptesis alternativa no indica una direccin especfica, la prueba es
de dos colas
Paso 2: Nivel de significancia
Se elige un nivel de significancia de 0.01. Esto equivale a cometer un error de tipo
I. Se usar una distribucin normal estandarizada en Z, razn por la cual se debe
seleccionar una muestra que al menos contenga como mnimo 30 unidades de
bloque, cada una de las empresas licitantes.
2
2
2
Ecuacin No.4
Suponga que Ud. Seleccion una muestra de cada una de las empresas licitantes
y determin la resistencia a la compresin, con los siguientes resultados:
Tabla No.2 Resultados de muestra
Licitante A
Licitante B
= 1.070
X = 1.020
n = 81
n = 64
S = 63
S = 57
X1 X 2
S12 S 22
n1 n2
1.070 1.020
632 572
81
64
50
5.01
9.98827
23
Probabilidad
Ho (Verdadera)
0.01/2= 0.005
0.01/2=0.005
Resistencia ladrillos
|2.58
Regin de aceptacin
|5.01
Regin de rechazo
(1 2 )( 1 2 )
2
1
1
Ecuacin No.5
2
2
2
Si
<
Recuerde que
<
24
entonces No se rechaza
Ejemplo
15
< 15
25
Comunidad 1
Comunidad 2
4
34 6
24
(35
2
1
1
2
2
2
346
18
) 15
24
4
1 195
Probabilidad
Ho
(Verdadera)
= 0.05
-1.195|
Regin de aceptacin
26
27
PP
P(1 P)
n
Ecuacin No.6
Dnde:
es la proporcin muestral.
es la proporcin poblacional.
es el tamao de la muestra.
X n p
n p q
Ecuacin No.7
Dnde:
X
P
Ejemplo
Suponga que para que lo elijan a Ud. como alcalde, es necesario que logre al
menos el 80% de los votos del barrio donde vive. Dado su inters decide hacer
una encuesta en el barrio con una muestra de 2.000 personas, para ver la
posibilidad y 1.550 dieron respuesta favorable por sus aspiraciones. Pruebe la
hiptesis de favorabilidad, con un nivel de significancia del 0.05.
Antes de realizar el procedimiento de los cinco pasos, veamos si cumple la
condicin de:
(n)(p)>5
(2.000)(0.8)>5 1.600>5
Cierto
(n)(1-p)>5
(2.000)(0.2)>5 400>5
Cierto
28
Ho : P 0.80
H1 : P 0.80
Paso 2: Nivel de significancia
La distribucin de probabilidad a utilizar es la normal estandarizada en Z, con un
nivel de significancia del 5%, con una cola a la izquierda.
Paso 3: Estadstico de prueba (o calculado)
PP
P(1 P)
n
Dnde:
es la proporcin muestral.
es la proporcin poblacional.
es el tamao de la muestra.
P(1 P)
P
n
PP
P(1 P)
n
1.550
0.80
0.775 0.80
0.025
2.000
2.80
0.0089443
0.80(1 0.80)
0.00008
2.000
29
Ejemplo
Probar al nivel de significancia del 0.01 la aseveracin que el 55% de las familias
que planean adquirir una residencia en Melgar desea su ubicacin en un
condominio. Para su estudio Ud. toma una muestra aleatoria de 400 familias que
planean comprar una residencia en Melgar, de las cuales 228 familias desean en
un condominio.
Paso 1: Planteamiento de hiptesis
La hiptesis nula se plantea diciendo que el 55% de las familias desean adquirir
residencia en un condominio en Melgar.
Ho : P 0.55
H1 : P 0.55
Paso 2: Nivel de significancia
La distribucin de probabilidad a utilizar es la normal estandarizada en Z, con un
nivel de significancia del 1%, con dos colas.
30
PP
P(1 P)
n
0.55
0.02
400
0.80
0.55(1 0.55) 0.0248747
400
280
( P1 P2 ) P1 P2
PC (1 PC ) PC (1 PC )
n1
n2
Ecuacin No.8
31
Dnde:
PC
X1 X 2
Es la media ponderada de las proporciones muestrales.
n1 n2
X1
X2
Ejemplo
Una fbrica de perfumes ha desarrollado un nuevo producto. Varias pruebas de
comparacin indican que el perfume tiene un buen potencial en el mercado. Sin
embargo el departamento de mercadotecnia y publicidad quieren planear una
estrategia de manera que el producto llegue e impresione al sector ms grande
posible del pblico comprador. Una de las preguntas es si prefiera el perfume una
proporcin mayor de mujeres jvenes o una proporcin mayor de mujeres
maduras. Por tanto, existen dos poblaciones: una que consta de mujeres jvenes
y otra de damas maduras. Se us una prueba estndar de aroma. Se
seleccionaron aleatoriamente damas y se les pidi que olieran varios perfumes,
incluyendo el que suelen usar, y por supuesto el nuevo perfume. La persona que
realiza la prueba es la nica que conoce el nombre de los perfumes. Cada mujer
selecciona el perfume que le agrada ms.
Paso 1: Planteamiento de hiptesis
La hiptesis nula se plantea diciendo que no hay diferencia entre la proporcin de
mujeres jvenes y maduras que prefieren el nuevo perfume. La hiptesis
alternativa se plantea que las dos proporciones no son iguales.
Ho : P1 P2
H1 : P1 P2
Se designa P subuno como la proporcin de mujeres jvenes y P subdos como la
proporcin de mujeres maduras.
Paso 2: Nivel de significancia
Se decidi un nivel de significancia del 0.05.
32
PC
X1 X 2
20 100 120
0.40
n1 n2
100 200 300
P1 P2
PC (1 PC ) PC (1 PC )
n1
n2
20
100
0.30
100
200
5.0
0.06
0.40(1 0.40) 0.40(1 0.40)
100
200
33
Ejemplo
Dos lotes de frutas conformados cada uno por 250 unidades son tratados y
almacenados en iguales condiciones salvo que el lote No 1 est a temperatura
ligeramente inferior que el lote No 2. Pasado un tiempo se encuentra que el lote
No 1 hay 225 frutas sanas y en el lote No 2 hay 200 sanas. Probar la hiptesis que
la temperatura ms baja favorece la conservacin de las frutas al nivel de
significacin de 0.05.
Paso 1: Planteamiento de hiptesis
Ho : P1 P2
H1 : P1 P2
Paso 2: Nivel de significancia
Utilizando la distribucin de probabilidad normal con ensayo unilateral a la derecha
con un nivel significativo de 0.05, el valor critico es de 1.645.
Paso 3: Estadstico de prueba (o calculado)
Z
P1 P2
PC (1 PC ) PC (1 PC )
n1
n2
PC
0.90 0.80
0.10
3.13
0.0319
(0.85)(0.15) (0.85)(0.15)
250
250
X 1 X 2 225 200
0.85
n1 n2
250 250
34
Ahora veamos el caso en que las muestras son pequeas, n 30 , pero donde la
distribucin muestral del estadstico de prueba se puede aproximar a una
distribucin t student. Dicha aproximacin es posible cuando los valores
subyacentes de la poblacin son casi normalmente distribuidos, y cuando
intervienen poblaciones donde las desviaciones estndar, aunque desconocidas,
se sabe que son iguales. Habiendo estudiado pruebas para muestras grandes con
todo detalle, podemos restringirnos a ejemplos en donde se aplique este tipo de
distribucin.
19.1. Prueba para media (pequea muestra)
Si tambin es razonable suponer que la poblacin tiene una distribucin normal de
probabilidad, con la distribucin t se puede hacer inferencia a cerca del valor de la
media de la poblacin.
Ejemplo
Una compaa de seguros revela que en promedio la investigacin por demandas
en accidentes y todos los trmites tiene un costo promedio de 60 unidades
monetarias. Este costo se considera exagerado comparado con el de otras
compaas del mismo tipo. A fin de evaluar el costo se seleccion una muestra
aleatoria de 26 demandas recientes y se realiz el estudio de costos. Se concluy
que el costo promedio es de 57 unidades monetaria con una desviacin estndar
de 10 unidades monetarias. Con un nivel de significancia del 0.01 se puede decir
que el estudio revel un costo menor al establecido por la empresa?
35
H 0 : 60
H 1 : 60
La prueba es de una cola a la izquierda, segn el planteamiento de la hiptesis
alternativa.
Paso 2: Nivel de significancia
Se usa un nivel de significancia del 0.01 con una distribucin t, en consideracin
a que la muestra en menor a 30, es decir, es una pequea muestra.
Paso 3: Estadstico de prueba (o calculado)
Utilizando los datos de la muestra, se utiliza la siguiente frmula como estadstico
de prueba:
X 57 60
1.530
S
10
n
26
36
un nivel del 1% de significancia, se concluye que los costos para los tramites de
seguros de accidente no se han disminuido y se mantiene a un nivel promedio de
costo de 60 unidades monetarias.
Ejemplo
Una empresa produce elementos con un promedio de 43 mm de largo. Un ajuste
en las mquinas de produccin supone que dicho estndar ha cambiado. Se
quiere probar sta hiptesis con un nivel de significancia del 0.02.
Para afrontar el problema Ud. selecciona una muestra aleatoria de 12 elementos y
procede a medir su largor con los siguientes resultados:
Tabla No. 4. Seleccin muestra aleatoria
Elemento 1
10
11
12
Medida
39
42
45
43
40
39
41
40
42
43
42
42
H 0 : 43
H1 : 43
37
X
S
n
X
X
n
X X
498
41.5
12
n 1
35
1.78
11
X 41.5 43.0
2.92
S
1.78
n
12
38
( X 1 X 2 ) 1 2
S12 n1 1 S 22 n2 1 1 1
n1 n2 2
n1 n2
Ecuacin No.9
Dnde:
X1 y X 2
Ejemplo
Se ha propuesto realizar un examen de estadstica a dos grupos de estudiantes,
con el propsito de saber si los grupos tienen similares conocimientos sobre
pruebas de hiptesis. Para ello Ud. seleccion el grupo A compuesto de 5
39
Educacin a distancia
2
Educacin presencial
3
4
3
Ho : 1 2
H1 : 1 2
La hiptesis nula consistente en que los dos grupos no tienen alguna diferencia en
la habilidad de conocimiento, y la hiptesis alternativa en que existe diferencia
entre los grupos sobre la habilidad en la aplicacin de los conocimientos.
Paso 2: Nivel de significancia
Prueba la hiptesis con un nivel de significancia del 10%, utilizando la distribucin
t student porque las muestras son menores que 30, con 9 grados de libertad (5+6
2) y prueba de dos colas porque la hiptesis alternativa est planteada en
funcin de diferente.
Paso 3: Estadstico de prueba (o calculado)
Para el clculo del estadstico de prueba se requiere estimar las medias de los
grupos y sus varianzas, los cuales se presentan en el siguiente cuadro:
40
Grupo presencial
Media = 4
Media = 5
Varianza = 8.5
Varianza = 4.4
Muestra = 5
Muestra = 6
X1 X 2
2
1
n1 1 S n2
2
2
n1 n2 2
1 1
1
n2
n1
45
1
8.55 1 4.46 1 1
562
0.6620
Grfico No. 15. Prueba Bilateral (a dos colas). Diferencia de dos medias
41
128
105
119
140
98
123
127
115
122
145
Despus 135
110
131
142
105
130
131
110
125
149
En estas condiciones hay un par de ndices de eficiencia para cada miembro del
grupo, antes y despus del curso,; ste conjunto de pares es lo que se denomina
muestra por pares. La prueba de hiptesis que se realiza para determinar si hay
diferencia entre los ndices antes y despus del curso de nivelacin, es lo que
denomina prueba de diferencia por pares. Obsrvese que las dos muestras, una
antes y una despus, dependen entre s, debido a que los mismos alumnos estn
en ambas pruebas, por tanto son dependientes.
La muestra est constituida por la diferencia entre los registros de puntuacin
antes y despus del programa. As, la media de las diferencias entre los registros
de rendimiento, se designa mediante d . Se presenta a continuacin el
procedimiento de la prueba:
Ho : d 0
H1 : d 0
La hiptesis nula plantea que no hay diferencia de eficiencia despus del curso. La
hiptesis alternativa plantea que el programa de nivelacin mejor el nivel de los
estudiantes.
42
d
Sd
n
Ecuacin No.10
Dnde:
d : es la media de la diferencia entre las observaciones por pares.
observaciones por
pares.
n: es el nmero de observaciones por pares.
G.L: son los grados de libertad (n 1)
Para determinar el clculo del estadstico de prueba se requiere conocer la media
de las diferencias y su desviacin estndar, para lo cual procedemos a su clculo
utilizando el siguiente cuadro:
Tabla No. 7. Calculo estadstico sobre diferencia de medias
Muestra
1
2
3
4
5
6
7
8
9
10
Sumas
Registro
antes
128
105
119
140
98
123
127
115
122
145
Registro
despus
135
110
131
142
105
130
131
110
125
149
Diferencia
d
7
5
12
2
7
7
4
-5
3
4
46
Diferencia al
cuadrado
49
25
144
4
49
49
16
25
9
16
386
43
d 46 4.60
n
10
d
d n
Sd
n 1
386
462
10
10 1
4.40
d
4.6
3.30
Sd
4.4
n
10
Grfico No. 16. Prueba unilateral superior (cola derecha). Prueba de hiptesis por pares
44
Ejemplo
La tasa media de rendimiento de dos tipos de acciones se puede apreciar en el
siguiente cuadro, se desea saber si el rendimiento promedio es diferente a un nivel
de significancia del 0.10.
Tabla No. 8. Tasa de rendimiento de las acciones
Acciones
Rendimiento
promedio
Desviacin
estndar
Tamao de la
muestra
Tipo A
56
12
Tipo B
58
45
hiptesis alternativa.
Paso 2: Nivel de significancia
Se selecciona un nivel de significancia de 0.01 utilizando la distribucin F.
Paso 3: Estadstico de prueba (o calculado)
El valor del estadstico de prueba sigue una distribucin F, con la siguiente
relacin:
S12 122
F 2 2 5.76
S2
5
Se acostumbra a colocar el mayor valor en el numerador, de tal forma que la
relacin siempre ser por lo menos igual a uno.
Paso 4: Estadstico terico (o tabulado) y regla de decisin
El valor crtico se obtiene del Anexo F, para lo cual se reproduce una parte de la
tabla. Debido a que utiliza una prueba de dos colas, el nivel de significancia para
cada cola ser de:
0.10 0.05
.
2
2
Grados de libertad para el numerador: n 1 = 7-1 = 6
Grados de libertad para el denominador: n 1 = 8 1 = 7
Para encontrar el valor crtico, se incorpora parte de la tabla F:
230
19.3
9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33
234
19.3
8.94
6.16
4.95
4.28
3.87
3.58
3.37
3.22
2.7
19.4
8.89
6.09
4.88
4.21
3.79
3.50
3.29
3.14
239
19.4
8.85
6.04
4.82
4.15
3.73
3.44
3.23
3.07
46
Ejercicios propuestos
A continuacin se proponen dos ejercicios para que los desarrolle aplicando las
sugerencias propuestas:
1. Se lanza una moneda 200 veces y se obtienen 105 caras. Si el nivel de
significancia es de 1% probar la hiptesis que la probabilidad de caras es de
contra la hiptesis:
a.
b.
c.
Que es mayor de .
Que es menor de .
Que es diferente de .
np 200 1 2 100
n p q 2001 2 1 2 7.07
X n p
n p q
X
S
n
47
ANALISIS DE
VARANIZA
De un Factor
De dos Factores
Con interaccin
48
Objetivo general.
Reconocer la importancia principios en que se basa y campos de aplicacin de la
tcnica de Anlisis de Varianza.
Objetivos especficos.
Comprender la nocin general del anlisis de varianza.
Realizar una prueba de hiptesis para determinar si dos varianzas
muestrales provienen de poblaciones iguales.
Probar e interpretar hiptesis aplicando el anlisis simple de varianza.
Establecer y organizar datos en una tabla de ANOVA de una y de dos
direcciones.
Plantear, probar e interpretar hiptesis de anlisis de varianza de dos
factores de diseo de bloque aleatorizado.
Plantear, probar e interpretar hiptesis de anlisis de varianza de dos
factores con interaccin o diseo de factorial.
Definir los trminos tratamientos y bloques.
Dar a conocer el manejo de la herramienta de Anlisis de varianza en
Excel.
49
21.
Del anlisis de varianza, podemos decir que esta tcnica estadstica normalmente
es utilizada para analizar resultados en la investigacin con diseos
experimentales y cuasi-experimentales; muchas veces necesitamos comparar dos
o ms distribuciones que corresponden a variaciones de una misma variable
dependiente, afectada por una o ms variables independientes.
Ejemplo
50
51
Nivel1
X11
X21
.
.
.
Xi1
Nivel 2
X12
X22
.
.
.
Xi2
Nivel j
X1j
X2j
.
.
.
Xij
52
X iJ i ij
Ecuacin No.11
Dnde:
Es la i-sima observacin del j-simo nivel experimental.
La media de todas las observaciones de todas las poblaciones j del tratamiento. Es
una constante.
Efecto del tratamiento en la poblacin j. Son variables aleatorias independientes.
Error aleatorio asociado a la i-sima observacin del factor de la poblacin j
i J .
Ecuacin No.12
J 1
J 1
J 1
i J J J 0
Ecuacin No.13
iJ X ij j
Ecuacin No.14
53
nj
X
j 1 i 1
ij
nt
Ecuacin No.15
Dnde: nt n1 n2 ... nK
nj
X ij
j 1 i 1
nt
nj
X ij
j 1 i 1
X
j 1
Ecuacin No.16
En otras palabras, cuando los tamaos de muestra son iguales, la media general
muestral es justamente el promedio de las medias de las K muestras.
54
55
Ejemplo 1
Suponga que una empresa tiene tres dependencias diferentes en donde produce
tubos de iluminacin, y desea verificar el control de calidad en cuanto a duracin
se refiere de las bombillas, y para ello toma una muestra de 6 unidades de cada
factora y las somete a desgaste hasta que dejan de iluminar con los siguientes
resultados en horas:
34
20
32
5.83
4.47
5.66
18
474
444
396
1314
2
J
S
SJ
nJ
n
X
J !
iJ
X
J 1
nJ
79 74 66 219
73
18
3
Se observa que se obtienen las medias para cada tratamiento (79, 74 y 66) y una
media general (73). Para llevar a cabo la prueba de la igualdad de las medias de
la poblacin, se subdivide la variacin total en dos mediciones:
Diferencia entre los grupos.
Diferencia dentro de los grupos.
La varianza de la muestra total se particiona en la varianza dentro de las plantas y
la varianza entre las plantas, tal como se indica en el siguiente grfico:
Variacin
Total (VT)
Variacin Dentro
del Grupo (VDG)
Variacin Entre
Grupo (VEG)
VT X ij X
j 1 i 1
J 1
i 1
Ecuacin No.17
VT
56
ij
85 73 75 73 ... 71 73 75 73 ...
2
VDG X ij X j
j 1 i 1
Ecuacin No.18
VEG n j X j X
j 1
VEG n6 X X
J 1
Ecuacin No.19
57
siguiente cuadro:
Tabla No. 12. Componentes del anlisis de varianza
Variacin
Entre tratamiento
Suma cuadrados
K
n
j 1
Dentro o error
X
k
X
j 1 i 1
Total
X j
ij
j 1 i 1
ij
Grados libertad
(K-1)
Cuadrado medio
(n-K)
VDT
B
n k
(n-1)
VT
n 1
Distribucin F
VET
A
K 1
A
B
Suma cuadrados
Entre
tratamiento
516
Grados
libertad
(K-1)= 2
Dentro o error
430
(n-K)=15
Total
946
(n-1)=17
Cuadrado
medio
Distribucin
F
516
258.00
2
430
28.67
15
258
8.99
28.67
Rechaza H0 si
A
Valor crtico
B
Para el caso la relacin es igual a 8.99 mayor que el valor crtico 3.68, entonces se
tienen pruebas suficientes para rechazar la hiptesis nula consistente en que las
58
Altura
Especie
Altura
8.52
8.52
8.13
6.45
6.43
7.17
7.41
6.21
8.40
7.15
7.07
8.87
8.73
8.83
6.12
7.55
8.53
8.91
6.54
7.84
8.81
7.74
8.59
7.40
8.65
7.41
8.19
8.81
8.94
8.56
59
Sumas
Promedio
Observaciones
6.45
8.73
8.52
8.83
8.53
8.94
8.40
8.91
8.19
8.56
84.06
8.406
10
42.56
7.093
6
7.41
8.65
8.81
8.59
8.87
8.81
7.55
7.74
7.84
7.41
7.40
6.54
7.07
7.17
51.14
8.523
6
37.94
7.588
5
20.78
6.926
3
236.48
7.707
30
Gran media =
nj
ij
j 1 i 1
nt
8.52 7.15 ... 6.45 8.76 ... 7.41 8.65 ... .... 236.48
7.882666
30
30
X
k
j 1 i 1
8.52 7.88 ... 6.12 7.88 ... 7.07 7.88 7.17 7.88
2
ij
24.0741867
X
k
j 1 i 1
X j
ij
8.52 7.09 ... 6.45 8.406 ... 7.41 8.523 .... 7.17 6.926
11.9584533
60
n
j 1
12.1157333
Suma cuadrados
12.1157333
11.9584533
24.0741867
Grados libertad
(K-1)= 4
(n-K)=25
(n-1)=29
Cuadrado medio
3.0289
0.4783
Distribucin F
6.332
Leccin 23.
Posteriori)
Las pruebas "a posteriori" son un conjunto de pruebas para probar todas las
posibles medias que podra ser diferente al rechazar la hiptesis.
Existen varias, (Duncan, Newman-Keuls, LSD): todas ellas muy parecidas. Usan el
rango (diferencia entre medias) de todos los pares de muestras como estadstico y
dicho rango debe superar un cierto valor llamado mnimo rango significativo para
considerar la diferencia significativa.
La principal diferencia con respecto a la t-student radica en que usan MSE como
estimador de la varianza, es decir un estimador basado en todas las muestras.
61
X ijK i j ijk
Ecuacin No.20
Dnde:
VEF c X i. X
i 11
Error de
muestreo, E
VE X ij X . j X i. X
Total, T
VT X ij X
j 1 i 1
VEC r X . j X
j 1
r
j 1 i 1
r 1
Grados
de Media cuadrtica, Relacin F
Libertad, gl
MC
MCA
VEC
c 1
F
MCA
MCE
c 1
r 1c 1
rc 1
MCB
VEF
r 1
MCE
VE
r 1c 1
MCB
MCE
62
X
j 1 i 1
ij
Suponga que existen cuatro parcelas diferentes las cuales son sometidas
sucesivamente a seis tipos de insumos y se piensa que la produccin es afectada
por el tipo de insumo y mantenimiento a que es sometida. Se desea probar los
diferentes tratamientos afectan la produccin por parcela, y la produccin es la
siguiente:
Tabla No. 19. Rendimientos en kilos por parcela
Tratamiento
RENDIMIENTO EL KILOS
Parcela 1
Parcela 2
Parcela 3
Parcela 4
Total
Medias
A
B
C
D
E
F
70
77
76
80
84
78
61
75
67
63
66
68
82
88
90
96
92
98
74
76
80
76
84
86
287
316
313
315
326
330
71.75
79.00
78.25
78.75
81.50
82.50
Totales
Medias
465
77.50
400
66.67
546
91.00
476
79.33
1.887
78.625
Los totales por grupo (parcelas) y sus correspondientes promedios, los totales y
los promedios por tratamientos o bloques (insumo y manteniendo), as como la
gran media se indican en el cuadro.
Adems de las estadsticas representadas en el cuadro, se tiene:
r 6;
c 4;
n rc 24
63
X
j 1 i 1
ij
rc
1.887
78,625
24
VT X ij X
j 1 i 1
VEC r X . j X
j 1
Ecuacin No.21
VEF c X i. X
i 11
Ecuacin No.22
VE X ij X . j X i. X
j 1 i 1
Ecuacin No.23
64
.
.
86 - 79.33 - 82.50 78,625
244.79
MCA
VEC 1.787,46
595,82
c 1
4 1
MCB
VEF 283.38
56,676
r 1
6 1
MCE
VE
224.79
224.79
14,986
r 1c 1 6 14 1
15
Total
224.79
(6-1)(4-1)=15
2.295.63
(6)(4)-1=23
224.79
15
14,986
VE
595.82
14,986
39,758
56,676
F
14,986
3,782
F
65
66
67
ms adelante.
Tabla resumen para el anlisis de varianzas de dos vas con ms de una
observacin por clula se resume en el siguiente cuadro:
X .2j .
j 1
rn'
VEAB
i 1 j 1
X .2j .
j 1
rn'
Error
de
muestreo, E
VEGB
n'
rcn'
r
i 1
X i2..
cn '
rcn'
r
VE X ijk2
i 1 j 01 k 1
Total, T
X ij2
GT 2
Media
MC
c 1
VEGA
r 1
BEGB
MCB
c 1
VEABI
MCC
r 1c 1
r 1
cuadrtica,
MCA
r 1c 1
Relacin F
MCA
MCE
MCB
F
MCE
MCI
F
MCE
F
GT 2
n'
Grados
de
libertad, gl
n'
i 1 j 1
VT X ijk2
i 1 J 1 K 1
X ij2.
n
'
GT 2
rc n' 1
MCE
VE
rcn' 1
rcn' 1
rcn'
Ejemplo
Para ilustrar el modelo factorial de dos factores, suponga que UD como dueo y
propietario de una cadena de supermercados est interesado en saber el efecto
de la colocacin de los estantes en la venta de un producto. Para ello estudia 4
posibles lugares distintos donde colocar los estantes: Colocacin normal entre el
pasillo(A), colocacin ingreso del pasillo (B), colocacin a la entrada del pasillo con
impulsadora (C) y colocacin normal con propaganda (D). Se toman ventas
aleatorias en las jornadas de la maana, tarde y noche y los resultados de las
ventas semanales se resumen en la siguiente tabla:
JORNADA
COLOCACIN ESTANTE
A
B
45
56
50
63
57
69
65
78
70
75
78
82
365
423
60.83
70.50
Maana
Tarde
Noche
Totales
Medias
C
65
71
73
80
82
89
460
76.67
D
48
53
60
57
71
75
364
60.67
Totales
451
Medias
56,375
539
67,375
622
77,750
1.612
67,167
X 1.. 451
n' 2
X 3.. 622
X 2.. 539
X .1. 365
X 11. 95
X 21. 122
X 31. 148
X .2. 423
X 12. 119
X 22. 147
X 31. 157
X .3. 460
X 13. 136
X 23. 153
X 33. 171
X .4. 364
X 14. 101
X 24. 117
X 34. 146
GT 1.612
r
n'
X
i 1 j 1 k 1
2
ijk
110.100,75
'
42
i 1 cn
r
j 1
109.375
32
rn'
X .2j .
i 1 j 1
GT 2
rcn'
X ij2.
n'
1.6122
108.272.66
342
68
n'
VT X ijk2
i 1 J 1 K 1
GT 2
rcn'
X i2.. GT
VEGA '
110.100.75 108.272.66 1.828.09
rcn'
i 1 cn
2
X .2j .
j 1
rn'
VEGB
GT 2
rcn'
VEAB
i 1 j 1
X ij2
n'
i 1
X i2.. c X . j . GT
cn ' j 1 rn'
rcn'
2
n'
VT X ijk2
i 1 J 1 K 1
GT 2
rcn'
MCA
VEGA 1.828.09
914.045
r 1
3 1
MCB
BEGB 1.102.34
367.447
c 1
4 1
69
MCC
VEABI
88.91
14,818
r 1c 1 3 14 1
MCE
VE
258
21.5
'
rc n 1 342 1
70
Suma de los
cuadrados, SC
Grados de libertad,
gl
Media
cuadrtica, MC
Relacin
F
1.828.09
3 1 2
914.045
42.51
1.102.34
4 1 3
367.447
17.09
14.818
0.69
88.91
258
3.277.34
3 14 1 6
342 1 12
342 1 23
21.5
71
X ij
n'
95
47.5
2
119
2
136
2
101
50.5
2
122
2
147
2
153
2
117
148
74.0
2
157
78.5
2
171
85.5
2
146
73.0
2
X 11.
X 21.
61.0
X 31.
X 12.
X 22.
73.5
X 32.
76.5
X 33.
58.5
X 34.
X 13.
X 14.
X 23.
X 24.
Ventas
A
B
C
D
Maana
Tarde
Jornada
Noche
72
73
EJERCICIOS COMPLEMENTARIOS
1.
Un inspector de un distrito escolar quiere estudiar el ausentismo de los
profesores de diversos grados escolares. Se seleccionaron muestras aleatorias de
profesores en escuelas primarias, secundarias, y preparatorias, y el nmero de
das de ausencia el ao anterior fue como sigue:
Primaria
7
4
10
6
5
Secundaria
13
14
9
8
7
10
Preparatoria
7
2
6
9
9
rea 2
10
16
28
25
7
17
rea 3
32
8
16
27
17
20
19
21
20
Calabacita
redonda
86
74
88
76
Calabacita
comn
40
48
54
46
Calabaza
alargada
30
36
42
34
74
Calabacita
rayada
48
54
42
56
18-24
6.31
4.27
5.75
25-29
7.64
5.36
3.85
6.24
Edad
30-39
8.37
9.26
10.16
6.48
7.86
40-59
11.23
10.64
8.32
9.00
7.53
60 y ms
6.74
7.36
5.12
Excelente
94
90
85
80
Psimo
68
70
72
65
74
75
65
Instruccin
programada
6
7
6
5
6
Calificaciones
Lecturas
Televisin
8
5
8
6
8
7
9
6
8
5
Grupos de
discussion
8
5
6
6
5
Marca 2
14
17
12
19
Marca 3
21
19
20
23
Marca 4
14
21
25
20
76
Ron
4
4
4
4
4
Consumo de alcohol
2 onzas
Tequila Brandy Ron
7
5
9
5
6
4
6
4
8
3
4
2
9
7
11
Tequila
10
6
10
12
12
3 onzas
Brandy
8
7
8
13
10
Ron
12
5
12
11
12
9.
El gerente de menudeo de una cadena de tiendas desea determinar si la
ubicacin del producto tiene o no algn efecto sobre la venta de juguetes de
peluche en forma de animales. Se van a considerar tres ubicaciones diferentes en
el pasillo: frente, centro y atrs. Se seleccion una muestra de 18 tiendas y se hizo
una asignacin aleatoria en seis tiendas para cada ubicacin en el pasillo. Los
juguetes estaban presentados en cuatro figuras de animales diferentes. Al final de
un periodo de prueba de una semana las ventas de los productos fueron como
sigue:
osos
86
72
54
40
50
62
frente
perros
gatos
81
76
77
82
49
44
45
50
45
40
67
72
len
71
87
39
55
35
77
osos
20
32
24
18
14
16
centro
perros
gatos
16
19
36
32
20
23
22
18
10
13
20
16
len
24
29
28
15
18
13
osos
46
28
60
22
28
40
Atrs
Perros
gatos
51
56
24
20
65
68
18
16
33
34
36
36
len
56
21
66
19
30
41
77
10.
El departamento de nutricin de cierta universidad lleva a cabo un estudio
para determinar si hay diferencia o no en el contenido de cido ascrbico entre
tres diferentes marcas de concentrado de jugo de naranja. Se hacen cuatro
pruebas de los tres tipos de concentrado de jugo de naranja que fue congelado
durante tres periodos de tiempo diferentes (en das). Los resultados, en
miligramos de cido ascrbico por litro, son los siguientes:
MARCA
0
RICA
BUENA
BARATA
52.6
49.8
56.0
49.6
52.5
51.8
54.2
46.5
48.0
48.4
52.0
53.6
TIEMPO ( DAS )
3
49.4
49.2
42.8
53.2
48.8
44.0
44.0
42.4
48.0
47.0
48.2
49.6
7
42.7
40.4
49.2
42.0
48.5
45.2
48.8
47.6
44.0
43.2
43.3
47.6
Ambiente
28
12
36
83
101
94
Libre
22
25
23
10
33
41
14
76
33
122
56
83
36
86
22
58
35
23
72
48
60
89
136
120
Restringido
25
32
91
31
35
83
126
110
38
64
153
128
93
19
99
118
87
140
78
Temperatura
85
78
90
92
85
87
Caliente
88
75
78
92
60
88
80
72
76
76
70
68
82
75
86
88
76
55
Caliente
83
75
88
76
74
57
85
73
76
77
78
54
13.
Los puntajes obtenidos en una prueba de rendimiento motor hecha a dos
grupos de estudiantes que participan en deportes universitarios, el primer grupo
est formado por estudiantes que practicaron deporte en la preparatoria, mientras
que el segundo est formado por estudiantes que no practicaron deporte en la
preparatoria. Los puntajes obtenidos por ambos grupos son los siguientes:
GRUPO 1
GIMNASIA
FUTBOL
55
56
59
40
63
59
58
70
50
52
52
43
69
28
77
37
60
51
GRUPO 2
GIMNASIA
FUTBOL
58
86
48
55
58
65
54
56
51
55
42
32
79
45
45
32
79
MUCH A. MONEY
CRIMINOLOGA
PSICOLOGA
5.5
7.5
3.5
5.5
9.5
4.5
3.4
8.5
6.8
3.2
15.
En una secundaria se formaron al azar dos grupos de estudiantes,
formados por alumnos de todos los grados. En un grupo se utiliz un nuevo
mtodo de enseanza. En el otro se utilizaron los mtodos tradicionales. Las
calificaciones al final del curso fueron las siguientes:
MTODO TRADICIONAL
PRIMERO SEGUNDO TERCERO
8
9
8.5
6.5
10
10
7
8
9
8
7
8.5
6
7.5
8
8
8
8
MTODO NUEVO
PRIMERO SEGUNDO TERCERO
8
8
7.5
7
10
8.5
5
10
7.5
8
9
8
7
8.5
9
7.5
9
9
80
81
Objetivo general.
Contrastar la validez de hiptesis o conjetura sobre la relacin entre variables y
sobre las distribuciones de probabilidad terica que adoptan dichas variables, sin
sujetarse a los condicionamientos de la validez de supuestos paramtricos.
Objetivos especficos.
82
83
Ecuacin No.24
= Frecuencias Observadas
= Frecuencias Esperadas
K= Nmero de observaciones
Si las frecuencias observadas coinciden o se aproximan mucho a las esperadas,
el valor estadstico
tiende a cero. Por el contrario, si las frecuencias
observadas difieren significativamente de las esperadas, el valor del estadstico
ser positivo y tan grande cuantos mayores sean las diferencias entre las
frecuencias. Bajo estas condiciones se tiene que la regin de rechazo es slo la
regin derecha (cola derecha o unilateral superior), cuando la hiptesis son las
siguientes:
: Los datos provienen de una muestra al azar de una poblacin
distribuida de acuerdo a un modelo terico.
: Los datos no provienen de una poblacin distribuida de acuerdo al
modelo terico.
En una prueba de hiptesis usando Ji-cuadrado las frecuencias esperadas se
calculan suponiendo que La hiptesis nula es cierta
84
Ecuacin No.25
85
5
14
15
23
16
9
3
3
1
1
0
90
= 0.05.
93 7563 9
3 75
86
0
1
2
3
4
5
6
7
8
9
10 o mas
5
14
15
23
16
9
3
3
1
1
0
90
( )
0,050
0,149
0,224
0,224
0,168
0,101
0,050
0,022
0,008
0,003
0,001
1,000
4,481
13,443
20,164
20,164
15,123
9,074
4,537
1,944
0,729
0,243
0,099
90
87
Estadstico de prueba
D = mxima
Sn(x): es la funcin de distribucin emprica.
Tiene varias ventajas: es una prueba poderosa y fcil de utilizar, puesto que no
requiere que los datos se agrupen de determinada manera.
88
SUGERENCIAS:
89
decir que si tenemos un empate en las posiciones 2 y 3 se les asigna el valor 2.5 a
ambas). Ahora calculamos R+ la suma de todos los rangos de las diferencias
positivas, aquellas en las que Xi es mayor que M0 y R- la suma de todos los
rangos correspondientes a las diferencias negativas. Si la hiptesis nula es cierta,
ambos estadsticos debern ser parecidos, mientras que si nuestros datos tienen a
ser ms altos que la mediana M0, se reflejar en un valor mayor de R+, y al
contrario si son ms bajos. Se trata de contrastar si la menor de las sumas de
rangos es excesivamente pequea para ser atribuida al azar, o, lo que es
equivalente, si la mayor de las dos sumas de rangos es excesivamente grande.
29.2. Wilcoxon para contrastar datos pareados
El mismo razonamiento lo podemos aplicar cuando tenemos una muestra de
parejas de valores, por ejemplo antes y despus del tratamiento, que podemos
denominar (X1,Y1), (X2,Y2), ... ,(Xn,Yn). De la misma forma, ahora calcularemos
las diferencias X1-Y1, X2-Y2, ... , Xn-Yn y las ordenaremos en valor absoluto,
asignndoles el rango correspondiente. Calculamos R+ la suma de rangos
positivos (cuando Xi es mayor que Yi), y la suma de rangos negativos R-. Ahora la
hiptesis nula es que esas diferencias proceden de una distribucin simtrica en
torno a cero y si fuera cierta los valores de R+ y R- sern parecidos.
90
Ejercicios propuestos
1. Cinco antiguos pacientes son seleccionados aleatoriamente del ala A de un
hospital y cuatro pacientes son seccionados del ala B. Los pacientes estuvieron
los siguientes nmeros de das:
Ala A
Ala B
13
10
4
9
2
7
10
8
91
3
1
4
9
8
2
R/ta: 16
3. En una partida de Rol se lanza 200 veces un dado de cuatro caras
obtenindose 60 veces el nmero 1, 45 veces el nmero 2, 38 veces el nmero
3 y 57 veces el nmero 4. Se puede aceptar, a un nivel de confianza del 95%,
que estos resultados corresponden a un dado homogneo.
R/ta: Se acepta de la hiptesis que los resultados corresponden a un dado
homogneo
4. En una encuesta preelectoral realizada a 500 personas se obtuvo la
siguiente distribucin en funcin de sus edades y de su intencin de
voto:
Partido
A
B
C
D
Edad
18 35
10
15
45
30
35 50
40
70
60
30
50 o ms
60
90
35
15
92
Autoevaluacin
1.
Los miembros de un equipo ciclista se dividen al azar en tres grupos
que entrenan con mtodos diferentes. El primer grupo realiza largos recorridos
a ritmo pausado, el segundo grupo realiza series cortas de alta intensidad y el
tercero trabaja en el gimnasio con pesas y se ejercita en el pedaleo de alta
frecuencia. Despus de un mes de entrenamiento se realiza un test de
rendimiento consistente en un recorrido cronometrado de 9 Km. Los tiempos
empleados fueron los siguientes:
Mtodo I
15
16
14
15
17
13
12
11
14
11
A un nivel de confianza del 95% Puede considerarse que los tres mtodos
producen resultados equivalentes? O por el contrario Hay algn mtodo
superior a los dems?
Solucin:
E estadstico de contraste vale: F = 13,4/ 1,43 = 9,37
El valor de la F terica con 2 y 12 grados de libertad, a un nivel de confianza
del 95% es 3,89. Por consiguiente se rechaza la hiptesis nula y se concluye
que los tres mtodos de entrenamiento producen diferencias significativas.
(Tomado de problemas de anlisis de datos Tema 14 Anlisis de varianzas: Jos
Mara Salinas)
Test No Parmetro
2.
En una partida de Rol se lanza 200 veces un dado de cuatro caras
obtenindose 60 veces el nmero 1, 45 veces el nmero 2, 38 veces el nmero
3 y 57 veces el nmero 4. Se puede aceptar, a un nivel de confianza del 95%,
que estos resultados corresponden a un dado homogneo.
Solucin:
Paso 1: La hiptesis nula ser que el dado es homogneo, esto implica que la
distribucin de los nmeros es uniforme, es decir que los cuatro nmeros
tienen una probabilidad de aparecer de 0,25.
93
ni
pi
Np i
ni-np i
(ni-np i)2
60
45
38
57
0,25
0,25
0,25
0,25
50
50
50
50
10
-5
-12
7
100
25
144
49
(ni2
0,5
2,88
0,98
4,36
18 - 35
10
15
45
30
35 - 50
40
70
60
30
50 o ms
60
90
35
15
110
175
140
75
500
35 50
44
70
56
30
50 o ms
44
70
56
30
50 o ms
256
400
441
225
94
4.
Los tiempos de respuesta de 9 sujetos en una tarea de reconocimiento
de palabras, previamente presentadas, han sido los siguientes:
115, 98, 123, 109, 112, 87, 118, 104, 116
A un nivel de confianza del 95% Son compatibles estos resultados con la
hiptesis de que el tiempo de reaccin en esta tarea sigue una distribucin
Normal de media 110 y desviacin tpica 10?
Solucin:
1 La hiptesis nula es que los datos proceden de una Normal (110, 10).
2 La hiptesis alternativa es que no siguen esa distribucin Normal.
3 Como la variable es continua, y la hiptesis nula especfica totalmente la
distribucin utilizaremos el test de Kolmogoroff-Smirnoff, cuyo estadstico de
contraste es:
max | Fn (xi ) - Mn (xi) |
4 los clculos del estadstico se especifican en la siguiente tabla:
95
xi
zi
87
-2,3
Fn
0,0107
Mn
0,1111
|Fn -Mn | 0,1004
98
-1,2
0,1151
0,2222
0,1071
104
-0,6
0,2743
0,3333
0,059
109
-0,1
0,4602
0,4444
0,0158
112
0,2
0,5793
0,5556
0,0237
115
0,5
0,6915
0,6667
0,0248
116
0,6
0,7257
0,7778
0,0521
118
0,8
0,7881
0,8889
0,1008
96
123
1,3
0,9032
1
0,0968
97
REFERENTES
Alvarado, J. A., Obagi, J.J. (2008). Fundamentos de Inferencia Estadstica.
Pontificia Universidad Javeriana. Bogot. D.C. Colombia. Extrado el 18 de octubre
de
2012
de
http://books.google.com.co/books?id=3uhUqvF0_84C&printsec=frontcover&dq=inf
erencia&source=bl&ots=DC7Ajfx6Os&sig=pOn4JMXwSC0qd0FmDBlpoMGQLkg&
hl=es&sa=X&ei=_2qAUKmEJaqG0QHT6YGwBw&ved=0CD0Q6AEwAw
Web del Instituto Tecnolgica De Chihuahua curso Estadstica 1 ITC (s. f).
Extrado
el
18
de
octubre
de
2012
de:
http://www.itch.edu.mx/academic/industrial/estadistica1/cap02.html.