You are on page 1of 123

Universidad de Guanajuato

Erick Alberto Cecilio Ayala


Agosto - Dic 2011
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 1 / 108
Contenido
Estimacin puntual y de intervalos
Pruebas de Hiptesis
Regresin Lineal y Correlacin
Herramientas bsicas de calidad
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 2 / 108
Estimacin puntual y de intervalos
Propiedades de los estimadores
Seleccin de un buen estimador
Intervalos de conanza
Intervalo de conanza para la media, varianza conocida
Intervalo de conanza para diferencia de dos medias, varianza
conocida
Intervalo de conanza para la media, varianza desconocida
Intervalo de conanza para la diferencia de dos medias, varianza
desconocida
Intervalo de conanza para la varianza de una distribucin normal
Intervalo de conanza para una proporcin
Intervalo de conanza para diferencia de dos proporciones
Calculo del tamao de muestra para diferentes estimaciones
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 3 / 108
Ejemplo de la unidad.
La siguiente tabla muestra 106 temperaturas corporales obtenidas por los
investigadores de la Universidad de Maryland. De los cuales tenemos las
siguientes estadsticas:
La media de los datos es x = 98.20
o
F.
La desviacin estndar es s = 0.62
o
F.
El tamao de la muestra es n = 106.
La mayora de la gente cree que la temperatura corporal media es de 98.6
o
F, pero los datos de la tabla parecen sugerir que de hecho es 98.20
o
F.
La relacin con los grados centgrados es de acuedo a C =
_
5
9
_
(F 32) .
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 4 / 108
Ejemplo de la unidad.
Temperaturas corporales de 106 adultos saludables
98.6 98.6 98.0 98.0 99.0 98.4 98.4 98.4 98.4 98.6
98.6 98.8 98.6 97.0 97.0 98.8 97.6 97.7 98.8 98.0
98.0 98.3 98.5 97.3 98.7 97.4 98.9 98.6 99.5 97.5
97.3 97.6 98.2 99.6 98.7 99.4 98.2 98.0 98.6 98.6
97.2 98.4 98.6 98.2 98.0 97.8 98.0 98.4 98.6 98.6
97.8 99.0 96.5 97.6 98.0 96.9 97.6 97.1 97.9 98.4
97.3 98.0 97.5 97.6 98.2 98.5 98.8 98.7 97.8 98.0
97.1 97.4 99.4 98.4 98.6 98.4 98.5 98.6 98.3 98.7
98.8 99.1 98.6 97.9 98.8 98.0 98.7 98.5 98.9 98.4
98.6 97.1 97.9 98.8 98.7 97.6 98.2 99.2 97.8 98.0
98.4 97.8 98.4 97.4 98.0 97.0
MINITAB
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 5 / 108
Propiedades de los estimadores
Denicin: Un estimador es un estadstico muestral usado para aproximar
un parmetro de una poblacin. Una estimacin es un valor especco o
rango de valores usados para aproximar algn parmetro poblacional.
Denicin: Un estimador puntual es un valor simple (o punto) usado
para aproximar un parmetro poblacional.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 6 / 108
Propiedades de los estimadores
Seleccin de un buen estimador
La media muestral x es el mejor estimador puntual de la media
poblacional .
Porqu?
1
Para muchas poblaciones, la distribucin de las medias muestrales x
tiende a ser ms consistente (con menos variacin) que la distribucin
de otros estadsticos muestrales.
2
Para todas las poblaciones, decimos que la media muestral x es un
estimador insesgado de la media poblacional , lo que signica que la
distribucin de las medias muestrales tiende a centrarse alrededor del
valor de la media poblacional .
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 7 / 108
Propiedades de los estimadores
Seleccin de un buen estimador
La media muestral x es el mejor estimador puntual de la media
poblacional .
Porqu?
1
Para muchas poblaciones, la distribucin de las medias muestrales x
tiende a ser ms consistente (con menos variacin) que la distribucin
de otros estadsticos muestrales.
2
Para todas las poblaciones, decimos que la media muestral x es un
estimador insesgado de la media poblacional , lo que signica que la
distribucin de las medias muestrales tiende a centrarse alrededor del
valor de la media poblacional .
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 7 / 108
Propiedades de los estimadores
Seleccin de un buen estimador
La media muestral x es el mejor estimador puntual de la media
poblacional .
Porqu?
1
Para muchas poblaciones, la distribucin de las medias muestrales x
tiende a ser ms consistente (con menos variacin) que la distribucin
de otros estadsticos muestrales.
2
Para todas las poblaciones, decimos que la media muestral x es un
estimador insesgado de la media poblacional , lo que signica que la
distribucin de las medias muestrales tiende a centrarse alrededor del
valor de la media poblacional .
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 7 / 108
Estimacin puntual y de intervalos
Propiedades de los estimadores
Seleccin de un buen estimador
Intervalos de conanza
Intervalo de conanza para la media, varianza conocida
Intervalo de conanza para diferencia de dos medias, varianza
conocida
Intervalo de conanza para la media, varianza desconocida
Intervalo de conanza para la diferencia de dos medias, varianza
desconocida
Intervalo de conanza para la varianza de una distribucin normal
Intervalo de conanza para una proporcin
Intervalo de conanza para diferencia de dos proporciones
Calculo del tamao de muestra para diferentes estimaciones
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 8 / 108
Intervalos de conanza
Porqu necesitamos intervalos de conanza?
En el ejemplo vimos que 98.20
o
F fu nuestro mejor estimador
puntual de la media poblacional , pero no tenemos indicacin de qu
tan bueno fu. Si supiramos slo las primeras cuatro temperaturas
98.6, 98.6, 98.0 y 98.0, el mejor estimador puntual de sera su
media (x = 98.30
o
F), pero no esperaramos que este estimador fuera
muy bueno porque est basado en una muestra muy pequea.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 9 / 108
Intervalos de conanza
Porqu necesitamos intervalos de conanza?
En el ejemplo vimos que 98.20
o
F fu nuestro mejor estimador
puntual de la media poblacional , pero no tenemos indicacin de qu
tan bueno fu. Si supiramos slo las primeras cuatro temperaturas
98.6, 98.6, 98.0 y 98.0, el mejor estimador puntual de sera su
media (x = 98.30
o
F), pero no esperaramos que este estimador fuera
muy bueno porque est basado en una muestra muy pequea.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 9 / 108
Intervalos de conanza
Denicin: Un intervalo de conanza (o estimacin por intervalos) es un
rango de valores que es muy probable que contengan el verdadero valor del
parmetro de la poblacin.
Denicin: El grado de conanza es la probabilidad 1 de que el
intervalo de conanza contenga el valor verdadero del parmetro de la
poblacin. (El grado de conanza tambin es conocido como el nivel de
conanza o el coeciente de conanza)
Ejemplo:
El intervalo de conanza de grado de conanza del 0.95, para la media
poblacional es 98.08
o
F < < 98.32
o
F.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 10 / 108
Intervalos de conanza
Denicin: Un valor crtico es el nmero en la base de la lnea que separa
los estadsticos muestrales que son muy probables de ocurrir de aquellos
que son poco probables. El nmero z
/2
es un valor crtico.
Denicin: Cuando los datos son usados para estimar la media de la
poblacin el margen de error, denotado por E, es la diferencia mxima
probable (con probabilidad 1 ) entre la media muestral estimada x y el
verdadero valor .
E = z
/2


p
n
Y el intervalo de conanza estar dado por x E < < x + E.
MINITAB
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 11 / 108
Intervalos de conanza
Cmo se interpreta un intervalo de conanza?
Es incorrecto decir que tiene un 95% de posibilidades de estar
dentro de los lmites especcos de 98.08 y 98.32, porque es una
constante, no una variable aleatoria. De hecho puede o no estar en
los lmites; no hay probabilidad involucrada.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 12 / 108
Intervalos de conanza
Cmo se interpreta un intervalo de conanza?
Es incorrecto decir que tiene un 95% de posibilidades de estar
dentro de los lmites especcos de 98.08 y 98.32, porque es una
constante, no una variable aleatoria. De hecho puede o no estar en
los lmites; no hay probabilidad involucrada.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 12 / 108
Estimacin puntual y de intervalos
Propiedades de los estimadores
Seleccin de un buen estimador
Intervalos de conanza
Intervalo de conanza para la media, varianza conocida
Intervalo de conanza para diferencia de dos medias, varianza
conocida
Intervalo de conanza para la media, varianza desconocida
Intervalo de conanza para la diferencia de dos medias, varianza
desconocida
Intervalo de conanza para la varianza de una distribucin normal
Intervalo de conanza para una proporcin
Intervalo de conanza para diferencia de dos proporciones
Calculo del tamao de muestra para diferentes estimaciones
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 13 / 108
Intervalo de conanza para la media
Los intervalos de conanza para la media, se puede resumir en lo siguiente:
x E < < x + E
donde E ser:
E = z
/2


p
n
( conocida o n > 30)
E = t
/2

s
p
n
( desconocida y n 30)
donde t
/2
tiene n 1 grados de libertad.
Qu es t
/2
?
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 14 / 108
Intervalo de conanza para la media
Distribucin t-student
Si la distribucin de una poblacin es escencialmente normal (en forma de
"campana"), entonces la distribucin de
t =
x
s
p
n
es escencialmente una distribucin t-student para todas las muestras de
tamao n. La distribucin t-student, frecuentemente es referida como la
distribucin t, es usada para encontrar valores crticos denotados por t
/2
.
Denicin: El nmero de grados de libertad (g.l. o df en ingls) para un
conjunto de datos corresponde al nmero de anotaciones (puntajes, datos,
etc.) que pueden variar despus de que ciertas restricciones fueron
impuestas en todas las anotaciones.
Para las aplicaciones en nuestro caso, el nmero de grados de libertad es
simplemente el tamao de muestra menos 1. (n 1)
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 15 / 108
Intervalo de conanza para la media
Distribucin t-student
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 16 / 108
Intervalo de conanza para la media
Ejercicio
El departamento de Salud, Educacin, y Cuidado de los E.U., realiz una
muestra de datos para 1525 mujeres, de edades alrededor de 18 a 24. Ese
grupo muestral tuvo una media de nivel de suero de colesterol (medida en
mg/100 ml) de 191.7 con una desviacin estandar de 41.0. Usa estos
datos para encontrar el intervalo del 90% de conanza. Si un doctor dice
que la media de suero de colesterol para mujeres de esta edad es de 200,
sta armacin es consistente con el intervalo de conanza?
R: (190, 193.4)
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 17 / 108
Estimacin puntual y de intervalos
Propiedades de los estimadores
Seleccin de un buen estimador
Intervalos de conanza
Intervalo de conanza para la media, varianza conocida
Intervalo de conanza para diferencia de dos medias, varianza
conocida
Intervalo de conanza para la media, varianza desconocida
Intervalo de conanza para la diferencia de dos medias,
varianza desconocida
Intervalo de conanza para la varianza de una distribucin normal
Intervalo de conanza para una proporcin
Intervalo de conanza para diferencia de dos proporciones
Calculo del tamao de muestra para diferentes estimaciones
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 18 / 108
Intervalo de conanza para la diferencia de dos medias
En este caso dividiremos los intervalos cuando las muestras son
dependientes o independientes.
Muestras dependientes
Los intervalos de conanza para la diferencia de dos medias, se puede
resumir en lo siguiente:
d E <
d
< d + E
donde E = t
/2

s
d
p
n
con n 1 grados de libertad,
d
es el valor medio de
las diferencias, d es el valor medio de las diferencias para los datos
pareados muestrales y s
d
es la desviacin estndar de las diferencias.
Pero, Que es dependencia?, Cuando dos muestras son dependientes?
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 19 / 108
Intervalo de conanza para la diferencia de dos medias
Muestras dependientes
Ejemplo:
Consideramos la siguiente muestra de datos pareados, que muestra los
pesos de pre-entrenamiento y los pesos de pos-entrenamiento de seis
personas:
Sujeto A B C D E F
Pre-entrenamiento (Kg) 99 62 74 59 70 73
Pos-entrenamiento (Kg) 94 62 66 58 70 76
Basados en los datos de Journal of Applied Psychology, Vol. 62, No.1.
MINITAB
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 20 / 108
Intervalo de conanza para la diferencia de dos medias
Muestras independientes
Los intervalos de conanza para la diferencia de dos medias cuando
tenemos muestras independientes, se puede resumir en lo siguiente:
(x
1
x
2
) E < (
1

2
) < (x
1
x
2
) + E
donde E en este caso puede ser de distintas maneras:
1

1
,
2
conocidas o n
1
> 30 y n
2
> 30 entonces E = z
/2

_

2
1
n
1
+

2
2
n
2
.
2
Rechazamos
2
1
=
2
2
y n
1
30 o n
2
30 entonces
E = t
/2

_
s
2
1
n
1
+
s
2
2
n
2
(g.l. = el menor de n
1
1, n
2
1).
3
No rechazamos
2
1
=
2
2
y n
1
30 o n
2
30 entonces
E = t
/2

_
s
2
p
n
1
+
s
2
p
n
2
(g.l. = n
1
+ n
2
2) y s
2
p
=
(n
1
1)s
2
1
+(n
2
1)s
2
2
(n
1
1)+(n
2
1)
.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 21 / 108
Intervalo de conanza para la diferencia de dos medias
Muestras independientes
Ejemplo:
Tenemos el siguiente resumen de datos de latas de aluminio con dos tipos
de grosores 0.0109 in. y 0.0111 in.
Carga axial (lb) de latas 0.0109 in. Carga axial (lb) de latas 0.0111 in
n
1
= 175 n
2
= 175
x
1
= 267.1 x
2
= 281.8
s
1
= 22.1 s
2
= 27.8
MINITAB
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 22 / 108
Intervalo de conanza para la diferencia de dos medias
Ejercicio
Como parte de una encuesta nacional de salud, se obtuvieron los pesos
para los hombres. Para 804 hombres de edades 25-34, la media es 176 lb y
la desviacin estndar es de 35.0 lb. Para 1657 hombres de 65-74, la
media y desviacin estndar son 164 y 27.0 lb, respectivamente. Construye
un intervalo de 99% de conanza para la diferencia entre las medias de los
hombres en las dos categoras. El intervalo de conanza contiene al
0?,Indica que hay o n diferencia signicante entre las dos medias?
R: (8, 16)
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 23 / 108
Estimacin puntual y de intervalos
Propiedades de los estimadores
Seleccin de un buen estimador
Intervalos de conanza
Intervalo de conanza para la media, varianza conocida
Intervalo de conanza para diferencia de dos medias, varianza
conocida
Intervalo de conanza para la media, varianza desconocida
Intervalo de conanza para la diferencia de dos medias, varianza
desconocida
Intervalo de conanza para la varianza de una distribucin
normal
Intervalo de conanza para una proporcin
Intervalo de conanza para diferencia de dos proporciones
Calculo del tamao de muestra para diferentes estimaciones
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 24 / 108
Intervalo de conanza para la varianza de una distribucin
normal
Los intervalos de conanza para la varianza de una distribucin normal, se
puede resumir en lo siguiente:
(n 1) s
2

2
R
<
2
<
(n 1) s
2

2
L
donde
2
R
y
2
L
son los valores crticos de una distribucin ji-cuadrada de
los lados derecho e izquierdo respectivamente (donde
2
R
=
2
/2
y

2
L
=
2
1/2
), la distribucin tendr n 1 grados de libertad. Pues,
asumiendo normalidad de los datos, la siguiente expresin tendr una
distribucin ji-cuadrada:

2
=
(n 1) s
2

2
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 25 / 108
Intervalo de conanza para la varianza de una distribucin
normal
Ejemplo:
En la siguiente tabla se muestran los pesos de 12 buuelos (oz). El
supervisor de calidad ha encontrado que puede estar fuera de problemas si
los buuelos tienen una media de 3.50 oz. y una desviacin estndar de
0.06 oz o menos (pues han etiquetado 42 oz).
3.43 3.37 3.58 3.50 3.68 3.61 3.42 3.52 3.66 3.50 3.36 3.42
Construir intervalo de conanza del 95% para
2
y un intervalo de
conanza del 95% para , luego determina si el supervisor de control de
calidad est en problemas.
R: (0.006, 0.034)
MINITAB
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 26 / 108
Intervalo de conanza para la varianza de una distribucin
normal
Ejercicios
1
La siguiente lista son tiempos de espera (en minutos) de clientes de
un banco, donde los clientes entran en una linea de espera que
alimenta tres ventanas. Construye un intervalo del 95% de conanza
para la desviacin estndar poblacional.
6.5 6.6 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7
R: (0.33, 0.87)
2
La siguiente lista son tiempos de espera (en minutos) de clientes de
un banco, donde los clientes pueden entrar en cualquiera de tres
lineas diferentes que llevan a tres ventanas diferentes. Construye un
intervalo del 95% de conanza para y compara tu resultado al del
ejercicio anterior. Los intervalos de conanza sugieren una diferencia
en la variacin entre los tiempos de espera?, Cul arreglo es mejor?
4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10.0
R: (1.25, 3.33)
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 27 / 108
Estimacin puntual y de intervalos
Propiedades de los estimadores
Seleccin de un buen estimador
Intervalos de conanza
Intervalo de conanza para la media, varianza conocida
Intervalo de conanza para diferencia de dos medias, varianza
conocida
Intervalo de conanza para la media, varianza desconocida
Intervalo de conanza para la diferencia de dos medias, varianza
desconocida
Intervalo de conanza para la varianza de una distribucin normal
Intervalo de conanza para una proporcin
Intervalo de conanza para diferencia de dos proporciones
Calculo del tamao de muestra para diferentes estimaciones
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 28 / 108
Intervalo de conanza para proporciones
Supongamos que queremos estimar una proporcin de poblacin (p), en
este caso la proporcin muestral ( p) es el mejor estimador para nuestro
parmetro, sta proporcin muestral ser el cociente del nmeros de
sucesos (xitos) en una muestra de tamao n.
El intervalo de conanza para la proporcin poblacional, se puede resumir
en lo siguiente:
p E < p < p + E
donde E = z
/2

_
p q
n
con q = 1 p
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 29 / 108
Intervalo de conanza para proporciones
Ejemplo:
Los encuestadores son plagados por una variedad de factores de confusin,
tales como las mquinas contestadoras telefnicas. En una encuesta 1068
americanos, 673 establecieron mquinas contestadoras (basados en los
datos de International Mass Retail Association, reportado en USA Today).
Usando estos resultados muestrales, encontrar,
1
el estimador puntual de la proporcin de la poblacin de todos los
americanos que tienen mquinas contestadoras.
2
el intervalo de conanza del 95% de la proporcin de la poblacin de
todos los americanos quienes tienen contestadoras.
R: (0.601, 0.659)
MINITAB
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 30 / 108
Intervalo de conanza para proporciones
Otro caso es cuando queremos comparar dos proporciones de dos
poblaciones independientes
El intervalo de conanza en este caso ser:
( p
1
p
2
) E < (p
1
p
2
) < ( p
1
p
2
) + E
donde E = z
/2

_
p
1
q
1
n
1
+
p
2
q
2
n
2
.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 31 / 108
Intervalo de conanza para proporciones
Ejercicios
1
Segn un estudio seal que una gran proporcin de crimes cometidos
por personas menores de 21 aos son crimenes violentos. De 2750
arrestos seleccionados aleatoriamente de criminales menores de 21
aos, el 4.25% involucran crimenes violentos. De 2200 arrestos
seleccionados aleatoriamente de criminales mayores o iguales a 21
aos, el 4.55% involucran crimenes violentos. Construye un intervalo
de conanza del 95% para la diferencia entre las dos proporciones de
crimenes violentos. El intervalo de conanza contiene al cero?, Esto
indica que no hay una diferencia signicativa entre estos dos ndices
de crimenes violentos?
R: (-0.0144, 0.0086)
2
Cuando los juego fueron muestreados de una temporada, se encontr
que el equipo local gan 127 de 198 juegos profesionales de
basquetbol, y el equipo local gan 57 de 99 juegos profesionales de
futbol. Construye un intervalo de conanza del 95% para la diferencia
entre las dos proporciones de victorias locales. Esto indica que no
hay una diferencia signicativa entre estos dos ndices de victorias
locales?
R: (-0.053, 0.184)
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 32 / 108
Estimacin puntual y de intervalos
Propiedades de los estimadores
Seleccin de un buen estimador
Intervalos de conanza
Intervalo de conanza para la media, varianza conocida
Intervalo de conanza para diferencia de dos medias, varianza
conocida
Intervalo de conanza para la media, varianza desconocida
Intervalo de conanza para la diferencia de dos medias, varianza
desconocida
Intervalo de conanza para la varianza de una distribucin normal
Intervalo de conanza para una proporcin
Intervalo de conanza para diferencia de dos proporciones
Calculo del tamao de muestra para diferentes estimaciones
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 33 / 108
Calculo del tamao de muestra para diferentes
estimaciones
Hasta ahora hemos visto formas de estimacin de parmetros (puntuales o
por intervalos). Para lo cual nos basamos en datos muestrales conocidos.
Pero supongamos que no hemos hecho el muestreo. Cmo sabemos de
qu tamao ser la muestra?
Los tamaos de muestra para las distintas estimaciones se pueden resumir:
n =
_
z
/2

E

2
Media
n =
z
2
/2
0.25
E
2
Proporcin
n =
z
2
/2
p q
E
2
Proporcin ( p y q son conocidos)
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 34 / 108
Calculo del tamao de muestra para diferentes
estimaciones
Ejemplo:
Un economista quiere estimar el ingreso medio para el primer ao de
trabajo de un colegio. Cuntos de stos ingresos debe encontrar si quiere
estar 95% seguro que la media muestral est en $500 de la verdadera
media poblacional? Supongamos que un estudio previo ha revelado que
para estos ingresos, = $6250.
R: 601 redondeado
MINITAB
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 35 / 108
Calculo del tamao de muestra para diferentes
estimaciones
Ejercicio
1
Las compaas aseguradoras han detectado que hay ms accidentes
de carros debido al uso del celular, y estn considerando ndices ms
altos para este tipo de conductores. Se quiere estimar con margen de
error de tres puntos porcentuales, de conductores quienes hablan por
telfono mientras estn manejando. Suponiendo que deseamos el
95% de conanza en nuestro resultado, Cuntos conductores
debemos muestrear?
1 Asumiendo que tenemos un estimador p basado en un estudio previo
que mostr que el 18% de los conductores hablan por telfono.
2 Asumiendo que no tenemos informacin previa para p.
R: (a) 631 (b)1068
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 36 / 108
Contenido
Estimacin puntual y de intervalos
Pruebas de Hiptesis
Regresin Lineal y Correlacin
Herramientas bsicas de calidad
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 37 / 108
Pruebas de Hiptesis
Denicin: Una hiptesis es una armacin acerca de una propiedad de
una poblacin.
Ejemplo:
El porcentaje de conductores hospitalizados es menor para aquellos que
chocan en carros equipados con bolsas de aire que en carros no equipados.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 38 / 108
Componentes de una Prueba de Hiptesis formal
La hiptesis nula (denotada por H
0
) es una armacin acerca del valor del
parmetro de una poblacin (como la media), y debe contener una
condicin de igualdad y debe ser escrita con el smbolo =, , o . Para
la media, la hitesis nula ser declarada en una de las tres posibles formas:
H
0
: = valor H
0
: valor H
0
: valor
La hiptesis alternativa (denotada por H
1
) es la armacin que debe ser
verdadera si la hiptesis nula es falsa. Para la media, la hiptesis
alternativa ser declarada es slo una de las formas siguientes:
H
1
: 6= valor H
1
: > valor H
1
: < valor
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 39 / 108
Tipos de Errores
Hay dos tipos de errores que se pueden cometer:
Error Tipo I: El error de rechazar la hiptesis nula cuando es verdadera.
La probabilidad de rechazar la hiptesis nula cuando es cierta es llamada el
nivel de signicancia y se denota por el smbolo (alfa). El valor de es
predeterminada comnmente, y las elecciones tpicas son = 0.05 y
= 0.01.
Error Tipo II: El error de fallar al rechazar la hiptesis nula cuando es
falsa. El smbolo (beta) es usado para representar la probabilidad de un
error tipo II.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 40 / 108
Componentes claves de una Prueba de Hiptesis
Estadstico de prueba: Es un estadstico muestral o un valor basado en
los datos muestrales. Es usado para realizar la descisin acerca de rechazar
la hiptesis nula.
Regin crtica: Es el conjunto de todos los valores de el estadstico de
prueba que causarn que rechacemos la hiptesis nula.
Valor crtico: Es el valor o valores que separan la regin crtica de los
valores del estadstico de prueba.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 41 / 108
Hiptesis unilaterales y bilaterales
No hay mucho que decir, slo que las pruebas pueden ser de: dos colas,
cola a la izquierda y a la derecha.
Dibujo.
Ejercicio de Hiptesis.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 42 / 108
Hiptesis unilaterales y bilaterales
No hay mucho que decir, slo que las pruebas pueden ser de: dos colas,
cola a la izquierda y a la derecha.
Dibujo.
Ejercicio de Hiptesis.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 42 / 108
Hiptesis unilaterales y bilaterales
Ejemplo:
Usando los datos vistos en la sesin anterior,
(n = 106, x = 98.2
o
, s = 0.62) y con un nivel de signicancia de 0.05,
probaremos que la temperatura media del cuerpo de adultos sanos es igual
a 98.6
o
F.
En este caso usaremos el estadstico de prueba para cuando n > 30 :
z =
x
x

p
n
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 43 / 108
Hiptesis unilaterales y bilaterales
Solucin Tradicional:
Paso 1: La armacin de que la media es igual a 98.6 es expresada en
forma simblica como = 98.6.
Paso 2: La alternativa a la armacin original es 6= 98.6.
Paso 3: Entonces tenemos:
H
0
: = 98.6 (armacin original) H
1
: 6= 98.6
Paso 4: Como se especic en el enunciado del problema, el nivel de
signicancia es = 0.05.
Paso 5: Puesto que la armacin es acerca de la media poblacional, el
estadstico muestral ms lgico (reelevante) para la prueba es x = 98.2. Y
dado que n > 30, las medias muestrales pueden aproximarse por una
distribucin normal.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 44 / 108
Hiptesis unilaterales y bilaterales
Paso 6: Para calcular el estadstico de prueba, podemos usar s = 0.62
como un estimador razonable de (pues n > 30), entonces el estadstico
de prueba se encuentra convirtiendo la media muestral x = 98.2 en
z = 6.64, a travs del siguiente clculo:
z =
x
x

p
n
=
98.20 98.6
0.62
p
106
= 6.64
el cual lo comparamos con z = 1.96, 1.96. (dibujo)
Paso 7: La media muestral x = 98.2 se convirti a un estadstico de
prueba z = 6.64, el cual cae dentro de la regin crtica, entonces
rechazamos la hiptesis nula.
Paso 8: Para refrasear la conclusin del paso 7 en trminos no tcnicos,
concluimos que hay suciente evidencia para garantizar el rechazo de la
armacin de que la temperatura media corporal de adultos sanos es 98.6
o
F. (MINITAB)
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 45 / 108
Hiptesis unilaterales y bilaterales
Valores p: Uso e interpretacin.
Valor p: Es el nivel ms bajo de signicancia (valor ) al cual se puede
rechazar la hiptesis nula.
P-Valor Interpretacin
Menor que 0.01
Estadsticamente, altamente signicante.
Hay evidencia muy fuerte en contra de la hiptesis nula.
De 0.01 a 0.05
Estadsticamente signicante.
Hay evidencia en contra de la hiptesis nula.
Mayor que 0.05 Hay evidencia insuciente en contra de la hiptesis nula.
MINITAB
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 46 / 108
Estadsticos de Prueba (Una poblacin)
z =
x

p
n
Poblacin con una media.
( conocida o n > 30)
t =
x
s
p
n
Poblacin con una media.
( desconocida y n 30)
z =
pp
p
pq
n
Poblacin con una porporcin.

2
=
(n1)s
2

2
Poblacin con una desviacin estndar o varianza.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 47 / 108
Estadsticos de Prueba (Dos poblaciones)
t =
d
d
s
d
p
n
Dos medias dependientes.
(gl = n 1)
z =
(x
1
x
2
)(
1

2
)
_

2
1
n
1
+

2
2
n
2
Dos medias independientes
(
1
,
2
conocidas o n
1
> 30 y n
2
> 30)
F =
s
2
1
s
2
2
Desviacin estndar o varianza de dos poblaciones.
(donde s
2
1
s
2
2
)
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 48 / 108
Estadsticos de Prueba (Dos poblaciones)
t =
(x
1
x
2
)(
1

2
)
_
s
2
1
n
1
+
s
2
2
n
2
Dos medias independientes.
Rechazamos
2
1
=
2
2
y n
1
30 o n
2
30.
(gl = min (n
1
1, n
2
1))
t =
(x
1
x
2
)(
1

2
)
_
s
2
p
n
1
+
s
2
p
n
2
Dos medias independientes.
No rechazamos
2
1
=
2
2
y n
1
30 o n
2
30.
(gl = n
1
+ n
2
2) y s
2
p
=
(n
1
1)s
2
1
+(n
2
1)s
2
2
(n
1
1)+(n
2
1)
.
z =
( p
1
p
2
)(p
1
p
2
)
_
pq
n
1
+
pq
n
2
Dos proporciones
(donde p =
(x
1
+x
2
)
(n
1
+n
2
)
)
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 49 / 108
Pruebas de Hiptesis
Hiptesis estadsticas
Prueba de hiptesis estadstica
Hiptesis unilaterales y bilaterales
Prueba de hiptesis sobre la media, varianza desconocida
Prueba de hiptesis sobre la igualdad de dos medias, varianzas conocidas
Prueba de hiptesis sobre la media, varianza desconocida
Prueba de hiptesis sobre la igualdad de dos medias, varianzas desconocidas
Prueba de hiptesis sobre la varianza
Prueba de hiptesis para la igualdad de dos varianzas
Prueba de hiptesis sobre una proporcin
Prueba de hiptesis sobre dos proporciones
Prueba de bondad de ajuste
Pruebas con tablas de contingencia
Clculo del tamao de muestra para diferentes pruebas
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 50 / 108
Prueba de bondad de ajuste
Una prueba de bondad de ajuste es usada para probar la hiptesis de que
una distribucin de frecuencias se ajusta a alguna distribucin aseverada.
sta prueba se utiliza slo en experimentos multinomiales.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 51 / 108
Prueba de bondad de ajuste
Un experimento multinomial es un experimento que cumple con las
siguientes condiciones.
1
Est jo el nmero de ensayos.
2
Los ensayos son independientes.
3
Todas las salidas decada ensayo deben ser clasicadas en exactamente
una de varias categoras diferentes.
4
Las probabilidades para las diferentes categoras permanecen
constantes para cada ensayo.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 52 / 108
Prueba de bondad de ajuste
Notacin
O representa la frecuencia observada de una salida.
E representa la frecuencia esperada de una salida.
k representa el nmero de categoras diferentes.
n representa el total nmero de ensayos.
El estadstico de prueba para bondad de ajuste ser
2
=

(OE)
2
E
.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 53 / 108
Prueba de bondad de ajuste
Ejemplo
Mucha gente cree que en una carrera de caballos, se tiene mejor
posibilidades de ganar si se comienza en una posicin cercana al riel
interno de la pista. La posicin inicial 1 es la ms cercana al interior del
riel, seguida de la posicin 2, y as sucesivamente. La siguiente tabla lista
el nmero de victorias para caballos que comenzaron en diferentes
posiciones. Hay que probar la armacin de que las probabilidades de
ganar en las diferentes posiciones no son iguales.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 54 / 108
Prueba de bondad de ajuste
Ejemplo
Solucin:
Posicin Inicial
1 2 3 4 5 6 7 8
Victorias 29 19 18 25 17 10 15 11
Se observan resultados para 144 victorias; si la probabilidad de ganar en
cada posicin inicial es la misma, la probabilidad de ganar para cada
posicin es p = 1/8 y el nmero esperado de victorias para cada posicin
ser E = np = (144) (1/8) = 18.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 55 / 108
Prueba de bondad de ajuste
Ejemplo
Solucin:
Posicin Frecuencia Frecuencia
inicial observada (O) esperada (E) O E (O E)
2 (OE)
2
E
1 29 18 11 121 6.722
2 19 18 1 1 0.055
3 18 18 0 0 0
4 25 18 7 49 2.722
5 17 18 1 1 0.055
6 10 18 8 64 3.555
7 15 18 3 9 0.5
8 11 18 7 49 2.722
144 144
2
=

(OE)
2
E
= 16.333
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 56 / 108
Prueba de bondad de ajuste
Ejemplo
Solucin:
Por lo tanto tenemos el estadstico de prueba
2
= 16.33 y el valor crtico

2
= 14.067 (encontrado con = 0.05 y con grados de libertad
k 1 = 7).
No hay evidencia suciente para apoyar la armacin de que las
probabilidades de ganar iniciando en diferentes posiciones no son las
mismas. Parece ser que la posicin de inicio debe ser considerada cuando
se trata de seleccionar cual caballo ganar la carrera.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 57 / 108
Pruebas con tablas de contingencias
Una tabla de contingencia (o tabla de frecuencias de dos vas) es una tabla
en donde las frecuencias corresponden a dos variables. (Una variable es
usada para categorizar renglones, y la segunda es usada para categorizar
columnas.)
sta prueba se puede utilizar para probar dos tipos de supuestos: para
independencia y para homogeneidad.
Cuando se prueba independencia la hiptesis nula arma que las
variables de rengln y columna son independientes.
Cuando se prueba homogeneidad la hiptesis nula arma que
poblaciones diferentes tienen las mismas proporciones de ciertas
caractersticas.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 58 / 108
Pruebas con tablas de contingencias
El estadstico de prueba para bondad de ajuste ser
2
=

(OE)
2
E
.
Slo que en este caso los grados de libertad = (r - 1)(c - 1).
Y la frecuencia esperada ser: E =
(renglones totales)(columnas totales)
(total general)
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 59 / 108
Pruebas con tablas de contingencias
Ejemplo
El gnero del encuestador tiene un efecto en las respuestas de los
hombres?. Se encuestaron hombres a los cuales se les pregunt si estaban
de acuerdo a la siguiente armacin: "El aborto es una cuestin privada
que debe dejarse a la decisin de las mujeres sin la intervencin del
gobierno". Usando un nivel de signicancia de 0.05, probar la armacin
de que las proporciones de respuestas acuerdo/desacuerdo son las mismas
para los sujetos entrevistados por hombres y los sujetos entrevistados por
mujeres.
Genero del encuestador
Hombre Mujer
Acuerdo 560 308
Desacuerdo 240 92
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 60 / 108
Contenido
Estimacin puntual y de intervalos
Pruebas de Hiptesis
Regresin Lineal y Correlacin
Herramientas bsicas de calidad
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 61 / 108
Regresin Lineal y Correlacin
Correlacin
Una correlacin existe entre dos variables cuando una de ellas est
relacionada a la otra de alguna manera.
Un coeciente de correlacin es el de Pearson:
r =
n

xy (

x) (

y)
_
n (

x
2
) (

x)
2
_
n (

y
2
) (

y)
2
donde 1 r 1.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 62 / 108
Regresin Lineal y Correlacin
Pruebas de Hiptesis
En general, cuando hacemos una prueba de correlacin entre dos variables,
lo que nos interesa saber es, si existe relacin entre las dos variables o n,
es por eso que se realiza la siguiente prueba de hiptesis:
H
0
: = 0 vs H
1
: 6= 0
con el estadstico de prueba dado por t =
r
_
1r
2
n2
, el cual se comparar con
el valor crtico t

2
con n 2 grados de libertad
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 63 / 108
Regresin Lineal y Correlacin
Ejemplo
Ejemplo de los osos. Basados en los datos, Parece haber relacin entre la
longitud y el peso de un oso?, si es as, Cul es esta relacin?. Si un
investigador anestesiaba un oso y meda su longitud, y fuese de 71
pulgadas, cmo usamos sta longitud para predecir el peso del oso?.
Longitud (in) 53.0 67.5 72.0 72.0 73.5 68.5 73.0 37.0
Peso (lb) 80 344 416 348 262 360 332 34
MINITAB
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 64 / 108
Regresin Lineal y Correlacin
Errores comunes que se comenten en la Correlacin.
1
La correlacin no implica causalidad.
2
Propiedad de linearidad.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 65 / 108
Regresin Lineal y Correlacin
Errores comunes que se comenten en la Correlacin.
1
La correlacin no implica causalidad.
2
Propiedad de linearidad.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 65 / 108
Regresin Lineal y Correlacin
Regresin Lineal
La regresin y correlacin son las dos herramientas estdisticas ms
poderosas y verstiles que se pueden utilizar para solucionar problemas
comunes en los negocios.
Se debe diferenciar entre la regresin simple y la regresin mltiple. En la
regresin simple, se establece que Y es una funcin de slo una variable
independiente. En un modelo de regresin mltiple, Y es funcin de dos
o ms variables.
Tambin es necesario hacer una distincin entre la regresin lineal y la
regresin curvilineal. La regresin curvilineal utiliza una curva para
expresar la relacin entre X y Y.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 66 / 108
Regresin Lineal y Correlacin
Regresin Lineal
Las regresiones pueden ser:
Y = aX
2
+ bX + c Cuadrtica
Y = aX
3
+ bX
2
+ cX + d Cbica
Y = aX
4
+ bX
3
+ cX
2
+ dX + e De grado 4.
Y = a + b ln X Logartmica
Y = ab
X
Exponencial
Y = aX
b
Potencia
Y = c
_
1 + ae
bX
Logstica
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 67 / 108
Regresin Lineal y Correlacin
Regresin Lineal
La variable independiente presenta algn grado de aleatoriedad. Por tanto,
habr algn error en el intento de explicar o predecir; se dice que el
modelo es estocstico.
Y =
0
+
1
X + .
El modelo lineal con base en datos muestrales:
Y = b
0
+ b
1
X + e
en donde los valores b
0
y b
1
son estimaciones de
0
y
1
, respectivamente,
y e es el trmino aleatorio conocido como residual.
El modelo de regresin estimada ser

Y = b
0
+ b
1
X
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 68 / 108
Regresin Lineal y Correlacin
Regresin Lineal
El trmino del error es la diferencia entre los valores reales y los estimados
Error =
_
Y
i


Y
i
_
Para las estimaciones se utiliza el mtodo de mnimos cuadrados ordinarios
(MCO), pues se busca minimizar
SCE =

_
Y
i


Y
i
_
2
Para determinar la recta de mejor ajuste, MCO requiere que se calcule la
suma de cuadrados y productos cruzados. Es decir,
La suma de los cuadrados de X
S
xx
=

_
X
i
X
_
2
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 69 / 108
Regresin Lineal y Correlacin
Regresin Lineal
La suma de los cuadrados de Y
S
yy
=

_
Y
i
Y
_
2
y la suma de productos cruzados de X y Y
S
xy
=

_
X
i
X
_ _
Y
i
Y
_
Luego, las estimaciones sern,
b
1
=
S
xy
S
xx
b
0
= Y b
1
X
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 70 / 108
Regresin Lineal y Correlacin
Ejemplo
Overland Group produce partes para camin que se utilizan en los
semiremolques. El jefe de contabilidad desea desarrollar un modelo de
regresin que pueda utilizarse para predecir los costos. l selecciona
unidades de produccin fabricadas como una variable de prediccin y
recolecta los datos que se observan aqu. Los costos estn en miles de
dlares y las unidades en cientos.
Unidades 12.3 8.3 6.5 4.8 14.6 14.6 14.6 6.5
Costo 6.2 5.3 4.1 4.4 5.2 4.8 5.9 4.2
1
Haga un diagrama de dispersin para los datos.
2
Calcule e interprete el modelo de regresin. Qu le dice el contador
sobre la relacin entre produccin y costos?
3
Segn el modelo, cunto costara producir 750 unidades?
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 71 / 108
Regresin Lineal y Correlacin
Supuestos del modelo de regresin lineal
1
El trmino de error es una variable aleatoria distribuida
normalmente.
2
Varianzas iguales de los valores Y.
3
Los trminos de error son independientes uno del otro. Cuando esto
no ocurre se denomina Autocorrelacin.
4
El supuesto de linealidad.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 72 / 108
Regresin Lineal y Correlacin
Supuestos del modelo de regresin lineal
1
El trmino de error es una variable aleatoria distribuida
normalmente.
2
Varianzas iguales de los valores Y.
3
Los trminos de error son independientes uno del otro. Cuando esto
no ocurre se denomina Autocorrelacin.
4
El supuesto de linealidad.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 72 / 108
Regresin Lineal y Correlacin
Supuestos del modelo de regresin lineal
1
El trmino de error es una variable aleatoria distribuida
normalmente.
2
Varianzas iguales de los valores Y.
3
Los trminos de error son independientes uno del otro. Cuando esto
no ocurre se denomina Autocorrelacin.
4
El supuesto de linealidad.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 72 / 108
Regresin Lineal y Correlacin
Supuestos del modelo de regresin lineal
1
El trmino de error es una variable aleatoria distribuida
normalmente.
2
Varianzas iguales de los valores Y.
3
Los trminos de error son independientes uno del otro. Cuando esto
no ocurre se denomina Autocorrelacin.
4
El supuesto de linealidad.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 72 / 108
Regresin Lineal y Correlacin
Supuestos del modelo de regresin lineal
Para ver si hay autocorrelacin se utiliza el estadsitco de Durbin-Watson
d =

(e
t
e
t1
)
2

e
2
t
en donde e
t
es el error en el perodo de tiempo t y e
t1
es el error en el
perodo de tiempo anterior.
Este valor se utiliza para probar la hiptesis de que no existe correlacin
entre trminos de error sucesivos, as:
H
0
:
e
t
,e
t1
= 0 (No existe autocorrelacin)
H
1
:
e
t
,e
t1
6= 0 (Existe autocorrelacin)
en donde es el coeciente de correlacin para errores sucesivos.
Generalmente hablando, si el valor Durbin-Watson es cercano a 2, no se
rechaza la hiptesis nula.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 73 / 108
Regresin Lineal y Correlacin
Medidas de bondad de ajuste
Hay por lo menos dos medidas de bondad de ajuste: 1) el error estndar
de estimacin, y 2) el coeciente de determinacin.
El error estndar de estimacin, S
e
, es una herramienta del grado de
dispersin de los valores Y
i
alrededor de la recta de regresin. Mide la
variacin de los puntos de datos por encima y por debajo de la recta de
regresin.
S
e
=

_
Y
i


Y
i
_
2
n 2
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 74 / 108
Regresin Lineal y Correlacin
Medidas de bondad de ajuste
El coeciente de determinacin, r
2
, es otra medida quiz ms
importante de la bondad de ajuste. Se halla
r
2
=
(S
xy
)
2
_
(S
xx
) (S
yy
)
Proporciona una medida de bondad de ajuste porque revela qu porcentaje
del cambio en Y se explica por un cambio en X.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 75 / 108
Regresin Lineal y Correlacin
Limitaciones del anlisis de regresin
La correlacin no implica causalidad.
No utilizar el modelo para predecir Y para valores de X que estn
fuera del rango del conjunto original de datos.
Correlacin esprea, que ocurre simplemente por suerte.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 76 / 108
Regresin Lineal y Correlacin
Pruebas para

1
Si el parmetro de la pendiente de la regresin es cero, no existe relacin
entre las dos variables. Se debe probar la hiptesis:
H
0
:
1
= 0 H
1
:
1
6= 0
Esta prueba emplea el estadstico t
t =
b
1

1
s
b
1
y tiene n 2 grados de libertad, en donde
s
b
1
=
s
e
p
S
xx
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 77 / 108
Regresin Lineal y Correlacin
Pruebas para

1
Si se llegara a rechazar la hiptesis nula de que
1
= 0, la pregunta
natural ser, "Cul es su valor?" Esta pregunta puede responderse
calculando un intervalo de conanza para
1
.
b
1
t
/2
s
b
1

1
b
1
+ t
/2
s
b
1
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 78 / 108
Regresin Lineal y Correlacin
Resumen
1
Proponer un modelo probabilstico hipottico (Ej.
Y =
0
+
1
X + )
2
Estimar parmetros
3
Especicar la distribucin de .
4
Evaluar el modelo (Inferencias sobre
1
, calcular r
2
...)
5
Si estamos satisfechos, ya podemos usarlo.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 79 / 108
Regresin Lineal y Correlacin
Resumen
1
Proponer un modelo probabilstico hipottico (Ej.
Y =
0
+
1
X + )
2
Estimar parmetros
3
Especicar la distribucin de .
4
Evaluar el modelo (Inferencias sobre
1
, calcular r
2
...)
5
Si estamos satisfechos, ya podemos usarlo.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 79 / 108
Regresin Lineal y Correlacin
Resumen
1
Proponer un modelo probabilstico hipottico (Ej.
Y =
0
+
1
X + )
2
Estimar parmetros
3
Especicar la distribucin de .
4
Evaluar el modelo (Inferencias sobre
1
, calcular r
2
...)
5
Si estamos satisfechos, ya podemos usarlo.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 79 / 108
Regresin Lineal y Correlacin
Resumen
1
Proponer un modelo probabilstico hipottico (Ej.
Y =
0
+
1
X + )
2
Estimar parmetros
3
Especicar la distribucin de .
4
Evaluar el modelo (Inferencias sobre
1
, calcular r
2
...)
5
Si estamos satisfechos, ya podemos usarlo.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 79 / 108
Regresin Lineal y Correlacin
Resumen
1
Proponer un modelo probabilstico hipottico (Ej.
Y =
0
+
1
X + )
2
Estimar parmetros
3
Especicar la distribucin de .
4
Evaluar el modelo (Inferencias sobre
1
, calcular r
2
...)
5
Si estamos satisfechos, ya podemos usarlo.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 79 / 108
Regresin Lineal y Correlacin
Intervalos de conanza en el anlisis de regresin
Existen por lo menos dos estimados por intervalo que se relacionan
que se relacionan comunmente con los procedimientos de regresin.
El primero es un estimado por intervalo para el valor promedio de Y
dado cualquier valor X. Se puede estimar la media poblacional para
todos los valores de Y cuando X es igual a algn valor dado. Esto es
lo que se denomina media condicionada.
Un segundo intervalo de conanza importante busca estimar un valor
nico de Y dado que X se ja en una cantidad especca. Este
estimado se llama intervalo de prediccin. Por lo tanto, mientras
que la media condicionada es una estimacin del valor promedio de Y
en todos los meses en los cuales X es a un monto especicado, los
estimados por intervalo de prediccin Y en cualquier mes, en el cual
X se ja en un monto dado.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 80 / 108
Regresin Lineal y Correlacin
Intervalos de conanza en el anlisis de regresin
Existen por lo menos dos estimados por intervalo que se relacionan
que se relacionan comunmente con los procedimientos de regresin.
El primero es un estimado por intervalo para el valor promedio de Y
dado cualquier valor X. Se puede estimar la media poblacional para
todos los valores de Y cuando X es igual a algn valor dado. Esto es
lo que se denomina media condicionada.
Un segundo intervalo de conanza importante busca estimar un valor
nico de Y dado que X se ja en una cantidad especca. Este
estimado se llama intervalo de prediccin. Por lo tanto, mientras
que la media condicionada es una estimacin del valor promedio de Y
en todos los meses en los cuales X es a un monto especicado, los
estimados por intervalo de prediccin Y en cualquier mes, en el cual
X se ja en un monto dado.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 80 / 108
Regresin Lineal y Correlacin
Intervalos de conanza en el anlisis de regresin
Existen por lo menos dos estimados por intervalo que se relacionan
que se relacionan comunmente con los procedimientos de regresin.
El primero es un estimado por intervalo para el valor promedio de Y
dado cualquier valor X. Se puede estimar la media poblacional para
todos los valores de Y cuando X es igual a algn valor dado. Esto es
lo que se denomina media condicionada.
Un segundo intervalo de conanza importante busca estimar un valor
nico de Y dado que X se ja en una cantidad especca. Este
estimado se llama intervalo de prediccin. Por lo tanto, mientras
que la media condicionada es una estimacin del valor promedio de Y
en todos los meses en los cuales X es a un monto especicado, los
estimados por intervalo de prediccin Y en cualquier mes, en el cual
X se ja en un monto dado.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 80 / 108
Regresin Lineal y Correlacin
X
Primera interpretacin: Si se deja X igual la misma cantidad de veces,
se obtendrn muchos valores diferentes de Y. Entonces se puede estar
95% seguro de que la media de esos valores Y (
y /x
) caer dentro del
intervalo especicado.
Segunda interpretacin: Si se tomaran muchas muestras de los valores
de X y Y, y se construyera un intervalo de conanza con base en cada
muestra, 95% de ellos contendra
y /x
, el valor promedio real pero
desconocido de Y dado un valor de X.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 81 / 108
Regresin Lineal y Correlacin
X
Primero se debe calcular el error estndar de la media condicionada
S
Y
= S
e
_
1
n
+
_
X
i
X
_
2
S
xx
en donde S
e
es el error estndar de estimacin y X
i
es el valor dado para
la variable independiente. Y el intervalo de conanza para la media
condicionada es entonces:

Y
i
t
/2
s
Y

y /x


Y
i
+ t
/2
s
Y
en la cual

Y
i
es el estimador puntual hallado de la ecuacin de regresin y
el valor t se basa en n 2 grados de libertad.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 82 / 108
Regresin Lineal y Correlacin
Y
Primera interpretacin: Si se determina que X es igual a alguna
cantidad slo una vez, se podra obtener un nico valor resultante de Y.
Se puede estar 95% seguro de que dicho valor nico de Y cae dentro del
intervalo especicado.
Segunda interpretacin: Si se tomaran muchas muestras y cada una se
utilizara para construir un intervalo de conanza de prediccin, el 95% de
ellos contendran el valor verdadero para Y.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 83 / 108
Regresin Lineal y Correlacin
Y
Primero se debe calcular el error estndar del pronstico
S
Y
i
= S
e
_
1 +
1
n
+
_
X
i
X
_
2
S
xx
en donde S
e
es el error estndar de estimacin y X
i
es el valor dado para
la variable independiente. Y el intervalo de prediccin para un valor nico
Y, Y
X
es entonces:

Y
i
t
/2
s
Y
i
Y
X


Y
i
+ t
/2
s
Y
i
en la cual

Y
i
es el estimador puntual hallado de la ecuacin de regresin y
el valor t se basa en n 2 grados de libertad.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 84 / 108
Regresin Lineal y Correlacin
Anlisis de varianza en la regresin
El modelo de regresin presenta una descripcin de la naturaleza de la
relacin entre las variables dependiente e independiente.
Se utiliz una prueba t para probar la hiptesis que
1
= 0.
Una prueba similar puede realizarse con el uso del anlisis de varianza
(ANOVA) con base en la prueba F.
El procedimiento ANOVA mide la cantidad de variacin en el modelo de
muestreo.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 85 / 108
Regresin Lineal y Correlacin
Anlisis de varianza en la regresin
Fuente Suma Grados Cuadrado Razn F
de Variacin de cuadrados de libertad medio
Regresin SCR k CMR =
SCR
k
CMR
CME
Error SCE n k 1 CME =
SCE
nk1
Total SCT n 1
donde la suma de cuadrados de la regresin es SCR =

Y
i
Y
_
2
.
La razn CMR/CME proporciona un medida de exactitud del modelo
porque es la razn de la desviacin promedio al cuadrado que se explica
con el modelo. Entre mayor sea esta razn, el modelo tendr mayor poder
explicativo.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 86 / 108
La guerra de las "Colas"
Ejercicio - Tarea
La guerra de las "Colas" entre Coca Cola y Pepsi, ...
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 87 / 108
Regresin Mltiple y Correlacin
Regresin Mltiple
El modelo de regresin mltiple con k variables independientes se expresa
como:
Y =
0
+
1
X
1
+
2
X
2
+ ... +
k
X
k
+ .
El modelo de regresin estimada ser

Y = b
0
+ b
1
X
1
+ b
2
X
2
+ ... + b
k
X
k
La regresin mltiple implica los mismos supuestos que en la regresin
lineal simple, ms otros dos.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 88 / 108
Regresin Mltiple y Correlacin
Regresin Mltiple
El primer supuesto requiere que el nmero de observaciones n, exceda el
nmero de variables independientes k, en por lo menos 2.
El segundo supesto involucra la relacin entre las variables independientes.
Requiere que ninguna de las variables independientes est linealmente
relacionada. Por ejemplo, si X
1
= X
2
+ X
3
, o quiz X
1
= 0.5X
2
, entonces
una relacin lineal existir entre dos o ms variables independientes y
surgira un problema grave. Este problema es la multicolinealidad.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 89 / 108
Regresin Mltiple y Correlacin
Medidas de bondad de ajuste
El error estndar de estimacin,
S
e
=

_
Y
i


Y
i
_
2
n k 1
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 90 / 108
Regresin Mltiple y Correlacin
Medidas de bondad de ajuste
El coeciente de determinacin mltiple,
R
2
=
SCR
SCT
Proporciona una medida de bondad de ajuste porque revela qu porcentaje
del cambio en Y se explica por un cambio en X, donde
SCR =

_

Y
i
Y
_
2
.
SCT =

_
Y
i


Y
i
_
2
.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 91 / 108
Regresin Mltiple y Correlacin
Medidas de bondad de ajuste
Es posible inar articialmente R
2
, simplemente adicionando otra variable
independiente al modelo.
Por consiguiente, es una prctica comn reportar el coeciente de
determinacin corregido. Representado por R
2
, este estadstico se ajusta
a la medida del poder explicativo para el nmero de grados de libertad.
R
2
decrecer si se adiciona una variable que no ofrece suciente poder
explicativo como para justicar su prdida en los grados de libertad. Si se
reduce demasiado, se debe considerar su retiro.
R
2
= 1
_
1 R
2
_
n 1
n k 1
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 92 / 108
Deteccin de la multicolinealidad
Matriz de correlacin
Primero se calcula la matriz de correlacin y despus se hace la siguiente
prueba de hiptesis:
H
0
:
12
= 0 vs H
1
:
12
6= 0
con el estadstico de prueba dado por t =
r
12
_
1r
2
12
n2
, el cual se comparar con
el valor crtico t

2
con n 2 grados de libertad.
Otra forma de detectar la multicolinearidad es analisar el factor de
inacin de varianza (VIF), el cual, es una medida del grado de
multicolinearidad en que contribuye dicha variable.
VIF (X
i
) =
1
1 R
2
i
donde R
2
i
es el coeciente de determinacin obtenido al hacer la regresin
de X
i
sobre todas las otras variables independientes.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 93 / 108
Corrigiendo la multicolinealidad
Lo usual es eliminando la variable correlacionada del modelo. O se puede
hacer regresin paso a paso. Puede tomar la forma de: 1) eliminacin
hacia atrs o 2) eliminacin hacia adelante.
Eliminacin hacia atrs: Se hace calculando el modelo con todas las
variables, se calculan los valores t para todos los coecientes. Si alguno es
insignicante lo eliminamos y calculamos el modelo nuevamente. Esto
contina hasta que todos los b
i
sean signicativamente diferentes de cero.
Eliminacin hacia adelante: Se selcciona la variable ms altamente
correlacionada con Y. La siguiente variable que se toma es la que tenga
mas alto el coeciente de determinacin. Esto contina hasta que todas
las variables estn en el modelo o hasta que la inclusin de otra variable no
termine en un incremento signicativo en R
2
.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 94 / 108
Corrigiendo la multicolinealidad
EJERCICIOS INDIVIDUALES
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 95 / 108
Contenido
Estimacin puntual y de intervalos
Pruebas de Hiptesis
Regresin Lineal y Correlacin
Herramientas bsicas de calidad
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 96 / 108
Herramientas bsicas de calidad
Hoja de vericacin
Estraticacin
Diagrama de Pareto
Histograma
Diagrama causa-efecto (Ishikawa)
Diagrama de dispersin
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 97 / 108
Hoja de vericacin
Se utiliza para reunir datos basados en la observacin del comportamiento
de un proceso con el n de detectar tendencias, por medio de la captura,
anlisis y control de informacin relativa al proceso. Bsicamente es un
formato que facilita que una persona pueda tomar datos en una forma
ordenada y de acuerdo al estndar requerido en el anlisis que se est
realizando. Las hojas de vericacin tambin conocidas como de
comprobacin o de chequeo organizan los datos de manera que puedan
usarse con facilidad ms adelante.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 98 / 108
Diagrama de Pareto
Herramienta utilizada para el mejoramiento de la calidad para identicar y
separar en forma crtica los pocos proyectos que provocan la mayor parte
de los problemas de calidad.
El principio enuncia que aproximadamente el 80% de los efectos de un
problema se debe a solamente 20% de las causas involucradas.
El diagrama de Pareto es una grca de dos dimensiones que se construye
listando las causas de un problema en el eje horizontal, empezando por la
izquierda para colocar a aquellas que tienen un mayor efecto sobre el
problema, de manera que vayan disminuyendo en orden de magnitud. El
eje vertical se dibuja en ambos lados del diagrama: el lado izquierdo
representa la magnitud del efecto provocado por las causas, mientras que
el lado derecho reeja el porcentaje acumulado de efecto de las causas,
empezando por la de mayor magnitud.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 99 / 108
Diagrama de Pareto
Pasos para desarrollar el diagrama de Pareto:
1
Seleccione qu clase de problemas se van a analizar.
2
Decida qu datos va a necesitar y cmo clasicarlos. Ejemplo: Por
tipo de defecto, localizacin, proceso, mquina, trabajador, mtodo.
3
Dena el mtodo de recoleccin de los datos y el perodo de duracin
de la recoleccin.
4
Disee una tabla para el conteo de datos con espacio suciente para
registrarlos.
5
Elabore una tabla de datos para el diagrama de Pareto con la lista de
categoras , los totales individuales, los totales acumulados, la
composicin porcentual y los porcentajes acumulados.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 100 / 108
Diagrama de Pareto
Pasos para desarrollar el diagrama de Pareto:
6. Organice las categoras por orden de magnitud decreciente, de
izquierda a derecha en un eje horizontal construyendo un diagrama de
barras. El concepto de otros debe ubicarse en el ltimo lugar
independientemente de su magnitud.
7. Dibuje dos ejes verticales y uno horizontal.
Ejes verticales:
Eje izquierdo: Marque este eje con una escala desde 0 hasta el total
general
Eje derecho: Marque este eje con una escala desde 0 hasta 100%
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 101 / 108
Diagrama de Pareto
Pasos para desarrollar el diagrama de Pareto:
1
Eje horizontal:
Divida este eje en un nmero de intervalos igual al nmero de
categoras clasicadas.
8. Dibuje la curva acumulada (curva de Pareto), Marque los valores
acumulados (porcentaje acumulado) en la parte superior, al lado
derecho de los intervalos de cada categora, y conecte los puntos con
una lnea continua.
9. Escriba en el diagrama cualquier informacin que considere necesaria
para el mejor entendimiento del diagrama de Pareto.
EJEMPLO
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 102 / 108
Diagrama causa-efecto (Ishikawa)
El Diagrama de Ishikawa, tambin llamado diagrama de causa-efecto, Se
trata de un diagrama que por su estructura ha venido a llamarse tambin:
diagrama de espina de pescado, que consiste en una representacin grca
sencilla en la que puede verse de manera relacional una especie de espina
central, que es una lnea en el plano horizontal, representando el problema
a analizar, que se escribe a su derecha.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 103 / 108
Diagrama causa-efecto (Ishikawa)
Procedimiento
Para empezar, decide cual caracterstica de calidad, salida o efecto quieres
examinar y continua con los siguientes pasos:
"Cero quejas en calidad"
1
Dibuja un diagrama en blanco.
2
Escribe de forma concisa el problema o efecto.
"Quejas que manietan disconformidad con el servicio"
3
Escribe las categoras que consideres apropiadas a tu problema:
maquina, mano de obra, materiales, mtodos, son los ms comunes y
aplican en muchos procesos.
"Atencin telefnica en el primer momento. informacin de los
producos. Trato del personal."
4
Realiza una lluvia de ideas (brainstorming) de posibles causas y
relacinalas a cada categora. No se atiende al telfono al primer
sonido- No se informa de los productos disponibles en cada demanda.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 104 / 108
Diagrama causa-efecto (Ishikawa)
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 105 / 108
Diagrama causa-efecto (Ishikawa)
5. Pregntale por que? a cada causa, no ms de dos o tres veces.
Porque no se dispone de tiempo necesario Porque no se dispone de
tiempo para estudiar las caracersticas de cada producto.
6. Empieza por enfocar tus variaciones en las causas seleccionadas como
fcil de implementar y de alto impacto. Pausar el momento y atender
el elfono al primer sonido. Estuiar las caraceraticas de cada
producto fuera del horario laboral.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 106 / 108
FIN DEL CURSO
GRACIAS !!!
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 107 / 108
BIBLIOGRAFA
Mario F. Triola (1998), Elementary Statistics. Addison Wesley.
Allen L. Webster . Estadstica aplicada a los negocios y la
economa, tercera edicin. MCGraw-Hill.
J.G. Kalbeisch (1985). Probability and Statistical Inference. Vol
2. Springer-Verlang.
Internet.
Universidad de Guanajuato () Mtodos Estadsticos II Agosto - Dic 2011 108 / 108

You might also like