Professional Documents
Culture Documents
Noviembre 2015
www.atalayadecristo.org
Anlisis de Regresin y
Correlacin - PAG. 116
El modelo estadstico que nos permite representar la relacin
entre dos variables (dependiente e independiente) se denomina
Ecuacin de Regresin, ya que a travs de el podemos regresar o
proyectar datos sobre el posible comportamiento futuro del
fenmeno.
Dada una coleccin de datos de muestra apareados, la ecuacin
de regresin
y = bo + bix
y = f(x)
Donde bo es la ordenada de origen y bi es la pendiente.
describe la relacin entre dos variables. La grfica de la
ecuacin de regresin se denomina lnea de regresin (o lnea de
mejor ajuste, o lnea de mnimos cuadrados).
Anlisis de Regresin y
Correlacin
Mnimos cuadrados ordinarios (MCO).
Vale la pena notar que las primeras porciones de cada una de estas
formulas:
SCx = (Xi-X')
SCy = (Yi-Y')
SCxy = (Xi-X')(Yi-Y')
Ilustran como la recta MCO se basa en las desviaciones de las
observaciones a partir de su media.
Mnimos cuadrados ordinarios
(MCO)
SCx = X - [(X)/n] 137.73333
SCx = (Xi-X') 137.73333
SCy = Y - *(Y)/n+ 171.73333
SCy = (Yi-Y') 171.73333
SCxy = XY - *(X)(Y)/n+ 148.93333
SCxy = (Xi-X')(Yi-Y') 148.93333
bi = SCxy/SCx 1.08132
X' 12.46667
Y' 17.86667
bo = Y' - biX' 4.38625
Anlisis de Regresin y
Correlacin
Dadas las sumas de cuadrados y los productos cruzados, es
sencillo calcular la pendiente de la recta de regresin y el
intercepto, as:
La Pendiente de la recta de regresin.
bi = SCxy/SCx
El intercepto de la recta de regresin.
bo = Y' - biX'
donde Y' y X' son las medias de los valores de Y y los valores de
X.
Se = [SCy ((SCxy)/SCx)]/n-2
El error estndar siempre se expresa en las mismas unidades que la variable
dependiente Y.
SCE = SCy - (SCxy)/SCx 10.68925
Se = CME 0.90678
Se= (( SCy - (SCxy)/SCx)/(n-2)) 0.90678
r = SCxy / (SCx)(SCy) 0.968378
Anlisis de Regresin y
Correlacin
El valor positivo para un bi indica una relacin directa. A medida que la publicidad aumenta,
tambin lo hace el numero de pasajeros. Ahora es til obtener una medida de la fuerza de esa
relacin. Esta es la funcin del Coeficiente de Correlacin, desarrollada por Carl Pearson, a
veces se le llama el Coeficiente de Correlacin producto-momento de Pearson.
El Coeficiente de Correlacin r puede asumir cualquier valor entre -1 y +1, es decir,
-1 r +1
Un valor de r = -1 indica una relacin negativa entre X y Y.
Suma de Cuadrados Total
SCT = (Yi-Y')
Suma de Cuadrados de la Regresin
SCR = (Y^i-Y')
Suma de Cuadrado de Error
SCE = (Yi-Y^i)
Coeficiente de Correlacin
r = SCR/SCT
r = SCxy / (SCx)(SCy)
Regression Analysis
r0.938 n15
r0.968 k1
Std. Error0.907 Dep. Var.Pasajeros
ANOVA table
Source SS df MS F p-value
Regression 161.0441 1 161.0441 195.86 3.24E-09
Residual 10.6893 13 0.8223
Total 171.7333 14
VENTAS PUBLICIDAD
MESES EN MILES EN MILES
Y X
ENERO 350 200
FEBRERO 300 250
MARZO 630 300
ABRIL 840 250
MAYO 930 330
JUNIO 1,060 180
JULIO 1,280 150
AGOSTO 850 350
SEPTIEMBRE 700 200
OCTUBRE 1,160 250
NOVIEMBRE 1,180 250
DICIEMBRE 1,500 170
TOTALES 10,780 2,880
Regression Analysis
r0.090 n12
r-0.300 k1
Std. Error364.293 Dep. Var.VENTAS
ANOVA table
Source SS df MS F p-value
Regression 131,272.7273 1 131,272.7273 0.99 .3434
Total 1,458,366.6667 11
Valor Critico Z: Es el nmero que est en la frontera que separa las estadsticas
de muestra que probablemente ocurrirn, de aquellas que probablemente no
ocurrirn. Es un puntaje con la propiedad de que separa un rea de /2 de la cola
derecha de la distribucin normal estndar.
E = Z * /n
Estimados
E = Z * /n
Intervalo de confianza para estimar (media poblacional real
desconocida) cuando es conocida.
Caso I.
Para estimar el gasto promedio de los clientes en el McDonald's
local, los estudiantes de Mtodos Cuantitativos toman una
muestra de 200 clientes y encuentran un gasto promedio de
US$5.67, con una desviacin estndar poblacional de US$1.10.
Cul es el intervalo de confianza del 95% para los gastos
promedio de todos los clientes? Interprete sus resultados.
I. C. para estimar = X' E
Datos: E = Z * /n = 1.96 * (1.10/200) = 0.15
n=200 N.C.=95% I.C. para estimar = US$5.67 0.15
x'=US$5.67 I.C.=?
=US$1.10 = US$5.52 US$5.82
Confidence interval - mean
Caso I.
Para estimar el gasto promedio de los clientes en el McDonald's local, los
estudiantes de Mtodos Cuantitativos toman una muestra de 200 clientes y
encuentran un gasto promedio de US$5.67, con una desviacin estndar
poblacional de US$1.10. Cul es el intervalo de confianza del 95% para los
gastos promedio de todos los clientes? Interprete sus resultados.
I. C. para estimar = X' E
E = Z * /n = 1.96 * (1.10/200) = 0.15
I. C. = US$5.52 US$5.82
Los estudiantes poseen un 95% de confianza de que la media poblacional
desconocida del gasto de los clientes del McDonal's evaluados se encuentra
entre el intervalo US$5.52 US$5.82.
Si se construyen todos los NCn intervalos de confianza, el 95% de ellos
contendr la media poblacional desconocida. Esto por supuesto significa que
el 5% de todos los intervalos estara errado - no contendran la media
poblacional, el Valor alfa .
Clculo del E cuando se desconoce
(desviacin estndar poblacional)
Si n > 30, podemos sustituir de la formula del E por la desviacin estndar de la
muestra s.
E = Z * s/n
Procedimiento para construir un intervalo de confianza para (basado en una
muestra grande: n > 30).
1. Encuentre el valor critico Z que corresponda al grado de confianza deseado.
2. Evale el margen de error E = Z * /n. Si se desconoce la desviacin
estndar de la poblacin , use el valor de la desviacin estndar de la muestra
s, siempre que n > 30.
3. Con el valor del margen de error calculado y el valor de la media de muestra
X', obtenga los valores de X'-E y X'+E. Sustituya estos valores en el formato
general del intervalo de confianza:
X'-E X'+E
= X' E
(X'-E ,X'+E
4. Redondee los valores resultantes aplicando la regla de redondeo.
Regla de Redondeo para intervalos de
confianza empleados para estimar
Caso I.
Una muestra consiste en 75 televisores adquiridos hace varios aos. Los
tiempos de reemplazo de esos televisores tienen una media de 8.2 aos y una
desviacin estndar de 1.1 aos (basados en datos de "Getting Things Fixed",
Consumer Reports). Construya un intervalo de confianza del 90% para el
tiempo de reemplazo medio de todos los televisores de esa poca.
Caso II.
Utilice el grado de confianza y los datos de muestra dados para determinar (a)
el margen de error y (b) el intervalo de confianza para la media de la poblacin
1. Estaturas de mujeres: confianza del 95%; n=50, x'=63.4 pulgs., s=2.4 pulgs.
2. Promedios de calificaciones: confianza del 99%; n=75, x'=2.76, s=0.88.
3. Puntajes en una prueba: confianza del 90%; n=150, x'=77.6; s=14.2.
n =[Z/E]
n =[Z/E]
Caso I.
Un economista desea estimar los ingresos medios durante el primer ao de
trabajo de un graduado universitario que, en un alarde de sabidura, tomo un
curso de estadstica. Cuantos de tales ingresos es necesario encontrar si
queremos tener una confianza del 95% en que la media de muestra este a
menos de US$500 dlares de la verdadera media de la poblacin? Suponga
que un estudio previo revelo que, para tales ingresos, = US$6250.
DATOS:
N.C.=95% ===> Z=1.96
Queremos que la media de la muestra este dentro de un margen de US$500
de la media de la poblacin.
E=US$500
=US$6,250
n = [(1.96 * 6250)/500]=
Determinacin del tamao apropiado de la muestra
Caso II.
Que tan grande se requiere que sea una muestra para que proporcione una
estimacin del 90% del numero promedio de graduados de las universidades
de la nacin con un error de 2000 estudiantes si una muestra piloto reporta
que s=8,659?
Caso III.
Nielsen Media Research quiere estimar la cantidad media de tiempo (en
horas) que los estudiantes universitarios de tiempo completo dedican a ver
televisin cada da entre semana. Determine el tamao de muestra necesario
para estimar esa media con un margen de error de 0.25 horas (15 minutos).
Suponga que se desea un grado de confianza del 96%, y que un estudio piloto
indico que la desviacin estndar se estima en 1.87 horas.
Determinacin del tamao apropiado de la muestra
Caso II.
Una compaa de comunicaciones esta considerando un proyecto
para prestar servicio telefnico de larga distancia. Se le pide a
usted realizar un sondeo de opinin para estimar el porcentaje de
los consumidores que esta satisfecho con su servicio telefnico de
larga distancia actual. Usted quiere tener una confianza del 90%
en que su porcentaje de muestra estar a menos de 2.5 puntos
porcentuales del valor real para la poblacin, y un sondeo sugiere
que el porcentaje en cuestin anda alrededor del 85%. Que tan
grande deber ser la muestra?
Bioestadstica
Bioestadstica : Es la aplicacin de la Estadstica al rea de la
salud.
Proporcin = a / a + a
a = b
Proporcin = a / a + b
= parte dividida / entre el total
Relacin = a / a
Relacin = a / b
= una parte divida entre otra parte
Tasa = a / (a + b) x base
Mortalidad global = Todas las muertes durante un ao civil x 1,000 = muertes x 1,000
Poblacin a mitad del ao
Tasas
Mortalidad proporcional = Muertes atribuidas a enfermedad en un ao determinado x 100
Total de muertes en la poblacin en el mismo ao
Tasa de Mortalidad = Nios menores de 1 que fallecen por 1000 nacidos vivos.
Infantil
Tasa de Letalidad por Caso = Nm. de muertes por una enfermedad especfica
que se presenta en un perodo determinado
Nm. de individuos con la enfermedad especificada
durante ese perodo
Tasas
Tasa de Morbilidad = Nm. de individuos que presentan un
(ndice de ataque) Padecimiento en un perodo determinado
Nm. de personas de una poblacin en riesgo
Muchos epidemilogos opinan que las tasas de morbilidad proporcionan una medida ms
directa del estado de salud de una poblacin.
Medidas de Morbilidad: