Professional Documents
Culture Documents
AGRARIA DE LA SELVA
FACULTAD DE INGENIERA EN
INFORMTICA Y SISTEMAS
DEPARTAMENTO ACADMICO DE
CIENCIAS EXACTAS
REGRESIN Y
CORRELASIN LINEAL
SIMPLE
Yi = bo + b1 + b1Xi + ei
se distribuyen normalmente.
5. No hay errores de observacin en Xi e Yi.
Yi = o + 1 Xi + Ei , i = 1,2,.N
yx = o + 1Xi
Supongamos que bo y b1 son estimadores de o y 1
1) Yi = bo + b1 Xi +ei , i = 1,2,n
n : nmero de pares.
2) ei = Yi bo b1 Xi
En ambos miembros elevamos al cuadrado y sumamos desde 1 hasta n.
3)
n n
Q ei Yi b0 b1 X i
2 2
i 1 i 1
4)
Q
0
b 0
5)
Q
0
b1
Q n 2
n
i 0 1 i
b0 b0 i 1
(Y b b X ) 2
i 1
(Yi b0 b1 X i )( 1)
(Y
i 1
i b0 b1 X i ) 0
n n
Y nb
i 1
i 0 b1 X i 0.................(1)
i 1
De 5
Q n 2
n
i 0 1 i
b1 b1 i 1
(Y b b X ) 2
i 1
(Yi b0 b1 X i )( X i )
n
(2 X i ) (Yi b0 b1 X i ) 0
i 1
n n n
X Y
i 1
i i b0 Xi b1 X i2 ..............................(2)
i 1 i 1
Yi nb0 b1 X i 0......................................(1)
i 1 i 1
n n n
X Y
i 1
i i b0 Xi b1 X i2 0..........................(2)
i 1 i 1
Y
i 1
i Xi 1
i
b0 b1
n n
b0 Y b1 X
De la ecuacin (2) y reemplazando la frmula de bo en (2) se obtiene.
n n
n i Y Xi n n
i 1
X Y
i i
n
i 1
b1
i 1
n i 1
Xi b1 Xi 0
i 1
2
n n n
n X Y i i ( X i ) 2 n
X Y
i 1
i i
i 1
n
i 1 i
b1 i 1
n
b1 X i2 0
i 1
Factorizando b1 se obtiene:
n n
n
n X i Yi ( X i )
2
n
X Y i 1 i 1
b1 i 1
Xi 0
i 2
i i
i 1 n n i 1
n n
n
( X i )( Yi )
X i Yi i 1
n
i 1
S .P. XY
b1 i 1
n b1
n
( X i ) 2 S .C . X
X
i 1
i
2
i 1
n
N __ __ N
( X i )( Yi )
S .P. XY ( X i X )(Yi Y ) X iYi i 1 i 1
i 1 i 1 n
n __ n
( X i ) 2
S .C. X ( X i X ) 2 X i2 i 1
i 1 i 1 n
n __ n
(Yi ) 2
S .C.Y (Yi Y ) 2 Yi 2 i 1
i 1 i 1 n
1. PROBLEMA:
El nmero de acciones de la empresa SANTA ANITA que variaron durante un mes y
el precio al final del mes se muestran en la tabla que sigue:
MOVIMIENTO PRECIO ($)
(miles de
acciones)
4 2
1 1
5 4
3 2
2 1
1. Determinar la variable X e Y.
2. Graficar los datos mustrales en un eje de coordenadas.
3. Encontrar la ecuacin de regresin estimada.
4. Granear la ecuacin de regresin, estimada junto con la grfica de los datos
observados.
SOLUCIN:
1. MOVIMIENTO :X
PRECIO :Y
SOLUCIN:
n5 Xi 15 X 2
55 XiYi 37 Yi 10 Y 2
26
__ __
X 3 Y 2
15 2
S .C. X . 55 10
5
(15)(10)
S .P. XY . 37 7
5
(15) 2
S .C.Y . 26 6
2
S .P. XY
b1
S .C . X
7
b1 0.7 bo 2 (0.7)3 0.1
10
Una vez encontrado los valores de bo y b1, podemos escribir la ECUACIN DE
REGRESIN ESTIMADA.
Y i 0.1 0.7 X 1
INTERPRETACIN
bo = - 0.1 Geomtricamente es la distancia que hay del origen de coordenadas al
intercepto entre el eje Y y la ecuacin de regresin estimada.
Indica que cuando los movimientos sea igual a cero (0), el precio tendr una
disminucin (-) de 0.1.
b1 = 0.7 Indica que para cada cambio de aumento en el movimiento (nmero de
acciones), habr incremento promedio de 0.7 en el precio.
yx o 1 Xi
n n
RESIDUAL np (Yi Y i ) 2
i 1
(Yi Y i ) 2 / n p
i 1
n
TOTAL n1 (Yi Y )
i 1
2
n : Nmero de pares.
p : Nmero de parmetros a estimar.
Donde: Fc = C.M. regresin / C.M.residual
n __
1. S.C. TOTAL (Yi Y ) Yi ( Yi ) / n S .C.Y .
2 2 2
i 1
n __
2. S.C. REGRESIN b1S .P. XY b1 S .C. X . (Y i Y )
2 2
i 1
__ __ n __ __
3. S .P. XY X iYi n X Y ( Xi X )(Yi Y )
i 1
n
4. S.C. RESIDUAL (Yi Y )
i 1
2
S.C. TOTAL S.C. REGRESIN.
102
S.C.TOTAL S .C.Y . Yi ( Yi ) / n 26
2
6
2
5
S.C.REGRESIN b1S.P.XY (0.7)7 4.9
S.C.RESIDUAL 6 4.9 1.1.
1. PLANTEAR LAS HIPTESIS
Ho: 1 = 0 No existe regresin lineal entre el movimiento y el precio.
H1: 1 0 Existe regresin lineal entre el movimiento y el precio.
4. CONCLUSIN:
Como Fc. = 13.36 es mayor que Ft= 10.1, entonces se rechaza Ho, y
concluimos que existe regresin lineal entre la variable movimiento y el precio
en formas significativa (*).
bi i
tc
Sbi
I .C.(i) bi t( n2) / 2 Sbi
A) PARA (o)
C.M .RESIDUAL ( X 2 )
Donde. Sbo
n( S .C. X )
Con los datos de nuestro problema:
Encontrar los intervalos de confianza para o con 95% de probabilidad.
Solucin: 1- = 0.95
= 0.05
t( n2 ) / 2 t( 3) 0.05 / 2 3.182
0.3666(55)
Sbo 0.635
5(10)
2.12 o 1.92
INTERPRETACIN
Existe una probabilidad del 95% de que el verdadero valor del parmetro o est
comprendido entre esos valores,
Existe un 95% de probabilidad de que este intervalo encierre al parmetro o de la
lnea de regresin de la poblacin.
A) PARA (1) I.C. (1) = b1 t (n 2) / 2 Sb1
C.M .RESIDUAL 0.36667
Donde: Sb1 Sb1 0.1915
S .C. X . 10
t( 3) 0.025 3.182
0.0906 1 1.3094
INTERPRETACIN:
Existe un 95% de confianza de que este intervalo encierre al verdadero parmetro o
coeficiente de regresin 1 de la lnea de regresin de la poblacin.
I .C.( y. x ) Y t( n2) / 2 SY
__
( X X )2
SY p C.M .residual 1 1
n
S .C. X .
PARA NUESTRO PROBLEMA
Encuentre un intervalo de prediccin del 95% para el precio que experimentar la
empresa el prximo mes, si el movimiento es de 4 500 acciones.
SOLUCIN:
0.1 0.7(4.5) 3.05 t ( 5) 0.025 3.182
1 (4.5 3) 2
S Yp 0.36661 0.7228
5 10
I .C.(Y p ) 3.05 3.182(0.7228)
0.75 Yp 5.35
Interpretacin: Si se tiene muchos movimientos de acciones iguales a 4 500, existe
un 95% de confianza de que el verdadero valor del precio se encuentre entre 0.75 y
5.35 dlares.
Rechazamos Ho si:
tc t( n2) / 2 si tc t( n2)
2
Si H1: o > 0
Rechazamos Ho, si tc t(n-2)
Si H1: o < 0
Rechazamos Ho, si tc - t(n-2)
5. Clculo de tc
b0 0
tc
Sb0
6. Conclusin
B) PARA 1 (COEFICIENTE DE REGRESIN)
1. Plantear las hiptesis. Ho : 1 = 0
H1 : 1 0
2. Fijar el nivel de significancia : = 0.01 = 0.05
3. Se usa la prueba t.
4. Regiones crticas.
Se rechaza Ho si :
tc t( n2) si tc t( n2)
2 2
Si H1: 1 > 0
Se rechaza Ho, si tc t(n-2)
Si H1: 1 < 0
Se rechaza Ho, si tc - t(n-2)
5. Clculo de tc.
b1 1
tc
Sb1
6. Conclusin:
PARA NUESTRO PROBLEMA: Determinar si existe evidencias que indique que 1
difiere de cero (0) al utilizar una relacin lineal entre el movimiento y el precio.
SOLUCIN:
1. Ho: 1 = 0 no hay regresin lineal entre x e y
H1: 1 0 si hay regresin lineal entre x e y
2. 0.05
3. Usar la prueba t.
4. Regiones crticas.
5. Clculo de tc.
0.7
tc 3.655
0.1915
6. Conclusin:
Como tc.> t tabulado, entonces tc pertenece a la Regin de Rechazo (R.R.) por
lo tanto rechazamos la hiptesis nula Ho, y concluimos que existe evidencias que
indica que los movimientos proporcionan informacin para prediccin del precio
de las acciones en cada mes.
1.12. PRUEBA DE HIPTESIS PARA 1 1o
1. Ho: 1 1o
H1: 1 1o
2. 0.05
3. Usar la prueba t.
4. Regiones crticas.
b1 1o
tc
Sb1
6. Conclusin:
PARA NUESTRO EJEMPLO: Deseamos probar que por cada mil acciones de
aumento en los movimientos, en cada mes, el precio aumenta en un dlar.
SOLUCIN:
1. Ho: 1 1.0
H1: 1 1.0
2. 0.05
3. Usar la prueba t.
4. Regiones crticas.
Si tc t(3) 0.05 / 2 3.182 tc 3.182 , entonces tc pertenece a la regin de
rechazo, por lo tanto RECHAZAMOS Ho
5. Clculo de tc.
0.7 1.0
tc 1.567
0.1915
7. Conclusin: Como tc pertenece a la regin de aceptacin, se acepta la
hipt6esis Ho y concluimos que existe evidencias de que el precio
aumentara en un dlar por cada mil acciones de aumento en las acciones.
1. Ho: y. x a
H1: y. x a
2. 0.05 0.01
3. Usar la prueba t.
4. Regiones crticas.
Si tc t (n 2) / 2 tc t (n 2) / 2 , entonces tc pertenece a la regin
de rechazo, por lo tanto RECHAZAMOS Ho
5. Clculo de tc.
Y a
tc
Sy
6. Conclusin
1. Ho: y. x 3
H1: y. x 3
2. 0.05
3. Usar la prueba t.
4. Regiones crticas.
5. Clculo de tc.
3.4 3
tc 1.01
0.394721
6. Conclusin: Como tc. = 1.01 < t(3) 0.025 = 3.182, entonces tc pertenece a la regin
de aceptacin, por lo tanto aceptamos la hiptesis nula (Ho) y concluimos que el
promedio del precio es de 3 dlares cuando los movimientos son en promedio de 5
00 acciones.
r2: Mide la variacin total explicada por la regresin. Mide exclusivamente la fuerza
de una relacin lineal entre dos variables (X e Y)
El mtodo abreviado para calcular r2 es:
b1 S .P. X .Y .
r2
( Y ) 2
Y 2
n
EL COEFICIENTE DE CORRELACIN ()
El coeficiente de correlacin es la segunda medida con que puede describirse la
eficacia con que una variable es explicada por otra. Cuando estamos trabajando con
muestras, el coeficiente muestral de correlacin se denota r y es la raz cuadrada del
coeficiente muestral de determinacin.
5. Clculo de t.
r n2
tc
1 r2
6. Conclusin
GLOSARIO
ALFA ( ). Probabilidad de un error de tipo I.
ANLISIS DE VARIANCIA (ANYA o - ANOVA). Tcnica estadstica con que se prueba la igualdad
de 3 ms medias mustrales y que, por tanto, permite hacer inferencias sobre si las muestras
provienen de poblaciones que tienen la misma media.
DISTRIBUCIN F. Familia de distribuciones diferenciadas por dos parmetros (g.1 del numerador
y que g.1 del denominador); se usan fundamentalmente para probar hiptesis referentes a las
variancias.
DIAGRAMA DE DISPERSIN. Grfica de puntos sobre una rejilla, rectangular; las coordenadas X
e Y de cada punto corresponden a las dos mediciones hechas en algn elemento particular de la
muestra, y el patrn de puntos indica la relacin existente entre las dos variables.
ECUACIN DE ESTIMACIN. Frmula matemtica que relaciona la variable desconocida con las
variables conocidas es el anlisis de regresin.
ESTIMACIN POR INTERVALO. Gama de valores que se usan para estimar el parmetro de una
poblacin desconocida.
ESTIMACIN PUNTUAL." Nmero individual que sirve para estimar un parmetro de una poblacin
desconocida.
GRADOS DE LIBERTAD (G.L.) Nmero de valores de una muestra que podemos especificar
libremente, una vez que sepamos algo de ella.
HIPTESIS ALTERNATIVA (Ha H1). Conclusin que aceptamos cuando los datos no apoyan la
hiptesis nula (Ho).
LNEA DE REGRESIN.- Lnea ajustada a un conjunto de puntos de datos para estimar la relacin
entre dos variables.
NIVEL DE CNTIANZA.- Probabilidad que los estadsticos asocian a una estimacin por intervalo
del parmetro de una poblacin; indica la confianza de que la estimacin por intervalo incluya el
parmetro de la poblacin.
MTODO DE MNIMOS CUADRADOS. Tcnica con que se ajusta una recta mediante un conjunto
de puntos, de manera que se minimice la suma de los cuadrados de las distancias verticales entre
n puntos y la lnea.
NIVEL DE SIGNIFICANCIA. Valor que indica el porcentaje de los valores mustrales que se haya
fuera de ciertos lmites suponiendo que la hiptesis nula sea correcta, esto es, la probabilidad de
rechazarla cuando es verdadera.
PENDIENTE. Constante de cualquier recta, cuyo valor representa en qu medida el cambio de cada
unidad de la variable independiente modifica la variable dependiente.
RAZN F. Aquella que se utiliza en l anlisis de varianca, entre otras pruebas, para comparar la
magnitud de dos estimaciones de la variancia de la poblacin y determinar si ambas estimaciones
son aproximadamente iguales; en el anlisis de varianca, se emplea la razn de la variancia entre
columnas con la variancia dentro de columnas.
REGRESIN. Proceso general de predecir una variable a partir de otra con medios estadsticos,
usando datos anteriores.
REGRESIN MLTIPLE. Procedimiento estadstico en virtud del cual algunas variables se usan
para predecir otra variable.
RELACIN CURVILNEA. Nexo de dos variables que es descrito por una lnea curva.
RELACIN DIRECTA. Relacin entre dos variables en la cual, al aumentar el valor de la variable
independiente, tambin aumenta el de la variable dependiente.
RELACIN LNEAL.- Tipo particular de asociacin entre dos variables, que puede ser descrita
matemticamente con una recta.