You are on page 1of 28

UNIVERSIDAD NACIONAL

AGRARIA DE LA SELVA

FACULTAD DE INGENIERA EN
INFORMTICA Y SISTEMAS

DEPARTAMENTO ACADMICO DE
CIENCIAS EXACTAS

REGRESIN Y
CORRELASIN LINEAL
SIMPLE

TINGO MARIA PER


2017
REGRESIN LINEAL SIMPLE
1.1. INTRODUCCIN.
El anlisis de regresin es una rama de la teora estadstica cuyo uso est muy
difundido en casi todas las disciplinas cientficas. En administracin y economa es
la tcnica bsica para medir o estimar las relaciones entre variables econmicas que
constituyen la esencia de la teora y la vida econmica.
En este captulo estudiaremos la relacin entre dos conjuntos de datos hasta
determinar una ecuacin. Esto permitir predecir el valor de la variable dependiente
Y con base en un valor de la variable independiente X.
1. Se granean los puntos de X e Y en un diagrama de dispersin.
2. Se determinar la ecuacin para la recta que mejor se ajuste a los datos.
3. Se pronosticar un valor de Y con base en un valor seleccionado de X.
4. Se medir el error en un pronstico.
5. Se establecern intervalos de confianza para los pronsticos.
1.2. ANLISIS DE REGRESIN
Segn se indic en la introduccin, se desarrollar una ecuacin para expresar la
relacin entre dos variables, y estimar el valor de la variable dependiente Y con base
en un valor seleccionado de la variable independiente X. A la tcnica empleada para
hacer estas predicciones se le denomina ANLISIS DE REGRESIN.
En el anlisis de regresin el objetivo es un modelo estadstico que se puede usar
para predecir los valores de una variable dependiente (o variable respuesta Y)
basada en los Valores de por lo menos una variable independiente (X). Para elegir
una relacin funcional particular como la representativa de la poblacin bajo estudio
generalmente se procede a realizar:
1. Una consideracin analtica del fenmeno que nos ocupa.
2. Un examen del diagrama de dispersin.
Una vez decidido el tipo de funcin matemtico que mejor se ajuste se presenta el
problema de elegir una expresin particular de esta familia de funciones. Cuando la
relacin funcional entre la variable dependiente Y y la variable independiente X es
una lnea recta, se tiene una regresin lineal simple dada por la siguiente ecuacin:
Yi = o + 1 Xi + Ei
I = 1, 2, 3, .., N
Donde:
Y : variable independiente.
o : coeficiente de interseccin y nos dice cual es el nivel de Y cuando
X=O
: coeficiente de regresin poblacional, o coeficiente angular.
Ei : error o residual.
1.3. SUPOSISIONES:
A) RELATIVO A LOS ERRORES (Ei)
1. "Todo error es aleatorio y tiene media cero, E (Ei) = O, para todo i = 1, 2, 3,
N
2. Todos los errores tienen la misma varianza V (Ei) =
3. Los errores son independientes, COV (ej, ej ) = 0
4. Los errores se distribuyen normalmente con media igual a cero y varianza
B) RELATIVO A LAS VARIABLES.
1. La variable Y es endgena o dependiente y la variable X es predeterminada,
explicativa o independiente.
2. La variable X es fija o matemticamente no es aleatoria.
3. La variable Y es aleatoria y puede descomponerse en dos partea.

Parte exacta: Y i = bo + bi Xi , i = 1,2,3,....,n
Parte aleatoria: ei = error o perturbacin.

Yi = Y i + ei

Yi = bo + b1 + b1Xi + ei

4. Los parmetros de la variable aleatoria Yi son:


MEDIA E(Yi) = o + 1 Xi
VARIANZA V(Yi) = E[ Yi E (Yi)]

Si los errores (ei) se distribuyen normalmente entonces los Yi tambin

se distribuyen normalmente.
5. No hay errores de observacin en Xi e Yi.

1.4. ESTIMACIN DE LOS PARMETROS DE REGRESIN


Si conocemos toda la poblacin de valores (Yi , Xi) es posible computar los valores
exactos de los parmetros de regresin o y 1. Generalmente trabajamos con
muestras, en cuyo caso el problema estadstico consiste en como estimar de la mejor
manera posible los parmetros o y 1. El mtodo que ms se utiliza para ajustar
una recta es el mtodo de MNIMOS CUADRADOS. La lnea de regresin de
mnimos cuadrados no es necesariamente la "mejor", pero posee varas propiedades
estadsticas.

Yi = o + 1 Xi + Ei , i = 1,2,.N
yx = o + 1Xi
Supongamos que bo y b1 son estimadores de o y 1
1) Yi = bo + b1 Xi +ei , i = 1,2,n
n : nmero de pares.
2) ei = Yi bo b1 Xi
En ambos miembros elevamos al cuadrado y sumamos desde 1 hasta n.
3)
n n
Q ei Yi b0 b1 X i
2 2

i 1 i 1

4)
Q
0
b 0
5)
Q
0
b1

Q n 2
n
i 0 1 i
b0 b0 i 1
(Y b b X ) 2
i 1
(Yi b0 b1 X i )( 1)

(Y
i 1
i b0 b1 X i ) 0

n n

Y nb
i 1
i 0 b1 X i 0.................(1)
i 1

De 5
Q n 2
n
i 0 1 i
b1 b1 i 1
(Y b b X ) 2
i 1
(Yi b0 b1 X i )( X i )

n
(2 X i ) (Yi b0 b1 X i ) 0
i 1

El (-2) lo pasamos a dividir al segundo miembro y nos queda la ecuacin nmero 2.

n n n

X Y
i 1
i i b0 Xi b1 X i2 ..............................(2)
i 1 i 1

Luego las ecuaciones (1) y (2) son las ecuaciones normales.


n n

Yi nb0 b1 X i 0......................................(1)
i 1 i 1

n n n

X Y
i 1
i i b0 Xi b1 X i2 0..........................(2)
i 1 i 1

De la ecuacin (1) obtenemos:


n n

Y
i 1
i Xi 1
i
b0 b1
n n

b0 Y b1 X
De la ecuacin (2) y reemplazando la frmula de bo en (2) se obtiene.

n n

n i Y Xi n n

i 1
X Y
i i
n
i 1
b1
i 1

n i 1
Xi b1 Xi 0
i 1
2

n n n

n X Y i i ( X i ) 2 n

X Y
i 1
i i
i 1
n
i 1 i
b1 i 1
n
b1 X i2 0
i 1
Factorizando b1 se obtiene:
n n
n
n X i Yi ( X i )
2
n
X Y i 1 i 1
b1 i 1
Xi 0
i 2
i i
i 1 n n i 1

n n

n
( X i )( Yi )
X i Yi i 1
n
i 1
S .P. XY
b1 i 1
n b1
n
( X i ) 2 S .C . X
X
i 1
i
2
i 1
n

S.P.XY: SUMA DEL PRODUCTO X e Y


n n

N __ __ N
( X i )( Yi )
S .P. XY ( X i X )(Yi Y ) X iYi i 1 i 1

i 1 i 1 n

S.C.X: SUMA DE CUADRADOS DE X

n __ n
( X i ) 2
S .C. X ( X i X ) 2 X i2 i 1

i 1 i 1 n

S.C.Y: SUMA DE CUADRADOS DE Y SUMA DE CUADRADOS TOTAL


n

n __ n
(Yi ) 2
S .C.Y (Yi Y ) 2 Yi 2 i 1

i 1 i 1 n

1.5. ECUACIN DE REGRESIN ESTIMADA


Es una expresin matemtica que define la relacin entre dos variables.

Y 1 bo b1 Xi
Donde:
bo: Es la interseccin con el eje Y para todo X = 0
b1: Pendiente de la recta de regresin, o coeficiente de regresin. Mide la variacin
de la variable dependiente Y cuando la variable independiente X se incrementa en
una unidad.
A continuacin se desarrollar un ejemplo que se ir explicando a travs de los
tpicos de regresin y correlacin a estudiar.

1. PROBLEMA:
El nmero de acciones de la empresa SANTA ANITA que variaron durante un mes y
el precio al final del mes se muestran en la tabla que sigue:
MOVIMIENTO PRECIO ($)
(miles de
acciones)
4 2
1 1
5 4
3 2
2 1

1. Determinar la variable X e Y.
2. Graficar los datos mustrales en un eje de coordenadas.
3. Encontrar la ecuacin de regresin estimada.
4. Granear la ecuacin de regresin, estimada junto con la grfica de los datos
observados.
SOLUCIN:
1. MOVIMIENTO :X
PRECIO :Y
SOLUCIN:
n5 Xi 15 X 2
55 XiYi 37 Yi 10 Y 2
26
__ __
X 3 Y 2

15 2
S .C. X . 55 10
5

(15)(10)
S .P. XY . 37 7
5
(15) 2
S .C.Y . 26 6
2
S .P. XY
b1
S .C . X
7
b1 0.7 bo 2 (0.7)3 0.1
10
Una vez encontrado los valores de bo y b1, podemos escribir la ECUACIN DE
REGRESIN ESTIMADA.


Y i 0.1 0.7 X 1
INTERPRETACIN
bo = - 0.1 Geomtricamente es la distancia que hay del origen de coordenadas al
intercepto entre el eje Y y la ecuacin de regresin estimada.
Indica que cuando los movimientos sea igual a cero (0), el precio tendr una
disminucin (-) de 0.1.
b1 = 0.7 Indica que para cada cambio de aumento en el movimiento (nmero de
acciones), habr incremento promedio de 0.7 en el precio.

Y i 0.1 0.7 Xi, Se dir que es la mejor estimacin de la lnea de regresin de la


poblacin:

yx o 1 Xi

2. PROBLEMA PARA EL ALUMNO


Supongamos que un ejecutivo de una empresa quiere establecer un presupuesto
flexible para estimar sus costos para un cierto rango de produccin. Los costos y
producciones pasadas se encuentran en la tabla.
a) Encuentre la recta de mnimos cuadrados que le permita estimar costos a partir de la
produccin.
b) Interprete los resultados.
c) Grafique los 7 puntos y la recta de mnimos cuadrados.
PRODUCCIN (x $ 10 000) 3 4 5 6 7 8 9
COSTOS FIJOS (x $ 10 000) 12 10.5 13 12 13 13.3 16.5
1.6. DESCOMPOSICIN DE LA VARIACIN TOTAL
__
(Yi Y ) : DESVIACIN TOTAL
__
(Y i Y : DESVIACIN EXPLICADA O DEBIDO A LA REGRESIN

(Yi Y i : DESVIACIN NO EXPLICADA O DEBIDO AL ERROR O RESIDUAL
DESV. TOTAL = DESV. EXPLICADA + DESV. NO EXPLICADA.
__ __
(Yi Y ) (Y i Y ) (Yi Y i )
n __ n __ n
(Yi Y ) 2 ( Y i Y ) 2 (Yi Y i ) 2
i 1 i 1 i 1

S.C. TOTAL = S. C. REGRESIN + S.C. RESIDUAL


1.7. ESQUEMA DE ANALISIS DE VARIANZA (ANVA)
Para realizar un anlisis de variaciones se debe plantear las siguientes hiptesis:
Ho: 1 = 0 NO EXISTE REGRESIN LINEAL ENTRE X e Y
H1: 1 0 EXISTE REGRESIN LINEAL ENTRE X e Y.

FTE. DE VARIACIN GDOS. DE LIBERTAD SUMA DE CUADRADOS CUAD. MEDIOS Fc.


n __ n __
REGRESIN 1 (Yi 1
i Y )2 (Y Y )
i 1
i
2
Fc.

n n
RESIDUAL np (Yi Y i ) 2
i 1
(Yi Y i ) 2 / n p
i 1

n
TOTAL n1 (Yi Y )
i 1
2

n : Nmero de pares.
p : Nmero de parmetros a estimar.
Donde: Fc = C.M. regresin / C.M.residual
n __
1. S.C. TOTAL (Yi Y ) Yi ( Yi ) / n S .C.Y .
2 2 2

i 1

n __
2. S.C. REGRESIN b1S .P. XY b1 S .C. X . (Y i Y )
2 2

i 1

__ __ n __ __
3. S .P. XY X iYi n X Y ( Xi X )(Yi Y )
i 1

n
4. S.C. RESIDUAL (Yi Y )
i 1
2
S.C. TOTAL S.C. REGRESIN.

Para realizar un anlisis de varianza (ANVA), se utiliza la tabla de la distribucin F,


con un nivel de significancia ( ), dando para luego comparar con el factor Fc.
a) Si Fc. F tabular, entonces rechazamos la hiptesis nula (Ho) y por lo tanto nos
queda aceptar H1, con lo cual concluiremos que EXISTE REGRESIN LINEAL
ENTRE LA VARIABLE X Y LA VARIABLE Y, el siguiente caso.
b) Si Fc < F tabular, entonces aceptamos la hiptesis nula (Ho), con lo cual concluiremos
que NO EXISTE REGRESIN LINEAL ENTRE LAS VARIBLES X e Y.
Trabajando con los datos del problemas nmero 01
Probar si existe regresin lineal entre el movimiento y el precio.
SOLUCIN:

102
S.C.TOTAL S .C.Y . Yi ( Yi ) / n 26
2
6
2

5
S.C.REGRESIN b1S.P.XY (0.7)7 4.9
S.C.RESIDUAL 6 4.9 1.1.
1. PLANTEAR LAS HIPTESIS
Ho: 1 = 0 No existe regresin lineal entre el movimiento y el precio.
H1: 1 0 Existe regresin lineal entre el movimiento y el precio.

2. REALIZAR EL ANALISIS DE VARIANZA (ANVA)


F.V. S.C. G.L. C.M. Fc. SIGNIFIC.
REGRESIN 4.9 1 4.9 13.36 *
RESIDUAL 1.1 3 0.36667
TOTAL 6 4
Se busca en la tabla de la distribucin F. con los niveles de significancia de
1% y 5%, es decir:
3. REGIN CRTICA

F(1,3) 0.01 = 34.1 Y F(1,3) 0.05 = 10.1


Como Fc. = 13.36 > 10.1, pero 13.36 < 34.1, entonces se rechaza Ho, para
= 5% mas no para = 1%.

4. CONCLUSIN:
Como Fc. = 13.36 es mayor que Ft= 10.1, entonces se rechaza Ho, y
concluimos que existe regresin lineal entre la variable movimiento y el precio
en formas significativa (*).

1.8. INTERVALOS DE CONFIANZA (I.C.)


ESTIMADOR PARMETRO
t
DESV .EST .ESTIMADOR

bi : Estimador i : Parmetro Sbi : Desv. Estand. Del Estimador.

bi i
tc
Sbi
I .C.(i) bi t( n2) / 2 Sbi

A) PARA (o)

I.C. (o) = bo t(n-2) / 2 Sbo

C.M .RESIDUAL ( X 2 )
Donde. Sbo
n( S .C. X )
Con los datos de nuestro problema:
Encontrar los intervalos de confianza para o con 95% de probabilidad.
Solucin: 1- = 0.95
= 0.05
t( n2 ) / 2 t( 3) 0.05 / 2 3.182

0.3666(55)
Sbo 0.635
5(10)

I .C.( o) 0.1 3.182(0.635)

2.12 o 1.92
INTERPRETACIN
Existe una probabilidad del 95% de que el verdadero valor del parmetro o est
comprendido entre esos valores,
Existe un 95% de probabilidad de que este intervalo encierre al parmetro o de la
lnea de regresin de la poblacin.
A) PARA (1) I.C. (1) = b1 t (n 2) / 2 Sb1
C.M .RESIDUAL 0.36667
Donde: Sb1 Sb1 0.1915
S .C. X . 10

t( 3) 0.025 3.182

I .C.(1 ) 0.7 3.182(0.1915)

0.0906 1 1.3094

INTERPRETACIN:
Existe un 95% de confianza de que este intervalo encierre al verdadero parmetro o
coeficiente de regresin 1 de la lnea de regresin de la poblacin.

1.9. INTERVALO DE CONFIANZA PARA y.x. PARA UN VALOR DE Xo

I .C.( y. x ) Y t( n2) / 2 SY

Donde: Y bo b1 X 0 , remplazando Xi por Xo


___
2
1 ( Xo X )
SY C.M .residual
n S .C. X .

PARA NUESTRO PROBLEMA: Encontrar el intervalo de confianza para y.x. con 95%
de confianza, para Xo = 4 500 acciones, es decir (4.5).
Solucin:
Y = - 01 + 0.7 (4.5) = 3.05
1 (4.5 3) 2 t(3)0.025 = 3.182
S Y
0.3666 0.3947
5 10

I .C.( y .x. ) 3.05 3.182(0.3947)

1.79 y . x 4.31 dlares


INTERPRETACIN: Este intervalo de confianza nos indica que si los nmeros de
acciones (movimientos) fueron de (4.5) 4 500, existe un 95% de confianza que los
valores encontrados del intervalo encierre al verdadero precio promedio.

1.10. PREDICCIN DE UN VALOR PARTICULAR DE Y PARA UN VALOR DADO DE X.


Una vez encontrado la ecuacin de regresin estimada podemos dar uso a esta
ecuacin para los siguientes casos:
1. Predecir el precio al final del mes.
2. Construir un intervalo de prediccin para Y dado un valor X.

Y p 0.1 0.7 Xi

I .C.(Y p ) Yp t( n2) / 2 S Y p
Donde:

__

( X X )2
SY p C.M .residual 1 1

n
S .C. X .

PARA NUESTRO PROBLEMA
Encuentre un intervalo de prediccin del 95% para el precio que experimentar la
empresa el prximo mes, si el movimiento es de 4 500 acciones.
SOLUCIN:
0.1 0.7(4.5) 3.05 t ( 5) 0.025 3.182

1 (4.5 3) 2
S Yp 0.36661 0.7228
5 10

I .C.(Y p ) 3.05 3.182(0.7228)
0.75 Yp 5.35
Interpretacin: Si se tiene muchos movimientos de acciones iguales a 4 500, existe
un 95% de confianza de que el verdadero valor del precio se encuentre entre 0.75 y
5.35 dlares.

1.11. PRUEBAS DE HIPTESIS.


A) PARA o
1. Plantar las hiptesis. Ho : o = 0
H1 : o 0
2. Fijar el nivel de significancia : = 0.01 = 0.05
3. Se usa la prueba t.
4. Regiones crticas.

Rechazamos Ho si:
tc t( n2) / 2 si tc t( n2)
2

Si H1: o > 0
Rechazamos Ho, si tc t(n-2)
Si H1: o < 0
Rechazamos Ho, si tc - t(n-2)
5. Clculo de tc
b0 0
tc
Sb0
6. Conclusin
B) PARA 1 (COEFICIENTE DE REGRESIN)
1. Plantear las hiptesis. Ho : 1 = 0
H1 : 1 0
2. Fijar el nivel de significancia : = 0.01 = 0.05
3. Se usa la prueba t.
4. Regiones crticas.
Se rechaza Ho si :
tc t( n2) si tc t( n2)
2 2

Si H1: 1 > 0
Se rechaza Ho, si tc t(n-2)
Si H1: 1 < 0
Se rechaza Ho, si tc - t(n-2)
5. Clculo de tc.
b1 1
tc
Sb1
6. Conclusin:
PARA NUESTRO PROBLEMA: Determinar si existe evidencias que indique que 1
difiere de cero (0) al utilizar una relacin lineal entre el movimiento y el precio.
SOLUCIN:
1. Ho: 1 = 0 no hay regresin lineal entre x e y
H1: 1 0 si hay regresin lineal entre x e y
2. 0.05
3. Usar la prueba t.
4. Regiones crticas.

5. Clculo de tc.
0.7
tc 3.655
0.1915
6. Conclusin:
Como tc.> t tabulado, entonces tc pertenece a la Regin de Rechazo (R.R.) por
lo tanto rechazamos la hiptesis nula Ho, y concluimos que existe evidencias que
indica que los movimientos proporcionan informacin para prediccin del precio
de las acciones en cada mes.
1.12. PRUEBA DE HIPTESIS PARA 1 1o
1. Ho: 1 1o
H1: 1 1o
2. 0.05
3. Usar la prueba t.
4. Regiones crticas.

Si tc t (n 2) / 2 tc t (n 2) / 2 , entonces tc pertenece a la regin


de rechazo, por lo tanto RECHAZAMOS Ho
5. Clculo de tc.

b1 1o
tc
Sb1

6. Conclusin:

PARA NUESTRO EJEMPLO: Deseamos probar que por cada mil acciones de
aumento en los movimientos, en cada mes, el precio aumenta en un dlar.
SOLUCIN:
1. Ho: 1 1.0
H1: 1 1.0
2. 0.05
3. Usar la prueba t.
4. Regiones crticas.
Si tc t(3) 0.05 / 2 3.182 tc 3.182 , entonces tc pertenece a la regin de
rechazo, por lo tanto RECHAZAMOS Ho
5. Clculo de tc.
0.7 1.0
tc 1.567
0.1915
7. Conclusin: Como tc pertenece a la regin de aceptacin, se acepta la
hipt6esis Ho y concluimos que existe evidencias de que el precio
aumentara en un dlar por cada mil acciones de aumento en las acciones.

1.13. PRUEBA DE HIPTESIS PARA y.x

1. Ho: y. x a

H1: y. x a
2. 0.05 0.01
3. Usar la prueba t.
4. Regiones crticas.
Si tc t (n 2) / 2 tc t (n 2) / 2 , entonces tc pertenece a la regin
de rechazo, por lo tanto RECHAZAMOS Ho

5. Clculo de tc.
Y a
tc
Sy
6. Conclusin

PARA NUESTRO PROBLEMA: Deseamos comprobar que el promedio de los


precios es de 3 dlares cuando es de 5 000 acciones.
SOLUCION.

1. Ho: y. x 3

H1: y. x 3
2. 0.05
3. Usar la prueba t.
4. Regiones crticas.
5. Clculo de tc.
3.4 3
tc 1.01
0.394721

Y = - 0.1 + 0.7 (5) = 3.4

6. Conclusin: Como tc. = 1.01 < t(3) 0.025 = 3.182, entonces tc pertenece a la regin
de aceptacin, por lo tanto aceptamos la hiptesis nula (Ho) y concluimos que el
promedio del precio es de 3 dlares cuando los movimientos son en promedio de 5
00 acciones.

1.14. ANLISIS DE CORRELACIN


El anlisis de correlacin es la herramienta estadstica de que nos valemos para
describir el grado de relacin que existe entre dos variables x y.
Los estadsticos han inventado dos medidas para describir la correlacin entre dos
variables y ellos son:
1. EL COEFICIENTE DE DETERMINACIN y
2. EL COEFICIENTE DE CORRELACIN.

EL COEFICIENTE DE DETERMINACIN (p2)


r2 : COEFICIENTE DE DETERMINACIN MUESTRAL
El coeficiente de determinacin es la manera primaria de medir el grado o fuerza, de
la relacin que existe entre dos variables, X e Y.
Los valores de los coeficientes de determinacin poblacional y muestral estn
comprendidos entre cero (0) y uno (1) inclusive, o tambin podemos decir entre 0%
y 100%.

El coeficiente de determinacin muestral se calcula utilizando la siguiente formula:


S .C.REGRESIN
r2 X 100
S .C.TOTAL

r2: Mide la variacin total explicada por la regresin. Mide exclusivamente la fuerza
de una relacin lineal entre dos variables (X e Y)
El mtodo abreviado para calcular r2 es:

b1 S .P. X .Y .
r2
( Y ) 2
Y 2

n

EL COEFICIENTE DE CORRELACIN ()
El coeficiente de correlacin es la segunda medida con que puede describirse la
eficacia con que una variable es explicada por otra. Cuando estamos trabajando con
muestras, el coeficiente muestral de correlacin se denota r y es la raz cuadrada del
coeficiente muestral de determinacin.

El valor de r est comprendido entre -1 y 1 inclusive, es decir:


1 r 1
a) Si b1 0 r 0 No existe correlacin lineal entre X e Y
b) Si b1 0 r 0
c) Si b1 0 r 0
d) Si r = 1 Todos los puntos se encuentran en la lnea recta
e) r = -1
PARA NUESTRO PROBLEMA: Calcular e interpretar el coeficiente de correlacin
para los datos del movimiento y el precio de las acciones.
SOLUCIN:
S .P. XY 7
r 0.9037
( S .C. X )( S .C.Y ) (10)(6)

Calcular el coeficiente de determinacin.


S .C.REGRESIN
r2 X 100
S .C.TOTAL
4.9
r2 X 100 81.7%
6
INTERPRETACIN:
1) Indica que el 81.7% de los cambios en los precios (Y) se asocian a los cambios
en los movimientos (X), resultando un 18.3% de variabilidad que no es explicada por
la regresin.
2) La ecuacin de regresin explica alrededor del 81.7% de la variacin total en el
precio, y el 18.3% restante se atribuye a factores incluidos en el trmino del error o
residual.

1.15. PRUEBA DE HIPTESIS PARA EL COEFICIENTE DE CORRELACIN


POBLACIONAL SIMPLE.
1. Ho: p = 0 NO EXISTE CORRELACIN ENTRE X E Y.
Ho: p 0 EXISTE CORRELACIN ENTRE X E Y.
2. Nivel de significancia = 0.01 = 0.05
3. Usamos la distribucin t.
4. Regiones crticas.

5. Clculo de t.
r n2
tc
1 r2
6. Conclusin

PARA NUESTRO PROBLEMA:


Probar si existe correlacin lineal entre el movimiento y el precio. Usar un nivel se
significancia del 5%.
SOLUCIN:
1. Ho: = 0 NO EXISTE CORRELACIN LINEAL ENTRE X E Y.
Ho: 0 EXISTE CORRELACIN LINEAL ENTRE X E Y.
2. Nivel de significancia = 0.01 = 0.05
3. Usamos la distribucin t.
4. Regiones crticas.
T(3) 0.05 / 2 3.182
5. Clculo de tc:
0.9037 5 2
tc 3.65
1 (0.9037) 2

6. Conclusin: Como tc > tt, entonces rechazamos Ho y concluimos que existe


evidencia estadstica para indicar que el precio y el movimiento estn
correlacionados.

PROBLEMAS DE REGRESIN LINEAL SIMPLE Y CORRELACIN SIMPLE


1. Con los siguientes datos:
X : 13 16 14 11 17 9 13 17 18 12
Y : 1.0 2.0 1.4 0.8 2.2 0.5 1.1 2..8 3.0 1.2
a) Grafique el diagrama de dispersin.
b) Desarrolle la ecuacin de estimacin que mejor describa los datos.
c) Determine Y para X = 10, 15, 20
d) Probar s existe regresin lineal entre X e Y, = 1% Y 5%. Usar la prueba F y T.
e) Calcular el error estndar de estimacin.
f) Calcule el intervalo de prediccin, con 95% de nivel de confianza, para la variable
dependiente cuando X = 20.
g) Encontrar los intervalos de confianza para 1 y 1 con 95 % de confianza e interpretar sus
resultados.
h) Encontrarlos intervalos de confianza para y.x para un valor de X = 10, con 95% de
confianza.

i) Encontrar los intervalos de confianza para. Y p para un valor de X = 15, con 95 % de
seguridad,
j) Probar si por cada unidad de aumento en X la variable Y aumenta en 4 unidades.
Usar un nivel de significancia de 5%.
k) Probar si Y es 2.5 cuando X = 20, usar un nivel de significancia de 5%.
l) Calcular el coeficiente de correlacin y determinacin.
m) Probar si existe correlacin lineal entre X e Y.

2. En economa, la funcin demanda de un producto se estima a menudo calculando la regresin


de la cantidad vendida (Q) sobre el precio (P). Una empresa est tratando de estimar dicha
funcin para su nueva mueca "Mary" y a recabado los siguientes datos:
P 10.0 4.7 8.5 8.0 4.5 4.0 3.0 2.0
Q 100 150 128 120 162 170 180 200
a) Grafique los datos anteriores.
b) Calcule la lnea de regresin de mnimos cuadrados.
c) Interprete el valor de coeficiente de regresin.
d) Determinar los residuales y construya una grfica de los residuales con respecto a los
valores ajustados del precio.
e) Utilizar la ecuacin de regresin que se encontr en (b), y estime el precio cuando la cantidad
es igual a 220.
f) Probar si existe regresin lineal entre e! precio y la cantidad .Utilizar un nivel de significancia
del 5%, utilizar la prueba F y la prueba T.
g) Determinar el intervalo de confianza para e! coeficiente de regresin, con 95% de seguridad.
h) Determinar el intervalo de confianza para el intercepto con 99% de seguridad.
i) Calcular el coeficiente de correlacin simple entre el precio y la cantidad.
j) Calcular e interpretar el coeficiente de determinacin.
k) Probar si la correlacin entre X e Y es significativa usar la prueba T, nivel de significancia 1
y 5%.
l) Encontrar los intervalos de confianza para y.x, cuando el precio es de 5.0, con 99% de
seguridad.
m) Probar si por cada unidad de aumento en el precio, la cantidad disminuye en 9 muecas.
Usar un nivel de significancia del 5 %. .
n) Probar si la cantidad vendida de muecas es de 175 cuando el precio es de 4,0 usar un nivel
de significancia del 5 %.
3. En la contabilidad de costos, con frecuencia se trata de estimar los gastos indirectos basndose
en el nmero de unidades producidas. La gerencia de la empresa, en el problema 1, ha reunido
informacin sobre estos gastos y las unidades producidas en diferentes plantes y le gustara
estimar una ecuacin de regresin para predecir los gastos indirectos en el futuro.
GASTOS INDIRECTOS 191 170 272 155 280 173 234 116 153
UNIDADES 40 42 53 35 56 39 48 30 37
a) Prediga el gasto general cuando se producen 50 unidades.
b) Interprete el valor del coeficiente de regresin.
c) Probar s existe regresin lineal entre los gastos indirectos y las unidades, = 0.05 y 0.01.
Usar la prueba F y la prueba T.
d) Determinar e interpretar los intervalos de confianza para bo, y b1 con 95% de seguridad.
e) Calcular el coeficiente de correlacin simple entre los gastos indirectos y las unidades.
f) Calcular e interpretar el coeficiente de determinacin.
g) Probar s la correlacin entre X e Y es significativa. Usar prueba T. = 0.05

4. Con los siguientes datos de una muestra:


X 18 Y 30 XY 71 X 3 Y 5 Y 2
202
Y 64
2

a) Calcular los estimadores de bo y b1.


b) Calcular la varianza de los estimadores bo y b1.
c) Explicar el significado de los estimadores.
d) Hallar el coeficiente determinacin y el coeficiente de correlacin.
e) Es significativa la influencia de X sobre Y al 95 % de confianza?

5. Con los siguientes datos:


AO 2005 2006 2007 2008 2009
INGRESO 8 9 10 11 12
AHORRO 3 2 4 5 6

a) Hallar la funcin que explique el fenmeno.


b) Hallar la desviacin estndar de cada estimador.
c) Probar si el ingreso influye sobre el ahorro con 5% de significancia.
d) Hallar e interpretar el coeficiente de determinacin.
e) Estimar el ahorro cuando el ingreso es de 15.

6. Se tiene inters en examinar la tasa de matrimonios y de divorcios por miles de habitantes en


Tingo Mara. Las tasas para 8 aos, segn informes del INEI son:

AO 2002 2003 2004 2005 2006 2007 2008 2009


TASA DE MATRI 10.0 10.3 10.4 12.2 9.3 9.3 10.1 10.2
TASA DE DIVOR. 0.8 1.5 1.7 3.5 2.3 2.5 4.9 5.0
a) trace un diagrama de dispersin localizando la tasa de matrimonio en el eje X y la tasa de
divorcios en el eje Y.
b) Determine la ecuacin de regresin.
c) Probar s existe regresin lineal entre las tasas de matrimonio y de divorcios, = 0.01 y
0.05 Interpretacin.
d) Calcularlos intervalos de confianza para bo y b1, con 95% de confianza.
e) Calcular e interpretar los coeficientes de correlacin y determinacin.
f) Calcular el error estndar de estimacin.
g) Probar si existe correlacin lineal entre X e Y, = 5 %

7. En el departamento de produccin de una empresa se desea examinar la relacin entre el nmero


de obreros que arman un subensamble y el nmero de subensambles producidos.
Como experimento, a dos empleados se les asign armar el subensamble. Produjeron 15
durante un periodo de una hora. Despus se dedicaron a armarlo 4 empleados. Produjeron 25
subensambles durante un periodo de una hora. El conjunto completo de pares de observaciones
es como sigue.
N DE OBREROS 2 4 1 5 3
PRODUCCIN 15 25 10 40 30
a) Trace un diagrama de dispersin.
b) Determine la ecuacin de regresin.
c) Si contamos con tres ensambladores, Cul es la produccin pronosticada por hora?
d) Probar si existe regresin lineal entre el nmero de obreros y la produccin, con los niveles
de significancia de 1% y 5%. D su conclusin.
e) Encontrar intervalos de confianza para el coeficiente de regresin con el 95% de confianza.
f) Probar mediante la prueba T si la variable Y no esta relacionado linealmente con la variable
X, usar = 0.05.
g) Probar si por cada obrero adicional en el nmero de obreros, la produccin aumenta, en 8
unidades, usar = 0.05.
h) Calcular e interpretar el coeficiente de determinacin.
i) Calcular e interpretar el coeficiente de correlacin.
j) Probar si existe correlacin lineal, entre el nmero de obreros y la produccin, usar un nivel
de significancia del 5 %.

VALORES CRTICOS DE LA DISTRIBUCIN F


NIVEL DE SIGNIFICANCIA DE 5% (0.05)
GRADOS DE LIBERTAD DEL MUNERADOR
G.L.
DENOM. 1 2 3 4 5 6 7
1 161 200 218 225 230 234 237
2 18.5 19 19.2 18.2 18.3 19.3 19.4
3 10.1 9.55 8.28 9.12 9.01 8.94 8.89
4 7.71 6.94 8.59 6.39 8.26 6.16 8.09
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88

6 5.88 5.14 4.76 4.53 4.39 4.28 4.21


7 5.59 4.74 4.35 4.12 3.97 3.87 3.79
8 5.32 4.48 4.07 3.84 3.69 3.58 3.5
9 5.12 4.28 3.86 3.63 3.48 3.37 3.29
10 4.96 4.1 3.71 3.43 3.33 3.22 3.14

11 484 3.88 3.59 3.38 3.2 3.09 3.01


12 4.75 3.88 3.49 3.28 3.11 3 2.81
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83
14 4.8 3.14 3.34 3.11 3.96 2.85 2.76
15 4.54 3.88 3.29 3.08 2.9 2.79 2.71

VALORES CRTICOS DE LA DISTRIBUCIN F


NIVEL DE SIGNIFICANCIA DE 1% (0.01)
GRADOS DE LIBERTAD DEL MUNERADOR
G.L.
DEL 1 2 3 4 5 6 7
DENOM.
1 4 052 5 000 5 403 5 825 5 764 5 859 5 928
2 98.5 99 99.2 99.2 99.3 99.3 99.4
3 34.1 30.8 29.5 28.7 28.2 27.9 27.7
4 21.2 18 16.7 16 15.5 15.2 15
5 16.3 13.3 12.1 11.4 11 10.7 10.5

6 13.7 10.8 9.73 9.15 8.75 8.47 8.26


7 12.2 8.55 8.45 7.85 7.46 7.19 6.99
8 11.3 8.85 7.59 7.01 6.33 6.37 6.18
9 10.6 8.02 6.99 6.42 6.06 5.8 5.61
10 10 7058 6.55 5.99 5.64 5.38 5.2

11 9.85 7.21 6.22 5.87 5.32 5.07 4.89


12 9.33 6.93 5.95 5.41 5.06 4.82 4.84
13 9.07 6.7 5.74 5.21 4.66 4.62 4.44
14 8.86 6.51 5.56 5.04 4.7 4.46 4.28
15 8.86 6.38 5.42 4.89 4.56 4.32 4.14
DISTRIBUCIN T DE STUDENT
NIVEL DE SIGNIFICACIN PARA PRUEBAS DE UNA COLA
0.1 0.05 0.025 0.01 0.005 0.0005
G.L.
NIVEL DE SIGNIFICACIN PARA PRUEBAS DE DOS COLAS
0.,2 0,1 0,05 0,02 0,01 0,001
1 3.078 6.314 12.706 31.821 63.657 636.619
2 1.886 2.920 4.303 6.965 6.925 31.598
3 1.638 2.353 3.182 4.541 5.841 12.941
4 1.533 2.132 2.776 3.747 4.604 8.610
5 1.476 2.015 2.571 3.365 4.032 6.859
6 1.440 1.943 2.447 3.143 3.307 5.959
7 1.415 1.895 2.365 2.998 3.499 5.405
8 1.397 1.860 2.306 2.896 3.355 5.041
9 1.383 1.833 2.262 2.821 3.250 4.781
10 1.372 1.812 2.228 2.764 3.169 4.587
11 1.363 1.796 2.201 2.718 3.106 4.437
12 1.356 1.782 2.179 2.681 3.055 4.318
13 1.350 1.771 2.160 2.650 3.012 4.221
14 1.345 1.761 2.145 2.624 2.977 4.140
15 1341 1.753 2.131 2.602 2.947 4.073

GLOSARIO
ALFA ( ). Probabilidad de un error de tipo I.

ANLISIS DE VARIANCIA (ANYA o - ANOVA). Tcnica estadstica con que se prueba la igualdad
de 3 ms medias mustrales y que, por tanto, permite hacer inferencias sobre si las muestras
provienen de poblaciones que tienen la misma media.

ANLISIS DE CORRELACIN. Tcnica con que se determina el grado de relacin


Lineal que hay entre, variables.

BETA ( ) Probabilidad de un error de tipo II.

COEFICIENTE DE CORRELACIN. Raz cuadrada del coeficiente de determinacin. Su signa


indica la direccin de la relacin entre dos variables, directa o inversa.

COEFICIENTE DE DETERMINACIN. Medida de la proporcin de variacin de Y, la variable


independiente; que se explica con la lnea de regresin; esto es, por la relacin de las Y con la
variable independiente.

DISTRIBUCIN t DE STUDENT. Familia de distribuciones de probabilidad que se distinguen por


sus grados individuales de libertad, son de forma semejante a la distribucin normal y se emplean
cuando la desviacin estndar de la poblacin no conoce y el tamao de la muestra es relativamente
pequea (n 30).

DISTRIBUCIN F. Familia de distribuciones diferenciadas por dos parmetros (g.1 del numerador
y que g.1 del denominador); se usan fundamentalmente para probar hiptesis referentes a las
variancias.

DIAGRAMA DE DISPERSIN. Grfica de puntos sobre una rejilla, rectangular; las coordenadas X
e Y de cada punto corresponden a las dos mediciones hechas en algn elemento particular de la
muestra, y el patrn de puntos indica la relacin existente entre las dos variables.

ECUACIN DE ESTIMACIN. Frmula matemtica que relaciona la variable desconocida con las
variables conocidas es el anlisis de regresin.

ERROR ESTNDAR DE ESTIMACIN. Medida de la confiabilidad de la ecuacin de estimacin,


que indica la variabilidad de los puntos observados alrededor de la lnea de regresin; es decir,
hasta qu punto los valores observados difieren de los predichos en la Inea de regresin.

ERROR ESTNDAR DEL COEFICIENTE DE REGRESIN. Medida de la variabilidad de los


coeficientes de regresin de la muestra alrededor del verdadero coeficiente de regresin de la
poblacin.

ERROR DE TIPO I. Rechazo de una hiptesis nula cuando es verdadera.

ERROR DE TIPO II. Aceptacin de una hiptesis nula cuando es falsa.

ESTIMACIN. Valor especfico observado de un estimador.

ESTIMACIN POR INTERVALO. Gama de valores que se usan para estimar el parmetro de una
poblacin desconocida.

ESTIMACIN PUNTUAL." Nmero individual que sirve para estimar un parmetro de una poblacin
desconocida.

ESTIMADOR. Estadstico muestral que se utiliza para estimar el parmetro de una


Poblacin.

GRADOS DE LIBERTAD (G.L.) Nmero de valores de una muestra que podemos especificar
libremente, una vez que sepamos algo de ella.

HIPTESIS. Suposicin, o conjetura, que hacemos sobre un parmetro de la poblacin.

HIPTESIS ALTERNATIVA (Ha H1). Conclusin que aceptamos cuando los datos no apoyan la
hiptesis nula (Ho).

HIPTESIS NULA (Ho). Hiptesis o suposicin, acerca de un parmetro de la poblacin que


deseamos probar, generalmente una suposicin del status que (situacin actual)

INTERVALO DE CONFIANZA. Gama de valores que tienen alguna probabilidad especificada de


incluir el verdadero valor del parmetro de la poblacin.

INTERSECCIN EN Y. Constante d cualquier recta, cuyo valor representa el valor de la variable


Y cuando la variable X tiene un valor de cero (0).

LMITES DE CONFIANZA. Los lmites superior e inferior de un intervalo de confianza.

LNEA DE REGRESIN.- Lnea ajustada a un conjunto de puntos de datos para estimar la relacin
entre dos variables.

NIVEL DE CNTIANZA.- Probabilidad que los estadsticos asocian a una estimacin por intervalo
del parmetro de una poblacin; indica la confianza de que la estimacin por intervalo incluya el
parmetro de la poblacin.

MTODO DE MNIMOS CUADRADOS. Tcnica con que se ajusta una recta mediante un conjunto
de puntos, de manera que se minimice la suma de los cuadrados de las distancias verticales entre
n puntos y la lnea.

NIVEL DE SIGNIFICANCIA. Valor que indica el porcentaje de los valores mustrales que se haya
fuera de ciertos lmites suponiendo que la hiptesis nula sea correcta, esto es, la probabilidad de
rechazarla cuando es verdadera.

PENDIENTE. Constante de cualquier recta, cuyo valor representa en qu medida el cambio de cada
unidad de la variable independiente modifica la variable dependiente.

PODER DE LA PRUEBA DE HIPTESIS. Probabilidad de rechazar la hiptesis nula cuando es


falsa; es decir, una medida de la eficacia con que funciona la prueba de hiptesis.
PRUEBA DE DOS EXTREMOS (COLAS). Prueba de hiptesis en la cual se rechaza la hiptesis
nula (Ho), s el valor muestral es significativamente mayor o menor que el supuesto valor del
parmetro de la poblacin; prueba que incluye dos regiones de rechazo.

RAZN F. Aquella que se utiliza en l anlisis de varianca, entre otras pruebas, para comparar la
magnitud de dos estimaciones de la variancia de la poblacin y determinar si ambas estimaciones
son aproximadamente iguales; en el anlisis de varianca, se emplea la razn de la variancia entre
columnas con la variancia dentro de columnas.

REGRESIN. Proceso general de predecir una variable a partir de otra con medios estadsticos,
usando datos anteriores.

REGRESIN MLTIPLE. Procedimiento estadstico en virtud del cual algunas variables se usan
para predecir otra variable.
RELACIN CURVILNEA. Nexo de dos variables que es descrito por una lnea curva.

RELACIN DIRECTA. Relacin entre dos variables en la cual, al aumentar el valor de la variable
independiente, tambin aumenta el de la variable dependiente.

RELACIN INVERSA.- Relacin entre dos variables en la cual, al aumentar la variable


independiente disminuye, la variable dependiente.

RELACIN LNEAL.- Tipo particular de asociacin entre dos variables, que puede ser descrita
matemticamente con una recta.

VARIABLE DEPENDIENTE (Y). Aquella que estamos tratando de predecir en el anlisis de


regresin.

VARIABLE INDEPENDIENTE (X). La variable variables, conocidas en el anlisis de regresin.

You might also like