You are on page 1of 29

ANLISIS DE REGRESIN Y

CORRELACIN LINEAL SIMPLE


Introduccin
La alcaldesa de cierta ciudad desea dar de baja a
un conjunto de autos que emitan excesiva cantidad
de Monxido de nitrgeno (NO); por ser uno de los
elementos que contamina el medio ambiente, los
tcnicos y asesores desean saber, si la cantidad de
Monxido de nitrgeno (NO en mg/m
3
) expulsado
por los autos se relaciona con la antigedad de los
autos.
Para el estudio seleccionaron una muestra de 10
autos y les solicitaron que utilizaran una nueva
gasolina reformulada que acaba de ingresar al
mercado, y posteriormente hicieron la medicin
respectiva.
Introduccin
Qu herramienta pueden utilizar los
asesores que sustenten su teora?
Qu variables tendr que medir?
Qu ecuacin ayudar a predecir la
emisin de monxido de nitrgeno ?
Ser esta ecuacin lineal o no lineal?
Qu precisin se puede esperar al usar
esta herramienta de toma de decisiones?


Ao
Antigedad del
auto (aos)
Monxido
de
Nitrgeno
(mg/m
3
)
2009 2 1.8
2008 3 5.16
2009 2 4.80
2000 11 12.97
2004 7 5.92
1995 16 20.66
2002 9 10.16
2009 2 4.17
1999 12 13.52
2007 4 1.33
A continuacin se presentan datos de 10 autos
Una lnea recta podra ser lo
ms adecuado para relacionar
estas variables?
Diagrama de dispersin
Grfica que presenta la relacin entre dos variables de inters

Qu es el anlisis
de regresin lineal
?
Es modelar la dependencia de la variable Y
en funcin de la variable X a travs de la
ecuacin de una recta
Anlisis de Regresin Lineal Simple
0 1 i i i
Y X e | | = + +
i=1, 2, , n
Variable
dependiente
Variable
predictora
(independiente)
Parmetros
Error ~ NID(0,o
2
)
Para Y= Monxido de nitrgeno (mg/m
3
)
X= Antigedad del auto (aos)
1

|
Cul ser la emisin de
monxido de nitrgeno, si un
auto tiene 20 aos?
La ecuacin de regresin estimada, podra responder las
siguientes preguntas:
Cul ser el valor del NO por cada
ao que pase?
Coeficiente de
regresin
estimado
Cul ser la emisin de
monxido de nitrgeno promedio,
dado si un auto tiene 20 aos?
Intervalo de confianza
para
Y/X=20

Intervalo de prediccin
para el valor de Y dado
X= 20
SUPUESTOS DEL MODELO
1) Los errores se distribuyen normalmente. (Se usa
Kolmogorov)
2) Los errores tienen media 0 y varianza o (No
realizamos esta prueba)
3) Los errores no se encuentran autocorrelacionados
(Durbin Watson D-W).


0DW4
0 1 3 4
Autocorre
lacin +
Autocorrelacin -
No hay
Autocorrelacin
Verificacin de supuestos
0.150 >0.05. Los errores se
distribuye normalmente
No existe autocorrelacin
Ho: Los errores se distribuyen normalmente
H1: Los errores No se distribuyen
normalmente

4 3 2 1 0 -1 -2 -3 -4 -5
99
95
90
80
70
60
50
40
30
20
10
5
1
RESID1
P
o
r
c
e
n
t
a
j
e
Media 1.509903E-15
Desv.Est. 1.911
N 10
KS 0.191
Valor P >0.150
Prueba de Normalidad
Ho: No existe autocorrelacin entre los residuos
H1: Si existe autocorrelacin entre los residuos

Estadstico de Durbin-Watson = 1.77046
Ecuacin estimada
X Y 1674 . 1 111 . 0

+ =
X b b Y
1 0

+ =
B1: Si antigedad del auto aumenta en un ao, la emisin de monxido de
nitrogeno ser de 1.1674 mg/m
3

Coef.
Predictor Coef de EE T P
Constante 0.111 1.120 0.10 0.924
X:Antiguedad 1.1674 0.1350 8.65 0.000
Anlisis de varianza
Ho:
1
= 0 (El modelo de regresin No es significativo)
H1:
1
0 (El modelo de regresin Si es significativo)
Prueba estadstica:
CME
g CM
Fcalc
Re
=
Fcal= 74.795 > F(0.05;1,8)= 5.3177
Decisin: Se rechaza Ho
CONCLUSION:
Al nivel de significacin del 5%, podemos concluir que el
modelo de regresin estimado es significativo. O
Existe relacin lineal entre el ao de antigedad del auto y
la emisin de NO.
Salida del Minitab para nuestro ejemplo
P-valor = 0 < 0.05
Anlisis de varianza

Fuente GL SC MC F P
Regresin 1 307.44 307.44 74.80 0.000
Error residual 8 32.88 4.11
Total 9 340.32
Error estndar de la estimacin
Mide la variabilidad o dispersin de los valores mustrales y
observados alrededor de la recta de regresin
CME
n
SCE
Se =

=
2
Para nuestro ejemplo:
0274 . 2 110 . 4 = = Se
Qu tan bueno es el modelo?
Coeficiente de determinacin
Porcentaje de la variabilidad de Y que es explicada por la ecuacin
de regresin ajustada.
Coeficiente de no determinacin
Porcentaje de la variabilidad de Y que es no es explicada por el
modelo
El 90.34% de la variabilidad de la emisin
de monxido de nitrgeno, es explicada
por la ecuacin de regresin ajustada.
Salida del Minitab para nuestro ejemplo
S = 2.02740 R-cuad. = 90.3% R-cuad.(ajustado) = 89.1%
Prueba de hiptesis para la pendiente
Ejemplo
Se puede afirmar, a un nivel de significacin del 5%, que por cada incremento de
un ao de antigedad del auto, la cantidad emitida de monxido de nitrgeno se
incrementar en ms de 0.85 (mg/m
3
)?
Solucin:
Planteo de hiptesis:
85 . 0 :
85 . 0 :
1 1
1
>
=
|
|
H
Ho
Nivel de significacin: o = 0.05
Estadstico de prueba:
) 2 (
1 1
~

.

=
n
xx
calculado
t
S
Se
t
| |
Criterios de decisin:
859548 . 1
) 8 , 05 . 0 (
= = t t
crtico
Ho R N : E. D. : Si
crtico Cal
t t s
Ho R : E. D. : Si
crtico Cal
t t >
Clculos:
351 . 2
135 . 0
85 . 0 1674 . 1
=

=
calculado
t
D. E. : R Ho
Conclusin: Con un nivel de significacin del 5%, se puede
afirmar estadsticamente que por cada ao de antigedad del
auto, la cantidad emitida de monxido de nitrgeno se
incrementar en ms de 0.85 (mg/m
3
)
Error
tpico de

1

Intervalos de confianza para valores
predichos (pronosticados)
Para hallar un intervalo de confianza de (1 - )100% de los valores
pronosticados para la respuesta media y para un valor individual, dado un valor
de X, se utiliza las expresin siguientes:
( )
xx
n
S
x x
n
Se t y
2
0
) 2 , 2 / ( 0
1


+
o
( )
xx
n
S
x x
n
Se t y
2
0
) 2 , 2 / ( 0
1
1


+ +
o
Para un valor medio:
Para un valor individual:
Prom de X 6.8
Xo= 20
Y^o= 23.459
Sxx= 225.590597
Se 2.027401231
t (0.025; 8)= 2.306
459 . 23 ) 20 ( 1674 . 1 111 . 0

= + = Y
Estime un IC del 95%, para el valor medio de emisin de monxido de nitrgeno,
cuando un auto tiene 20 aos de antigedad.
Intervalo de confianza para un valor medio
591 . 225
) 1674 . 1 (
44 . 307
2
1
2
= = =
.
|
SCR
S
xx
( )
591 . 225
8 . 6 20
10
1
0274 . 2 306 . 2 459 . 23
2

+
IC = < 19.09230627 ; 27.82549373 >

Interpretacin: Con un nivel de confianza del 95%, se estima que la emisin de
nitrgeno promedio, cuando un auto tiene 20 aos de antigedad, se encontrar
entre 19.092 y 27.825 unidades de mg/m
3
.
459 . 23 ) 20 ( 1674 . 1 111 . 0

= + = Y
Estime un IC del 95%, para el valor de emisin de monxido de nitrgeno,
cuando un auto tiene 20 aos de antigedad.
Intervalo de confianza para un valor individual
591 . 225
) 1674 . 1 (
44 . 307
2
1
2
= = =
.
|
SCR
S
xx
t (0.025; 8)= 2.30600414
Prom de X 6.8
Xo= 20
Y^o= 23.4589
Sxx= 225.590597
Se 2.02740
( )
591 . 225
8 . 6 20
10
1
1 0274 . 2 306 . 2 459 . 23
2

+ +
IC = < 17.0617 ; 29.8563 >
Interpretacin: Con un nivel de confianza del 95%, se estima que la emisin de
nitrgeno, cuando un auto tiene 20 aos de antigedad, se encontrar entre
17.062 y 29.856 unidades de mg/m
3
.
Qu es el anlisis
de correlacin
lineal ?
Es una herramienta estadstica que podemos
usar para describir el grado de relacin
lineal entre las variables.
ANLISIS DE CORRELACIN
acin er de Coef r min det . =
0.9505 0.9034 = = r
Tiene el mismo signo que b1
Existe una fuerte correlacin
lineal directa entre la emisin
de nitrgeno y la antigedad
del auto.
a)Asociacin lineal
inversa
b) Asociacin no
lineal directa
c) Asociacin lineal
directa
d) No hay asociacin
lineal
Interpretacin:
1. El valor absoluto de r indica la fuerza de la relacin
entre Y y X.
2. El signo da la direccin de la relacin (directa o
inversamente proporcional)
r = 1 correlacin positiva perfecta.
r = -1 correlacin negativa perfecta.
r = 0 no hay relacin lineal entre Y y X.
Inferencia sobre el coeficiente de correlacin
Para probar las hiptesis:
0 : = Ho
0 :
1
= H
El estadstico de prueba
es:
) 2 ( ~
1
2
2

= n t
r
n r
t
Si se asume que X e Y siguen la distribucin normal bivariada, es posible
probar la hiptesis ms general:
0
: = Ho
0 1
: = H
El estadstico de prueba es:
) 1 , 0 ( ~
) 1 )( 1 (
) 1 )( 1 (
ln
2
3
0
0
N
r
r n
Z
(

+
+
=

1.- Halle e interprete el coeficiente de correlacin simple


Interpretacin: Existe una alta correlacin positiva entre la
emisin de nitrgeno y la antigedad del auto
9503 . 0 903 . 0
2
= = = r r
6302 . 8
903 . 0 1
2 10 9503 . 0
=


=
cal
t
Con un nivel de significancia
del 5% se puede afirmar la
antigedad del auto est
correlacionado con la
emisin de monxido de
nitrgeno.
Se Rechaza Ho
0.4
0.3
0.2
0.1
0.0
X
0.025
2,306004135
0.025
0 -2,306004135
T,GL=8
Con un nivel de significacin del 5%, se puede afirmar que la emisin de
monxido de nitrgeno y la antigedad del auto estn correlacionadas en menos de
0.75?
Planteo de las hiptesis:
75 . 0 :
75 . 0 :
1
<
>

H
Ho
El estadstico de prueba es:
Nivel de significacin: o = 0.05
Criterios de decisin:
64 . 1
) 05 . 0 (
= = z z
crtico
Ho R N : E. D. : 645 . 1 z Si >
Cal
Ho R : E. D. 645 . 1 z Si <
Cal
D. E. : NO R Ho
Conclusin: Con un nivel de significacin
del 5%, se asume estadsticamente que la
emisin de monxido de nitrgeno y la
antigedad del auto estn correlacionadas
en 0.75 o ms.
) 1 , 0 ( ~
) 1 )( 1 (
) 1 )( 1 (
ln
2
3
0
0
N
r
r n
z
(

+
+
=

280 . 2
) 75 . 0 1 )( 9503 . 0 1 (
) 75 . 0 1 )( 9503 . 0 1 (
ln
2
3 10
=
(

+
+
= Zcal
Gracias

You might also like