You are on page 1of 41

Regresin y Correlacin

Dpto. de Estadstica -
UNCo
UNIDAD N 9

REGRESIN Y CORRELACIN
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Relaciones entre variables
Francis Galton
Primo de Darwin
Estadstico y aventurero
Fundador (con otros) de
la estadstica moderna
para explicar las teoras
de Darwin.


El trmino regresin fue introducido por Galton en su libro
Natural inheritance (1889) refirindose a la ley de la
regresin universal:
Cada peculiaridad en un hombre es compartida por sus
descendientes, pero en media, en un grado menor.
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos fsicos
de los descendientes (una variable) a partir de los de sus
padres (otra variable).

Pearson (un amigo suyo) realiz un estudio con ms de
1000 registros de grupos familiares observando una
relacin del tipo:
Altura del hijo = 85cm + 0,5 altura del padre (aprox.)
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Conclusin


Padres muy altos tienen tendencia a tener hijos que heredan parte de
esta altura, aunque tienen tendencia a acercarse (regresar) a la media.
Lo mismo puede decirse de los padres muy bajos.


Hoy en da el sentido de regresin es el de prediccin de una medida
basndonos en el conocimiento de otra.




Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Qu vamos a estudiar?
Vamos a buscar la mejor
estimacin del modelo de
Regresin Lineal
i i i
x Y | o + + =
Parmetros
Error
Residual
errores casuales
errores de medicin
deficiencias del modelo
ci es la parte de yi que no est explicada
por la regresin lineal de Y sobre xi .
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Regresin
El anlisis de regresin sirve para predecir
una medida en funcin de otra medida (o
varias).
Y = Variable dependiente
predicha
explicada
X = Variable independiente
predictora
explicativa

Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Estudio conjunto de dos variables
A la derecha tenemos una posible manera de recoger
los datos observando dos variables en varios
individuos de una muestra.

En cada fila tenemos los datos de un individuo

Cada columna representa los valores que toma una
variable sobre los mismos.

Las individuos no se muestran en ningn orden
particular.

Dichas observaciones pueden ser representadas en
un diagrama de dispersin En ellos, cada individuos
es un punto cuyas coordenadas son los valores de
las variables.

Nuestro objetivo ser intentar reconocer a partir del
mismo si hay relacin entre las variables, de qu tipo,
y si es posible predecir el valor de una de ellas en
funcin de la otra.
Altura
en cm.
Peso
en Kg.
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
... ...
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Diagramas de dispersin o nube de puntos
M
i
d
e

1
8
7

c
m
.

Mide 161 cm.
Pesa 76 kg.
Pesa 50 kg.
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Relacin entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de
dispersin.
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Prediccin de una variable en funcin de la otra.
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.
10 cm.
10 kg.
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Supuestos del Modelo
La variable "explicativa" X toma valores
predeterminados por el investigador.
Para cada valor fijo de X , la variable Y se distribuye
en forma normal .
La relacin entre las variables X e Y es lineal , es
decir, la regresin del promedio es lineal
Simblicamente : E(Y/X) = + |.X , ya que E(c) = 0
Los valores de la variable Y son independientes entre
si ya que existe Homocedasticidad ,significa que la
variancia de los errores es constante , no depende
del valor de X. La variancia de Y no depende del valor
que tome la variable X .
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
La covarianza entre dos variables, Cov(x,y), nos indica si la
posible relacin entre dos variables es directa o inversa.

Directa: Cov(x,y),

>0

Inversa: Cov(x,y), <0

No existe relacin : Cov(x,y), =0


El signo de la covarianza indica el comportamiento entre las
variables. Esta puede ser directa, inversa o que no exista relacin
lineal.

Covarianza de dos variables X e Y
) )( (
1
) , cov( y y x x
n
y x
i
i
i
=

Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Supuestos de los errores
0
2
4
6
8
10
12
14
16
0 1 2 3 4 5 6
c o i
y y e =
c o
i
N ~ ( , ) 0
2
cov( , ) c c
i j
i j = = 0
o
y
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
bx a y + =

e
1
e
n
e
i
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
30
80
130
180
230
280
330
140 150 160 170 180 190 200
Cmo reconocer relacin directa e inversa.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Para valores de X por encima de la media
tenemos valores de Y por encima y por debajo
en cantidades similares. No existe relacin
Para los valores de X mayores que la media
le corresponden valores de Y menores. Esto
es relacin inversa o decreciente.
Para los valores de X mayores que la media le
corresponden valores de Y mayores tambin.

Para los valores de X menores que la media le
corresponden valores de Y menores tambin.

Esto se llama relacin directa o creciente entre X e Y.
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
CALCULO DE LA RECTA DE REGRESIN
) ), / ( ( ~
2
o
i i
x Y E N y
i i i
x Y | o + + =
( x
1
, y
1
) , ( x
2
, y
2
) , ... , ( x
n
, y
n
)
x b a y . + =

Recta de Estimacin
Modelo de Regresin
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Mtodos de Estimacin
|
o

=
=
b
a
Existen dos mtodos para hallar los estimadores de
o y | que dan los mismos resultados.
Mtodo de Mxima Verosimilitud
Mtodo de los Mnimos Cuadrados

= =
= =
n
i
i
n
i
i i
mnimo e y y
1
2
1
2
) (

i
x b a y .

+ =

= =
+ =
n
i
i i
n
i
i i
x b a y y y
1
2
1
2
)] . ( [ ) (

Regresin y Correlacin
Dpto. de Estadstica -
UNCo
mn x b a y b a
n
i
i i
= =

=1
2
] . [ ) , (
0
) , (
=
a
b a
c
c
0
) , (
=
b
b a
c
c
X b Y a . =
) (
) , (
) (
) ).( . (
.
. . .
1
2
1
1
2 2
1
x V
y x Cov
X x
Y y X x
X n x
Y X n y x
b
n
i
i
n
i
i i
n
i
i
n
i
i i
=

=
=
=
=
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Interpretacin de los coeficientes
a = ordenada al origen cuando x=0 ; y=a

b= pendiente de la recta

b>0 :existe una relacin lineal directa entre las
variables

b<0: existe una relacin lineal inversa entre las variables

b=0 no existe relacin lineal entre las variables .
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Otros modelos de regresin
Se pueden considerar otros tipos
de modelos, en funcin del
aspecto que presente el diagrama
de dispersin (regresin no lineal)



Incluso se puede considerar el que
una variable dependa de varias
(regresin mltiple).
recta o parbola?
140 150 160 170 180 190 200
recta o cbica?
140 150 160 170 180 190 200

Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Cmo medir la bondad de una regresin?
Imaginemos un diagrama de dispersin, y vamos
a tratar de comprender en primer lugar qu es
el error residual, su relacin con la varianza de Y,
y de ah, cmo medir la bondad de un ajuste.
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Interpretacin de la variabilidad en Y
Y En primer lugar olvidemos que existe la
variable X. Veamos cul es la variabilidad
en el eje Y.

La franja sombreada indica la zona donde
varan los valores de Y.

Proyeccin sobre el eje Y = olvidar X

y
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Interpretacin del residuo
Y
Fijmonos ahora en los errores de prediccin
(lneas verticales). Los proyectamos sobre el eje Y.
Se observa que los errores de prediccin,
residuos, estn menos dispersos que la
variable Y original.

Cuanto menos dispersos sean los residuos,
mejor ser la bondad del ajuste.

Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Coeficiente de Determinacin = r
2
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
y

y
o
y
Error total
Error no Explicado
Error Explicado
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Error total Error no Explicado
Error Explicado
=
+
( ) ( ) ( ) Y y y y Y y
i i i i
+ =

( ) ( ) ( ) | |
2 2

Y y y y Y y
i i i i
+ =
( ) ( ) ( ) | |

= =
+ =
n
i
i i i
n
i
i
Y y y y Y y
1
2
1
2

( ) ( ) ( )

= = =
+ =
n
i
i
n
i
i i
n
i
i
Y y y y Y y
1
2
1
2
1
2

. . . . . . E V E N V T V + =
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
. .
. .
. .
. . .
1
. .
. . . . .
. .
. .
T V
E V
T V
E N V
T V
E V E N V
T V
T V
+ =
+
=
relacion de tipo el detecta No
VNE VT VE r
VT VNE VE r
r
0 1
2
0 0
2
1
2
0
= = =
= = =
s s
2
. .
. .
. .
. . .
1 r
T V
E V
T V
E N V
= =
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Resumiendo:

La dispersin del error residual ser una fraccin
de la dispersin original de Y

Cuanto menor sea la dispersin del error residual
mejor ser el ajuste de regresin.

Eso hace que definamos como medida de
bondad de un ajuste de regresin,
o coeficiente de determinacin a:
Coeficiente de Determinacin
VT
VNE
R =1
2
Y
2 2

Y e
S S <
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Resumen sobre bondad de un ajuste
La bondad de un ajuste de un modelo de regresin se
mide usando el coeficiente de determinacin R
2

R
2
es una medida adimensional que slo puede tomar
valores en [0, 1]

Cuando un ajuste es bueno, R
2
ser cercano a uno.

Cuando un ajuste es malo R
2
ser cercano a cero.

A R
2
tambin se le denomina porcentaje de variabilidad
explicado por el modelo de regresin.



Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Coef. de correlacin lineal de Pearson
La coeficiente de correlacin lineal de Pearson de
dos variables, r, nos indica si los puntos tienen
una tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales).


tiene el mismo signo que cov(x,y) por tanto de su
signo obtenemos el que la posible relacin sea
directa o inversa.

r es til para determinar si hay relacin lineal
entre dos variables, pero no servir para otro tipo
de relaciones (cuadrtica, logartmica,...)

y x
S S
y x
r
) , cov(
=
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Coeficiente de Correlacin
X e Y son variables aleatorias . Luego, no existe una variable
explicativa y otra explicada.
La poblacin de la cual se extrae la muestra es Normal Bivariada .
Existe una relacin lineal entre las variables, la cual est medida
por el coeficiente de correlacin poblacional definido como :
Muestral n Correlaci de e Coeficient r
Y E X E
Y X E
y x Cov
l Poblaciona n Correlaci de e Coeficient
y V y E y x V x E
con as distribud e Normalment estn Y e X
y x
y x
y x
y y x x



o o

o o

1 1
] ) [( ] ) [(
)] )( [(
) , (
) ( ) ( ) ( ) (
2 2
2 2
=
s s


= =
= = = =
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
1 1
) )( (
) ( ) (
1
) )( (
1
) ( ). (
) , cov(
2 2 2 2
1
2 2
1
1
s s

=


= =

=
=
=
r
Y n y X n x
Y X n y x
r
Y y X x
n
Y y X x
n
y S x S
y x
r
i i
n
i
i i
i
n
i
i
i
n
i
i
r =-1 *Existe relacin inversa y perfecta entre las variables

r =1 *Existe relacin directa y perfecta entre variables

r =0 *No existe relacin lineal entre las variables -Variables no correlacionadas

-1 < r < 0 *Existe relacin inversa entre las variables

0 < r < 1 * Existe relacin directa entre las variables

1 1 ; 1
2
0
2
) (
2
s s s s = r r r r
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Es adimensional
Slo toma valores en [-1,1]
Si no existe relacin lineal r=0
Relacin lineal perfecta entre dos variables r=+1 o r=-1
Excluimos los casos de puntos alineados horiz. o verticalmente.
Cuanto ms cerca est r de +1 o -1 mejor ser el grado de
relacin lineal.
Siempre que no existan observaciones anmalas.


Propiedades de r
-1 +1
0
Relacin
inversa
perfecta
Relacin
directa
casi
perfecta
Variables
incorreladas
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
correlaciones negativas
r=-0,5
0
10
20
30
40
50
60
70
80
90
140 150 160 170 180 190 200
r=-0,7
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,95
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,999
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
correlaciones positivas
r=0,6
30
40
50
60
70
80
90
100
110
140 150 160 170 180 190 200
r=0,1
30
80
130
180
230
280
330
140 150 160 170 180 190 200
r=0,4
30
40
50
60
70
80
90
100
110
120
130
140 150 160 170 180 190 200
r=0,8
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
casi perfectas y positivas
r=1
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
r=0,9
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
r=0,99
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
Animacin: Residuos del modelo de
regresin
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
INFERENCIA SOBRE EL COEFICIENTE DE
CORRELACIN
Distribucin del coeficiente de correlacin muestral r
Para = 0
r es simtrica alrededor de
n . Normal
( n ) es pequeo
2
2
1
~
2

n
n
r
t
r
H
0
: = 0
H
1
: = 0
H
0
: X e Y son independientes
H
1
: X e Y no son independientes
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
DISTRIBUCIN DE LOS ESTIMADORES DE
o y |
, ~
) (
) 1 , 0 ( ~ ) , ( ~
~
) ( .
. ) 1 , 0 ( ~ ) , ( ~
2
2
2
2
2

n
b
e
i
e
b
b
b
n
a
e
i
i
e a
a
a
t
S
b
entonces
o desconocid es
X x
como N
b
N b
t
S
a
entonces
o desconocid es
X x n
x
con N
a
N a
|
o
o
o
o
|
o |
o
o o o
o
o
o o
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
VARIANCIA DE LA RECTA DE REGRESIN
i i i
X Y | o + + =
) , 0 ( ~
2
o N con
i
= )

(
i
Y E
i
x b E a E ) ( ) ( +
i
x | o + =
) ( )

(
i i i
y E x y E = + = | o
= + = + =
i i i
bx a X Y | o

i i
x de viciado no estimador un es y | o +

Regresin y Correlacin
Dpto. de Estadstica -
UNCo
= + = ) ( )

(
i i
bx a V Y V
= + )} ( { X x b Y V
i
) ( ) ( ) ( )

(
2
b V X x Y V Y V
i i
+ =
n
Y V
2
) (
o
=
) (
2 2
i e
V o o = =


+ =
2
2
2
2
) (
. ) ( )

(
X x
X x
n
Y V
i
i i
o o
)
`

+ =

2
2
2
) (
) ( 1
)

(
X x
X x
n
Y V
i
i
i
o
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
ESTIMACIN DE LA MEDIA DE Y
i

Correspondiente a un valor conocido de x
i
) , . ( ~
e i i
x N Y o | o +
i
i
i
y
y i
y
i i
y
x y

) . (

o

o
| o

=
+
) 1 , 0 ( ~ N
)

(
i y
y S
i
= o
2

~
) (

) (
) . (

=
+
n
y
y i
y
i i
t
S
y
S
x y
i
i
i

| o
)

( .

( .

2 / ; 2 2 / ; 2 i n i y i n i
y S t y y S t y
i
o o


+ < <
Regresin y Correlacin
Dpto. de Estadstica -
UNCo
ESTIMACION DE UN FUTURO VALOR Y
i
PARA X
i
FIJO
( ) errores los de la propia variacin la
ajuste. de recta la de variacin la
)
`

+ + = + =

2
2
2 2
) (
) ( 1
. )

( ) ( )

X x
X x
n
y V V /x y V(
i
i
i i i
o o
)
`

+ + = =

2
2
2 2
) (
) (
) ( 1
1 . ) /

(
X x
X x
n
S S x y V
i
i
e y i
i
) ( .

) ( .

2 / ; 2 2 / ; 2 i n i i n i
y S t y y y S t y
o o
+ < <

You might also like