You are on page 1of 35

REGRESIÓN

Y
CORRELACIÓN LINEAL
ANTECEDENTES HISTÓRICOS
El término regresión fue introducido por Galton en su libro “Natural
inheritance” (1869) refiriéndose a la “ley de la regresión universal”:

– “Cada peculiaridad en un hombre es compartida por sus


descendientes, pero en media, en un grado menor.”
• Regresión a la media
– Su trabajo se centraba en la descripción de los rasgos físicos de los
descendientes (una variable) a partir de los de sus padres (otra
variable).
– Pearson (un amigo suyo) realizó un estudio con más de 1000 registros
de grupos familiares observando una relación del tipo:

• Altura del hijo = 85cm + 0.5 altura del padre


(aprox.)
• Conclusión: los padres muy altos tienen tendencia a
tener hijos que heredan parte de esta
altura, aunque tienen tendencia a acercarse
(regresar) a la media. Lo mismo puede decirse de
los padres muy bajos.
•Hoy en día el sentido de regresión es el de predicción de una medida
basándonos en el conocimiento de otra.
DEFINICIÓN DE REGRESIÓN

La Regresión es una técnica estadística utilizada


para estudiar la posible relación entre dos tipos
de variables: independientes y dependientes.

En la regresión se busca encontrar un modelo


estadístico-matemático que se ajuste lo mejor
posible a los datos en estudio y permita predecir
el comportamiento de una variable determinada.
Estudio conjunto de dos variables
• A la derecha tenemos una posible manera de recoger los
datos obtenido observando dos variables en varios individuos
de una muestra.
Altura Peso en
en cm. Kg.
– En cada fila tenemos los datos de un individuo
162 61
154 60
– Cada columna representa los valores que toma una
variable sobre los mismos. 180 78
158 62

– Las individuos no se muestran en ningún orden 171 66


particular. 169 60
166 54
• Dichas observaciones pueden ser representadas en un grafico 176 84
de dispersión (‘scatterplot’). En ellos, cada individuos es un 163 68
punto cuyas coordenadas son los valores de las variables. ... ...

• Nuestro objetivo será intentar reconocer a partir del mismo si


hay relación entre las variables, de qué tipo, y si es posible
predecir el valor de una de ellas en función de la otra.
Gráficos de dispersión o nube de puntos
Tenemos las alturas y los pesos de 30 individuos representados en un grafico
de dispersión.

100
90
Pesa 76 kg.
80
70
60

Mide 187 cm.


50

Pesa
40 50 kg.
30
140 150 160 170 180 190 200
Mide 161 cm.
Relación entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un grafico
de dispersión.

100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
Predicción de una variable en función de la otra.
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.

100
90
80
70
60
10 kg.
50
40
30
140 150 160 170 180 190 200

10 cm.
Cómo reconocer relación directa e inversa.
330 100
280 Incorrelación 90 Fuerte relación
80 directa.
230
70
180
60
130 50

80 40
30
30
140 150 160 170 180 190 200
140 150 160 170 180 190 200

Para valores de X por encima de la media •Para los valores de X mayores


tenemos valores de Y por encima y por que la media le corresponden
debajo en proporciones similares. valores de Y mayores también.
Incorrelación.
•Para los valores de X menores
80
que la media le corresponden
70 Cierta relación valores de Y menores también.
60 inversa
50 •Esto se llama relación directa o
40
creciente entre X e Y.
30
20
10
0
Para los valores de X mayores que la
140 150 160 170 180 190 200 media le corresponden valores de Y
menores. Esto es relación inversa o
decreciente.
Cómo reconocer buena o mala relación
330 100

280 Poca relación 90 Fuerte relación

230
o80 directa.
70 o
180
60
130
o 50 o
80 40
30 o30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Dado un valor de X no podemos decir •Conocido X sabemos que Y se


gran cosa sobre Y. Mala relación. mueve por una banda estrecha. Buena
Independencia. relación.

•Lo de “banda estrecha” hay que


80
entenderlo con respecto a la dispersión
70 Cierta relación
60 inversa que tiene la variable Y por si sola, cuando
50 no se considera X.
40
30
20
10
0
140 150 160 170 180 190 200
Coeficiente de correlación lineal de Pearson

 La coeficiente de correlación lineal de Pearson de


dos variables, r, nos indica si los puntos tienen
una tendencia a disponerse alineadamente
(excluyendo rectas horizontales y verticales).

 r es útil para determinar si hay asociación lineal


entre dos variables, pero no servirá para otro tipo
de relaciones (cuadrática, logarítmica,...)
Propiedades de r
• Es adimensional
• Sólo toma valores en [-1,1]
• Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación
lineal.
– Siempre que no existan observaciones anómalas.

Relación
inversa Relación
perfecta directa
Variables no
casi
correlacionadas
perfecta

-1 0 +1
Correlaciones positivas

330 130
120
280 110
230 100
90
180 80
70
130 60
50
80 r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

110 100
100 90
90 80
80
70
70
60
60
50 50

40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Correlaciones casi perfectas y positivas
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200
Regresión
• El análisis de regresión sirve para predecir una
medida en función de otra medida (o varias).

– Y = Variable dependiente
• predicha
• explicada
– X = Variable independiente
• predictora
• explicativa
– ¿Es posible descubrir una relación?
• Y = f(X) + error
– f es una función de un tipo determinado
– el error es aleatorio, pequeño, y no depende de X
Regresión

• El ejemplo del estudio de la altura en grupos familiares de Pearson es


del tipo que desarrollaremos en el resto del tema.

– Altura del hijo = 85cm + 0.5 altura del padre (Y = 85 + 0.5 X)

• Si el padre mide 200cm ¿cuánto mide el hijo?


– Se espera (predice) 85 + 0.5x200=185 cm.
» Alto, pero no tanto como el padre. Regresa a la media.

• Si el padre mide 120cm ¿cuánto mide el hijo?


– Se espera (predice) 85 + 0.5x120=145 cm.
» Bajo, pero no tanto como el padre. Regresa a la media.

• Es decir, nos interesaremos por modelos de regresión lineal simple.


Modelo de regresión lineal simple
• En el modelo de regresión lineal simple, dado dos variables
– Y (dependiente)
– X (independiente, explicativa)

• buscamos encontrar una función de X muy simple (lineal) que nos


permita aproximar Y mediante
– Ŷ = b 0 + b 1X
• b0 (ordenada en el origen, constante)
• b1 (pendiente de la recta)

• Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de


regresión. A la cantidad
– e=Y-Ŷ se le denomina residuo o error residual.
Interpretación de los Coeficientes de Regresión:

• Interpretación del intercepto : ̂


Indica el valor promedio de la variable de respuesta Y cuando X es cero. Si
se tiene certeza de que la variable predictora X no puede asumir el valor
0, entonces la interpretación no tiene sentido.

• Interpretación de la pendiente : ˆ
Indica el cambio promedio en la variable de respuesta Y cuando X se
incrementa en una unidad.
También se le conoce como: COEFICIENTE ANGULAR DE LA REGRESIÓN.
Resumen sobre bondad de un ajuste
• La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente
de determinación R2

• R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]

• Cuando un ajuste es bueno, R2 será cercano a uno.

• Cuando un ajuste es malo R2 será cercano a cero.

• A R2 también se le denomina porcentaje de variabilidad explicado por el modelo


de regresión.

• R2 puede ser pesado de calcular en modelos de regresión general, pero en el


modelo lineal simple, la expresión es de lo más sencilla: R2=r2
Otros modelos de regresión
• Se pueden considerar otros tipos ¿recta o parábola?
de modelos, en función del
aspecto que presente el grafico
de dispersión (regresión no lineal)

• Incluso se puede considerar el


que una variable dependa de 140 150 160 170 180 190 200
varias (regresión múltiple).

¿recta o cúbica?

140 150 160 170 180 190 200


Otros modelos de regresión
18
20

16
y = 18.307e-0.2484x

14 12

Y
8
Y

10 y = -14.521+ 1.5918x -0.0205x 2 0


0 5 10
X

6
15 25 35 45
X

Polinomial de grado 2 o Exponencial

Regresión cuadrática
22
y = -17.715 + 9.526 Ln(x)
18

24
14

Y
20
y = 19.362x -0.9126
16
10
12
Y

8
6
4
15 25 35 45
0
0 2 4 6 8 10 X
X

Potencia Logarítmico
Linealización de modelos
Nombre del modelo Ecuación Transformación Modelo
linealizado
Exponencial y =  ex Z= ln(y) x=x Z = ln  + x

Potencia o doblemente y =  x Z= ln(y) W=ln(x) Z = ln  + W


logarítmico (*)
Logarítmico (**) y =  +  ln Y=y W = ln (x) y =  + W
(x)
Geométrico y =  x Z=ln (y) Z = ln  + x ln ()

Inversa o hiperbólica y =  +  1/x Y=Y W =1/x y =  + W

Doblemente inversa y =1/(  + x) Z = 1/y x = x Z =  + x

(*) Algunos autores se refieren a este modelo como logarítmico.


(**) También referido como semilogarítmico
Regresión lineal múltiple
El modelo de regresión lineal múltiple con p variables
predictoras X1,…Xp, es de la siguiente forma:

Y  0  1X1  2X2  3X3  ... pXp  

Las constantes b0 ,b1,...,bp, llamadas coeficientes de regresión, se


estiman usando el método de mínimos cuadrados, y usando n
observaciones de la forma yi , xi1 , xi 2 ,...,
, xip donde i  1 ,..., n .
La cantidad  es una variable aleatoria con media cero
y varianza  2
Interpretación del coeficiente de regresión
estimado j

El estimado del coeficiente de regresión poblacional bj, con


j  1,..., p , se representará por  . Este estimado indica el cambio
j
promedio en la variable de respuesta Y cuando la variable predictora
Xj cambia en una unidad adicional asumiendo que las otras variables
predictoras permanecen constantes.
Selección de variables en Regresión Múltiple

Una buena propiedad de un modelo de regresión lineal es que


permita explicar el comportamiento de la variable de respuesta Y
lo mejor posible, haciendo uso del menor número de variables
predictoras posibles, esta propiedad es llamada “parsimonía”.
Ejemplo de regresión simple
Se utiliza un molino de viento para generar corriente continua.
Se reúnen datos en 15 días para determinar la relación entre la
velocidad del viento en millas por hora y la corriente en kA.
Los datos se presentan a continuación:

Día 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Velocidad 4.2 1.4 6.6 4.7 2.6 5.8 1.8 5.8 7.3 7.1 6.4 4.6 1.6 2.3 4.2
Corriente 1.9 0.7 2.2 2.1 1.1 2.6 0.3 2.3 2.6 2.7 2.4 2.2 1.1 1.5 1.6
El modelo que se obtendrá será de
la forma:

Y = bo + b1X1
Grafico de dispersión
Corriente en funcion de la velocidad

2.5

2
Corriete

1.5

0.5

0
0 1 2 3 4 5 6 7 8
Velocidad
Ecuación de la recta de
regresión simple:

Y = 0.35 + 0.33X1
Ejemplo de regresión múltiple
Los datos de la siguiente tabla constan de las
mediciones de producción de 20 operaciones de
una reacción química. Las cantidades cambia con
la temperatura en °C, la concentración del
reactivo fundamental en porcentaje y la duración
de la reacción en horas. La variable dependiente
es la fracción convertida al producto deseado.
Datos para regresión múltiple
Fraccion del
Medición Temperatura Concentración Duración producto
1 50 20 4.1 28.194
2 90 38 8.1 46.946
3 70 28 6.5 37.461
4 70 25 6.4 38.440
5 60 24 4.9 33.776
6 70 29 6.1 37.570
7 60 23 5.1 31.307
8 70 28 5.8 37.863
9 80 36 7.2 41.109
10 70 33 7.7 32.831
11 70 32 7.9 32.794
12 70 30 7.7 33.489
13 60 22 5.1 31.381
14 60 25 5.3 32.289
15 70 35 7.3 31.278
16 70 37 7.4 32.172
17 60 23 5.2 33.234
18 60 23 5.5 31.535
19 60 24 6.1 31.031
20 60 24 4.9 33.474
La ecuación del modelo se expresa
como:

Y = b0 + b1x1 + b2x2 + b3x3


Recta de Regresión múltiple:

Y = 0.6324 + 0.843x1 – 0.343x2 - 2.037x3

You might also like