You are on page 1of 14

REGRESIÓN LINEAL

Gabriel Jaime Posada Hernández


Docente

Departamento de Ciencias Básicas


VICERRECTORÍA DE INVESTIGACIONES
FUNDACIÓN UNIVERSITARIA LUIS AMIGÓ

Medellín, 2013
REGRESIÓN LINEAL Y CORRELACIÓN

En las unidades anteriores se ha centrado la atención en el tratamiento de los


valores que puede tomar una variable definida en una investigación, tanto en el
nivel de muestra como en el de población. Sin embargo, frecuentemente las
investigaciones implican considerar dos o más variables. Los procedimientos para
el análisis de la relación de dos variables serán contemplados en esta unidad.

1. REGRESIÓN LINEAL SIMPLE

La regresión es un método para determinar la relación existente entre una variable


independiente y otra dependiente, con fines de predicción de esta última variable
ante los cambios de la primera.

La variable independiente o predictora suele representarse por X y la variable


dependiente por Y. En algunos casos, la variable independiente se asocia con
medidas de “causa” y la dependiente con medidas de “efecto”.

En la producción industrial pueden ser variables independientes: el número de


trabajadores, el tiempo de labor semanal, la cantidad de materia prima, entre
otras. Y variables dependientes: el número de artículos producidos, los ingresos
semanales, el posicionamiento en el mercado, etc. Obsérvese que las variables
dependientes se muestran como “efecto” de las variables independientes o
“causa” del proceso de producción.

Por ejemplo, una compañía de bienes raíces residenciales en una ciudad desea
predecir los costos mensuales del alquiler de apartamentos, basado en el área en
metros cuadrados. Se seleccionó una muestra aleatoria con los siguientes datos:

2
Tabla 1. Área y costo de alquiler de apartamentos
APARTAMENTO ÁREA (m2) COSTO MENSUAL (miles de pesos)
1 79 475
2 135 800
3 101 600
4 114 750
5 67 475
6 138 850
7 106 825
8 67 467
9 65 437
10 89 575
11 102 700
12 119 825
13 184 1150
14 127 900
15 109 700
16 114 725
17 116 550
18 117 850
19 107 600
20 83 575
21 126 800
22 97 825
23 70 600
24 93 400
25 111 875
Fuente: Adaptación del texto Estadística para administración. Berenson y otros, pág. 466.

En este caso, se busca relacionar las variables área y costo mensual; donde la
variable independiente (X) es el área, y la dependiente (Y), el costo mensual.

3
1.1. Diagrama de dispersión

Cuando se toma una muestra de dos variables o bivariada, se obtiene una serie
de pares de datos. Estas parejas son de la forma (x,y) y se pueden representar
como puntos en un plano bidimensional o plano cartesiano; la representación
gráfica de las parejas se conoce como diagrama de dispersión.

La regresión lineal pretende encontrar una recta que represente todos los puntos
que se encuentran en el plano cartesiano.

En la gráfica 1 se ilustran algunos diagramas de dispersión.

Gráfica 1. Representación de algunos diagramas de dispersión

Para el ejemplo de la tabla 1, el diagrama de dispersión se presenta en la gráfica


2.

4
Gráfica 2. Diagrama de dispersión para el área y costo de alquiler de
apartamentos

El diagrama de dispersión muestra una relación lineal positiva; es decir, a medida


que crece el área aumenta el valor del alquiler del apartamento. Adicionalmente,
no se observa ningún valor atípico.

1.2. Ajuste de una recta por el método de mínimos cuadrados

Sobre el diagrama de dispersión se puede trazar un sinnúmero de líneas rectas


que represente el conjunto de datos y facilite la predicción para la variable
dependiente. Sin embargo, este método intuitivo es demasiado subjetivo.

El objeto de la regresión lineal consiste en determinar una recta de la forma


yi  b0  b xi , que sea representativa del conjunto de datos muestrales; este

proceso se conoce como ajuste de una recta y se utiliza como procedimiento el


método de mínimos cuadrados.

En este sentido, el método de mínimos cuadrados es objetivo y no depende de la


apreciación personal del investigador, sino de relaciones matemáticas
preestablecidas.

5
La tarea está en determinar los parámetros b0 y b en la ecuación de regresión

lineal simple yi  b0  b xi , donde

x i : es el i-ésimo valor de la variable X.

yi : es el i-ésimo valor de la variable y

b0 : es el valor que toma la variable dependiente "y", cuando la variable


independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical.
b : determina la pendiente de la recta, su grado de inclinación.

Una vez hallados los parámetros b0 y b , los valores calculados a partir de la

ecuación de regresión se denominan valores estimados, y se representan por ŷi .

En el método de mínimos cuadrados se emplean los datos de la muestra para


determinar los parámetros b0 y b que minimizan la suma de los cuadrados de las

desviaciones entre los valores observados de la variable dependiente yi y los

valores estimados de la variable dependiente ŷi .

La desviación se obtiene entre la diferencia de los valores “reales” yi y los valores

“estimados” ŷi ; por tanto, la suma de los cuadrados de las desviaciones debe ser

mínima. Esto es,


min ( y  yˆ )
i i

Con el cálculo diferencial se puede demostrar que los parámetros b0 y b que

minimizan el cuadrado de las desviaciones son:

b 
n xi yi   xi  yi
b0 
y
i b x
i

n x  ( xi )
2
i y n

6
Los parámetros para el ejemplo de la tabla 30, se calculan a partir de los datos
presentados en la tabla 2.

Tabla 2. Valores para el cálculo de parámetros de la compañía de bienes


raíz
APARTAMENTO X Y XY X2 Y2
1 79 475 37525 6241 225625
2 135 800 108000 18225 640000
3 101 600 60600 10201 360000
4 114 750 85500 12996 562500
5 67 475 31825 4489 225625
6 138 850 117300 19044 722500
7 106 825 87450 11236 680625
8 67 467 31289 4489 218089
9 65 437 28405 4225 190969
10 89 575 51175 7921 330625
11 102 700 71400 10404 490000
12 119 825 98175 14161 680625
13 184 1150 211600 33856 1322500
14 127 900 114300 16129 810000
15 109 700 76300 11881 490000
16 114 725 82650 12996 525625
17 116 550 63800 13456 302500
18 117 850 99450 13689 722500
19 107 600 64200 11449 360000
20 83 575 47725 6889 330625
21 126 800 100800 15876 640000
22 97 825 80025 9409 680625
23 70 600 42000 4900 360000
24 93 400 37200 8649 160000
25 111 875 97125 12321 765625
TOTAL 2.636 17.329 1.925.819 295.132 12.797.183
Fuente: Adaptación del texto Estadística para administración. Berenson y otros, pág. 466.

7
De la tabla 2 se tiene que:

x i  2.636 , y i  17.329 , x y
i i  1.925.819 , x
2
i  295.132 y n = 25

por tanto,

n xi yi   xi  yi 25(1.925.819)  (2.636)(17.329) 2.466.231


b     5,73804
n x  ( xi )
2
i 25(295.132)  (2.636)2 429.804

b0 
y i b x
i

17.329  (5,73804)( 2.636) 2.203,53
  88,14120
n 25 25

en consecuencia, el modelo de regresión para estimar el costo de alquiler mensual


de un apartamento a partir del área será:

yˆ  88,14120  5,73804 x

Este modelo representa la integración de todos los puntos ubicados en el


diagrama de dispersión, y garantiza que la suma del cuadrado de las desviaciones
es mínima, como se ilustra en la gráfica 2.

8
Gráfica 2. Modelo de regresión lineal para el área y costo de alquiler de
apartamentos

Interpretación de bo y b
bo = 88,1412 indica que cuando el cambio en el área es cero, el cambio esperado
en el costo de alquiler mensual es de 88,1412 miles de pesos; es decir, que el
costo de alquiler mensual aumenta 88,1412 miles de pesos. La pendiente b =
5,73804 señala que por cada incremento de 1 m 2 en el área, se pronostica que el
cambio esperado en el costo mensual de alquiler es de 5,73804 miles de pesos,
cuyo significado es que se pronostica que el costo de alquiler aumenta 5,73804
miles de pesos por cada 1 m2 de incremento en el área.

Predicciones
Con la ecuación de regresión encontrada, es posible predecir algunos valores
para la variable dependiente a partir de la variable independiente

Observación
Cuando se utiliza un modelo de regresión con propósitos de pronóstico, es
importante que se tenga en cuenta sólo el intervalo de valores que toma la
variable independiente y que fueron usados para construir el modelo. Entonces, si

9
se predice un valor de Y para un valor dado de X, es posible interpolar dentro de
este intervalo de valores de X, pero no se debe extrapolar hacia fuera de este
intervalo. Por ejemplo, cuando se usa el área en m 2 para predecir el alquiler
mensual, se observa en la tabla 29 que los metros cuadrados varían de 65 a 184.
Por tanto, las predicciones de costos de alquiler mensual deben hacerse sólo para
apartamentos con un área entre estas medidas. Cualquier pronóstico de costos
de alquiler mensual con áreas fuera de este intervalo es poco confiable.

2. CORRELACIÓN

Hasta el momento se ha considerado el problema de la regresión lineal simple o


estimación de una variable dependiente a partir de una variable independiente.
Sin embargo, surge el interrogante: ¿Qué tanto se relacionan las variables
dependiente e independiente? La correlación pretende dar respuesta a esta
pregunta e intenta medir el grado de asociación entre dos variables por medio de
los coeficientes de correlación y determinación.

2.1. Coeficiente de correlación

El coeficiente de correlación (r) es la medida de la intensidad de la relación entre


dos variables. Se calcula con la ecuación

n xy   x  y 
r
n x 2   x  * n y 2   y 
2 2

Donde,

n xy   x  y : desviación conjunta de los datos X y Y

n x 2   x  : desviación de los datos X


2

n y 2   y  : desviación de los datos Y


2

10
El coeficiente de correlación toma valores comprendidos entre –1 y +1, de tal
forma que cuando r = -1 ó r = +1 existe una correlación perfecta entre las
variables. Esto es, todos los puntos del plano cartesiano están alineados (o se
ajustan perfectamente) a la línea recta de la ecuación de regresión. Cuando r = 0,
no existe correlación entre las variables. La correlación aumenta cuando r se
acerca de 0 a +1 ó de 0 a –1.

En la medida en que los puntos se acerquen a la recta, el coeficiente de


correlación será más próximo a 1, y si los puntos se alejan de la recta, el
coeficiente de correlación será más próximo a cero.

Aunque la correlación o la medida de la intensidad de la relación puede oscilar


entre –1 y +1, no existe una regla precisa para afirmar si la correlación es buena o
mala entre las variables, ya que la calificación depende del rigor del estudio y la
experiencia del investigador para juzgar los resultados de acuerdo con las
expectativas planteadas. Sin embargo, en la tabla 3 se presenta un esquema que
puede ayudar a la calificación de un modelo de regresión.

Tabla 3. Calificación del modelo de regresión

r CALIFICACIÓN r
-0.1 0.1
-0.2 Correlación nula 0.2
-0.3 0.3
-0.4 0.4
-0.5 Correlación baja 0.5
-0.6 0.6
-0.7 0.7
-0.8 Correlación alta 0.8
-0.9 0.9
-1.0 Máxima correlación 1.0

11
Gráfica 3. Correlación entre dos variables

En la gráfica 3 se presenta la correlación entre dos variables. Obsérvese que en


la correlación lineal positiva, la pendiente de la recta es positiva, y en la
correlación lineal negativa, la pendiente es negativa. Al calcular el coeficiente de
correlación, el signo debe ser el mismo del parámetro b 1, dado que este parámetro
corresponde a la pendiente de la recta. En consecuencia, existe una igualdad de
signos entre la pendiente de la recta y el coeficiente de correlación.

El coeficiente de correlación para el ejemplo de la tabla 1, en el cual se relaciona


el área con el precio de alquiler de apartamentos sería:

n xy   x  y  25(1.925.819)  (2.636)(17.329)


r 
n x 2   x  * n y 2   y  25(295.132)  (2.636) 2 * 25(12.797.183)  (17.329) 2
2 2

2.466.321 2.466.321
r   0.8489
655,59 * 4.431,18 2.905.037,296

Como r = 0,8489 y la pendiente b1 es positiva, indica que hay alta correlación entre
el área y el precio de alquiler de los apartamentos.

12
2.2. Coeficiente de determinación

Para predecir una variable en función de otra predomina la incertidumbre, y la


pregunta forzada es ¿qué tan bien se ajusta a los datos la ecuación de regresión?
En este aparte se muestra que el coeficiente de determinación (r2) es una medida
de la bondad de ajuste para una ecuación de regresión.

El coeficiente de determinación (r2) expresa el porcentaje de variación de la


variable dependiente causado o atribuido por la variación de la variable
independiente.

Coeficiente de determinación = (Coeficiente de correlación)2 * 100

r2 = (r)2 * 100

El coeficiente de determinación para el ejemplo de la tabla 1, en el cual se


relaciona el área con el precio de alquiler de apartamentos, sería:

r2 = ( 0,8489 )2 * 100 = 72%

Este valor permite concluir que el 72% del aumento en el costo de alquiler del
apartamento se debe al incremento en el área, el otro 28% se debe al cambio
producido por otras variables que no fueron analizadas en el modelo (por ser
regresión lineal simple).

Además de los coeficientes de correlación y determinación, la correlación puede


ser analizada con mayor profundidad por medio de la inferencia del coeficiente de
correlación poblacional (p) (se lee rho), la cual incluye pruebas de hipótesis e
intervalos de confianza para p.

13
BIBLIOGRAFÍA

BIBLIOGRAFÍA FUNDAMENTAL

ANDERSON, David; SWEENEY, Dennis y WILLIAMS, Thomas. Estadística para


administración y economía. 8ª edición. Thomson, México, 2003. 884 p.

BERENSON, Mark; LEVINE, David y KREHBIEL, Timothy. Estadística para


administración. 2ª edición. Pearson educación, México, 2001. 784 p.

MENDENHALL, William. Estadística para administradores. 2. ed.


México: Iberoamerica, 1995. 817 p.

BIBLIOGRAFÍA RECOMENDADA

CHAO, Lincoln y CASTAÑO, José María. Estadística para las ciencias


administrativas, Lincoln. 3. ed. Bogotá: McGraw-Hill, 1993. 464 p

LIND, Douglas A; MASON, Robert D. y MARCHAL, William G. Estadística para


administración y economía. España: McGraw-Hill, 2000. 575 p.

SPIEGEL, Murray. Estadística. 2. edición. McGRAW-HILL, España, 1993.665p.

WALPOLE, Ronald E. y MYERS, Raymond H. Probabilidad y estadística, 4. ed


México: McGraw-Hill, 1992. 757 p.

14

You might also like