You are on page 1of 21

Lic.

Vicente Snchez y Ramrez


Anlisis de regresin lineal
___________________________________________________________________________________________
1. ANLISIS DE REGRESIN LINEAL

1.1 Introduccin.

La relacin lineal es el tipo de correlacin ms sencillo que se encuentra entre dos


variables, una llamada variable independiente y otra llamada variable dependiente,
debido a que esta ltima depende de los cambios que sufra la primera.

El objetivo de estudiar la correlacin entre dos variables es con la esperanza de que


la relacin que se encuentre entre ellas pueda utilizarse como auxiliar en la
realizacin de predicciones con cierta precisin establecida. Lo antes expuesto
puede lograrse al ajustar una ecuacin de primer grado de la forma y a bx , a un
conjunto de pares de valores de datos observados.

El tema contempla el estudio de los conceptos de correlacin y regresin, obtencin


del diagrama de dispersin de los datos, clculo del coeficiente de correlacin y
regresin, obtencin de la ecuacin que mejor se ajusta a los valores observados,
clculo del error estndar de estimacin, anlisis de varianza para probar la
significacin de la regresin, estimacin de intervalos de confianza en la regresin
lineal, validacin del modelo mediante el anlisis residual y empleo del software
Minitab.

1.2 Correlacin lineal y regresin.

Los trminos correlacin y regresin pueden parecer complicados, sin embargo las
ideas bsicas implicadas en los mismos es tan sencilla que en gran parte del tiempo
las estamos utilizando, para comprender mejor estos trminos veamos los siguientes
ejemplos.

Si se aplica cierto fertilizante en algn cultivo, comnmente notamos que se obtiene


un incremento en la produccin a medida que se aumenta el nutriente hasta cierto
punto, ms all de este punto la produccin se estabiliza o disminuye si se utilizan
cantidades excesivas de abono.

Este ejemplo implica dos variables, la magnitud de una dependiendo de la otra. Estas
variables se denominan independiente (fertilizante) y dependiente (produccin),
presenta la idea de que cuando una variable se incrementa as lo har la otra o
viceversa, en estadstica esto recibe el nombre de correlacin directa o positiva.

Veamos otro ejemplo. Un instructor est interesado en encontrar como est


relacionada la ausencia de estudiantes en un da determinado, con la temperatura
mnima en 0C a las 8 de la maana de ese da, durante un periodo de invierno. Una
muestra aleatoria de 10 das se utilizo para el estudio proporcionando los siguientes
valores.

1
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
y 10 4 1 9 8 6 2 3 5 6
x 10 20 25 12 13 15 23 21 18 17

Aqu una variable depende de la otra, pero hay un pequeo giro en las relaciones
entre las mismas. El incremento de una variable se acompaa por la disminucin de
la otra o viceversa, esto se denomina correlacin inversa o negativa.

Otros ejemplos de correlacin son los problemas que encontramos diariamente en el


trabajo, tales como:

Cul es la relacin entre la temperatura del horno y la resistencia del material?


Qu relacin existe entre el alimento consumido y el peso del ganado?
Cul es el precio de una mercanca afectada por la oferta?
Cul es la relacin entre el tamao de la granja y su rentabilidad?
Cul es la relacin entre las horas dedicadas para estudiar una unidad de la materia
de estadstica y la calificacin obtenida?

Otros ejemplos de correlacin los encontramos casi a diario en los peridicos en la


seccin de finanzas, con las grficas; prcticamente todo grfico es, en esencia, una
representacin entre la correlacin de dos variables. Donde el eje de la abscisa (x)
tiene a la variable independiente y el eje de la ordenada (y), la variable dependiente.

Terminaremos esta hoja definiendo los trminos de correlacin y regresin de la


siguiente manera.

Qu es correlacin? es la relacin que existe entre dos variables y a la estrechez de


dicha relacin.

Qu es regresin? es la cantidad de cambio que sufre la variable dependiente (y)


por cada cambio nico de la variable independiente (x).

1.3 Clculo del coeficiente de correlacin.

Hasta ahora hemos visto como estn relacionadas dos variables, pero aqu surge
una pregunta. Qu tan estrechamente relacionadas se encuentran las variables?

Para contestar esta pregunta, necesitamos una medida que cuantifique la estrechez
de la relacin entre dos variables. Esta medida recibe el nombre de coeficiente de
correlacin que se representa por la letra r.

Para medir de un modo matemtico y ms preciso el grado de correlacin existente,


es necesario determinar un valor numrico que lo exprese y ste es el coeficiente
de correlacin lineal o r de Pearson. Veamos algunos ejemplos grficos y su
cuantificacin matemtica en las siguientes grficas.

2
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________

Los valores que puede tomar el coeficiente de correlacin lineal van de: 1 r 1 ,
cuando el valor de r = 1 r = -1 ambos indican correlaciones perfectas, cuando r = 0
significa ausencia de correlacin lineal.

Una relacin positiva significa: a mayor rendimiento en x mayor rendimiento en y o


viceversa. Una correlacin negativa significa: a un rendimiento menor en x se tiene
un rendimiento mayor en y o viceversa a un rendimiento mayor en x se tiene un
rendimiento menor en y.

El algoritmo matemtico que simboliza al coeficiente de correlacin lineal se define


por:

x x y y
i i
r i 1
n n

xi x yi y
2 2

i 1 i 1

Aplicando lgebra elemental podemos redefinir este algoritmo para facilitar su clculo
como:

3
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
n n

n xi yi
x y i i i 1 i 1
n
r i 1

n
2
n
2

n 2 n 2
xi yi

xi yi
i 1 i 1

i 1 n i 1 n

Con el fin de ver su aplicacin tomemos el siguiente ejemplo. Un ingeniero est


estudiando el efecto de la temperatura del horno con la resistencia en libras por
pulgada cuadrada (psi) de cierta varilla de acero. El estudio da como resultado los
siguientes datos.

Temperatura
0
C (x) 100 110 120 130 140 150 160 170 180 190
Resistencia
en psi. (y) 45 51 54 61 66 70 74 78 85 89

Lo primero que debe hacerse es graficar estas variables, tal presentacin se conoce
como diagrama de dispersin.

TEMPERATURA DEL HORNO Y RESISTENCIA DE LA VARILLA.

TEMPERATURA DEL HORNO Y RESISTENCIA DE LA VARILLA


90

80

70
Y

60

50

40
100 110 120 130 140 150 160 170 180 190
X
x = temperatura del horno.
y = resistencia de la varilla en psi.

A primera vista la grfica sugiere que existe correlacin lineal entre las dos
variables, y que podemos ajustar una ecuacin de primer grado de la forma
y a bx a los valores observados. Los clculos bsicos de la variable dependiente

4
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
e independiente para el clculo del coeficiente de correlacin r se presentan a
continuacin.

n = 10 x 1450 x 218500
2

y 673 y 47225
2
xy 101570

Substituyendo estos valores en el coeficiente de correlacin lineal tenemos:

(1450)(673)
101,570
r 10 0.998128718
2
2

218,500 (1450) 47,225 (673)
10 10

El valor de r = 0.998 nos indica que existe alta correlacin lineal entre la
temperatura del horno y la resistencia de la varilla, un valor de uno hubiera sido
correlacin perfecta. Adems de lo anterior el coeficiente r nos dice que la ecuacin
que ajustemos a los datos tiene una pendiente positiva.

Advertencia

El no encontrar evidencia de correlacin lineal entre las variables, se puede deber a:

a) De hecho las dos variables no estn relacionadas.

b) Las variables estn relacionadas en forma no lineal, en este caso la r de Pearson


no nos sirve para medir la relacin entre dos variables. Por eso es recomendable que
antes de realizar cualquier clculo se grafiquen los datos, sin olvidarse de emplear la
regla de los tres cuartos de altura (el eje de la ordenada y debe medir tres cuartas
partes de lo que mida el eje de la abcisa x).

1.4 Regresin lineal.

El hecho de estudiar la correlacin entre dos variables, es con la esperanza de que


cualquier relacin que se encuentre, pueda usarse como auxiliar para hacer
estimaciones o predicciones de una variable en particular.

El problema de la prediccin lineal se reduce a ajustar una lnea recta a un grupo de


puntos, ahora bien la ecuacin general de la lnea recta puede describirse como:

y a bx
5
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________

a se denomina interseccin y porque su valor es el punto en el cual la lnea de


regresin cruza al eje y. O sea es el valor medio de y cuando x es igual a cero

b es la pendiente de la lnea. Representa la cantidad de cambio (incremento o


decremento) que sufre la variable y por cada cambio nico de la variable x. Visto
grficamente es:

2 Pto. (x2 , y2) = (2,7)

1 Pto. (x1 , y1) = (1,5)

a=3

Para encontrar la pendiente podemos empezar eligiendo dos puntos sobre la lnea
en la grfica anterior, as tendremos que (x 1, y1) = (1, 5) y (x 2, y2) = (2, 7). Entonces,
en este punto, podemos calcular el valor b usando esta ecuacin:

y 2 y1 7 5
b 2
x 2 x1 2 1

De esta manera estimamos los valores de los parmetros a y b. Si la ecuacin


general de la lnea recta es y a bx , por lo tanto la ecuacin que mejor se ajusta a
los datos que estamos analizando es y 3 2 x

Con esta ecuacin podemos hacer predicciones, suponga que deseamos encontrar
el valor de y cuando x = 3. La respuesta ser y 3 2(3) 9

Si se sustituyen ms valores de x en la ecuacin, se observa que y se incrementa en


la medida que x aumenta, por lo tanto la relacin entre las variables es directa, y la
pendiente es positiva.

1.5 El mtodo de mnimos cuadrados.

Si tenemos un conjunto de puntos en un diagrama de dispersin, cmo podemos


ajustar una lnea matemticamente si ninguno de los puntos cae en ella?
6
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________

En estadstica se dice, que una lnea tendr buen ajuste si minimiza el error entre
los puntos estimados de la lnea y los verdaderos puntos observados que se
utilizaron para trazarla.

Si tenemos un conjunto de puntos de datos a travs de los cuales podramos trazar


un nmero infinito de lneas de estimacin, cmo podemos saber cundo hemos
encontrado la mejor lnea de ajuste?

Para lograr lo anterior se emplea el criterio de mnimos cuadrados, que consiste en


hacer mnima la suma de cuadrados de los errores de estimacin, donde el error de
estimacin es la diferencia entre el valor observado de la muestra y el valor estimado
por la ecuacin obtenida.

En estadstica existen dos ecuaciones que nos sirven para calcular la pendiente y la
interseccin y, de la lnea de regresin de mejor ajuste y son:

n n
x y
xi x yi xy n x y xy
b i 1
i 1
n
x
n n 2

x x x nx
2 2 2

i 1
i
i 1 x2
n
a y bx

Con estos coeficientes podemos obtener la lnea de regresin de mejor ajuste para
cualquier conjunto de dos variables de puntos de datos.

1.6 Uso del mtodo de mnimos cuadrados en un problema.

Consideremos el ejemplo de la temperatura del horno y la resistencia de la varilla, los


clculos bsicos para el clculo de los coeficientes de regresin a y b son:

n 10 xy
x 101,570
2
218,500
x 1450 y 673

Sustituyendo estos valores en las ecuaciones correspondientes son:

(1450)(673)
101570
b 10 0.48303 a 67.30 0.4830(145) 2.7394
14502
218500
10

7
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
Ahora bien, la ecuacin lineal que mejor describe la relacin entre la temperatura del
horno en grados centgrados y la resistencia de la varilla, la obtenemos al sustituir el
valor de a y b en la ecuacin de la recta y a bx , la cual es:

y 2.74 0.483 x

a = -2.74 nos indica que la ecuacin que estimamos corta al eje de la ordenada y en
un sistema de coordenadas cartesianas en el punto negativo de -2.74.

b = 0.483 significa que por cada grado centgrado de temperatura que aumentemos
en el horno, se logra un incremento de 0.483 psi de resistencia en la varilla.

Con esta ecuacin podemos predecir el valor de la variable dependiente para algn
valor no conocido de x, por ejemplo. De cunto ser la resistencia de la varilla
cuando la temperatura del horno sea de 165 oC?

y 2.74 0.483(165) 76.96 psi.

Nota. Se recomienda tener mucho cuidado al hacer predicciones, ya que estas son
vlidas siempre y cuando se hagan dentro del rango de valores que se este
estudiando, si se quiere hacer pronsticos fuera del rango observado, es
recomendable aumentar los valores observados y estimar una nueva ecuacin.

1.7 Error estndar de estimacin.

Despus de haber ajustado la lnea de regresin a una lista de puntos, generalmente


es posible inspeccionar su grfica y observar que tan exactamente predice los
valores de y. Un procedimiento matemtico para medir la confiabilidad de la ecuacin
estimada es el error estndar de estimacin, el cual se simboliza por Se y es similar a
la desviacin estndar, en cuanto a que ambas son medidas de dispersin.

El error estndar de estimacin mide la variabilidad, o dispersin de los valores


observados alrededor de la lnea de regresin. Su clculo matemtico se obtiene por:

Se
( y y ) 2

n2
Donde:
y = valores de la variable dependiente
y = valores estimados con la ecuacin de regresin
2 = nmero de parmetros estimados en el modelo (a y b).

Continuando con nuestro ejemplo tenemos:

x 100 110 120 130 140 150 160 170 180 190
y 45 51 54 61 66 70 74 78 85 89
45.6 50.4 55.2 60.1 64.9 69.7 74.6 79.4 84.2 89.0
y -0.6 0.6 -1.2 0.9 1.1 0.3 -0.6 -1.4 0.8 0.0
8
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
(y - )2 0.36 0.36 1.44 0.81 1.21 0.09 0.36 1.96 0.64 0.0

y y
2
7.23

Por lo tanto el error estndar de estimacin ser:

7.23
Se 0.90375 0.9506
10 2

Para saber si el error estndar es chico o grande, se recomienda recurrir al


coeficiente de determinacin ( r 2 ). En el ejemplo que nos ocupa su estimacin es
de r 2 99.6% (calculado en el punto 1.8), lo que nos indica que el error estndar de
estimacin es de 0.4%, lo cual nos dice que S e es muy pequeo.

El error estndar y el coeficiente de determinacin, son dos estimadores que indican


de manera general de cuanto es la capacidad de la ecuacin que se estim para
hacer los pronsticos de una variable dependiente.

El error de estimacin obtenido (0.9506) puede compararse con el de otras


ecuaciones de mayor grado obtenidas con los mismos datos, aquel valor que sea
menor, nos indica que esa ecuacin es la que mejor se ajusta a los valores
observados.

Entre ms pequeo sea el error de estimacin, significa un mejor ajuste de la


ecuacin estimada con relacin a los datos observados. Un valor de S e = 0 implica un
r = 1 y un r2 = 1, lo que nos indicar un ajuste perfecto.

Otra manera de obtener y y se presenta a continuacin, esto puede servir


2

para verificar si el clculo del coeficiente de correlacin lineal fue bien calculado, as
como la ecuacin estimada.



y 2
2
(1 0.998,128,7182)(47,225 673 ) 7.22
y y 1 r y2
2 2
n 10

Valor muy parecido al obtenido en la tabla anterior.

1.8 Coeficiente de determinacin.

El coeficiente de determinacin nos sirve para medir que tan bien ajusta la lnea de
regresin estimada a los datos con los que est basada, ya que ste lo podemos
manejar en porcentaje, pudiendo tomar valores que van del 0 al 100%. As si el
coeficiente est cercano a cero significa que Se es chico. Su algoritmo se define por:

a y b xy ny 2
r2
y 2 ny 2
En el ejemplo que nos ocupa su clculo es:
9
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________

2.7394(673) 0.48303(101,570) (10)67.3 2


r2 0.996242896
47,225 (10)67.3 2

Lo que significa que el 99.6% de la variacin total de la resistencia de la varilla (y), se


puede explicar por la asociacin del efecto de la temperatura del horno (x). Dicho en
otras palabras, la recta que calculamos nos logra explicar el 99.6% de la variabilidad
de la resistencia de la varilla, o sea que el error estndar de estimacin en porcentaje
es de 100 - 99.6 = 0.4%, lo cual indica que es un error muy pequeo.

1.9 Prueba de hiptesis de la regresin lineal simple.

Una parte importante en la elaboracin de un modelo de regresin simple, es la


prueba de hiptesis estadstica en torno a los parmetros del modelo y la
construccin de ciertos intervalos de confianza.

Para probar hiptesis de la pendiente (b) y la interseccin y (a) suponemos que los
errores de estimacin ei se distribuyen normalmente.

Si deseamos probar la hiptesis de que la pendiente es igual a una constante,


digamos , las hiptesis a probar son:

H0 : b
H1 : b

El estadstico de prueba para ste tipo de casos es:

b
t c


x
2

CME x 2
n

Donde CME es el cuadrado medio del error del anlisis de varianza de la regresin, y
tc es la distribucin t de Student con v = n - 2 grados de libertad, donde n es el
nmero de pares de datos. Se rechazara H0 si:

t t
c 2,n 2

Un Procedimiento similar es utilizado para probar la hiptesis respecto a la


interseccin (a).

Para probar.

10
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
H 0 : a 1
H 1 : a 1

Utilizamos el estadstico:

a 1
t c


2

1 x
CME 2
n x
x
2

n

Se rechaza la hiptesis H0 si:

t t
c 2 ,n 2

Un caso muy especial en la prueba de hiptesis es:

H0 : b 0
H1 : b 0

Esta hiptesis se relaciona con la significacin de la regresin. El hecho de


aceptar la hiptesis H 0 , equivale a concluir que no hay regresin lineal entre x
y y. Visto esto grficamente es:

En las grficas anteriores se acepta la hiptesis H 0 , por lo tanto se concluye que no


hay correlacin lineal entre x y y.

11
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________

En estas grficas se rechaza la hiptesis H 0 , lo que significa que existe correlacin


lineal entre x y y.

1.10 Anlisis de varianza para probar la significacin de la regresin.

La manera de juzgar la significancia de la relacin entre la variable dependiente (y) y


la variable independiente (x), es probando las siguientes hiptesis:

H 0 : b 0 Significa que no hay cambio en el valor medio de y asociado con un


incremento de x. (La pendiente es cero)
H 1 : b 0 Significa que si hay un cambio (positivo o negativo) en el valor medio de y
asociado con un incremento de x. (La pendiente es diferente de cero)

El procedimiento para saber si la variable independiente influye de manera


significativa en la variable dependiente (significacin de la regresin), consiste en la
particin de la suma de cuadrados ( y y ) de la variable dependiente (y) en dos
2

componentes, una debido a la regresin y otra debido al azar.

El anlisis de varianza (ANOVA) como su nombre lo indica va a probar mediante la


comparacin de las varianzas si existe efecto de la regresin entre las dos variables.
Las fuentes de variacin que componen el ANOVA son:

Fuente de Suma de cuadrados Grados Cuadrado


variacin de medio F
libertad

b xy
x y S .C . regresin C.M . Re g .
Regresi n 1 G.L. regresin C.M . error

n
S .C. error
Error S .C . total S .C. regresin n2 G.L. error

y

2

Total y 2

n
n-1

Si la probabilidad de tener una F igual a la obtenida en el ANOVA es menor al 5% se


rechaza la hiptesis H 0 : b 0 y se acepta la hiptesis H 1 : b 0 , con lo que se

12
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
concluye que la variable independiente influye de manera significativa en la
variable dependiente.

Continuando con el ejemplo del efecto de la temperatura del horno y la resistencia de


la varilla, los clculos bsicos para la obtencin de las sumas de cuadrados son:

n 10 y 673 xy 101,570

x 1,450 b 0.483
y
2
47,225

Por lo tanto las sumas de cuadrados y la tabla del ANOVA queda definida por:

Suma de cuadrados total = 47,225 (673) 2 10 = 1,932.1


Suma de cuadrados de la Reg. = 0.483 101,570 - 1,450 673 10 = 1,924.75
Suma de cuadrados del error = 1,932.1 1,924.75 = 7.35

ANOVA DE LA TEMPERATURA DEL HORNO Y LA RESISTENCIA DE LA VARILLA.

Fuente de Suma de Grados de Cuadrado F


variacin cuadrados libertad medio
Regresin 1,924.75 1 1,924.75 2,094.4
Error 7.35 8 0.919
Total 1,932.10 9

Para decidir si la temperatura del horno influye de manera significativa en la


resistencia de la varilla, se obtiene la probabilidad de tener una F = 2,094.4 de la
tabla F de Fisher. Si la probabilidad de tener una F igual a la de la muestra es menor
al 5% se rechaza la hiptesis H 0 : b 0 .
La manera como se busca la probabilidad en la tabla F de Fisher es: localizar en la
parte superior de la tabla los grados de libertad para el numerador de la razn F que
se tienen en el ANOVA, en nuestro caso v1 1 ; posteriormente se busca en la parte
izquierda de la tabla los grados de libertad del denominador, en nuestro ejemplo
v2 8 . Donde se intercepten v1 y v2 se localiza el valor de F esperada en el
anlisis a cierto nivele de . En nuestro caso son:

v1 = 1
v2 = 0.10 = 0.05 = 0.01
8 3.46 5.32 11.26

Se puede ver que el valor de F = 2,094.4 se encuentra a la derecha de 11.26 por lo


que le corresponde una probabilidad menor a 0.01. Puesto que la probabilidad de
tener una F = 2,094.4 es menor al 5%, se rechaza la hiptesis nula H 0 : b 0 y
aceptamos la hiptesis alterna H 1 : b 0 , con lo que se concluye que la temperatura
del horno si influye de manera significativa en la resistencia de la varilla.
13
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________

De este anlisis podemos ver que la recta que calculamos nos explica el 99.6% de la
variabilidad de y, esto es (1,924.75 1,932.1) 100 = 99.6, valor idntico al del
coeficiente de determinacin.

Tambin puede apreciarse que la suma de cuadrados del error 7.35, es muy
parecido a (y - )2 obtenida en el punto 1.7, lo cual puede servir para verificar
nuestros clculos

1.11 Estimacin de intervalos en la regresin lineal simple.

Adems de la estimacin de los parmetros a y b de la ecuacin estimada es posible


obtener estimaciones de intervalos de confianza para estos parmetros, el ancho de
estos intervalos es una media de la calidad total de la lnea de regresin.

En consecuencia el intervalo de confianza 100 (1 - ) % para la pendiente b, est


dado por el siguiente intervalo, donde t es un valor de t de Student con un cierto nivel
con v = n - 2 grados de libertad y CME es el cuadrado medio del error del
ANOVA.



CME CME
P b t 2,n 2 2
b b t 2, n 2 2
1
x x

x x
2 2


n n

Continuando con nuestro ejemplo un intervalo de confianza al 95% de probabilidad


para la pendiente b es:

0.919 0.919
P 0.483 2.306 b 0.483 2.306 0.95
8, 250 8,250

P (0.483 - 0.024338 b 0.483 + 0.024338) = 0.95


P (0.46 b 0.51) = 0.95

Este resultado debe leerse de la siguiente manera: la probabilidad de que el intervalo


contenga el valor verdadero de b es del 95%, as mismo nos dice que la pendiente
puede tomar valores que van de 0.46 a 0.51

El intervalo nos indica que se tiene una confianza del 95% de que la pendiente
estimada de la ecuacin, diferir de la pendiente verdadera de la poblacin, en una
cantidad que no excede a 0.024338. O lo que es lo mismo se tiene un error de
estimacin del 5% (0.024338 x 100 / 0.483).

En forma semejante el intervalo de confianza del 100 (1 - ) % para la interseccin


y (a) es.

14
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________


2

P a t
1
CME x a a 1
CME
x2 1
2, n 2
n 2
t 2, n 2
n 2

x x
x x
2 2

n n

Por lo tanto un intervalo de confianza al 95% para a se define por:


1 1452 1 1452
p 2.74 2.306 0.919 a 2.74 2.306 0.919 0.95
10 8,250 10 8,250

P (-6.34 a 0.86) = 0.95

Lo anterior nos indica que con un 95% de probabilidad, que el valor de la


interseccin y (a) puede tomar valores que van desde -6.34 a 0.86

1.12 Medida de adecuacin del modelo de regresin.

Para saber si el modelo que se ajust a los valores observados es el adecuado, se


requiere que se cumplan varios supuestos. Una manera de verificar lo anterior es
recurriendo al anlisis residual.

1.12.1. Anlisis residual.

Para juzgar si el modelo que se ajust a los valores observados es correcto se lleva
a cabo el anlisis residual, el cual nos sirve para saber si las suposiciones en
trminos de los valores potenciales del error se cumplen, los cuales son:

1. Los errores tienen como promedio cero y varianza constante, o sea que la
varianza 2 no depende del valor de xi o de y i .
2. Los errores son independientes, es decir que no estn correlacionados.
3. Los errores se distribuyen de manera normal.
4. El orden del modelo es correcto.

Para verificar los supuestos anteriores, se recurre al anlisis residual por su fcil
interpretacin, donde un residuo se define como ei yi y i , i = 1, 2, 3,,n, donde
yi es la variable dependiente y yi es el valor estimado con la ecuacin obtenida.

Estos residuos suelen graficarse generalmente contra: 1) la secuencia del tiempo (si
se conoce), 2) contra la variable independiente xi y 3) contra yi . Estas grficas
por lo general se presentan como lo indican los siguientes patrones.

15
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________

ei 0
ei 0

A) Satisfactorio B) Embudo

ei 0 ei 0

C) Doble arco D) No lineal

La figura A representa la situacin ideal, la B nos indica que la varianza de las


observaciones se incrementa con el tiempo o con la magnitud de xi o yi , la C nos
indica desigualdad de varianzas y la D nos dice que el modelo no es adecuado. Lo
cual no debe suceder.

En el ejemplo que nos ocupa, los valores estimados ( y i ) y los residuos ( ei ) se


presentan en la tabla siguiente.

x 100 110 120 130 140 150 160 170 180 190
y 45 51 54 61 66 70 74 78 85 89
45.6 50.4 55.2 60.1 64.9 69.7 74.6 79.4 84.2 89.0
e1 e2 e3 e4 e5 e6 e7 e8 e9 e10
ei yi y i -0.6 0.6 -1.2 0.9 1.1 0.3 -0.6 -1.4 0.8 0.0

Es conveniente graficar los residuos ei contra x i y yi para comprobar el supuesto


de igualdad de varianzas, as como obtener la grfica de probabilidad normal de los
residuos para saber si los errores se distribuyen de manera normal.

Las grficas de residuos contra xi y yi , se presentan a continuacin.

GRFICA DE RESIDUOS CONTRA xi

16
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
Residuos vs. x
(la respuesta es y)

1,0

0,5

Residuo
0,0

-0,5

-1,0

-1,5
100 110 120 130 140 150 160 170 180 190
x

En la grfica de residuos contra x i se observa que no hay un patrn definido, lo que


significa que la varianza de los residuos no se incrementa o disminuye con el
aumento de x i , esto nos indica que los errores tienen varianza constante. De
igual forma como los residuos estn distribuidos de manera aleatoria a lo largo de la
banda, nos dice que los ei son aleatorios y con promedio es cero.

GRFICA DE RESIDUOS CONTRA yi

vs. ajustes
(la respuesta es y)

1,0

0,5
Residuo

0,0

-0,5

-1,0

-1,5
40 50 60 70 80 90
Valor ajustado

En la grfica de residuos contra y i , tampoco hay un patrn definido en su figura,


esto significa que la varianza de los residuos no se incrementa o disminuye con el
aumento de y i , esto nos indica que los errores tienen la misma varianza. De igual
forma como los ei estn distribuidos de manera aleatoria a lo largo de la banda,
concluimos que son independientes y con promedio cero.

Cuando aparece un patrn en estas grficas, por lo general suele indicar la


necesidad de una transformacin de los datos originales, esto es, analizar los datos
en una mtrica diferente. Por ejemplo, si la variabilidad de los residuos aumenta con

17
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
y i o x i entonces es conveniente aplicar la transformacin logartmica. Si los
datos analizados se encuentran en porcentaje, es recomendable la transformacin
arcoseno. Si se analizan valores pequeos con decimales, lo recomendable es la
transformacin raz cuadrada y si la variable es el cociente de dos variables, la
transformacin logartmica es la adecuada. Para mayores detalles para la seleccin
de la transformacin ms adecuada vase a Montgomery y Peck.

Una vez hecha la trasformacin de los datos originales se lleva a cabo el anlisis de
regresin como si se tratara de datos normales.

De igual manera si hubiera aparecido una curva en las grficas, ello nos est
indicando que el modelo no es el adecuado, y que se tiene que utilizar otro de
mayor orden (cuadrtica, cbica, etc.)

Para verificar el supuesto de que los errores se distribuyen de manera normal


realizamos la grfica normal de residuos, en ella se puede observar que los residuos
caen aproximadamente sobre una recta, con lo que se puede concluir que no hay
desviacin importante de normalidad, o sea que el supuesto de que los errores se
distribuyen de manera normal se cumple.

Cuando aparecen valores atpicos, es decir observaciones que no son tpicas al


resto de los datos, significa que los errores no se distribuyen de manera normal.

Grfica de probabilidad normal


(la respuesta es Resistencia)
99

95
90

80
70
Porcentaje

60
50
40
30
20

10

1
-2 -1 0 1 2
Residuo

Por lo tanto en base a la evidencia encontrada en las grficas, podemos concluir que
no existe insuficiencia seria del modelo, dicho en otras palabras nuestro modelo es
vlido.

Apndice 1.1 Empleo del software Minitab en el anlisis de regresin lineal.

Elaboracin del diagrama dispersin.

18
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
Para ilustrar el empleo del software Minitab en la elaboracin del diagrama de
dispersin, tomaremos el ejemplo de la temperatura del horno y la resistencia de la
varilla, para ver si la grfica presente tendencia lineal, cuadrtica, cbica, etc.

1. En la columna C1 de la hoja de clculo, rotule x (predictora) y en C2 y


(respuesta).

2. La manera como es concentrada la variable predictora y la variable respuesta,


puede ser:

C1 C2
x y
1 100 45
2 110 51
3 120 54
4 130 61
5 140 66
6 150 70
7 160 74
8 170 78
9 180 85
10 190 89

3. Seleccione el men Grfica.

4. Hacer clic en Grfica de dispersin.

5. Cuando aparezca el cuadro de dilogo Grficas de dispersin.


Hacer clic en el cuadro Simple.
Hacer clic en Aceptar.

6. Cuando aparezca el cuadro de dilogo Grficas de dispersin-simple.


Ingresar C2 en el cuadro de Variables y.
Ingresar C1 en el cuadro Variables x.
Hacer clic en Etiquetas.

7. Cuando aparezca el cuadro de dilogo Grfica de dispersin-etiquetas.


Ingresar Temperatura del horno y resistencia de la varilla, en el cuadro de Ttulo.
Ingresar x = temperatura del horno, en el cuadro Nota al pie de pgina 1.
Ingresar y = resistencia de la varilla en psi, en el cuadro Nota al pie de pgina 2.
Hacer clic en Aceptar.

Anlisis de regresin lineal.

Para ilustrar el empleo del software Minitab en la elaboracin del anlisis de


regresin lineal, tomaremos el mismo ejemplo de la temperatura del horno y la
resistencia de la varilla. Los pasos a seguir pueden ser:

19
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
1. En la columna C1 de la hoja de clculo, rotule x (predictora) y en C2 y
(respuesta).

2. La manera como es concentrada la variable predictora y la variable respuesta,


puede ser.

C1 C2
x y
1 100 45
2 110 51
3 120 54
4 130 61
5 140 66
6 150 70
7 160 74
8 170 78
9 180 85
10 190 89

3. Seleccione el men Estadsticas.

4. Seleccione el men Regresin.

5. Hacer clic en Regresin.

6. Cuando aparezca el cuadro de dilogo Regresin.


Ingresar C2 en el cuadro de Respuestas.
Ingresar C1 en el cuadro Predictores.
Hacer clic en el cuadro de Grficas.

7. Cuando aparezca el cuadro de dilogo Regresin-Grficas.


Hacer clic en el botn Grficas individuales.
Hacer clic en el cuadro Grfica normal de residuos.
Hacer clic en el cuadro Residuos vs. Ajustes.
Hacer clic en el cuadro Residuos vs las variables.
Ingresar C1 en el cuadro Residuos vs las variables.
Hacer clic en Aceptar.
Hacer clic en el cuadro de Resultados.

8. Cuando aparezca el cuadro de dilogo Regresin-Resultados.


Hacer clic en Ecuacin de regresin, tabla de coeficientes, s, R-cuadrado y
anlisis bsico de varianza.
Hacer clic en Aceptar.
Hacer clic en el cuadro de Almacenamiento.

9. Cuando aparezca el cuadro de dilogo Regresin-Almacenamiento.


Hacer clic en los cuadros que le interesen.
Hacer clic en Aceptar.
20
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
Hacer clic en Aceptar.

En los cuadros de dilogo, Minitab tiene otras posibilidades ms que usted puede
aprovechar seleccionando las opciones que desee.

21

You might also like