Professional Documents
Culture Documents
1.1 Introduccin.
Los trminos correlacin y regresin pueden parecer complicados, sin embargo las
ideas bsicas implicadas en los mismos es tan sencilla que en gran parte del tiempo
las estamos utilizando, para comprender mejor estos trminos veamos los siguientes
ejemplos.
Este ejemplo implica dos variables, la magnitud de una dependiendo de la otra. Estas
variables se denominan independiente (fertilizante) y dependiente (produccin),
presenta la idea de que cuando una variable se incrementa as lo har la otra o
viceversa, en estadstica esto recibe el nombre de correlacin directa o positiva.
1
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
y 10 4 1 9 8 6 2 3 5 6
x 10 20 25 12 13 15 23 21 18 17
Aqu una variable depende de la otra, pero hay un pequeo giro en las relaciones
entre las mismas. El incremento de una variable se acompaa por la disminucin de
la otra o viceversa, esto se denomina correlacin inversa o negativa.
Hasta ahora hemos visto como estn relacionadas dos variables, pero aqu surge
una pregunta. Qu tan estrechamente relacionadas se encuentran las variables?
Para contestar esta pregunta, necesitamos una medida que cuantifique la estrechez
de la relacin entre dos variables. Esta medida recibe el nombre de coeficiente de
correlacin que se representa por la letra r.
2
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
Los valores que puede tomar el coeficiente de correlacin lineal van de: 1 r 1 ,
cuando el valor de r = 1 r = -1 ambos indican correlaciones perfectas, cuando r = 0
significa ausencia de correlacin lineal.
x x y y
i i
r i 1
n n
xi x yi y
2 2
i 1 i 1
Aplicando lgebra elemental podemos redefinir este algoritmo para facilitar su clculo
como:
3
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
n n
n xi yi
x y i i i 1 i 1
n
r i 1
n
2
n
2
n 2 n 2
xi yi
xi yi
i 1 i 1
i 1 n i 1 n
Temperatura
0
C (x) 100 110 120 130 140 150 160 170 180 190
Resistencia
en psi. (y) 45 51 54 61 66 70 74 78 85 89
Lo primero que debe hacerse es graficar estas variables, tal presentacin se conoce
como diagrama de dispersin.
80
70
Y
60
50
40
100 110 120 130 140 150 160 170 180 190
X
x = temperatura del horno.
y = resistencia de la varilla en psi.
A primera vista la grfica sugiere que existe correlacin lineal entre las dos
variables, y que podemos ajustar una ecuacin de primer grado de la forma
y a bx a los valores observados. Los clculos bsicos de la variable dependiente
4
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
e independiente para el clculo del coeficiente de correlacin r se presentan a
continuacin.
n = 10 x 1450 x 218500
2
y 673 y 47225
2
xy 101570
(1450)(673)
101,570
r 10 0.998128718
2
2
218,500 (1450) 47,225 (673)
10 10
El valor de r = 0.998 nos indica que existe alta correlacin lineal entre la
temperatura del horno y la resistencia de la varilla, un valor de uno hubiera sido
correlacin perfecta. Adems de lo anterior el coeficiente r nos dice que la ecuacin
que ajustemos a los datos tiene una pendiente positiva.
Advertencia
y a bx
5
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
a=3
Para encontrar la pendiente podemos empezar eligiendo dos puntos sobre la lnea
en la grfica anterior, as tendremos que (x 1, y1) = (1, 5) y (x 2, y2) = (2, 7). Entonces,
en este punto, podemos calcular el valor b usando esta ecuacin:
y 2 y1 7 5
b 2
x 2 x1 2 1
Con esta ecuacin podemos hacer predicciones, suponga que deseamos encontrar
el valor de y cuando x = 3. La respuesta ser y 3 2(3) 9
En estadstica se dice, que una lnea tendr buen ajuste si minimiza el error entre
los puntos estimados de la lnea y los verdaderos puntos observados que se
utilizaron para trazarla.
En estadstica existen dos ecuaciones que nos sirven para calcular la pendiente y la
interseccin y, de la lnea de regresin de mejor ajuste y son:
n n
x y
xi x yi xy n x y xy
b i 1
i 1
n
x
n n 2
x x x nx
2 2 2
i 1
i
i 1 x2
n
a y bx
Con estos coeficientes podemos obtener la lnea de regresin de mejor ajuste para
cualquier conjunto de dos variables de puntos de datos.
n 10 xy
x 101,570
2
218,500
x 1450 y 673
(1450)(673)
101570
b 10 0.48303 a 67.30 0.4830(145) 2.7394
14502
218500
10
7
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
Ahora bien, la ecuacin lineal que mejor describe la relacin entre la temperatura del
horno en grados centgrados y la resistencia de la varilla, la obtenemos al sustituir el
valor de a y b en la ecuacin de la recta y a bx , la cual es:
y 2.74 0.483 x
a = -2.74 nos indica que la ecuacin que estimamos corta al eje de la ordenada y en
un sistema de coordenadas cartesianas en el punto negativo de -2.74.
b = 0.483 significa que por cada grado centgrado de temperatura que aumentemos
en el horno, se logra un incremento de 0.483 psi de resistencia en la varilla.
Con esta ecuacin podemos predecir el valor de la variable dependiente para algn
valor no conocido de x, por ejemplo. De cunto ser la resistencia de la varilla
cuando la temperatura del horno sea de 165 oC?
Nota. Se recomienda tener mucho cuidado al hacer predicciones, ya que estas son
vlidas siempre y cuando se hagan dentro del rango de valores que se este
estudiando, si se quiere hacer pronsticos fuera del rango observado, es
recomendable aumentar los valores observados y estimar una nueva ecuacin.
Se
( y y ) 2
n2
Donde:
y = valores de la variable dependiente
y = valores estimados con la ecuacin de regresin
2 = nmero de parmetros estimados en el modelo (a y b).
x 100 110 120 130 140 150 160 170 180 190
y 45 51 54 61 66 70 74 78 85 89
45.6 50.4 55.2 60.1 64.9 69.7 74.6 79.4 84.2 89.0
y -0.6 0.6 -1.2 0.9 1.1 0.3 -0.6 -1.4 0.8 0.0
8
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
(y - )2 0.36 0.36 1.44 0.81 1.21 0.09 0.36 1.96 0.64 0.0
y y
2
7.23
7.23
Se 0.90375 0.9506
10 2
para verificar si el clculo del coeficiente de correlacin lineal fue bien calculado, as
como la ecuacin estimada.
y 2
2
(1 0.998,128,7182)(47,225 673 ) 7.22
y y 1 r y2
2 2
n 10
El coeficiente de determinacin nos sirve para medir que tan bien ajusta la lnea de
regresin estimada a los datos con los que est basada, ya que ste lo podemos
manejar en porcentaje, pudiendo tomar valores que van del 0 al 100%. As si el
coeficiente est cercano a cero significa que Se es chico. Su algoritmo se define por:
a y b xy ny 2
r2
y 2 ny 2
En el ejemplo que nos ocupa su clculo es:
9
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
Para probar hiptesis de la pendiente (b) y la interseccin y (a) suponemos que los
errores de estimacin ei se distribuyen normalmente.
H0 : b
H1 : b
b
t c
x
2
CME x 2
n
Donde CME es el cuadrado medio del error del anlisis de varianza de la regresin, y
tc es la distribucin t de Student con v = n - 2 grados de libertad, donde n es el
nmero de pares de datos. Se rechazara H0 si:
t t
c 2,n 2
Para probar.
10
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
H 0 : a 1
H 1 : a 1
Utilizamos el estadstico:
a 1
t c
2
1 x
CME 2
n x
x
2
n
t t
c 2 ,n 2
H0 : b 0
H1 : b 0
11
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
y
2
Total y 2
n
n-1
12
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
concluye que la variable independiente influye de manera significativa en la
variable dependiente.
n 10 y 673 xy 101,570
x 1,450 b 0.483
y
2
47,225
Por lo tanto las sumas de cuadrados y la tabla del ANOVA queda definida por:
v1 = 1
v2 = 0.10 = 0.05 = 0.01
8 3.46 5.32 11.26
De este anlisis podemos ver que la recta que calculamos nos explica el 99.6% de la
variabilidad de y, esto es (1,924.75 1,932.1) 100 = 99.6, valor idntico al del
coeficiente de determinacin.
Tambin puede apreciarse que la suma de cuadrados del error 7.35, es muy
parecido a (y - )2 obtenida en el punto 1.7, lo cual puede servir para verificar
nuestros clculos
CME CME
P b t 2,n 2 2
b b t 2, n 2 2
1
x x
x x
2 2
n n
0.919 0.919
P 0.483 2.306 b 0.483 2.306 0.95
8, 250 8,250
El intervalo nos indica que se tiene una confianza del 95% de que la pendiente
estimada de la ecuacin, diferir de la pendiente verdadera de la poblacin, en una
cantidad que no excede a 0.024338. O lo que es lo mismo se tiene un error de
estimacin del 5% (0.024338 x 100 / 0.483).
14
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
2
P a t
1
CME x a a 1
CME
x2 1
2, n 2
n 2
t 2, n 2
n 2
x x
x x
2 2
n n
1 1452 1 1452
p 2.74 2.306 0.919 a 2.74 2.306 0.919 0.95
10 8,250 10 8,250
Para juzgar si el modelo que se ajust a los valores observados es correcto se lleva
a cabo el anlisis residual, el cual nos sirve para saber si las suposiciones en
trminos de los valores potenciales del error se cumplen, los cuales son:
1. Los errores tienen como promedio cero y varianza constante, o sea que la
varianza 2 no depende del valor de xi o de y i .
2. Los errores son independientes, es decir que no estn correlacionados.
3. Los errores se distribuyen de manera normal.
4. El orden del modelo es correcto.
Para verificar los supuestos anteriores, se recurre al anlisis residual por su fcil
interpretacin, donde un residuo se define como ei yi y i , i = 1, 2, 3,,n, donde
yi es la variable dependiente y yi es el valor estimado con la ecuacin obtenida.
Estos residuos suelen graficarse generalmente contra: 1) la secuencia del tiempo (si
se conoce), 2) contra la variable independiente xi y 3) contra yi . Estas grficas
por lo general se presentan como lo indican los siguientes patrones.
15
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
ei 0
ei 0
A) Satisfactorio B) Embudo
ei 0 ei 0
x 100 110 120 130 140 150 160 170 180 190
y 45 51 54 61 66 70 74 78 85 89
45.6 50.4 55.2 60.1 64.9 69.7 74.6 79.4 84.2 89.0
e1 e2 e3 e4 e5 e6 e7 e8 e9 e10
ei yi y i -0.6 0.6 -1.2 0.9 1.1 0.3 -0.6 -1.4 0.8 0.0
16
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
Residuos vs. x
(la respuesta es y)
1,0
0,5
Residuo
0,0
-0,5
-1,0
-1,5
100 110 120 130 140 150 160 170 180 190
x
vs. ajustes
(la respuesta es y)
1,0
0,5
Residuo
0,0
-0,5
-1,0
-1,5
40 50 60 70 80 90
Valor ajustado
17
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
y i o x i entonces es conveniente aplicar la transformacin logartmica. Si los
datos analizados se encuentran en porcentaje, es recomendable la transformacin
arcoseno. Si se analizan valores pequeos con decimales, lo recomendable es la
transformacin raz cuadrada y si la variable es el cociente de dos variables, la
transformacin logartmica es la adecuada. Para mayores detalles para la seleccin
de la transformacin ms adecuada vase a Montgomery y Peck.
Una vez hecha la trasformacin de los datos originales se lleva a cabo el anlisis de
regresin como si se tratara de datos normales.
De igual manera si hubiera aparecido una curva en las grficas, ello nos est
indicando que el modelo no es el adecuado, y que se tiene que utilizar otro de
mayor orden (cuadrtica, cbica, etc.)
95
90
80
70
Porcentaje
60
50
40
30
20
10
1
-2 -1 0 1 2
Residuo
Por lo tanto en base a la evidencia encontrada en las grficas, podemos concluir que
no existe insuficiencia seria del modelo, dicho en otras palabras nuestro modelo es
vlido.
18
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
Para ilustrar el empleo del software Minitab en la elaboracin del diagrama de
dispersin, tomaremos el ejemplo de la temperatura del horno y la resistencia de la
varilla, para ver si la grfica presente tendencia lineal, cuadrtica, cbica, etc.
C1 C2
x y
1 100 45
2 110 51
3 120 54
4 130 61
5 140 66
6 150 70
7 160 74
8 170 78
9 180 85
10 190 89
19
Lic. Vicente Snchez y Ramrez
Anlisis de regresin lineal
___________________________________________________________________________________________
1. En la columna C1 de la hoja de clculo, rotule x (predictora) y en C2 y
(respuesta).
C1 C2
x y
1 100 45
2 110 51
3 120 54
4 130 61
5 140 66
6 150 70
7 160 74
8 170 78
9 180 85
10 190 89
En los cuadros de dilogo, Minitab tiene otras posibilidades ms que usted puede
aprovechar seleccionando las opciones que desee.
21