Professional Documents
Culture Documents
Correlacin y regresin
Por: Jos Antonio Rivera Colmenero
D EF I N I C I N
Existe una correlacin entre dos variables cuando los valores de una de ellas estn
relacionados de alguna manera con los valores de la otra.
La Tabla 2-1, por ejemplo, consiste en datos pareados del precio de una rebanada de pizza y el
precio correspondiente de un boleto del Metro en la ciudad de Nueva York, determinaremos si
existe una correlacin entre la variable x (el precio de una rebanada de pizza) y la variable
y
TABLA 2-1
Ao
1960
1973
1986
1995
2002
2003
0.15
0.35
1.00
1.35
1.50
2.00
1
Metro
1.50
1.35
1.50
1.00
1.00
0.35
0.50
0.15
0.00
0.00
0.50
1.00
1.50
2.00
2.50
Pizza
D EF I N I C I N
x 2=
x .
sumarse.
( x )2=
y ( x)
suma.
r=
Requisitos
Cuando nos enfrentamos a un conjunto de datos cuantitativos muestrales pareados, siempre se
puede calcular el coeficiente de correlacin lineal r , pero se deben satisfacer los siguientes
requisitos al utilizar los datos muestrales para llegar a una conclusin acerca de una correlacin
en la poblacin.
(Es importante que los datos muestrales no se hayan reunido por algn mtodo inadecuado,
como una muestra de respuesta voluntaria).
2. El examen visual del diagrama de dispersin debe confirmar que los puntos se acercan al
patrn de una lnea recta.
3. Como los resultados se pueden ver muy afectados por la presencia de valores atpicos, es
necesario eliminar cualquier valor atpico, si se sabe que se trata de un error. Los efectos de
r
cualquier otro valor atpico deben tomarse en cuenta calculando
con y sin el valor
atpico incluido.
Frmulas para calcular r
Frmula 2-1
r=Corr ( x , y )=
Cov (x , y )
=
Sx S y
( x ix ) ( y i y )
[ ( x x ) ][ ( y y ) ]
2
Frmula 2-2
x i y i( xi ) ( y i ) /n
r=
[ x 2i ( x i )2 /n ][ y 2i ( y i )2 /n ]
Frmula 2-3
n ( x i y i ) ( x i ) ( y i )
r=
=
n ( x2i ) ( xi )2 n ( y2i ) ( y i )2
Frmula 2-4
r=
( z x z y )
n1
[( )( )]
n
n
x i x
1
1
x
x
y
;
r=
( i )( i )
n1 i=1
sx
(n1) s x s y i=1
y i y
s
; r= xy
sy
sxsy
donde
zx
es la puntuacin
x ,y
zy
es la puntuacin
y .
pueda compararse directamente con los valores crticos de la Tabla 2-A). Al calcular a mano
r
y otros estadsticos, hacer un redondeo a la mitad de un clculo suele generar errores
importantes, as que trate de almacenar los resultados inmediatos y redondee solo hasta el final.
Propiedades del coeficiente de correlacin lineal r
1. El valor de r
2. El valor de
mide la fuerza de una relacin lineal. No est diseada para medir la fuerza de una
5.
es muy sensible a los valores atpicos, en el sentido de que un solo valor atpico puede
Hay varios mtodos para calcular el valor del coeficiente de correlacin lineal
, pero solo es
se utiliz para el precio del boleto del metro. Como hay seis pares de datos
n=6 . En la
TABLA 2-2
Ao
pizza (
xi
1960
0.15
1973
i
y
xi yi
xi
yi
0.15
0.0225
0.0225
0.0225
0.35
0.35
0.1225
0.1225
0.1225
1986
1.00
1.00
1.0000
1.0000
1.0000
1995
1.25
1.35
1.5625
1.8225
1.6875
2002
1.75
1.50
3.0625
2.2500
2.6250
2003
2.00
x i= 6
4.000
4.000
4.0000
x i y i=
Metro
2.00
y i = 6.
.50
x =
2
i
y = 9.
9.4575
2175
Con los valores de la Tabla 2-2 y la Frmula 2-3, calculamos r como sigue:
r=
35
2
i
n ( x i y i ) ( x i ) ( y i )
9.77
2
i
r=
15.47
=0.988.
16.37 14.9825
Ejemplo 2. Clculo de r por medio de la frmula 2-1. Con base en la Frmula 2-1, calcule
el valor del coeficiente de correlacin lineal r para los precios pareados de la pizza y del
boleto del Metro listados en la Tabla 2-3 y los datos de las medias
x y
y .
TABLA 2-3
Precio de
pizza (
Tarifa del
Metro
2
( x ix )
( y i y )
( x ix )
( y i y )
( x ix ) ( y i y )
xi
i
y
1960
1973
1986
1995
2002
2003
0.15
0.35
1.00
1.25
1.75
2.00
0.15
0.35
1.00
1.35
1.50
2.00
0.9333
0.7333
0.0833
0.1667
0.6667
0.9167
0.9083
0.7083
0.0583
0.2917
0.4417
0.9417
0.8711
0.5378
0.0069
0.0278
0.4444
0.8403
0.8251
0.5017
0.0034
0.0851
0.1951
0.8867
0.8478
0.5194
0.0049
0.0486
0.2944
0.8632
SUMA :
6.50
6.35
0.0000
0.0000
2.7283
2.4971
2.5783
Ao
x =
x i 6.50
y i 6.35
=
=1.0833, y =
=
=1.0583 .
n
6
n
6
r=
( x ix ) ( y i y )
[ ( x x ) ][ ( y y ) ]
2
2.5783
2.5783
=
=0.988
(2.7283)(2.4971) 2.6101
D EF I N I C I N
s , es la
Frmula 2-6
s=
n ( x ) ( x )
n (n1)
Ejemplo 3. Clculo de r por medio de la frmula 2-4. Con base en la Frmula 2-4, calcule
el valor del coeficiente de correlacin lineal r para los precios pareados de la pizza y del
boleto del Metro incluidos en la Tabla 2-4.
Usando la Frmula 2-5 y de la Tabla 2-3, obtenemos las desviaciones de x y de y:
( xi x )
2.7283
sx =
=
=0.7387
n1
61
( y i y )
2.4971
s y=
=
=0.7067
n1
61
TABLA 2-4
Ao
Precio
de pizza
(
1960
1973
1986
1995
2002
2003
xi
i
y
0.15
0.35
1.00
1.25
1.75
2.00
0.15
0.35
1.00
1.35
1.50
2.00
zx=
x ix
sx
z y=
y i y
sy
1.2634
0.9927
0.1128
1.2853
1.0023
0.0825
0.2257
0.9025
1.2410
0.4128
0.6250
1.3325
zx z y
1.6239
0.9949
0.0093
0.0931
0.5641
1.6536
SUMA :
6.50
( z x z y )= 4.
6.35
9390
x =
Si sumamos
x i 6.50
y i 6.35
=
=1.0833, y =
=
=1.0583 .
n
6
n
6
( z x z y )=
se calcula utilizando la
( z x z y ) 4.939
=
=0.988
n1
61
r , necesitamos interpretar su
r=0.988
r2
es la proporcin de la variacin de
y , y se
y .
Ejemplo 4. Variacin explicada. Con los datos de los precios de la pizza y del boleto del
Metro, encontramos que el coeficiente de correlacin lineal es r=0.988 . Qu proporcin de
la variacin en el precio del boleto del Metro puede explicarse por la variacin en el precio de la
rebanada de pizza?
Solucin:
Con
r=0.988 , obtenemos
r 2=0.976
Requisitos
Se aplican los mismos requisitos que pare el coeficiente de correlacin lineal.
Hiptesis
H 0 : =0
H1: 0
Estadstico de prueba : r
Valores crticos: Remtase a la Tabla 2-A.
Conclusin
|r|>
H0
Si
H1: 0
El estadstico de prueba es
Tabla 2-A con
n=6
r=0.988 .
El valor crtico de
r=0.811
se encuentra en la
|0.988|> 0.811 , rechazamos H 0 : =0 .
(El rechazo de ninguna correlacin lineal indica que existe una correlacin lineal).
Interpretacin. Concluimos que existe evidencia suficiente para sustentar la afirmacin de
una correlacin lineal entre los precios de una rebanada de pizza y los precios del boleto del
Metro.
12
H 0 : =0
H1: 0
Estadstico de prueba
t=
1r
n2
Valor P: Utilice un programa de cmputo o la Tabla 2-B (al final del tema) con
de libertad para calcular el P correspondiente al estadstico de prueba t .
n2 grados
Conclusin
H0
y concluya que
H1: 0
13
t=
1r
n2
0.988
10.9882
62
=12.793
Los paquetes de cmputo utilizan mayor precisin para obtener el estadstico de prueba ms
exacto de t =12.692. Con 4 grados de libertad, la Tabla 2-B (al final del tema) indica que el
estadstico de prueba t = 12.793 produce un valor P que es menor que 0.01. Los paquetes de
cmputo dan un valor P de 0.00022. Como el valor de P es menor que el nivel de significancia de
0.05, rechazamos H0.
Interpretacin. Concluimos que existe evidencia suficiente para sustentar la afirmacin de
una correlacin lineal entre el precio de una rebanada de pizza y el precio del boleto del metro.
14
15
La dependencia de
sobre
automviles
Cantidad de aditivo
x1
x2
x3
xn
y1
y2
y3
yn
Como ejemplo numrico, consideramos los datos de la Tabla 2-6 como las observaciones
obtenidas en un experimento con n=10 automviles. La cantidad de aditivo x y la
reduccin de xidos de nitrgeno y se mide con las unidades adecuadas. Siete diferentes
niveles de
es difcil decir mucho ms acerca de la forma de la relacin simplemente viendo estos datos
tabulares.
TABLA 2-6.
DATOS DE LA CANTIDAD DE ADITIVO Y LA REDUCCIN DE
OXIDOS DE NITRGENO EN 10 AUTOMVILES
Cantidad de aditivo
2.1
2.5
3.1
3.0
3.8
3.2
4.3
3.9
4.4
4.8
y
Representacin de los datos
En el estudio de la relacin entre dos variables, el primer paso lgico es representar los datos
como puntos. La figura resultante, llamada diagrama de dispersin, indica si los puntos se
agrupan en torno a una lnea recta o a una curva y tambin nos dan una impresin visual de la
magnitud de la variacin con respecto a la lnea o a la curva. En la mayora de las situaciones no
hay una relacin terica a priori conocida para aplicarla, as que la informacin representada en
el diagrama de dispersin es til en la bsqueda de un modelo matemtico adecuado.
El diagrama de dispersin de las observaciones en la Tabla 2.6 aparece en la Figura 2.3. Este
diagrama de dispersin revela que la relacin es aproximadamente lineal por naturaleza; es decir,
los puntos parecen agruparse en torno a una lnea recta. Debido a que una relacin lineal es la
relacin ms simple para manejarse matemticamente, se presentan los detalles del anlisis de
regresin estadstica para este caso. Otras situaciones a menudo pueden reducirse a este caso por
la aplicacin de transformaciones adecuadas para una o ambas variables.
Es importante hacer el siguiente recordatorio:
El primer paso en el anlisis
En la investigacin de la relacin entre dos variables, la grfica de un diagrama de
dispersin es un importante paso previo que se debe realizar antes de comenzar un anlisis
estadstico formal. Un diagrama de dispersin da una idea de la naturaleza de la relacin
mostrada por los datos.
17
y
Pendiente de la ecuacin de regresin
Ecuacin de la recta de regresin
Parmetro poblacional
Estadstico muestral
b0
b1
^y = 0 + 1 x
^y =b 0+ b1 x
Requisitos
1. La muestra de datos pareados ( x , y es una muestra aleatoria de datos cuantitativos.
2. El examen visual del diagrama de dispersin indica que los puntos se aproximan al patrn de
una lnea recta.
18
3. Los valores atpicos pueden tener un gran efecto sobre la ecuacin de regresin, por lo que se
debe eliminar cualquier valor atpico, si se sabe que es un error. Es importante tomar en
cuenta los efectos de cualquier valor atpico que no sea un error conocido.
b1
^y = y b1 x
Donde r
Frmula 2-7
b0
Pendiente:
b1=r
es el
coeficiente de correlacin
s
lineal, y es la
sy
sx
Formula 2-8
b0 = y b 1 x
D EF I N I C I N
1.
2. A partir de un conjunto de datos muestrales pareados, la ecuacin de regresin
3.
^y i=b 0+ b1 x
y . La grfica de la
ecuacin de regresin se denomina recta de regresin (o recta del mejor ajuste o recta de
mnimos cuadrados).
19
^y
variable dependiente). La definicin anterior indica que en estadstica, la ecuacin tpica de una
^y =b 0+ b1 x
lnea recta y=mx +b se expresa en la forma
.
^y =b 0+ b1 x
b0 +b 1 x i
xi
d i= y ib0b1 x i
es
yi
^y i
b0:
Ordenada en el origen. Punto de corte con el eje de ordenadas o eje y. En este punto x
est en el origen es decir x = 0.
b1:
20
^y i y 0
x ix 0
de donde
b1=
b1
y 0=b 0
x 0=0
, despejando para
^y ib0
x i0
^y i=b 0+ b1 x i
21
^y i
i=1
La funcin elegida
^y =b 0+ b1 x
.
d i= y i ^y i= y ib 0b1 x i .
0+b
(
1 x i)
y i
d =
2
i
i=1
n
D=
i =1
22
D se define como:
RespuestaobservadaRespuesta
(del modelo)2
D=
donde la respuesta pronosticada involucra los parmetros desconocidos del modelo. Los valores
de los parmetros determinados se llaman estimaciones por mnimos cuadrados.
El objetivo es minimizar la suma total de las distancias. Se trata de encontrar la recta que haga
mnimos las distancias (errores o residuos) para todas las observaciones. La distancia, d , la
yi
hemos definido como la diferencia entre el valor real
y el valor obtenido (valor estimado o
valor ajustado) con la recta de regresin que se denota poniendo un acento circunflejo encima de
^y i
la variable,
.
b
( 0+b 1 x i)= y ib 0b1 x i
.
d i= y i ^y i= y i
Como se cometern errores en todas las observaciones, podramos buscar los valores de
b1
b0
que hacen mnima la suma o la media de todas las distancias, aunque es fcil comprobar
que en estos modelos la suma y la media son igual a 0. Las alternativas seran sumar o hacer la
media de los valores absolutos de estas distancias, o bien la de las distancias al cuadrado; por
sencillez a la hora de derivar el criterio que adoptamos es ste ltimo, es decir, vamos a buscar
b0
b1
los valores de
y
que hagan mnima la suma de todos los errores al cuadrado, es lo
que se conoce como el criterio de Mnimos Cuadrados:
23
0+
b1 x i )
(
y i
d = Minb , b
2
i
i=1
Minimizar D=Minb , b
0
b0
ya
b1
i=1
b1 xi
y i b0
( y ib 0b1 x i)=0
2(1)
n
D
=
b0 i=1
xi ( y i b0b1 x i )=0
21
y ib 0b1 x i
=2
i=1
2(x i )
n
D
=
b1 i=1
Dividiendo por
i=1
24
x i( yi b0 b1 x i )=0 (210)
n
i=1
i=1
i=1
i=1
y i b0 b1 x i=0(211)
n
i=1
i=1
i=1
x i yi b0 x i b 1 x 2i =0(212)
n
Si,
b 0=n b 0
i=1
, se tiene:
n
i=1
i=1
n b0 +b 1 x i= y i (213)
i=1
i=1
b0 x i+ b1 xi = xi y i (214 )
i=1
b0
de la ecuacin (213) :
i=1
i=1
n b0= y i +b1 x i
Despejando
b0
:
n
) (
y ib1 x i
1
1
b0 = y i b1 x i = y b1 x = i=1
n i=1
n i=1
Sustituyendo el valor de
b0
en la ecuacin ( 214 ) :
25
i=1
i=1
i=1
i=1
i=1
i=1
2
( y b1 x ) x i+ b1 xi = xi y i
x i b1 x x i +b1 xi2= x i y i
i=1
y
i=1
Multiplicando y dividiendo los dos primeros trminos del primer miembro de esta ltima
ecuacin por n :
1
1
n y x i b 1 n x x i + b1 x2i = xi y i
n i=1
n i=1
i=1
i=1
Simplificando,
n
n y x b1 n x +b1 x = x i y i
2
i=1
b1
2
i
i=1
x 2i n x 2 = x i y i n y x
i=1
i=1
x i yi n y x
b1= i=1n
x 2i n x 2
S xy
S
=r y
Sx
Sx
2
i=1
^y =b 0+ b1 x
anteriormente calculados:
Si,
^y =b 0+ b1 x=( y b 1 x ) +b 1 x= y +b 1 ( xx )= y +
es decir,
26
S xy
( xx )
Sx
( )
2
b0
^y y =
S xy
( x x )
Sx
()
2
Pendiente
^y
DEL
MODELO
DE
REGRESIN
(213) y (214) :
n
i=1
i=1
n b0 +b 1 x i= y i (213)
i=1
i=1
b0 x i+ b1 xi = xi y i (214 )
2
i=1
[ ][ ]
n
xi
i=1
n
x=1
i=1
xi x
2
i
[]
b0
=
b1
yi
i =1
n
(215)
xi yi
i=1
M= A
C
es,
B
D
de la recta de
OBTENCIN
MATRICES
b1
D
1
ADBC
M =
C
ADBC
B
ADBC
A
ADBC
]
27
LINEAL
SIMPLE
CON
si:
[ ]
n
xi
M=
i=1
n
x=1
i=1
x i x2i
entonces,
[
[
M 1=
M =
x
i=1
x i
2
i
n x2i x i x i
i=1
i=1
n
i =1
n
x=1
i=1
i=1
xi
n
n x2i x i x i
i=1
i=1
i=1
i=1
n
n x 2i xi x i
i=1
i=1
i=1
i=1
n x 2i xi x i
xi2
x i
i=1
i=1
( )
n x
2
i
i=1
xi
i=1
( )
n x
2
i
i=1
xi
i=1
x i
i=1
i=1
( )
n x
2
i
xi
i=1
i=1
( )
n x
2
i
xi
i=1
Premultiplicando por la matriz inversa ambos miembros del sistema de ecuaciones (3):
28
M 1 M
Matriz I
[]
b0
=
b1
x 2i
x i
i=1
i=1
( )
n x 2i
i=1
xi
i =1
( )
n x 2i
i=1
xi
i=1
xi
i=1
( )
n x 2i
i=1
i =1
n x 2i
xi
i=1
( )
i=1
xi
[ ]
n
yi
i=1
n
xi y i
i=1
de donde,
i=1
i=1
y i x 2i x i x i y i
b0 = i=1
i =1
2
( )
n x2i
i=1
xi
i=1
n x i yi x i y i
b1=
i=1
x=1
n x 2i
i=1
b0
b1
i=1
2
( )
i=1
xi
estimada, la cual tiene la siguiente propiedad especial: la recta de regresin es la que mejor se
ajusta a los puntos muestrales.
DERIVACION DE LAS ESTIMACIONES DE MNIMOS CUADRADOS b0 Y b1
De acuerdo con el principio de mnimos cuadrados:
D= ( RespuestaobservadaRespuesta del modelo )2
n
i=1
i=1
D= d 2i = ( y ib0b 1 x i )2
29
b0
b1
tal que
D= ( y ib0 b1 xi )2 sea
i=1
minimizada.
n
d 2i = Minb , b ( y i b0b1 x i )2
0
i=1
Minimizar D=Minb ,b
0
i=1
Primero escribimos:
y ib 0b1 x i= y ib 0b 1 x i+ ( y y ) +(b1 x b1 x )
( y i y ) b1 ( x ix ) +( y b0 b1 x )
Elevando al cuadrado ambos lados de la ecuacin anterior, se obtiene:
2
( y ib 0b 1 x i ) =[ ( y i y )b 1 ( x i x ) + ( y b0 b1 x ) ]
[ ( y i y ) b1 ( x ix ) + ( y b0b1 x ) ][ ( y i y )b 1 ( x ix ) + ( y b0 b1 x ) ]
2
( y i y ) b1 ( xi x )( yi y ) + ( y i y ) ( y b0 b1 x ) b1 ( x ix ) ( y i y )
+b21 ( x ix )2b 1 ( x ix )( y b0b 1 x ) + ( y i y )( y b0 b1 x )
b1 ( x i x ) ( y b0b1 x ) + ( y b0 b1 x )
( y ib 0b 1 x i ) =( y i y ) + b1 ( xi x ) + ( y b 0b1 x )
2 b 1 ( x ix ) ( y i y ) 2 b1 ( x i x ) ( y b0b1 x ) +2 ( y i y ) ( y b0 b1 x )
Ahora sumamos ambos lados de la ecuacin sobre i=1, , n .
30
D= ( y ib0 b1 xi ) = ( y i y ) +b
2
i=1
i=1
2
1
( x i x ) + ( y b 0b1 x )2
2
i=1
i=1
i=1
i=1
i=1
2 b 1 ( x ix ) ( y i y ) 2 b1 ( y b 0b1 x ) ( xi x ) + 2 ( y b0 b1 x ) ( y i y )
Por sencillez en la presentacin de esta frmula introducimos las siguientes nociones bsicas.
Nociones bsicas
1
x = xi
n
1
y = y i
n
2
s 2x = ( x ix ) = x 2i 2 x x i x 2= x 2i 2 n x
xi
x 2
n
x 2i 2 n x x n x 2= xi22 n x 2n x 2= x 2i n x 2
2
s 2y = ( y i y ) = y 2i 2 y y i y 2= y 2i 2 n y
yi
y 2
n
2
2
2
2
2
2
2
y i 2n y y n y = y i 2 n y n y = y i n y
s xy = ( x i x ) ( y i y )= ( x i y i y x ix y i + x y )
x i yi y x ix y i+ x y
x i yi n y
xi
yi
n x
+ x y
n
n
x i yi n y
xi
yi
n x
+ x y
n
n
x i yi n x y n x y +n x y
x i yi n x y
31
Observamos que los dos ltimos trminos en el lado derecho de la frmula desaparecen despus
( x i x ) =0
( yi y )=0
de la suma, porque
y
. Por lo tanto, tenemos:
D=s2y + b21 s2x + n ( y b 0b 1 x )22 b1 s xy
reordenamos los trminos:
2
2 2
1 x
D=n ( y b0 b1 x ) + b s 2b 1 s xy +
2
D=n ( y b0 b1 x ) + b1 s x
b0
b1
s 2xy
s 2x
2
y
+s
s xy 2
s 2xy
2
+ s y 2
sx
sx
)(
s 2xy
s 2x
s xy
s
=0 b 1 s x = xy
sx
sx
de donde,
b1=
Cov ( x , y ) s xy x i y in x y
= 2=
Var (x)
sx
x 2i n x 2
^y =b 0+ b1 x
cuadrados.
xi
yi
x i2
x i yi
1
1
2
3
4
4
5
6
6
7
=
2.1
2.5
3.1
3.0
3.8
3.2
4.3
3.9
4.4
4.8
1
1
4
9
16
16
25
36
36
49
2.1
2.5
6.2
9.0
15.2
12.8
21.5
23.4
26.4
33.6
35.1
193
152.7
39
Entonces
n
39
35.1
2
x = =3.9, y =
=3.51, x i y i=152.7, x i =193,
10
10
i=1
i=1
determinamos primero
b1 =
s xy
2
x
x i y in x y
2
i
x n x
b1
y despus
b0 :
152.7(10)(3.9)(3.51) 15.81
=
=0.387
40.9
193(10)(3.9)2
Comprobacin de la linealidad
33
Para explicar la comprobacin de la linealidad nos valdremos del siguiente ejemplo. En una
prueba de laboratorio para el desgaste de neumticos se realiz el siguiente experimento. Los
neumticos de una determinada marca se montaron en un automvil. Los neumticos se rotaron
de una posicin a otra cada 1,000 millas, y la profundidad del desgaste se midi en milsimas de
pulgada (0,001 pulgadas = 0.0254 mm) inicialmente y despus de cada 4,000 millas. Las
mediciones se realizaron en seis posiciones equiangulares en cada una de seis ranuras alrededor
de la circunferencia de cada neumtico. La Tabla 2.8 da los promedios de las seis mediciones
sobre la ranura de un neumtico despus de cada 4,000 kilmetros hasta 32,000 kilmetros. El
grfico de dispersin para estos datos se muestra Figura 2.5. Se ve bastante lineal, y por lo tanto
es razonable para adaptarse a una lnea recta a los datos.
329.50
291.00
12
255.17
16
229.33
20
204.83
24
179.00
28
163.83
32
150.33
TABLA 2.8
Kilometraje
(en 1,000 kms.)
34
ei ' s
lineales:
n
i=1
i=1
e i=0 , x i ei =0
Estas restricciones se obtienen a partir de las siguientes derivadas parciales igualadas con cero,
vistas anteriormente:
b1 xi
y i b0
( y ib 0b1 x i)=0
2(1)
n
D
=
b0 i=1
35
xi ( y i b0b1 x i )=0
n
y ib 0b1 x i 21=2
i=1
2(x i )
n
D
=
b1 i=1
b
( 0+b 1 x i)
y i
i=1
b
( 0+b 1 x i)
y i
xi
i=1
yi
observadas, las
^y i
i=1
i=1
e i=0 , x i ei =0
TABLA 2.9
Los datos
x i , y i , ^y i , ei
xi
yi
^y i=360.6366677.280625 x i
e i= y i ^y i
394.33
360.64
33.69
0.00
329.50
331.51
2.01
8.06
291.00
302.39
11.39
91.13
12
255.17
273.27
18.10
217.19
16
229.33
244.15
14.82
237.07
36
x i ei
20
204.83
215.02
10.19
203.88
24
179.00
185.90
-6.90
165.64
28
163.83
156.78
7.05
197.42
32
150.33
127.66
22.67
725.55
0.00
0.00
ei
Las
xi
que indica que despus de filtrar la componente lineal, todava queda un componente no lineal.
As que la regresin lineal no se ajusta adecuadamente a los datos, a pesar de que el coeficiente
b1
lineal de la pendiente
es significativo. Una leccin importante que aprendemos aqu es que
un valor
b1
e i vs . xi
Lineal:
b
Potencia: ^y =b 0 x . (La potencial no trabaja con valore de
considera).
37
Exponencial:
^y =b 0 eb
500.00
400.00
300.00 f(x) = - 7.28x + 360.64
Profundidad del desgaste, Y
200.00
100.00
0.00
0 5 10 15 20 25 30 35
Kilometraje, X
450.00
400.00
350.00
300.00
250.00
200.00
150.00
100.00
50.00
0.00
10
15
20
25
30
38
35
Calculamos el Error Absoluto Porcentual (APE, Absolute Percentage Error) con la frmula
general:
APE =
Para determinar el Error Porcentual Absoluto Medio (MAPE, Mean Absolute Percentage
Error), promediamos estos valores de APE para todas las curvas consideradas. Consideraremos
a la curva con el menor MAPE como la que mejor se ajusta a los datos. En este caso la que
mejor se ajusta a los datos es la curva exponencial.
D EF I N I C I N
Cuando se trabaja con dos variables relacionadas por una ecuacin de regresin, el cambio
marginal en una variable es la cantidad que esta se modifica cuando la otra variable cambia
b1
exactamente una unidad. La pendiente
en la ecuacin de regresin representa el cambio
40
Ejemplo 8: Ajuste una lnea recta a los valores x y y de las primeras columnas siguientes:
xi
yi
xi
x i yi
1
2
3
4
5
6
7
=
0.5
2.5
2.0
4.0
3.5
6.0
5.5
1
4
9
16
25
36
49
0.5
5.0
6.0
16.0
17.5
36.0
38.5
24
140
119.5
28
( )
x i =(28)2=784 ,
i=1
x i=28,
n=7 ,
i=1
x 2i =140,
i=1
y i=24
i=1
y i x x i x i y i
b0 = i=1
i=1
2
i
i=1
i =1
2
( )
n x2i
i=1
xi
i=1
i=1
x=1
i=1
2
n x i yi x i y i
b1=
n x 2i
i=1
( )
i=1
xi
( 24 )( 140 )(28)(119.5) 14
=
=0.07142857
( 7 ) ( 140 )784
196
Por consiguiente, la ecuacin lineal con ajuste por mnimos cuadrados es:
41
^y =b 0+ b1 x=0.07142857+0.839285714 x
En este ejemplo la recta de regresin tiene una pendiente de 0.84, aproximadamente. As si
incrementamos x en una unidad, el valor de ^y se incrementar en 0.84. Es decir, por cada
unidad adicional de x el valor de ^y aumenta 0.84 de unidad.
D EF I N I C I N
x
y
decir,
residuo= y observada y predicha= y ^y
42
Esta definicin no ha ganado premios por su sencillez, pero comprender fcilmente los residuos
con la recta que se ajusta a los siguientes datos muestrales pareados ( x y y ):
xi
yi
x i2
xi yi
^y i=5+ 4 x
Residuo= y i^y i
1
2
4
5
=
4
24
8
32
1
4
16
25
4
48
32
160
9
13
21
25
5
11
13
7
68
46
244
12
n=4 ,
x i=12,
i=1
x i =46,
i=1
2
( )
i=1
y i=68 ,
i=1
x i =(12)2=144 ,
x i yi =244
i=1
i=1
i=1
i =1
2
y i x 2i x i x i y i
b0 = i=1
( )
n x2i
i=1
xi
i=1
i=1
x=1
i=1
2
n x i yi x i y i
b1 =
n x 2i
i=1
( )
i=1
xi
( 68 )( 46 )(12)(244 ) 200
=
=5
( 4 )( 46 )144
40
Por consiguiente, la ecuacin lineal con ajuste por mnimos cuadrados es:
43
^y =b 0+ b1 x=5+4 x
Considere el punto muestral con las coordenadas (5, 32). Si sustituimos x=5 en la ecuacin
de regresin ^y =5+ 4 x , obtenemos un valor predicho de ^y =25 . Sin embargo, el valor
muestral observado es
y=32 . La diferencia
y ^y 3225=7 es un residuo.
La ecuacin de regresin representa la recta que se ajusta mejor a los puntos, de acuerdo con la
siguiente propiedad de mnimos cuadrados.
D EF I N I C I N
Una recta satisface la propiedad de mnimos cuadrados si la suma de los cuadrados de los
residuos es la menor suma posible.
En la siguiente tabla y en la Figura 2-10 podemos observar que los residuos son:
xi
yi
^y i
^y 1=5+ 4 ( 1 )=9
y 1^y 1=49=5
24
^y 1=5+ 4 ( 2 )=13
y 1^y 1=2413=11
^y 1=5+ 4 ( 4 )=21
y 1^y 1=821=13
32
^y 1=5+ 4 ( 5 )=25
y 1^y 1=3225=7
Residuo
44
(x , y ) .
Consideremos el caso especfico descrito en la Figura 2-11. Imagine una muestra de datos
pareados ( x , y ) que incluye los valores especficos de (5,19). Suponga que utilizamos esta
muestra de datos pareados para calcular los siguientes resultados:
45
Existe evidencia suficiente para sustentar la afirmacin de una correlacin lineal entre
y .
El punto (5,13) es uno de los puntos sobre la recta de regresin, ya que la sustitucin de
x=5 en la ecuacin de regresin ^y =3+2 x produce ^y =13 .
x=5 y
y=19.
La Figura 2-11 indica que el punto (5,13) est sobre la recta de regresin, pero el punto (5,19)
del conjunto de datos original no se ubica en la recta de regresin. Si ignoramos por completo los
conceptos de correlacin y regresin, y deseamos producir un valor de y a partir de un valor
46
de
y .
Pero en este caso existe una correlacin lineal significativa entre x y y , por lo que la
forma de predecir el valor de y cuando x=5 consiste en sustituir x=5 en la ecuacin
de regresin para obtener ^y =13 . Podemos explicar las discrepancias entre y =9 y
^y =13
al sealar que existe una relacin lineal mejor descrita por medio de la recta de
regresin. Como consecuencia, cuando x=5 , el valor predicho de y es 13, pero el valor
muestral observado de y en realidad es 19. La discrepancia ente ^y =13 y y=19 no
puede explicarse por medio de la recta de regresin y se le denomina desviacin sin explicacin o
residuo. Esta desviacin sin explicar se exoresa en smbolos como y ^y .
Una desviacin es la diferencia entre un valor y la media. (En este caso, la media es
y =9 ).
Examine con atencin la Figura 2-4 y observe las siguientes desviaciones especficas a partir de
y =9 :
Desviacin total (a partir de
y y =199=10 .
^y y =139=4 .
y ^y =1913=6 .
D EF I N I C I N
Suponga que tenemos un conjunto de datos pareados que contienen el punto muestral
( x , y ) , que ^y es el valor predicho de y (obtenido por medio de la ecuacin de
regresin), y que la media de los valores
La desviacin total de
(x , y )
muestrales es
es la distancia vertical
y .
y .
predicho
^y
el punto
y .
y ^y
residuo).
(desviacin
explicada)
( ^y y )
( y ^y )
48
El valor de r
es la proporcin de la variacin en
x y
y .
D EF I N I C I N
Podemos calcular
r2
variacin explicada
variacin total
Ejemplo 9. Precio de la pizza y del boleto del Metro. En 1964, Eric Bram, un tpico
adolescente de la ciudad de Nueva York observ que el precio de una rebanada de pizza con
queso era igual al precio de un boleto del Metro. Con el paso de los aos, se dio cuenta que
ambos precios aumentaban aproximadamente en la misma cantidad.
Ao
Precio de pizza
x
( i
1960
1973
1986
1995
2002
2003
Suma:
0.15
0.35
1.00
1.25
1.75
2.00
6.50
49
i
y
xi
xi yi
0.15
0.35
1.00
1.35
1.50
2.00
6.35
0.0225
0.1225
1.0000
1.5625
3.0625
4.000
9.77
0.0225
0.1225
1.0000
1.6875
2.6250
4.0000
9.4575
( )
x i=6.50,
n=6 ,
i=1
i=1
x i =(6.50) =42.25 ,
x
i=1
2
i
=9.77,
y i=6.35
i=1
x i yi =9.4575
i=1
i=1
i=1
i =1
2
y i x 2i x i x i y i
b0 = i=1
( )
n x2i
i=1
xi
i=1
i=1
x=1
i=1
2
n x i yi x i y i
b1 =
n x 2i
i=1
( )
i=1
xi
Por consiguiente, la ecuacin lineal con ajuste por mnimos cuadrados es:
^y =b 0+ b1 x=0.03456+0.94502 x
Adems,
n
yi
6.35
y = i=1 =
=1.05833
n
6
podemos observar que los residuos son:
Tarifa del
Metro (
yi
^y i=0.03456+ 0.94502 x i
( ^y y )2
( y y )2
0.15
0.15
0.176313
0.77795399
0.82506339
0.35
0.35
0.365317
0.48026702
0.50173139
1.00
1.00
0.979580
0.00620156
0.00340239
Precio de
x
pizza( i
50
1.25
1.35
1.215835
0.02480783
0.08507139
1.75
1.50
1.688345
0.3969189
0.19507239
2.00
2.00
1.924600
0.75042371
0.88674239
2.43657301
2.49708334
SUMA:
r 2=
2
variacin explicada de y ( ^y y ) 2.43657301
=
=
=0.976 .
variacin total de y
( y y )2 2.49708334
El coeficiente de determinacin es
correlacin
r . Como
concluimos que aproximadamente el 97.6% de la variacin total en las tarifas del Metro se
pueden explicar por los precios de una rebanada de pizza. Esto significa que 2.4% de la variacin
total del precio del boleto del Metro est explicada por otros factores y no por el precio de una
rebanada de pizza. Sin embargo, recuerde que esos resultados son estimaciones que se basan en
los datos muestrales con que se cuenta. Es probable que otros datos muestrales produzcan
estimaciones diferentes.
El coeficiente de determinacin es la proporcin de la variacin total en y explicada por el
ajuste de regresin. Puesto que el numerador no puede exceder al denominador, su valor mximo
es 1.
Intervalos de prediccin
Una estimacin del intervalo de un parmetro (como la media de las estaturas de los alumnos del
grupo de Estadstica Aplicada) suele denominarse intervalo de confianza, mientras que la
estimacin del intervalo de una variable (como el precio de un litro de gasolina) se conoce como
intervalo de prediccin.
D EF I N I C I N
y.
51
D EF I N I C I N
se
^y
se=
( y ^y )
(donde ^y es el valor predicho de y ) , o por medio de la siguiente
n2
frmula equivalente:
Frmula219:
se=
y 2b 0 yb 1 xy
n2
se
Utilice las
frmulas 2-11 o 2-12 para calcular el error estndar de la estimacin para los datos pareados de
los precios de la pizza y del boleto del Metro, que se incluyen en el Ejemplo 1 (correlacin
lineal).
Solucin:
En el Ejemplo 9, calculamos estos valores:
b0 =0.03456
b1=0.94502.
Y de la tabla
0.15
0.15
0.35
0.35
1.00
1.00
^y i
0.17631
3
0.36531
7
0.97958
0
52
( y ^y )2
yi
x i yi
0.00069
0.0225
0.0225
0.00023
0.1225
0.1225
0.00042
1.0000
1.0000
1.25
1.35
1.75
1.50
2.00
2.00
Suma:
6.35
1.21583
5
1.68834
5
1.92460
0
0.01800
1.8225
1.6875
0.03547
2.2500
2.6250
0.00569
4.0000
4.0000
0.06050
9.2175
9.4575
Ahora podemos usar estos valores en las frmulas para calcular el error estndar de la estimacin
se
.
se=
2
( y ^y )
0.0605
=
=0.123
n2
62
y 2b 0 yb 1 xy
9.2175 ( 0.03456 )( 6.35 )(0.94502)(9.4575)
se=
=
=0.123
n2
62
x0
x0
x ,
n ( x 0 x )
1
1+ +
n n ( x 2 ) ( x ) 2
t /2
tiene
Solucin:
Del Ejemplo 1 de la seccin de correlacin encontramos que
existe evidencia suficiente para sustentar la afirmacin de una correlacin lineal (con un nivel de
significancia de 0.05), y la ecuacin de regresin es ^y =0.03456+ 0.94502 x . Del Ejemplo
10, anterior, sabemos que
s e =0.123
precios de la pizza .
Ao
1960
1973
1986
1995
2002
2003
0.15
0.35
1.00
1.25
1.75
2.00
x i=
Suma:
Media:
x =
0.0225
0.1225
1.0000
1.5625
3.0625
4.000
2
x i = 9.77
6.50
x i 6.5
= =1.0833
n
6
=0.05
x i2
xi
Precio de pizza (
t /2 =2.776
(utilizamos 62 = 4 grados
(ya que buscamos el intervalo de prediccin del precio del boleto del Metro,
E=t /2 s e
x=2.25 UM).
2
n ( x 0 x )2
1
1 6 ( 2.251.0833 )
1+ +
=(2.776)(0.123)
1+
+
n n ( x 2 ) ( x ) 2
6 6 ( 9.77 )( 6.50 )2
^y =2.16
54
1.72< y <2.60
INTERPRETACIN. Si el precio de una rebanada de pizza es 2.25 UM, tenemos una certeza
del 95% de que el precio del boleto del metro est entre 1.72 UM y 2.60 UM. Se trata de un
rango relativamente grande de posibles valores, y uno de los factores que contribuye a la gran
dimensin del rango es el tamao tan pequeo de la muestra, con n=6 .
Adems de saber que si una rebanada de pizza cuesta 2.25 UM, el costo predicho de un boleto del
Metro es de 2.16 UM, ahora tenemos una idea de qu tan confiable es realmente la estimacin. El
intervalo de prediccin del 95% calculado en este ejemplo indica que el precio real del boleto del
Metro puede variar sustancialmente del valor predicho de 2.16 UM.
D EF I N I C I N
Una ecuacin de regresin mltiple expresa una relacin lineal entre una variable de
x , x , , xk ) .
respuesta ^y , y dos o ms variables de prediccin ( 1 2
La forma general de
una ecuacin de regresin mltiple obtenida a partir de datos muestrales es:
^y =b 0+ b1 xi 1 +b2 x i2 ++ bk x ik
donde :
55
independientes.
^y = variable de respuesta.
b0 , b1 , b2 , ,b k = con cantidades fijas desconocidas.
b0 , b1 , b2
b3
D=
i =1
Los mnimos cuadrados estimados se encuentran estableciendo las primeras derivadas parciales
b0 , b1, , b k
de D con respecto a
e igualando con cero y resolviendo las ecuaciones resultantes.
Estas ecuaciones se escriben como:
b
0+b
x
+b
y i(
1 i1
2 x i 2+ +b k x ik )
n
D
=2
b0
i=1
b
y i( 0+b 1 x i1 +b 2 x i 2+ +b k x ik )
n
D
=2
b0
i=1
Divindiendo por 2:
56
b
y i( 0+b 1 x i1 +b 2 x i 2+ +b k x ik )
i=1
b
y i( 0+b 1 x i1 +b 2 x i 2+ +b k x ik )
i=1
Desarrollando:
n
x i2 bk xik =0
i=1
n
x i 1 b2
i=1
n
b 0 b1
n
i=1
n
y i
i=1
i=1
x i2 x ij b k x ik x ij =0 ( j=1,2, , k ) .
i=1
x i1 x ij b2
i=1
n
x ij b 1
i=1
y i xijb0
i=1
i=1
57
x i2 ++ bk x ik= y i
i=1
i=1
x i1 + b 2
i=1
n
b 0 n+b1
i=1
i=1
i=1
x i 1 x ij + b2
i=1
n
x ij + b 1
i=1
b0
i=1
Estas ecuaciones lineales simultneas en (k +1) variables desconocidas se pueden resolver con
una computadora.
Debido a que se utilizar un programa de computadora para determinar las ecuaciones de
regresin mltiple, ignoraremos los clculos reales y nos concentraremos en interpretar las
pantallas de resultados.
Ejemplo 12. Estaturas de madres, padres e hijas. La siguiente tabla incluye una muestra
aleatoria simple de las estaturas de madres, padres y sus hijas que servir para aplicar un examen
de nutricin. Encuentre la ecuacin de regresin mltiple donde la variable de respuesta ^y es
la estatura de una hija y las variables de prediccin
( x)
padre.
Estatura de
la madre
Estatura del
padre
58.6
64.7
65.3
61.0
65.4
67.4
60.9
63
67
64
60
65
67
59
64
65
67
72
72
72
67
58
63.1
60.0
71.1
62.2
67.2
63.4
68.4
62.2
64.7
59.6
61.0
64.0
65.4
60
58
72
63
67
62
69
63
64
63
64
60
65
71
66
75
69
70
69
62
66
76
69
68
66
68
Una opcin para para obtener la recta de regresin mltiple es por medio de Excel de Microsoft.
Primer paso. Capturar la tabla de datos anterior en Excel y seleccionar del men principal la
opcin Datos/Anlisis de datos. En la ventana de Anlisis de datos se seleccin Regresin.
59
60
b0 =7.5
(redondeando),
b1=0.707
(truncando), y
b2=0.164
(redondeando)
^y
x i1
es la estatura de la madre y
x i2
es la
(redondeando)
R2 y R2 ajustado
R2
ajusta la ecuacin de regresin mltiple a los datos muestrales. Un ajuste perfecto dara como
2
resultado R =1 , y un ajuste muy bueno dara por resultado un valor cercano a 1. Un ajuste
muy deficiente se relaciona con un valor de
R2
cercano a 0. El valor de
R2=67.52
en los
resultados de Excel del Ejemplo 12, indica que 67.52% de la variacin en las estaturas de las
hijas puede explicarse por las estaturas de las madres y de los padres. Sin embargo, el coeficiente
2
mltiple de determinacin R
tiene una grave desventaja: a mayor nmero de variables
incluidas, se incrementa
R
.( R
ms grande se obtiene por el simple hecho de incluir todas las variables disponibles, pero
la mejor ecuacin de regresin mltiple no necesariamente utiliza todas las variables disponibles.
A causa de esta desventaja, la comparacin de diferentes ecuaciones de regresin mltiple se
61
D EF I N I C I N
R2
donde
n=
( n1 )
(1R 2)
[ n( k +1 ) ]
tamao de la muestra.
R2 , es:
( 201 )
19
( 10.675 )=1
( 0.325 )=0.637
17
[ 20( 2+1 ) ]
( )
Lo que confirma el valor de 63.7% de los resultados de Excel. Cuando comparamos esta ecuacin
2
de regresin mltiple con otras, es mejor utilizar la R ajustada de 63.7% (o 0.637).
El valor Probabilidad
El valor Probabilidad es una medida de la significancia general de la ecuacin de regresin
mltiple. El valor de Probabilidad de 0.000 (redondeado a tres decimales) de los resultados de
Excel es pequeo, lo que indica que la ecuacin de regresin mltiple tiene buena significancia
62
general y es til para realizar predicciones. Es decir, tiene sentido predecir las estaturas de las
2
hijas con base en las estaturas de las madres y de los padres. Al igual que la R ajustada este
valor de
Probabilidad
muestrales.
TABLA 2-A
= 0.05
= 0.01
= 0.05
= 0.01
4
5
6
7
8
9
10
11
12
13
14
15
16
17
0.950
0.878
0.811
0.754
0.707
0.666
0.632
0.602
0.576
0.553
0.532
0.514
0.497
0.482
0.990
0.959
0.917
0.875
0.834
0.798
0.765
0.735
0.708
0.684
0.661
0.641
0.623
0.606
18
19
20
25
30
35
40
45
50
60
70
80
90
100
0.468
0.456
0.444
0.396
0.361
0.335
0.312
0.294
0.279
0.254
0.236
0.220
0.207
0.196
0.590
0.575
0.561
0.505
0.463
0.430
0.402
0.378
0.361
0.330
0.305
0.286
0.269
0.256
H 0 : =0
contra
H 1 : 0 , rechace
TABLA 2-B
63
H0
si el valor absoluto de
Grados de
libertad
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
45
50
60
70
80
90
100
200
300
400
500
1000
2000
Grande
0.005
0.10
0.01
0.02
0.05
0.10
0.20
31.821
12.706
6.314
3.078
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.453
2.449
2.445
2.441
2.438
2.434
2.431
2.429
2.426
2.423
2.412
2.403
2.390
2.381
2.374
2.368
2.364
2.345
2.339
2.336
2.334
2.330
2.328
2.326
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.040
2.037
2.035
2.032
2.030
2.028
2.026
2.024
2.023
2.021
2.014
2.009
2.000
1.994
1.990
1.987
1.984
1.972
1.968
1.966
1.965
1.962
1.961
1.960
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.696
1.694
1.692
1.691
1.690
1.688
1.687
1.686
1.685
1.684
1.679
1.676
1.671
1.667
1.664
1.662
1.660
1.653
1.650
1.649
1.648
1.646
1.646
1.645
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.309
1.309
1.308
1.307
1.306
1.306
1.305
1.304
1.304
1.303
1.301
1.299
1.296
1.294
1.292
1.291
1.290
1.286
1.284
1.284
1.283
1.282
1.282
1.282
63.65
7
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.744
2.738
2.733
2.728
2.724
2.719
2.715
2.712
2.708
2.704
2.690
2.678
2.660
2.648
2.639
2.632
2.626
2.601
2.592
2.588
2.586
2.581
2.578
2.576
64
EJEMPLOS RESUELTOS
Regresin lineal mltiple
Ejemplo 1. (Microeconoma). Una empresa inmobiliaria posee diez edificios de
departamentos cerca de una Universidad, que alquila exclusivamente a estudiantes. Cada edificio
de departamentos tiene 100 viviendas para alquilar, pero el propietario est teniendo problemas
de tesorera debido a una tasa de desocupacin de casi el 50 por ciento. Los departamentos en
cada edificio son semejantes, pero algunos edificios estn ms cerca de las facultades que otros.
El propietario de la empresa inmobiliaria tiene datos del ao pasado sobre el nmero de
departamentos alquilados, el precio de alquiler (en UM) y la cantidad ajustada en publicidad (en
cientos de UM) en cada uno de los 10 edificios. Estos datos, junto con la distancia (en
kilmetros) de cada edificio a las facultades, se presenta en las filas 1 a 11 de la Tabla 1-2.
TABLA 1-1
Observacin
Cantidad
Precio
Publicidad
Distancia
28
250
11
12
69
400
24
43
450
15
32
550
31
42
575
34
72
375
22
66
375
12
49
450
24
70
400
22
10
60
375
10
Solucin:
65
Primer paso. Capturar la tabla de datos anterior en Excel y seleccionar del men principal la
opcin Datos/Anlisis de datos. En la ventana de Anlisis de datos se seleccin Regresin.
66
1,119
40
875
25
25
625
25
25
910
30
30
971
30
30
931
35
35
1,177
35
35
882
40
25
10
982
40
25
11
1,628
45
45
12
1,577
45
45
13
1,044
50
14
914
50
15
1,329
55
25
16
1,330
55
25
17
1,405
60
30
18
1,436
60
30
19
1,521
65
35
20
1,741
65
35
21
1,866
70
40
22
1,717
70
40
b1
b2
b0
, en este problema.
.
1.
2.
3.
4.
5.
69
b. Interpretacin de
b0
b1
Para una determinada cantidad de publicidad en los peridicos, se estima que cada aumento de
$1.00 en la publicidad por radio dar lugar a un incremento de las ventas de $13.081. Para una
determinada cantidad de publicidad en el peridico, se estima que cada aumento de $1.00
dlares en publicidad en los peridicos dar como resultado un incremento en las ventas de
$16.795.
c. Cuando no se gasta en publicidad en radio y en publicidad en los peridicos, la cantidad
estimada que se gasta por las ventas es de $ 156,430.00.
d. De acuerdo con los resultados de (b), la publicidad en peridicos es ms eficaz, ya que cada
aumento de $1.00 en la publicidad en peridicos dar lugar a un incremento superior en las
ventas que la misma cantidad de aumento en la publicidad por radio.
70
TABLA 1-1
Supermercado
160
220
140
10
190
10
240
10
260
15
230
15
270
15
280
10
20
260
11
20
290
12
20
310
b0
y de
b1
.
b1
, en este problema.
e). Pronostique las ventas semanales de alimento para mascotas para los supermercados que
71
tengan con 8 metros de espacio en las estanteras para los alimentos para mascotas.
Solucin:
a). El diagrama de dispersin junto con la ecuacin de regresin se muestran enseguida:
d). La interpretacin de
b1
, es como sigue:
72
,y
Por cada aumento de espacio en las estanteras de un metro adicional, hay un aumento
esperado en las ventas semanales de un estimado de $7.40.
e). Pronostico de las ventas semanales cuando se tiene un espacio en las estanteras de 8 metros:
^y =145+7.4 x =145+7.4 ( 8 )=$ 204.20
950
850
1,600
1,450
1,200
1,085
1,500
1,232
950
718
1,700
1,485
1,650
1,136
935
726
875
700
10
1,150
956
11
1,400
1,100
12
1,650
1,285
13
2,300
1,985
14
1,800
1,369
15
1,400
1,175
16
1,450
1,225
17
1,100
1,245
18
1,700
1,259
19
1,200
1,150
73
20
1,150
896
21
1,600
1,361
22
1,650
1,040
23
1,200
755
24
800
1,000
25
1,750
1,200
b0
b1 .
c. Interprete el significado de
b0
b1
en este problema.
b0
b1
son:
74
^y =b 0+ b1 x=177.12+ 1.0651 x
b0 =177.12=intercepcin con el eje de las ordenadas , y
b1=1.0651=pendiente de lalnea de regresin .
b0
b1
Por cada incremento de 1 pie cuadrado en el tamao del departamento, la renta mensual
esperada se calcula que aumentar en $1.0651. Dado que x no puede ser cero, 177,12 no
tiene interpretacin prctica.
d. Si
x=
1,000 pies cuadrados, entonces, el pronstico del costo del alquiler mensual, es:
^y =b 0+ b1 x=177.12+ 1.0651 ( 1,000 )=$ 1,242.22
e). Un departamento con 500 pies cuadrados se encuentra fuera del rango relevante para la
variable independiente.
f). El departamento de 1,200 pies cuadrados tiene la renta ms favorable en relacin con el
tamao. Con base en la ecuacin de regresin, un apartamento de 1,200 pies cuadrados tendra
un alquiler mensual esperado de $1,455.24, mientras que un apartamento de 1,000 pies
cuadrados tendra un alquiler mensual esperado de $ 1,242.10.
Alquiler del departamento:
Departamento de 1,200 pies cuadrados:
^y =177.12+1.0651 x=177.12+ 1.0651 ( 1,200 )=$ 1,455.24
Departamento de 1,000 pies cuadrados:
^y =177.12+1.0651 x=177.12+ 1.0651 ( 1,000 )=$ 1,242.22
75
TAREA
Problema 1. Los siguientes datos son las mediciones de la velocidad del aire y del coeficiente de
evaporacin de las gotitas de combustible en una turbina de propulsin:
Velocidad del aire (cm/seg)
20
60
100
140
180
220
260
300
340
380
0.18
0.37
0.35
0.78
0.56
0.75
1.18
1.36
1.17
1.65
Ajusta una lnea recta a estos datos por el mtodo de mnimos cuadrados, y utilzala para estimar el
coeficiente de evaporacin de una gotita cuando la velocidad del aire es de 190 cm/seg.
Problema 2. Hay un viedo en el valle de Napa, California. El rendimiento del viedo en toneladas de
uvas por acre para los ltimos 21 aos, aparece en la ltima columna de la siguiente tabla. El rendimiento
est relacionado a tres factores: Lluvia, Grados-da y Heladas.
Ao
Lluvia
Grados-da
76
Heladas
Rendimiento
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
14.2
16.8
25.0
37.4
41.2
33.9
28.2
16.0
11.9
16.3
28.7
38.0
38.3
35.8
29.8
18.6
12.2
15.4
24.1
37.6
38.2
28.57
28.83
29.30
28.18
29.44
27.81
26.96
25.76
26.66
28.41
27.32
28.66
27.05
29.38
28.24
27.89
26.94
27.72
28.55
28.37
29.10
0
0
0
0
1
0
0
1
0
0
0
0
1
0
1
0
0
0
0
0
0
2.72
2.42
2.99
2.88
2.42
2.84
2.74
1.56
2.19
2.45
2.57
2.65
1.96
3.09
1.67
2.63
2.38
2.53
2.66
2.76
2.95
Construya un modelo de regresin lineal mltiple para pronosticar el rendimiento de la uva en el viedo.
Utilice los primeros 18 aos para hacer el modelo y pronostique de los aos 19 al 21. Diga si el ajuste es
razonable o no (Sugerencia: vea en los resultados de Excel el valor del Coeficiente de determinacin Rcuadrada, si es mayor a 0.8, el ajuste es bueno).
Problema 3. Una compaa de productos qumicos desea estudiar los efectos que el tiempo de extraccin
tiene en la eficiencia de una operacin de extraccin, obteniendo los datos que aparecen en la siguiente
tabla:
Eficiencia de la extraccin
(%)
Tiempo de extraccin
(minutos)
27
45
41
19
35
39
19
49
15
31
57
64
80
46
62
72
52
77
57
68
77
(a) Elabora el diagrama de dispersin con Excel para verificar qu lnea recta (o curva) se ajustar bien a
los datos, y con ella predice la eficiencia en la extraccin que puede esperarse cuando el tiempo de
extraccin es de 35 minutos.
(b) Compruebe con Excel la Frmula 2-17 que es transcribe a continuacin:
Formula 217
(variacin total)
( y y )2
=
=
(variacin explicada)
( ^y y )2
x i ei=0
i=1
e i=0
i=1
78
+
+