Cap V - Análisis de Regresión Lineal Simple PDF

CAPÍTULO V : ANÁLISIS DE REGRESIÓN LINEAL SIMPLE
En muchas aplicaciones estadísticas se deben resolver problemas que contienen un conjunto de variables y que sabe que
existe alguna asociación entre ellas. En este conjunto de variables muy a menudo se tiene una sola variable dependiente
(o respuesta) Y, que depende de una o más variables independientes (o de regresión) X1, X2, ... , Xk , como por ejemplo
el salario, depende de años de experiencia, grado de instrucción y sexo.
El estudio de la asociación donde se determina una relación funcional de la variable dependiente Y con respecto a una o
más variables independientes con el fin de predecir valores de Y, se llama Análisis de Regresión.
1. DEFINICIÓN:
Cuando hay una sola variable independiente el análisis de regresión es simple. El modelo de regresión simple lineal
relaciona dos variables de forma lineal:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝑢𝑖 𝑖 = 1, ⋯ , 𝑁
Donde:
- 𝑌 variable a explicar, variable dependiente o endógena.
- 𝑋 variable explicativa, variable independiente o exógena.
- La ordenada 𝛽0 y la pendiente 𝛽1 (cantidad de incremento o decremento en el valor medio de Y asociado con un

incremento de una unidad en X) del modelo son los coeficientes de la regresión de población. Si definimos k
como el número de coeficientes desconocidos a estimar, en el modelo de regresión simple hay k = 2 coeficientes
a estimar.
- 𝑢 es el término de error, variable aleatoria o perturbación.
- N es el tamaño de la población, número de observaciones disponibles de las variables de estudio (Y, X).
2. SUPUESTOS DEL MODELO
En total se plantean 4 suposiciones de regresión, con respecto al modelo de regresión simple. Estas suposiciones se pueden
plantear en términos de valores potenciales de y, o bien de manera equivalente, en términos de los valores potenciales del
término error.
Linealidad: El modelo es lineal en los coeficientes. Sin embargo, podemos permitir no linealidades en las variables
explicativas. Siendo los coeficientes 𝛽0 y 𝛽1constantes a lo largo de la población.
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝑢𝑖 𝑖 = 1, ⋯ , 𝑁
1
Normalidad: Los errores están distribuidos ∼ NID(0, 𝜎 2 )
Homocedasticidad: La perturbación o error tiene varianza constante 𝜎 2 .
Independencia: La perturbación no está autocorrelacionada.
2.1. Otros criterios a tomar en cuenta:
 La variable endógena o respuesta es cuantitativa.

 La variable predictora x tiene varianza muestral 𝑆𝑥2 no nula y además n ≥ k = 2 (se recomienda 20k observaciones).
 La variable predictora x es fija, pero por fortuna si es aleatoria la estimación de parámetros, prueba y predicción,
son válidos.
 El modelo está bien especificado.
3. PASOS SUGERIDOS PARA LA REALIZACIÓN DEL ANÁLISIS DE REGRESIÓN
• Especificar bien el modelo: Identificar variable regresora y variable respuesta
• Construir diagrama de dispersión
• Determinar la fuerza de asociación
• Estimar los parámetros.
• Probar significancia.
• Estimar intervalos de confianza.
• Comprobación de la Adecuación del Modelo de Regresión
2
• Análisis de residuales (validación de supuestos).
• Búsqueda de observaciones atípicas o demasiado influyentes.
• Bondad de Ajuste.
• Validez del modelo
3.1. GRÁFICO DE DISPERSIÓN
Una vez planteados los supuestos y después de especificar correctamente el modelo de regresión, podemos comenzar a
explorar con un gráfico o diagrama de dispersión. Es un gráfico que permite detectar la existencia de una relación entre
dos variables.
Figura 1. Diagramas de dispersión: Relaciones entre X e Y
En la figura 1: (a), (b) y (e) los datos visualizan una relación lineal entre las variables X e Y. En las figuras (c) y (d) los
datos visualizan una relación, pero, una relación no lineal, y en la figura (f) los datos visualizan ninguna relación válida
entre las variables.
3
3.2. COEFICIENTE DE CORRELACIÓN DE PEARSON
Medida de la relación lineal entre dos variables aleatorias cuantitativas. Esta medida en si no considera a una variable como
independiente y a otra como dependiente, ya que no se trata de una prueba que evalúa la causalidad. La noción de causa-
efecto (independiente-dependiente) se puede establecer teóricamente, pero este coeficiente no considera dicha causalidad.
A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables. El

coeficiente de correlación de Pearson ( 𝑟𝑥𝑦 ), se calcula a partir de las puntuaciones obtenidas en una muestra en dos
variables. Se relacionan las puntuaciones obtenidas de una variable con las puntuaciones obtenidas de otra variable, en los
mismos sujetos.
n n n
n xi y i  ( xi )( y i )
rxy  i 1 i i 1
 n n
2 
n n

  i     i  
2 2
n x ( x i ) n y ( yi ) 2 
 i 1 i 1   i 1 i 1 
El valor del índice de correlación varía en el intervalo [-1,1]:
• Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables
denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante.
• Si 0 < r < 1, existe una correlación positiva.
• Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son independientes:
pueden existir todavía relaciones no lineales entre las dos variables.
• Si -1 < r < 0, existe una correlación negativa.
• Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables
llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción constante.
Correlación Negativa
4
Correlación Positiva
Ausencia de Correlación r = 0
3.3. LA ESTIMACIÓN DE PARÁMETROS POR MÍNIMOS CUADRÁTICOS ORDINARIOS (MCO)
Un método muy utilizado por su sencillez y buenas propiedades es el método de mínimos cuadrados ordinarios: son
combinaciones lineales de las observaciones, son estimadores insesgados de los parámetros y tienen varianza mínima
(óptimos).
El estimador de MCO, de los parámetros 𝛽0 y 𝛽1 se obtiene de minimizar la suma de los residuos al cuadrado:
𝑁 𝑁 𝑁
𝑚í𝑛 𝑚í𝑛 𝑚í𝑛
∑ 𝑢̂𝑖2 = ̂ ̂ ∑(𝑌𝑖 − 𝑌̂𝑖 )2 = ̂ ̂ ∑(𝑌𝑖 − 𝛽̂0 − 𝛽̂1 𝑋𝑖 )2
𝛽̂0 𝛽̂1 𝛽0 𝛽1 𝛽0 𝛽1
𝑖=1 𝑖=1 𝑖=1
Luego de derivar respecto a cada parámetro, se obtiene el siguiente sistema de ecuaciones normales:
5
n n
 y i   0 n   1  xi
i i 1
n n n
x y
i
i i   0  xi  1  xi2
i 1 i 1
Del cual se obtiene:
S xy
Pendiente: ̂1 
S xx
Ordenada al origen: ˆ0  y  ˆ1 x
Donde
n
S xy   ( xi  x )( yi  y )
i 1
n
S xx   ( xi  x ) 2
i 1
3.4. ESTIMACIÓN DE LA VARIANZA POBLACIONAL
Si las suposiciones de regresión se han cumplido y SSRes es la suma de residuos cuadráticos, entonces:
1. La estimación puntual de 𝜎 2 es el error cuadrático medio (MSRes)

𝑆𝑆𝑅𝑒𝑠
𝜎̂ 2 = 𝑠 2 = = 𝑀𝑆𝑟𝑒𝑠
𝑛−2
2. La estimación puntual de 𝜎 es el error estándar
𝑆𝑆𝑅𝑒𝑠
𝜎̂ = 𝑠 2 = √
𝑛−2
3. Además se puede hallar el intervalo de confianza para la varianza:
(𝑛 − 2)𝑀𝑆𝑅𝑒𝑠 (𝑛 − 2)𝑀𝑆𝑅𝑒𝑠
≤ 𝜎2 ≤
𝜒𝛼2⁄2, 𝑛−2 2
𝜒1−𝛼 ⁄2, 𝑛−2
6
3.5. INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIÓN.
Aunque a menudo las inferencias del parámetro α en base al valor estimado de a estimado de la muestra, carecen de
importancia práctica pues α es la ordenada en el origen y representa la intersección de Y cuando X = 0. Nos referiremos
primero a las inferencias acerca de la pendiente de regresión β, y luego trataremos ambas.
Antes de utilizar la ecuación de regresión muestral para realizar predicciones, se debe primero determinar si existe
realmente regresión poblacional. Si no existe regresión en la población, entonces, la pendiente poblacional β debería ser
igual a cero. Debido a variaciones muestrales, la pendiente de la regresión muestral b puede asumir valores positivos o
negativos, pero la pendiente poblacional β podría ser cero. Si es así, la ecuación de regresión muestral no se puede utilizar
para hacer predicciones válidas. A partir de los datos de la muestra, se va determinar si β es igual a cero o no lo es.
Para verificar si β = 0 se pueden utilizar tres métodos:
 Intervalos de confianza,
 Prueba de hipótesis y
 Análisis de Varianza (ANVA).
3.5.1. Análisis de varianza para β.

Aquí utilizaremos suposición 4 hecha en el modelo de regresión poblacional, es decir que cada variable aleatoria
dependiente Yi tiene distribución normal con media μ Y/ x i y varianza σ2., o que cada E i ~ N(0, σ 2 ) .
El análisis de varianza es uno de los métodos que se utiliza probar la significación de la ecuación de regresión muestral.
Es una prueba F de alternativa bilateral.
Las hipótesis nula y alternativa en este caso son respectivamente:
H 0 : β = 0 contra H 1 : β ≠ 0
La estadística F de la prueba se obtiene de la siguiente identidad de sumas de cuadrados:
n n n
 ( yi  y )2 
i 1
 ( y i  ŷ i ) 2 
i 1
 ( ŷ
i 1
i  y )2
SCT = SCE + SCR
n
SCT   ( y i  y ) 2 se denomina suma de cuadrados total, refleja la variabilidad de los valores de Y con respecto a la
i 1
media y .
n
SCE   ( y i  ŷ i ) 2 es la suma de cuadrados de los errores, o no explicada.
i 1
n
SCR   ( ŷ i - y ) 2 se denomina suma de cuadrados explicado por la regresión, refleja la cantidad de variabilidad de los
i 1
valores de Y explicada por la recta de regresión.
SCR / 1 CMR
La variable aleatoria F definida por: F   ~ F(1, n  2)
SCE / (n  2) CME
7
Dado el nivel de significación α, y los grados de libertad 1 y (n-2), en la tabla de probabilidades F, se encuentra el valor
critico F ( 1 – α, 1 , n – 2 )
Se rechaza la hipótesis nula H 0 : β = 0 , si el valor calculado de F, es mayor que el valor critico F ( 1 – α, 1 , n – 2 ). No se
rechaza H 0 en caso contrario.
La prueba de la hipótesis nula H.0: β = 0 se resume en la siguiente tabla de análisis de varianza (ANVA):
ANVA para H.0: β = 0

Cuadrados F
Fuente de variación Suma de cuadrados Grados de libertad
medios calculada
CMR
Regresión SCR 1 CMR = SCR / 1 F
CME
Error SCE n-2 CME.= SCE / (n-2)
Total SCT n-1
Las sumas de cuadrados se obtienen utilizando las expresiones:

n
SCT   y i2  n( y) 2
i 1
 n 
SCR  b  x i y i  n( x )( y) 
 i 1 
SCE  SCT  SCR
3.5.2. Prueba de Hipótesis (Significancia) para α y β

Cuando interesa probar hipótesis y establecer intervalos de confianza para los parámetros del modelo. Se requiere el
supuesto de que los errores del modelo están distribuidos normalmente.
Para la ordenada al origen se tiene:
𝐻0 : 𝛽0 = 0 𝐻1 : 𝛽0 ≠ 0
𝛽̂0
𝑡0,𝛽0 =
𝑠𝑒(𝛽̂0 )
Siendo:
1 𝑥̅ 2
𝑠𝑒(𝛽̂0 ) = √𝑀𝑆𝑅𝑒𝑠 ( + )
𝑛 𝑆𝑥𝑥
8
Para la pendiente se tiene:
𝐻0 : 𝛽1 = 0 𝐻1 : 𝛽1 ≠ 0
𝛽̂1
𝑡0,𝛽1 =
𝑠𝑒(𝛽̂1 )
Siendo:
𝑀𝑆𝑅𝑒𝑠
𝑠𝑒(𝛽̂1 ) = √
𝑆𝑥𝑥
La 𝐻0 se rechaza si |𝑡0 | > 𝑡𝛼⁄2, 𝑛−2 o si la significancia p es menor de 0.05. Ya que trabajamos con sólo una variable
regresora o de regresión, resulta que 𝑡 2 = 𝐹 del análisis de varianza.
3.5.3. Intervalos de Confianza para α y β

El ancho de dichos intervalos es una medida de la calidad general de la recta de regresión. Si los errores se distribuyen
normal e independientemente, el intervalo de confianza para la pendiente es:
𝛽1 : 𝛽̂1 ± 𝑡𝛼⁄2, 𝑛−2 se(𝛽̂1 )

Y para la ordenada al origen es:
𝛽0 : 𝛽̂0 ± 𝑡𝛼⁄2, 𝑛−2 se(𝛽̂0 )
3.6. INTERVALOS DE CONFIANZA PARA LA PREDICCIÓN
Después de haber decidido que existe regresión lineal simple poblacional o que la línea de regresión muestral es válida
para realizar predicciones, podemos utilizarla para:
i) Predecir la media μ Y/X , dado X = xo , o

ii) Predecir una nueva observación de Y dado un valor xo de X.
i) Intervalo de confianza de μY/X
Sea μ Y/X o el valor de la media μ Y/X cuando X = xo y sea ŷ o el valor de Yˆ0  a  bX , cuando también X = xo (es decir
ŷ o es un valor de la variable Yˆ0  a  b(x o ) ).
El intervalo de confianza del (1- α) x100% para la respuesta media μ Y/X o se obtiene mediante:
1 ( x  x) 2 1 ( x  x) 2
yˆ 0  t ( / 2,n 2)  S  n 0  Y / x0  yˆ 0  t ( / 2,n 2)  S  n 0
 ( xi  x) 2  ( xi  x) 2
n n
i 1 i 1
9
n n
Aquí,  ( xi  x) 2   xi2  n( x) 2
i 1 i 1
Otra nomenclatura: Para la respuesta media en el punto 𝑥 = 𝑥0
1 (𝑥0 − 𝑥̅ )2
𝐸(𝑦⁄𝑥0 ): 𝜇̂ 𝑦⁄𝑥0 ± 𝑡𝛼⁄2, 𝑛−2 √𝑀𝑆𝑅𝑒𝑠 ( + )
𝑛 𝑆𝑥𝑥
ii) Intervalo de confianza para y0
Sea y0 el valor individual de la variable Yˆ0     (xo ) , cuando X = xo y sea ŷ o el valor de Yˆ0  a  bX , cuando X
= xo.
El intervalo de confianza del (1- α) x100% para una sola respuesta y0 se obtiene mediante:
1 ( x  x) 2 1 ( x  x) 2
yˆ 0  t (1 / 2,n 2)  S 1   n 0  y 0  yˆ 0  t (1 / 2,n 2)  S 1   n 0
 ( xi  x ) 2  ( xi  x ) 2
n n
i 1 i 1
Otra nomenclatura: Para nuevas observaciones:
1 (𝑥0 − 𝑥̅ )2
𝑦0 : 𝑦̂0 ± 𝑡𝛼⁄2, 𝑛−2 √𝑀𝑆𝑅𝑒𝑠 (1 + + )
𝑛 𝑆𝑥𝑥
3.7. ADECUACIÓN DEL MODELO
3.7.1. Análisis de residuales (validación de supuestos)
Linealidad: Se evalúa de manera gráfica, específicamente gráficos de nubes de puntos de la variable respuesta con la
variable regresora. También formalmente mediante la prueba de Falta de Ajuste. La solución sería abandonar el modelo y
tratar de formular una ecuación más adecuada.
Normalidad: Podemos detectarla mediante un gráfico de probabilidad normal de los residuos. También mediante un test
de Kolmogorov-Smirnov sobre los residuos estandarizados. Una posible solución sería la eliminación de datos outliers.
Homocedasticidad: Evaluable a través de un examen visual de los residuos en el gráfico de dispersión de pronósticos
tipificados vs. residuos tipificados. Podríamos proceder a eliminar datos outliers.
Independencia: Detectar mediante cálculo de Durbin Watson y valoración visual de los residuos. La posible solución
sería corregir observaciones o eliminar datos.
10
3.7.2. Búsqueda de Observaciones Atípicas o demasiado influyentes
Los residuales cuyo valor es bastante mayor que los demás, digamos de 3 a 4 desviaciones estándar respecto a la media,
indican que hay valores atípicos potenciales en el espacio de y. Los valores atípicos son puntos que no son representativos
del resto de los datos. De acuerdo con su ubicación en el espacio de x, los valores atípicos pueden tener efectos de
moderados a graves sobre el modelo de regresión, esto se puede comprobar eliminando puntos y volviendo a ajustar la
ecuación de regresión. Las gráficas de residuales en función de 𝑦̂𝑖 y la gráfica de probabilidad normal son útiles para
identificar puntos atípicos. También mediante el examen de residuales escalados: residuales studentizados y los R de
student.
Los valores atípicos se deben investigar con cuidado, para ver si se puede encontrar una razón de su comportamiento
extraordinario. A veces, los valores atípicos son “malos” y se deben a eventos desacostumbrados, pero explicables
(medición o análisis incorrecto, registro incorrecto de datos o fallas del instrumento de medición). Si este es el caso se
debería corregir (si es posible) o eliminar del conjunto de datos, se hace notar que se debe contar con una fuerte evidencia
no estadística de que el valor atípico es malo para descartarlo.
También, los valores atípicos pueden resaltar inadecuaciones en el modelo, como la falla de tener buen ajuste con los datos
en cierta región del espacio de x.
3.7.3. Bondad de Ajuste
La medida utilizada para medir la bondad de ajuste se llama coeficiente de determinación (muestral) y se define como:
𝑆𝑆𝑅𝑒𝑔 𝑆𝑆𝑅𝑒𝑠
𝑅2 = =1−
𝑆𝑆𝑇𝑜𝑡 𝑆𝑆𝑇
Es la ganancia obtenida al pasar de un modelo sin variable explicativa X, a otro que incluye ésta variable. Generalmente
es la proporción de la variabilidad observada de la variable respuesta Y que se ha podido explicar por incluir de forma
lineal en el modelo la variable explicativa X.
Observación: Cuando n es pequeño, el coeficiente de determinación R2 es sesgado positivamente. Para corregir este sesgo

se calcula el coeficiente de determinación ajustado R 2 que se define por:

CME
R2 1 
CMT
donde CME = SCE / (n - 2) y CMT = SCT / (n – 1).

Cuando se halla la ecuación de regresión, es aconsejable calcular ambos coeficientes de determinación: R2 y R 2 .
11
3.8. VALIDEZ DEL MODELO
La validación adecuada de un modelo de regresión debe incluir un estudio de los coeficientes, para determinar si sus signos
y sus magnitudes son razonables. También se debe investigar la estabilidad de los coeficientes de regresión, es decir los
parámetros obtenidos con una nueva muestra. Por último una validación requiere investigar el desempeño del modelo en
predicción, teniendo en cuenta los modos de interpolación y extrapolación.
3.8.1. Técnicas de Validación
Para validar un modelo de regresión existen 3 clases de procedimientos:
 Análisis de los coeficientes del modelo y los valores predichos, incluyendo comparaciones con la experiencia, la
teoría física y otros modelos analíticos o resultados de simulación.
 Recolección de nuevos datos (o datos frescos) con los cuales investigar el desempeño del modelo en predicción.
 División de datos, es decir, dividir los datos en 2 partes: una parte son datos de estimación y otra parte son datos
de predicción. A esta división de datos se le llama validación cruzada.
Ejemplo 1. En la Empresa comercial ABC, se desea determinar la relación lineal simple entre la experiencia del vendedor
y las unidades vendidas durante un mes. Se seleccionan 5 vendedores al azar, los datos registrados se presentan a
continuación.
VENDEDOR Carlos Pedro José Juan Manuel
EXPERIENCIA (años): X 3 1 2 5 4
VENTAS (unidades): Y 9 5 7 14 10
a) Trazar el diagrama de dispersión.

b) Determinar la línea de regresión muestral de mínimos cuadrados.
c) Interpretar el valor de la pendiente.
Solución
a) El diagrama de dispersión es la figura 2, obtenida mediante el programa SPSS.
12
14
12
10
Ventas
8
1 2 3 4 5
Experiencia
Figura 2
b) De los datos de la muestra resultan:
Experiencia (X) Ventas (Y) X2 XY

3 9 9 27
1 5 1 5
2 7 4 14
5 14 25 70
4 10 16 40
15 45 55 156
5 5 5 5
 x i  15 ,
i 1
 y i  45 ,
i 1
 x i2  55
i 1
x y
i 1
i i  156 ,
x 3 , y9
n n n
n xi y i   xi  y i
5(156)  (15)(45)
b i 1 i 1 i 1
  2.1
n n
5(55)  (15) 2
n xi2  ( xi ) 2
i 1 i 1
a  y  bx  9  2.1 3  2.7
Así, la línea de regresión estimada o muestral es: Ŷ  2.7  2.1 X
13
c) El valor b = 2.1 de la pendiente indica que por cada año de experiencia, la venta se incrementa en 2.1 unidades.
Nota.- Utilizando el Software SPSS, nos proporciona el siguiente resultado para el mismo ejemplo 1.
Coeficientesa
Coeficientes no Coeficientes Intervalo de confianza para

estandarizados estandarizados B al 95%
Error Límite
Modelo B típ. Beta t Sig. Límite inferior superior
1 (Constante) 2.700 .835 3.235 .048 .044 5.356
Experiencia 2.100 .252 .979 8.345 .004 1.299 2.901
a. Variable dependiente: Ventas
La salida muestra el resultado de ajustar un modelo lineal para describir la relación entre Ventas y Experiencia. La ecuación
del modelo lineal ajustado es:
Ventas = 2.7 + 2.1 * Experiencia
d) Con los datos del ejemplo 1, calcular la desviación estándar muestral de la regresión (el error estándar de estimación).
Solución.
5 5
Del ejemplo1, se obtienen: n = 10, a = 2.7, b = 2.1 ,  y i  45 ,
i 1
x y
i 1
i i  156
X Y Ŷ ( Y  Ŷ ) ( Y  Ŷ ) 2
3 9 9 0.0 0.00
1 5 4.8 0.2 0.04
2 7 6.9 0.1 0.01
5 14 13.2 0.8 0.64
4 10 11.1 -1.1 1.21
 Y  ŶI   1.90
5
2
i
i 1
Entonces la varianza estimada es:
 (y i  ŷ i ) 2
1.90
S2  i 1
  0.6334
n-2 3
El error estándar de estimaciones: S  0.6334  0.7958 unidades.
14
Nota.
- Utilizando la expresión alternativa para el cálculo de S2, resulta:
n n n
y 2
i - a  y i - b x i y i
451  2.7  45  2.1  156 1.90
S2  i 1 i 1 i 1
   0.6334
n-2 3 3
Entonces el error estándar de estimación es: S  0.6334  0.7958
e) Con los datos del ejemplo 1, mediante el método de análisis de varianza probar la significancia de la ecuación de
regresión muestral, al nivel de significancia del 5%.
Solución.
1) Hipótesis : H 0 : β = 0 contra H 0 : β ≠ 0
2) Nivel de significancia : α = 0.05
CMR
3) Estadística de prueba : F  ~ F(1, 3) , donde n = 5
CME
4) Región crítica: Para el nivel de significancia α = 0.05 y los grados de libertad 1 y 3, en la tabla F se encuentra el valor
critico F ( 0.95 , 1 , 3 ).= 10.1. Se rechaza H 0 si el valor calculado de F > 10.1. Se acepta en caso contrario.
5) Cálculos: De los datos se obtiene:

n
SCT   y i2  n( y) 2  451  5  (9) 2  46
i 1
 n 
SCR  b  x i y i  n( x )( y)   2.1  156  5(3)(9)  44.1
 i 1 
SCE  SCT  SCR  46 - 44.1  1.9
La tabla de análisis de varianza es:

ANVA para H.0: β = 0
Fuente de Suma de Grados de Cuadrados F
variación cuadrados libertad
medios calculada
Regresión 44.1 1 CMR = 44.1 F = 69.624
Error 1.9 3 CME = 0.6334
Total 46.0 4
15
6.- Decisión.- Dado que F = 69.624 > 10.1, se rechaza H 0. Estos resultados reflejan la validez del modelo de regresión
poblacional entre años de experiencia y ventas.
Nota.
1. Observar que la estimación de la varianza σ2 es S2 = CME = 0.6334.
2. Mediante el paquete Estadístico SPSS, resulta el siguiente análisis de varianza para β = 0.
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 44.100 1 44.100 69.632 .004 a
Residual 1.900 3 .633
Total 46.000 4
a. Variables predictoras: (Constante), E xperiencia
b. Variable dependiente: Ventas
Puesto que el valor P-value = 0.004 < 0.05, se concluye que existe una relación estadísticamente significativa entre Ventas
y Experiencia en los vendedores.
f) Con los datos del ejemplo 1, determinar:

a) El intervalo de confianza del 95% para la respuesta media μ Y/X o cuando x0=6.
b) El intervalo de confianza del 95% para una sola respuesta y0 cuando x0=6.
g) Con los datos del ejemplo 1, calcule el coeficiente de determinación R2 . Interprete su resultado.
Solución. Del ejemplo 1 resultan:
SCT = 46.0 , SCE = 44.1 , SCE = SCT – SCR = 46.0 – 44.1 = 1.9
Entonces:
SCE 1.9
R2 1   1  0.9587 y
SCT 46.0

CME 1.9 / 3
R2 1   1  0.9450
CMT 46.0 / 4

El valor de R y R 2 se interpretan en la misma forma. Así, R2 = 0.9587, significa que el 95.87% de la variación de la
2
variable dependiente (Ventas) es explicada por la regresión lineal. Otra forma de interpretar es que el ajuste de la recta de
regresión a los puntos de la muestra es muy bueno.
Nota. Mediante el software SPSS, se obtiene el siguiente resultado:
16
Resumen del modelo
R cuadrado Error típ. de la

Modelo R R cuadrado corregida estimación
1 .979a .959 .945 .796
a. Variables predictoras: (Constante), Experiencia
El valor del coeficiente de correlación r = 0.97913, indica a una relación relativamente fuerte entre las variables
(Experiencias y Ventas).
Este resultado, también nos proporciona el error estándar de estimación igual a 0.795822.
Ejemplo 2:
Supongamos que nos interesa conocer la relación que hay entre el peso y la presión sistólica de 50 hombres seleccionados
al azar en edades de 25 a 30.
Se trata de cuantificar la influencia que tiene el peso (libras) de una persona en la determinación de su presión sistólica
mediante un modelo de regresión lineal simple.
Utilizando el Software estadístico PASW v18 (antes SPSS). Primero, con un gráfico de dispersión, exploramos la relación
entre peso (libras) y presión sistólica.
Se observa que los datos tienden a formar o a reunirse en una línea recta creciente. Luego se calcula el coeficiente de
correlación de Pearson que indica la dirección y la intensidad de la relación lineal.
17
Correlaciones
peso_libras presion_sistólica
peso_libras Correlación de Pearson 1 .801**
Sig. (bilateral) .000
N 50 50
presion_sistólica Correlación de Pearson .801** 1
Sig. (bilateral) .000
N 50 50
**. La correlación es significativa al nivel 0,01 (bilateral).
El coeficiente es positivo (a mayor peso mayor presión sistólica), con un valor de 0.8 que indica una correlación
considerable positiva.
Procedemos a realizar el análisis de regresión lineal usando el PASW para obtener las estimaciones de los parámetros 𝛽0 =
70.32 y 𝛽1 = 0.43, la significancia (los parámetros son significativamente diferentes de cero) y los intervalos de confianza
(no contienen a cero). Luego tenemos el análisis de varianza en la tabla ANOVA (pendiente diferente de cero). También
obtenemos la medida de bondad de ajuste que es el coeficiente de determinación con un valor de 0.65 e indica que el 65%
de la variabilidad de presión sistólica es explicada por la variable peso, el error típico de la estimación (8.561) y el cálculo
de Durbin Watson (1.37).
Coeficientesa
Modelo Coeficientes no estandarizados Coeficientes tipificados Intervalo de confianza de 95.0% para B

t Sig.
B Error típ. Beta Límite inferior Límite superior
1 (Constante) 70.323 8.286 8.487 .000 53.663 86.984
peso_libras .429 .046 .801 9.281 .000 .336 .522
a. Variable dependiente: presion_sistólica
ANOVAb
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 6312.285 1 6312.285 86.133 .000a
1 Residual 3517.715 48 73.286
Total 9830.000 49
a. Variables predictoras: (Constante), peso_libras
b. Variable dependiente: presion_sistólica
Resumen del modelob
Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación Durbin-Watson
dimension0
1 .801a .642 .635 8.561 1.370
a. Variables predictoras: (Constante), peso_libras

b. Variable dependiente: presion_sistólica
18
Para evaluar el supuesto de Linealidad observamos el gráfico de dispersión peso (libras) y presión sistólica, descrito arriba.
Según el gráfico parece indicar una relación aproximadamente lineal, pero formalmente podemos realizar la prueba de
falta de ajuste que se presenta en la tabla.
ANOVAb
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 6312.285 1 6312.28 86.133 .000
Residual 3517.715 48 73.29
1 (falta de ajuste) 2982.05 39 76.46 1.28468904 0.363
(error puro) 535.67 9 59.52
Total 9830 49
Como la significancia es mayor que 0.05 se acepta la hipótesis de que el modelo tentativo describe a los datos en forma
lineal.
El supuesto de Normalidad, puede ser evaluado con un histograma de residuos tipificados (gráfico) o con un gráfico de
probabilidad normal de los residuos (gráfico). También mediante un test de Kolmogorov-Smirnov sobre los residuos
estandarizados en el cual se acepta el supuesto de Normalidad.
19
Pruebas de normalidad
Kolmogorov-Smirnova Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Standardized Residual .107 50 .200* .969 50 .204
a. Corrección de la significación de Lilliefors

*. Este es un límite inferior de la significación verdadera.
La Homocedasticidad es evaluable a través de un examen visual de los residuos en el gráfico de dispersión de pronósticos
tipificados vs. residuos tipificados. Los residuos y los pronósticos no parecen ser independientes (esto se verificará más
adelante con Durbin Watson) pues parecen seguir un patrón cuadrático. Parece que la varianza no es homogénea, parece
que conforme va aumentando el valor de pronóstico va disminuyendo la dispersión de los residuos y se ubican hacia abajo.
20
La Independencia se evalúa mediante el cálculo de Durbin Watson (DW) y valoración visual de los residuos (grafico). El
estadístico DW considera que oscila entre 0 y 4. Podemos asumir independencia entre los residuos cuando DW toma
valores entre 1.5 y 2.5. Menores a 2 indican autocorrelación positiva y los mayores a 2 indican autocorrelación negativa.
Como DW tiene valor 1.37, indica que hay una autocorrelación positiva entre los residuos.
4. REGRESIÓN NO LINEAL
En muchos casos cuando los valores en parejas de las variables X e Y no se ajustan a una línea recta, se puede conseguir
una relación lineal mediante una transformación de estos valores. A continuación, se dan algunas ecuaciones no lineales y
su transformación lineal
Ecuación Transformación lineal
a) Y  AB X (compuesto) log Y  log A  (log B) X
b) Y  AX B (potencia) log Y  log A  B log X
c) Y  1 ( A  BX ) (hiperbólica) Y ' A  BX , siendo Y ' 1 Y
d) Y  A  B / X ( Inversa) Y  A  BX ' siendo X ' 1 X
EJEMPLO: Ajustar por el método de mínimos cuadrados una curva de la forma

21
Y  AX B
a los siguientes pares de datos:
X 1.5 2 3 3.5 4 5
Y 2.6 2.4 1.2 1.8 1.6 1.4
SOLUCION.
La transformación a la regresión lineal es:
Y '  A' B' X '
Donde:
Y   log Y , X   log X , A  log A, B  B
Cuadro 1 . Cálculos para la regresión no lineal

X Y X'=log X Y'=log Y X'Y' X'2 Y'2
1.5 2.6 0.1761 0.4150 0.0731 0.0310 0.0.172
2.0 2.4 0.3010 0.3802 0.1144 0.0906 0.1446
3.0 1.2 0.4771 0.0792 0.0378 0.2276 0.0063
3.5 1.8 0.5440 0.2553 0.1378 0.2959 0.0652
4.0 1.6 0.6021 0.2041 0.1229 0.3625 0.0417
5.0 1.4 0.6990 0.1461 0.1021 0.4886 0.0213
2.7993 1.4799 0.5891 1.4962 0.4513
Del Cuadro 1 se obtiene:
 X '  2.7993,  Y '  1.4799,  X 'Y '  0.5891,
 X ' 2  1.4962,  Y ' 2  0.4513
n  X ' Y '  X '  Y ' 6(0.5891)  (2.7993)(1.4799)

b   0.532
n  X ' 2 (  X ' ) 2 6(1.4962)  (2.6993) 2
a  y 'bx '  0.24665  (0532

. )(0.46655)  0.4949
22
s X 'Y ' 0.608
Además, r   0.79.
s X ' sY  (1.068)(0.7196)
La ecuación lineal de regresión es:
Y '  0.4949  0.532 X '
La ecuación no lineal de regresión se obtiene utilizando antilogaritmos:
Y  anti log(Y )  (3.125) X 0.532
donde A  anti log(a)  anti log(0.4949)  3.125 .
23

Cap V - Análisis de Regresión Lineal Simple PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cap V - Análisis de Regresión Lineal Simple PDF

Uploaded by

Copyright:

Available Formats

CAPÍTULO V : ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

- 𝑌 variable a explicar, variable dependiente o endógena.

- 𝑋 variable explicativa, variable independiente o exógena.

- La ordenada 𝛽0 y la pendiente 𝛽1 (cantidad de incremento o decremento en el valor medio de Y asociado con un

- 𝑢 es el término de error, variable aleatoria o perturbación.

2. SUPUESTOS DEL MODELO

Homocedasticidad: La perturbación o error tiene varianza constante 𝜎 2 .

Independencia: La perturbación no está autocorrelacionada.

2.1. Otros criterios a tomar en cuenta:

 La variable endógena o respuesta es cuantitativa.

3. PASOS SUGERIDOS PARA LA REALIZACIÓN DEL ANÁLISIS DE REGRESIÓN

• Especificar bien el modelo: Identificar variable regresora y variable respuesta

• Construir diagrama de dispersión

• Determinar la fuerza de asociación

• Estimar los parámetros.

• Estimar intervalos de confianza.

• Comprobación de la Adecuación del Modelo de Regresión

• Búsqueda de observaciones atípicas o demasiado influyentes.

• Validez del modelo

3.1. GRÁFICO DE DISPERSIÓN

Figura 1. Diagramas de dispersión: Relaciones entre X e Y

A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables. El

El valor del índice de correlación varía en el intervalo [-1,1]:

• Si 0 < r < 1, existe una correlación positiva.

• Si -1 < r < 0, existe una correlación negativa.

3.3. LA ESTIMACIÓN DE PARÁMETROS POR MÍNIMOS CUADRÁTICOS ORDINARIOS (MCO)

Del cual se obtiene:

Ordenada al origen: ˆ0  y  ˆ1 x

3.4. ESTIMACIÓN DE LA VARIANZA POBLACIONAL

1. La estimación puntual de 𝜎 2 es el error cuadrático medio (MSRes)

3. Además se puede hallar el intervalo de confianza para la varianza:

3.5.1. Análisis de varianza para β.

SCT = SCE + SCR

valores de Y explicada por la recta de regresión.

ANVA para H.0: β = 0

Error SCE n-2 CME.= SCE / (n-2)

Total SCT n-1

Las sumas de cuadrados se obtienen utilizando las expresiones:

SCE  SCT  SCR

3.5.2. Prueba de Hipótesis (Significancia) para α y β

Para la ordenada al origen se tiene:

regresora o de regresión, resulta que 𝑡 2 = 𝐹 del análisis de varianza.

3.5.3. Intervalos de Confianza para α y β

𝛽1 : 𝛽̂1 ± 𝑡𝛼⁄2, 𝑛−2 se(𝛽̂1 )

𝛽0 : 𝛽̂0 ± 𝑡𝛼⁄2, 𝑛−2 se(𝛽̂0 )

3.6. INTERVALOS DE CONFIANZA PARA LA PREDICCIÓN

i) Predecir la media μ Y/X , dado X = xo , o

i) Intervalo de confianza de μY/X

Otra nomenclatura: Para la respuesta media en el punto 𝑥 = 𝑥0

ii) Intervalo de confianza para y0

Otra nomenclatura: Para nuevas observaciones:

3.7. ADECUACIÓN DEL MODELO

3.7.1. Análisis de residuales (validación de supuestos)

3.7.3. Bondad de Ajuste

3.8.1. Técnicas de Validación

Para validar un modelo de regresión existen 3 clases de procedimientos:

a) Trazar el diagrama de dispersión.

a) El diagrama de dispersión es la figura 2, obtenida mediante el programa SPSS.

b) De los datos de la muestra resultan:

Experiencia (X) Ventas (Y) X2 XY

Así, la línea de regresión estimada o muestral es: Ŷ  2.7  2.1 X

Coeficientes no Coeficientes Intervalo de confianza para

Entonces la varianza estimada es: