Professional Documents
Culture Documents
En muchas aplicaciones estadísticas se deben resolver problemas que contienen un conjunto de variables y que sabe que
existe alguna asociación entre ellas. En este conjunto de variables muy a menudo se tiene una sola variable dependiente
(o respuesta) Y, que depende de una o más variables independientes (o de regresión) X1, X2, ... , Xk , como por ejemplo
el salario, depende de años de experiencia, grado de instrucción y sexo.
El estudio de la asociación donde se determina una relación funcional de la variable dependiente Y con respecto a una o
más variables independientes con el fin de predecir valores de Y, se llama Análisis de Regresión.
1. DEFINICIÓN:
Cuando hay una sola variable independiente el análisis de regresión es simple. El modelo de regresión simple lineal
relaciona dos variables de forma lineal:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝑢𝑖 𝑖 = 1, ⋯ , 𝑁
Donde:
- N es el tamaño de la población, número de observaciones disponibles de las variables de estudio (Y, X).
En total se plantean 4 suposiciones de regresión, con respecto al modelo de regresión simple. Estas suposiciones se pueden
plantear en términos de valores potenciales de y, o bien de manera equivalente, en términos de los valores potenciales del
término error.
Linealidad: El modelo es lineal en los coeficientes. Sin embargo, podemos permitir no linealidades en las variables
explicativas. Siendo los coeficientes 𝛽0 y 𝛽1constantes a lo largo de la población.
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝑢𝑖 𝑖 = 1, ⋯ , 𝑁
1
Normalidad: Los errores están distribuidos ∼ NID(0, 𝜎 2 )
• Probar significancia.
2
• Análisis de residuales (validación de supuestos).
• Bondad de Ajuste.
Una vez planteados los supuestos y después de especificar correctamente el modelo de regresión, podemos comenzar a
explorar con un gráfico o diagrama de dispersión. Es un gráfico que permite detectar la existencia de una relación entre
dos variables.
En la figura 1: (a), (b) y (e) los datos visualizan una relación lineal entre las variables X e Y. En las figuras (c) y (d) los
datos visualizan una relación, pero, una relación no lineal, y en la figura (f) los datos visualizan ninguna relación válida
entre las variables.
3
3.2. COEFICIENTE DE CORRELACIÓN DE PEARSON
Medida de la relación lineal entre dos variables aleatorias cuantitativas. Esta medida en si no considera a una variable como
independiente y a otra como dependiente, ya que no se trata de una prueba que evalúa la causalidad. La noción de causa-
efecto (independiente-dependiente) se puede establecer teóricamente, pero este coeficiente no considera dicha causalidad.
n n n
n xi y i ( xi )( y i )
rxy i 1 i i 1
n n
2
n n
i i
2 2
n x ( x i ) n y ( yi ) 2
i 1 i 1 i 1 i 1
• Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables
denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante.
• Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son independientes:
pueden existir todavía relaciones no lineales entre las dos variables.
• Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables
llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción constante.
Correlación Negativa
4
Correlación Positiva
Ausencia de Correlación r = 0
Un método muy utilizado por su sencillez y buenas propiedades es el método de mínimos cuadrados ordinarios: son
combinaciones lineales de las observaciones, son estimadores insesgados de los parámetros y tienen varianza mínima
(óptimos).
El estimador de MCO, de los parámetros 𝛽0 y 𝛽1 se obtiene de minimizar la suma de los residuos al cuadrado:
𝑁 𝑁 𝑁
𝑚í𝑛 𝑚í𝑛 𝑚í𝑛
∑ 𝑢̂𝑖2 = ̂ ̂ ∑(𝑌𝑖 − 𝑌̂𝑖 )2 = ̂ ̂ ∑(𝑌𝑖 − 𝛽̂0 − 𝛽̂1 𝑋𝑖 )2
𝛽̂0 𝛽̂1 𝛽0 𝛽1 𝛽0 𝛽1
𝑖=1 𝑖=1 𝑖=1
Luego de derivar respecto a cada parámetro, se obtiene el siguiente sistema de ecuaciones normales:
5
n n
y i 0 n 1 xi
i i 1
n n n
x y
i
i i 0 xi 1 xi2
i 1 i 1
S xy
Pendiente: ̂1
S xx
Donde
n
S xy ( xi x )( yi y )
i 1
n
S xx ( xi x ) 2
i 1
Si las suposiciones de regresión se han cumplido y SSRes es la suma de residuos cuadráticos, entonces:
𝑆𝑆𝑅𝑒𝑠
𝜎̂ = 𝑠 2 = √
𝑛−2
(𝑛 − 2)𝑀𝑆𝑅𝑒𝑠 (𝑛 − 2)𝑀𝑆𝑅𝑒𝑠
≤ 𝜎2 ≤
𝜒𝛼2⁄2, 𝑛−2 2
𝜒1−𝛼 ⁄2, 𝑛−2
6
3.5. INFERENCIAS ACERCA DE LOS COEFICIENTES DE REGRESIÓN.
Aunque a menudo las inferencias del parámetro α en base al valor estimado de a estimado de la muestra, carecen de
importancia práctica pues α es la ordenada en el origen y representa la intersección de Y cuando X = 0. Nos referiremos
primero a las inferencias acerca de la pendiente de regresión β, y luego trataremos ambas.
Antes de utilizar la ecuación de regresión muestral para realizar predicciones, se debe primero determinar si existe
realmente regresión poblacional. Si no existe regresión en la población, entonces, la pendiente poblacional β debería ser
igual a cero. Debido a variaciones muestrales, la pendiente de la regresión muestral b puede asumir valores positivos o
negativos, pero la pendiente poblacional β podría ser cero. Si es así, la ecuación de regresión muestral no se puede utilizar
para hacer predicciones válidas. A partir de los datos de la muestra, se va determinar si β es igual a cero o no lo es.
Para verificar si β = 0 se pueden utilizar tres métodos:
Intervalos de confianza,
Prueba de hipótesis y
Análisis de Varianza (ANVA).
El análisis de varianza es uno de los métodos que se utiliza probar la significación de la ecuación de regresión muestral.
Es una prueba F de alternativa bilateral.
Las hipótesis nula y alternativa en este caso son respectivamente:
H 0 : β = 0 contra H 1 : β ≠ 0
La estadística F de la prueba se obtiene de la siguiente identidad de sumas de cuadrados:
n n n
( yi y )2
i 1
( y i ŷ i ) 2
i 1
( ŷ
i 1
i y )2
n
SCT ( y i y ) 2 se denomina suma de cuadrados total, refleja la variabilidad de los valores de Y con respecto a la
i 1
media y .
n
SCE ( y i ŷ i ) 2 es la suma de cuadrados de los errores, o no explicada.
i 1
n
SCR ( ŷ i - y ) 2 se denomina suma de cuadrados explicado por la regresión, refleja la cantidad de variabilidad de los
i 1
SCR / 1 CMR
La variable aleatoria F definida por: F ~ F(1, n 2)
SCE / (n 2) CME
7
Dado el nivel de significación α, y los grados de libertad 1 y (n-2), en la tabla de probabilidades F, se encuentra el valor
critico F ( 1 – α, 1 , n – 2 )
Se rechaza la hipótesis nula H 0 : β = 0 , si el valor calculado de F, es mayor que el valor critico F ( 1 – α, 1 , n – 2 ). No se
rechaza H 0 en caso contrario.
La prueba de la hipótesis nula H.0: β = 0 se resume en la siguiente tabla de análisis de varianza (ANVA):
CMR
Regresión SCR 1 CMR = SCR / 1 F
CME
n
SCR b x i y i n( x )( y)
i 1
𝐻0 : 𝛽0 = 0 𝐻1 : 𝛽0 ≠ 0
𝛽̂0
𝑡0,𝛽0 =
𝑠𝑒(𝛽̂0 )
Siendo:
1 𝑥̅ 2
𝑠𝑒(𝛽̂0 ) = √𝑀𝑆𝑅𝑒𝑠 ( + )
𝑛 𝑆𝑥𝑥
8
Para la pendiente se tiene:
𝐻0 : 𝛽1 = 0 𝐻1 : 𝛽1 ≠ 0
𝛽̂1
𝑡0,𝛽1 =
𝑠𝑒(𝛽̂1 )
Siendo:
𝑀𝑆𝑅𝑒𝑠
𝑠𝑒(𝛽̂1 ) = √
𝑆𝑥𝑥
La 𝐻0 se rechaza si |𝑡0 | > 𝑡𝛼⁄2, 𝑛−2 o si la significancia p es menor de 0.05. Ya que trabajamos con sólo una variable
Después de haber decidido que existe regresión lineal simple poblacional o que la línea de regresión muestral es válida
para realizar predicciones, podemos utilizarla para:
Sea μ Y/X o el valor de la media μ Y/X cuando X = xo y sea ŷ o el valor de Yˆ0 a bX , cuando también X = xo (es decir
ŷ o es un valor de la variable Yˆ0 a b(x o ) ).
El intervalo de confianza del (1- α) x100% para la respuesta media μ Y/X o se obtiene mediante:
1 ( x x) 2 1 ( x x) 2
yˆ 0 t ( / 2,n 2) S n 0 Y / x0 yˆ 0 t ( / 2,n 2) S n 0
( xi x) 2 ( xi x) 2
n n
i 1 i 1
9
n n
Aquí, ( xi x) 2 xi2 n( x) 2
i 1 i 1
1 (𝑥0 − 𝑥̅ )2
𝐸(𝑦⁄𝑥0 ): 𝜇̂ 𝑦⁄𝑥0 ± 𝑡𝛼⁄2, 𝑛−2 √𝑀𝑆𝑅𝑒𝑠 ( + )
𝑛 𝑆𝑥𝑥
Sea y0 el valor individual de la variable Yˆ0 (xo ) , cuando X = xo y sea ŷ o el valor de Yˆ0 a bX , cuando X
= xo.
El intervalo de confianza del (1- α) x100% para una sola respuesta y0 se obtiene mediante:
1 ( x x) 2 1 ( x x) 2
yˆ 0 t (1 / 2,n 2) S 1 n 0 y 0 yˆ 0 t (1 / 2,n 2) S 1 n 0
( xi x ) 2 ( xi x ) 2
n n
i 1 i 1
1 (𝑥0 − 𝑥̅ )2
𝑦0 : 𝑦̂0 ± 𝑡𝛼⁄2, 𝑛−2 √𝑀𝑆𝑅𝑒𝑠 (1 + + )
𝑛 𝑆𝑥𝑥
Linealidad: Se evalúa de manera gráfica, específicamente gráficos de nubes de puntos de la variable respuesta con la
variable regresora. También formalmente mediante la prueba de Falta de Ajuste. La solución sería abandonar el modelo y
tratar de formular una ecuación más adecuada.
Normalidad: Podemos detectarla mediante un gráfico de probabilidad normal de los residuos. También mediante un test
de Kolmogorov-Smirnov sobre los residuos estandarizados. Una posible solución sería la eliminación de datos outliers.
Homocedasticidad: Evaluable a través de un examen visual de los residuos en el gráfico de dispersión de pronósticos
tipificados vs. residuos tipificados. Podríamos proceder a eliminar datos outliers.
Independencia: Detectar mediante cálculo de Durbin Watson y valoración visual de los residuos. La posible solución
sería corregir observaciones o eliminar datos.
10
3.7.2. Búsqueda de Observaciones Atípicas o demasiado influyentes
Los residuales cuyo valor es bastante mayor que los demás, digamos de 3 a 4 desviaciones estándar respecto a la media,
indican que hay valores atípicos potenciales en el espacio de y. Los valores atípicos son puntos que no son representativos
del resto de los datos. De acuerdo con su ubicación en el espacio de x, los valores atípicos pueden tener efectos de
moderados a graves sobre el modelo de regresión, esto se puede comprobar eliminando puntos y volviendo a ajustar la
ecuación de regresión. Las gráficas de residuales en función de 𝑦̂𝑖 y la gráfica de probabilidad normal son útiles para
identificar puntos atípicos. También mediante el examen de residuales escalados: residuales studentizados y los R de
student.
Los valores atípicos se deben investigar con cuidado, para ver si se puede encontrar una razón de su comportamiento
extraordinario. A veces, los valores atípicos son “malos” y se deben a eventos desacostumbrados, pero explicables
(medición o análisis incorrecto, registro incorrecto de datos o fallas del instrumento de medición). Si este es el caso se
debería corregir (si es posible) o eliminar del conjunto de datos, se hace notar que se debe contar con una fuerte evidencia
no estadística de que el valor atípico es malo para descartarlo.
También, los valores atípicos pueden resaltar inadecuaciones en el modelo, como la falla de tener buen ajuste con los datos
en cierta región del espacio de x.
La medida utilizada para medir la bondad de ajuste se llama coeficiente de determinación (muestral) y se define como:
𝑆𝑆𝑅𝑒𝑔 𝑆𝑆𝑅𝑒𝑠
𝑅2 = =1−
𝑆𝑆𝑇𝑜𝑡 𝑆𝑆𝑇
Es la ganancia obtenida al pasar de un modelo sin variable explicativa X, a otro que incluye ésta variable. Generalmente
es la proporción de la variabilidad observada de la variable respuesta Y que se ha podido explicar por incluir de forma
lineal en el modelo la variable explicativa X.
Observación: Cuando n es pequeño, el coeficiente de determinación R2 es sesgado positivamente. Para corregir este sesgo
se calcula el coeficiente de determinación ajustado R 2 que se define por:
CME
R2 1
CMT
donde CME = SCE / (n - 2) y CMT = SCT / (n – 1).
Cuando se halla la ecuación de regresión, es aconsejable calcular ambos coeficientes de determinación: R2 y R 2 .
11
3.8. VALIDEZ DEL MODELO
La validación adecuada de un modelo de regresión debe incluir un estudio de los coeficientes, para determinar si sus signos
y sus magnitudes son razonables. También se debe investigar la estabilidad de los coeficientes de regresión, es decir los
parámetros obtenidos con una nueva muestra. Por último una validación requiere investigar el desempeño del modelo en
predicción, teniendo en cuenta los modos de interpolación y extrapolación.
Análisis de los coeficientes del modelo y los valores predichos, incluyendo comparaciones con la experiencia, la
teoría física y otros modelos analíticos o resultados de simulación.
Recolección de nuevos datos (o datos frescos) con los cuales investigar el desempeño del modelo en predicción.
División de datos, es decir, dividir los datos en 2 partes: una parte son datos de estimación y otra parte son datos
de predicción. A esta división de datos se le llama validación cruzada.
Ejemplo 1. En la Empresa comercial ABC, se desea determinar la relación lineal simple entre la experiencia del vendedor
y las unidades vendidas durante un mes. Se seleccionan 5 vendedores al azar, los datos registrados se presentan a
continuación.
VENDEDOR Carlos Pedro José Juan Manuel
EXPERIENCIA (años): X 3 1 2 5 4
VENTAS (unidades): Y 9 5 7 14 10
Solución
12
14
12
10
Ventas
8
1 2 3 4 5
Experiencia
Figura 2
5 5 5 5
x i 15 ,
i 1
y i 45 ,
i 1
x i2 55
i 1
x y
i 1
i i 156 ,
x 3 , y9
n n n
n xi y i xi y i
5(156) (15)(45)
b i 1 i 1 i 1
2.1
n n
5(55) (15) 2
n xi2 ( xi ) 2
i 1 i 1
a y bx 9 2.1 3 2.7
13
c) El valor b = 2.1 de la pendiente indica que por cada año de experiencia, la venta se incrementa en 2.1 unidades.
Nota.- Utilizando el Software SPSS, nos proporciona el siguiente resultado para el mismo ejemplo 1.
Coeficientesa
La salida muestra el resultado de ajustar un modelo lineal para describir la relación entre Ventas y Experiencia. La ecuación
del modelo lineal ajustado es:
Ventas = 2.7 + 2.1 * Experiencia
d) Con los datos del ejemplo 1, calcular la desviación estándar muestral de la regresión (el error estándar de estimación).
Solución.
5 5
Del ejemplo1, se obtienen: n = 10, a = 2.7, b = 2.1 , y i 45 ,
i 1
x y
i 1
i i 156
X Y Ŷ ( Y Ŷ ) ( Y Ŷ ) 2
3 9 9 0.0 0.00
1 5 4.8 0.2 0.04
2 7 6.9 0.1 0.01
5 14 13.2 0.8 0.64
4 10 11.1 -1.1 1.21
Y ŶI 1.90
5
2
i
i 1
(y i ŷ i ) 2
1.90
S2 i 1
0.6334
n-2 3
14
Nota.
n n n
y 2
i - a y i - b x i y i
451 2.7 45 2.1 156 1.90
S2 i 1 i 1 i 1
0.6334
n-2 3 3
e) Con los datos del ejemplo 1, mediante el método de análisis de varianza probar la significancia de la ecuación de
regresión muestral, al nivel de significancia del 5%.
Solución.
1) Hipótesis : H 0 : β = 0 contra H 0 : β ≠ 0
CMR
3) Estadística de prueba : F ~ F(1, 3) , donde n = 5
CME
4) Región crítica: Para el nivel de significancia α = 0.05 y los grados de libertad 1 y 3, en la tabla F se encuentra el valor
critico F ( 0.95 , 1 , 3 ).= 10.1. Se rechaza H 0 si el valor calculado de F > 10.1. Se acepta en caso contrario.
n
SCR b x i y i n( x )( y) 2.1 156 5(3)(9) 44.1
i 1
SCE SCT SCR 46 - 44.1 1.9
15
6.- Decisión.- Dado que F = 69.624 > 10.1, se rechaza H 0. Estos resultados reflejan la validez del modelo de regresión
poblacional entre años de experiencia y ventas.
Nota.
1. Observar que la estimación de la varianza σ2 es S2 = CME = 0.6334.
2. Mediante el paquete Estadístico SPSS, resulta el siguiente análisis de varianza para β = 0.
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 44.100 1 44.100 69.632 .004 a
Residual 1.900 3 .633
Total 46.000 4
a. Variables predictoras: (Constante), E xperiencia
b. Variable dependiente: Ventas
Puesto que el valor P-value = 0.004 < 0.05, se concluye que existe una relación estadísticamente significativa entre Ventas
y Experiencia en los vendedores.
b) El intervalo de confianza del 95% para una sola respuesta y0 cuando x0=6.
g) Con los datos del ejemplo 1, calcule el coeficiente de determinación R2 . Interprete su resultado.
Solución. Del ejemplo 1 resultan:
SCT = 46.0 , SCE = 44.1 , SCE = SCT – SCR = 46.0 – 44.1 = 1.9
Entonces:
SCE 1.9
R2 1 1 0.9587 y
SCT 46.0
CME 1.9 / 3
R2 1 1 0.9450
CMT 46.0 / 4
El valor de R y R 2 se interpretan en la misma forma. Así, R2 = 0.9587, significa que el 95.87% de la variación de la
2
variable dependiente (Ventas) es explicada por la regresión lineal. Otra forma de interpretar es que el ajuste de la recta de
regresión a los puntos de la muestra es muy bueno.
Nota. Mediante el software SPSS, se obtiene el siguiente resultado:
16
Resumen del modelo
El valor del coeficiente de correlación r = 0.97913, indica a una relación relativamente fuerte entre las variables
(Experiencias y Ventas).
Este resultado, también nos proporciona el error estándar de estimación igual a 0.795822.
Ejemplo 2:
Supongamos que nos interesa conocer la relación que hay entre el peso y la presión sistólica de 50 hombres seleccionados
al azar en edades de 25 a 30.
Se trata de cuantificar la influencia que tiene el peso (libras) de una persona en la determinación de su presión sistólica
mediante un modelo de regresión lineal simple.
Utilizando el Software estadístico PASW v18 (antes SPSS). Primero, con un gráfico de dispersión, exploramos la relación
entre peso (libras) y presión sistólica.
Se observa que los datos tienden a formar o a reunirse en una línea recta creciente. Luego se calcula el coeficiente de
correlación de Pearson que indica la dirección y la intensidad de la relación lineal.
17
Correlaciones
peso_libras presion_sistólica
N 50 50
presion_sistólica Correlación de Pearson .801** 1
N 50 50
El coeficiente es positivo (a mayor peso mayor presión sistólica), con un valor de 0.8 que indica una correlación
considerable positiva.
Procedemos a realizar el análisis de regresión lineal usando el PASW para obtener las estimaciones de los parámetros 𝛽0 =
70.32 y 𝛽1 = 0.43, la significancia (los parámetros son significativamente diferentes de cero) y los intervalos de confianza
(no contienen a cero). Luego tenemos el análisis de varianza en la tabla ANOVA (pendiente diferente de cero). También
obtenemos la medida de bondad de ajuste que es el coeficiente de determinación con un valor de 0.65 e indica que el 65%
de la variabilidad de presión sistólica es explicada por la variable peso, el error típico de la estimación (8.561) y el cálculo
de Durbin Watson (1.37).
Coeficientesa
ANOVAb
Total 9830.000 49
dimension0
1 .801a .642 .635 8.561 1.370
18
Para evaluar el supuesto de Linealidad observamos el gráfico de dispersión peso (libras) y presión sistólica, descrito arriba.
Según el gráfico parece indicar una relación aproximadamente lineal, pero formalmente podemos realizar la prueba de
falta de ajuste que se presenta en la tabla.
ANOVAb
Modelo Suma de cuadrados gl Media cuadrática F Sig.
Regresión 6312.285 1 6312.28 86.133 .000
Residual 3517.715 48 73.29
1 (falta de ajuste) 2982.05 39 76.46 1.28468904 0.363
(error puro) 535.67 9 59.52
Total 9830 49
Como la significancia es mayor que 0.05 se acepta la hipótesis de que el modelo tentativo describe a los datos en forma
lineal.
El supuesto de Normalidad, puede ser evaluado con un histograma de residuos tipificados (gráfico) o con un gráfico de
probabilidad normal de los residuos (gráfico). También mediante un test de Kolmogorov-Smirnov sobre los residuos
estandarizados en el cual se acepta el supuesto de Normalidad.
19
Pruebas de normalidad
Kolmogorov-Smirnova Shapiro-Wilk
La Homocedasticidad es evaluable a través de un examen visual de los residuos en el gráfico de dispersión de pronósticos
tipificados vs. residuos tipificados. Los residuos y los pronósticos no parecen ser independientes (esto se verificará más
adelante con Durbin Watson) pues parecen seguir un patrón cuadrático. Parece que la varianza no es homogénea, parece
que conforme va aumentando el valor de pronóstico va disminuyendo la dispersión de los residuos y se ubican hacia abajo.
20
La Independencia se evalúa mediante el cálculo de Durbin Watson (DW) y valoración visual de los residuos (grafico). El
estadístico DW considera que oscila entre 0 y 4. Podemos asumir independencia entre los residuos cuando DW toma
valores entre 1.5 y 2.5. Menores a 2 indican autocorrelación positiva y los mayores a 2 indican autocorrelación negativa.
Como DW tiene valor 1.37, indica que hay una autocorrelación positiva entre los residuos.
4. REGRESIÓN NO LINEAL
En muchos casos cuando los valores en parejas de las variables X e Y no se ajustan a una línea recta, se puede conseguir
una relación lineal mediante una transformación de estos valores. A continuación, se dan algunas ecuaciones no lineales y
su transformación lineal
SOLUCION.
La transformación a la regresión lineal es:
Y ' A' B' X '
Donde:
Y log Y , X log X , A log A, B B
22
s X 'Y ' 0.608
Además, r 0.79.
s X ' sY (1.068)(0.7196)
23