You are on page 1of 10

PRACTICA 8 REGRESIÓN LINEAL Y CORRELACIÓN

M. Gutiérrez-Ladrón de Guevara
27 de noviembre de 2017

REGRESIÓN LINEAL Y CORRELACIÓN


Cuando el objetivo del experimento es establecer si existe relación entre una variable dependiente y una o
más variables independientes, varios análisis estadísticos permiten evaluar si la relación es significativa.

El análisis de regresión se emplea para cuantificar la relación de dependencia de una variable con respecto a
otra. La variable independiente "x" es la variable bajo control y se supone que es medida sin error. La
variable dependiente "y", depende de la variable "x". Los requisitos que deben reunir los datos para poder
realizar el análisis son: 1) que la varianza de "y" sea homogénea en el intervalo de x; y 2) que la variable
dependiente tenga distribucion normal.

Antes de utilizar el análisis de regresión, es recomendable graficar, para verificar si hay evidencia de que la
relación entre "x" y "y" es lineal.

La hipótesis nula es Ho:  𝛽=0

y la hipótesis alternativa es Ha:  𝛽 ≠ 0

En caso de no rechazar Ho, la relación entre "y" y "x" no es significativa, y la ecuación obtenida no es un
modelo confiable para predecir el valor de "y".

Para el análisis de regresión se utiliza un modelo lineal, asignado a un objeto m:

m <- lm(y~x, data=data.frame)

Esto genera un objeto “m” con todos los resultados asociados al modelo lineal.

Esta instrucción (lm) puede utilizarse también para evaluar la relación de dependencia de la variable "y" con
respecto a dos o mas variables categóricas (ANOVA bifactorial), o la relación de "y" como función de dos o
más variables independientes (Regresión lineal múltiple).

Análisis de correlación

Evalúa la significancia de la asociación entre dos variables cuando no se puede afirmar de antemano que
una depende de la otra, aunque se observa que cambian de forma asociada una a la otra.

Si cuando aumenta "x", "y" también aumenta, la correlación es positiva. Si cuando aumenta "x", "y"
disminuye, la correlación es negativa. Si no hay correlación (r=0) , "x" y "y" no tienen un comportamiento
asociado.

Mediante los coeficientes de correlación se mide la fuerza de asociación entre las variables.

Coeficiente de correlación de Pearson, se utiliza cuando las variables tienen distribucion normal.

Coeficiente de correlación de Spearman, cuando son datos con otra distribución o en el caso de datos
cualitativos ordinales.
OBJETIVOS

• Revisar métodos para evaluar la significancia de la asociación entre dos variables utilizando el
programa R.

• Realizar e interpretar un análisis de regresión lineal: Obtener la ecuación, intervalos de confianza


para los parámetros y la prueba de hipotesis sobre la pendiente.

• Realizar e interpretar un análisis de correlación.

COMANDOS RELACIONADOS CON REGRESIÓN LINEAL Y CORRELACIÓN


m <- lm(y~x, data=archivo) modelo lineal
summary(m) resumen del modelo
anova(m) tabla de anova
coef(m) coeficientes de regresión , muestra el valor de a y b.
confint(m) intervalos de confianza de los coeficientes
plot(y~x, data=data.frame) grafica y vs x
abline(m) linea calculada a partir de la ecuación
predict(m, z, interval="confidence",level=0.95) calcula Intervalos de Confianza para “y”
cor.test(dataframe, method="pearson") coeficiente de correlación lineal
cor.test(dataframe, method="spearman") coeficiente de correlación de rangos
cor(dataframe, method="pearson") coeficiente de correlación lineal

DESARROLLO
Mediante el uso del programa R, se resolverán una serie de problemas.

En cada problema se trata de seguir tres pasos: 1. Realizar una gráfica que muestre los datos. 2. Escribir el
script para realizar el análisis. 3. Interpretar los resultados.

Primero eliminar archivos de la sesión anterior de R


rm(list=ls())

Verificar cual es la carpeta de trabajo:


getwd()

Establecer una nueva carpeta de trabajo:


setwd

EJERCICIO 1 REGRESIÓN LINEAL SIMPLE

Los siguientes datos son tasas de consumo de oxígeno de aves a distintas temperaturas ambientales:

Temperatura Consumo de oxígeno


(ºC) (ml/g/h)
-18 5.2
-15 4.7
-10 4.5
-5 3.6
0 3.4
5 3.1
10 2.7
19 1.8

  2  
(a) Calcular las constantes a y b para la regresión de tasa de consumo de oxígeno en función de la
temperatura
(b) Realizar la prueba de hipótesis para la pendiente.- Ho: 𝛽=0
(c) Obten el error estandar de los parámetros de la regresión.
(d) Calcula el coeficiente de determinación de la regresión. r2
(e) Calcula el Intervalo de confianza del 95% para la pendiente 𝛽 y la ordenada al origen.
(f) Calcula el Intervalo de confianza para el consumo de oxígeno cuando la temperatura es 12,15 y 18.

PASO 1 Crea dos vectores y únelos en un archivo dataframe


temperatura <- c(-18, -15, -10, -5, 0, 5, 10, 19)
consumo <- c(5.2, 4.7, 4.5, 3.6, 3.4, 3.1, 2.7,1.8)
aves <- data.frame(temperatura,consumo)

PASO 2 Grafica los datos mediante un diagrama de dispersión

plot(aves)  

PASO 3 Obtener la ecuación de la línea de regresión, las constantes a y b

m <- lm(consumo~temperatura, data=aves)


plot(consumo~temperatura, data=aves, pch=18,col="gray30",xlab="Temp (C)",
ylab="Consumo de oxigeno (ml/g/h)",xlim=c(-20,20), ylim=c(0,6))
abline(m, col="red")

  3  
summary(m)

##
## Call:
## lm(formula = consumo ~ temperatura, data = aves)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.31022 -0.07552 0.03168 0.11685 0.15099
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.471422 0.060123 57.74 1.81e-09 ***
## temperatura -0.087759 0.004993 -17.58 2.18e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1682 on 6 degrees of freedom
## Multiple R-squared: 0.9809, Adjusted R-squared: 0.9778
## F-statistic: 308.9 on 1 and 6 DF, p-value: 2.177e-06

PASO 4 Evaluar la significancia de la regresión con nivel de significancia de 0.05.


anova(m)

## Analysis of Variance Table


##
## Response: consumo
## Df Sum Sq Mean Sq F value Pr(>F)
## temperatura 1 8.7452 8.7452 308.93 2.177e-06 ***
## Residuals 6 0.1698 0.0283
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

PASO 5 Calcular los intervalos de confianza para pendiente y ordenada al origen


coef(m)

## (Intercept) temperatura
## 3.4714223 -0.0877587

  4  
confint(m)

## 2.5 % 97.5 %
## (Intercept) 3.32430603 3.61853853
## temperatura -0.09997604 -0.07554136

Obtener una estimación para valores de y, para x=12, 15 y 18


Por Intervalos de confianza de 95%

new <- data.frame(x = c(12,15, 18))


predict(m, new, interval="confidence",level=0.95, se.fit=T)

## $fit
## fit lwr upr
## 1 2.418318 2.196043 2.640593
## 2 2.155042 1.903917 2.406167
## 3 1.891766 1.609971 2.173560
##
## $se.fit
## 1 2 3
## 0.09083899 0.10262937 0.11516331
##
##
## $df
## [1] 6
##
## $residual.scale
## [1] 0.1682488

EJERCICIO 2 ANÁLISIS DE CORRELACIÓN LINEAL (Pearson)


Con los datos del archivo "airquality", evaluar si existe correlación significativa entre Temperatura y Ozono.
Utiliza una significancia de 0.05 para poner a prueba la hipotesis de no correlación.

Abrir el archivo de datos airquality del paquete datasets


library(“datasets”)

data("airquality")

PASO 1 Graficar
plot(airquality$Temp,airquality$Ozone, xlab="Temperatura",
ylab="Ozono", pch=20, col="steelblue")

  5  
PASO 2 Realizar el análisis de correlación lineal y calcular el coeficiente de correlación

cor.test(x,y, data=dataframe, method="pearson")

Prueba de hipótesis para evaluar la correlación entre Temperatura y Ozono


cor.test(airquality$Temp,airquality$Ozone, data=airquality, method="pearson")

##
## Pearson's product-moment correlation
##
## data: airquality$Temp and airquality$Ozone
## t = 10.418, df = 114, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.5913340 0.7812111
## sample estimates:
## cor
## 0.6983603

Concluir

EJERCICIO 3 Matriz de correlaciones de Pearson entre todas las variables de un archivo

Para el archivo airquality,

Primero eliminar las celdas vacías (NA) del archivo: airnew <- na.omit(airquality)

Segundo: la instrucción es cor(nombre del archivo de datos, method="pearson")

cor(airnew, method="pearson")  

  6  
EJERCICIO 4 Correlación de rangos

Se realizó un experimento para determinar si existe relación entre la agresividad de hermanos gemelos. Para
ello se seleccionaron 12 pares de gemelos idénticos y a cada uno se le aplicó una prueba de personalidad
para medir su tendencia a la agresividad. Los datos son los siguientes (a mayor puntuación mayor
agresividad): Utilice una prueba no paramétrica para evaluar la existencia de una correlación en los valores
de agresividad, con un nivel de significancia de 0.05.

1er gemelo 86 71 77 68 91 72 77 91 70 71 88 87

2º gemelo 88 77 76 64 96 72 65 90 65 80 81 72

PASO 1 Crear el archivo de datos, un vector para cada variable


g1 <- c(86, 71, 77, 68, 91, 72, 77, 91, 70, 71, 88, 87)
g2 <- c(88, 77, 76, 64, 96, 72, 65, 90, 65, 80, 81, 72)

PASO 2 Graficar
plot(g1, g2, pch=15, col="seagreen", main="  Valores de agresividad en gemelos identicos ",
xlab="gemelo 1", ylab="gemelo 2", cex=1.4)
grid(col="gray80")

PASO 3 Comando para el análisis de correlación de Spearman

comando: cor.test(x, y, data=dataframe, method="spearman")

cor.test(g1,g2, method ="spearman")

## Warning in cor.test.default(g1, g2, method = "spearman"): Cannot compute


## exact p-value with ties
## Spearman's rank correlation rho
##
## data: g1 and g2
## S = 75.661, p-value = 0.006413
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.7354509

EJERCICIO 5 Regresión lineal múltiple

En la tabla del archivo airquality se muestran datos de Ozono, Temperatura, Radiación Solar y Viento. El
objetivo es evaluar el efecto de las variables registradas sobre la producción de Ozono. Aplicando un
modelo de regresión lineal múltiple, obtener la mejor ecuación que relacione las variables involucradas.
m2 <- lm(y~u+v+w, data=archivo)
PASO 1 Definir cuál es la variable dependiente y cuáles las independientes
PASO 3 Generar el modelo de regresión lineal múltiple
m2 <- lm(Ozone~Solar.R+Wind+Temp, data=airnew)
summary(m2)
coef(m2)
confint(m2)
termplot(m2)

  7  
Actividades
PROBLEMA 1 La lignina es un compuesto presente en las plantas que interfiere con la biodegradación de la
materia orgánica. A continuación se presentan datos de porcentaje de biodegradación de materia orgánica
(residuos de papel, cartón y madera), y el porcentaje de lignina del material original.

Lignina Biodegradación
(% del peso relativa a 58°C
seco) (%)
0.2 100
20 24.3
27 10.6
25 30.8
5 97.5
33 36.7
21 64.0
12.9 74.7
12.5 79.7

(a) Determina las constantes a y b para la regresión y anota la ecuación obtenida


(b) Realiza la prueba de hipótesis para la pendiente.- Ho: β=0, Ha: β≠0 (𝛼=0.05)
(c) Determina el Intervalo de Confianza del 95% para la pendiente β y la ordenada en el origen.

PROBLEMA 2

Un grupo de biólogos que estudia a una especie de oso tomó los siguientes datos. Después de anestesiar a
los osos, los investigadores midieron las circunferencia (en cm) de los osos a la altura del pecho y los
pesaron (en kg). A continuación se dan los resultados para ocho osos macho. Con base en los resultados,
¿Con un nivel de significancia de 0.05, existe evidencia de que el peso de un oso está correlacionado con la
circunferencia de su pecho?

Circunferencia Peso
(cm) (kg)
66 41
114 156
137 189
124 158
104 119
124 163
112 151
48 15

  8  
HOJA DE RESPUESTAS
Hipótesis Resultados
Valor de la
nula e Valor Valor de (valor de r, o r2, ecuación de
Problema estadística
Hipótesis crítico p la recta, intervalos de
de prueba
alternativa confianza, etc.)
1

  9  
  10  

You might also like