Professional Documents
Culture Documents
M. Gutiérrez-Ladrón de Guevara
27 de noviembre de 2017
El análisis de regresión se emplea para cuantificar la relación de dependencia de una variable con respecto a
otra. La variable independiente "x" es la variable bajo control y se supone que es medida sin error. La
variable dependiente "y", depende de la variable "x". Los requisitos que deben reunir los datos para poder
realizar el análisis son: 1) que la varianza de "y" sea homogénea en el intervalo de x; y 2) que la variable
dependiente tenga distribucion normal.
Antes de utilizar el análisis de regresión, es recomendable graficar, para verificar si hay evidencia de que la
relación entre "x" y "y" es lineal.
En caso de no rechazar Ho, la relación entre "y" y "x" no es significativa, y la ecuación obtenida no es un
modelo confiable para predecir el valor de "y".
Esto genera un objeto “m” con todos los resultados asociados al modelo lineal.
Esta instrucción (lm) puede utilizarse también para evaluar la relación de dependencia de la variable "y" con
respecto a dos o mas variables categóricas (ANOVA bifactorial), o la relación de "y" como función de dos o
más variables independientes (Regresión lineal múltiple).
Análisis de correlación
Evalúa la significancia de la asociación entre dos variables cuando no se puede afirmar de antemano que
una depende de la otra, aunque se observa que cambian de forma asociada una a la otra.
Si cuando aumenta "x", "y" también aumenta, la correlación es positiva. Si cuando aumenta "x", "y"
disminuye, la correlación es negativa. Si no hay correlación (r=0) , "x" y "y" no tienen un comportamiento
asociado.
Mediante los coeficientes de correlación se mide la fuerza de asociación entre las variables.
Coeficiente de correlación de Pearson, se utiliza cuando las variables tienen distribucion normal.
Coeficiente de correlación de Spearman, cuando son datos con otra distribución o en el caso de datos
cualitativos ordinales.
OBJETIVOS
• Revisar métodos para evaluar la significancia de la asociación entre dos variables utilizando el
programa R.
DESARROLLO
Mediante el uso del programa R, se resolverán una serie de problemas.
En cada problema se trata de seguir tres pasos: 1. Realizar una gráfica que muestre los datos. 2. Escribir el
script para realizar el análisis. 3. Interpretar los resultados.
Los siguientes datos son tasas de consumo de oxígeno de aves a distintas temperaturas ambientales:
2
(a) Calcular las constantes a y b para la regresión de tasa de consumo de oxígeno en función de la
temperatura
(b) Realizar la prueba de hipótesis para la pendiente.- Ho: 𝛽=0
(c) Obten el error estandar de los parámetros de la regresión.
(d) Calcula el coeficiente de determinación de la regresión. r2
(e) Calcula el Intervalo de confianza del 95% para la pendiente 𝛽 y la ordenada al origen.
(f) Calcula el Intervalo de confianza para el consumo de oxígeno cuando la temperatura es 12,15 y 18.
plot(aves)
3
summary(m)
##
## Call:
## lm(formula = consumo ~ temperatura, data = aves)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.31022 -0.07552 0.03168 0.11685 0.15099
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.471422 0.060123 57.74 1.81e-09 ***
## temperatura -0.087759 0.004993 -17.58 2.18e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1682 on 6 degrees of freedom
## Multiple R-squared: 0.9809, Adjusted R-squared: 0.9778
## F-statistic: 308.9 on 1 and 6 DF, p-value: 2.177e-06
## (Intercept) temperatura
## 3.4714223 -0.0877587
4
confint(m)
## 2.5 % 97.5 %
## (Intercept) 3.32430603 3.61853853
## temperatura -0.09997604 -0.07554136
## $fit
## fit lwr upr
## 1 2.418318 2.196043 2.640593
## 2 2.155042 1.903917 2.406167
## 3 1.891766 1.609971 2.173560
##
## $se.fit
## 1 2 3
## 0.09083899 0.10262937 0.11516331
##
##
## $df
## [1] 6
##
## $residual.scale
## [1] 0.1682488
data("airquality")
PASO 1 Graficar
plot(airquality$Temp,airquality$Ozone, xlab="Temperatura",
ylab="Ozono", pch=20, col="steelblue")
5
PASO 2 Realizar el análisis de correlación lineal y calcular el coeficiente de correlación
##
## Pearson's product-moment correlation
##
## data: airquality$Temp and airquality$Ozone
## t = 10.418, df = 114, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.5913340 0.7812111
## sample estimates:
## cor
## 0.6983603
Concluir
Primero eliminar las celdas vacías (NA) del archivo: airnew <- na.omit(airquality)
cor(airnew, method="pearson")
6
EJERCICIO 4 Correlación de rangos
Se realizó un experimento para determinar si existe relación entre la agresividad de hermanos gemelos. Para
ello se seleccionaron 12 pares de gemelos idénticos y a cada uno se le aplicó una prueba de personalidad
para medir su tendencia a la agresividad. Los datos son los siguientes (a mayor puntuación mayor
agresividad): Utilice una prueba no paramétrica para evaluar la existencia de una correlación en los valores
de agresividad, con un nivel de significancia de 0.05.
1er gemelo 86 71 77 68 91 72 77 91 70 71 88 87
2º gemelo 88 77 76 64 96 72 65 90 65 80 81 72
PASO 2 Graficar
plot(g1, g2, pch=15, col="seagreen", main="
Valores de agresividad en gemelos identicos ",
xlab="gemelo 1", ylab="gemelo 2", cex=1.4)
grid(col="gray80")
En la tabla del archivo airquality se muestran datos de Ozono, Temperatura, Radiación Solar y Viento. El
objetivo es evaluar el efecto de las variables registradas sobre la producción de Ozono. Aplicando un
modelo de regresión lineal múltiple, obtener la mejor ecuación que relacione las variables involucradas.
m2 <- lm(y~u+v+w, data=archivo)
PASO 1 Definir cuál es la variable dependiente y cuáles las independientes
PASO 3 Generar el modelo de regresión lineal múltiple
m2 <- lm(Ozone~Solar.R+Wind+Temp, data=airnew)
summary(m2)
coef(m2)
confint(m2)
termplot(m2)
7
Actividades
PROBLEMA 1 La lignina es un compuesto presente en las plantas que interfiere con la biodegradación de la
materia orgánica. A continuación se presentan datos de porcentaje de biodegradación de materia orgánica
(residuos de papel, cartón y madera), y el porcentaje de lignina del material original.
Lignina Biodegradación
(% del peso relativa a 58°C
seco) (%)
0.2 100
20 24.3
27 10.6
25 30.8
5 97.5
33 36.7
21 64.0
12.9 74.7
12.5 79.7
PROBLEMA 2
Un grupo de biólogos que estudia a una especie de oso tomó los siguientes datos. Después de anestesiar a
los osos, los investigadores midieron las circunferencia (en cm) de los osos a la altura del pecho y los
pesaron (en kg). A continuación se dan los resultados para ocho osos macho. Con base en los resultados,
¿Con un nivel de significancia de 0.05, existe evidencia de que el peso de un oso está correlacionado con la
circunferencia de su pecho?
Circunferencia Peso
(cm) (kg)
66 41
114 156
137 189
124 158
104 119
124 163
112 151
48 15
8
HOJA DE RESPUESTAS
Hipótesis Resultados
Valor de la
nula e Valor Valor de (valor de r, o r2, ecuación de
Problema estadística
Hipótesis crítico p la recta, intervalos de
de prueba
alternativa confianza, etc.)
1
9
10