Professional Documents
Culture Documents
MARTIN DE PORRES
Análisis de
Regresión
y Correlación
BIOESTADISTICA
Prof.: DR. LUIS ROBLE ALEMAN 2005
1. Introducción
En ciencias de la salud y en otras áreas
con mucha frecuencia conviene saber
algo de la fuerza o intensidad de la
relación entre variables como: edad y
presión arterial, remuneración mensual y
rendimiento en el trabajo, talla y peso,
ingreso familiar y gastos médicos, edad y
frecuencia cardiaca, edad y talla, etc;
observar que estos ejemplos involucran
variables numéricas medidas en escala
de intervalo o de razón.
Cuando tanto X como Y son variables
aleatorias, se tiene lo que se conoce
como modelo de correlación.
Típicamente, bajo el modelo de
correlación se selecciona una muestra
probabilística de unidades de asociación
(que pueden ser personas, lugares,
animales, puntos en el tiempo o
cualquier otro elemento) luego, de cada
una de las unidades se toma una
medida de X y una medida de Y.
Una correlación puede ser positiva
(cuando, por ejemplo tanto X como Y
aumentan), o negativa (cuando por
ejemplo, al aumentar una variable la
otra disminuye). Por otra parte, si la
variación de X y la variación de Y no se
corresponden en absoluto, entonces no
existe ninguna asociación y por tanto,
ninguna correlación, entre las dos
variables.
2. Diagrama de puntos
Y
Xi Yi
X1 Y1
X2 Y2
.
.
.
Xn Yn
X
0
3. Coeficiente de correlación de Pearson
n ∑ xy (∑ x)(∑ y)
r=
(n∑ x2) (∑ x)2 (n∑ y2) (∑ y)2
El rango para r es:
-1 ≤ r ≤ 1
r2 = coeficiente de determinación
Guía para la interpretación de r:
Valor de r Interpretación
0.00 Ausencia de correlación lineal
± 0.1 a ± 0.19 Correlación lineal insignificante
n 2
t0 sigue una distribución t de Student con (n-2) grados de
t0 = r
libertad, si Ho es verdadera.
x 2
1 r
Ejemplo 1:
Se tomó información en cuanto a la talla
(cm) y peso (Kg) de 10 alumnos del
primer año de medicina el día 11 de
setiembre del 2005.
TALLA X 150 155 180 160 170 165 185 175 160 165
(cm)
PESO Y 55 50 85 65 75 60 80 70 65 60
(kg)
Se desea:
a. Obtener el diagrama de puntos
b. Calcular el coeficiente de correlación
de Pearson e interpretar el valor
c. Determinar la significación estadística
del coeficiente de correlación de
Pearson (r)
d. Obtener e interpretar el coeficiente de
determinación
Solución:
a. Diagrama de puntos:
y 100
80
60
40
20
0
120 160 200
x
b. Coeficiente de correlación:
De los datos, obtenemos lo siguiente:
n = 10 Σx=1665 Σy=665
Σxy=111700 Σx2=278325 Σy2=45325
ΣxΣy=1107225 (Σx)2=2772225 (Σy)2=442225
nΣxy=1117000 nΣx2=2783250 nΣy2=453250
9775
r = ________________ = 0.886621315
√(11025)(11025)
r ≅ 0.89
Interpretación:
Existe una alta correlación lineal directa entre
las dos variables
c. Significación estadística de r
Ho: ρ =0
H1: ρ ≠ 0
n 2
t0 = r x
1 r2
10 2 8
t 0 = 0.89 x 2 = 0.89 x
1 (0.89 ) 0.2079
to = 5.52
to = t(10-2) = t(8) = 5.52
d. Coeficiente de determinación:
r2 = (0,89)2 = 0,79 = 79%
El 79 % de la variabilidad total de los pesos de
los alumnos está siendo explicada por la relación
lineal existente entre talla y peso.
Análisis de Regresión
Objetivo
Estudio de la relación funcional entre dos variables.
Establecer una relación cuantitativa entre dos o más
variables relacionadas.
Se trata de PREDECIR y/o EXPLICAR el valor de
una variable (v. Dependiente), dado el valor de otra(s)
variable(s) relacionada(s) (v. Independiente(s)).
Las variables X e Y deben ser de naturaleza
cuantitativa y de preferencia continua.
Regresión Lineal Simple
•Para resolver el problema tenemos que
AJUSTAR una línea entre los puntos
observados, a fin de usarla para predecir el
valor de Y (variable dependiente) a partir de
un valor conocido de X (variable
independiente).
•Para cada valor de X hay una subpoblación
de valores Y.
•Cada subpoblación de los valores de Y tiene
distribución normal.
Línea de Regresión
PacienteEdad PS
1 22 131
2 23 128
3 24 116
4 27 106
5 28 114
… … …
33 81 217
Análisis de Regresión
Objetivo
Estudio de la relación funcional entre dos variables.
Establecer una relación cuantitativa entre dos o más
variables relacionadas.
Se trata de PREDECIR y/o EXPLICAR el valor de
una variable (v. Dependiente), dado el valor de otra(s)
variable(s) relacionada(s) (v. Independiente(s)).
Las variables X e Y deben ser de naturaleza
cuantitativa y de preferencia continua.
Regresión Lineal Simple
•Para resolver el problema tenemos que
AJUSTAR una línea entre los puntos
observados, a fin de usarla para predecir el
valor de Y (variable dependiente) a partir de
un valor conocido de X (variable
independiente).
•Para cada valor de X hay una subpoblación
de valores Y.
•Cada subpoblación de los valores de Y tiene
distribución normal.
Línea de Regresión
PacienteEdad PS
1 22 131
2 23 128
3 24 116
4 27 106
5 28 114
… … …
33 81 217
Diagrama de Dispersión
Según el diagrama de
dispersión, se espera
una relación positiva
o directa entre ambas
variables.
Modelo de regresión:
y =a+bx
Cálculos Estadísticos
Variable dependiente: la presión sistólica
Variable independiente: la edad
n = 33 Σx = 1542 (sumatoria de las edades)
Σy = 4575 (sumatoria de las presiones)
Σxy = 223.144 (productos cruzados)
Σx2 = 79.176 Σy2 = 656.481
x = 46,73 y = 138,64
Σ(x – x)2 = Σx2 – (Σx)2 / n = 79.716 – (1542) 2 / 33 = 7662,6
Σ(y – y)2 = Σy2 – (Σy)2 / n = 656.48116 – (4575) 2 / 33 = 22.219,6
Σ(x – x ) (y – y) = Σxy – (Σx)(Σy) /n = 223.144 – (1542)(4575)/33
= 9.366,7
Estimación de la Recta de Regresión
∑(x - x) (y - y)
b = - - -- - - - - - - - - - - - - = 936 6,7 / 7662,6 = 1.22 mm Hg / año de edad
∑(x - x) 2
y = a + bx
a=y- b
x = 138,64 - (1,22)(46,73) = 81,54
y = 81,54 + 1,22 x
Que significa:
• Por cada año de incremento en la
edad la presión aumenta en
promedio en 1,22 mmHg.
• Es importante interpretar los
resultados obtenidos en función de
las unidades en que se encuentran
expresadas nuestras variables en
estudio (y).