Professional Documents
Culture Documents
Y REGRESIN LINEAL
SIMPLE
APLICACIONES
Dr. Christian Acosta Villegas
cacostav@usmp.pe
Bioestadstica 2015
Martes 26 de mayo del 2015
TEMAS A TRATAR
Diagrama de dispersin
Correlacin
Coeficiente de correlacin de Pearson (r)
Regresin
Ecuacin de regresin lineal
Datos Cuantitativos
Distribucin
Normal
Distribucin
Anormal (NON)
Datos Cualitativos
(Dicotmica o
Politmica)
Comparar 2 grupos
- T No pareada
(variable independiente: - T pareada
dicotmica)
- MannWhitney
- Wilcoxon
- Chi-cuadrado
- Exacta de Fisher
Comparar 3 o ms
grupos (variable
independente:
politmica)
- ANOVA
- Kruskal Wallis
- Friedman
- Chi-cuadrado
- Exacta de Fisher
Asociacin entre 2
variables (variable
independiente:
continua)
- Correlacin de
Pearson
- Correlacin
de Spearman
Asociacin entre 3 o
ms (variable
independiente:
continua)
- Regresin
lineal mltiple
- Regresin
logstica mltiple
Datos Cuantitativos
Distribucin
Normal
Distribucin
Anormal (NON)
Datos Cualitativos
(Dicotmica o
Politmica)
Comparar 2 grupos
- T No pareada
(variable independiente: - T pareada
dicotmica)
- MannWhitney
- Wilcoxon
- Chi-cuadrado
- Exacta de Fisher
Comparar 3 o ms
grupos (variable
independente:
politmica)
- ANOVA
- Kruskal Wallis
- Friedman
- Chi-cuadrado
- Exacta de Fisher
Asociacin entre 2
variables (variable
independiente:
continua)
- Correlacin de
Pearson
- Correlacin
de Spearman
Asociacin entre 3 o
ms (variable
independiente:
continua)
- Regresin
lineal mltiple
- Regresin
logstica mltiple
ACLARACIONES
Las pruebas que han aprendido hasta ahora sirven
para comprar dos o ms grupos entre ellos. En
estos casos se ha tratado de determinar si existe o
no una asociacin entre el grupo al cual se
pertenece y la variable de interes.
Pero tambin: muchas veces vamos a estar
interesados en evaluar si es que existe una
asociacin entre dos variables continuas.
Ejemplo clsico: el peso de una persona est
relacionado con su talla?
DIAGRAMA DE
DISPERSIN
EJEMPLO
EJEMPLO
EJEMPLO
Se tienen datos de 30 pacientes sanos a quienes se
les realiz resonancias magnticas, obteniendo de
esta manera las fracciones del parnquima cerebral
de cada uno de ellos. Se cuenta tambin entre los
datos obtenidos la edad de los 30 pacientes.
Edad
FPC
39 48 52 56 51 54 38 29 20 ...X30
0.81 0.77 0.78 0.73 0.79 0.75 0.80 0.98 0.85 ...Y30
Qu se debe hacer?
EJEMPLO
Edad
FPC
39 48 52 56 51 54 38 29 20 ...X30
0.81 0.77 0.78 0.73 0.79 0.75 0.80 0.98 0.85 ...Y30
EJEMPLO
Existe un patrn de lnea
recta o asociacin?
El patrn o asociacin
va hacia arriba o cuesta
abajo?
Estn los valores muy
agrupados en el patrn o
muy separados?
Existen
desviaciones
notorias en el patrn?
EJEMPLO
Se observa alguna
relacin entre ambas
variables? (asociacin)
A la edad de 40 aos,
cul ser el FPC?
(prediccin)
CORRELACIN
CORRELACIN
Definicin: el grado en el cual dos variables
continuas estn relacionadas de manera
linear, y la medicin de intesidad de dicha
relacin.
Correlacin Positiva mientras una variable
aumenta, la otra variable tambin aumenta
(Pendiente positiva)
Correlacin Negativa mientras una variable
aumenta, la otra disminuye (Pendiente negativa)
NoNegative
correlation
(quadratic)
correlation
Positive
correlation
No correlation
18
12
12
10
16
9
10
10
14
8
12
887
6
10
665
8
4
4
46
3
4
222
2
1
000
000
22
22
44
4
6
66
8
6 88
10
810
10
12
12
10
12
CORRELACIN
Hay dos medidas que se usan para describir la
correlacin:
El coeficiente de correlacin:
(parametro).
El coeficiente de determinacin.
(estadstico)
162
154
180
158
171
169
166
176
163
...X30
61
60
78
62
60
60
54
84
68
...Y30
PESO
80
70
60
50
40
30
140
150
160
170
TALLA
180
190
200
CORRELACIN DE PEARSON
El coeficiente de correlacin lineal de Pearson indica
si los puntos en el diagrama tienen una tendencia a
disponerse alineadamente (relacin lineal).
Siendo este el caso, indica tambin el grado de
relacin y el sentido (relacin directa o inversa). Este
coeficiente se halla con la siguiente frmula:
Talla (cm)
162
154
180
158
171
169
166
176
163
...X30
Peso (kg)
61
60
78
62
60
60
54
84
68
...Y30
61
60
Yn
X2
Y2
XY
26244
23716
Xn2
3721
3600
Yn2
9882
9240
(Xn )(Yn)
X2
Y2
XY
INTERPRETACIN DEL
COEFICIENTE DE CORRELACIN
El valor del coeficiente de correlacin (r) va a indicar
el sentido y la intensidad de la relacin entre
variables (X e Y).
A) SENTIDO
RELACIN DIRECTA
El valor del coeficiente r es positivo, se cumple que:
A los valores de X mayores que la media le corresponden
valores de Y tambin mayores que la media.
A los valores de X menores que la media le corresponden
valores de Y tambin menores que la media.
RELACIN INVERSA
El valor del coeficiente r es negativo, se cumple que:
A los valores de X mayores que la media le corresponden
valores de Y menores que la media.
A los valores de X menores que la media le corresponden
valores de Y mayores que la media.
B) INTENSIDAD
r= +1
r = 0.5
CORRELACIN POSITIVA DBIL
r= -1
r= -0.5
Fuerte
Negativa
-1 -0,9
Perfecta
Negativa
Moderada
Negativa
-0,5
Dbil
Negativa
Dbil
Positiva
0
No existe
correlacin
Moderada
Positiva
0,5
Fuerte
Positiva
0,9
1
Perfecta
Positiva
INCORRELACIN
En el caso de que el coeficiente de correlacin sea
cero (r=0) NO EXISTE RELACIN ENTRE
VARIABLES.
Es decir, para valores de X por encima de la media
se tienen valores de Y por encima y por debajo en
proporciones similares.
PROPIEDADES DEL
COEFICIENTE DE RELACIN
Es adimensional
Slo toma valores en [-1,1]
Si r=0 las variables son incorrelacionadas
Relacin lineal perfecta entre dos variables r=+1
o r=-1.
Cuanto ms cerca est r de +1 o -1 mejor ser el
grado de relacin lineal.
SIGNIFICANCIA ESTADSTICA:
PRUEBA DE HIPTESIS
El valor del coeficiente de correlacin (r) determina si existe
una relacin lineal entre las variables, sin embargo, no indica
si esta relacin es estadsticamente significativa .
Para ello se aplica la prueba de hiptesis del parmetro r
(rho).
La hiptesis nula (H o ) establece que no existe una relacin, es
decir, que el coeficiente de correlacin ( r) es igual a 0.
La hiptesis alterna (H 1 ) propone que s existe una relacin
significativa por lo que r debe ser diferente a 0.
H o: r = 0
H 1: r 0
Bilateral
ESTADSTICO DE PRUEBA
El estadstico de prueba que revela si la hiptesis
nula (H o ) es o no verdadera es el siguiente: (ver tabla
T)
EJEMPLO
Se tienen 2 mtodos distintos para la medicin de la
presin sistlica de 25 pacientes con hipertensin.
Se puede establecer que existe una relacin lineal
significativa entre ambos mtodos?
Paciente
1
2
3
4
...25
TOTAL
Mtodo I
132
138
144
146
220
4440
Mtodo II
130
134
132
140
202
4172
X2
17424
19044
20736
21316
48400
808408
Y2
16900
17956
17424
19600
40804
710952
XY
17160
18492
19008
20440
44440
757276
X2
Y2
XY
4440
4172
808408
710952
757276
EJEMPLO
Primero se debe hallar el coeficiente de correlacin
de Peason (r)
X2
Y2
XY
4440
4172
808408
710952
757276
r= 0.95
El coeficiente de correlacin indica una relacin
lineal directa intensa
EJEMPLO
Teniendo un r= 0.95, se procede a plantear la prueba
de hiptesis del parmetro r:
H o: r = 0
H 1: r 0
El nivel de significancia no se indica, por lo tanto se
considera que es 0.05.
DECISIN Y CONCLUSIN
Para determinar si se rechaza o no la hiptesis nula (H o ), se
compara el valor de t c con el valor hallado en la tabla (t n-2 )
segn el nivel de significancia y el grado de libertad.
tc = 14.59
vs.
tt = 2.069
REGRESIN
REGRESIN
El anlisis de regresin es til para averiguar la
forma probable de las relaciones entre las variables,
y el objetivo final, cuando se emplea este mtodo de
anlisis, es predecir o estimar el valor de una
variable que corresponde al valor dado de otra
variable.
VARIABLES X E Y
X= variable independiente, bajo el control del
investigador.
Los valores de X son seleccionados previamente por el
investigador, de modo que en la recoleccin de datos estos no
pueden variar.
Y= variable dependiente.
Se habla de regresin de Y sobre X.
ECUACIN DE REGRESIN
Lo que el investigador desea es encontrar una lnea que
pueda predecir lo que le sucede a Y con cada cambio de X.
Esta ecuacin describe la relacin real entre las variables X e
Y.
Como es una relacin lineal, dicha ecuacin ser la ecuacin
de una recta:
Y= a +bX
La informacin tiene que ser presentada con un diagrama
de dispersin.
ECUACIONES LINEALES
SIMPLES
En una ecuacin como Y = 30 + 3X, el valor de Y depende del
valor que toma X, por eso a Y se le llama variable dependiente,
y a X se le llama variable independiente.
Y = a + b X
Variable
Dependiente
Variable
Independiente
Y
o
o
o
o
X
La ecuacin general Y = a + bX se llama ecuacin de regresin y
permite estimar o predecir los valores de Y.
ECUACIONES LINEALES
SIMPLES
Si se tienen dos variables, como X e Y, que estn
relacionadas, se puede expresar de la siguiente manera:
Y = 3 + 1,5X ( Y= a +bX )
Al conocer la ecuacin se puede:
a) Calcular el valor de Y para cualquier valor dado de X.
b) Conocer el cambio en Y, cuando X vara en 1.
Valor
calculado de Y
4,5
6,0
7,5
9,0
10,5
Cambio
de Y
1,5
1,5
1,5
1,5
GRFICA DE LA ECUACIN
Ejemplo: Y = 3 + 1,5X
X
Y
1
4 ,5
2
6 ,0
3
7 ,5
4
9 ,0
5
1 0 ,5
.
.
.
.
.
(5,10.5)
(4,9)
(3,7.5)
(2,6)
(1,4.5)
ECUACIONES LINEALES
SIMPLES
El aumento en Y, cuando X vara en una unidad , est
dado por el coeficiente de X .
Ejemplo:
En Y = 10 + 2X
cuando X aumenta en 1, Y aumenta en 2
En Y = 5 - 0,8X
cuando X aumenta en 1, Y disminuye en 0,8
TIPOS DE RELACIONES
Cuando cambios en X provoca cambios en Y en igual
sentido (aumentos o disminuciones), las variables
estn directamente relacionadas. Se observa el
signo +.
Y
o
Ejemplo:
o
o
o
o
o
o
Y = 30 + 5X
X
TIPOS DE RELACIONES
Cuando cambios en X, provoca variaciones en Y en
sentido inverso (X aumenta, Y disminuye o
viceversa),
las
variables
estn
inversamente
relacionadas. Se observa en la ecuacin el signo -.
Ejemplo:
Y
o
o
Y = 20 - 3X
o
o
o
o
o
FORMA GENERAL
La ecuacin simple de primer grado tiene la siguiente forma
general
Y= a + bX
Donde:
b: pendiente, o sea, el cambio en Y cuando X = 1 .
a: el valor autnomo intercepto, es decir, Y = a cuando X =
0. En la grfica es la interseccin con el eje Y.
Ejemplo:
Y = 3 + 1 .5X
b0 = 3
PASOS
Los valores constantes de la ecuacin son a y b.
El primer paso para determinar la ecuacin es hallar la
pendiente b con la frmula:
PASOS
Debido a la complejidad de la frmula para hallar b y
a, es recomendable ordenar los datos observados y
los respectivos clculos en un cuadro igual al
propuesto en el anlisis de correlacin:
# de
observacin
1
X2
Y2
XY
X1
Y1
X12
Y12
(X1 )(Y1)
X2
Y2
X22
Y22
(X2 )(Y2)
...n
Xn
Yn
Xn2
Yn2
(Xn )(Yn)
TOTAL
X2
Y2
XY
EJEMPLO
Una compaa farmacutica conduce un estudio
piloto para evaluar la relacin entre tres dosis en un
nuevo agente hipntico y tiempo de sueo. Los
resultados de este estudio son presentados de la
siguiente manera.
Tiempo
de sueo
(horas)
Dosis
(mM/ kg)
13
11
10
10
10
15
15
15
SOLUCIN
El diagrama de dispersin que se construye a partir de estos
datos es el siguiente:
Dosis (mM/ kg)
16
14
12
10
8
6
4
2
0
10
12
14
EJEMPLO
Segn el diagrama de dispersin, se espera una relacin
positiva o directa entre ambas variables. Se puede aplicar el
modelo de regresin para ajustar los puntos y establecer una
relacin lineal que permita conocer la relacin cuantitativa
entre ambas variables.
Modelo de regresin y = a + b x
Sujeto
Dosis
1
2
3
4
5
6
7
8
9
TOTAL
3
3
3
10
10
10
15
15
15
84
Tiempo
de
sueo
4
6
5
9
8
7
13
11
9
72
X2
Y2
XY
9
9
9
100
100
100
225
225
225
1002
16
36
25
81
64
49
169
121
81
642
12
18
15
90
80
70
195
165
135
780
X2
Y2
XY
84
72
1002
642
780
COEFICIENTE DE
DETERMINACIN
COEFICIENTE DE
DETERMINACIN
Es una medicin que nos permite determinar la certeza de las
predicciones hechas usando la recta de regresion.
Mide la proporcin de la variabilidad en la variable
dependiente que es explicada por el modelo de la recta de
regression a traves de la variable independiente.
Es obtenido al elevar al cuadrado el valor del Coeficiente de
correlacin de Pearson.
R2
( r )2
COEFICIENTE DE
DETERMINACIN
Tener en cuenta que: 0 R 2 1.
Donde:
Valores de R 2 cercanos a 1 implicaran que el modelo explica
la mayor parte de la variacin en la variable dependiente y que
podra ser un modelo muy til.
Valores de R 2 cercanos a 0 implicaran que el modelo explica
poco sobre la variacin de la variable dependiente y que no
podra ser un modelo til.
EJEMPLO
Si: r = 0.95,
Determinacin?
cul
sera
el
Coeficiente
de
R 2 = 0.9025
Interpretacin: 90% de las variaciones Y, pueden
explicarse por X.
CORRELACIN NO IMPLICA
CAUSALIDAD
RESUMEN DE LA CLASE
Diagrama de Dispersin. Utilidad e interpretacin.
Correlacin.
Coeficiente de correlacin de Pearson. Como calcularlo.
Interpretacin de Sentido e Intensidad.
Regresin.
Ecuacin de regresin lineal. Como calcular la pendiente y el
intercepto. Interpretacin.
Coeficiente de Determinacin.
Como calcularlo. Interpretacin.