Professional Documents
Culture Documents
variables
Si queremos realizar un estudio en una muestra en la que
se analizan dos o ms variables distintas, se se realizar
mediante tcnicas diferentes segn las dos variables
estudiadas sean:
1 VARIABLES CUALITATIVA
1 VARIABLE CUANTITATIVA:
Anlisis de la Varianza/Contrastes de comparacin
VARIABLES CUALITATIVAS:
Test de asociacin en TABLAS DE CONTINGENCIA
VARIABLES CUANTITATIVAS:
Anlisis de REGRESIN y CORRELACIN
Dependencia entre
variables
VARIABLES CUANTITATIVAS:
Anlisis de REGRESIN y CORRELACIN
Variable dependiente
Variable explicada
Variable respuesta
Variable independiente
Covariable
Variable Regresora
Distribuciones
Bidimensionales
Gasto Pblico
Producto
Interior
181,78
1791,83
188,78
1905,33
191,72
2039,74
196,18
2127,87
199,82
2272,03
208,21
2475,15
219,17
2576,15
229,42
2703,80
241,96
2923,89
258,18
3153,82
279,53
3333,96
294,17
3370,50
309,79
3471,96
Datos
Distribuciones
Bidimensionales
Gasto Pblico
Producto
Interior
181,78
1791,83
188,78
1905,33
191,72
2039,74
196,18
2127,87
199,82
2272,03
208,21
2475,15
219,17
2576,15
229,42
2703,80
241,96
2923,89
258,18
3153,82
279,53
3333,96
294,17
3370,50
309,79
3471,96
Distribuciones
Bidimensionales
Dichas observaciones pueden ser representadas en un diagrama de dispersin
(scatterplot). En ellos, cada dato es un punto cuyas coordenadas son los valores de las
variables.
Distribuciones
Bidimensionales
Recordemos que.
x
S
S
2
x
Gasto
Pblico
Producto
Interior
181,78
188,78
1791,83
1905,33
191,72
2039,74
196,18
2127,87
199,82
2272,03
208,21
2475,15
cy
219,17
cx
CV
2576,15
229,42
241,96
258,18
279,53
294,17
309,79
2703,80
S xy
2923,89
3153,82
3333,96
3370,50
3471,96
C V
CovarianzaS xy
Es una medida de lo que se dispersan los valores de una muestra
bidimensional tanto del valor medio de la variable independiente (X) como
del valor medio de la variable dependiente (Y). Se determina mediante la
expresin:
S xy
x x y y
S xy
xy
i i
xy
Propiedades:
No es adimensional
El signo refleja el tipo de relacin
La magnitud muestra el grado de relacin
El signo de la covarianza nos dice si el aspecto de la nube de puntos es
creciente o no, pero no nos dice nada sobre el grado de relacin entre las
variables.
CovarianzaS xy
S
0
xy
Y
yi
(xi - x )
Si la relacin es directa la
mayora de los puntos aporta
sumandos positivos y la
COVARIANZA ES POSITIVA
(xi,yi)
(yi - y )
Si la relacin es inversa la
mayora de los puntos aporta
sumandos negativos y la
COVARIANZA ES NEGATIVA
+
xi
S
0
xy
S
0
xy
Si
no
hay
relacin
se
compensan
los
sumandos
positivos y los negativos y la
COVARIANZA
ES
APROXIMADAMENTE CERO.
Dependencia entre
variables
VARIABLES CUANTITATIVAS:
Anlisis de REGRESIN y CORRELACIN
Cmo estn relacionadas las dos variables?
La relacin es fuerte o dbil?
Correlacin
Con qu precisin?
Tipos de
dependencia
Y
X
Relacin lineal perfecta
X
Relacin curvilnea
perfecta
Dependencia FUNCIONAL
Tipos de
dependencia
Y
X
Relacin lineal
X
Relacin curvilnea
Dependencia ESTOCSTICA
Tipos de
dependencia
Y
X
No existe relacin
NO Dependencia
Correlacin
EL COEFICIENTE DE CORRELACIN LINEAL DE PEARSON ()
El coeficiente de correlacin de Pearson (), nos permite saber si el
ajuste de la nube de puntos a la recta de regresin obtenida es satisfactorio.
Sxy
SS
x y
Propiedades:
Presenta valores entre 1 y +1.
Es adimensional
Tiene el mismo signo que la covarianza
Correlacin
Sxy
SS
x y
r >0
Interpretacin
r < 0
r=0
r>0
RELACIN LINEAL
DIRECTA
Relacin no lineal
r<0
RELACIN LINEAL
INVERSA
r
0
VARIABLES
INDEPENDIENTES
Correlacin
VARIABLES INDEPENDIENTES
Sxy
SS
x y
r=0
r=0
VARIABLES INDEPENDIENTES
Correlacin
Sxy
SS
x y
VARIABLES INDEPENDIENTES
r=0
r=0
VARIABLES INDEPENDIENTES
y = - 7 + 0,5x
10
8
6
Y
4
2
0
-2
-4
-6
-8
-8
-6
-4
-2
0
X
Correlacin
Sxy
SS
x y
t r
n2
1 r 2
Correlacin
Sxy
SS
x y
>
rtabla
Independientes
Relacionadas
Otros
coeficientes
Correlacin
de
(ro) de Spearman:
Versin no
(tau) de Kendall:
Medida no paramtrica
puedan
Charles Edward Spearman
Anlisis de Regresin
Anlisis de Regresin
1. REGRESIN LINEAL SIMPLE
Las variables X e Y se relacionan segn un modelo de lnea recta.
Yi 0 1xi i , i 1,...,n
2. REGRESIN NO LINEAL O CURVILNEA
Regresin Lineal
Simple
Yi 0 1xi i , i 1,...,n
Yi es la i_sima observacin en la variable dependiente
xi es la i_sima observacin en la variable independiente
Normalidad
Homocedasticidad
Independencia
Normalidad
Los errores del modelo siguen una distribucin normal y para
ello se debe de contrastar la hiptesis de que los residuos
provienen de una distribucin normal. Es
i yi yi ,i 1,....n.
Homocedasticidad
2
La hiptesis de homocedasticidad implica que Var
(
)
ct
i
La falta de homocedasticidad influye en el modelo de regresin
lineal, los estimadores mnimo-cuadrticos siguen siendo
centrados pero no son eficientes y las frmulas de las varianzas
de los estimadores de los parmetros
no son correctas.
Independencia
La hiptesis de que las observaciones muestrales son
Los errores in
son variables aleatorias
i1
independientes.
La
falta
de
independencia,
se
produce
fundamentalmente cuando se trabaja con variables
que se observan a lo largo del tiempo, esto
aleatorias
es, cuando se trabaja con series temporales. Por ello,
una primera medida para tratar de evitar la
dependencia de las observaciones consiste en
aleatorizar la recogida muestral.
Regresin Lineal
Simple
Yi 0 1xi i , i 1,...,n
Para obtener la ecuacin de regresin o modelo ajustado se debe
obtener los estimadores de los parmetros del modelo. Estos se
puede obtener mediante algunos mtodos de estimacin como:
Mnimos Cuadrados
Mxima Verosimilitud
Regresin Lineal
Simple
Mtodo de estimacin Mnimos Cuadrados
Permite esencialmente determinar la recta que "mejor" se ajuste o mejor se
adapte a la nube de puntos.
La "mejor recta" tendr carcter de lnea media y ser aquella que pase lo ms
cerca posible de todos y cada uno de los puntos, es decir, aquella que mejor
se ajuste a la mayora de los datos Esta ser nuestra recta de regresin
x
Yi
0
1 i
Regresin Lineal
Simple
Mtodo de estimacin Mnimos Cuadrados
(xi , yi)
yi
infinitas rectas
se ajusta a los
verifica que la
sea mnima
xi
yi
(xi , yi)
(xi ,
yi)*)
y i
xi
Regresin Lineal
Simple
Mtodo de estimacin Mnimos Cuadrados
i
(xi , yi)
yi
(xi , i)
i yi yi
residuos
n
2
D i (Yi 0 1 xi )2
i1
i1
xi
Regresin Lineal
Simple
Mtodo de estimacin Mnimos Cuadrados
n
n
2
D i (Yi 0 1 xi )2
i1
i1
n
D
2 Yi 0 1xi 0
0
i1
n
D
2 Yi 0 1xi (xi ) 0
1 i1
Yi 0 1 xi 0
i1
n
Yi 0 1 xi (xi ) 0
i1
Regresin Lineal
Simple
Mtodo de estimacin Mnimos Cuadrados
n
Yi 0 1 xi 0
i1
n
Yi 0 1 xi (xi ) 0
i1
i1
i1
n0 1 xi Yi
n
n
2
0 xi 1 xi xiYi
i1
i1
i1
S xy
S 2x
Coeficiente de Regresin:
Pendiente de la recta. Incremento de y
cuando x aumenta en una unidad.
y
x
0
1
Ordenada en el origen:
Altura a la que la recta corta al eje de
ordenadas (Y). Es el valor de Y cuando x
vale 0.
Regresin Lineal
Simple
Poder Explicativo
Regresin Lineal
Simple
Poder Explicativo
(y
y
)
i i
S2 i1
S2
S 2y
100
Varianza residual
2
S
2
R 1
S 2y
Coeficiente de Determinacin
Indica
el
porcentaje
de
variaciones
controladas o explicadas por el modelo
Regresin Lineal
Simple
Poder Explicativo
(y
y
)
i i
S2 i1
S2
S 2y
100
Varianza residual
2
S
2
R 1
S 2y
R r
Coeficiente de Determinacin
Indica
el
porcentaje
de
variaciones
controladas o explicadas por el modelo
Regresin Lineal
Simple
Poder Explicativo
2
S
2
R 1
2
Sy
Lmites de R2
0 R2 1
Cuanto ms se aproxime R2 a la 1, mayor
poder explicativo o mayor bondad de
ajuste del modelo.
R2 = 1 No hay residuos
Dependencia funcional
Modelo inadecuado
Variables independientes
Regresin Lineal
Simple
Intervalos de Confianza para los parmetros
I1
1 1 /2,n2 S(1 ), 1 t1 /2,n2 S(1 )
t
),
t
)
I0
S(
S(
0 1 /2,n2
0
0
1 /2,n2
0
) s
S(
0
xi2
i1
n
n (xi x )2
i1
)
S(
1
s
n
(xi x )2
i1
Regresin Lineal
Simple
Test para la pendiente
H O 1 0
H a 1 0
Bajo H0, el estadstico:
1 0
t
S ( 1 )
)
S(
1
s
n
(xi x )2
i1
Regresin Lineal
Simple
Poder Predictivo
8
6
4
2
0
-2
-4
-6
-8
55
60
65
70
75
80
85
90
95
Regresin Lineal
Simple
Poder Predictivo
GRFICO DE RESIDUALES: diagrama de dispersin que nos permite
evaluar el poder predictivo del modelo.
Construccin y clculo:
i
En el eje de ordenadas se colocan los residuos
yi yi
Interpretacin:
Regresin Lineal
Simple
Poder Predictivo
GRFICO HOMOGNEO
y-
y o x
Regresin Lineal
Simple
Intervalos de confianza
Un itervalo de confianza para el valor medio de todos los valores Y
dado que x = x0 es como sigue:
2
(x
x)
1
Y0 t(1 /2,n2) s
0
n (xi x )2
x)
1
Y0 t(1 /2,n2) s 1 0
n (xi x )2
Regresin Lineal
Simple
Extrapolacin
Relacin
estimada
x
Rango estudiado
Regresin Lineal
Simple
Extrapolacin
Ejemplo
Suponemos que tenemos datos sobre el crecimiento de los nios entre los 3 y 8 aos de
edad y encontramos una fuerte relacin entre Edad (X) y la altura (Y).
Prediccin
Relacin
estimada
Regresin Lineal
Simple
Extrapolacin
Ejemplo
Suponemos que tenemos datos sobre el crecimiento de los nios entre los 3 y 8 aos de
edad y encontramos una fuerte relacin entre Edad (X) y la altura (Y).
Prediccin
Relacin
estimada
Valor
verdadero
Relacin
real
x
Rango estudiado
En
realidad
el
crecimiento
disminuye a partir de cierta edad y
se detiene al llegar a la madurez.
Por tanto, extrapolar la relacin
lineal ms all de la madurez no
tiene ningn sentido.
Normalidad
Homocedasticidad
Independencia
2
La hiptesis de homocedasticidad implica que Var
(
)
ct
i
se detecta fcilmente en el grfico de residuos frente a las
prediciones o, equivalentemente, en el grfico de los residuos
frente a la variable regresora.
y-
y-
y o x
HETEROSCEDASTICIDAD
NO LINEALIDAD, AUTOCORRELACIN
y-
y-
y o x
HETEROSCEDASTICIDAD Y NO LINEALIDAD
y-
Presencia de Outliers
Presencia de Outliers
Presencia de Outliers
Los residuales pueden servir para detectar outliers
Asociacin y causalidad
El hecho de que un modelo sea capaz de explicar las variaciones
de la Y en funcin de la X, no implica que la primera sea causa
de la segunda.
Puede ocurrir que ambas variables sean causa de una tercera.
Y
Anlisis de Regresin no
Lineal
A. PARBOLA DE REGRESIN
B. MODELO EXPONENCIAL
C. MODELO POTENCIAL
D. MODELO LOGARTMICO
Anlisis de Regresin no
Lineal
Ecuacin de la parbola:
n
2
D i (Yi 0 1 xi 2 xi2 )2
i1
i1
n
n0 1 xi 2 xi2 Yi
i1
i1
i1
n
n
n
n
0 xi 1 xi2 3 xi3 xiYi
i1
i1
i1
i1
n
n
n
n
0 xi2 1 xi3 3 xi4 xi2Yi
i1
i1
i1
i1
9
8
7
6
5
4
3
2
1
0
4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 9,5 10
Anlisis de Regresin no
Lineal
Ecuacin de la funcin exponencial:
Yi 0 (1) xi i , i 1,...,n
1xi
Anlisis de Regresin no
Lineal
Ecuacin de la funcin potencial:
Yi 0 (xi )1 i , i 1,...,n
Al igual que ocurra con el modelo exponencial, podemos transformar el modelo potencial en
uno lineal
xi 1
Anlisis de Regresin no
Lineal
Ecuacin de la funcin logartmica:
Yi 0 1 log( xi ) i , i 1,...,n
Yi 0 1 log( xi ) i
xi