You are on page 1of 62

Dependencia entre

variables
Si queremos realizar un estudio en una muestra en la que
se analizan dos o ms variables distintas, se se realizar
mediante tcnicas diferentes segn las dos variables
estudiadas sean:
1 VARIABLES CUALITATIVA
1 VARIABLE CUANTITATIVA:
Anlisis de la Varianza/Contrastes de comparacin
VARIABLES CUALITATIVAS:
Test de asociacin en TABLAS DE CONTINGENCIA
VARIABLES CUANTITATIVAS:
Anlisis de REGRESIN y CORRELACIN

Dependencia entre
variables
VARIABLES CUANTITATIVAS:
Anlisis de REGRESIN y CORRELACIN

Variable dependiente
Variable explicada
Variable respuesta

Variable independiente
Covariable
Variable Regresora

Distribuciones
Bidimensionales
Gasto Pblico

Producto
Interior

181,78

1791,83

188,78

1905,33

191,72

2039,74

196,18

2127,87

199,82

2272,03

208,21

2475,15

219,17

2576,15

229,42

2703,80

241,96

2923,89

258,18

3153,82

279,53

3333,96

294,17

3370,50

309,79

3471,96

La siguiente tabla proporciona el Gasto Pblico


(GP) y el Producto Interior (PI) a partir de una
muestra con 13 observaciones referidas a la
economa espaola.

Datos

Distribuciones
Bidimensionales
Gasto Pblico

Producto
Interior

181,78

1791,83

188,78

1905,33

191,72

2039,74

196,18

2127,87

199,82

2272,03

208,21

2475,15

219,17

2576,15

229,42

2703,80

241,96

2923,89

258,18

3153,82

279,53

3333,96

294,17

3370,50

309,79

3471,96

La siguiente tabla proporciona el Gasto Pblico


(GP) y el Producto Interior (PI) a partir de una
muestra con 13 observaciones referidas a la
economa espaola.

Valores que toma el


Producto Interior
Datos

Distribuciones
Bidimensionales
Dichas observaciones pueden ser representadas en un diagrama de dispersin
(scatterplot). En ellos, cada dato es un punto cuyas coordenadas son los valores de las
variables.

Distribuciones
Bidimensionales
Recordemos que.

x
S
S

2
x

Gasto
Pblico

Producto
Interior

181,78
188,78

1791,83
1905,33

191,72

2039,74

196,18

2127,87

199,82

2272,03

208,21

2475,15

cy

219,17

cx

CV

2576,15

229,42
241,96

258,18
279,53
294,17
309,79

2703,80

S xy

2923,89
3153,82
3333,96
3370,50
3471,96

C V

CovarianzaS xy
Es una medida de lo que se dispersan los valores de una muestra
bidimensional tanto del valor medio de la variable independiente (X) como
del valor medio de la variable dependiente (Y). Se determina mediante la
expresin:

S xy

x x y y

S xy

xy

i i

xy

Propiedades:
No es adimensional
El signo refleja el tipo de relacin
La magnitud muestra el grado de relacin
El signo de la covarianza nos dice si el aspecto de la nube de puntos es

creciente o no, pero no nos dice nada sobre el grado de relacin entre las
variables.

CovarianzaS xy
S
0
xy
Y

yi

(xi - x )

Si la relacin es directa la
mayora de los puntos aporta
sumandos positivos y la
COVARIANZA ES POSITIVA

(xi,yi)
(yi - y )

Si la relacin es inversa la
mayora de los puntos aporta
sumandos negativos y la
COVARIANZA ES NEGATIVA

+
xi

S
0
xy

S
0
xy

Si
no
hay
relacin
se
compensan
los
sumandos
positivos y los negativos y la
COVARIANZA
ES
APROXIMADAMENTE CERO.

Dependencia entre
variables
VARIABLES CUANTITATIVAS:
Anlisis de REGRESIN y CORRELACIN
Cmo estn relacionadas las dos variables?
La relacin es fuerte o dbil?

Correlacin

Cul es el tipo de dependencia?


Podemos predecir la variable dependiente a partir de la
Regresin
independiente?

Con qu precisin?

Tipos de
dependencia
Y

X
Relacin lineal perfecta

X
Relacin curvilnea
perfecta

Dependencia FUNCIONAL

Tipos de
dependencia
Y

X
Relacin lineal

X
Relacin curvilnea

Dependencia ESTOCSTICA

Tipos de
dependencia
Y

X
No existe relacin

NO Dependencia

Correlacin
EL COEFICIENTE DE CORRELACIN LINEAL DE PEARSON ()
El coeficiente de correlacin de Pearson (), nos permite saber si el
ajuste de la nube de puntos a la recta de regresin obtenida es satisfactorio.

Se define como el cociente entre la covarianza y el producto de las


desviaciones tpica:

Sxy

SS
x y

Propiedades:
Presenta valores entre 1 y +1.
Es adimensional
Tiene el mismo signo que la covarianza

Correlacin

Sxy

SS
x y

r >0

Indica relacin lineal directa. A medida


que aumentan los valores de una variable aumentan los
valores de la otra.

Interpretacin

r < 0

Indica relacin lineal inversa. A medida que


aumentan los valores de una variable disminuyen los
valores de la otra.
Variables independientes

r=0

r>0
RELACIN LINEAL
DIRECTA

Relacin no lineal

r<0
RELACIN LINEAL
INVERSA

r
0

VARIABLES
INDEPENDIENTES

Correlacin
VARIABLES INDEPENDIENTES

Sxy

SS
x y

r=0

Si las variables son independientes el coeficiente de correlacin es cero

r=0

VARIABLES INDEPENDIENTES

Si el coeficiente de correlacin es cero las variables no tienen porqu ser


independientes (simplemente la relacin entre las mismas puede ser no lineal).

Correlacin

Sxy

SS
x y

VARIABLES INDEPENDIENTES

r=0

Si las variables son independientes el coeficiente de correlacin es cero

r=0

VARIABLES INDEPENDIENTES

Si el coeficiente de correlacin es cero las variables no tienen porqu ser


independientes (simplemente la relacin entre las mismas puede ser no lineal).
12

Las variables estn perfectamente


relacionadas mediante un modelo
parablico,
sin
embargo,
el
coeficiente de correlacin lineal es
nulo.

y = - 7 + 0,5x

10
8
6
Y

4
2
0
-2
-4
-6
-8
-8

-6

-4

-2

0
X

Esto nos indica la FALTA DE POTENCIA


del coeficiente de Correlacin Lineal
para describir Relaciones no lineales.

Correlacin

Sxy

SS
x y

Extrapolacin del coeficiente de correlacin


HO 0
Ha 0
Bajo H0, el estadstico:

t r

n2
1 r 2

Sigue una distribucin t de Student con n-2 grados de libertad

Correlacin

Sxy

SS
x y

Extrapolacin del coeficiente de correlacin

Si rmuestra < rtabla


Si rmuestra

>

rtabla

Independientes

Relacionadas

Otros
coeficientes
Correlacin

de

Cuando las variables en vez de ser numricas son

ordinales, es posible preguntarse sobre si hay algn


tipo de correlacin entre ellas.
Disponemos para estos casos de dos estadsticos :

(ro) de Spearman:

Versin no

paramtrica del coeficiente de correlacin de Pearson, que se basa en los rangos


de los datos en lugar de hacerlo en los valores reales.

(tau) de Kendall:

Maurice George Kendall

Medida no paramtrica

de asociacin para variables ordinales o de rangos que tiene en consideracin los


empates.

Son estadsticos anlogos a r y los encontrareis en

publicaciones donde las variables no


considerarse numricas.(no paramtricas)

puedan
Charles Edward Spearman

Anlisis de Regresin

El trmino regresin fue introducido por Galton en su libro


Natural inheritance (1889) refirindose a la ley de la
regresin universal:

Hoy en da el sentido de regresin es el de prediccin de


una medida basndonos en el conocimiento de otra.

Existe regresin de los valores de una


variable con respecto a los de otra, cuando
hay una lnea, llamada lnea de regresin,

que se ajusta a la nube de puntos.


A la ecuacin que nos describe la relacin
entre las variables se le denomina ecuacin
de regresin.

Anlisis de Regresin
1. REGRESIN LINEAL SIMPLE
Las variables X e Y se relacionan segn un modelo de lnea recta.

Yi 0 1xi i , i 1,...,n
2. REGRESIN NO LINEAL O CURVILNEA

Las variables X e Y se relacionan segn una lnea curva.

Yi 0 1xi 2 xi2 i , i 1,...,n


3. REGRESIN MLTIPLE

Existen varias variables independientes (X1, X2, , Xp) que explican el


comportamiento de una sola variable dependiente Y.

Yi 0 1 xi1 2 xi2 ... p xip i , i 1,...,n

Regresin Lineal
Simple

Yi 0 1xi i , i 1,...,n
Yi es la i_sima observacin en la variable dependiente
xi es la i_sima observacin en la variable independiente

0 es la ordenada en el origen o trmino independiente, es decir, la altura a la


que la recta corta el eje de ordenadas

1 es la pendiente, inclinacin de la recta o coeficiente de regresin, es decir,


el incremento que se produce en la variable Y cuando la X aumenta en una unidad

i el error aleatorio no observable asociado con Yi

Hiptesis bsicas del


Modelo

Normalidad
Homocedasticidad
Independencia

Hiptesis bsicas del


Modelo

Normalidad
Los errores del modelo siguen una distribucin normal y para
ello se debe de contrastar la hiptesis de que los residuos
provienen de una distribucin normal. Es
i yi yi ,i 1,....n.

preferible trabajar con los residuos estandarizados o


estudentizados ya que tienen la misma varianza (prxima a 1).

Hiptesis bsicas del


Modelo

Homocedasticidad

2
La hiptesis de homocedasticidad implica que Var
(
)

ct
i
La falta de homocedasticidad influye en el modelo de regresin
lineal, los estimadores mnimo-cuadrticos siguen siendo
centrados pero no son eficientes y las frmulas de las varianzas
de los estimadores de los parmetros
no son correctas.

Hiptesis bsicas del


Modelo

Independencia
La hiptesis de que las observaciones muestrales son
Los errores in
son variables aleatorias
i1
independientes.
La
falta
de
independencia,
se
produce
fundamentalmente cuando se trabaja con variables
que se observan a lo largo del tiempo, esto
aleatorias
es, cuando se trabaja con series temporales. Por ello,
una primera medida para tratar de evitar la
dependencia de las observaciones consiste en
aleatorizar la recogida muestral.

Regresin Lineal
Simple

Yi 0 1xi i , i 1,...,n
Para obtener la ecuacin de regresin o modelo ajustado se debe
obtener los estimadores de los parmetros del modelo. Estos se
puede obtener mediante algunos mtodos de estimacin como:

Mnimos Cuadrados

Mxima Verosimilitud

Regresin Lineal
Simple
Mtodo de estimacin Mnimos Cuadrados
Permite esencialmente determinar la recta que "mejor" se ajuste o mejor se
adapte a la nube de puntos.
La "mejor recta" tendr carcter de lnea media y ser aquella que pase lo ms
cerca posible de todos y cada uno de los puntos, es decir, aquella que mejor
se ajuste a la mayora de los datos Esta ser nuestra recta de regresin


x
Yi
0
1 i

Regresin Lineal
Simple
Mtodo de estimacin Mnimos Cuadrados
(xi , yi)

yi

Es decir, entre las


posibles, la que mejor
datos es aquella que
distancia a los mismos,

infinitas rectas
se ajusta a los
verifica que la
sea mnima

xi

yi

(xi , yi)

(xi ,
yi)*)

y i

Son los valores estimados


por el modelo

xi

Regresin Lineal
Simple
Mtodo de estimacin Mnimos Cuadrados
i

(xi , yi)

yi

(xi , i)

i yi yi
residuos

n
2
D i (Yi 0 1 xi )2
i1
i1

xi

Regresin Lineal
Simple
Mtodo de estimacin Mnimos Cuadrados
n

n
2
D i (Yi 0 1 xi )2
i1
i1

Se hallan las derivas parciales de D respecto de 0 y 1

n
D
2 Yi 0 1xi 0
0
i1
n
D
2 Yi 0 1xi (xi ) 0
1 i1

Yi 0 1 xi 0
i1
n

Yi 0 1 xi (xi ) 0

i1

Ecuaciones normales de Gauss

Regresin Lineal
Simple
Mtodo de estimacin Mnimos Cuadrados
n

Yi 0 1 xi 0

Se resuelve el sistema resultante de igualar a 0

i1
n

Yi 0 1 xi (xi ) 0

(minimizar) las ecuaciones obtenidas.

i1

i1

i1

n0 1 xi Yi
n

n
2
0 xi 1 xi xiYi
i1
i1
i1

S xy
S 2x

Coeficiente de Regresin:
Pendiente de la recta. Incremento de y
cuando x aumenta en una unidad.

y
x

0
1

Ordenada en el origen:
Altura a la que la recta corta al eje de
ordenadas (Y). Es el valor de Y cuando x
vale 0.

Regresin Lineal
Simple
Poder Explicativo

La recta de regresin tiene carcter de lnea media, por ello debe ir


acompaada siempre de una medida de su representatividad; es decir, de una
medida de dispersin.

Dispersin Pequea - representatividad del modelo alta


Dispersin Grande - representatividad del modelo baja

Regresin Lineal
Simple
Poder Explicativo

Una forma de medir la bondad del ajuste es medir la suma


de los cuadrados de los errores:

(y

y
)
i i

S2 i1

% de variaciones sin explicar

S2
S 2y

100

Varianza residual
2
S

2
R 1
S 2y

Coeficiente de Determinacin
Indica
el
porcentaje
de
variaciones
controladas o explicadas por el modelo

Regresin Lineal
Simple
Poder Explicativo

Una forma de medir la bondad del ajuste es medir la suma


de los cuadrados de los errores:

(y

y
)
i i

S2 i1

% de variaciones sin explicar

S2
S 2y

100

Varianza residual
2
S

2
R 1
S 2y

R r

Coeficiente de Determinacin
Indica
el
porcentaje
de
variaciones
controladas o explicadas por el modelo

Regresin Lineal
Simple
Poder Explicativo

2
S
2
R 1
2
Sy

Lmites de R2
0 R2 1
Cuanto ms se aproxime R2 a la 1, mayor
poder explicativo o mayor bondad de
ajuste del modelo.

R2 = 1 No hay residuos

Dependencia funcional

R2 = 0 No explica las variaciones de Y

Modelo inadecuado
Variables independientes

R2 x 100 = Porcentaje de variaciones explicadas por el modelo.

Regresin Lineal
Simple
Intervalos de Confianza para los parmetros

I1
1 1 /2,n2 S(1 ), 1 t1 /2,n2 S(1 )

t
),
t
)
I0
S(

S(

0 1 /2,n2
0
0
1 /2,n2
0

Donde S(0 ) S(1 ) son el error estndar de 0 y 1 respectivamente


n

) s
S(
0

xi2
i1
n

n (xi x )2
i1

)
S(
1

s
n

(xi x )2
i1

Regresin Lineal
Simple
Test para la pendiente

H O 1 0
H a 1 0
Bajo H0, el estadstico:

1 0
t
S ( 1 )

Donde S( 1 ) error estndar de 1

)
S(
1

s
n

(xi x )2
i1

Sigue una distribucin t de Student con n-2


grados de libertad

Regresin Lineal
Simple
Poder Predictivo

Que un modelo de regresin posea un alto poder explicativo, no tiene por qu


resultar adecuado para predecir valores de y, dado un valor de x.
Es decir, PODER EXPLICATIVO no es equivalente a PODER PREDICTIVO.
El poder predictivo del modelo lo determina el GRFICO DE RESIDUALES
y-

8
6
4

2
0
-2
-4
-6
-8
55

60

65

70

75

80

85

90

95

Regresin Lineal
Simple
Poder Predictivo
GRFICO DE RESIDUALES: diagrama de dispersin que nos permite
evaluar el poder predictivo del modelo.
Construccin y clculo:

i
En el eje de ordenadas se colocan los residuos

yi yi

En el eje de abscisas se colocan x, y .

Interpretacin:

Si la banda de residuales es homognea y estrecha , entonces el modelo


ajustado a los datos presenta un ELEVADO PODER PREDICTIVO

Regresin Lineal
Simple
Poder Predictivo
GRFICO HOMOGNEO
y-

y o x

Regresin Lineal
Simple
Intervalos de confianza
Un itervalo de confianza para el valor medio de todos los valores Y
dado que x = x0 es como sigue:
2
(x

x)
1
Y0 t(1 /2,n2) s
0
n (xi x )2

Por otro lado muchas veces estamos interesados en estimar solamente


un valor de Y correspondiente a un valor dado x0. A este intervalo se le
llamaintervalo de prediccin:
2
(x

x)
1
Y0 t(1 /2,n2) s 1 0
n (xi x )2

Regresin Lineal
Simple
Extrapolacin

Cuando se hacen predicciones no deben extrapolarse los resultados ms all del


rango de la variable x utilizado para ajustar el modelo, ya que fuera de este rango
no sabemos qu puede estar ocurriendo.
Ejemplo
Suponemos que tenemos datos sobre el crecimiento de los nios entre los 3 y 8 aos de
edad y encontramos una fuerte relacin entre Edad (X) y la altura (Y).
y

Relacin
estimada

x
Rango estudiado

Regresin Lineal
Simple
Extrapolacin

Ejemplo
Suponemos que tenemos datos sobre el crecimiento de los nios entre los 3 y 8 aos de
edad y encontramos una fuerte relacin entre Edad (X) y la altura (Y).

Prediccin

Relacin
estimada

Conforme se incrementa la edad, se


incrementa la altura. Si predecimos
la altura a la edad de 25 aos,
acabamos pronosticando que el
nio tendr una altura de 2,43
metros.
x
Rango estudiado

Regresin Lineal
Simple
Extrapolacin

Ejemplo
Suponemos que tenemos datos sobre el crecimiento de los nios entre los 3 y 8 aos de
edad y encontramos una fuerte relacin entre Edad (X) y la altura (Y).

Prediccin

Relacin
estimada
Valor
verdadero

Relacin
real

x
Rango estudiado

En
realidad
el
crecimiento
disminuye a partir de cierta edad y
se detiene al llegar a la madurez.
Por tanto, extrapolar la relacin
lineal ms all de la madurez no
tiene ningn sentido.

Hiptesis bsicas del


Modelo

Normalidad
Homocedasticidad
Independencia

Hiptesis bsicas del


Modelo: Normalidad
Para estudiar la normalidad de los residuos estandarizados se
pueden utilizar las siguientes tcnicas.
Grficos: el grfico de cajas, el histograma, la estimacin no
paramtrica de la funcin de densidad, el grfico de simetra y los
grficos p-p y q-q.
Contrastes de normalidad: Saphiro-Wilk y el contraste de
Kolmogoroff-Smirnoff

Hiptesis bsicas del


Modelo: Normalidad
Si la hiptesis de normalidad no se verifica, esto afecta al modelo
en:
Los estimadores por mnimos-cuadrados de los parmetros del
modelo coinciden con los mximo-verosmiles. Los estimadores
obtenidos son centrados pero no eficientes.
Los contrastes de significacin (de la F y de la t) dejan de ser
vlidos y los intervalos de confianza obtenidos para los parmetros
no son correctos. A pesar de ello, si el tamao muestral es
razonablemente grande, por el Teorema Central de Lmite, los
contrastes e intervalos de confianza obtenidos son buena
aproximacin de los reales.

Hiptesis bsicas del


Modelo:
Homocedasticidad

2
La hiptesis de homocedasticidad implica que Var
(
)

ct
i
se detecta fcilmente en el grfico de residuos frente a las
prediciones o, equivalentemente, en el grfico de los residuos
frente a la variable regresora.

y-

y-

y o x

Hiptesis bsicas del


Modelo: Independencia
El que no se cumpla la hiptesis de independencia
afecta gravemente a los resultados del modelo de
regresin, se obtienen estimadores de los parmetros
y precisiones ineficientes y los intervalos de confianza
y contrastes que se deducen de la tabla de ANOVA no
so vlidos. Esto es debido a que se utiliza el resultado
de que la varianza de la suma de variables
independientes es igual a la suma de las varianzas de
cada variable. Propiedad que no se cumple para
variables dependientes.

Hiptesis bsicas del


Modelo: Independencia
Si no se cumple la hiptesis de independencia se tienen dos
alternativas:
Transformar los datos para obtener observaciones incorreladas
(independientes, bajo hiptesis de normalidad) y luego aplicar las
tcnicas de regresin estudiadas (mnimos cuadrados), este mtodo
es un caso particular de la denominada tcnica de mnimos cuadrados
generalizados, que se puede aplicar en situaciones muy precisas y,
por tanto, su situacin es un tanto restringida.
Aplicar mtodos estadsticos diseados para el estudio con
observaciones dependientes como son los mtodos de series de
tiempo y los modelos de regresin dinmica.

Hiptesis bsicas del


Modelo: Independencia
Para detectar:
Grficos : el grfico de los residuos frente al ndice
(tiempo), el grfico de los residuos et+1 frente a et y el
correlograma.
Contrastes: los contrastes basados en rachas,
contrastes sobre las autocorrelaciones (el ms
utilizado el contraste de Durbin-Watson), el contraste
de Ljung-Box

Hiptesis bsicas del


Modelo: Grficos de
Residuos

HETEROSCEDASTICIDAD

NO LINEALIDAD, AUTOCORRELACIN

y-

y-

y o x

HETEROSCEDASTICIDAD Y NO LINEALIDAD
y-

Presencia de Outliers

Presencia de Outliers

Presencia de Outliers
Los residuales pueden servir para detectar outliers

Asociacin y causalidad
El hecho de que un modelo sea capaz de explicar las variaciones
de la Y en funcin de la X, no implica que la primera sea causa
de la segunda.
Puede ocurrir que ambas variables sean causa de una tercera.
Y

Presin arterial (Y)

Nmero de canas (X)

Las canas y la presin arterial estn relacionadas con la EDAD

Anlisis de Regresin no
Lineal

A. PARBOLA DE REGRESIN
B. MODELO EXPONENCIAL
C. MODELO POTENCIAL
D. MODELO LOGARTMICO

Anlisis de Regresin no
Lineal
Ecuacin de la parbola:

Yi 0 1xi 2 xi2 i , i 1,...,n

Estimacin del modelo de regresin. Mtodo de los mnimos cuadrados:


Entre las infinitas parbolas posibles, la
que mejor se ajustaa los datos es
aquella que verifica que la distancia ( D
) sea mnima:

n
2
D i (Yi 0 1 xi 2 xi2 )2
i1
i1

Determinar los valores de 0, 1, 2, se hallan las derivas parciales de D con respecto a 0, 1,


al igualar las ecuaciones obtenidas a 0.
2y se resuelve el sistema resultante
10

n
n0 1 xi 2 xi2 Yi
i1
i1
i1
n
n
n
n
0 xi 1 xi2 3 xi3 xiYi
i1
i1
i1
i1
n
n
n
n
0 xi2 1 xi3 3 xi4 xi2Yi
i1
i1
i1
i1

9
8
7
6
5
4
3
2
1
0
4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 9,5 10

Anlisis de Regresin no
Lineal
Ecuacin de la funcin exponencial:

Yi 0 (1) xi i , i 1,...,n

Si transformamos adecuadamente los datos iniciales (tomando logaritmos en la


expresin), el modelo potencial de reduce a un modelo lineal. De esta forma
podremos conocer el poder explicativo
y predictivo del modelo de igual manera que
se haca con los modelos lineales.
Ajustar a un modelo lineal:

log Yi log 0 1 log xi i


Yi

1xi

Anlisis de Regresin no
Lineal
Ecuacin de la funcin potencial:

Yi 0 (xi )1 i , i 1,...,n

Al igual que ocurra con el modelo exponencial, podemos transformar el modelo potencial en
uno lineal

Ajustar a un modelo lineal:

log Yi log 0 xi log 1 i


Yi

xi 1

Anlisis de Regresin no
Lineal
Ecuacin de la funcin logartmica:

Yi 0 1 log( xi ) i , i 1,...,n

Ajustar a un modelo lineal:

Yi 0 1 log( xi ) i
xi

You might also like