Analisis Regresion - Datos

ANALISIS DE REGRESIN
SEPARATA PREPARADA POR

LEANDRO HUAYANAY FALCONI
Gran parte de este material proceden de ideas de diversos libros
Los hemos reunido para la utilizacin en el anlisis de regresin
mltiple, ya que muchos se hallan dispersos en diversos libros y
no tenemos un manual prctico para los no estadsticos.
Qu puede ser ms sencillo que reducir la relacin entre dos

variables a una recta?
INTRODUCCION AL ANALISIS DE REGRESION
Supongamos que deseamos evaluar si la edad influye sobre la presin arterial diastlica (PAD) .
La manera mas sencilla de evaluar esta relacin se nos ocurre es la siguiente: Se Toma la presin
arterial a todos los humanos y as mismo le preguntamos su edad.
Y con esos datos construimos un grfico, para esta finalidad recordemos el plano cartesiano. El
plano cartesiano est formado por la interseccin perpendicular de dos rectas, el eje horizontal
conformado por la recta x , llamado el eje de las abscisas, y el eje vertical de la recta y llamado el
eje de las ordenadas.
Coordenadas de un punto: si se establece en un plano un sistema de ejes coordenados, a cada

punto del plano le corresponde un par ordenado de nmeros reales, una abscisa y una ordenada,
que se llaman coordenadas del punto. As el punto A, queda determinado por sus valores en el eje
x , y su valor en el eje y, ser A(xa, ya).
Si colocamos a la edad en el eje X (de las abscisas) y la presin arterial diastlica (PAD) en el eje Y
(de las ordenadas), cada dato del individuo (edad, PAD) puede ser representado por un punto en
este plano, cada individuo tendr un punto (x,y), esta notacin corresponde al par ordenado.
Para los humanos, a
medida que la edad
aumenta, la presin
arterial diastlica se
incrementa
Tericamente podramos representar este grafico los datos de todos los humanos, y observar en
forma grafica, como se interrelacionan ambas variables. Si lo ponemos en un termino mas
fisiolgico, podramos apreciar en forma grafica, si para los humanos la edad influye sobre la
presin arterial diastlica.
Antes de seguir avanzando debemos de reflexionar sobre una caracterstica de estas variables en
particular y es respecto a la dependencia, sern ambas independientes?, a simple mirada No,
entonces quien determina a quien?
Responder esto es importante ya que si no sabemos respecto a la dependencia entre ellas y
naturalmente, si no existe una determinacin de un por otra, solo deberamos hacer correlaciones.
Pero en nuestro ejemplo, pensamos que la edad es la que determina la presin arterial diastlica y
no al contrario. Entonces lo que vamos ha analizar como que la edad es la que determina a la
presin arterial diastlica.
EDAD ---- PAD
Nuestra primera aproximacin, a partir del grafico, es suponer que la presin arterial diastlica
esta determinada por la edad, mas aun podemos suponer que hay una lnea recta que representa
esta determinacin
Para los humanos, un
incremento en la edad,
trae consigo un
incremento de la presin
arterial diastlica de
manera proporcional a la
edad
Al aplicar este artificio, hacemos una simplificacin extrema, ya que si recordamos la geometra
elemental, estamos simplificando al establecer la relacin de como x influye sobre y, en forma de
una recta. Dicho de otra manera, hemos creado un Modelo que predice como la edad influye sobre
la presin arterial diastlica, de manera muy simple, como una recta.
Seguidamente necesitamos precisar, especficamente como es la recta que relaciona la edad y la

PAD. De acuerdo a la geometra cartesiana, si determino dos puntos en el plano, determino a la
recta, o en forma equivalente, la recta queda determinada si se fija el intercepto y la pendiente. En
ese caso la recta viene definida por la siguiente frmula:
y = b0 + b1 x
Donde "y" sera la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x"
(variable independiente).
Cuando trabajo con poblaciones, para definir la recta hay que determinar los valores de los parmetros " b0" y
" b1":
El parmetro " b0" es el valor que toma la variable dependiente "y", cuando la variable
independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical. Para nuestro ejemplo,
la presin arterial diastlica al momento de nacer , 45 mm Hg .
El parmetro " b1" determina la pendiente de la recta, su grado de inclinacin. Para nuestro
ejemplo 0.5 mm Hg, por ao de incremento de la edad
La regresin lineal nos permite calcular el valor de estos dos parmetros, definiendo la recta que
mejor se ajusta a esta nube de puntos
POBLACIONES Y MUESTRAS
Sin embargo hay que distinguir si trabajamos con una muestra o con la poblacin en general,
asumiremos al inicio que trabajamos con la poblacin general
Imaginemos a una poblacin, donde a cada uno de los individuos se le mide dos atributos
(Variables), y tenemos la sospecha que uno de ellos determine al otro. Para poder evaluar
nuestras sospechas, una de las primeras actividades es hacer un grfico, tratando de evaluar la
relacin que deseamos estudiar. Si el diagrama de dispersin nos muestra que aparentemente hay
una relacin.
Supongamos ahora que ya estamos convencidos de que esa relacin. Asumimos entonces que Y
esta condicionada por X.
Deseamos ahora establecer como X condiciona a Y, mejor dicho
y = f(x)
50
Gasto familiar semanal

100
150
200
Para poder analizar la relacin de ambas variables, se puede hacer un grafico como el siguiente
100
150
200
Ingreso familiar semanal
250
Donde x es una valor particular de X, al observar el grfico se puede ver que aparentemente que Y
depende de X, si x aumente su valor los correspondientes valores de Y tambin lo hacen.
As mismo relacin entre Y y X es lineal (la relacin es aproximada a una recta), se puede expresar
que Y es una funcin, mas an una funcin lineal de X. Matemticamente se expresa como:
y = b0 + b1 x
FUNCION DE REGRESION POBLACIONAL (FRP)

Si asumimos trabajar con la poblacin general, hay que entender que tericamente se puede
relacionar ambas variables mediante un modelo terico, y si ese modelo que relaciona es una
recta, entonces:
"La curva de regresin poblacional es simplemente el lugar geomtrico de las medias
condicionales o esperanzas de las variables dependientes para los valores determinados de la(s)
variable(s) explicativas"
E(Y|Xi) = f(Xi)
Al asumir que la funcin es lineal, se puede escribir
E(Y|Xi) = 0 + 1X1
Es de recordar que estos coeficientes son parmetros poblacionales, por lo que los representamos
por letras griegas beta. Estos parmetros nos permitiran determinar la recta que nos permite
predecir la PAD, conociendo la edad.
Sin embargo es necesario reconocer, que para edad hay diversas valores de PAD, sin embargo
todos estos valores tienen una distribucin normal, con una media, las medas para cada edad si se
grafican, estaran sobre una recta.
Por otro lado, para cada individuo, si con su edad, se predice su PAD, esta PAD predicha difiere de
la medida, ser la diferencia entre el valor predicho y un valor real.
ui = Yi - E(Y|Xi)
A esta diferencia se les llama residuos, y se debe a diversos factores (variables omitidas) la suma
de sus efecto produce una PERTURBACION ESTOCASTICA
PERTUBACION ESTOCASTICA
Es debida a diversas razones
1.- Vaguedad de la teora, (teora incompleta)
2.- No disponibilidad de informacin.
3.- Variables centrales versus perifricas
4.- Aleatoridad intrnseca en el comportamiento humano
5.- Variables prximas inadecuadas
6.- Principio de parsimonia
7.- Forma funcional incorrecta
En el anlisis de regresin nos interesa conocer como es la dependencia estadstica entre dos
variables, pero no la funcional o determinstica de la fsica clsica. En las relaciones estadsticas
entre variables tratamos esencialmente con variables aleatorias y estocsticas, esto es variables
que tienen distribuciones de probabilidad. Por otra parte en la dependencia funcional o
determinstica se maneja variables pero esta no son aleatorias o estocsticas.
Entonces se puede establecer la recta de regresin poblacional.
E(Y|Xi) = 0 + 1X1 + ui
ANALISIS DE REGRESION LINEAL EN MUESTRAS

Las investigaciones usuales son con muestras y de all deseamos estimar varios hechos:
i.- existe alguna relacin entre esas variables?
ii.- Qu fuerza tiene esa relacin?
iii.- Cules son los coeficientes?
iv.- La pendiente difiere de cero?
FUNCION DE REGRESION MUESTRAL
60
80
G as tos fam ilia res

1 00
1 20
1 40
1 60
Sin embargo, cuando se hace investigaciones, usualmente se toma una muestra de la poblacin,
mejor dicho, solo tomamos algunos valores de x e y, ya no toda la poblacin, como ilustra el grfico
siguiente
100
150
200
Ingresos familiares
250
Nos debe quedar claro, entonces que se ha tomado una muestra, y que pudieran obtenerse
diferencias entre las relaciones de una y otra muestra.
Muchos estadsticos para no tener problemas en la interpretacin, los coeficientes de la regresin
obtenidos de una poblacin les denotan con la letra griega (beta), como corresponde a un
parmetro de la poblacin los calculados en base a muestras b (letra latina), como corresponde a
un estadstico.
Y = b0 + b1X+ ui
El coeficiente u, representara los errores. Para cada individuo i.
La relacin entre la variable y y la variable x es lineal, entonces puede ser expresado en forma de
una ecuacin lineal, como
y = b0 + b1 x
sin embargo dado que las variables son estocsticas, en realidad existe un error de aproximacin,
y se puede expresar en forma mas exacta de la siguiente manera
yi = b0 + b1 xi +ui
ESTIMACION DE PARAMETROS
Recuerde que en una regresin poblacional :
Yi= 0 + 1 Xi +ui
Donde 0 y 1 son parmetros poblacionales.
Pero en una que en una regresin muestral:
Yi= b0 + b1 Xi +i tambien se puede escribir como Yi= i+ i
Donde b0 , b1 son estadsticos en base a una muestra determinada, y son los errores .
Entonces : i= Yi- (b0 + b1 Xi )
Como deseamos obtener la mnima desviacin respecto a Y, debe minimizarse, pero no solo un
valor individual, sino todos los i, y el modo de lograr es minimizar la suma de estos, pero como
importa la desviacin de Y y no el sentido, no se puede colocar la suma directa, ya que las
desviaciones negativas contrarestan a las positivas, por lo que se debe de sumar los cuadrados de
la diferencias o mejor dicho i 2
METODO DE MINIMOS CUADRADOS ESTIMADOS (OLS)
Ya que deseamos estimar el valor menor de , pero este va ha ser dependiente de b0 y b1 ,
entonces los que podemos hacer es expresar i como funcin de b0 y b1 y del calculo diferencial,
sabemos que las derivadas nos pueden ayudar a conocer los puntos menores, ya que para ese
valor la derivada ser cero. Entonces expresamos
u i2
2 Yi 0 1 X i 2 u i
u 2 Y
0
2
i
1 X i X i 2 ui X i
Los parmetros b0 y b1 se estiman por medio de el mtodo de los mnimos cuadrados para
muestras, puede escribirse como;
xY
x
i
2
i
cov( x, y )
var( x)
Sxy
b1 = ----------S x
b0 = Y - b 1 X
COMENTARIOS
Al tratar de analizar, la relacin entre dos variables, suponiendo la existencia del modelo causal, es
decir que una variable independiente influye sobre una dependiente. Una simplificacin importante
que se puede hacer es que las otras variables que pueden influir sobre la relacin permanecen
constantes, esto se llama Ceteris paribus con los dems factores relevantes, permanecen igual.
SUPUESTOS
Para el mtodos de mnimos cuadrados

1.- Linealidad: Se asume que el modelo de regresin es lineal en los parmetros:
yi = 0 + 1X + ui
Oviamente, la suposicin de linealidad, es una de las primeras, de no existir, no deberia siquiera
continuarse con el anlisis
2.- Los valores de X son fijos en los muestreos repetidos, se supone no estocstica, lo que
significa que el anlisis de regresin es un anlisis de regresin condicional. Y tiene una
distribucin normal
3.- El valor medio de u es igual a cero, esto es tambin el la media de los errores u condicionado a
X es cero.
4.- Homocedasticidad, la varianza de u debe mantenerse en cero a lo largo de x debe permanecer
uniforme.
Se refiere a la variabilidad de la varianza, respecto al eje x, la que debe permanecer constante.
5.- No autocorrelacin entre las perturbaciones.
6.- La covarianza entre ui y Xi es cero.
7.- El nmero de observaciones n debe ser mayor que el de parmetros.
8.- Variabilidad en los valores de X.
9.- El modelo de regresin est correctamente especificado.
10.- No hay multicolinealidad perfecta
ANALISIS DE LOS SUPUESTOS

Analicemos que representan los supuestos, tomemos un punto en particular:
yi = b0 + b1 xi + ui
Aqu ui denota el error para la observacin i, se supone que contiene otras variaciones de y no
explicadas por x, va ha ser la diferencia entre la y obtenida en la realidad respecto a la predicha
por la regresin lineal.
Al haber obtenido los recta que mejor ajusta la relacin (X , Y), es de esperarse que la sumatoria
de u resulte cero. Si lo queremos expresar en el lenguaje de los estadsticos, hablaremos de la
esperanza, y claramente la esperanza de u es cero. E(u) = 0 , con lo que se satisface el supuesto.
Que la esperanza de u sea cero, no dice nada respecto a su relacin con x. Es de recordar que u
encierra la fuerza de los factores inobservables de la poblacin.
Una medida natural de la asociacin entre dos variables aleatorias es el coeficiente de correlacin.
Si u y x no estn correlacionas es un gran paso para decir que u debe integrar la ecuacin de
regresin, pero no es suficiente ya que la correlacin mide solo la dependencia lineal entre u y x.
Por ejemplo u no se correlaciona con x sin embargo puedo correlacionarlo con una funcin de x
(x2), esta posibilidad no es aceptable para la mayor parte de los propsitos de la regresin, ya que
trae problemas de interpretacin del modelo y derivar propiedades estadsticas.
Una suposicin mejor atae al valor esperado de u dado x.
La suposicin es que el valor promedio de u no depende de x. Mejor se puede expresar como
E(u/x) = E(u) = 0
Para eso hay que recordar que si u es independiente de x, entonces E(u/x) es igual a E(u), y como
ya hemos visto antes E(u) = 0.
MINIMOS CUADRADOS ORDINARIOS (MCD)en Ingles OLS)
El calculo de los parmetros por medio del mtodo de mnimos cuadrados trae ciertas
consecuencias que e necesario recordarlas.
Propiedades algebraicas de los estadsticos de MCO.
1.- La suma, y por tanto el promedio maestral de los residuos de MCO, es cero, y lo expresamos:
n
u
i 1
Hay que recordar que esto es un consecuencia directa del clculo de los coeficientes b por el
mtodo MCO. Sin embargo no dice nada a cerca de un residuo de una observacin particular i .
2.- La covarianza muestral entre los regresores y los residuos del MCO es cero. De esto se deriva
de que x y u no deben de tener correlacin, es la condicin de primer orden.
n
x u
i 1
3.- Aqu i denota el error para la observacin i, es la diferencia entre la yi obtenida en la realidad
respecto a la i predicha por la regresin lineal. Por lo que puede escribirse:
yi = i + i
Para entender mejor lo que representa cada uno de estos valores, podemos hacer la siguiente
explicacin.
Continuando con nuestro ejemplo, supongamos que efectivamente deseamos evaluar la influencia
de la edad sobre la Presin Arterial Diastlica (PAD),
Se toma datos de 8 personas:
INDIVIDUO EDAD PAD
1
0
46
2
10
50
3
20
55
4
30
59
5
30
59
6
40
65
7
50
70
8
60
76
Lo primero que deseamos es estimar los valores de b,
Se puede calcular b1, es igual a cov(x,y) / var(x)
La cov(x,y):
INDIVIDUO EDAD (X-Xp) PAD (Y-Yp) (X-Xp)(Y-Yp)
1
0
-30
46
-14
420
2
3
4
5
6
7
8
10
20
30
30
40
50
60
-20
-10
0
0
10
20
30
50
55
59
59
65
70
76
-10
-5
-1
-1
5
10
16
200
50
0
0
50
200
480
La cov(x,y) = (X-Xp)(Y-Yp) / (n-1)

La cov(x,y) = 1400 / (8-1) = 1400 / 7 = 200
La var(x)
INDIVIDUO EDAD (X-Xp) (X-Xp)2
1
0
-30
900
2
10
-20
400
3
20
-10
100
4
30
0
0
5
30
0
0
6
40
10
100
7
50
20
400
8
60
30
900
La var(x) = (X-Xp)2 / (n-1)
La var(x) = 2800 / (8-1) = 2800 / 7 = 400
b1 = cov(x,y) / var(x) = 200 / 400 = 0.5
si
b0 = Y - b1 X
b0 = 60 (0.5)*30 = 60 - 15 = 45
Significa que la presin arterial diastlica es 45 mm Hg. Al momento de nacer (edad cero) o
intercepto. Y el incremento es a razn de 0.5 (medio) mm Hg por ao de incremento de la edad.
Con lo que quedara resulto el modelo.
PAD = 45 + (0.5 )* EDAD.
De esta manera podramos calcular la PAD esperada para cualquier edad, recuerde que este es un
valor solo para el ejercicio. Para verdaderos valores puede usted ver las tablas
Ahora podemos analizar as estos hechos:
Si es que no sabemos la edad de un individuo podramos aceptar que su PAD, ser en promedio
60 mm Hg.
Pero si tenemos su edad, podramos hacer un mejor estimado y calcular por medio de nuestro
modelo la PAD, que le corresponde de acuerdo con la edad.
Ahora podemos calcular los valores predichos, es decir aquellos valores de i, para cada valor de
x, para eso utilizamos la ecuacin : PAD = 45 + (0.5 )* EDAD, obtenindose la siguiente tabla
INDIVIDUO EDAD PAD
1
0
46
2
10
50
3
20
55
4
30
59
i
45
50
55
60
ui
1
0
0
-1
5
30
59 60
-1
6
40
65 65
0
7
50
70 70
0
8
60
76 75
1
Ahora debemos responder a las siguientes preguntas,
Cmo determino toda la variabilidad de y (PAD),?
Caigo a la cuenta que eso est dado por la suma de (y i y)2,
INDIVIDUO EDAD
PAD (y-)2
196
1
0
46
100
2
10
50
25
3
20
55
1
4
30
59
1
5
30
59
25
6
40
65
100
7
50
70
256
8
60
76
Esta variacin suma 704. Esta variacin puede descomponerse en varias, la predicha por el
modelo y la de los residuos.
INDIVIDUO EDAD
PAD (- )2
225
1
0
46
100
2
10
50
25
3
20
55
0
4
30
59
0
5
30
59
25
6
40
65
100
7
50
70
225
8
60
76
Esta suma de cuadrados es 700, es la suma de cuadrados del modelo, y de igual manera se puede
calcular la suma de cuadrados de los residuos.
INDIVIDUO EDAD PAD
1
0
46
2
10
50
3
20
55
4
30
59
5
30
59
6
40
65
7
50
70
8
60
76
ui 2
1
0
0
1
1
0
0
1
Es 4
Ahora podemos llevar a cabo otra parte del anlisis, y hacer una anlisis de varianzas, ya que
podemos calcular la varianza del modelo y dividirla entre la varianza de los residuos y analizar si
son iguales o diferentes,
F = Var(modelo) / Var(residuos) =
F= (700 /1) / (4 / 6) = 1050

F tiene p << 0.0001.
Entonces hay una relacin lineal entre las variables.
Otro clculo que se debe hacer es el coeficiente de determinacin R 2,
R2= variacin del modelo / variacin total = 700 /704 = 0.994 o sea 99.4%.
VALORES ESPERADOS Y VARIANZAS DE LOS ESTIMADORES

MCO (Mnimos cuadrados ordinarios).
Se ha definido el modelo poblacional : yi = 0 + 1X + ui , y afirmamos que la suposicin
fundamental para que el anlisis de regresin resulte til es que el valor esperado, de u para cada
valor de x sea cero. Ahora consideremos a los estimadores b0 y b1 de los parmetros 0 y 1 que
aparecen en el modelo poblacional.
Analizaremos por que los estimadores b0 y b1 son insesgados, para ello analizaremos las
suposiciones para la Regresin Lineal simple, (RLS) para su uso poblacional:
Suposicin RLS 1: Lineal en los parmetros
En el modelo poblacional, la variable dependiente y, se relaciona con la variable independiente x y
el error (o perturbacin) u as:
y= 0 + 1 x +u
donde 0 y 1 son los parmetros, respectivamente, de la intercepcin y la pendiente poblacional.
Suposicin RLS 2: Muestreo Aleatorio
Podemos tomar una muestra aleatoria de tamao n { (xi,yi) : i = 1,2, , n } del modelo poblacional
Al reescribir nuestra ecuacin en trminos i, tenemos:
yi= 0 + 1 xi +ui
Suposicin RLS 3: Media condicional cero
E(u/x) = 0
Con el fin de obtener estimadores insesgados de 0 y 1 , necesitamos imponer la suposicin de
que la media condicional es cero.
Esta suposicin implica:
E ( u i / xi ) = 0
Esto se lograra, cuando en los muestreos fijamos x y seguidamente se escoge al azar y, la
siguiente muestra se toma los mismos x y se escoge y.
Suposicin RLS 4: Variacin Muestral en la variable independiente
En la muestra, las variables independientes x, i = 1,2, , n, no son todas iguales a una misma
constante. Se requiere cierta variacin de x en la poblacin.
Esta suposicin implica que (x - )2 > 0, esta en una suposicin, menos importante, implicara:
que x debe tomar varios valores, que no se puede estimar b 1,
INSESGAMIENTO DE LOS ESTIMADORES MCO, bajo las suposiciones RLS 1 a 4.
E( b0) = 0 y E(b1) =1
Si b1 = (xi - ) (yi- ) / (xi - )2
b1 =
b1 =
b1 =
b1 =
b1 =
b1 =
(xi - ) yi / (xi - )2 , reemplazando yi

(xi - )(0 + 1x i + ui) / (xi - )2
[0 (xi - ) + 1 (xi - )x i + (xi - )ui ] / (xi - )2
[0 (0) + 1 (xi - )2 + (xi - )ui ] / (xi - )2
1 (xi - )2/ (xi - )2 + (xi - )ui / (xi - )2
1 + (xi - )ui / (xi - )2
Si E(u x) = 0 implica que (xi - )uiv= 0

Entonces
b1 = 1
El estimador b1 de 1 ser insesgado.

Suposicin RLS 5: Homocedasticidad
Var(u/x) = 2
Debemos de subrayar que la suposicin de homocedasticidad es muy distinta que la supocisin
que la media condicional es cero. La suposicin RLS3 involucra el valor esperado de u, en tanto
que la suposicin RLS 5 concierne a la varianza de u, en ambos casos condicionado a x. Recuerde
que para demostrar el insegamiento de los coeficientes, no necesitamos a RLS5. esta solo
simplificva los calculos.
Como la var(u/x) = E(u2/x) (E(u/x))2 , y E(u/x) = 0, var(u/x) = E(u2/x)= 2
Lo que significa que 2 es la varianza incondicional de u, y se le denomina Varianza del error, o de
la perturbacin. De esto podemos llegar a establecer la
Var (b1 )
2
2
( xi x )2 sx2
Pero se debe analizar para responder:

1.- Cul es el modelo matemtico que mejor se ajusta? es una funcin lineal? una curva?
2.- Dado un modelo determinado, De que manera se puede ajustar los datos? Si es un modelo
lineal cual es la mejor lnea que se ajusta a a los datos?
ESTRATEGIA GENERAL
1.- Empiece asumiendo que el modelo lineal es el adecuado, posteriormente esta asuncin ser
investigada.
2.- Escoja la lnea que mejor se ajusta
3.- Determine si la lnea hallada ayuda significativamente a predecir a Y, es necesario que chequee
si se ajusta a algunas condiciones como: La normalidad.
4.- Verifique si el ajuste a la lnea es correcto, haga pruebas de bondad de ajuste.
5.- Si no hay ajuste escoja otra curva, le ayudar el grfico.
6.- Contine con el nuevo modelo hasta encontrar el adecuado.
ASUNCIONES PARA EL MODELO LINEAL
1.- Existencia. Para cada valor de X, Y es una variable aleatoria, con media y varianza finitas.
2.- Independencia. En valor de Y es estadisticamente independiente de otro.
3.- Linealidad. El valor medio de Y es una funcin lineal de X
Y= b0 + b1X + E
Donde E ser los residuos.
4.- Homocedasticidad. La varianza de Y es la misma para cualquier X
5.- Distribucin normal. Para cualquier valor fijo de X , Y se distribuye normalmente.
DETERMINACION DE LA MEJOR RECTA
1) Mtodo de los cuadrados mnimos, determina la mejor recta que se ajusta a los puntos,
teniendo como referencia a la menor distancia de los puntos a la recta, en forma vertical.
2) Mtodo de la mnima varianza, estima los coeficientes no sean sesgados.
3) Solucin al problema de ajuste.
Cov(X,Y)
b1= ---------Var(X)
b0= - b1X
PRECISION O ERRORES ESTANDAR DE LOS MINIMOS CUADRADOS ESTIMADOS

Deseamos estimar los valores de , sin embargo en base la muestra y el mtodo de Mmimos
cuadrados se ha obtenido b, como bien recordamos es un estimador del verdadero valor. Este va
depender de la muestra, sin embargo deseamos calcular una medida de "confiabilidad" o precisin
de los estimadores.
MEDICION DE LA CALIDAD DE AJUSTE (SSE) A LA RECTA
SSE = (Yi - i)
Si hay una correlacin perfecta, la diferencia es cero.
REGRESION MULTIPLE
En el modelo de regresin mltiple se asume que hay X1, X2, ..., Xn variables independientes y la
variable dependiente Y. Suponindose que hay una relacin del tipo:
Y = b0 + b1X1+ b2X2, ..., bnXn
Es apropiado usarlo cuando:
1.- Caracterizar la relacin entre variables independientes y dependiente
2.- Buscar una frmula cuantitativa
3.- Controlar los efectos de una variable de control
4.- Para determinar cuales variables independientes son importantes y cuales no son importantes.
5.- Para determinar el mejor modelo matemtico que describe la relacin
6.- Para comparar varios niveles de regresin entre las variables
7.- Medir los efectos de interaccin entre variables independientes
8.- Estimar los valores de los coeficientes de regresin
SUPUESTOS BASICOS DEL ANALISIS DE REGRESIN MLTIPLE

1.- Tamao de la muestra adecuado
2.- Variable dependiente ha de ser continua
3.- Inclusin de variable independientes relevantes
4.- Linealidad: la relacin de cada variable independiente y la dependiente debe ser lineal
5.- Normalidad: La distribucin de los datos de la variable dependiente y las independientes, debe
ser normal
6.- Aditividad: Los efectos de las variable independientes en la dependiente de deben de poder
sumar
7.- Homocedasticidad: o igualdad de varianza en trmino de error en la serie de variables
independientes
8.- Ausencia de colinealidad (o de correlacin ) entre las variables independientes
9.- Independencia de los trminos de error
1.- TAMAO DE LA MUESTRA ADECUADO

Como la finalidad del anlisis estadstico, es realizar una inferencia vlida a partir de una muestra,
entonces es de esperarse una inferencia correcta es posible. Uno de los primeros requisitos ser,
tener una muestra adecuada, debiendo la muestra representativa, y tener tamao adecuado.
La representatividad esta dado, por el hecho que la muestra reproduzca las caractersticas de la
poblacin, incluida su heterogeneidad.
Respecto al tamao adecuado, se debe tener en cuenta el nmero de variable independientes, los
autores recomiendan no menos de 5, o la mayora recomienda 10 o incluso algunos recomiendan
20 observaciones por cada variable, cuando se va hacer un anlisis secuencial se requiere ms,
40 casos por cada variable, el no cumplir con los nmeros nos dar una estimacin con intervalos
muy amplios.
Si se va ha llevar a cabo validacin del modelo mediante el procedimiento de "validacin cruzada"
el tamao de muestra debe ser mayor an, La muestra se dividir en dos submuestras: Una
muestra de anlisis y la otra muestra para la validacin, la del anlisis sirve para obtener el modelo
y el cual se valida con la otra muestra. Usualmente se toma un 60% para la muestra de anlisis y
40% para validacin, de igual modo se puede fijar los estratos de la muestra. La muestra de
anlisis debe cumplir con todos los requerimientos.
Es importante que se verifique la suficiencia de casos en cada submuestra, as mismo se tenga en
cuenta a los valores sin respuesta, ya que puede afectar el tamao de la muestra.
El incumplimiento de las proporciones puede mejorarse mediante:
a) Eliminar algunas variables independentes, aquellas que tienen menor capacidad predictiva.
Aquellas que tengan menor correlacin con la variable dependiente o si tienen un nmero muy
alto de casos sin respuesta.
b) Convinacin de variables independientes en una sola, es menos drstica y suele suponer que
la prdida de informacin es menor.
2.- VARIABLE DEPENDIENTE HA DE SER CONTINUA

La tcnica de mnimos cuadrados ordinarios (OLS), exige que la variable dependiente sea del tipo
nmero real, (continua, medida a nivel de intervalo o razn), Las variables discretas o categricas
ordinales, pueden ser utilizadas siempre y cuando no tengan solo pocas categoras, o los valores
solo estn en pocas categorias. Nota si la variable es continua, pero ella contiene agrupamientos
naturales, para los cuales el comportamiento es completamente diferente, tal vez es inadecuado
utilizar la variable como continua. (la edad, no es igual para un neonato, lactante, preescolar )
Las variables independientes en cambio pueden ser muchas ms, pudiendo ser continuas o
dicotmicas.
Si la variable es categrica, dicotmica los valores que deben tener es 0 y 1, y si es nominal, se
debe crear las variables ficticias (dummy), ya que entre las categoras no siempre hay una mtrica,
incluso esto se debe hacer en variables ordinales, si es que no hay una mtrica adecuada o las
categoras tienen un significado muy diferente una respecto a la otra. Las variables ficticias
utilizadas en la regresin sern el nmero de categoras menos 1. Existir una categora que ser
la referencia, ella no se coloca en la regresin, los paquetes estadsticos usualmente los asumen
por defecto. Es necesario que la categora de referencia sea una categora bien definida (no debe
ser otros, no respuesta,...), que tenga el nmero suficiente de observaciones (no tengan
representacin en la muestra). Las variables ficticias deben tener valores 0 y 1. El grupo de
referencia de la categora debe ser 1 y los dems 0.
Las variables ordinales, si es que no tienen un problema mayor en la mtrica, deben ser colocados
sin cambios en la regresin. Se pueden tratar como continuas. El cdigo numrico debe ajustarse a
la categora. Si no se tiene seguridad se debe tratar como nominal, y usar la dummy. Aunque con
esto se esta perdiendo la informacin del orden.
Si las variables incluso continuas son curvilineas, se puede crear otras variable o categorizar y usar
ficticias. El ejemplo anterior de la edad.
3.- INCLUSIN DE VARIABLE INDEPENDIENTES RELEVANTES

La solucin de la regresin depende de las variables independientes que participen en el anlisis.
Es importante revisar que se han incluido variables relevantes y se ha dejado de lado las variables
irrelevantes.
Para establecer una regresin , como en la generalidad de los anlisis estadsticos, se busca un
modelo parsimonioso. Es decir un modelo explicativo que contenga el menor nmero de variables
predictoras (independiente). Pero stas deben mostrar "relevancia" en la prediccin de la variable
dependiente. Los estadsticos afirman "El aadir variables innecesarias causa una prdida en
precisin de los coeficientes estimados en las variable relevantes" (Schroeder 1986). Ello se debe
al aumento del error tpico de la estimacin, que ocaciona la incorporacin de variable irrelevantes,
sin que aquello se traduzca en una mejora en proporcin de varianza de la variable dependiente
explicada por las independientes, medida mediante el coeficiente de determinacin R 2 . Por esta
razn fundamental se desaconseja la inclusin de muchas variables independientes en el anlisis
de regresin. Para tal finalidad se debe:
a) Comprobar cuanto mejora la explicacin de la variable dependiente el hecho de que se incluya
una nueva variable independiente (incremento del R2 )
b) Mediante la realizacin de un contraste que permita conocer si el efecto de cada variable
independiente es estadsticamente significativo.
4.- LINEALIDAD
Un supuesto de fondo para la utilizacin de la regresin lineal, es que la relacin entre cada
variable independiente y la dependiente es lineal. Significa que el efecto de cada variable
independiente (Xi) en la dependiente (Y) es el mismo sea cualquiera el valor de la variable
independiente. O dicho de otra manera, "para cada variable independiente X i , la cantidad de
cambio en el valor medio de Y asociado con un aumento de una unidad X i, manteniendo todas la
otras variables independientes constantes, es el mismo sin considerar el nivel de X i".
Por lo contrario, si se observa que el cambio en el valor medio de la variable dependiente asociado
con el incremento de una unidad en la variable independiente vara con el valor de la variable X i se
dice que la relacin entre la variable dependiente y la independiente es no lineal. Entonces el
modelo de regresin no logra captar "el modelo sistemtico de relacin entre las variables
dependientes e independientes" (Fox 1991)
El cumplimiento de este supuesto se puede comprobar en forma visual, con la ayuda de los
grficos de regresin parcial y los residuos.
A) GRAFICOS DE REGRESION PARCIAL
Son muy tiles para conocer que variables concretas incumplen el supuesto de linealidad.
Muestran para cada variable independiente su relacin con la dependiente.
Para que se cumpla el supuesto de linealidad, la nube de puntos correspondiente a los valores de
Xi e Y deben estar alrededor de una lnea recta.
Si la recta es creciente ambas variables se hallan relacionadas positivamente. Si es decreciente la
relacin de Xi e Y en inversa, mientras Xi aumenta Y decrece .
Si la nube de puntos no sigue una lnea recta, entonces la regresin es no lineal. Puede una
transformacin lograr convertirla en lineal.
Si el grfico de puntos no sigue ninguna lnea, es una nube de puntas redondeada, significa que no
existe ninguna relacin. (r=0).
Los grficos de regresin parcial pueden confeccionarse con los datos originales, o tambin con
las variables estandarizadas (se han convertido en Z, ) mediante la resta de la media y divisin
entre la desviacin estndar. Usualmente se toman los valores de Z de -3 a +3. Es til para la
deteccin de los datos atpicos.
weigth heigth
100
150
200
P es o
250
300
350
. scatter
30
40
50
Talla
60
70
80
B) GRAFICOS DE RESIDUOS.
A diferencia de los grficos de regresin parcial, el grfico de residuos no se limita a relaciones
bivariadas, por lo contrario busca los efectos combinados de todas las variables predictoras
incluidas en la ecuacin de regresin con la dependiente. Para lo cual se representan los residuos
estandarizados o los estudentizados, contra los valores predichos de la variable dependiente a
partir de la ecuacin de regresin (). El valor de predicho se obtiene de reemplazar los valores
de las variable independientes en la ecuacin, la diferencia respecto al valor Y obtenido es el
residuo (Ei). Si a Ei lo dividimos por la desviacin estndar, obtenermos el residuo estandarizado
ESi . Los residuos estudentizados se caracterizan por seguir la distribucin t de student con N-p-1
grados de libertad, siendo N el tamao de la muestra, p el nmero de las variables independientes.
El grfico difiere de un grfico de regresin parcial en dos aspectos importantes:
1.- La muestra los valores de los residuos de la prediccin contra la prediccin, y no Y o X i.
2.- la nube de puntos debe ser horizontal y no ascendente o descendente.
El supuesto de linealidad se cumple cuando los residuos se distribuyen aleatoriamente alrededor
de la lnea horizontal que tiene como valor cero. Si la nube de puntos es una curva, no se cumple
con el supuesto de linealidad.
. regress weigth heigth
. predict r, resid
. scatter r weigth
Un grfico de residuo se realiza con los residuos estandarizados o estudentizados.
Berry y Feldman (1985) proponen una forma mas rigurosa, se toma varias submuestras que
incluyen un rango de valores para la variable independientes. Si cada submuestra , por separado
genera estimaciones del intercepto y de coeficientes de pendientes que difieren sustancialmente a
travs de las submuestras, se considera que las dos variables tienen una relacin no lineal.
El supuesto de linealidad no supone la invalidacin del anlisis de regresin, aunque si lo debilita,
la relacin no queda captada adecuadamente en el coeficiente.
Algunos de los remedios contra la no linealidad:
a) Aplicar mtodos de regresin no lineal como la polinomial
b) La trasnformacin logartmica de la variable independiente (logX), la que no dificulta la
interpretacin,
5.- ADITIVIDAD
La prediccin de la variable dependiente exige que los efectos de las distintas variables
independientes puedan sumarse entre s. Esto significa que para cada variable independiente
incluida en el modelo de regresin, la cantidad de cambio que provoca en la variable dependiente
ser el mismo, indistintamente de los valores de la variable independientes incluidas en la ecuacin
de regresin. Si por lo contrario, si se observa que su influencia se ve afectada por los valores que
presenten otras variables independientes, se est frente a un modelo no aditivo (o interactivo). Ello
sucede cuando las variables independientes interactuan unas contra las otras, al influir en la
variable dependiente.
Berry y Feldman (1985) proponen diferenciar tres variedades de modelos de regresin no aditivos:
a) Modelo interactivo de variable ficticia. Cuando una de las variables independientes del modelo
es dicotmica, el modelo es interactivo si la variable independiente est linealmente
relacionada con la variable dependiente, pero para ambos valores de la variable ficticia
dicotmica, la pendiente de las recta de regresin y el intercepto que caracterizan la regresin
lineal entre la variable dependiente y las independientes diferirn segn sea el valor de las
variables ficticias dicotmicas. Entonces estos coeficientes son diferentes para cada valor de la
variable independiente dicotmica.
b) Modelo multiplicativo, Si dos variables independientes, medidas a nivel de intervalo,
interactan en la variable dependiente, de modo que la pendiente de la relacin entre cada
variable independiente y la dependiente est relacionada linealmente con el valor de la otra
variable independiente.
c) Modelo interactivo no lineal. La resolucin de este tipo de modelo exige tomar logaritmos en
ambos lados de la ecuacin de regresin. Es decir, tanto para la varaible dependiente como
para cada una de las variables independientes incluyendo la constante y el trmino de error.
En consecuencia, si se observa que el cambio en el valor de Y, relacionado con un pequeo
aumento de Xi depende del valor Xi, significa que se est ante un modelo no lineal. Por el
contrario, cuando el cambio en Y, relacionado a un pequeo incremento de Xi, est relacionado con
el valor de otra variable independiente, el modelo es interactivo.
Cuando se tiene que en un modelo se coloca una nueva variable independiente producto de dos
variables existentes y el incremento en la prediccin es significativo, entonces resulta que el
modelo no es sumativo sino multiplicativo.
6.- NORMALIDAD
El supuesto de normalidad es comn a otras tcnicas de anlisis multivariante. Consiste en la
correspondencia de los datos (tanto relativos a la variable dependiente como las independientes)
con la distribucin normal. Ello es importante porque permite el uso de estadsticos "F" de
Snedecor y "t" de student, en la comprobacin de la significatividad del modelo de regresin en su
conjunto ("F") y de sus coeficientes por separado ("t").
El inclumplimiento es mas probable con tamaos de muestra pequeos. La forma mas sencilla de
comprobar son los grficos:
A) HISTOGRAMA DE RESIDUOS
Incluye los residuos estandarizados, junto con las frecuencias de la variable. Para que el supuesto
de normalidad se satisfaga, los residuos (aquellos datos que no logran ser explicados por el
anlisis de regresin, al no coincidir los valores observados con los predichos por el anlisis de
regresin) han de estar normalmente distribuidos. El histograma debe ser en forma de campana de
Gauss, con media 0 y desviacin estndar 1.
B) GRAFICO DE PROBABILIDAD NORMAL
Algunas veces lo referimos como grfico P-P. Difiere del histograma de residuos en que tambin
puede aplicarse cuando el tamao de muestra es pequeo. En el se compara la distribucin
observada de los residuos estandarizados (o tipificados) con la esperada bajo supuesto de
normalidad. Para ello se representan ambas distribuciones de probabilidad acumulada: la esperada
y la observada. Si ambas distribuciones coinciden, se obtiene una recta que forma un ngulo de
45 grados. Lo que significa que es una distribucin normal. La salida de la normalidad es s los
datos se alejan de la diagonal.
Cuando la lnea de puntos cae por debajo de la normal, la distribucin es platocrtica, a mas
separacin es mayor la distancia. Esta distribucin se caracteriza por tener una dispersin
importante de la media, lo cual dificulta la representatividad. La distribucin de los datos presenta
una forma achatada o plana, con escasos valores en el centro. El valor de la curtosis
correspondiente es un valor negativo. Al contrario si la lnea se sita por encima de la diagonal, la
distribucin es leptocrtica , sus valores estn muy concentrados alrededor de la media, al haber
muchos casos en el centro; su dispersin respecto a la media aritmtica es muy pequea
favoreciendo su representatividad, El valor de la curtosis es positivo.
Un arco sencillo por debajo o encima de la diagonal indica asimetra (negativa o positiva) . La
asimetra indica una agrupacin de los datos. Si es por encima de la diagonal, la distribucin es
asimtrica a la derecha o con sesgo positivo, si los valores se situan a la izquierda de la curva, al
haber en la dsitribucin mayor representacin de los valores inferiores a la media . El valor de
asimetra correspondiente es mayor de cero es positivo.
Un arco por debajo de la diagonal informa, en cambio, que la distribucin es asimtrica negativa ( o
con sesgo negativo), tanto ms, cuanto ms se distancie la linea de puntos de la diagonal, En las
distribuciones asimtricas negativas la agrupacin de los valores se produce a la derecha de la
curva, al haber mayor presencia de valores superiores a la media en la muestra analizada. La
asimetra en este caso toma un valor negativo.
Al detectarse asimetra debe examinar cada variable para comprobar en cuales se incumple el
criterio de normalidad.
C NORMALIDAD POR PRUEBAS ESTADISTICAS
La normalidad tambin se puede evaluar con pruebas estadsticas,
Estadstico de Shapiro-Wilks , Es muy utilizado, se usa para muestras del tamao normal (inferior a
50 unidades). Su valor se obtiene a partir de los valores esperados de los residuos ( E i = Yi - i) de
una distribucin nirmal estndar. El rango de valores posibles va desde 0.0 a 1.0. un W = 1.0
significa el cumplimiento del supuesto de normalidad, mientras que si W =0.0 es su incumplmiento.
Como los paquetes ademas se acompaan del valor del p, esto es mas fcil de interpretar.
La comprobacin del supuesto de normalidad tambien puede hacerse con el estadstico D de
Kolmogorov-Smirnov. Pero unicamente cuando se analiza un tamao de muestra elevado. La
hitesis nula se rechaza en forma inversa que el previo, para valores elevados de D o un valor
pequeo de probabilidad.
Los remedios mas aplicados contra el incumplimiento del supuesto de normalidad multivariante
son:
a) La transformacin logartmica de la variable dependiente (log Y), sobre todo, cuando la
distribucin de los residuos muestra una asimetra positiva masiva. Si dicha asimetra es
mediana se puede aplicar la raiz cuadrada
b) La transformacin cuadrada, si la asimetra es negativa.
c) Transformacin inversa, cuando la distribucin de los residuos muestra un incumplimiento
grave del supuesto de normalidad.
Es de comentar que para algunos autores (Nourisis 1986) el estadstico "F", empleado para la
comprobacin de la hiptesis de significancia del modelo de regresin en forma conjunta, es
bastante insensible a las salidas "moderadas" de la normalidad. Por ello recomienda adoptar los
remedios referidos solo cuando el incumplimiento de los supuestos de normalidad sea importante.
Otros (Afifi y Clark 1990) proponen que las transformaciones para alcanzar normalidad no se lleven
a cabo " si la desviacin tpica dividida por la media es inferior a 1/4" . "Las transformaciones son
mas efectivas al inducir normalidad cuando la desviacin tpica de la variable no transformada es
grande relacionada con la media ".
Se debe comparar la regresin obtenida con la transformacin con la sin transformar para evaluar
la ganancia.
7.- HOMOCEDASTICIDAD
Para que sea posible la medicin correcta de la relacin de la variable independiente y
dependiente, por medio de la regresin lineal es necesario que la varianza de los valores de la
variable dependiente permenezca sin cambios a lo largo del recorrido de la variable independiente
(predictora). A esta caracterstica se le llama homocedasticidad o igualdad de las varianzas de los
trminos de error residual en la serie de los valores independientes. La variable dependiente ha de
mostrar niveles iguales de varianza en los distintos valores de las variables independientes . En
cambio, si la variabilidad en los trminos de error de las distintas variables independientes no es
constante, se dice que los residuos son heterocedsticos. Ello significa que su magnitud (de los
resuduos) aumenta o disminuye en funcin de los valores que adopten las varaibles
independientes, o segn cuales sean los valores predichos. La varianza de la variable dependiente
se concentra en unos valores concretos de las variables independientes, lo que provoca que la
prediccin del valor de la variable dependiente sea mejor (de existir heterocedasticidad), no en
todos, sino slo en determinados valores de la variable independiente.
A pesar que este es uno de los supuestos que mas se incumple, siempre debe valorarse. Para que
el anlisis de la relacin de dependencia sea correcto, la varianza de la variable dependiente no ha
de concentrarse en unos valores determinados de las variables independientes. Ello no solo
ocaciona diferencias en la prediccin del valor de la variable dependiente, sino en general se
relaciona con la obtencin de pruebas de significancia ( con los estadsticos "t" y "F") cuyos
resultados sean incorrectos. La posibilidad de que esto acontezca es mayor cuando se anlizan
datos seccionales (o transversales) que longitudinales; por ejemplo, en una encuesta convencional,
De acuerdo con Gujarati " En datos seccionales, se suele tratar con miembros de una poblacin en
un punto determinado en el tiempo, tales como consumidores individuales o familias, empresas,
industrias, o subdivisiones geogrficas, tales como estados o paices, ciudades, etc. Lo que es mas
estos miembros pueden ser de diferentes tamaos tales como empresas pequeas o medianas o
grandes, o de renta alta, media o baja. De hecho, en la informacin de corte transversal que
comprende unidades heterogeneas, la heterocedasticidad puede ser la regla mas que la
excepcin. En los datos de series temporales, por otro lado, las varibles tienden a ser de ordenes
similar de magnitud porque generalmente se recogen los datos para la misma entidad a lo largo de
un periodo de tiempo".
La homocedasticidad suele relacionarse con el supuesto de normalidad, De hecho se observa que
" cuando el supuesto de normalidad multivariable se satisface, las relaciones entre las variables
son homocedasticas " (Tabachnick y Fidell, 1989). En general la heterogeneidad es mas probable
que acontezca cuando se da algunas o varias de las situaciones siguientes:
a) Se incumple el supuesto de normalidad
b) Las variables no se encuentran directamente relacionadas
c) Algunas de las variables son asimtricas mientras que otras no lo son
d) En determinadas variables independientes, las respuestas se concentran en un nmero
limitado de valores.
Berry y Feldman (1985) destacan tres situaciones en las cuales la heterocedasticidad se convierte
en problema:
a) Cuando la variable dependiente est medida con error, y la cantidad de error vara con el valor
de la variable independiente. Por ejemplo una encuesta, la unidad de anlisis habitual es el
individuo y algunos de ellos pueden aportar una informacin mas adecuada que otros.
b) Cuando la unidad de anlisis es un "agregado" y la variable dependiente la forma un promedio
de valores para los objetos individuales que componen las unidades agregadas. Por ejemplo,
el nivel de renta media en alguna unidad agregada, para determinar el nivel de renta media,
difiere a travs de las unidades, la adecuacin con la que sta medida la variable dependiente
tambin variar. Los niveles de renta medios estimados a partir de una muestra grande de
individuos suelen caracterizarse por un menor error de medicin que las medias obtenidas de
muestras pequeas. Esta aseveracin se deduce del conocimiento de que la varianza de la
distribucin de una media muestral decrece cuando el tamao de muestra aumenta.
c) La heterocedasticidad tambin puede preverse en las situaciones donde existe variacin

significativa en la variable dependiente. La renat anual de la familia es la variable
independiente y sus gastos anuales en vacaciones la dependiente. Lo mas razonable es
esperar que en las familias con rentas bajas el gasto medio en vacaciones sea igualmente
bajo. La variacin en los gastos en todas las familias es, en consecuencia, bastante pequea.
Debido a que las familias de rentas bajas han de gastar el grueso de su renta en cubrir las
necesidades bsicas, dejando muy pocos fondos para gastar en vacaciones. Pero, cuando la
renta familiar aumenta, el gasto medio destinado vacaciones no aumenta necesariamente. Lo
que resulta en variacin importante en los valores de la variable dependiente. Esta situacin se
conoce como heterocedasticidad.
Explicacin de la heterocedasticidad, seria por:
La relacin de variables es heterosedstica. La naturaleza condiciona ese tipo de relacin.
Errores de medicin.
Por la presencia de un valor atpico.
El modelo inadecuado, deja de lado una varible importante.
Interaccin importante con una variable independiente incluida en el modelo con otra ausente del
mismo. Para el ejemplo previo " podra argumentarse que la cantidad de gasto de una familia para
vacaciones est determinada no solo por la renta de la familia, sino tambien por la satisfaccin que
sus miembros obtienen de las vacaciones , y el nivel de satisfacin y de renta puede esperase que
interactuen al determinar los gastos en vacaiones: entre las familias que obtienen poca satisfaccin
de vacaciones podemos esperar que la renta tenga un debil efecto en los gastos en vacaciones,
pero cuando la satisfaccin obtenida aumenta, se puede esperar que la renta tenga un efecto mas
fuerte en el nivel de gastos"
En resumen, si se persiste en utilizar los procedimientos de prueba usuales, a pesar de la
presencia de heterocedasticidad, las conclusiones a las cuales se llegue o las inferencias
que se hagan pueden ser erroneas
Para detectar se puede hacer uso de los grficos de residuos.
Si no hay informacin a priori o emprica sobre la naturaleza de la heterocedasticidad , en la
prctica se puede llevar a cabo el anlisis de regresin bajo los supuestos de que no hay
heterosedasticidad y luego hacer un examen post morten de los residuales elevados al cuadrado,
Para ver si ellos exhiben un patrn sistemtico. Usualmente se grafica respecto a la variable
resultado, pero tambien se pueden hacer frente a una de las variables predictoras.
Sin embargo si se desea una aproximacin exacta se puede hacer uso de los estadsticos:
a) Test de Levene. En el artculo " Robust test for equality of variances" (1960), donde se aplica
un anlisis de varianza sobre el valor absoluto de las puntuaciones de desviacin. Se trata de
medir la igualdad de varianzas para un nico par de variables (simple o compuestas). Y se
comprueba que su robustez mejora cuando se sustituyen las desviaciones alrededor de la
mediana ( Y ij - Yj), por las desviaciones alrededor de la media (Yij - Yj). La significatividad se
comprueba por el estadstico "F". ste se aplica para determinar si la hiptesis nula (Ho) de
homogenicidad de la varianza debe rechazarse. Esta hiptesis se rechaza cuando el
estadstico de levene es significativo (habitualmente, p < 0.05) Lo que supone el
incumplimiento del supuesto de homocedasticidad. De acuerdo con Hair, "el uso de esta
prueba es particularmente recomendable ya que es la menos afectada por la desviaciones de
la normalidad, otro de los problemas que ocurre con frecuencia en la regresin"
b) El test de Goldfield y Quant. Consiste en la reordenacin de la "n" observaciones de la muestra
de forma creciente, de acuerdo con las varibles independientes que se sospeche que covariar
con la varianza del trmino de error. Despues se elimina el 25% de los casos de centro de la
distribucin . Igual nmero se elimina tambin de los casos que se hallan por debajo y por
encima del medio de la distribucin. Requiere en consecuencia, la divisin de las
observaciones en dos grupos. Para cada uno de ellos se realiza un anlisis de regresin OLS.
Despues se comparan sus respectivos residuos cuadrados(RSS) en relacin con sus grsdos
de libertad. Si el cociente entre ambos resulta ser significativo de acuerdo con el estadstico de
comprobacin F, puede afirmarse, al nivel de significatividad elegido, el incumplimiento del
supuesto de homocedasticidad.
c) La d de Durbin-Watson.
8.- AUSENCIA DE COLINEALIDAD

Para hacer posible la medicin de los efectos de la variable independiente sobre la dependiente es
imprescindible la ausencia de colinealidad; es decir, de correlacin entre las variables
independientes incluidas en el modelo de regresin.
La existencia de correlacin elevada entre dos o mas variables independiente (multicolinealidad)
repercute de manera directa, en los errores tipicos de los coeficientes de regresin de dichas
variables. Estos se ven idenbidamente aumentados , lo que provoca que la estimacin de los
coeficientes sea menos precisa (coeficiente infiables), con el consiguiente aumento de los
intervalos de confianza . El modelo de regresin puede ser significativo (en virtud de la razn F, que
mide la significancia de los coeficientes de correlacin cuadrada mltiple o coeficientes de
determinacin R2, y en cambio no ser significativo los coeficientes de regresin individuales de las
variables muy colineales que la componen.
La colinealidad elevada provoca un aumento en la variabilidad de los coeficientes de regresin
estimados (que informan sobre cual es la variacin de Y por cada unidad de variacin de Xi,
manteniendo constante las demas variables independientes del modelo). Este aumento del error
tpico del coeficiente supone un incremento en la varianza de Y (R2). Pero al mismo tiempo,
aumenta el error de estimacin, con la perdida de significancia estadstica de los coeficientes de
regresin de las variables muy colineales. Esta significancia se mide con estadstico t de student,
que se obtiene del coeficiente estimado dividido por el error de estimacin, de tal manera que al
aumentar el error, t es nos significativo.
La multicolinealidad no afecta la obtencin del modelo, si afecta la posibilidad de inferencia.
La multicolinealidad debe aceptarse que existe en grados, solo se convierte en problema cuando
es elevada.
La multicolinealidad puede detectarse en distintas fases del anlisis de regresin : en la parte
preliminar, en la matriz de correlaciones, durante su ejecucin, en los coeficientes de regresin y
en sus errores tpicos. Y mediante los estadsticos de tolerancia y el llamado factor de inflacin de
la varianza (FIV), que los detallamos.
LA MATRIZ DE CORRELACION
Muestra la correlacin de cada variable independiente por separado, con la depediente y tambien
con las demas independientes.
Un coeficiente de correlacin 0.00 indica la inexistencia de colinealidad, mientras que 1.00 la
existencia de una colinealidad completa.
A partir de 0.6 suele considerarse que la colinealidad puede traer problemas, si es mas de 0.80 se
dice que las variables se hallan muy correlacionadas.
Sin embargo hay que tener en cuenta otros factores, como el tamao de la muestra, en muestras
pequeas una correlcin de 0.70 puede afectar la estimacin de los coeficientes, y en una muestra
grande 0.85 puede no afectar.
Otras afirmaciones, " una correlacin de 0.5 entre dos variables predictoras tiene poco impacto
sobre el error tpico, pero una correlcin de 0.95 requiere tres veces el tamap de la muestra,
comparado con tener una correlacin cero. Con 0.99 se requiere 7 veces el tamao de muestra.
Entonces a partir de 0.95 se est ante un problema de colinealidad grave.
La existencia de multicolinealidad tambin puede detectarse durante el anlisis cuando se
observen errores tpicos elevados en coeficientes de regresin de variables que se espera sean
importantes predictores de la variable dependiente. La obtencin de errores tpicos inflados
redunda en la prdida de significacin estadstica de los coeficientes de regresin.
No obstante, hay que recordar que la existencia de errores tpicos elevados no siempre es
indicativa de colinealidad elevada. Puede ser consecuencia de haber estimado dicho coeficiente
con un tamao de muestra pequeo y/o la variable analizada tenga una varianza elevada.
Alternativamente se puede evaluar la existencia de multicolinealidad realizando un anlisis de
regresin con una variable por vez, incluso puede ser independiente, pero para esta finalidad se
lleva a cabo una regresin y se obtiene el R2, si su valor es cercano a uno se puede decir que esa
variable tiene elevada multicolinealidad. La mayoria de paquetes estadisticos proporcionan esos
valores llamandolos la tolerancia o a su inverso el factor de inflacin de la varianza (FIV).
Otra forma de ver la multicolinealidad es tomando en cuenta los errores tpicos, si son elevados
sugieren colinealidad, aunque no siempre es as.
Un procedimeinto alternativo es hacer regresin de para cada variable independiente por separado,
si el R 2 se aproxima a 1 hay multicolinelidad, si no lo hay es cercano a cero.
La tolerancia es el recproco del factor de inflacin de la varianza (FIV)
TOLi = 1 - R2i
El punto de corte es 0,1, el valor peoer es 0 y el mas adecuado 1.
Factor de inflacin de la varianza (FIV), es el reverso de la tolerancia se define como:
FIVi = TOLi -1 - 1/ 1- R2i
Los valores cercanos a 1 indican inexistencia de correlacin y los superiores a 10 indican
multicolinealidad severa.
Los remedios para la multicolinealidad, el mas radical eliminar una de las variables correlcionadas,
el otro es son las variable colinealies construir un sola variable que las represente. Tambin se
puede elegir aumentar el tamao de muestra.
La eliminacin de la variable independiente, que presenten elevado grado de colinealidad. Es el
remedio mas drstico.
Para Wittink (1988) " Omitir una variable predictora relevante puede causar severos problemas, tal
omisin es un ejemplo de Error de especificacin". Por lo que se debe recurrir a la combinacin
antes de la eliminacin.
Otros autores dicen que no se produce gran prdida de informacin, esto depende entonces del los
que est estudiando,. Y si las varible correlacionadas son expresin de un fenmeno, se puede
eliminar o juntar en una variable nica.
9.- INDEPENDENCIA DE LOS TRMINOS DE ERROR

Este ltimo supuesto bsico del anlisis de regresin lineal concierne a la necesidad de que los
trminos del error no estn correlacionados . El valor de la variable dependente en cada caso
concreto ha de ser independiente del resto. Si las observaciones son independientes unas de
otras, los residuos sucesivos tampoco han de estar corrlecionados. En caso contrario, se tiene que
hablar de correlcin serial de los residuos, o de autocorrelacin.
A diferencia de la heterosedasticidad (que es habitual en los diseos de investigacin transversal o
seccionales), la autocorrelacin se produce, con mayor frecuencia, en lops estudios longitudinales.
Estos se caracterizan porque la recogida de informacin se produce en forma secuencial, en
periodos de tiempo sucesivos, planificados en el momento del diseo del proyecto de investigacin.
La finalidad es analizar la evolucin del fenmeno que se investiga a lo largo del tiempo. Como la
informacin referida a unas mismas variables se recoge en dos o mas momentos temporales, el
valor que pueda tener una variable en un momernto probablemente no es independiente del valor
adquiri eb un tiempo anterior. Esto se evidencia ms, cuando los dos procesos de recogida de
informacin acontecen en un periodo corto de tiempo y sobre todo, si el diseo de investigacin es
longitudinal de panel. El recoger un mismo tipo de informacin, de unas mismas personas, en
tiempos sucesivos, puede producir el efecto no deseado del aprendizaje.
Segn Schroeder (1986) las tres causas de autocorrelacin son:
1.- La omisin de una variable explicativa importante
2.- el empleo de una forma funcional incorrecta
3.- La tendencia de los efectos a persistir a lo largo del tiempo o, para las variables dependientes a
comportarse ciclicamente . Tal vez por ello la autocorrelacin mas comn en datos de series
temporales.
Entre las consecuencias negativas de la autocorrelacin destaca,en primer lugar, su efecto
pernicioso en la significatividad de los coeficientes de regresin. La autocorrelacin provoca una
subestimacin del error tpico. Este ser inferior al real, es dceir ni no hubiera autocorrelacin. La
consecuencia inmediata es la obtencin de t inflado de lo que corresponde, puede entonces el
coeficiente b no ser significativo, y resultar serlo, lo que invalida el modelo de regresin.
La identificacin de la autocorrelacin, es posible por medio de los grficos de residuos, mostrar
que los residuos se colocan en orden secuencial.
Los supuestos de independencia de los trminos de error se cumple, cuando los residuos se
distribuyen de una forma aleatoria. Es decir, no muestran ninguna pauta consistente.
La autocorrelacin Puede identificarse con la ayuda de estadsticos, el mas aplicado es el de
Durbin-Watson , Este coeficiente se calcula a partir de los residuos estundentizados (Et), en cada
caso mediante la frmula:
n
E
t 2
E t 1
E
t 1
2
t
Con el coeficiente de Durbin-Watson,as definido, se comprueba si la correlcin serial ( a cada

residuos Et se le resta el inmediatamente precedente, E t-1) es nula. La autocorrelacin es positiva (
los trminos del error se hallan positivamente correlcionados ) cuando la diferencia entre los
residuos sucesivos es pequea . El valor "d" es pequeo, En caso contrario la autocorrelacin es
negativa, El valor de no autocorrelacin esta entre 1.5 y 2,5.
Si hay autocorrelacin, el remedio mas utilizado es hacer uso de la regresin de mnimos
cuadrados generalizados.
ANALISIS DE LOS RESIDUOS EN LA COMPROBACIN DE LOS SUPUESTOS DE

REGRESION
En regresin lineal se entiende por residuo a la diferencia entre los valores observados de la
variable dependiente ( Yi) y sus correspondientes valores predichos , a partir de la ecuacin de
regresin (i) para cada uno de los casos analizados ( siendo i = 1, 2, 3...n). Tambien se puede
decir "residuo es lo que queda una vez que un modelo se ha ajustado a los datos ":
Ei = Yi - i
No debe confundirse el residuo (denotado por Ei o ri, en algunos textos) con el error de prediccin (
i ). El error de prediccin, representa la diferencia entre el valor verdadero de Yi en la poblacin (no
en la muestra analizada) y su correspondiente valor estimado mediante la ecuacin de regresin.
El valor real de la variable dependiente en la poblacin puede diferir del observado en la muestra,
lo que denota la existencia de error de medicin en la investigacin realizada.
Tipos de residuos, existen una gran diversidad de residuos, en seguida los presentamos: asi
mismo el modo de obtenerlos en STATA
residuals calculates the residuals.
rstandard calculates the standardized residuals.
rstudent calculates the studentized (jackknifed) residuals.
a) Residuos brutos (o "raw residuals). Estos se ajustan a lo que de primera intencin se entiende
por residuo: la diferencia entre los valores observados de la variable dependiente ( Yi) y su
valor predicho (i). Cuando mas grande es la diferencia peor es el ajuste a la ecuacin de
regresin: Ei = Yi - i. La dificultad que tienen es que dependen de las unidades de medicin
de la variable dependiente.
. regress weigth heigth
. predict residuos, residual
b) Residuos estandarizados ("standardized residuals"). Tratan de paliar la diferencia observada en
los residuos brutos, cuya cuantia se halla relacionada a las unidades de medicin, de la
variable dependiente. Para ello se divide el residuo bruto (Ei) entre la estimacin de su
desviacin tpica (S). De esta forma la magnitud del residuo queda expresado en unidades de
desviacin tpica por encima (signo positivo) o por debajo de la media ( si es negativo).
E Si
Yi Yi
Ei
E i2
i 1
n p 1
Donde n representa el tamao de la muestra, "p" el nmero de variables independientes incluidas
en la regresin. Esta tipficacin de los reiduos ( que quedan convertido en la misma unidad de
medicin: unidades de desvciacin tpica) facilita la comparacin de residuos y de modelos de
regresin distintos. El rango de los residuos estandarizados va de -3 a 3, tienen = 0 y = 1.
En STATA se puede obtenerlos directamente despues de la regresin, asi:
. predict redstand, rstandard
c) Residuos estudentizados ("Studentized residuals"). Se define de manera similar a los
estandarizados: El cociente del residuo bruto y su desviacin tpica estimada. A esta definicin
comn (con el residuo estandarizado) se aade, la consideracin de la distancia de cada valor

de la variable independiente respecto a su media; " di,i ", que expresa la distancia habida entre
el punto i y el punto medio.
La variabilidad de los valores predichos no es igual en todos los puntos, sino que varia con los
valores de la variable independiente y de la proximidad de sta respecto de la media. La
variabilidad en los valores predichos es menor, cuando la variable independiente se aproxima
a la media. Por el contrario, aumenta para los valores mas extremos de la variable
independiente. Estas condiciones sobre la variabilidad cambiante se materializa en la
formulacin de los residuos estundentizados, al dividir el residuo bruto por la desviacin tpica
estimada del residuo en ese punto.
Eti
Ei
1 d i ,i
Los residuos estudentizados se ajustan a la distribucin "t" de student, con n-p-1 grados de
libertad. Los valores "di,i " tambin suelen denotarse como "hi,i" . Esta cantidad, que tambin
se le llama "leverage" indica el nmero de elemento "i" de la diagonal de la matriz H, (hat
matriz)l Las observaciones con un valor "hi,i >2p/n" deberan observarse como observaciones
potencialmente muy influyentes en la ecuacin de regresin. Lo mismo acontece con los
valores de "Ei,i >2".
d) Residuo eliminado estandarizado (Studentized deleted residuals). Difiere del anterior en que, al
calcular el error tpico residual, no se incluye el isimo residuo (-i), De esta forma se obtiene
una distribucin del estadstico "t" de student con "n-p-2" grados de libertad.
Et ( i )
( 1)
Ei
1 d i ,i
Los valores de cualquiera de estos cuatro residuos se aaden a grficos que faciliten la
comprobacin inmediata de los supuestos de la regresin. Los grficos de residuos mas comunes
son los que representan los residuos contra:
Una de la variables independientes Xi
Los valores predichos de la variable dependiente
La suma ponderada i de las variables independientes Xi
Los grficos mas utilizados son los del segundo tipo. Este grfico no debe mostrar ninguna
tendencia.
La adecuacin del modelo de regresin puede, comprobarse mediante el "casewise plot". Este es
un grfico de residuos, aunque por cada caso y en forma estandarizada. Como proporciona
informacin de cada caso analizado ( su valor predicho, i , con los residuos correspondientes, se
usa cuando el tamao de muestra es elevado. El nmero de pginas grficos aumenta con el
nmero de casos lo que dificulta su lectura.
PRESIONES SANGUNEAS NORMALES
Edad / Presin sistlica (mmHg) /Presin diastlica (mmHg)
Lactante / 60 90 / 30 62
2 aos / 78 112 / 48 78
8 aos / 85 114 / 52 85
12 aos / 95 135 / 58 88
Adulto / 100 140 / 60 90

Analisis Regresion - Datos

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisis Regresion - Datos

Uploaded by

Copyright:

Available Formats

ANALISIS DE REGRESIN

SEPARATA PREPARADA POR

Qu puede ser ms sencillo que reducir la relacin entre dos

Coordenadas de un punto: si se establece en un plano un sistema de ejes coordenados, a cada

Seguidamente necesitamos precisar, especficamente como es la recta que relaciona la edad y la

Gasto familiar semanal

FUNCION DE REGRESION POBLACIONAL (FRP)

ANALISIS DE REGRESION LINEAL EN MUESTRAS

G as tos fam ilia res

Para el mtodos de mnimos cuadrados

ANALISIS DE LOS SUPUESTOS

La cov(x,y) = (X-Xp)(Y-Yp) / (n-1)

F= (700 /1) / (4 / 6) = 1050

VALORES ESPERADOS Y VARIANZAS DE LOS ESTIMADORES

(xi - ) yi / (xi - )2 , reemplazando yi

Si E(u x) = 0 implica que (xi - )uiv= 0

El estimador b1 de 1 ser insesgado.

Pero se debe analizar para responder:

PRECISION O ERRORES ESTANDAR DE LOS MINIMOS CUADRADOS ESTIMADOS

SUPUESTOS BASICOS DEL ANALISIS DE REGRESIN MLTIPLE

1.- TAMAO DE LA MUESTRA ADECUADO

2.- VARIABLE DEPENDIENTE HA DE SER CONTINUA

3.- INCLUSIN DE VARIABLE INDEPENDIENTES RELEVANTES

c) La heterocedasticidad tambin puede preverse en las situaciones donde existe variacin

8.- AUSENCIA DE COLINEALIDAD

9.- INDEPENDENCIA DE LOS TRMINOS DE ERROR

Con el coeficiente de Durbin-Watson,as definido, se comprueba si la correlcin serial ( a cada

ANALISIS DE LOS RESIDUOS EN LA COMPROBACIN DE LOS SUPUESTOS DE

comn (con el residuo estandarizado) se aade, la consideracin de la distancia de cada valor

You might also like