You are on page 1of 34

Basic Regression Analysis with Excel (Spanish Version)

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin



Ignacio Vlez-Pareja
ivelez@unitecnologica.edu.co, nachovelez@gmail.com
Universidad Tecnolgica de Bolvar
Cartagena, Colombia

01 de julio de 2012
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
ii
Abstract
This is a course material for an introductory course in Probability and Statistics for
Engineering and Management. It is part of some course notes for my courses in Spanish on
that subject. The draft of the book is Apuntes de Probabilidad y Estadstica para Ingeniera
y Administracin (Notes for Probability and Statistic for Engineering and Management)
and this part is Anlisis de regresin (Basic Regression Analysis).
In this chapter we present the basic tools for linear regression analysis. With linear
regression analysis we can find models that relate variables linked by causal relationships
between given variables. The idea is to use this tool to predict the behavior of some
independent variable and other dependent variables.
Before performing any statistical analysis we should examine if there is a logical
relationship between independent and dependent variables. This effort is of utmost
importance. Calculations are easily made using the computing and inexpensive power of
software and computers. To find the possible relationships between variables is a delicate
work of observation, intelligent, experience and intuition. All these methods are studied
using intensively the spreadsheet.
Resumen
Con el anlisis de regresin se busca encontrar modelos que a partir de las
relaciones causales entre una variable dependiente (la que se supone que es el resultado de
la influencia o comportamiento de otras variables) y una o ms variables independientes,
permitan predecir un resultado conociendo el valor estimado de una variable independiente.
Antes de realizar cualquier anlisis se debe examinar si existe una relacin lgica
entre las variables independientes y la variable dependiente. Este esfuerzo es el ms
importante. Lo relacionado con los clculos es muy fcil porque existen herramientas
computacionales para hacerlos. Encontrar las posibles relaciones lgicas entre las variables
es un trabajo de observacin, inteligencia, experiencia e intuicin.
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
1

Anlisis de regresin con Excel
I have no data yet. It is a capital mistake to theorize
before one has data. Insensibly one begins to twist
facts to suit theories, instead of theories to suit facts.
Todava no tengo datos. Es un error grave teorizar
antes de tener la informacin. Sin darse cuenta, uno
empieza a acomodar los hechos a las teoras en lugar
de ajustar la teora a los hechos.
Sherlock Holmes


Ajuste de una lnea recta a datos observados
Examinemos por ejemplo dos variables: tasa de inflacin y tasa de aumento del
salario mnimo. Cree usted que hay relacin entre ellas? La tasa de inflacin depender
del aumento del salario mnimo o viceversa? Para responder este tipo de preguntas se debe
conocer cmo ocurren ambos fenmenos. As mismo, si los fenmenos son actos de Dios o
de la naturaleza o de muchsimas variables y circunstancias o son producto de decisiones
tomadas por seres humanos de manera consciente y deliberada.
La inflacin es el cambio porcentual que sufre un indicador de precios que se
conoce como el ndice de Precios al Consumidor (IPC) y mide el cambio de precio de una
canasta de bienes que consumen los hogares. Esto quiere decir que hay mltiples
componentes en esa canasta de bienes y que la decisin en el cambio de precios de sus
componentes no es producto de una decisin de una sola persona sino de miles de personas.
Por otro lado, el aumento en el salario mnimo es una decisin que toma un pequeo
grupo que negocia ese valor o en el peor de los casos es una decisin de una persona (un
ministro o un presidente) con base en el anlisis de variables macroeconmicas tales como
la inflacin.
Observemos una serie de valores para cada una de estas variables. Esto se puede
observar en la siguiente tabla.
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
2
Tabla 1. Tasas de inflacin y aumento del salario mnimo
Ao Tasa de inflacin Aumento nominal del salario mnimo
1981 26,35% 35,71%
1982 24,03% 30,00%
1983 16,64% 24,98%
1984 18,28% 22,00%
1985 22,45% 20,00%
1986 20,95% 24,00%
1987 24,02% 22,00%
1988 28,12% 25,00%
1989 26,12% 27,00%
1990 32,37% 26,00%
1991 26,82% 26,07%
1992 25,14% 26,04%
1993 22,61% 25,03%
1994 22,60% 21,09%
1995 19,47% 20,50%
1996 21,64% 19,50%
1997 17,68% 21,02%
1998 16,70% 18,50%
1999 9,23% 16,01%
2000 8,75% 10,00%
2001 7,65% 9,96%
2002 6,99% 8,04%
2003 6,49% 7,44%
2004 5,50% 7,83%
2005 4,85% 6,56%

Se puede observar alguna relacin entre las dos variables? En este caso en que
analizamos dos variables esa posible relacin se puede observar mejor por medio de una
grfica.
Figura 1. Tasa de inflacin y aumento del salario mnimo por ao


Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
3
De la grfica anterior podemos intuir una relacin muy estrecha entre las dos
variables. Observemos cmo la tendencia de una es bastante estrecha con la de la otra. Ms
aun, si comparamos inflacin contra aumento en salario mnimo, vemos de otra forma esa
relacin.
Figura 2. Tasa de inflacin y aumento del salario mnimo

En esta grfica podemos deducir que hay una relacin entre las variables.
Claramente vemos que a mayor inflacin mayor aumento de salario mnimo.
La pregunta que nos hacemos ahora es si esa influencia existe o no y cmo hacerlo.
Podremos imaginarnos una relacin matemtica entre esos valores tal y como se muestran
en la figura 2? Imaginemos que esa relacin o tendencia se puede representar con una lnea
recta. Habr muchas lneas rectas que a ojo nos parecen aceptables, por ejemplo, tal y
como se muestra en la siguiente figura.
Figura 3. Varias rectas que ajustan los datos


Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
4
El lector quedar ms satisfecho con unas que con otras y hasta este momento la
seleccin se hara por gusto. Tenemos que encontrar una forma objetiva con base en un
criterio definido y preciso que nos permita encontrar cul es la recta que mejor se ajusta a
los datos. El lector con seguridad tendra muy claro que la recta inferior en esa grfica no
sera adecuada. Inclusive la superior le puede parecer inapropiada. La duda surge de las
rectas intermedias (y de una cantidad infinita de posibilidades que habra con diferentes
inclinaciones de las rectas).
Un criterio que se puede examinar con la intuicin sera el de escoger una recta que
fuera equidistante de alguna manera de todos los puntos. O que por ejemplo, la suma de las
diferencias entre los puntos reales y la recta sea mnima. En este caso tendramos un
problema porque el mnimo sera cuando se tuviera la suma de las diferencias en un nmero
negativo muy grande y eso no tiene sentido. Quizs podemos buscar la lnea recta que esa
suma de las diferencias sea cero. La recta horizontal, que es el promedio de los aumentos de
salario mnimo cumple esta ltima condicin. El lector quedara satisfecho con esa lnea
como la que seala la relacin entre la inflacin y el aumento de salario mnimo? Con
seguridad no. El lector podr verificar que la suma de las diferencias entre el promedio del
aumento y cada aumento es cero.
Por ltimo podemos pensar que la lnea que refleje la relacin entre las dos variables
minimice la suma de los cuadrados de las diferencias (que en el prrafo anterior veamos
que se cancelaban entre s). Esta es una forma de tener en cuenta la desviacin entre el
valor observado y la media en trminos absolutos (sea por defecto o por exceso). Esta lnea
se conoce como la recta de mnimos cuadrados. Los cuadrados de las diferencias sern
siempre positivos porque una cifra negativa o positiva elevada al cuadrado ser siempre
positiva. Es fcil imaginar que la recta que est ms arriba en la grfica o la que est ms
abajo o la horizontal (que es el promedio) no cumplen con esta condicin.
En cualquier caso nuestra recta se puede representar con la siguiente ecuacin
Y
est
= a + bX (1)
Donde Y
est
es el valor de la variable dependiente, X el valor de la variable
independiente observado, b es la pendiente de la lnea y a es la constante que muestra el
punto de corte con el eje de las coordenadas.
El modelo que represente el comportamiento de los datos ser
Y
obser
= a + bX + c (2)
donde c representa el error, o sea la diferencia entre el valor que toma la variable
dependiente en la realidad y el valor que hemos pronosticado con nuestra recta.
Entonces lo que debemos minimizar es c
2
y esto es igual a
(Y
obser
Y
est
)
2
= (Y
obser
bX a)
2
(3)
En realidad lo que debemos encontrar es los valores de a y b que hacen que el valor
de la anterior expresin sea mnimo. Esto se puede lograr hallando la derivada del cuadrado
de la diferencia con respecto a a y a b.
E(Y
obser
bX a)
2

= E(Y
obser
2
+ b
2
X
2
+ a
2
2Y
obser
bX 2Y
obser
a + 2baX) (5)
Al derivar con respecto de a y haciendo el resultado igual a cero (para hallar el
mnimo) se obtiene
E( 2a 2Y
obser
+ 2bX) = 0 (6)
E(a Y
obser
+ bX) = 0 (7)
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
5
Ea EY
obser
+ EbX = 0 (8)
na EY
obser
+ bEX = 0 (9)
X b Y
n
X b Y
a
obser
=

=

(10)
De igual manera derivando con respecto a b y haciendo la derivada igual a cero se
tiene,
E( 2bX
2
2Y
obser
X + 2aX) = 0 (11)
dividiendo por 2,
E(bX
2
Y
obser
X + aX) = 0 (12)
EbX
2
EY
obser
X + EaX = 0 (13)
bEX
2
EY
obser
X + aEX = 0 (14)
Despejando a
aEX = EY
obser
X bEX
2
(15)


=
X
X Y
obser
2
X b -
a (16)
Reemplazando a (16) en la derivada con respecto a a en (10), se tiene
X b Y
n
X b Y
a
obser
=

=

(17)
n
X b Y
X
X Y
obser obser



=
2
X b -
(18)
De esta expresin despejamos b

( )
( )
( )
( )
( )
) 24 (
X
) 23 (
X
) 22 (
X
) 21 ( X b -
) 20 ( X b -
) 19 (
X
2
2
2
2
2
2
2
2
2
2
2



=
= +
= +

n X
Y X X Y n
b
X n
X Y n Y X
b
n
X
X Y
n
Y X
b
X Y
n
Y X
X
n
b
X
n
b
n
Y X
X Y
n
X b Y
X
b X Y
obser obser
obser obser
obser
obser
obser
obser
obser
obser
obser obser


Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
6

Afortunadamente con la disponibilidad de hojas de clculo estas frmulas tan
aparatosas no se requieren. Excel nos permite calcular a y b de varias maneras. Aqu
presentamos las ms notables. La primera y ms sencilla es desde la grfica misma de los
datos.
Nuestros datos aparecen como puntos en la grfica as


Cuando se activa (se hace clic) la grfica el Men de texto cambia y aparece una
nueva opcin que se llama Herramientas de grficos. Si se activan los puntos haciendo clic
sobre ellos entonces se puede solicitar que el programa aada una lnea de tendencia.




All nos fijamos en la etiqueta Presentacin y en particular el botn que dice Lnea
de tendencia.


Al oprimir la flecha a la derecha en el botn Lnea de tendencia se despliega el
siguiente men:

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
7

En este men escogemos Ms opciones de lnea de tendencia y aparece este
men.

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
8
Al seleccionar la opcin Lineal y sealamos Presentar ecuacin en el grfico y la
siguiente Presentar el valor de R cuadrado en el grfico y oprimimos Cerrar aparece lo
siguiente:



En este ejemplo a = 0,041 y b = 0,8619. El lector puede verificar estos resultados
utilizando la frmula deducida arriba para cada coeficiente. La recta Y = 0,041 +
0,8619(inflacin) es la recta de mnimos cuadrados. De este modo, si se utiliza este
modelo para pronosticar el aumento de salario mnimo basados en la inflacin, entonces se
dira que para pronosticar el aumento del salario mnimo se toma el 86,19% de la inflacin
y se le aade 4,1%.
Hay otras formas de llegar a los mismos resultados. Por ejemplo, si se usan las
funciones estadsticas se encuentra lo siguiente

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
9


La funcin Pendiente calcula el valor de b cuando se introducen los datos para las
variables dependientes e independientes.



El resultado aparece debajo a la derecha de la caja para Conocido_X y es
0,861887361. Compare el resultado con el obtenido con la grfica. La diferencia es el
nmero de decimales. Con la funcin Interseccin.eje se calcula de la misma manera, el
valor de a.

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
10


En este ejemplo, el valor de a es 0,041024831. Otra vez, la diferencia se debe al
nmero de decimales.
El pronstico basado en la regresin lineal se puede hacer tambin usando las
frmulas de Excel. En este caso se utiliza la funcin Tendencia. Esta funcin arroja los
resultados de aplicar la ecuacin de la recta de mnimos cuadrados a una serie de nuevos
valores para la variable independiente (en el ejemplo, la inflacin). Para este caso se deja al
lector el ejercicio de usar esta funcin.
Anlisis de varianza
Hay otra posibilidad que nos brinda Excel y adems proporciona mucha ms
informacin acerca del modelo. Se trata de una herramienta para regresin que se encuentra
en la etiqueta Datos y all en Anlisis de datos.



Cuando se selecciona Anlisis de datos, aparece este cuadro de dilogo.
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
11


Al escoger Regresin y meter los datos que se piden se obtiene


Al oprimir Aceptar, Excel arroja los siguientes resultados
Resumen

Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,89891674
Coeficiente de determinacin R^2 0,8080513
R^2 ajustado 0,7997057
Error tpico 0,03485217
Observaciones 25

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
12
Anlisis de varianza (ANOVA)

Grados de
libertad
Suma de
cuadrados
Promedio
de los
cuadrados F
Valor
crtico de F

Regresin 1 0,11760917 0,11760917 96,82368 1,0357E-09

Residuos 23 0,02793749 0,00121467

Total 24 0,14554667


Coeficientes Error tpico Estadstico t Probabilidad
Inferior
95%
Superior
95%
Intercepcin 0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
Tasa de
inflacin 0,86188736 0,08759105 9,83990244 1,0357E-09 0,68069148 1,04308325

La tabla anterior se conoce como tabla de Anlisis de varianza (o ANOVA por su
nombre en ingls Analysis of Variance) y suministra informacin muy valiosa en relacin
con el modelo. Por el momento, el lector puede observar los coeficientes a y b obtenidos
arriba. Intercepcin, o sea a es 0,04102483 y la pendiente de la recta o coeficiente de Tasa
de inflacin, o sea b, es 0,86188736.
Tambin arroja los siguientes valores conocidos como Anlisis de los residuales.
Observacin Pronstico Aumento nominal del salario mnimo Residuos
1 0,26813215 0,08896785
2 0,24813636 0,05186364
3 0,18444289 0,06535711
4 0,19857784 0,02142216
5 0,23451854 -0,03451854
6 0,22159023 0,01840977
7 0,24805018 -0,02805018
8 0,28338756 -0,03338756
9 0,26614981 0,00385019
10 0,32001777 -0,06001777
11 0,27218302 -0,01148302
12 0,25770331 0,00269669
13 0,23589756 0,01440244
14 0,23581137 -0,02491137
15 0,2088343 -0,0038343
16 0,22753726 -0,03253726
17 0,19340652 0,01679348
18 0,18496002 3,998E-05
19 0,12057703 0,03952297
20 0,11643998 -0,01643998
21 0,10695921 -0,00735921
22 0,10127076 -0,02087076
23 0,09696132 -0,02256132
24 0,08842864 -0,01012864
25 0,08282637 -0,01722637

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
13
Esta tabla indica el valor del aumento del salario mnimo si se hubiera comportado
exactamente como indica el modelo. As mismo, muestra los residuos, o sea, como vimos
arriba, la diferencia entre el valor real que ocurri y el valor calculado por el modelo.
Tambin arroja la grfica que hemos mostrado arriba con la lnea de ajuste. No se
reproduce aqu por razones de espacio y ya hemos mostrado dicha grfica arriba. (Puede
producir otros informes y grficas a solicitud del usuario).
La desventaja de esta opcin radica en que los valores calculados en las tablas son
nmeros y no frmulas. Es decir que si se hace un cambio en los datos es necesario repetir
toda la operacin. Por otro lado, la ventaja radica en que ofrece los resultados en una forma
tabular bien organizada y usada comnmente.
Varios de los datos que produce esta opcin Anlisis de datos tambin los produce
la funcin
=ESTIMACION.LINEAL(Conocido Y;Conocido X;VERDADERO;VERDADERO). Esto
produce un resultado numrico en una celda, pero se busca una tabla como la que se
muestra abajo. Para lograrlo se debe marcar un rango de N5 donde N es el nmero de
variables independientes ms 1 (la constante) y 5 es el nmero de grupos de estadsticas
(ver tabla abajo). Para visualizar la tabla una vez marcado el rango y estando en la celda
donde aparece la funcin, se entra a editar dicha funcin y se oprime simultneamente Ctrl
+ Maysculas + Intro. La tabla que se produce con esta funcin arroja los siguientes
resultados (no se muestra el procedimiento de inclusin de los datos en la funcin):

Pendiente o coeficiente de la variable independiente (b) Intercepcin (a)
0,861887361 0,0410248
Error tpico de b Error tpico de a
0,087591047 0,0176062
Coeficiente de determinacin, R
2
Error tpico
0,808051297 0,0348522
Valor de F Grados de libertad
96,82368003 23
Suma de los cuadrados de la regresin Suma de los cuadrados de los
residuos
0,117609173 0,0279375

Al igual que con la opcin Regresin de Anlisis de datos, con esta funcin se
obtienen los mismos datos bsicos, como el lector habr observado. Para obtener toda la
informacin que aparece en las tablas de la opcin Regresin ya mencionada, es necesario
hacer algunas operaciones.
A continuacin se explica en detalle cada una de las cifras que se obtienen en la
tabla ANOVA con la opcin Anlisis de Datos.
Coeficiente de correlacin o de Pearson
Este indicador nos muestra qu tan relacionadas estn dos variables. Est
estrechamente ligado con la covarianza, ya estudiada. Este coeficiente de correlacin se
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
14
puede utilizar, por ejemplo, para determinar la relacin entre dos variables, en nuestro
ejemplo, entre la tasa de inflacin y el aumento del salario mnimo.
En la tabla de arriba lo encontramos en
Resumen

Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,89891674
Coeficiente de determinacin R^2 0,8080513
R^2 ajustado 0,7997057
Error tpico 0,03485217
Observaciones 25

La ecuacin para el coeficiente de correlacin es en general:
( )
Y x

Y X, Cov
r =
En nuestro ejemplo la expresin es
( )
obser
Y x
obser

Y X, Cov
r =
donde Cov(X,Y
obser
) es la covarianza entre las dos variables, y o
2
es la varianza de las
variables.
1 s r s 1
y
( ) ( )( )

= Y Y X X
n
1
Y X, Cov
El signo del coeficiente de correlacin indica el sentido de la relacin de la misma
manera que la covarianza nos indica con su signo si la variacin de las dos variables es en
la misma direccin o en sentido contrario. Un valor negativo indica que si la variable
independiente aumenta, la dependiente baja y viceversa. Mientras ms cercano a 1 est su
valor absoluto, ms relacin podremos suponer que existe entre las variables.
En Excel lo podemos calcular tambin con la funcin COEF.DE.CORREL que se
ilustra a continuacin.
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
15

Coeficiente de determinacin, R
2
o medicin de la bondad de ajuste
Podemos distinguir algunas de las diferencias entre los valores observados, los
pronosticados con el modelo y los errores ya mencionados.
Vamos entonces a distinguir los siguientes
1. La suma total de los cuadrados STC, (en la tabla de Anlisis de varianza que
produce Excel se titula como Total, est ubicada bajo la columna Suma de
cuadrados y vale 0,14554667) es la diferencia entre el promedio de los
valores observados y cada uno de esos valores elevada al cuadrado, o sea,
( )
2
obser obser
Y Y Total STC

= =
. Este valor mide la variacin total de la
muestra que tenemos. O si se prefiere, qu tan dispersos estn los valores
Y
obser
dentro de la muestra.
2. La suma de los cuadrados de la diferencia entre cada valor estimado por el
modelo y el promedio de las Y
obser
. Esta se denomina la suma explicada de
los cuadrados SEC, (en la tabla de Anlisis de varianza que produce Excel se
titula como Regresin, est ubicada bajo la columna Suma de cuadrados y
vale 0,11760917) y tiene sentido porque es la variacin que se puede asociar
a los datos basados en el modelo, es decir,
( )

= =
2
obser est
Y Y Regresin SEC . Mide la dispersin de los valores
estimados por el modelo alrededor de la media de los valores observados.
3. Una tercera es la suma del cuadrado de los residuos SCR, que es el cuadrado
de la diferencia entre el valor observado y el valor calculado por el modelo
SCR, (en la tabla de Anlisis de varianza que produce Excel se titula como
Residuos, est ubicada bajo la columna Suma de cuadrados y vale
0,02793749) es decir ( )
2
est obser
Y Y Residuales SCR

= = . Estos valores
aparecen en la tabla de arriba que llamamos Anlisis de los residuales.
Para entender la idea de las diferencias miremos la siguiente grfica con valores
observados, el promedio y el pronstico
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
16
Valores observados, promedio y pronostico
0%
5%
10%
15%
20%
25%
30%
35%
40%
0% 5% 10% 15% 20% 25% 30% 35%
Inflacion
V
a
l
o
r
e
s

d
e
l

a
u
m
e
n
t
o
Observado
Pronstico
Promedio

Si ampliamos esta grfica podemos observar a qu se refiere cada una de las
diferencias.
Dos puntos ampliados
19,0%
20,0%
21,0%
22,0%
23,0%
24,0%
25,0%
20,5% 21,0% 21,5% 22,0%
Inflacion
V
a
l
o
r
e
sObservado
Pronstico
Promedio

Los dos puntos ampliados corresponden a los siguientes
Inflacin Observado Pronstico Promedio
Total (observacin
- promedio)
Regresin
(pronstico -
promedio)
Error
(observacin -
pronstico )
20,95% 24,00% 22,16% 20,01% 3,99% 2,15% 1,84%
21,64% 19,50% 22,75% 20,01% -0,51% 2,74% -3,25%

Visualmente y en la tabla anterior se puede comprobar que se cumple lo siguiente
Total = Regresin + Error (25)
Con los datos de la tabla Anlisis de los residuales podemos comprobar la siguiente
relacin
Total
Error
Regresin
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
17
STC = SEC + SCR (26)
Redondeando STC
0,14554667 = 0,11760917 + 0,02793749
Estos valores aparecen en la tabla Anlisis de varianza.

Grados de
libertad
Suma de
cuadrados
Promedio de
los cuadrados F
Valor crtico
de F
Regresin 1 0,11760917 0,11760917 96,82368 1,0357E-09
Residuos 23 0,02793749 0,00121467
Total 24 0,14554667

Coeficientes Error tpico Estadstico t Probabilidad Inferior 95%
Superior
95%
Intercepcin 0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
Tasa de
inflacin 0,86188736 0,08759105 9,83990244 1,0357E-09 0,68069148 1,04308325

Esta relacin es importante porque nos indica qu fraccin de la variacin total
STC, se explica con el modelo y que parte no se puede explicar (los errores c que habamos
definido arriba). Fcilmente podemos calcular la fraccin correspondiente a cada uno de los
componentes de la variacin total. Ahora podemos responder la pregunta de qu tanto
explica el modelo propuesto (SEC) la variacin total y qu tanto no se puede explicar
(SCR).
De la tabla anterior tenemos
Suma de cuadrados
Regresin 0,11760917
Residuos 0,02793749
Total 0,14554667

Podemos expresar esos valores como un porcentaje del total, as
Suma de cuadrados Fraccin Valor porcentual
Regresin 0,11760917 0,80805126 80,81%
Residuos 0,02793749 0,19194867 19,19%
Total 0,14554667 1 100,00%

Observemos que el valor (redondeado) 0,80805126 lo encontramos en la tabla de
arriba como Coeficiente de determinacin R
2
.
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,89891674
Coeficiente de determinacin R^2 0,8080513
R^2 ajustado 0,7997057
Error tpico 0,03485217
Observaciones 25

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
18
Esto quiere decir que el R
2
es exactamente SEC/STC. Este valor estar siempre
entre 0 y 1 simplemente porque SEC nunca podr ser mayor que STC (SEC es un
componente de STC).
Entonces se dice que R
2
es el porcentaje de variacin de la variable dependiente que
estara explicado por la variable independiente en el modelo de regresin lineal. Si todos
los puntos observados estuvieran en la lnea de regresin, R
2
sera igual a 1. Esto quiere
decir que hay un ajuste perfecto. Por lo tanto, un R
2
cercano a 1 indica buen ajuste y un R
2

cercano a cero indica un mal ajuste. Entonces R
2
mide la bondad del ajuste.
En nuestro ejemplo, R
2
es 0,8080513 lo cual significa que el 80,81% de la variacin
del aumento del salario mnimo se explica por la inflacin. Observe tambin que el
Coeficiente de determinacin R
2
es el cuadrado del Coeficiente de correlacin mltiple.
Coeficiente de determinacin, R
2
ajustado
Cuando definimos R
2
hicimos lo siguiente: partimos de la ecuacin (26) y
encontramos la proporcin de SEC sobre el total. Es decir, dividimos (26) por STC
STC = SEC + SCR (26)
STC
SCR

STC
SEC
1 + = (27)
Al despejar SEC/STC encontramos
STC
SCR
- 1
STC
SEC
R
2
= = (28)
Esta ecuacin (28) se puede escribir como
n STC
n SCR
- 1
STC
SEC
R
2
= = (29)
En (28) estamos definiendo R
2
como el complemento del error y en (29) hemos
dividido ambos elementos del quebrado por n. Pero sabemos que por definicin la varianza
es la suma de los cuadrados de las diferencias con la media dividida por n, es decir que
SCR/n y STC/n son la varianza de los residuos y la varianza total. Sin embargo, por razones
que no estn al alcance de estos apuntes, esas varianzas no son las verdaderas porque son
lo que se llaman en estadstica, estimadores sesgados. Para obtener la varianza no sesgada o
insesgada, hay que dividir no por n, sino por el nmero de grados de libertad de cada
elemento. Los grados de libertad se calculan para los residuos como (n k 1) donde n es
el nmero de observaciones en la muestra y k es el nmero de variables independientes que
para las cuales se desea estimar el coeficiente; en el caso de la STC los grados de libertad
son (n 1). Estos grados de libertad estn en la tabla y son respectivamente 20 y 21.
Entonces al usar los grados de libertad en (29) obtenemos el verdadero valor de R
2
es decir,
el R
2
ajustado.
STC de libertad de grados STC
SCR de libertad de grados SCR
- 1 R
2
2ajust
= (30)
En nuestro ejemplo tenemos
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
19

Grados de
libertad
Suma de
cuadrados
Promedio de
los cuadrados F
Valor crtico
de F
Regresin 1 0,11760917 0,11760917 96,82368 1,0357E-09
Residuos 23 0,02793749 0,00121467
Total 24 0,14554667

Coeficientes Error tpico Estadstico t Probabilidad Inferior 95%
Superior
95%
Intercepcin 0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
Tasa de
inflacin 0,86188736 0,08759105 9,83990244 1,0357E-09 0,68069148 1,04308325

0,7997057
24 0,14554667
23 0,02793749
- 1 R
2
2ajust
= =
Este es el valor que aparece en la tabla de Anlisis de Varianza.
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,89891674
Coeficiente de determinacin R^2 0,8080513
R^2 ajustado 0,7997057
Error tpico 0,03485217
Observaciones 25

El error tpico de los residuos (0,03485217) se obtiene como la raz cuadrada de la
suma de los cuadrados de los residuos y el nmero de grados de libertad de los mismos.


Grados de
libertad
Suma de
cuadrados
Promedio de
los cuadrados F
Valor crtico
de F
Regresin 1 0,11760917 0,11760917 96,82368 1,0357E-09
Residuos 23 0,02793749 0,00121467
Total 24 0,14554667

Coeficientes Error tpico Estadstico t Probabilidad
Inferior
95%
Superior
95%
Intercepcin 0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
Tasa de
inflacin 0,86188736 0,08759105 9,83990244 1,0357E-09 0,68069148 1,04308325

residuos los de cuadrados los de Promedio
libertad de Grados
CR) residuos(S los de cuadrados los de Suma
residuos los de co Error tpi
=
=

En nuestro ejemplo
847 0,03485216 36469 0,00121467
23
387768 0,02793749
residuos los de co Error tpi = = =

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
20
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,89891674
Coeficiente de determinacin R^2 0,8080513
R^2 ajustado 0,7997057
Error tpico 0,03485217
Observaciones 25

La importancia de esta formulacin es que mantiene un equilibrio entre el nmero
de variables independientes y la bondad de ajuste del modelo. Al aumentar el nmero de
variables independientes, SCR disminuye pero a la vez los grados de libertad aumentan y a
menos que la disminucin de SCR sea realmente significativa, sta se ver compensada con
el aumento de variables independientes. De alguna manera esto significa que el modelo de
regresin (R
2
ajustado) nos alerta sobre la introduccin variables independientes que no
representen una verdadera mejora en el modelo.
Pruebas de significancia (pruebas t) de los coeficientes del modelo de regresin
Hemos hallado los coeficientes estimados para la pendiente y el coeficiente de la
variable independiente. La pregunta que nos hacemos ahora es si esos valores son o no
ciertos. Ms aun, lo que nos interesa saber es si son estadsticamente diferentes de cero.
Una manera de determinarlo es planteando lo que se conoce como una prueba de hiptesis.
Se puede demostrar que las varianzas muestrales de a y b estimados son
( )
( )

=
2
2
2
) (
x x
x
n n
SCR
a Var
i
i
(31)
y
( )
( )

=
2
2
) (
x x
n
SCR
b Var
i
(32)
En nuestro ejemplo tenemos que ( )


2
x x
i
es igual a 0,1583216
y

2
i
x es igual a 1,01006601. Adems,
( ) 2 n
SCR
es lo que en nuestra tabla se llama
Promedio de los cuadrados y en nmeros es 00121467 , 0
23
0,02793749
= .
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,89891674
Coeficiente de determinacin R^2 0,8080513
R^2 ajustado 0,7997057
Error tpico 0,03485217
Observaciones 25

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
21

Grados de
libertad
Suma de
cuadrados
Promedio de
los
cuadrados F
Valor crtico
de F
Regresin 1 0,11760917 0,11760917 96,82368 1,0357E-09
Residuos 23 0,02793749 0,00121467
Total 24 0,14554667

Coeficientes Error tpico Estadstico t Probabilidad
Inferior
95%
Superior
95%
Intercepcin 0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
Tasa de
inflacin 0,86188736 0,08759105 9,83990244 1,0357E-09 0,68069148 1,04308325

Con estos resultados valoramos (31)
( )
( )

=
2
2
2
) (
x x
x
n n
SCR
a Var
i
i
y (32)
( )
( )

=
2
2
2
) (
x x
n
SCR
b Var
i

0,00030998
0,1583216
1,01006601
25
00121467 , 0
) ( =

= a Var
La desviacin estndar s
x
o error tpico en nuestra tabla, es la raz de la varianza,
entonces
o
a
= 0,01760616
Esta es la cifra que aparece enfrente del estimado de la intercepcin en la tabla
Anlisis de varianza. Lo llamamos el error tpico o estndar de la intercepcin.

Grados de
libertad
Suma de
cuadrados
Promedio de
los
cuadrados F
Valor crtico
de F
Regresin 1 0,11760917 0,11760917 96,82368 1,0357E-09
Residuos 23 0,02793749 0,00121467
Total 24 0,14554667

Coeficientes
Error
tpico Estadstico t Probabilidad
Inferior
95%
Superior
95%
Intercepcin 0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
Tasa de
inflacin 0,86188736 0,08759105 9,83990244 1,0357E-09 0,68069148 1,04308325

Para valorar (32)
( )
( )

=
2
2
2
) (
x x
n
SCR
b Var
i
tenemos
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
22
0,00767219
5 0,10465117
20
6 0,00129731
) ( = = b Var
La desviacin estndar del coeficiente de la variable independiente es la raz
cuadrada de la varianza, entonces
o
b
= 0,08759105

Esta es la cifra que aparece enfrente del estimado del coeficiente de la variable
independiente en la tabla Anlisis de varianza. Lo llamamos el error tpico o estndar del
coeficiente de la variable independiente.

Grados de
libertad
Suma de
cuadrados
Promedio de
los
cuadrados F
Valor crtico
de F
Regresin 1 0,11760917 0,11760917 96,82368 1,0357E-09
Residuos 23 0,02793749 0,00121467
Total 24 0,14554667

Coeficientes
Error
tpico Estadstico t Probabilidad
Inferior
95%
Superior
95%
Intercepcin 0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
Tasa de
inflacin 0,86188736 0,08759105 9,83990244 1,0357E-09 0,68069148 1,04308325

Habamos visto que el estadstico
n
s
x
t

=
tiene una distribucin t de Student.
Nos interesa examinar la hiptesis que el estimado de a y de b es cero para saber si
es o no significativo desde el punto de vista estadstico. Entonces usamos la anterior
expresin y definimos igual a cero, el valor de x lo reemplazamos por el estimado del
coeficiente o de la intercepcin y en el denominador incluimos el error tpico o estndar
cada uno de ellos.
En nuestro ejemplo tendremos
9,83990244
0,08759105
0,86188736
t
b
= =
Este es el valor que aparece como Estadstico t para el coeficiente de la variable
aleatoria.
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
23

Grados de
libertad
Suma de
cuadrados
Promedio de
los cuadrados F
Valor crtico
de F
Regresin 1 0,11760917 0,11760917 96,82368 1,0357E-09
Residuos 23 0,02793749 0,00121467
Total 24 0,14554667

Coeficientes
Error
tpico Estadstico t Probabilidad
Inferior
95%
Superior
95%
Intercepcin 0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
Tasa de
inflacin 0,86188736 0,08759105 9,83990244 1,0357E-09 0,68069148 1,04308325

Mientras ese valor sea ms grande ser mejor, pero hay que hacer un clculo con la
funcin =DISTR.T(t;grados de libertad;colas) de Excel. Como el coeficiente puede ser
negativo o positivo, le indicamos a la funcin que haga el clculo con dos colas. Los grados
de libertad son n 2 (es decir 20) y el valor de t es el que acabamos de calcular. De modo
que la funcin de Excel se valora como =DISTR.T(9,83990244;23;2). El resultado que
arroja esta funcin es 1,0357E-09 (es decir 1,0357 dividido por 9 millones). Este resultado
mide la probabilidad de que el valor obtenido para t ocurra por azar, dentro de una situacin
en que el verdadero valor de b sea cero y se le conoce como valor p o p-value en ingls.
En nuestro ejemplo esta probabilidad es muy baja y muchsimo menor que los valores
tradicionales para medir la significancia estadstica de una variable. La conclusin de este
anlisis es que no podemos rechazar la hiptesis de que b =0.


Grados de
libertad
Suma de
cuadrados
Promedio de
los cuadrados F
Valor crtico
de F
Regresin 1 0,11760917 0,11760917 96,82368 1,0357E-09
Residuos 23 0,02793749 0,00121467
Total 24 0,14554667

Coeficientes
Error
tpico Estadstico t Probabilidad
Inferior
95%
Superior
95%
Intercepcin 0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
Tasa de
inflacin 0,86188736 0,08759105 9,83990244 1,0357E-09 0,68069148 1,04308325

Procedemos de manera similar para a. El estadstico t para a, t
a
, es en nuestro
ejemplo
2,33014103
0,01760616
0,04102483
t
a
= =
Al hacer la prueba con =DISTR.T(2,33014103;23;2) obtenemos una probabilidad de
0,02893318 es decir, aproximadamente 2,9%.
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
24

Grados de
libertad
Suma de
cuadrados
Promedio de
los cuadrados F
Valor crtico
de F
Regresin 1 0,11760917 0,11760917 96,82368 1,0357E-09
Residuos 23 0,02793749 0,00121467
Total 24 0,14554667

Coeficientes
Error
tpico Estadstico t Probabilidad
Inferior
95%
Superior
95%
Intercepcin 0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
Tasa de
inflacin 0,86188736 0,08759105 9,83990244 1,0357E-09 0,68069148 1,04308325
Aqu la conclusin de este anlisis es la misma que para b: que no podemos
rechazar la hiptesis de que a =0. Si estamos dispuestos a aceptar el riesgo tradicional de
5% decimos que el coeficiente a es significativo desde el punto de vista estadstico al 5%
porque la suma del doble de la probabilidad (dos colas) es menor que 5%.
En este sentido, entonces, decimos que los coeficientes estimados hallados por la
regresin son estadsticamente significativos. Esto significa que nuestro modelo
Aumento de salario mnimo = 0,04102483 + 0,86188736 (Tasa de inflacin) es
aceptable desde el punto de vista de R
2
y R
2
ajustado y desde el punto de vista de la
significancia estadstica de los coeficientes. Sin embargo, los valores de R
2
y R
2
ajustado
nos parecen altos. Pero esto es un juicio subjetivo. Debemos hallar la forma de examinar
esta apreciacin de manera ms contundente y sin el elemento subjetivo de parecernos altos
o bajos. Para eso utilizaremos la distribucin F.
Pruebas de significancia conjunta del grupo de variables (prueba F)
Habamos estudiado que nos interesaba saber qu tanto de la variacin total de los
datos se explicaba por medio de la regresin. A partir de este anlisis se calcul el
coeficiente de determinacin R
2
y R
2
ajustado. Si construimos un estadstico F como a
continuacin
2
1
k
SCR
k
SEC
explicada no suma la de Promedio
cuadrados los de explicada suma la de Promedio
F = =
donde k
1
y k
2
son los grados de libertad de cada uno, tendramos para nuestro
ejemplo
96,82368
0,00121467
0,11760917

23
0,02793749
1
0,11760917
F = = =
Este es el valor que aparece en la tabla de Anlisis de varianza como F. Si usamos la
funcin de Excel =DISTR.F(96,82368;1;23) encontramos el valor 1,0357E-09 que mide la
probabilidad de que ese valor ocurra por azar. Si nuestro nivel de significancia estadstica
es de, por ejemplo, 5%, esta prueba es aceptable ya que es mucho menor que 5%.
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
25

Grados de
libertad
Suma de
cuadrados
Promedio de
los cuadrados F
Valor crtico
de F
Regresin 1 0,11760917 0,11760917 96,82368 1,0357E-09
Residuos 23 0,02793749 0,00121467
Total 24 0,14554667

Coeficientes
Error
tpico Estadstico t Probabilidad
Inferior
95%
Superior
95%
Intercepcin 0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
Tasa de
inflacin 0,86188736 0,08759105 9,83990244 1,0357E-09 0,68069148 1,04308325

En el caso de una sola variable independiente, este valor es el mismo que se obtiene
para la significancia estadstica de b, el coeficiente de la variable independiente. En nuestro
ejemplo diremos que el modelo es adecuado desde el punto de vista estadstico. Esta prueba
F adquiere mayor sentido cuando trabajamos con regresin lineal mltiple.
Intervalos de confianza
Hemos establecido un valor puntual estimado de a y de b. Nos interesa establecer
un rango de valores posibles entre los cuales se puede encontrar los valores verdaderos de
esos estimados a y b.
Para establecer un intervalo de confianza definimos un nivel de confianza. El valor
tpico o usual es el de 95%. Como hemos establecido un estadstico t de dos colas, entonces
nuestros intervalos de confianza sern
a c(error tpico de a)
y
b c(error tpico de b)
donde c es el percentil correspondiente a 97,5% de la distribucin t con (n nmero
de variables independientes 1) grados de libertad.
En nuestro ejemplo usamos la funcin =DISTR.T.INV(Probabilidad;grados de
libertad) de Excel para hallar c.
c =DISTR.T.INV(0,05;23) = 2,068657599
De manera que nuestro intervalo de confianza al 95% ser
a c(error tpico de a)
0,04102483 2,0686575990,01760616= (0,004603694, 0,077445968)
y

b c(error tpico de b)
0,86188736 2,0686575990,08759105= (0,68069148, 1,04308325)

Estos son los valores que encontramos en nuestra tabla de ANOVA.
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
26

Grados de
libertad
Suma de
cuadrados
Promedio de
los cuadrados F
Valor crtico
de F
Regresin 1 0,11760917 0,11760917 96,82368 1,0357E-09
Residuos 23 0,02793749 0,00121467
Total 24 0,14554667

Coeficientes
Error
tpico Estadstico t Probabilidad
Inferior
95%
Superior
95%
Intercepcin 0,04102483 0,01760616 2,33014103 0,02893318 0,00460372 0,07744594
Tasa de
inflacin 0,86188736 0,08759105 9,83990244 1,0357E-09 0,68069148 1,04308325

Regresin lineal mltiple
Cuando tenemos ms de una variable la tabla de ANOVA es bsicamente la misma.
Las diferencias radican en que se aaden ms lneas inferiores, una para cada variable
adicional y ya el valor crtico de F obviamente difiere de la probabilidad de t.
Supongamos ahora que nos consideramos que la variable tiempo desempea un
papel importante en nuestro anlisis del aumento del salario mnimo. Nuestro modelo sera
Y
obser
= a + b(inflacin) + c(ao) + c
Nuestro modelo para la estimacin ser
Y
est
= a + b(inflacin) + c(ao)
Usando, como lo hicimos para el caso de una variable independiente, la opcin
Anlisis de datos obtenemos las tablas ANOVA siguientes:
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,9438496
Coeficiente de determinacin R^2 0,89085207
R^2 ajustado 0,88092953
Error tpico 0,02687185
Observaciones 25

Anlisis de varianza

Grados de
libertad
Suma de
cuadrados
Promedio de
los cuadrados F
Valor crtico
de F
Regresin 2 0,12966055 0,064830274 89,7806558 2,61921E-11
Residuos 22 0,01588612 0,000722096
Total 24 0,14554667

Coeficientes Error tpico Estadstico t Probabilidad Inferior 95%
Superior
95%
Intercepcin 9,52696428 2,32202551 4,102868053 0,000469296 4,711378136 14,3425504
Ao -0,00472926 0,00115764 -4,085270173 0,000489891 -0,00713005 -0,00232847
Tasa de inflacin 0,53397012 0,10489961 5,090296487 4,23485E-05 0,316421642 0,75151859

Como ya sabemos leer la tabla ANOVA encontramos lo siguiente:
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
27
El modelo explica ms el comportamiento del salario mnimo puesto que R
2
y R
2

ajustado aumentan, as
Estadsticas de la regresin Una variable Dos variables
Coeficiente de correlacin mltiple 0,89891674 0,9438496
Coeficiente de determinacin R^2 0,8080513 0,89085207
R^2 ajustado 0,7997057 0,88092953
Error tpico 0,03485217 0,02687185
Observaciones 25 25

Se debe observar que el error tpico ha disminuido, mientras los coeficientes R
2
que
miden la explicacin de la variable dependiente han aumentado.
F Valor crtico de F
Una variable 96,82368 1,0357E-09
Dos variables 89,7806558 2,61921E-11

Observemos que las probabilidades crticas para F han disminuido.
Las probabilidades asociadas a los estadsticos t y los estadsticos t de los
coeficientes son
Dos variables Una variable
Estadstico t Probabilidad Estadstico t Probabilidad
Intercepcin 4,102868053 0,000469296 2,33014103 0,02893318
Ao -4,085270173 0,000489891
Tasa de inflacin 5,090296487 4,23485E-05 9,83990244 1,0357E-09

En este caso las probabilidades de los estadsticos t no son estrictamente
comparables precisamente porque hay ms variables que han asumido parte de la
explicacin.
Los grados de libertad tambin nos han cambiado porque ahora son dos variables
independientes, as
Una variable Dos variables
Regresin 1 2
Residuos 23 22
Total 24 24

Esto significa que al calcular los valores de F y de t debemos tener en cuenta que
para F los grados de libertad son 2 para el numerador y 22 para denominador. En el caso de
una variable tenamos 1 para el numerador y 23 para el denominador.
Al calcular los valores t debemos utilizar 22 grados de libertad para dos variables
mientras que en el caso de una variable utilizamos 23.
Lo importante de observar en este caso de dos variables es que el modelo es
adecuado (con base en los R
2
y F) y explica ms y la nueva variable contribuye a la
explicacin del comportamiento de la variable dependiente.
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
28
Relaciones espurias
Al inicio de esta nota prevenamos al lector sobre el cuidado que se debe tener de
establecer relaciones lgicas entre variables. El mayor esfuerzo que se debe dedicar al
anlisis de datos es ste. Como ya se vio hay programas como Excel y muchos otros
especializados para hacer lo que algunos llaman el trabajo sucio de los clculos.
A manera de ilustracin vamos a hacer un anlisis de regresin entre dos variable
que no tienen ninguna relacin entre s. El lector creera la aseveracin que mientras ms
crece la poblacin de los Estados Unidos la inflacin en Colombia baja? Con toda
seguridad tildaran de loco a quien hiciera esta afirmacin.
Examinemos algunos datos al respecto en la siguiente tabla:
Poblacin USA en millones Inflacin Colombia
1990 247,98 32%
1991 251,37 27%
1992 254,93 25%
1993 258,45 23%
1994 261,71 23%
1995 264,93 19%
1996 268,11 22%
1997 271,39 18%
1998 274,63 17%
1999 277,84 9%
2000 280,22 9%

La grfica que ilustra este comportamiento es la siguiente
Inflacin Colombia y Poblacion USA
0%
5%
10%
15%
20%
25%
30%
35%
245 250 255 260 265 270 275 280 285
Poblacin USA
I
n
f
l
a
c
i

n


Tanto la tabla como la grfica nos indican una relacin estrecha entre las variables.
Ms aun, si hacemos un anlisis de varianza como el ilustrado en esta nota encontramos lo
siguiente:
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
29
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,94986527
Coeficiente de determinacin R^2 0,90224403
R^2 ajustado 0,89138226
Error tpico 0,0231768
Observaciones 11

Anlisis de varianza
Grados de
libertad
Suma de
cuadrados
Promedio de
los cuadrados
F Valor crtico
de F

Regresin 1 0,04462007 0,04462007 83,0659923 7,7014E-06
Residuos 9 0,00483448 0,00053716
Total 10 0,04945455

Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% Superior 95%
Intercepcin 1,8387209 0,17953859 10,241369 2,9329E-06 1,43257609 2,24486571
Poblacin
USA en
millones
-0,00617742 0,00067779 -9,11405466 7,7014E-06 -0,00771069 -0,00464415

Si nos atenemos a las cifras que resultan del anlisis de varianza deberamos
concluir que a medida que la poblacin en Estados Unidos aumenta, la inflacin en
Colombia disminuye. Podemos ver que los R
2
son altos, que los coeficientes a y b son
estadsticamente significativos y que la prueba F nos da ms que satisfactoria. Significa
esto que s hay una relacin entre la variable independiente (poblacin de los Estados
Unidos) y la variable dependiente (inflacin en Colombia)? De ninguna manera. Antes de
hacer un anlisis de regresin es necesario encontrar relaciones causales o razonables o
lgicas entre las variables. No cabe la menor duda que en este ejemplo la variable
independiente no tiene nada que ver con la variable dependiente a pesar de que los
indicadores estadsticos son muy buenos. A esto se le llama relacin espuria.
A manera de conclusin
En esta nota pedaggica hemos explicado paso a paso los diversos procedimientos
para hacer un anlisis de regresin. As mismo, hemos explicado en detalle cmo leer una
tabla ANOVA. Se espera que el lector pueda, con esta gua elaborar modelos de regresin
simple y multivariada y comprender el significado de esos modelos desde el punto de vista
estadstico.
Hay que advertir que este campo de la estadstica pertenece a lo que se conoce como
econometra y el tema es muchsimo ms complejo de lo que se ha presentado en estos
apuntes. Hay pruebas (cuya informacin provee en gran medida Excel) que se deben
realizar para verificar que los supuestos bsicos (ver Apndice) del anlisis de regresin se
cumplen.
El mensaje que deja esta nota es el siguiente: los recursos de cmputo hacen ms
fcil la tarea sucia de calcular indicadores, tablas, etc.; esto deja tiempo para dedicar la
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
30
inteligencia al diseo de modelos apropiados y para encontrar relaciones causales o lgicas
entre las variables.
Referencias
Bowker, Albert H. y Gerald J. Lieberman, Engineering Statistics, Prentice-Hall, 1959.
Draper, N. R. y H.Smith, Applied Regression Analysis, Wiley, 1966.
Klein, Lawrence R. Introduccin a la econometra, Aguilar, 1966.
Wonnacott, Ronald J. y Thomas H. Wonnacot, Econometrics, 2nd ed., Wiley, 1979.
Wonnacott, Thomas H., Ronald J. Wonnacot, Introductory Statistics for Business and
Economics, 2 ed., John Wiley, 1977.
Wooldridge, Jeffrey M., Introduccin a la econometra, Thompson, 2001. (Traduccin de
la edicin de 2000).
Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
31

Apndice
Supuestos que se deben cumplir al hacer anlisis de regresin mltiple
1. Existe linealidad en los parmetros. El modelo se puede representar como un
modelo lineal, como por ejemplo,
Y = a + b
1
X
1
+ b
2
X
2
, ++ b
n
X
n
+ e
2. Muestra aleatoria. Se supone que se cuenta con una muestra aleatoria de un universo
para este modelo lineal.
3. La media condicional es 0. Esto significa que el valor esperado (promedio) de los
errores es cero.
4. Colinearidad imperfecta. Ninguna de las variables independientes es constante y no
hay relaciones lineales entre ellas.
5. Homocedasticidad. La varianza del error es la misma para todas las combinaciones
de las variables independientes.
6. Normalidad. El error de la poblacin o universo, c, es independiente de las variables
independientes y tiene una distribucin normal.

Apuntes de Probabilidad y Estadstica para Ingeniera y Administracin
Ignacio Vlez Pareja
32

Anlisis de regresin .......................................................................................................... 1
Ajuste de una lnea recta a datos observados ..................................................................... 1
Anlisis de varianza .......................................................................................................... 10
Coeficiente de correlacin o de Pearson........................................................................... 13
Coeficiente de determinacin, R
2
o medicin de la bondad de ajuste .............................. 15
Coeficiente de determinacin, R
2
ajustado ....................................................................... 18
Pruebas de significancia (pruebas t) de los coeficientes del modelo de regresin ........... 20
Pruebas de significancia conjunta del grupo de variables (prueba F) .............................. 24
Intervalos de confianza ..................................................................................................... 25
Regresin lineal mltiple .................................................................................................. 26
Relaciones espurias........................................................................................................... 28
A manera de conclusin ................................................................................................... 29
Referencias ....................................................................................................................... 30
Apndice ........................................................................................................................... 31
Supuestos que se deben cumplir al hacer anlisis de regresin mltiple ......................... 31

You might also like