Professional Documents
Culture Documents
DIAGRAMA DE DISPERSIN.
Cuando se tiene identificado la variables, un primer es recomendable medir el grado de relacin que
existe entre ellas, con la finalidad de conocer si la correspondencia entre ellas es significativa. El
diagrama de dispersin es una manera rpida de analizar si existe una relacin significativa entre dos
variables, en el eje vertical se seala la variable dependiente, tambin identificada como el efecto
(Y), mientras que en la variable independiente o la causa, se seala, en el eje horizontal (X), si al
graficar los puntos sealados forman una nube con tendencia, ya sea positiva o negativa, si existe
relacin entre las variables.
14
12
10
y
1 2 3 4 5 6 7
x
Una relacin es significativa, pero negativa, cuando la nube de datos la tendencia es a disminuir Y,
cuando X aumento, la siguiente figura representa dicho caso:
14
12
10
8
y
0 1 2 3 4 5 6 7 8 9
x
Cuando la relacin no es significativa, la nube de datos es demasiado gruesa, y no se presenta
tendencia clara, es decir esta se representa como la recta y es paralela al eje horizontal, como se
presenta en la siguiente figura:
14
12
10
8
y
0 1 2 3 4 5 6 7 8 9
x
Al trazar la grfica de dispersin debe de tenerse cuidado de comenzar los ejes con los valores
mnimos de cada variable y terminar con los valores mximos, para no dibujar grficas
desproporcionadas que no se puedan interpretar, como la que se presenta a continuacin:
Grfica de dispersin de y vs. x
50
40
30
y
20
10
10 20 30 40 50
x
El valor de , se calcula de la siguiente manera, es importante aclarar que todas las frmulas de
Regresin Lneal Simple, utilizadas se encuentran en el Anexo 1:
xy n y
x
r
( y )
2
( x) 2
y x
2 2
n n
Para facilitar los clculos, se utilizan las sumas de cuadrados, como sigue; de , =
( )2 ( )2
2 , de , = y de , = 2 .
De lo anterior se tiene que = .
Ejemplo:
Una compaa desea conocer si la inversin hecha en gastos de publicidad afecta las ventas de su
producto, se tomaron datos de 20 meses como se muestra a continuacin:
X: Publicidad y Y: Ventas.
40
Ventas
30
20
10
2 4 6 8 10 12
Gastos
De lo anterior se determina:
154.12
= 1340.09 = 152.7495
20
621.42
= 21959.66 = 2652.762
20
154.1(621.4)
= 5409.58 = 621.693
20
621.393
Por lo tanto se tiene que = = 0.976, de ah que se puede concluir que la
152.7495(2652.762)
relacin es significativa, por lo tanto los gastos de publicidad definitivamente afectan las ventas.
Si las variables tienen una relacin significativa, se debe buscar un modelo que represente los datos,
el modelo ms simple es una lnea, = 0 + 1 , la cual se estima de acuerdo con la siguiente
frmula: = 0 + 1 , donde:
0 = 1 y = .
1 2 2 ( )
1 =
0 =
1 .
Ejemplo:
Entonces la ecuacin de regresin lineal simple es: = 0.2894 + 4.07, donde Y: Ventas y X:
Publicidad.
La pendiente seala que por cada milln de pesos gastados en publicidad las ventas son de 4.07
millones de pesos.
50
40
Ventas ($1000,000)
30
Y=-0.2894+4.07(X)
20
10
2 4 6 8 10 12
Publicidad ($1000,000)
1.1.1 PRUEBA DE HIPTESIS EN LA LINEA DE
REGRESION LINEAL SIMPLE.
Con la ecuacin de la lnea regresin se pueden hacer pruebas que determinen principalmente para
determinar si existe una relacin significativa entre las variables, las pruebas a desarrollar son:
1) Modelo significativo.
2) De la ordenada al origen.
3) De la pendiente.
4) Del coeficiente de correlacin.
Las pruebas de hiptesis se pueden realizar de diferentes mtodos, para el caso de este texto, se
harn siguiendo los siguientes pasos:
Esta es la primera prueba que se realiza, con la finalidad de conocer si existe una relacin
significativa entre las variables, se hace mediante la prueba F, usando la tabla de Anlisis de
Varianza (ANOVA), usando una prueba unilateral a la derecha. La tabla ANOVA se construye de la
siguiente manera:
Regresin 1
Error 2
Total 1
Cuadrado medio de la regresin = .
1
Cuadrado medio del error = .
2
El estadstico de prueba = .
Ejemplo:
Con los datos del ejemplo anterior, determine si el modelo es significativo, usando un nivel de
significancia de 0.05
Donde:
0 es la ordenada al origen que se desea probar-
,es la desviacin estndar de la lnea de regresin y es igual a = .
Ejemplo:
Probar que la ordenada al origen es igual a cero, usando un nivel de significancia de 0.01.
1) Pregunta: La ordenada al origen es igual a cero?
2) Hiptesis: 0 : 0 = 0
1 : 0 0
3) Nivel de significancia: = 0.01
4) rea de aceptacin de 0 : En este caso = 18 y para = 0.01, entonces = 0.005 de ah que
2
/2(18) = 2.878.
5) Regla de decisin: Se acepta 0 , si 2.878 < < 2.878, en caso contrario se rechaza.
0.28940
6) Estadstico de prueba: = 6.804 = 2.6084, por lo tanto = =0.1675
1340.09
2.6084
20(152.7495)
7) Decisin: Se acepta 0 .
8) Respuesta: El valor de la ordenada al origen puede ser igual a cero.
1 1
= con = 2.
Ejemplo:
Con los datos del ejemplo anterior, probar la hiptesis de que la pendiente es igual a cero, utilice un
nivel de significancia del 0.05.
/2(18) = 2.101.
5) Regla de decisin: Se acepta 0 , si 2.101 < < 2.101, en caso contrario se rechaza.
1 1
4.070
6) Estadstico de prueba: por lo tanto = = 2.6084 = 19.2846
152.7495
7) Decisin: Se rechaza 0 .
8) Respuesta: La pendiente es diferente de cero.
Se puede responder a la pregunta acerca de que si tiene algn valor en particular, regularmente se
prueba si = 0, ya que sealara que la relacin no existe entre las variables.
= 2
con = 2
1
2
Ejemplo:
Probar la hiptesis de que > 0.75, usando un nivel de significancia del 0.01
COEFICIENTE DE DETERMINACIN ( )
Seala la proporcin de la suma de los cuadrados de las desviaciones de los valores de Y con
respecto a su promedio que se puede atribuir a la relacin lineal entre X e Y. Se determina basado en
una muestra de la siguiente manera:
2 =
Ejemplo:
2 = 0.9762 = 0.953, por lo tanto se puede determinar que 95.3% de la suma de cuadrados totales
se atribuyen a la relacin lineal entre X e Y.
En este caso se determina que los errores tienen una media igual a cero y una varianza 2 y se
distribuyen de acuerdo con una normal, para comprobarlo se desarrollan dos procedimientos; el
histograma de los errores y el papel de probabilidad:
Ejemplo:
Con los datos del ejemplo anterior, calcular el error o residual, y comprobar que se comportan de
acuerdo con una normal con media de cero y desviacin estndar , mediante:
a) Un histograma.
b) El papel de probabilidad.
Media -0.00035
9
Desv .Est. 2.539
N 20
8
6
Frecuencia
0
-6 -4 -2 0 2 4 6 8
e
Conclusin: Como se puede observar los datos no se ajustan a una normal, pero si tiene una media
aproximadamente a cero.
b) Papel de probabilidad: Este es un grafico trazado en el Minitab, se tiene:
Grfica de probabilidad de e
Normal - 95% de IC
0.99
M edia -0.00035
Desv .E st. 2.539
0.95 N 20
AD 1.682
V alor P <0.005
0.8
Probabilidad
0.5
0.2
0.05
0.01
-10 -5 0 5 10
e
Conclusin: Como podemos observar el error ms alto, sale de los limites, por lo tanto no se pueden
considerar que los datos se aproximan a una normal, adems el Pvalor es menor de 0.005, y para
aceptar que los datos se aproximan a una normal, > , para un nivel de significancia de
0.05, se rechaza 0 .
Mediante la grfica de los residuales se puede conocer si pueden suponer que las varianzas son
iguales, ya que graficando los errores con respecto a los valores de la variable independiente (), si
la homoscedasticidad no se cumple, se tendr mucha variabilidad, en la siguiente grfica se puede
observar que los valores de (), presenta entre ellos bastante dispersin, por lo cual se concluye que
no existe homoscedasticidad.
5.0
2.5
0.0 0
e
-2.5
-5.0
1 2 3 4 5
x
Ejemplo:
Con los datos del ejemplo anterior, determinar si cumplen con la homoscedasticidad en los errores:
4
e
0 0
-2
-4
2 4 6 8 10 12
Gastos
Como se puede observar el punto 4, que corresponde a = 7.1, el error es 8.492, que sin duda
alguna presenta una mayor variabilidad, por lo tanto se concluye que los errores no cumplen con la
homoscedasticidad.
La independencia se puede analizar mediante una grfica de residuales, si los errores se tienen un
patrn de comportamiento aleatorio, los errores son independientes, en este caso los errores se
grafican por el orden como fueron apareciendo.
Ejemplo:
Con los datos del ejemplo anterior, determinar si los errores son independientes:
vs. orden
(la respuesta es Ventas)
10
4
Residuo
-2
-4
2 4 6 8 10 12 14 16 18 20
Orden de observacin
Como se puede apreciar el punto 4, se encuentra separado significativamente del valor de cero, y por
otra parte las observaciones de la 9 al 18, que son un total de 10 de manera consecutiva se
encuentran por debajo de cero, regularmente se permiten hasta 7, antes de concluir que los datos no
se presentan de manera independiente, por lo tanto los errores no cumplen con el supuesto de
independencia.
Ejemplo:
Con los datos del ejemplo anterior y utilizando un intervalo de confianza del 95%, determine el
valor de 0 .
En este caso 1 2 = 0.95, por lo tanto = 2.101
2
1340.09 1340.09
0.2894 2.101(2.2684) < 0 < 0.2894 + 2.101(2.2684)
20(152.7495) 20(152.7495)
3.4459 < 0 < 2.8671, dado que el valor pasa por el cero, se considera que 0 = 0. No es de
inters estudiar la ordenada al origen, puede pasar por cero sin afectar la relacin entre las variables.
Se puede hacer la estimacin de 1, esta variable nos seala la relacin entre las variables, si el
intervalo pasa por cero, seala que la relacin no es significativa, para un nivel de confianza el
clculo se hace de acuerdo con la siguiente frmula:
1 /2
1 + /2
< 1 < donde = 2
Ejemplo:
Con los datos del ejercicio anterior, calcule el valor de la pendiente, usando un nivel de confianza
del 90%, y determinar si la relacin entre las variables es significativa.
Para 1 2 = 0.9, se tiene /2 = 1.734, entonces:
2.6084 2.6084
4.07 1.734 ( ) < 1 < 4.07 1.734 ( ), por lo tanto se tiene:
152.7495 152.7495
3.704 < 1 < 4.436, dado que no pasa por cero, la relacin entre las variables es significativa.
INTERVALO DE CONFIANZA.
Este se refiere al valor promedio que tomara en promedio Y para los el valor de X, se determina de
la siguiente manera:
1 2
( ) 1 ( ) 2
0 /2 + 0 < /0 < 0 + /2 + 0 donde = 2
Ejemplo:
Determine un intervalo de confianza del 90%, para el valor esperado de Y, cuando = 10.
Entonces = 40.4106 y = 0.05, los grados de libertad = 18, por lo tanto /2 = 1.734, se
2
tiene:
1 (10 7.705)2
40.4106 1.734(2.6083) + < /10
20 152.7495
1 (10 7.705)2
< 40.4106 + 1.734(2.6083) +
20 152.7495
Conclusin: Aseguramos con una confianza del 90%, que para el valor de = 10, el valor
promedio de Y se encuentra entre 39.096 a 41.7252.
INTERVALO DE PREDICCION
Se utiliza para conocer el valor de variacin que puede tomar Y para un valor de X, el cual se
determina de la siguiente manera:
1 2
( ) 1 ( ) 2
0 1 + + 0 < < 0 + 1 + + 0 donde = 2
2 2
Ejemplo:
Determine un intervalo de confianza del 90% para el rango de valores de Y, cuando = 10.
1 (10 7.705)2
40.4106 1.734(2.6083)1 + + <
20 152.7495
1 (10 7.705)2
< 40.4106 + 1.734(2.6083)1 + +
20 152.7495
Conclusin: Aseguramos con una confianza del 90%, que para = 10, el valor de Y se encuentra
en el rango de 35.7006 a 45.1206.
Ejemplo:
Resolver el problema anterior en Minitab, determinando:
a) El diagrama de dispersin.
Grfica de dispersin de Ventas vs. Gastos
50
40
Ventas
30
20
10
2 4 6 8 10 12
Gastos
Como se puede observar la relacin entre las variables es significativa, ya que existe claramente una
tendencia en la lnea de regresin trazada.
0.8
0.6
Densidad
0.4
0.2
Aceptacin de Ho 0.05
0.0
0 4.414
X
1) Pregunta: 0 = 0 ?
2) Hiptesis: 0 : 0 = 0
1 : 0 0
3) Nivel de significancia: = 0.01
4) rea de aceptacin de 0 :
Grfica de distribucin
T, df=18
0.4
0.3
Densidad
0.2
0.1
Aceptacin de Ho
0.005 0.005
0.0
-2.878 0 2.878
X
1) Pregunta: 1 = 0 ?
2) Hiptesis: 0 : 1 = 0
1 : 1 0
3) Nivel de significancia: = 0.05
4) rea de aceptacin de 0 :
Grfica de distribucin
T, df=18
0.4
0.3
Densidad
0.2
0.1
Aceptacin de Ho
0.025 0.025
0.0
-2.101 0 2.101
X
f) Determine las ventas esperadas los gastos son de $10,000, usando un intervalo de confianza de
90%.
EE de
Nueva obs Ajuste ajuste IC de 90% IP de 90%
1 40.411 0.758 (39.096, 41.725) (35.700, 45.121)
De manera puntual las ventas son: 40.411 millones y el intervalo de confianza de 90%, las ventas se
encuentran entre 39.096 a 41.725 millones.
g) Determine el intervalo de ventas si los gastos son de $10,000, usando un intervalo de confianza
de 90%.
En este caso se tiene que las ventas oscilaran entre 35.7 a 45.121 millones.
0.9
Probabilidad
Residuo
0.5
0
0.1
0.01
-5 0 5 10 10 20 30 40 50
Residuo Valor ajustado
6 5
Residuo
4
0
2
0
-4 -2 0 2 4 6 8 2 4 6 8 10 12 14 16 18 20
Residuo Orden de observacin
Como se puede observar el la grfica superior izquierda, los errores o residuales no tienen una
distribucin normal, ya que el mes 4 tiene una residual o error de 8.492, valor se ve reflejado en el
resto de las grfica, en la superior del lado derecho, es el punto ms alto que sobresale, en la inferior
del lado izquierdo este punto ocasiona la barra de la derecha, y finalmente en la grfica de la derecha
inferior el cuarto punto se debe a este residual y ocasiona que los puntos 9 al 18 se encuentren por
debajo de cero.