You are on page 1of 28

Estadstica III 3009137, semestre 02 de 2015

Equipo de Trabajo No. 11


Serie No. 72

Curso: Ma - Ju

TTULO TRABAJO
Bryan Miranda1, ngela Pineda2, Stiven Mazo3 y Jhony lzate4
Fecha de entrega: 26 de noviembre de 2015
Resumen

Palabras claves: Mximo cinco, relacionadas con la temtica del trabajo

1. Introduccin
Plantee aqu una descripcin de qu son los datos, es decir, defina la variable de la serie, su unidad
de medida, construccin e interpretacin de sus cifras, perodos observados, frecuencia de
observacin, total de observaciones y fuente de los datos. Enuncie tambin los resultados obtenidos
en la modelacin de la serie en los trabajos anteriores (esto es aplicable en los trabajos 2 y 3 del
curso) y los objetivos del trabajo actual.
2. Anlisis descriptivo de la serie y test HEGY
2.1.
Anlisis descriptivo

Figura 1. Lado izquierdo: Valor agregado del sector de la construccin medido desde el PIB trimestral, Desde el
primer trimestre de 2000 hasta el tercer trimestre de 2014, en miles de millones de pesos. Derecha: Su logaritmo.

1 Estudiante Ingeniera Administrativa, Universidad Nacional de Colombia Sede Medelln.


2 Estudiante Ingeniera Administrativa, Universidad Nacional de Colombia Sede Medelln
3 Estudiante Ingeniera Industrial, Universidad Nacional de Colombia Sede Medelln
4 Estudiante ingeniera Administrativa, Universidad Nacional de Colombia Sede Medelln.

Tendencia: La serie tiene un patrn de crecimiento persistente a largo plazo, es decir, un patrn
regular aumentando anualmente. Se la puede considerar de tipo global ya que esta su patrn se
puede describir mediante una curva suave.
Estacionalidad: La serie presenta patrones peridicos que se repiten, de lo cual se deduce la
existencia de una componente estacional.
Varianza: la varianza no es constante y aumenta alrededor de la tendencia a medida que avanza
el tiempo, por tal motivo se toma como una seria de componentes multiplicativas. En la escala
logartmica (Figura 1, derecha), la varianza se puede tomar como constante.
Ciclos: Se puede observar la presencia de ciclos debido a patrones no explicados observados en
ambas grficas.

Figura 2. Logaritmo de la serie recortada

Para el estudio del presente documento se utilizara el logaritmo natural de la serie ya que,
grficamente, su varianza se puede asumir constante. A estas observaciones se le recorto 4 datos
para la validacin cruzada.

Figura 3. Derecha: Primera diferencia regular. Izquierda: Su ACF.

De la figura 3 (izquierda), se puede ver que al aplicar la primera diferencia regular al logaritmo de
la serie ( log ( Y t ) ): se elimin la tendencia lineal; todava se ve la presencia de un patrn
peridico estacional que est afectando a la media, ya que se mantiene el nivel pero el promedio
cambia segn el periodo; y la varianza no es constante a medida que avanza el tiempo. De la figura
3 (derecha), se puede ver que la ACF no presenta ergodicidad debido a que se presenta un patrn

( k )=0
peridico y adems no decae lentamente ( klim

no rpidamente). Por lo anterior, se

puede asumir la primera diferencia regular del logaritmo de la serie como un proceso no
estacionario.

Figura 4. Derecha: Primera diferencia estacional. Izquierda: Su ACF

De la figura 4 (izquierda), se puede ver que al aplicar la primera diferencia estacional al logaritmo
de la serie ( 4 log ( Y t ) ): no se elimin la tendencia lineal debido a que se evidencia cambio de
nivel a medida que el tiempo avanza (media no constante), el patrn peridico que se evidenciaba
en las figuras 2 y 3 se elimin, sin embargo la varianza no es constante a medida que avanza el
tiempo. De la figura 4 (derecha), se puede ver que la ACF si presenta ergodicidad debido a que se

( k )=0
evidencia un patrn de cola positiva y adems, este decae rpidamente a cero ( klim

rpidamente). Por lo anterior, se puede asumir la primera diferencia regular del logaritmo de la
serie como un proceso no estacionario.

Figura 5. Derecha: Diferencia por tendencia y estacionalidad.

De la figura 5, se puede ver que al aplicar la primera diferencia regular a la primera diferencia
estacional del logaritmo de la serie ( 4 log ( Y t ) ): se elimin la tendencia lineal, la media es
constante debido a que ya no se presenta cambio de nivel a medida que avanza el tiempo, el patrn
peridico que se evidenciaba en las figuras 2 y 3 se elimin y la varianza alrededor de la media se
puede asumir constante a medida que avanza el tiempo.

Figura 6. ACF de

4 log ( Y t )

Figura 7. PACF de

4 log ( Y t )

De la figura 6 y 7, se puede ver que tanto ACF como PACF presentan ergodicidad debido a que no
presenta patrn peridico que se repita y adems ambas decaen rpidamente a cero (

lim ( k )=0 rpidamente). Por lo anterior, se puede asumir la primera diferencia regular de la

diferencia estacional del logaritmo de la serie como un proceso estacionario.


2.2.
Test HEGY
La raz unitaria estacional de periodo s, dice que si alguna raz Ck del polinomio 1-xS con k=1,2,..,s
tambin cumple que

( C k )=0 (es decir es raz del polinomio AR

( B ) ) entonces log(Yt)

tiene raz unitaria estacional y ser necesario aplicar la diferencia estacional

s=1B s sobre

log(Yt).
El modelo de regresin que plantea el test de HEGY es el siguiente para el caso de la serie que tiene
una frecuencia trimestral
p1

4 Lo g ( Y t )= 1X 1,t 1 + 2X 2,t 2 + 3X 3,t 3 + 4X 4, t 4 + bi 4 log ( Y ti ) + Et


i=1

Con

Et RB N (0, )

(1)

Y las pruebas de hiptesis se plantean a continuacin:


TES
T
1
2
3

PRUEBA DE
HIPOTEIS

H 0 : 1=0
vs H 1 : 1 <0
H 0 : 2=0
vs H 1 : 2 <0
H 0 : 3 = 4=0
vs H 1 : 3 <0 o 4 0

FRECUENCIAS
ANGULARES

PERIODICIDA
D

ESTADISTICO

=0

1.759

0.1

SEMESTRAL

-1.598

0.1

ANUAL

0.545

0.1

Tabla 1. Test HEGY

VALOR-P

Con

1 asociado a

2=0 ( C2 ) =0 , y

C1

tal que

1=0 ( C1 ) =0 ,

2 asociado a

C2

asociado al par conjugando ( C3 , C 4

tal que
tales que

3= 4 =0 | ( Ck )|=0, k =3, 4( do nde| ( Ck )| es el modulo del numero complejo resultante al evaluar ( B ) en C

Resultado: no hay evidencia para rechazar H 0 en ninguno de las test, dado valores-p
grandes, por tanto la serie es no estacionaria por tener tanto raz unitaria regular (Test 1)
como raz unitarias estacionales (test 2 y 3). Se concluye que es necesario aplicar la
diferencia

4
4 =( 1B )(1B ) , tal y como se evidencio en la seccin anterior.

3. Postulacin de modelos SARMA(p, d, q)*(P, D, Q)


3.1. Identificacin de modelos
3.1.1. ACF y PACF

Parte regular
Al observar en las figuras 6 y 7, en k=1,2 (debido a que la serie es trimestral) es dificil evaluar y
establecer patrones para la identificacion grafica de modelos, por tanto se tanteara modelos
AR(p) y MA(q) asumiendo patrones de cola-corte y corte-cola, respectivamente, en la ACF y
PACF.
Asumiento patron de cola en ACF y corte en PACF se identifica un proceso AR(2) para la parte
regular y asumiento patron de corte en ACF y cola en PACF se identifica un proceso MA(1)
para la parte regular

Parte estacional
Al observar en las figuras 6 y 7, en k=4,8,12,,24, se plantean los casos:
o Si se identificara patron cola corte, en ACF y PACF respectivamente, se sugeriria un
proceso AR(P), posiblemente un AR(2), sin embargo esto no es posible ya que en
ningun caso puede presentarse un patron de cola en ACF comenzando negativo dado
este proceso.
o Si se identificara patron corte cola, en ACF y PACF respectivamente, se sugeriria un
proceso MA(Q), sin embargo en la primera no hay ningun k multiplo de s=4 para
establecer el valor de Q, ademas el patron de cola que mejor se puede identificar en
PACF es un decaimiento exponensial sinusoidal segn el cual no es posible este
proceso.
De lo anterior se deduce que el proceso SARIMA, en la parte estacional, sugiere un proceso
ARMA(P,Q)[4] , con valores P y Q desconocidos.
De la seccion 3.1.1. y 3.1.2 se concluye que graficamente no es posbile la identifiacion de
modelos SARIMA(p,d,q)*(P,D,Q)[4] para el logaritmo de la serie.
3.1.2. Funcion auto.arima( )
Aplicado sobre log(Yt)
o AIC

Imagen 1. Print-Screen de la funcin Auto.arima del logaritmo de la serie, criterio AIC.


Izq: test OCSB. Der: test CH

BIC

Imagen 2. Print-Screen de la funcin Auto.arima del logaritmo de la serie, criterio BIC.


Izq: test OCSB. Der: test CH.

Aplicando la funcin Auto.arima ( ) se identifica tanto por criterio AIC como BIC un modelo
ARIMA (1, 1, 1)*(1, 0, 0)[4] sin deriva, para el logaritmo de la serie:

( 11B )( 11B 4 )( 1B )log ( Y t ) =( 1+1B )Et


log ( Y t ) =( 1 +1 )log ( Y t1 ) 1log ( Y t 2) + 1log ( Y t4 ) ( 1 1 +1 )log ( Y t 5 ) + 11log ( Y t6 ) + E t +
, con
3.1.3. Funcin armasubsets( )
Esta funcin se aplicara sobre 4 log ( Y t )

Et RB N (0, 2)

(2)

para los rdenes nar = nma= 12,16 y 20.

Imagen 3. Print-Screen promedio de

4 log ( Y t )

Por otro lado se tomara los modelos identificados por la funcin armasubsets ( ) sin deriva ya que el
promedio de las observaciones de

( Y ) esta cercano a cero.


4 log
t

Figura 8. Grafico armasubsets ( ) nAR =nMA=12

Como es una serie trimestral entoces s= 4. Las casillas indicadas en la parte AR son j=2 (se asigna a

2 ), y las casillas 9 y 11 para las cual se procede asi:


- para j= 9 se tiene m4<9< ( m+1 )4 , entonces m=2 y
l= jm4=924=1 , donde se identifica a 2 y 1 .
- para j= 11 se tiene m4<11< ( m+1 )4 , entonces m=2 y
l= jm4=1124=3 , donde se identifican a 2 y 3 .
Las indicadas en la Parte MA son i=1 (se asigna 1 , 2 (se asigna 2 ), 8 (se asigna 2 )
y la casilla 9 para la cual se procede as:
-

para i= 9 se tiene

k4 <9< ( k +1 )4 , entonces k=2 y


r= jm4=924=1 , donde se identifican a 2 y 1 .

Luego se tiene finalmente lo siguiente:

Polinomio AR regular:

Polinomio MA regular

3 ( B )=

2 ( B ) =1+ 1B+2 B 2
B
Polinomio AR estacional ( 4 )=
1 2B8
2
Polinomio MA estacional

Modelo identificado:

11B 2B 3B

2 ( B4 )=1+2B8

(1 1B 2B2 3B3 )( 12B8 ) ( 1B ) ( 1B 4 )log Y t=


(3)
(1+1B+ 2 B2 )(1+2B8 )E t
2 1

( 2 2 3 2 )log Y t 15( 3 2 )LogY t16+ Et + 1 Et 1+ 2 Et 2+ 2 Et 8+ 1 2 Et9 + 2 2 E t10


LogY t =( 1+ 1 )LogY t 1+
con Et R . B N ( 0, 2E ) (4a)

Figura 9. Figura 10. Grafico armasubsets ( ) nAR =nMA=16

Como es una serie trimestral entoces s= 4. Las casillas indicadas en la parte AR son j=4 (se asigna a

4 ) y las casillas 9 y 14 para las cuales se procede asi:


- para j=11 se tiene m4<9< ( m+1 )4 , entonces m=2 y
l= jm4=924=1 , donde se identifican a 2 y 1 .
- para j= 14 se tiene m4<14 < ( m+ 1 )4 , entonces m=3 y
l= jm4=1434=2 , donde se identifican a 3 y 2 .
Las indicadas en la Parte MA son i=4(se asigna a 4 ), y las casillas 7 y 14 para las cuales se
procede as:
-

para i= 5 se tiene

k4 <7< ( k + 1 )4 , entonces k=1 y


r= jm4=714=3 , donde se identifican a 1 y 3 .
para i=14 se tiene k4 <14< ( k +1 )4 , entonces k=3 y
r= jm4=1434=2 , donde se identifican a 3 y 2 .

Luego se tiene finalmente lo siguiente:

Polinomio AR regular:

4 ( B )=

1 1B 2B2 4B4

4 ( B )=1+ 2 B + 3 B +4 B
B
(
4
)=
Polinomio AR estacional
1 2B8 3B12
3
Polinomio MA regular

Polinomio MA estacional

3 ( B 4 )=1+ 1B 4 +3B12

Modelo identificado:

(1 1B 2B2 4B 4 )(12B8 3B12 ) ( 1B ) ( 1B4 )logY t =


(5)
(1+2 B 2+ 3 B3 +4 B4 )( 1+1B4 +3B12 )Et

1+
2 155 1 155

1+

2
2
1

( 1+ 4 )Et 4 +2 1 Et 6 +3 1 Et 7+ 4 1 E t8 +3 E t12+ 2 3 Et 14 + 3 3 E t1
( 3 3 + 4 3 4 2 )logY t 17+( 2 3 1 3 )logY t 182 3 log Y t19 + 4 3 log Y t20 4
( 3 1 2) logY t15( 3 + 4 34 2 ) log Y t 16+
( 3 2 21 3 1 2 ) logY t 14+
( 3 2 4 2) log Y t 12(1 3 1 2 +3 + 2 4 2 ) log Y t 1
( 4 ) log Y t 4( 1 +1+ 4 ) Lo g Y t 5 ( 2 1 ) log Y t6 + 2 logY t 7+ ( 24 ) logY t 8( 1 2+ 2 + 4 ) log Y t
( 1) logY t1 +
log ( Y t ) =
Con

Et RBN ( N , 2 )

(6a)

Figura 11. Figura 12. Figura 13. Grafico armasubsets ( ) nAR =nMA=20

Como es una serie trimestral entoces s= 4. Las casillas indicadas en la parte AR son j=4 (se asigna a

1 ), 12 (se asigna a 3 ) y las casillas 7 y 17 para las cual se procede asi:


- para j= 7 se tiene m4<7< ( m+1 )4 , entonces m=1 y
l= jm4=714=3 , donde se identifica a 1 y 3 .
- para j= 17 se tiene m4<17< ( m+1 )4 , entonces m=4 y
l= jm4=1744=1 , donde se identifican a 4 y 1 .
Las indicadas en la Parte MA son i=2 (se asigna 2 , 3 (se asigna 3 ) 8 (se asigna

),12 (se asigna 3 ).


Luego se tiene finalmente lo siguiente:

Polinomio AR regular:

Polinomio MA regular

3 ( B )=

1 1B 3B

3 ( B )=1+2 B2 +3 B 3
B
Polinomio AR estacional ( 4 )=
1 1B4 3B12 4B 16
4
Polinomio MA estacional

3 ( B 4 )=1+2B8 +3B 12

Modelo indentificado:

(1 1B 3B3 )( 1 1B4 3B12 4B 16) (1B ) ( 1B 4 ) log Y t =


(7)
(1+2 B 2+ 3 B3 )(1+2B8 +3B 12) Et

log Y t =( 1(8a)
+ 1 )logY t 1 1logY t 2+ 3log Y t 3 ( 311 )
3.2.

Modelos finales propuestos

Se propusieron 2 modelos para la serie: el mejor modelo identificado por armasubsets ( ) y el


modelo ARIMA estacional identifiaco con la funcion auto.arima ( ).
Model
o

Estructura

SARIMA(3,1,3)*(4,1,3
)[4]

SARIMA(1,1,1)*(1,0,0
)[4]

Modelo SARIMA propuestos para Log(Yt)

(1 1B 3B3 )( 1 1B4 3B12 4B 16) (1B ) ( 1B 4 ) log ( Y t ) =(1+


2

Et un R . B N (0 , )
( 1 1B )( 11B 4 )( 1B )log ( Y t ) =( 1+1B )Et
con

,
con

Et un R . B N (0 , )

Tabla 2. Modelos propuestos

Modelo 1: Se escoge entre tres alternativas SARIMA(3,1,2)(2,1,2)[4], SARIMA(4,1,4)


(3,1,3)[4], SARIMA(3,1,3)(4,1,3)[4] y SARIMA(3,1,3)(4,1,3)[4]; El primero no es vlido
debido a que no es un proceso ruido blanco en sus errores de ajuste (Test PACF rechaza H 0
en k=5); el segundo aunque es un proceso ruido blanco normalmente distribuido en sus
errores de ajuste, no es invertible, por tanto no es vlido; por ltimo el modelo
SARIMA(3,1,3)(4,1,3)[4] identificado del grafico armasubsets de la figura , es el nico
vlido, por tanto se lo postula como modelo para explicar la serie.
Modelo 2: Debdo a que no se puedo identificar modelos en la seccion 3.1.1, se postulara
unicamente el modelo ARIMA(1,1,1)*(1,0,0)[4] identificado en la seccin 3.1.2.
4.
Ajuste de modelos con validacion cruzada.
4.1.
Modelo 1
Estimacion de parametros

Z0

Parmetro

Estimacin

Error estndar

1
3
2
3
1
3
4
2
3

0.40396927

0.19281

-1.9241

0.054341

0.58332947

0.27402

1.1757

0.239704

0.05291206

0.20854

-2.5872

0.009675

-0.21623319
-0.66458494
-0.39557579
-0.61842651
-0.54781184
0.51936054

0.25500
0.21863
0.32265
0.18947
0.29559
0.40498

-1.6222-2.2143
0.4981
0.9169
-1.8417
-0.7509

0.104752
0.026808
0.618386
0.359212
0.065518
0.452727

valor

P(|Z 46|>|Z 0|)

AIC = 433696.6 BIC = 602337.5


Tabla 3. Estimacion de parametros modelo 1

Significancia de parametros relevantes

Se probara la significancia del parmetro, 3 , 3 , 4 y 3 debido a que son los


parmetros de mayor grado en los polinomios AR regular, MA regular, AR estacional y MA
estacional.
H0: 3 =0 vs H1: 3 0
Estadstico

Z0 =

^3
= 1.1757
Se ( 3)

P (|Z 46|>|Z 0|) =0.239704


No hay suficiente evidencia para rechazar H 0, ya que 0.239704 no es un valor P pequeo, por tanto
3 es un parmetro no significativo dentro del modelo.
H0: 3 =0 vs H1: 3 0
Estadstico

^3
= -1.6222
Se (3)
P (|Z 46|>|Z 0|) =0.104752
Z0 =

No hay suficiente evidencia para rechazar H 0, ya que 0.104752no es un valor P pequeo, por tanto
3 es un parmetro no significativo dentro del modelo.
H0: 4 =0 vs H1: 4 0
Estadstico

Z0 =

^4

= 0.9169
Se (4 )

P (|Z 46|>|Z 0|) =0.359212


No hay suficiente evidencia para rechazar H 0, ya que 0.359212 no es un valor P pequeo, por
4 es un parmetro no significativo dentro del modelo.

tanto

3= 0 vs H1: 3 0
^3

Estadstico Z 0 =
= -0.7509
Se ( 3)
P (|Z 46|>|Z 0|) =0.452727
H0:

No hay suficiente evidencia para rechazar H 0, ya que 0.452727 no es un valor P pequeo, por tanto
4 es un parmetro no significativo dentro del modelo.
Es posible que los parmetros 3 , 3 , 4 y 3 aunque no sean significativos puede
aportar a que los errores del modelo sean ruido blanco, por tanto la no significancia no implica que
el grado del polinomio deba ser modificado. Por otro lado puede que se est cometiendo error tipo I
al no rechazar H0, dado que la aproximacin normal que distribuye al estadstico Z se puede ver
afectado por el corto tamao de muestra que se tiene.
Ecuacion ajustada

0.370990.48412
0.37099(0.48412)+1+()

0.48412
0.37099()

0.370990.160720.16072+0.17372
0.370990.17372()

0.370990.16072+0.17372
0.370990.17372+()

0.54440

0.30409

^
E t11 +(0.41367)( ^
Et 15)
(0.37099+ 1 )^
logY t 1(0.37099)^
logY t 2+ 0.32217^
logY t 3( 0.322171(0.48412 ) )^
log Y

Y^t=exp
(9)

Grafico de ajuste

Figura 14. Serie real vs ajuste modelo 1

4.2.
Modelo 2
Estimacion de parametros

Z0

Parmetro

Estimacin

Error estndar

1
1

0.359488

0.161969

2.2195

0.02645

-0.885375

0.070331

-12.5887

< 2*10-16

0,959429

0.028805

33.3072

< 2*10-16

AIC=505064.4

valor

P(|Z 52|>|Z 0|)

BIC=563505.3

Tabla 4. Estimacion de parametros modelo 2.

Significancia de parametros relevantes

Se probara la significancia del parmetro 1 , 1 y 1:


H0: 1 =0 vs H1: 1 0
Estadstico Z0 =

^1
= 2.2195
Se ( ^1)

P(|Z52|>|Z0|)=0.02645
Se rechaza H0, ya que 0.02645 es un valor P pequeo, por tanto 1 es un parmetro significativo
dentro del modelo.
H0: 1 =0 vs H1: 1 0
Estadstico Z0 =

^1

= -12.588
^1 )
Se (

P(|Z52|>|Z0|) < 2*10-16


Se rechaza H0, ya que 2*10 es un valor P pequeo, por tanto 1
dentro del modelo.
H0: 1 =0 vs H1: 1 0
-16

Estadstico Z0 =

es un parmetro significativo

^1
= -29.616
Se ( ^1)

P(|Z52|>|Z0|) < 2*10-16


Se rechaza H0, ya que 2*10 es un valor P pequeo, por tanto
dentro del modelo.
Ecuacion ajustada
-16

1 es un parmetro significativo

Y^t =exp ( ( 1.359488 )logY t1( 0.359488 ) log Y t2 ( 0.885375 )logY t 4 (0.636563376 )log Y t5 + (0.3
(10)

Grfico de ajuste

Figura 15. Serie real vs ajuste modelo 2

4.3.
Medidas de bondad de ajuste
Grficamente no se puede concluir quien es el mejor modelo que se ajusta a la serie real por tanto se
concluir en base a las medidas de bondad de ajuste AIC y BIC.
Modelo
1
2

AIC
433696.6
505064.4

BIC
602337.5
563505.3

Tabla 5. medidas de bondad de ajuste modelo 1 y 2

De la tabla 5, se puede ver que el modelo con menor valor en AIC es el modelo 1 y en BIC es el
modelo 2. De lo anterior no se puede concluir que modelo ajusta mejor, nicamente que su ajuste es
anlogo.
5.
Analisis de residuales y validacion de supuestos.
5.1.
Analisis de residuales
Residuales de ajuste vs valores predichos

Figura 16. Residuales de ajuste vs valores predichos modelo 1 y 2.

Residuales de ajuste vs tiempo

Figura 17. Residuales de ajuste vs t modelos 1 y 2.

De la figura # y #, se observa que para cada modelo, sus errores de ajuste, presentan una media
aparentemente constante igual a cero, se puede observar corta dispersin en los datos y aunque
se presenta poca abundancia de observaciones extremas se puede considerar que la varianza es
constante. Tambin se observa la presencia de patrones cclicos, es decir no se asume como
verdadero el supuesto de independencia de los errores y adems no se presentan patrones
marcados de carencia de ajuste para ninguno de los modelos propuestos.
5.2.
Validacion de supuestos
Test ACF y PACF

Figura 18. ACF modelo 1 y 2

Figura 19. PACF modelo 1 y 2

TEST ACF
PH5

TEST PACF

( k )=corr(E t , E t+ k )
H 0 : ( k )=0 vs H 1 : ( k ) 0
Para k= 1, 2,, m y m=20

kk =corr ( Et , Et +k Et +1 , Et +2 , , E t+ k1)
H 0 : kk =0 vs H 1 :kk 0
Para k= 1, 2,, m y m=20

55k

^Et^Et +k

EP6

^ ( k )=

t =1

55

^Et
t=1

5 Prueba de hiptesis
6 Estadstico de prueba

aprox N (0,

1
)
55

1
^ kk = ^ kk aprox N 0,
55

( )

CR7

|^ ( k )|

2
55

|^ kk|

, 5% de significancia

Tabla 6. Test ACF y PACF

2
55

, 5% de significancia

TEST ACF: Segn las grafica de la ACF del modelo 1 (Izquierda) y la ACF del modelo 2
(Derecha) no hay cortes de los lmites de Barlett en ningn valor de k, por tanto no hay
evidencia para rechazar la hiptesis nula.

TEST PACF: Segn las grafica de la PACF del modelo 1 (Izquierda) y la ACF del modelo 2
(Derecha) no hay cortes de los lmites de Barlett en ningn valor de k, por tanto no hay
evidencia para rechazar la hiptesis nula.
Test Ljung-Box

( k )=corr( E t , E t+ k )
H 0 : ( 1 )= ( 2 ) = (3 )== ( m )=0 vs H 1 :algn (k ) 0
Con m= 6, 12, 18 y 24
m

(k ) ]
[^

Estadstico de prueba LB =55( 55+ 2) k=1


X 2m
(55k )
Criterio de rechazo Vp=P ( X 2m > LB ) valor P pequeo
o

Modelo 1
m

QLB

DF

6
12
18
24

2.515117
6.252885
15.668925
20.979952

6
12
18
24

Xm
> Q LB
P(

0.8667720
0.9028012
0.6156409
0.6399076

Tabla 7. Test Ljung.Box modelo 1

Se puede observar que de las pruebas hechas en los rdenes m=6, 12, 18 y 24, al modelo 1, se
obtuvieron valores p grandes que evidencian que la probabilidad de equivocarse si se rechaza la
hiptesis nula es alta. Segn esto no hay evidencia suficiente para rechazar las hiptesis nulas y por
tanto, segn el test, los errores de ajuste del modelo 1 son un proceso ruido blanco.
o Modelo 2
m

QLB

DF

6
12
18
24

8.976822
17.371482
27.686431
33.242306

6
12
18
24

P(

X 2m >
QLB

0.17488576
0.13614958
0.06699014
0.09906320

Tabla 8. Test Ljung.Box modelo 2

Se puede observar que de las pruebas hechas en los rdenes m=6, 12, , al modelo 2, se obtuvieron
valores p grandes que evidencian que la probabilidad de equivocarse si se rechaza la hiptesis
nula es alta. En los ordenes m=18, 24 se obtienen valores p pequeos que rechazan la hipotesis nula.
Sin embargo asumiremos estos rechazos como producto de la mala aproximacion del estadistico del
7 Criterio de rechazo

test Ljung-Box a la distribucion

Xm

la cual requiere un tamao de muestra grande, el cual no se

tiene. Ademas de esto puede tambien verse afectada la decision del test por la precensia de
observaciones extremas en los errores de ajuste tal y como se ve en la figura
o Resultado modelo 1: segn el test ACF, PACF y Ljung-Box podemos concluir que
los errores de ajuste del modelo 1son un proceso ruido blanco.
o Resultado modelo 1:S e tiene que los test ACF y PACF no rechazan ruido blanco en
los errores de ajuste, pero Ljung-box si. Se asuimira el resultado del test Ljung-box
como error tipo I producto de la mala aproximacion a la distribucion y tambien por
la presencia de observaciones extremas. Por tanto los errores de ajuste del modelo 2
son un proceso ruido blanco.
Test de normalidad
Se plantean las siguientes hipotesis:

H 0 : E t N (0, 2 )

vs

H a : E t N (0, 2) , no sedistribuye

Para probar estas hipotesis se haran dos test de normalidad: test Shapiro wilk y test grafico Q-Q
normal.
Test shapiro wilk
o

Estadistico de prueba:

W c=

i=
2
( m E i( E n+1iEi ))

55

, con

(EiE)2

m=

n1
=27
2

i
E

un

i=1

valor de la tabla Shapiro-wilk. [3][4]


Criterio de rechazo: valor p=P(W W c ) pequeo
Test grafico
o
Criterio de rechazo: Los puntos del grafico Q-Q Normal tienen que seguir la linea de tendencia, de
lo contrario se rechaza la hipotesis nula.
Ambos test se pueden ver afectados por la presencia de observaciones extremas, y de ese modo la
tambien la conclusion a la que se llega. Debido a esto tambien nos apoyaremos en los respectivos
graficos de residuales del modelo(seccion Error: Reference source not found).
o Modelo 1
Estadstico W
0.98904

Valor p
0.896

Figura 20. Grafico QQ-normal modelo 1.

Test Shapiro-wilk: dado que el valor-p igual a 0.896 se considera un valor P grande, no se rechaza la
hipotesis nula y por tanto, segn el test, los residuales ajustados del modelo 1 se distribuyen
normalmente.
Test grafico: Se aprecia algunas observaciones que no siguen la tendencia marcada en linea roja,
pudiendo ser obviadas. El resto de los puntos siguen la tendencia marcada en linea roja. Por tanto
hay evidencia suficiente para no rechazar la hipotesis nula, y segn esto, los residuales ajustados del
modelo 1 se distribuyen normalmente.
o Modelo 2
Estadstico W
Valor p
0.98006
0.4903

Figura 21. . Grafico QQ-normal modelo 2.

Test Shapiro-wilk: dado que el valor-p igual a 0.4903se considera un valor P grande, no se rechaza
la hipotesis nula y por tanto, segn el test, los residuales ajustados del modelo 2 se distribuyen
normalmente.
Test grafico: En la figura del modelo 2 se aprecia algunas observaciones al borde de los limites,
pudiendo ser obviadas, el resto de los puntos siguen aparentemente la tendencia marcada en linea
roja a pesar de los pocos datos que se tiene. Por tanto hay evidencia suficiente para no rechazar la
hipotesis nula, y segn esto, los residuales ajustados del modelo 2 se distribuyen normalmente.

6.

Pronosticos para la validacion cruzada


6.1.
Modelo 1

0.370990.17372+()^
LogY 55 ( L18 )( 0.322170.173720.322170.16072 )^
logY 55 ( L19 ) + (0.32217

(11)

Periodo

Pronostico

Lim. inf

Lim sup

2013

Q4

22285.66

19417.19

25577.88

Q1

13466.71

11423.48

15875.40

2014

Q2

16148.67

13646.10

19110.19

2014

Q3

19024.21

15984.32

22642.21

2014

Amplitud promedio = 5683.648 Cobertura = 75%


Tabla 9. Pronosticos modelo 1

6.2.

Modelo 2
5 471526 siduos ajustados del modelo cumplen con el supuesto de normalidad

( L1 )

5 471526 siduos ajustados del modelo cumplen con el supuesto de normalidad

( L4 )
0.007226
Y 55( + (1.730358658 )log ^
exp
^
Y ( L5 ) ( 0.8651793288 )log Y ( L6 ) + ( 2.607998416 ) E^ ( L1) )
2
55
logY
( 3.695471526 )^

^
Y 55 ( L)=exp
55

55

55

(12)
Periodo

Pronostico

Lim. inf

Lim sup

2013

Q4

20044.10

16967.89

23678.03

Q1

13934.22

11587.86

16755.69

2014

Q2

16193.29

13385.72

19589.73

2014

Q3

18278.71

15058.21

22187.98

2014

Amplitud promedio = 6302.939 Cobertura = 100%


Tabla 10. Pronosticos modelo 2

6.3.
Modelo
1
2

Medidas de precision de los pronosticos


RMSE
1600.954
505.214

MAE
1231.205
462.3651

MAPE (%)
6.952435
2.75068

Amplitud prom
5683.648
6302.939

Cobertura (%)
75
100

Tabla 11. Medidas de precision de los errores modelo 1 y 2.

De acuerdo a estos resultados, el modelo 1 en su pronstico se alej del valor verdadero en


promedio 1600.954 miles de millones de pesos, el modelo 2 por su parte en el pronstico se alej
del valor verdadero en 505.214 miles de millones de pesos; Para la raz del Error cuadrtico medio
se obtuvieron los valores de 1231.205 para el modelo 1 y 462.3651 para el modelo 2 ambas en
miles de millones de pesos. En trminos absolutos el modelo 1 se equivoc en un 6.952435% con
respecto al valor real, mientras que el modelo 2 solo se equivoc en 2.75068% respecto a su valor
real y finalmente el modelo 1 tiene una cobertura de 75% mientras que el modelo 2 cuenta con una
cobertura del 100%; en cada pronostico en un horizonte de longitud igual a 4 para los modelos 1 y 2
propuestos (m=4 predicciones).

Figura 22. Valores reales y pronosticados modelo 1 y 2.

Segn la tabla 11 de las medidas de precisin para los pronsticos puntuales de los modelos 1 y 2
los menores valores en las medidas de precisin de los pronsticos puntuales los tiene el modelo 2,
segn lo cual se dice que es el que modelo que menos se aleja de los valores reales. Tambin se
puede apreciar que el modelo 1 tiene una cobertura menor que la del modelo 2. Esto se puede deber
a que la amplitud promedio para el modelo 1 es menor respecto al 2, por tanto el intervalo de
prediccin de los pronsticos es ms pequeo.
De la figura, de valores reales y pronsticos se puede observar que los valores de los pronsticos del
modelo 2 en 2013Q4, 2014Q1, 2014Q2 y 2014Q3 son los que ms se acercan a los valores reales de
la serie. Se concluye que para el horizonte de pronostico seleccionado, el modelo que mejor
pronostica es el 2, SARIMA(1,1,1)*(1,0,0)[4]

7.

Conclusiones
7.1.
Eleccin del mejor modelo de la tercera parte de estudio
Para la eleccin del mejor modelo del presente estudio se tiene que:
- El ajuste ambos modelos respecto a la serie real son anlogos, por tanto este no fue un
criterio para la eleccin del modelo.
- Ambos modelos cumplen los supuestos en sus errores de ajuste: Media constante, varianza
constante, ergodicidad en ACF y PACF, ruido blanco y normalmente distribuidos. Sin
embargo ambos presentan ciclos. Por otro lado para el modelo 2 fue necesario interpretar
como error tipo I el resultado del test Ljung-Box en los rdenes k=18,24.
- Los parmetros relevantes del modelo 1 no son significativos por lo que fue necesario
interpretar este resultado como producto de la mala aproximacin a la distribucin normal
por los pocos datos en la serie.
- Las medidas de precisin de pronsticos son menores en el modelo 2, por tanto se acerc
ms a los valores reales. Adems su cobertura para los valores reales dentro de los
intervalos de confianza es del 100%.
Como resultado se concluye que el mejor modelo SARIMA(p,d,q)*(P,D,Q) [4] es el modelo 2,
que corresponde al modelo SARIMA(1,1,1)*(1,0,0)[4].
De la figura , se puede ver que el modelo si captura la dinmica de la serie adems de seguir los
patrones de tendencia y estacionalidad. Sin embargo las variaciones cclicas no se capturan del
todo. Los pronsticos se pueden asumir como realistas y confiables, segn lo visto en la figura
y las medidas de precisin de los errores.
Durante la modelacin se presentaron problemas en la identificacin de modelos a partir de la
ACF y PACF de 4 log ( Y t ) . Como consecuencia en esta seccin solo fue postulado el
modelo 2. Otras alternativas para la postulacin de modelos puede darse al incluir parmetros
en los modelos identificados mediante funcin armasubsets ( ). Esto no se realiz debido a que
el modelo 1 cumpla los supuestos de valides.
7.2.
Eleccin del mejor modelo de la totalidad del estudio
Durante el estudio realizado a lo largo del semestre se eligieron los tres mejores modelos para
explicar la serie y un modelo local:
ARIMA(1,1,1)*(1,0,0)[4] (trabajo actual):

log ( Y t ) =( 1 +1 )log ( Y t1 ) 1log ( Y t 2) + 1log ( Y t4 ) ( 1 1 +1 )log ( Y t 5 ) + 11log ( Y t


, con

Et RB N (0, )

Log cubico estacional (primero trabajo):

(13)

log Y t = o+ 1t+ 2t 2 + 3t 3+ iI i , t + Et , Et RB N (0, 2)

(14)

i=1

I i , t= 1 si en t el trimestre es el iesimo del ao


0 en cc
t=indice de tiempo t=1,2,3.
Con

Modelo SARMA(0,1)*(0,1)[4] para los errores estructurados (segundo trabajo):


3

log ( Y t ) = 0 + 1t+ 2t + 3t + iI i ,t + E t
2

i=1

Con

Et =( 1 1 B )( 11 B )at , at RB N (0, 2a )

(15)

Holt- Winters multiplicativo (modelo local):


4

Y t +L =( 0,t + 1, tL ) i ,tI i ,t +L + Et +L
Et

iid

(16)

i=1

RB N ( 0, 2 ) , 0,t nivel en t ,

1,t pendiente en t ,
4

i ,t efectos estacionales evaluados en t (i=1, 2,3, 4) ,

i ,t =4

0,t

i=1

1,t y i ,t evolucionan lentamente en el tiempo.


Modelo
ARIMA(1,1,1)*(1,0,0)[4]
Log cubico estacional
SARMA (0,1)*(0,1)[4]
Holt-winters multiplicativo

AIC
505064.4
469043.5
361957.2
564758.6

BIC
563505.3
605572.4
502702.6
682520.9

Tabla 12. Medidas de bondad de ajuste de los mejores modelos del estudio
y del modelo local.

De la tabla, se puede concluir que el modelo que presenta el mejor ajuste, basados en las medidas de
bondad de ajuste, es el modelo de regresion global que plantea un proceso SARMA (0,1)*(0,1)[4]
estacionario en covarianza para los errores estructurales con tendencia log-cubica y estacionalidad
mediante variables indicadores. En contraste, el modelo que mayores valores presenta en estas
medidas es el suaviza miento exponencial Holt- Winters multiplicativo

Figura 23. Valores reales y pronosticados modelos del estudio completo.

Modelo

RMSE

MAE

MAPE (%)

ARIMA(1,1,1)*(1,0,0)[4]
Log cubico estacional
SARMA (0,1)*(0,1)[4]
Holt- winters multiplicativo

505.214
1909.265
1661.913
1548.478

462.3651
1856.186
1627.624
1426.928

2.75068
11.26
9.7882
8.66

Amplitud.
prom
6302.939
5661.70
4101.57
1333.732

Cobertura (%)
100
75
75
25

Tabla 13. Medidas de precision de los pronosticos modelos del estudio completo.

Se puede observar que el modelo que mejor pronostica en el horizonte de pronostico seleccionado
es el ARIMA(1,1,1)*(1,0,0)[4], identificado en el presente trabajo. De igual manera esto se ratifica
en las medidas de precision de los pronosticos RMSE, MAE y MAPE, ademas el modelo tiene una
cobertura del 100% debido a que tiene la mayor amplitud promedio.el modelo que peor pronostica
en este caso es el log-cubico estacional ya que graficamente es el que mas se aleja de los valores
rales de la serie y ademas presenta las mayores medidas de precision de los pronosticos.
De los cuatro modelos presentados en esta seccion solo el modelo de suavizamiento exponencial
Holt- Winters multiplicativo no es valido, ya que en sus errores estructurales se presentan ciclos
muy marcados, una evidente carencia de ajuste, y por ultimo varianza no constante. los demas
modelos si cumplen los supuestos para ser validos. Tambien descartaremos el modelo log-cubico
estacional debido a la imprecision que tiene este en sus pronosticos.
Por ultimo debido a la naturaleza de los datos, es decir el valor agregado como una variable
macroeconomica significativa en la economia de una nacion, se dara mayor importancia a los
pronosticos que al ajuste para la eleccion del mejor modelo del estudio completo, esto debido a la
utilidad del estudio para la planeacion de la produccion bruta de un nacion. Segn esto la serie debe
ser modelada mediante un proceso ARIMA(1,1,1)*(1,0,0) [4].
Es importante resaltar que el estudio se realizo con una serie de tiempo de 59 observaciones, que
para la modelacion mediante validacion cruzada se redujeron a 55. La cantidad de datos es

considerablemente pequea por lo que el estudio realizado puede ser cambiado y los resultados
pueden ser distintos, esto en la medida que se tengan mayor cantidad de observaciones.

You might also like