Professional Documents
Culture Documents
Series Temporales de
Intervalos e Histogramas
Tesis para la obtencin del ttulo de Doctor realizada por
Javier Arroyo Gallardo
Madrid 2008
No me gusta el trabajo, a nadie le gusta,
pero me gusta lo que hay en el trabajo.
La posibilidad de descubrirte a ti mismo.
Tu propia realidad, para ti, no para los
dems, lo que nadie ms puede saber.
v
vi Captulo 0. Agradecimientos
vii
ndice
Agradecimientos v
Resumen vii
1. Introduccin 1
1.1. Motivacin de la investigacin . . . . . . . . . . . . . . . . . . 1
1.1.1. Introduccin a la prediccin de series temporales . . . 1
1.1.1.1. Introduccin histrica a las series temporales 2
1.1.2. Descripcin del problema . . . . . . . . . . . . . . . . 3
1.1.3. Precedentes de las series temporales de intervalos y de
histogramas . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.4. Qu aportan las predicciones de las series temporales
de intervalo y de histograma? . . . . . . . . . . . . . . 9
1.1.5. Mtodos desarrollados al margen de la tesis . . . . . . 11
1.2. Planteamiento de la tesis . . . . . . . . . . . . . . . . . . . . . 12
1.2.1. Mtodos desarrollados en esta tesis . . . . . . . . . . . 13
1.3. Organizacin de la exposicin . . . . . . . . . . . . . . . . . . 14
ix
x NDICE
Bibliografa 275
ndice de guras
xvii
xviii ndice de figuras
xxi
xxii ndice de tablas
Introduccin
No pretendo empezar con cuestiones precisas.
Creo que no se puede empezar con nada preciso.
Tienes que alcanzar dicha precisin
a medida que puedas, a medida que avances.
Bertrand Russell
Este primer captulo ofrece una descripcin general del problema sobre el que trata
esta tesis: la prediccin de series temporales de intervalos y de histogramas. Para ello,
en primer lugar sita el problema a tratar dentro del rea de la prediccin de series
temporales. A continuacin, explica que la manera de abordar la prediccin de las series
temporales de intervalos y de histogramas que propone esta tesis, la cual se encuadra
dentro del rea de anlisis de datos simblicos. Por ltimo, introduce brevemente el
contenido del resto de captulos de la tesis.
1
2 Captulo 1. Introduccin
los valores que se dan entre dos cierres consecutivos, por lo que se pierde la
perspectiva sobre el comportamiento del bien nanciero entre dichos valores
de cierre, es decir, se estn ignorando sus uctuaciones intra-periodo.
Este tipo de situacin no slo aparece en el campo de las nanzas, sino
tambin al manejar datos temporales recogidos de forma sistemtica por
sensores ya sea en procesos industriales, mediciones de niveles en hidrologa,
meteorologa, medioambiente, etc.
.9
.895
.9
.89
.895
.885
7Ene 8Ene 9Ene 10Ene 11Ene
.89 .9
.885 .895
7Ene 8Ene 9Ene 10Ene 11Ene
.89
.885
7Ene 8Ene 9Ene 10Ene 11Ene
30
20
10
30 0
20 10
10 20
0 30
10 40
Ene Feb Mar Abr May Jun Jul Ago
30
20
20
30
10
40
Ene Feb Mar Abr May Jun Jul Ago
0
10
20
30
40
Ene Feb Mar Abr May Jun Jul Ago
que sirvan de apoyo a la toma de decisiones, ver, por ejemplo, Morris (2006).
Sin embargo, dicha teora se encuentra alejada de las reas de las series tem-
porales y del aprendizaje estadstico. En la seccin 3.5.2.2 se comentarn las
aproximaciones para predecir series temporales de candlesticks basadas en
el anlisis estadstico o en la prediccin de series temporales.
La existencia de los candlesticks evidencia que en nanzas resulta til
obtener representaciones temporales y predicciones que trasciendan a la serie
temporal puntual y que informen sobre el rango de valores o la distribucin
que siguen los valores de la accin a lo largo del da.
Otro precedente interesante de representacin de serie temporal de inter-
valos se muestra en Zellner y Tobias (2000). En dicho artculo se analizan
las tasas de crecimiento anuales de 18 pases industrializados con el n de
predecir la mediana de dichas tasas de dos formas, agregada y desagregada.
Curiosamente, a la hora de representar grcamente la serie temporal de las
medianas, los autores optan por dibujar la mediana dentro de los intervalos
que representan el rango intercuartlico de las 18 tasas de crecimiento anual.
El grco resultante representa claramente una serie temporal de intervalos,
tal y como se puede veren la gura 1.4. Dicha representacin puede verse
tambin como una serie temporal de histogramas incompleta. Si en ella apa-
reciesen representados el mnimo y el mximo en cada instante temporal, se
tendra perfectamente representada la distribucin subyacente. La represen-
tacin resultante sera un grco de cajas o boxplot (Tukey, 1977), que es,
como se ver en el captulo 5, un tipo particular de histograma.
En Gonzlez-Rivera, Lee y Mishra (2008) podemos encontrar una ilustra-
cin con una serie temporal de histogramas. Dicha ilustracin es reproducida
1.1. Motivacin de la investigacin 9
Con estos mtodos, la tesis abre un camino que hasta la fecha estaba
prcticamente inexplorado pero que ofrece muchas posibilidades tanto a nivel
de investigacin, como a nivel de aplicacin.
Puede verse que las dos ltimas aproximaciones tienen el mismo nombre,
series temporales simblicas. Sin embargo, ambas proceden de reas distin-
tas: el anlisis simblico y el anlisis de datos simblicos, respectivamente.
El primero trabaja con datos expresados mediante un alfabeto de smbolos
y el segundo con datos expresados mediante intervalos, histogramas, listas
1.3. Organizacin de la exposicin 15
de valores (categricos o no), etc. Pese a algunas similitudes entre las dos
disciplinas, las diferencias son notables.
La tesis se centra en las series temporales de intervalos y de histogra-
mas. El captulo 3 revisar las mtodos que se han propuesto dentro de este
enfoque y al margen de esta tesis.
El captulo 4 se ocupa de las series temporales de intervalos. Propone una
denicin de las mismas, explica cmo se pueden obtener, dene medidas de
error para estas series y propone distintas aproximaciones para predecirlas:
el uso de mtodos clsicos sobre las series de los componentes del intervalo;
y la propuesta de mtodos que trabajan con el intervalo como tal, como son
los alisados exponenciales, el k-NN y el perceptrn multicapa. El captulo
tambin incluye la comparacin de las distintas aproximaciones sobre series
termporales de intervalos reales.
El captulo 5 est dedicado a las series temporales de histogramas. En
l, se aborda la denicin de estas series, la propuesta de medidas de error
paraellas y el desarrollo de mtodos de prediccin, entre los que se encuen-
tran: los alisados exponenciales basados en aritmtica de histogramas y en
el concepto de baricentro de un conjunto de histogramas, y una adaptacin
del algoritmo de k-NN basado tambin en el concepto de baricentro de un
conjunto de histogramas. Los mtodos de prediccin propuestos se prueban
sobre series provenientes de diferentes mbitos.
Los resultados que obtienen los mtodos de prediccin propuestos para
series temporales de intervalos y de histogramas son, en lneas generales, muy
satisfactorios y vienen a subrayar la utilidad de los mtodos propuestos. El
captulo 6 concluye y presenta las lneas de trabajo futuro.
Adems, la tesis incluye dos apndices. En el apndice A se revisan los
fundamentos de los mtodos de prediccin clsicos que son adaptados en la
tesis al contexto simblico. Por otro lado, el apndice B explica en detalle
el procedimiento que se utiliza para calcular el baricentro de un conjunto de
histogramas basado en las distancias de Mallows y de Wasserstein.
Captulo 2
William Faulkner
En este captulo se realiza una revisin del anlisis de datos simblicos. Esta dis-
ciplina tiene como nalidad extraer informacin de datos representados por medio de
intervalos, listas de valores, variables modales, histogramas, etc.
El captulo revisar a fondo las tcnicas propuestas para analizar datos descritos
mediante variables de intervalo y de histograma. El captulo tambin recoger otros
mtodos no provenientes del anlisis de datos simblicos pero que tambin trabajan
con intervalos e histogramas.
2.1. Introduccin
Los datos simblicos son un paradigma de representacin de la informa-
cin que surge a nales de los ochenta (Diday, 1987) bajo la premisa de que
las variables clsicas, i.e., aquellas que a cada individuo le asignan un nico
valor, no son capaces de representar con delidad algunas situaciones. Por
ejemplo, mediante una variable clsica se puede describir el peso o la altura
de un caballo determinado, pero, qu sucede si se quiere describir a la espe-
ciecaballo andaluz? En ese caso, las variables clsicas no permiten recoger
la riqueza de informacin que la realidad ofrece.
Entre las variables simblicas se incluyen las listas de valores, los inter-
valos, las variable modales y las variables de histograma. Siguiendo con el
17
18 Captulo 2. Estado del Arte del Anlisis de Datos Simblicos
tos borrosos. La relacin entre ambas reas es clara y cada vez ms uida,
como demuestra que se hayan dedicado o se vayan a dedicar a su estudio un
nmero especial de la revista Fuzzy Sets and Systems (Lodwick y Jamison,
2003), un futuro nmero especial de Reliable Computing, revista de referen-
cia en el anlisis de intervalos, o sesiones dentro de conferencias tales como
la International Conference on Fuzzy Systems FUZZ-IEEE'2008.
1
Disponible en http://www.ceremade.dauphine.fr/%7Etouati/sodas-pagegarde.htm
2
Disponible en http://www.info.fundp.ac.be/asso/sodaslink.htm
24 Captulo 2. Estado del Arte del Anlisis de Datos Simblicos
1 X
FZ () = P {x |x vir(du )}
m
uE
1 X au
= gZ () + , (2.7)
m bu au
Z(u)
o, equivalentemente,
1 X Iu ()
f () = , con <, (2.9)
m kZ(u)k
uE
y la frecuencia relativa es
pg = fg /m. (2.11)
Bertrand y Goupil (2000) indican que usando la ley de los grandes nmeros,
la distribucin lmite verdadera de Z como m es slo aproximada
por la distribucin exacta f () de la frmula (2.9) ya que sta depende
de la veracidad del hecho de que realmente el interior de cada intervalo se
distribuya segn una distribucin uniforme.
Z
Z = f ()d,
1 X Iu ()
Z
= d
m kZ(u)k
uE
Z
1 X 1
= d
m bu au Z(u)
uE
1 X b2u a2u
=
2m bu au
uE
1 X
= (bu + au ). (2.13)
2m
uE
1 X 2 Iu ()
Z Z
2 f ()d = d
m kZ(u)k
uE
1 X bu 2
Z
= d
m
uE au bu au
1 X b3u + a3u
= . (2.15)
3m bu + au
uE
Esta denicin puede verse como la varianza de los centros de los intervalos
expresada como la diferencia entre el momento de orden 2 y el cuadrado del
valor esperado (i.e. de la media). Al manejar slo los centros esta denicin
no tiene en cuenta la longitud de los intervalos.
Tanto la denicin de varianza de (2.16), como la de (2.17) subsumen a la
denicin de varianza para datos clsicos. Esto quiere decir que si utilizamos
datos clsicos en ambas deniciones obtenemos el mismo resultado que se
obtiene con la varianza clsica. Segn la denicin (2.17), el valor de la
varianza de un conjunto de intervalos iguales es cero, i.e. sea la variable Z tal
que u E , Z(u) = [a, b], entonces SZ2 = 0. Este resultado es coherente con
2.3. Estadsticos descriptivos univariantes 33
el hecho de que los intervalos son todos iguales, sin embargo, esta denicin
no sirve describir la variabilidad interna presente en cada intervalo; es decir,
la variabilidad debida a la longitud del intervalo. Dicha variabilidad si queda
recogida mediante la denicin (2.16) que recoge la varianza de cada intervalo
modelndola como la varianza de una distribucin uniforme.
m
!1
X p
1 X
FZ () = P {x |x vir(du )}
m
uE
1 X X X auk
= puk + puk . (2.28)
m buk auk
uE buk Iuk
donde
X kZ(k; u) Ig k
Z (g; u) = puk , (2.31)
kZ(k; u)k
kZ(g)
36 Captulo 2. Estado del Arte del Anlisis de Datos Simblicos
"s # " su
#2
u
1 X X 1 XX
S2 = (b2uk + buk auk + a2uk )puk 2 (buk + auk )puk .
3m 4m
uE k=1 uE k=1
(2.33)
La varianza se comporta de acuerdo con la armacin de que dentro de cada
intervalo los valores se distribuyen segn una uniforme.
En Billard y Diday (2002) la denicin de varianza que ofrecen los autores
es la siguiente
"s #2 " su
#2
u
2 1 X X 1 XX
S = (buk + auk )puk (buk + auk )puk .
4m 4m2
uE k=1 uE k=1
(2.34)
Como se puede ver, los estadsticos descriptivos para histogramas subsumen
a los estadsticos descriptivos para intervalos. Esto es correcto ya que un
intervalo no es ms que un caso particular de un histograma. Para el caso de
la varianza, la varianza para histogramas de (2.33) subsume a la denicin
de varianza para intervalos de (2.16) y a la denicin de varianza para datos
clsicos. De igual manera, la denicin de (2.34) , subsume a la de intervalos
de (2.17), que a su vez, subsume a la denicin de varianza para intervalos
datos clsicos. Al igual que como se ha explicado para el caso de los intervalos,
la diferencia entre ambas deniciones radica en que la denicin (2.33) s
2.4. Estadsticos descriptivos bivariantes 37
1 X
FZ (1 , 2 ) = P {x1 1 , x2 2 |(x1 , x2 ) vir(du )}
m
uE
1
= (gZ (1 , 2 )
m
X 1 au1 2 au2
+ , (2.35)
bu1 au1 bu2 au2
(1 <bu1 o 2 <bu2 )
38 Captulo 2. Estado del Arte del Anlisis de Datos Simblicos
Z2
1 Z1
1 X Iu (1 , 2 )
f (1 , 2 ) = , (2.36)
m kZ(u)k
uE
H
em
og
lo
b in terol
a Coles
Cada trmino del sumatorio mide la fraccin del rea del rectngulo obser-
vado Z(u) que se solapa con la celda Rg1 g2 . Conviene tener en cuenta que
fg1 g2 es el nmero de observaciones dentro de Rg1 g2 , pero que no tiene por
qu ser necesariamente un entero (salvo en el caso de los datos clsicos). La
frecuencia relativa es simplemente
fg1 g2
p g1 g2 = . (2.38)
m
El histograma conjunto consiste en representar grcamente en tres dimen-
siones el rectngulo Rg1 g2 con una altura proporcional a pg1 g2 . Dicha re-
presentacin no diere de la que se hara en el caso de los datos clsicos.
Un ejemplo de histograma conjunto construido a partir de dos variables de
intervalo puede verse en la gura 2.2.
Z2 Z2
Z1 Z1
de la cruz corresponden con el radio de los intervalos en cada una de las dos
dimensiones. La gura 2.3 muestra un ejemplo de ambas representaciones.
En ella se aprecia que, pese a que son ms complejas que la nube de puntos
de los diagramas de dispersin clsicos, ambas muestran la informacin con
claridad.
La extensin de los diagramas de dispersin a las tres dimensiones se
puede realizar de manera sencilla. En dicho diagrama, los individuos deben
ser representados como hiperrectngulos con los lados paralelos a los ejes. La
gura 2.4 muestra un ejemplo de dicho diagrama. El diagrama de dispersin
de cruces tambin puede extenderse a las tres dimensiones sin gran dicultad.
Z3
Z1
Z2
1 X
Cov(Z1 , Z2 ) = G1 G2 (Q1 Q2 )1/2 , (2.39)
3m
uE
donde, para j = 1, 2,
si Zuj Zj ,
1,
Gj = (2.41)
1, si Zuj > Zj ,
1 X
Cov(Z1 , Z2 ) = (b1u + a1u )(b2u + a2u ) Z1 Z2 , (2.42)
4m
uE
y para kj = m + 1, el rectngulo es
donde
t1 maxu {bu1 }, t2 maxu {bu2 }). (2.48)
Dados estos conceptos la cpula emprica para datos de intervalo viene dada
por
1 X kZ(u) R(w1k1 , w2k2 )k
C 0 (w1k1 , w2k2 ) = , (2.49)
m kZ(u)k
uE
1 X
FZ (1 , 2 ) = P {x1 1 , x2 2 |(x1 , x2 ) vir(du )}
m
uE
1 X
= pu1k pu2k
m
1 bu1k ,2 bu2k
X 1 au1 2 au2 .(2.54)
+ pu1k pu2k
bu1 au1 bu2 au2
(1 ,2 )Z(u)
donde para j = 1, 2,
si Zuj Zj ,
1,
Gj = (2.60)
1, si Zuj > Zj ,
y donde Zj es la media de una variable de histograma Zj tal y como se
dene en la ecuacin (2.32) y donde Zuj es la media del valor de la variable
de histograma Zj observado para el individuo u asumiendo que dentro de
cada intervalo los puntos se distribuyen segn una uniforme, es decir,
suj
1 X
Zuj = pujkj (aujkj + bujkj ). (2.61)
2
kj =1
46 Captulo 2. Estado del Arte del Anlisis de Datos Simblicos
Z1 Z2 , (2.62)
donde Zj es la media de Zj que se calcula mediante la ecuacin (2.32).
Como sucede en el caso de los intervalos, esta denicin de covarianza no
tiene en cuenta la variabilidad interna de cada histograma.
Y (u) = X1 (u) = [au1 , bu1 ] y X(u) = X2 (u) = [au2 , bu2 ] que toman valores
en u = 1, ..., m individuos se dene como
donde au = au2 au2 y bu = bu2 bu2 , siendo au2 y bu2 los valores estimados
por el modelo para au2 y bu2 , respectivamente.
El enfoque min-max asume independencia entre las observaciones de los
extremos inferior y superior de los intervalos, lo cual normalmente no ser
cierto, ya que auj buj por denicin. Este enfoque es conceptualmente ms
pobre que el enfoque simblico presentado en Billard y Diday (2000) porque
simplemente supone una recodicacin del intervalo para hacer que el modelo
de regresin clsico sea capaz de tratarlo. Sin embargo, intuitivamente es de
esperar que esta alternativa produzca modelos mejor ajustados.
donde cu = cu2 cu2 y lu = lu2 lu2 , siendo cu2 y lu2 los valores estimados
por el modelo para cu2 y lu2 , respectivamente.
En este modelo no se considera ninguna relacin de dependencia entre los
centros y los rangos de los intervalos. Los autores plantean el enfoque exclu-
sivamente como un problema de optimizacin y sin considerar los supuestos
probabilsticos que implica el modelo de regresin clsico para el caso de los
datos de intervalo.
En Lima Neto y de Carvalho (2008) se realiza una comparacin entre el
enfoque centro-rango (2.75) planteado en dicho artculo, el enfoque mnimo-
mximo (2.71) y el enfoque de los centros (2.68). La comparacin la realizan
por medio de una simulacin de Monte Carlo sobre conjuntos de datos sin-
tticos que son generados de acuerdo a distintas conguraciones. En dichas
conguraciones, los centros de las variables dependiente e independiente es-
tn linealmente relacionados mediante una relacin lineal que vara segn la
conguracin y que se ve afectada por un trmino de error cuya variabilidad
ser alta o baja, dependiendo tambin de la conguracin. En unas congu-
raciones, los rangos son independientes y se generan mediante distribuciones
uniformes cuya variabilidad depende de la conguracin. Mientas que en
otras, el rango de la variable dependiente depende linealmente del centro de
la variable independiente, siendo afectada esta relacin por otro trmino de
50 Captulo 2. Estado del Arte del Anlisis de Datos Simblicos
error cuya variabilidad puede ser alta o baja, segn la conguracin. Adems,
existen conguraciones con una y con tres variables independientes.
Como medidas de calidad del ajuste de la regresin utilizan la raz cua-
drada del error cuadrtico medio obtenido (RECM) de los mnimos y los
mximos del intervalo, es decir
r Pm s
Pm
u=1 (au2 au2 )2 u=1 (bu2 bu2 )2
RECMmin = y RECMmax =
m m
(2.78)
y el coeciente de correlacin de los mnimos y de los mximos
2 !2
Cov(a2 , a2 ) Cov(b2 , b2 )
2
rmin = y rmax
2
= , (2.79)
S(a2 )S(a2 ) S(b2 )S(b2 )
donde a2 = (a12 , ..., am2 )0 , a2 = (a12 , ..., am2 )0 , b2 = (b12 , ..., bm2 )0 , b2 =
(b12 , ..., bm2 )0 y S(X) es la desviacin estndar de la variable X y Cov(X, Y )
es la covarianza entre las variables X e Y . El resultado de estas medidas en
las diferentes simulaciones realizadas para cada conguracin es promediado.
Para comparar los distintos enfoques dos a dos utilizan un test estadstico
t para muestras pareadas a un nivel de signicacin del 1 % sobre cada una
de las medidas consideradas.
Las conclusiones que se obtienen mediante la simulacin del mtodo de
Monte Carlo son que, de acuerdo con las medidas de calidad establecidas,
el enfoque centro-rango supera al enfoque simblico y al enfoque mnimo-
maximo. Para el caso en el que los centros y los rangos son independientes, la
mejora se hace ms patente cuando hay tres variables dependientes y cuando
la relacin lineal es ms clara (i.e. la variabilidad del error es menor). Cuando
existe relacin lineal entre centro y rango, el enfoque centro-rango supera
claramente al enfoque simblico, pero el rendimiento en comparacin con el
del enfoque mnimo-mximo est ms igualado.
Cuando se compara el enfoque mnimo-mximo con el enfoque simblico,
tanto para los casos en los que existe relacin lineal entre el centro y el rango,
como en los casos en los que no, los resultados no son tan concluyentes ya
que en trminos de RECMmin y RECMmax el enfoque min-max es clara-
mente mejor que el simblico, mientras que en trminos de rmin 2 y rmax
2 los
resultados no son concluyentes.
En Lima Neto et al. (2005) se compara el enfoque simblico (o de los
centros) con el enfoque centro-rango, pero aaden a los modelos de regresin
restricciones para que el modelo garantice que el valor pronosticado para el
extremo inferior de un intervalo no sea mayor que el pronosticado para el
extremo superior, i.e. para que a2 b2 . El experimento para determinar
el rendimiento de los enfoques es similar al explicado anteriormente. Las
conclusiones que se extraen del mismo son que el uso de restricciones en el
2.6. Otras tcnicas de anlisis de datos simblicos. 51
Cov(X, Y )
1 = y 0 = Y 1 X, (2.80)
V ar(X)
entre los pares, preeran dar un intervalo de valores. Tambin puede darse
el caso de que se disponga de un grupo de jueces y que se quiera resumir las
diferencias dadas para cada par de objetos mediante un intervalo (el rango
o el rango intercuartlico). Tambin puede suceder que los datos originales
se encuentren en forma de intervalo y que, por tanto, la diferencia entre los
objetos pueda representarse mediante un intervalo.
Otro gran grupo de tcnicas dentro del anlisis multivariante y de la
minera de datos es el de las tcnicas de clasicacin. Entre los mtodos
propuestos para datos de intervalo caben destacar distintas familias. Por un
lado los rboles de decisin, como los basados en el criterio de Gini (Perinel,
1999) o los basados en el criterio de Kolmogorov-Smirnov (Mballo y Diday,
2006) o el propuesto por Limam, Diday y Winsberg (2003) que combina
un criterio de homogeneidad y de discriminacin para describir las clases de
particiones hechas a priori. Por otro lado, tambin merece la pena destacar las
adaptaciones del anlisis discriminante para intervalos tanto en su variante
lineal (Ishibuchi, Tanaka y Fukuoka, 1990; Nivlet, Fournier y Royer, 2001;
Duarte Silva y Brito, 2006) como en su variante no lineal mediante maquinas
de soporte vectorial (Angulo, Anguita, Gonzlez-Abril y Ortega, 2008).
En el campo de las redes neuronales articiales, Muoz San Roque et al.
(2007) proponen una adaptacin del perceptrn multicapa que maneja datos
en forma de intervalo tanto en las entradas como en la salida, pero donde
los pesos son nmeros escalares y no intervalos. Simono (1996) advierte
que, si se consideran pesos con forma de intervalo, la amplitud del intervalo
nal aumenta considerablemente. Patio-Escarcina, Callejas Bedregal y Lyra
(2004) plantean un perceptrn de una capa cuyas entradas son intervalos y
cuya salida es binaria. La aplicacin de dicho modelo, como es natural, es
clasicacin binaria. Un modelo similar a ste es propuesto en Ishibuchi
y Tanaka (1991). Puede encontrarse ms informacin sobre perceptrones
que manejan datos de intervalo en Muoz San Roque et al. (2007). Ms
recientemente, Rossi y Conan-Guez (2008) han adaptado los perceptrones
multicapa para trabajar con datos simblicos. Lo que estos autores proponen
es, en esencia, una recodicacin de los datos simblicos para que puedan
ser tratados por la arquitectura clsica del perceptrn multicapa. Para el
caso concreto de los datos de intervalo proponen emplear el extremo inferior
y superior de los intervalos o el centro y la longitud de los mismos. En el
ejemplo que desarrollan, prueban el enfoque simblico utilizando datos de
intervalo codicados mediante sus extremos superiores e inferiores da buenos
los resultados, sin embargo la codicacin mediante la media y la desviacin
tpica de los datos originales obtiene mejor rendimiento en todos los casos
trabajados. Sorprende que en dicho trabajo no se aborde el problema con la
codicacin mediante el centro y la longitud, la cual es bien conocida en el
contexto simblico.
Otro tipo de red neuronal que ha sido adaptado para trabajar con datos
54 Captulo 2. Estado del Arte del Anlisis de Datos Simblicos
El lmite entre ambas es, en algunos casos, borroso. Esto es debido a que
un mayor conocimiento del fenmeno puede reducir lo que en un principio fue
considerado como incertidumbre estocstica. Disquisiciones loscas apar-
te, los mtodos estadsticos y de anlisis de datos asumen tradicionalmente
que los valores que manejan son precisos, i.e. ignoran la incertidumbre epis-
tmica. En algunos casos, prescindir de esta incertidumbre puede no acarrear
consecuencias. Sin embargo, si se requiere una gran exactitud en los clcu-
los que se estn realizando, es absolutamente imprescindible tener en cuenta
la incertidumbre de los datos recogidos de cara a operar con ellos y a to-
mar decisiones basadas en los resultados obtenidos. Los principales campos
donde estos aspectos resultan cruciales son abilidad, anlisis de riesgos y
evaluacin de la seguridad de los sistemas.
En los ltimos tiempos, existe un inters creciente por manejar la incer-
tidumbre epistmica. Existen distintos enfoques para reejar dicha incerti-
dumbre. Uno de ellos son los datos borrosos o difusos. Otro enfoque, que
guarda una mayor relacin con la tesis, es el del clculo con intervalos y
con distribuciones de probabilidad. Al igual que en el anlisis de datos sim-
blicos, en estas disciplinas los datos se representan en forma de intervalos
o de distribuciones. Sin embargo, en ellas, el intervalo o la distribucin de
2.7. El clculo con intervalos y con distribuciones de probabilidad 57
a + b = [a + b, a + b]
a b = [a b, a b]
a b = [mn{a b, a b, a b, a b},
max{a b, a b, a b, a b}]
a(b + c) ab + ac
requiere del clculo del rango que a su vez depende de un parmetro que
ja el analista. En este trabajo no queda sucientemente claro qu pretende
reejar esta denicin de varianza, ni la utilidad prctica de la misma. Esta
debe ser la razn de que no se hayan encontrado trabajos donde se aplique
o se contine esta lnea de investigacin.
(X 0 X) = X 0 Y
= (X 0 X)1 (X 0 Y ) (2.87)
donde () es el radio espectral, que para una matriz cuadrada de datos cl-
sicos M se dene como
(M ) = max{||} donde es un autovalor de M. (2.89)
y . Las soluciones que se obtienen con dicho enfoque son nicas o, en algunos
casos, dobles, i.e. hay dos posibles soluciones. Una diferencia importante con
el enfoque de Marino y Palumbo (2003) es que en dicho modelo el coeciente
era un valor de intervalo y no un escalar lo que afecta a la interpretacin de
dicho modelo. Conviene resear que Gil et al. (2002) emplea una mtrica para
cuanticar la exactitud del modelo y dene un coeciente de determinacin
para estudiar la relacin entre los conjuntos aleatorios considerados.
Gonzlez-Rodrguez, Colubi, Coppi y Giordani (2006) demuestran me-
diante una serie de ejemplos y de simulaciones que el modelo ptimo for-
mulado segn (2.91) y estimado mediante mnimos cuadrados no produce
valores de y adecuados. Esto es debido a que pueden darse casos en los que
y H a x no exista, siendo a el valor ptimo estimado para el coeciente a
y siendo a H b = [a b, a b] una operacin de aritmtica de intervalos co-
nocida como la diferencia de Hukuhara que slo est denida si a b a b.
Este problema quiere decir que los valores obtenidos por el modelo estimado
no son vlidos.
Para superar esos problemas Gonzlez-Rodrguez et al. (2006) proponen
el siguiente modelo
y|x = ax + x , (2.92)
donde x representara un intervalo residual tal que, para todos los individuos
i del conjunto considerado, cumple que yi H axi = x,i , siendo a el valor
estimado para el coeciente a y siendo E(x , ) = b, de forma que la funcin
de regresin de la poblacin vendra dada por E[y|x] = ax + b para todo
x i xi .
S
Otros mtodos similares son propuestos por Li y Mac Hyman (2004) y por
Lodwick y Jamison (2003).
Por el momento, no hay investigaciones sobre el clculo de estadsticos
con este tipo de datos. Sin embargo, como se puede anticipar, el clculo de
esos estadsticos o, mejor dicho, de la distribucin de probabilidad de los
mismos no es trivial y ha de suponer una carga computacional considerable.
Captulo 3
En este captulo se abordarn las series temporales simblicas, es decir, las series
temporales donde la variable observada a lo largo del tiempo es una variable simblica.
Este nuevo tipo de serie temporal permite representar la variabilidad que se d en cada
instante. Dicha variabilidad puede representarse, por ejemplo, mediante un histograma
o un intervalo. En el captulo se denirn estas series temporales, se explicarn cmo
se pueden obtener y los mtodos que se han propuesto en la literatura para predecirlas.
Antes, el captulo realiza un repaso de otras aproximaciones que estn relacionadas de
alguna manera con las series temporales simblicas. Estas aproximaciones incluyen las
series temporales multivariantes, las predicciones de intervalo y de densidad, las series
temporales valoradas mediante alfabetos de smbolos y las series temporales de grcos
de velas o candlesticks.
3.1. Introduccin
Tal y como se ha indicado en el captulo 2, el anlisis de datos simb-
licos es un rea novedosa dentro de la estadstica y de la minera de datos.
Su objetivo es el de extraer informacin sobre datos expresados mediante
variables simblicas, como por ejemplo variables de intervalo y variables de
histograma. Estas variables son ms complejas que las variables clsicas que
describen los elementos mediante un nico valor, pero describen de manera
ms el la realidad al poder representar variabilidad.
69
70 Captulo 3. Las Series Temporales Simblicas
Al ser un rea que tiene menos de 20 aos y con un objetivo tan ambicio-
so, existen muchas posibilidades de desarrollo dentro de ella. En un principio
las contribuciones en el rea se centraron en el anlisis cluster y en los datos
de intervalo, ya que stos entraan una menor complejidad. Con el paso de
los aos el catlogo de mtodos se ha ido ampliando y es ms habitual en-
contrar mtodos propuestos para otros datos simblicos, aunque las tcnicas
desarrolladas para datos de histogramas siguen siendo ms escasas. Pese a
esta evolucin, tal y como arman Billard y Diday (2003), es necesario y
deseable que el repertorio de mtodos que tratan este tipo de datos contine
amplindose.
El objetivo de esta tesis es el de hacer conuir el rea de prediccin de
series temporales y el del anlisis de datos simblicos. En la fecha en la que
se empez a trabajar en la tesis, el ao 2004, no exista en la literatura
especializada ninguna propuesta que abordase la prediccin o el anlisis de
series temporales desde la perspectiva del anlisis de datos simblicos. Sin
embargo, durante estos aos han surgido algunas propuestas para predecir
series temporales de intervalos y, ms recientemente, para predecir series
temporales de histogramas.
En este captulo se denir el concepto de serie temporal simblica el
cual engloba a las series temporales de intervalo y de histograma. Tambin
se explica cmo se pueden obtener este tipo de series y se estudia su cone-
xin con otras aproximaciones del anlisis de series temporales en las que
la informacin que se maneja va ms all del valor puntual. Por ltimo, se
detallarn los mtodos propuestos para la prediccin de series temporales
simblicas al margen de la tesis.
Cada una de las variables aleatorias del proceso se rige segn su propia
funcin de distribucin de probabilidad, pudiendo dichas funciones de dis-
tribucin estar correlacionadas.
3.2. El concepto de serie temporal simblica 71
Valor observado en t
magnitud
t1 t2 t3 t4 t5 t6 t7 t8 t9
tiempo
Variable aleatoria en t
Valor observado en t
magnitud
t1 t2 t3 t4 t5 t6 t7 t8 t9
tiempo
Variable aleatoria en t
Intervalo observado en t
magnitud
t1 t2 t3 t4 t5 t6 t7 t8 t9
tiempo
Variable aleatoria en t
Densidad observada en t
magnitud
t1 t2 t3 t4 t5 t6 t7 t8 t9
tiempo
La gura 3.3 ilustra la idea de que una serie temporal simblica de inter-
valos es una realizacin de un proceso estocstico simblico caracterizado en
cada instante por una variable aleatoria y que tiene como valor observado un
intervalo. La gura 3.4 hace lo propio para el caso en el que las observaciones
son funciones de densidad.
Por el momento, dentro del anlisis de datos simblicos no se ha desarro-
llado una teora que estudie los procesos estocsticos de naturaleza simblica.
Sin ese paso previo, no puede denirse el concepto de estacionariedad para
este tipo de procesos, ni estn claras las implicaciones de dicha propiedad de
cara a la elaboracin de predicciones.
Las primeras aportaciones que han aparecido a lo largo de estos aos dedi-
cadas a las series temporales simblicas no abordan el tema desde la perspec-
tiva de los procesos estocsticos simblicos, sino que toman una perspectiva
ms pragmtica centrndose nicamente en la prediccin de las series. En
esta tesis se adoptar tambin dicha perspectiva.
registra una serie de variables para todos o para una muestra de los habi-
tantes de un pas a lo largo del tiempo. Para cada variable, los datos de los
habitantes opueden ser resumidos mediante su media o su mediana o me-
diante cualquier otro estadstico. Un buen ejemplo de este caso lo constituye
la renta per capita ya que es interesante el estudio de su evolucin a lo largo
del tiempo es interesante, pero lo sera an ms conocer la evolucin de la
distribucin de los ingresos de los habitantes del pas y no solo de su media.
En realidad, el caso prototpico de los datos que maneja un instituto de
estadstica, es extensible a las empresas demoscpicas que realizan sondeos
de opinin o paneles de consumidores (Baltagi, 2004). Si stos se repiten a lo
largo del tiempo y se quiere estudiar su evolucin temporal, las series tem-
porales simblicas pueden resultar una herramienta muy til. De hecho, en
este tipo de datos no se puede trabajar con los datos desagregados, es decir,
con series temporales clsicas, ya que los individuos para los cuales se recoge
la informacin no tienen por qu ser los mismos en los diferentes instantes
en los que se recoge la informacin. Por tanto, la agregacin es necesaria y el
uso de intervalos, grcos de caja o histogramas, puede complementar muy
bien al uso de otros estadsticos como la media.
Otro caso donde la agregacin contempornea resulta til es el de las
redes de estaciones meteorolgicas o medioambientales. En estos casos, nor-
malmente se dispone de una serie de estaciones situadas en puntos estra-
tgicos formando una malla que, o bien se distribuye uniformemente en el
espacio, o bien que cubre todos los puntos considerados relevantes. Si el ob-
jetivo no est en estudiar el comportamiento individual de cada una de las
estaciones, sino el comportamiento global, la agregacin puede resultar muy
til y el uso de las series temporales simblicas es una alternativa a tener en
cuenta.
En el mbito nanciero, las series temporales simblicas pueden utilizarse
para agregar informacin de, por ejemplo, los rendimientos de un conjunto
de acciones a lo largo del tiempo. Es interesante destacar que este enfoque
ha sido planteado en el trabajo de Gonzlez-Rivera et al. (2008) donde se
muestra una serie temporal de histogramas que representa la distribucin de
los rendimientos de las acciones que conforman el ndice burstil S&P500.
k1
X
yt0 = j ytj . (3.3)
j=0
radores (el de los mnimos y el de los mximos) son ruido blanco y son
independientes y con distinta varianza. Los autores consideran adems dos
enfoques: en el primero de ellos utilizan todas las observaciones de los mni-
mos y de los mximos del intervalo doblando el tamao muestral usado para
la estimacin; en el segundo muestran que la serie temporal de la diferen-
cia entre el mnimo y el mximo (i.e. la serie temporal de los rangos de los
intervalos) sigue otro proceso ARMA de igual orden y parmetros.
Segn los autores, los resultados obtenidos indican que los procedimien-
tos propuestos funcionan correctamente tanto en trminos de estimacin del
modelo, como en trminos de precisin en la prediccin. En cuanto a la es-
timacin, el mtodo que maneja los mnimos y los mximos supera amplia-
mente al otro enfoque. Sin embargo, en cuanto a precisin en la prediccin,
ambos mtodos obtienen resultados muy similares.
Xt,C = 0,C +1,C Xt1,C +...+p,C Xtp,C +Zt,C 1,C Zt1,C ...q,C Ztq,C
(3.4)
Xt,R = 0,R +1,R Xt1,R +...+p,R Xtp,R +Zt,R 1,R Zt1,R ...q,R Ztq,R
(3.5)
donde {Zt,C } y {Zt,R } son procesos aleatorios con media cero y varianza
constante. A partir de los valores del centro y del radio pronosticados por el
modelo, resulta trivial obtener las predicciones del mnimo y el mximo del
96 Captulo 3. Las Series Temporales Simblicas
intervalo
Xt,L = Xt,C Xt,R y Xt,U = Xt,C + Xt,R . (3.6)
Por su parte, el modelo hbrido que los autores proponen considera que
tanto la serie de los centros, como la de los radios se pueden descomponer
en una componente lineal y otra no lineal de la siguiente manera
Las componentes lineales de ambas series seran estimadas por los modelos
ARMA de los descritos anteriormente. Los residuos de las series de los centros
y de los radios a partir de los modelos ARIMA recogen el comportamiento
no lineal de ambas series, es decir, Zt,C = Nt,C y Zt,R = Nt,R . Las series
de residuos son modeladas cada una de ellas por un perceptrn multicapa.
El perceptrn multicapa de una capa oculta que utilizan para modelar cada
una de las series es el que se propone habitualmente
q
X p
X
Xt = 0 + j g(0j + ij Xti ) + t , (3.8)
j=1 i=1
del intervalo no tiene informacin sobre la posicin del mismo, para ello es
necesario considerar el centro y el rango del intervalo de forma conjunta.
Sin embargo, Cheung (2007) no llega a considerar el intervalo como tal, ni
estudia la capacidad predictiva de los modelos considerados. Estos aspectos
s sern estudiados en el desarrollo de esta tesis.
Prediccin de Series
Temporales de Intervalos
Es fcil predecir un futuro
e imposible predecir el futuro.
David Donnelly
4.1. Introduccin
En una serie temporal clsica, cada periodo est representado como un
nico valor. Este enfoque es til para representar una gran multitud de si-
tuaciones que se dan en la prctica. Sin embargo, como se ha mencionado
en el captulo anterior, existen fenmenos que no pueden ser representados
adecuadamente por este tipo de series temporales.
101
102 Captulo 4. Prediccin de Series Temporales de Intervalos
con < Xt,L Xt,U < , siendo Xt,L el extremo inferior del intervalo,
i.e., el mnimo valor observado, y Xt,U el extremo superior del intervalo,
i.e., el mximo valor observado. Alternativamente, el intervalo [X]t puede
representarse como
[X]t = hXt,C , Xt,R i, (4.2)
donde Xt,C = (Xt,L + Xt,U )/2 es el punto medio del intervalo, i.e., el centro,
y Xt,R = (Xt,U Xt,L )/2 es la mitad de la longitud del intervalo, i.e., el
radio.
Esta medida cumple las propiedades para ser considerada una distancia y se
emplea habitualmente en el anlisis de intervalos (Moore, 1979). Es interesan-
te resaltar que, si se consideran dos intervalos degenerados, i.e., [A] = [x, x]
y [B] = [y, y], entonces obtenemos dH ([A], [B]) = |x y|, que es la topologa
habitual que se emplea en la recta real.
La distancia de Hausdor puede interpretarse como la distancia de Man-
hattan entre dos intervalos, donde cada intervalo es un elemento denido por
su centro y por su radio. De forma equivalente, tambin puede interpretarse
como el mximo de las distancias entre los extremos inferiores o entre los
extremos superiores de los intervalos.
donde dIY ([A], [B]) viene dado en (4.7). Esta medida es una distancia y toma
valores en el rango [0, 1].
Si = 0, la medida toma su valor mximo cuando la interseccin entre
los intervalos es nula, sin tener en cuenta lo distantes que se encuentren stos
entre s. ste no es un comportamiento adecuado para medir errores en STI,
por lo que se descarta = 0. Sin embargo, para = 0.5, la distancia presenta
unas propiedades ms interesantes; son las siguientes:
dDC ([A], [B]) = 0.5 si los intervalos considerados son adyacentes, e.g.
[A] = [1, 3] y [B] = [3, 7], o si uno de los intervalos es degenerado y
est contenido dentro del otro, e.g. [A] = [1, 4] and [B] = [2, 2];
donde RECMm es la raz cuadrada del error cuadrtico medio cometido por
A partir de las predicciones obtenidas para cada una de las dos series
de los componentes se puede componer la STI pronosticada. Sin embargo,
antes hay que comprobar que todas las predicciones obtenidas son en realidad
intervalos. Para ello, en el caso de haber optado por pronosticar las series de
los extremos, hay que comprobar si todos los intervalos cumplen la condicin
de que su extremo inferior es menor o igual que su extremo superior; en el
caso de haber pronosticado las series de los centros y de los radios, hay que
comprobar que todos los radios pronosticados son mayores que cero. Si existe
alguna condicin donde esto no se cumple se debe cuestionar la validez del
modelo empleado.
La aproximacin univariante es la ms sencillo, pero tambin es la ms
pobre desde el punto de vista conceptual ya que no trabaja con los intervalos
como tal, sino que los descompone en dos series sin estudiar, si quiera, la
posible relacin entre ambas series.
donde Yti es el vector de los valores de las series retardados i periodos, con
i = 0, ..., p, que viene dado por
Xti,L
Yti = , (4.21)
Xti,U
donde Zti es el vector de los valores de las series retardados i periodos, con
i = 1, ..., p, que viene dado por
Xti,C
Zti = , (4.28)
Xti,R
Los parmetros del modelo VAR para los extremos inferiores y superiores
pueden hallarse a partir de los parmetros del modelo VAR para el centro
(4.32) y para el radio (4.33), y viceversa. Como ambas transformaciones
siguen la misma losofa basta con realizar la conversin del modelo de los
extremos inferiores y superiores al modelo del centro y el radio, ya que la
otra se realiza de forma similar.
Para realizar dicha conversin nos valemos de las siguientes equivalencias
ya conocidas
Las ecuaciones del modelo VAR del extremo inferior y del extremo supe-
rior mostradas en (4.38) y (4.40), que han sido obtenidas a partir del modelo
VAR del centro y radio estimado mediante mnimos cuadrados, son idnti-
cas a las que obtenemos si estimamos directamente el modelo VAR sobre las
series de los extremos inferiores y de los extremos superiores.
Se puede proceder de forma similar para obtener las ecuaciones del mo-
delo VAR del centro y radio a partir de las ecuaciones del modelo VAR del
extremo inferior y del extremo superior. Por razones de espacio, el procedi-
miento no ser desarrollado aqu.
donde {Yt } y {Zt } con t = 1, ..., n son las series temporales de los vectores
Yt = (Xt,L Xt,U )t y Zt = (Xt,C Xt,R )t , respectivamente.
Por otro lado, una de las propiedades de la esperanza es la siguiente
Mt = 1 Yt + 2 Xt . (4.48)
En esta relacin se puede ver que {Mt0 } = {Xt,R }. En los casos en los que rija
dicha relacin de cointegracin, las series temporales de los radios y de los
rangos sern estacionarias. Al existir cointegracin, tiene sentido incorporar
dicha relacin al modelo VAR y plantearlo como un modelo vectorial de
correccin del error.
La gura 4.1 muestra un ejemplo de una STI real donde se da esta rela-
cin. La imagen muestra las series de los extremos inferiores y superiores que
no son estacionarias y cuyo comportamiento tiende a no distanciarse dema-
siado y la serie del radio que s es estacionaria. Evidentemente, pueden darse
casos en los que no se cumpla esta relacin. Por ejemplo, puede suceder que
el radio del intervalo presente una cierta tendencia o que no tenga variabili-
dad constante y que, por tanto, no sea estacionario. Sin embargo, tal y como
se ver ms adelante en el apartado 4.10, en la prctica es muy habitual que
las series de los extremos inferiores y superiores tengan el mismo orden de
integracin y que la serie de los radios sea estacionaria. En estos casos, entre
ellas rige una relacin como la expresada en (4.49).
Otro aspecto reseable que se suele presentar en la prctica es que la
serie temporal de los centros suele presentar el mismo orden de integracin
que la de los extremos superiores e inferiores, lo cual no es de extraar ya
que cumple la relacin Xt,U Xt,C Xt,L .
Xt,S XL0
Ot = , (4.52)
XU0 XL0
4.6. Prediccin mediante alisados exponenciales 119
X X X
L U C
10800
10700
10600
10500
10400
10300
100
0
2Ene2004 30Ene2004 27Feb2004
donde XU0 y XL0 son el valor mximo y mnimo obtenido durante el periodo
de tiempo que se est analizando. La similitud con la ecuacin (4.51) resulta
evidente.
Segn Fiess y MacDonald (2002), en los conjuntos de datos que analizan
no son capaces de encontrar simultneamente las relaciones de cointegracin
mostradas en (4.49) y en (4.51). Sin embargo, en un trabajo anterior (Fiess
y MacDonald, 1999) s que identicaban ambas relaciones entre las series
de los valores de cierre diarios y las series de los mximos y los mnimos
peridicos (pero no diarios). En esta tesis el propsito es la prediccin de
STI y por ello no se tendr en cuenta la serie de los valores de cierre, pero
resulta interesante conocer esta relacin.
Esto quiere decir que la expresin recursiva del alisado produce predicciones
ms concisas y que, por tanto, es ms adecuada para adaptar el alisado
exponencial para predecir STI. Por ello, para generar predicciones para una
STI se aconseja emplear el alisado exponencial segn la frmula recurrente
(4.55).
Adems, el resultado que se obtiene prediciendo segn la frmula recu-
rrente es el mismo que se obtiene mediante su equivalente media mvil de
pesos exponencialmente decrecientes; al igual que sucede en los alisados ex-
ponenciales para series temporales clsicas. Sin embargo, esto no se cumple
si se emplea la ecuacin en forma de correccin del error. Ms formalmen-
te, si en la ecuacin recursiva se sustituye sucesivamente el trmino [X]t se
obtiene la expresin
t
X
[X]t+1 = (1 )j1 [X]t(j1) (4.59)
j=1
que puede ser reescrita como una media mvil de pesos exponencialmente
decrecientes de orden q
donde = q+1 2
, ya que si q , es lo sucientemente grande, entonces 1 + (1
) + . . . + (1 )q1 ' 1 .
Tal y como se indic en el apartado 2.7.1.1, la aritmtica de intervalos
subsume a la aritmtica clsica. Por tanto, los mtodos de alisado basados
en aritmtica de intervalos generalizan los mtodos de alisado sobre nmeros
reales para poder tratar con STI.
A continuacin, se va a analizar el efecto del alisado sobre una STI.
122 Captulo 4. Prediccin de Series Temporales de Intervalos
donde las operaciones aritmticas requeridas son las descritas para la arit-
mtica de intervalos en el apartado 2.7.1.1.
El promedio de un conjunto de intervalos presenta las siguientes carac-
tersticas
XL,1 + XL,2 + ... + XL,n X +X +...+XU,n
XL = , XU = U,1 U,2n
n
XC,1 + XC,2 + ... + XC,n X +X +...+XR,n
XC = , y XR = R,1 R,2n . (4.62)
n
Esto quiere decir que la media de un conjunto de intervalos es igual a la
media de sus componentes. En el apartado 4.8.2.1, se mostrar la relacin
entre el intervalo promedio y el concepto de baricentro.
CL = AL + (1 )BL , CU = AU + (1 )BU ,
CC = AC + (1 )BC , y CR = AR + (1 )BR . (4.64)
72
70
68
66
64
62
60
58
56
54
2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38
Figura 4.2: STI real (trazo morado) y suavizada (trazo verde) empleando el
alisado exponencial basado en aritmtica de intervalos con = 0.4.)
Estos mtodos son una adaptacin de los alisados para series temporales
clsicas, puede verse una descripcin de stos en el apndice A.2. La notacin
de los mtodos propuestos respeta la notacin propuesta por Gardner (2006).
La principal diferencia es que algunos de los trminos sern del tipo intervalo
y que la aritmtica que rige en las ecuaciones es la aritmtica de intervalos
propuesta por Moore (1966).
Tal y como se ha dicho en el apartado 4.6.1, la aritmtica de intervalos no
permite adaptar de forma satisfactoria la ecuacin del alisado exponencial
en forma de correccin del error al contexto de las STI. Por ello, los mtodos
que se presentarn en este apartado estn expresados en forma recursiva.
30
20
10
temperatura (C)
10
20
30
ene 1952 ene 1953 ene 1954 ene 1955 ene 1956 ene 1957 dic 1957
Figura 4.3: STI que representa las temperaturas mensuales mnima y mxima
registradas en China.
14000
12000
caudal (m3/seg)
10000
8000
6000
4000
2000
0
ene1972 jul1972 ene1973 jul1973 ene1974 jul1974 dic1974
Figura 4.4: STI que representa el cauce mnimo y mximo mensual del ro
Jkuls Fjllum.
4.6. Prediccin mediante alisados exponenciales 127
n n n
* +
X X X
[S]j = wj0 + wji [X]i = wj0 + wji Xi,C , |wji |Xi,R (4.80)
i=1 i=1 i=1
donde los pesos wji no son intervalos, sino nmeros reales, y donde j =
1, ..., h.
La activacin de la neurona j -sima se obtiene transformando el intervalo
[S]j con una funcin no lineal como la tangente hiperblica, tanh. Como
4.7. Prediccin mediante el perceptron multicapa para intervalos 129
Figura 4.5: Estructura del iMLP con n entradas, una capa oculta de h neu-
ronas y una neurona de salida
donde (
Yt,C 1, si j = 0,
= (4.85)
j Ajt,C , si j > 0.
y donde (
Yt,R 0, si j = 0,
= (4.86)
j sgn(j )Ajt,R , si j > 0.
Por su parte, las derivadas de la funcin de coste con respecto a los pesos
de la capa oculta vienen dadas por
n
E 2X Yt,C
= (Yt,C Yt,C ) + (4.87)
wji n wji
t=1
!
Yt,R
(1 )(Yt,R Yt,R ) (4.88)
wji
n
2X Yt,C ajt,C
= (Yt,C Yt,C ) + (4.89)
n ajt,C wji
t=1
!
Yt,R ajt,R
(1 )(Yt,R Yt,R ) , (4.90)
ajt,R wji
4.7. Prediccin mediante el perceptron multicapa para intervalos 131
donde
Yt,C
= j , (4.91)
ajt,C
ajt,C 1
= tanh0 (sjt,C + sjt,R )(Xit,C + sgn(wji )Xit,R ) (4.92)
wji 2
1
+ tanh0 (sjt,C sjt,R )(Xit,C sgn(wji )Xit,R ), (4.93)
2
y donde
Yt,R
= |j |, (4.94)
ajt,R
ajt,R 1
= tanh0 (sjt,C + sjt,R )(Xit,C + sgn(wji )Xit,R ) (4.95)
wji 2
1
tanh0 (sjt,C sjt,R )(Xit,C sgn(wji )Xit,R ) (4.96)
2
k
X
[X]n+1 = p [X]Tp +1 , (4.100)
p=1
134 Captulo 4. Prediccin de Series Temporales de Intervalos
p
p = Pk , (4.101)
l=1 l
k
! 12 k
! 21
X X
pB = mn i DEuclid (pB , pi )2 = mn i (xB xi )2 , (4.103)
pB xB
i=1 i=1
donde i = w
Pk i es el peso de la partcula pi . Es sencillo demostrar que
i=1 wi
la solucin a dicho problema de minimizacin coincide con la mostrada en
la ecuacin (4.102).
La relacin entre la media y el resultado de la minimizacin de la dis-
tancia eucldea tambin es expuesta por Chavent y Saracco (2008) y ha sido
mostrada en el apartado 2.3.1.1 de esta tesis.
A continuacin, se hace una traslacin de estos conceptos al contexto de
los datos de intervalo.
problema de minimizacin
k
! 21
X
mn i Dk ([X]B , [X]i )2 , (4.106)
[X]B
i=1
Zt = Xt Xt1 , t. (4.112)
4.9. Elaboracin y prediccin de una STI 139
Zt = log(Xt ), t. (4.113)
mtodos univariantes
alisados exponenciales
mtodo de k-NN
modelo ARIMA
perceptrn multicapa (o MLP segn el acrnimo ingls)
modelo hbrido ARIMA+MLP Zhang (2003)
mtodos multivariantes
modelo VAR: como ya se mencion en el apartado 4.5.2.1,
el VAR de orden p planteado sobre las series de los centros
y de los radios obtiene las mismas predicciones que el VAR
de orden p planteado sobre las series de los mnimos y de los
mximos. Por ello, no se har diferencia entre ambas posibili-
dades y slo se har referencia al modelo utilizado como VAR
de orden p.
modelo VECM: al trabajar con las series de los mnimos y
de los mximos es posible que exista una relacin de cointe-
gracin entre ambas series (ver apartado 4.5.2.2). Segn es-
tablecieron Engle y Granger (1987), si eso sucede, el modelo
multivariante que se plantee puede recoger dicha relacin y,
por tanto, puede plantearse un modelo vectorial de correccin
del error (VECM).
Para estimar los parmetros de cada uno de los mtodos se han utilizado
los datos del conjunto de entrenamiento. La estrategia que se ha empleado
en cada uno de los mtodos es la siguiente:
Para los modelos ARIMA, VAR y VECM se han utilizado tres criterios:
su capacidad predictiva, la no existencia de trazas de informacin lineal
en los residuos y los criterios de informacin de Akaike y de Schwartz.
En el caso de los alisados y del k-NN, los parmetros han sido deter-
minados como la solucin de una bsqueda en rejilla por el espacio
de parmetros con el objetivo de minimizar el error cuadrtico en el
periodo de entrenamiento.
Pese a que las series temporales de los cuatro componentes del intervalo
estn expresados en la misma unidad, resulta adecuado utilizar una medida
que escale el error y que lo muestre eliminando el efecto de la unidad de
medida. Esto es debido a que la magnitud del error cometido en la serie
temporal del radio puede ser muy diferente a la de las otras tres series, lo
cual puede dar una impresin errnea sobre la precisin en dicha serie.
Se ha descartado mostrar el error medio basado en una distancia de
intervalos (4.14), porque esta medida, presenta el error cometido en los com-
ponentes de forma agregada y no permite determinar qu componente se ha
pronosticado mejor o peor con cada mtodo. Sin embargo, el error medio
basado en la distancia denida sobre un kernel ha sido utilizado para ajustar
los parmetros de los mtodos de prediccin especcos de STI, porque estos
mtodos trabajan con el intervalo como un todo y requieren de una medida
que informe con un solo valor del error que han cometido. La razn por la
que se ha usado la distancia denida sobre un kernel (4.12) es porque es cua-
drtica y la medida de error que se va a usar para comparar los resultados
de los mtodos, el RECEM , tambin es cuadrtica.
4
x 10
1.1
1.08
1.06
1.04
1.02
Captulo 4.
1
0.98
0.96
2Ene04 1Jul04 3Ene05 1Jul05 30Dic05
Figura 4.6: STI diaria del ndice Dow Jones durante los aos 2004 y 2005.
144
4.10. Ejemplos ilustrativos de la prediccin de STI 145
1260
1240
1220
1200
1180
1160
1140
1120
4.10. Ejemplos ilustrativos de la prediccin de STI
1100
1080
1060
Figura 4.7: STI diaria del ndice S&P 500 durante los aos 2004 y 2005.
147
148 Captulo 4. Prediccin de Series Temporales de Intervalos
1.25
1.2
1.15
1.1
1.05
1
Captulo 4.
0.95
0.9
0.85
2Ene02 1Jul02 1Ene03 1Jul03 31Dic03
Figura 4.8: STI diaria del cambio de divisas C $ durante los aos 2002 y 2003.
150
4.10. Ejemplos ilustrativos de la prediccin de STI 151
destacar que, tal y como muestra la tabla, en las series de los extremos, los
mtodos considerados obtienen una muy ligera mejora con respecto a los
resultados del mtodo ingenuo. La mejora es mayor en las series del centro
y, especialmente, del radio.
La tabla 4.5 tambin muestra que el mtodo ARIMA es el mejor para
predecir las series temporales de los extremos inferiores y superiores y la
de los centros, seguido de cerca por los mtodos de alisado, por el modelo
hbrido y por el MLP. Por su parte, el modelo hbrido es el mejor para
los radios, donde la mejora que obtiene con respecto al mtodo ingenuo es
considerable. El modelo ARIMA se queda cerca, pero no llega a superar al
ingenuo. Por tanto, para la aproximacin que predice la STI a partir de las
predicciones de los extremos se utilizarn las predicciones de los extremos
inferiores y superiores obtenidas por los modelos ARIMA; mientras que para
la aproximacin centro-radio se utilizarn las predicciones de los centros del
modelo ARIMA y las de los radios obtenidas por el modelo hbrido.
En la tabla 4.6 se muestra el resultado que obtienen las distintas apro-
ximaciones de prediccin de STI. En este caso, el mejor mtodo es el k-NN
152 Captulo 4. Prediccin de Series Temporales de Intervalos
para STI. Dicho mtodo trabaja con la STI diferenciada segn explica el
apartado 4.9.1, es decir, diferenciando nicamente la serie de los centros y
no la de los radios que es donde, como se ve en la gura 4.8, se presenta la
tendencia. Sin embargo, el k-NN para STI no obtiene los mejores resultados
en la prediccin del radio. La mejor aproximacin para predecir dicha serie es
la aproximacin centro-radio donde la componente de los radios se pronosti-
ca con un modelo hbrido ARIMA+MLP. A nivel global, es decir, analizando
los resultados en las cuatro componentes, la aproximacin centro-radio y los
modelos VAR y VECM obtienen tambin buenas predicciones. El iMLP so-
bre la STI diferenciada funciona ligeramente peor que las aproximaciones
citadas y todava algo peor que el iMLP funciona el alisado. De nuevo, la
peor aproximacin es la que predice las series de los extremos con mtodos
univariantes, que obtiene peores resultados que el mtodo ingenuo en la serie
de los radios.
Es interesante destacar que en todas las series de componentes, a excep-
cin de la del radio, todos los mtodos de prediccin obtienen valores del
RECEM mayores que uno en el periodo de prueba. Esto quiere decir que,
en dicho periodo, estos mtodos predicen en media peor de lo que lo hace
en media tambin el mtodo ingenuo durante el periodo de entrenamiento.
Este resultado no es negativo, porque el RECEM del mtodo ingenuo en
las series de los componentes es tambin mayor que uno y mucho mayor que
el obtenido por estos mtodos. Esto indica que en el periodo de prueba la
STI se vuelve ms impredecible, pero, pese a ello, los mtodos considerados
obtienen mejores resultados que el mtodo ingenuo. La componente donde
mayor margen de mejora se obtiene es el radio.
130
125
120
115
4.10. Ejemplos ilustrativos de la prediccin de STI
110
105
2Ene02 1Jul02 1Ene03 1Jul03 31Dic03
Figura 4.9: STI diaria del cambio de divisas $ U durante los aos 2002 y 2003.
153
154 Captulo 4. Prediccin de Series Temporales de Intervalos
hacen, pero pese a ello, obtienen peores resultados. Por su parte, los alisados
y el k-NN para STI estn un peldao por debajo de las aproximaciones ya
mencionadas, pero consiguen mejorar al mtodo ingenuo. La aproximacin
que pronostica los extremos de las series mediante modelos univariantes es,
de nuevo, la ms oja, aunque slo empeora al mtodo ingenuo en la serie
de los radios.
Tal y como muestra la gura 4.10, la serie tiene una estacionalidad ma-
niesta que afecta a todo el intervalo y no solo a la posicin del mismo. El
patrn estacional es muy regular, tal y como puede esperarse de una serie
temporal de temperaturas de frecuencia mensual. Esto implica que el mtodo
ingenuo con estacionalidad pronosticar mucho mejor que el mtodo ingenuo
normal. Por ello, se emplear dicho mtodo como la referencia a batir.
En la tabla 4.9 se muestra el resultado obtenido por cada uno de los mto-
2
Disponible en http://dss.ucar.edu/datasets/ds578.5/data/ para usuarios regis-
trados (el registro es gratuito)
Prediccin de Series Temporales de Intervalos
35
30
25
20
15
10
5
0
Captulo 4.
5
10
15
Ene51 Ene54 Ene57 Ene60 Ene63 Ene66 Ene69 Ene72 Ene75 Ene78 Ene81 Ene84 Ene87 Dic88
Figura 4.10: STI mensual de las temperaturas mnimas y mximas medias mensuales en Pekn entre 1952 y 1988.
156
4.10. Ejemplos ilustrativos de la prediccin de STI 157
4.11. Conclusiones
En este captulo se ha abordado el tema de la prediccin de STI. Tal y
como se indica en el apartado 4.3, este tipo de series son muy tiles para
informar sobre la dispersin de un determinado fenmeno y, por tanto, son
tiles en determinados contextos donde la variabilidad es crucial como, por
ejemplo, las nanzas y la meteorologa. Sin embargo, en dichos campos las
STI normalmente no reciben un tratamiento que reconozca su naturaleza de
intervalo.
El intervalo es un dato simblico que implica una mayor complejidad que
un dato clsico y que puede ser tratado de diferentes formas. Una aproxi-
macin que permite tratar los intervalos de forma sencilla consiste en des-
componerlos en dos parejas de valores (extremo inferior y superior o centro
y radio) de forma que el manejo de los intervalos se reduzca al manejo de
una de esas parejas de valores. Otra aproximacin para manejar datos de in-
tervalos consiste en tratarlos empleando la aritmtica de intervalos (Moore,
1966) que permite operar matemticamente con ellos.
En el apartado 4.4 de este captulo se han propuesto dos alternativas
para medir el error en STI. Una de ellas mide el error de forma separada
en cada uno de los componentes del intervalo y la otra utiliza la distancia
como herramienta para representar la nocin de diferencia entre un intervalo
observado y su pronstico. Cada una de las aproximaciones tiene su propio
punto fuerte. La primera proporciona una mayor informacin sobre el error
presentndolo desglosado por componentes y la segunda es ms manejable,
ya que muestra el error como un nico valor que responde al criterio de la
distancia empleada.
En este captulo, tambin se han presentado distintas estrategias para
predecir STI. En algunas de ellas, se utilizan mtodos clsicos para predecir
las series de los componentes de los intervalos. Mientras que en otras se han
propuesto nuevos mtodos que reconocen al intervalo como una entidad en s
misma y lo predicen como tal. Estos mtodos son, en realidad, adaptaciones
4.11. Conclusiones 159
para STI que trabaja con las series de los extremos, donde la ecuacin
que rige ambas series es la misma con excepcin de la constante. A la
vista de lo sucedido con la adaptacin de otros mtodos de prediccin
al contexto de las STI, es de esperar que este modelo ARMA hubiese
obtenido unos resultados mejores que los obtenidos por los modelos
ARIMA aplicados sobre las series de los extremos del intervalo. En
cualquier caso, el modelo ARMA propuesto por Teles y Brito (2005)
es ms adecuado para tratar intervalos ya que asegura que en todo
caso, la prediccin obtenida ser siempre un intervalo; lo cual no tiene
por qu suceder al trabajar con las series de los extremos de forma
independiente.
Prediccin de Series
Temporales de Histogramas
Predecir es como conducir un coche con los ojos
vendados siguiendo las indicaciones de alguien
que mira por la luna trasera.
Annimo
Las series temporales de histogramas son una herramienta que permite representar
series temporales de distribuciones, es decir, series en las que cada instante se describe
mediante una distribucin. Este captulo abordar diferentes aspectos sobre este nuevo
tipo de series temporales como, por ejemplo, la idoneidad de los histogramas como
mtodo de representacin de las distribuciones, la obtencin de series temporales de
histogramas o la denicin de medidas de error para este tipo de series temporales.
Para poder predecir estas series, en el captulo se adaptarn dos mtodos de prediccin
para series temporales clsicas. Los mtodos en cuestin son los alisados exponenciales,
que se adaptarn por medio de la aritmtica de histogramas y por medio del uso de
baricentros, y el mtodo de los k vecinos ms prximos que se adaptar empleando
baricentros. La capacidad predictiva de estos mtodos ser evaluada por medio de una
batera de ejemplos de diversos mbitos.
5.1. Introduccin
En el captulo anterior, se abordaron las series temporales de intervalos.
El intervalo representa la variabilidad de una observacin en un determina-
do instante mediante un rango de valores (dicho rango puede ser el rango
absoluto o, por ejemplo, el recorrido intercuartlico). Sin embargo, el inter-
valo no informa de lo que sucede entre los extremos considerados, es decir,
no indica cmo se distribuyen las observaciones dentro del rango. Para ello,
163
164 Captulo 5. Prediccin de Series Temporales de Histogramas
hXt = {([I]t,1 , t,1 ), ..., ([I]t,pt , t,pt )}, con t = 1, ..., n, (5.1)
1 1
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 1 2 3 4 5 6 0 1 2 3 4 5 6
si x I 1 ;
Z x 0,
Pl1 xI l
H(x) = h(x)dx = j=1 j + ,
I l I l l
si x [I l , I l ), l {1, ..., p}
si x I p .
1,
(5.3)
requerido por estas operaciones, que son, adems, las operaciones en las que
se van a basar los mtodos de prediccin que se desarrollan en este captulo.
El uso de histogramas facilita, por tanto, el uso de tcnicas basadas en el
clculo intensivo como, por ejemplo, las bsquedas de parmetros ptimos
para los mtodos de prediccin que se van a plantear.
Tal y como se puede ver en la tabla 5.2, de todas las medidas de diver-
gencia consideradas, slo las distancias de Wasserstein y de Mallows reejan
que el histograma hB es ms similar a hA de lo que es hB 0 . Es decir, son
las nicas medidas que reejan de forma adecuada el concepto de semejanza
que capta el ojo humano.
Observando las frmulas de la tabla 5.1 se puede ver que la distancia de
Variacin Total mide el rea encerrada entre las funciones de densidad, mien-
tras que la distancia de Wasserstein mide el rea encerrada entre las funciones
de distribucin. Tal y como se puede ver en la gura 5.2, el rea encerrada
por las funciones de densidad entre hA y hB es idntica a la encerrada entre
hA y hB 0 . Mientras que no sucede as si comparamos sus funciones de dis-
tribucin. Esto ilustra la idea de que las medidas de divergencia basadas en
las funciones de distribucin son ms ecientes a la hora de reejar la seme-
janza que aquellas basadas en las funciones de densidad. Esta aseveracin es
reforzada tambin por el hecho de que los contrastes de bondad del ajuste
para distribuciones de probabilidad como el de Kolmogorov-Smirnov o el de
Cramer-von Mises estn basados en funciones de distribucin.
Sin embargo, no todas las medidas de divergencia basadas en funcio-
nes de distribucin reejan adecuadamente la semejanza que percibe el ojo
humano. La distancia de Kolmogorov es un contraejemplo de esta teora,
porque emplea funciones de distribucin y en el ejemplo obtiene unos resul-
tados que contradicen el anlisis visual de los histogramas. Esto es debido a
174 Captulo 5. Prediccin de Series Temporales de Histogramas
que esta distancia slo tiene en cuenta el punto de la recta real para el cual
la diferencia entre las dos funciones de distribucin es mxima, no teniendo
en cuenta el comportamiento de las funciones en el resto de la recta real.
El ejemplo mostrado prueba que las distancias de Wasserstein y de Ma-
llows ofrecen una nocin de divergencia que casa con la que se deriva de una
inspeccin visual. No se trata de un caso aislado, pueden proponerse otros
distintos y las conclusiones que se obtienen son similares.
.9
.8
.7
.6
.5
.4
.3
.2
.1
0
1 2 3 4 5 6 7
En el caso que nos ocupa, hemos dicho que slo se considerar el desplaza-
miento horizontal, por lo que la fuerza que hay que aplicar es paralela a la
trayectoria de desplazamiento. Esto hace que el trabajo se calcule como el
producto entre la magnitud de la fuerza y de la distancia
W = F d. (5.11)
1 HA
HB
0.8
0.6
0.4
0.2
0
0 1 2 3 4 5 6 7 8
1 t
HA
HB
0.8
1 1
t = |HA (t) HB (t)|
t
0.6
t
t
0.4
t
0.2 t
0
0 1 2 3 4 5 6
1 1
Figura 5.5: Representacin de los valores t = |HA (t) HB (t)| sobre las
funciones de distribucin de dos histogramas cualesquiera hA y hB .
D(hXt , hXt )
qt = , (5.14)
EM Dm
donde EM Dm es el error cometido por el mtodo ingenuo en el periodo de
referencia que se calcula como
m
1 X
EM Dm = D(hXi , hXi1 ), (5.15)
m1
i=2
I C,(i1)m+j = mn{I A,i I B,j , I A,i I B,j , I A,i I B,j , I A,i I B,j },
I C,(i1)m+j = max{I A,i I B,j , I A,i I B,j , I A,i I B,j , I A,i I B,j },
C,(i1)m+j = A,i B,j . (5.17)
A partir del histograma donde los intervalos estn ordenados, se debe cons-
truir un histograma disjunto, hD = {([I]D,k , D,k )} con k = 1, ..., n m. Para
simplicar la notacin consideraremos que el histograma ordenado no dis-
junto es hC = {([z]k , rk )}, mientras que el histograma ordenado y disjunto
es hD = {([w]k , sk )} con k = 1, ..., n m, el pseudocdigo para hallar el
histograma disjunto es el siguiente
for (i := 1; i nm; i++){
wi := z i ;
wi := z i+1 ;
si := 0;
for (j := i; j > 0; j --){
if (z j > wi and z j < wi ){
if (wi > z j and wi z j )
z w
si := si + rj zj j zi ;
j
else if (wi z j and wi z j )
w w
si := si + rj zij zi ;
j
}
}
}
Una vez que se tiene el histograma disjunto lo normal es representarlo
como un histograma de menos intervalos y del mismo tipo que los histogra-
mas operando. Por ejemplo, si el histograma disjunto tiene n m intervalos,
182 Captulo 5. Prediccin de Series Temporales de Histogramas
puede reconstruirse como un histograma de l intervalos donde l = b n mc,
siendo bxc la parte entera de x. Si los histogramas operando eran equi-
probables, el histograma solucin, al que por claridad denotaremos como
hS = {([v]i , ti )} con i = 1, ..., l, tendr todos los intervalos con la misma
frecuencia ti = 1/(l 1) y se halla de la siguiente manera
u:=0;
for (i := 1, j := 1; i nm; i++){
u := u + si ;
while (u 1/(l 1)){
j ++;
vj := wi + [(1/(l 1) (u wi ))/wi ] (wi wi );
tj1 := 1/(l 1);
u := u 1/(l 1);
}
}
Es importante tener en cuenta que para realizar operaciones aritmticas
entre histogramas e intervalos o entre histogramas y nmeros reales, basta
con considerar que todo intervalo [a, b] es en realidad un histograma h =
{([a, b], 1)} y que todo nmero real a es un histograma h = {([a, a], 1)}. De
hecho, la aritmtica de histogramas subsume a la aritmtica de intervalo
y sta a su vez, tal y como se dijo en el apartado 2.7.1.1, subsume a la
aritmtica clsica. Esto quiere decir que, si consideramos los histogramas
hA = {([a, a], 1)} y hB = {([b, b], 1)} con a, b < y realizamos operaciones
con ellos de acuerdo a las leyes de la aritmtica de histogramas, obtenemos
los mismos resultados que operando con los intervalos [a, a] y[b, b], o con los
nmeros reales a y b.
En su artculo, Colombo y Jaarsma aplican su mtodo sobre histogramas
equiprobables, es decir, sobre histogramas donde la probabilidad asociada a
todos los intervalos es la misma. Sin embargo, el mtodo funciona igualmente
para cualquier tipo de representacin basada en intervalos de las mencionadas
en el apartado 5.3.
El mtodo de Colombo y Jaarsma asume que los operandos son indepen-
dientes, es decir que las funciones de distribucin de los histogramas con-
siderados son independientes. Sin embargo, puede que exista dependencia
entre las funciones de distribucin consideradas y que, por ejemplo, valores
altos de una de ellas se correspondan con valores bajos de otra. De suceder
esto, los resultados de las operaciones aritmticas que se realizaran con estos
histogramas seran distintos a los obtenidos si son independientes.
Por ello, en los ltimos aos, se han propuesto mtodos para recoger la
dependencia entre los operandos. Los mtodos desarrollados por Li y Hy-
man (2004) y por Berleant y Zhang (2004) son los ms sosticados, aunque
tambin implican una mayor complejidad y requieren de formas de represen-
taciones ms elaboradas que el histograma para caracterizar la distribucin
5.5. Prediccin mediante alisados exponenciales 183
con [0, 1]. Resulta trivial comprobar que, al igual que en las series
temporales clsicas, esta ecuacin es equivalente a la media mvil con pesos
exponencialmente decrecientes si el nmero de trminos que se consideran en
la serie es lo sucientemente grande. Para comprobarlo, basta con sustituir
en (5.20) el trmino hXt por la ecuacin de alisado que lo ha originado y re-
petir el paso sucesivamente. Las propiedades de la aritmtica de histogramas
garantizan que la igualdad entre ambas expresiones se cumplir.
Tal y como se indic en el apartado 5.5.1.1, la aritmtica de histogramas
subsume a la aritmtica clsica. Por tanto, los mtodos de alisado basados en
aritmtica de histogramas, son una generalizacin de los mtodos de alisado
sobre nmeros reales para poder tratar con STH. Esto es indudablemente
un buen aval para esta adaptacin.
A continuacin, se va a analizar cmo se comportan los alisados realizados
empleando la aritmtica de histogramas.
h1 + ... + hq
hX = , (5.21)
q
1 1
hi i=1,...,5 hprom1 h6 h7 hprom2
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 2 4 6 0 5 10 15 20
histograma promedio puede verse como un promedio de las formas de los his-
togramas considerados, pero donde el resultado es ligeramente ms simtrico
de lo que cabra esperar.
1 1
h h h h h h
6 7 exp1 6 7 exp2
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 5 10 15 20 0 5 10 15 20
119.5
119
118.5
118
117.5
117
116.5
116
115.5
115
114.5
114
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Figura 5.8: STH real (azul) y suavizada (rojo) empleando el alisado expo-
nencial basado en aritmtica de histogramas con = 0.4
188 Captulo 5. Prediccin de Series Temporales de Histogramas
n
X
minhXB D(hXi , hXB ), (5.22)
i=1
donde D(hXi , hXB ) es una distancia que se consider adecuada. Tal y como
muestran Verde y Irpino (2007), la eleccin de la distancia condiciona en gran
medida las propiedades del baricentro. Por ello, ms adelante se abordar
qu distancia resulta adecuada para el caso del alisado.
De acuerdo a su denicin, el histograma baricntrico debe ser un re-
presentante apropiado del conjunto de histogramas que lo ha originado, de
forma que elimine su comportamiento extremo y realce la tendencia central
del conjunto. Esta es una propiedad que le hace adecuado para ser empleado
como herramienta para realizar alisados en STH.
5.5. Prediccin mediante alisados exponenciales 189
1
h
Bvt
0.8
1 0.6
h1
0.8 h2 0.4
0.6 0.2
0.4 0
1 1 2 3 4 5 6
0.2 hBm
0.8
0
1 2 3 4 5 6 0.6
0.4
0.2
0
1 2 3 4 5 6
2
Nota del autor: Los baricentros de Wasserstein y de Mallows tambin se emplean en
el punto 5.6 para adaptar el mtodo de k-NN para predecir STH. Por ello, el clculo de
dichos baricentros y al anlisis de su comportamiento gura en un apndice.
192 Captulo 5. Prediccin de Series Temporales de Histogramas
1 1
0.8 0.8
0.7 0.7
0.6 0.6
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 1 2 3 4 5 6 0 5 10 15 20 25 30
1 1
h6 h7 hexp1 h6 h7 hexp2
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
0.5 0.5
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 5 10 15 20 0 5 10 15 20
La diferencia existente con los resultados que obtena el alisado que utiliza
la aritmtica de histogramas y que se mostraban en la gura 5.7, es que, en
aquel caso, la forma del histograma alisado tenda a ser ms centrada, no
reejando adecuadamente la forma de los histogramas considerados. Esto no
sucede al utilizar el baricentro de Mallows.
119
118
117
116
115
114
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Figura 5.12: STH real (azul) y suavizada (rojo) utilizando el alisado expo-
nencial empleando baricentros con = 0.4.)
se propondrn dos alisados, uno con tendencia y otro que permite atenuar
la tendencia realizando estimaciones ms conservadoras de la misma. Por su
parte, para recoger la estacionalidad se proponen dos alisados, uno que reeja
la estacionalidad en forma de histograma y otro que lo hace considerando
que la estacionalidad slo afecta a la posicin de los histogramas. En todos
los casos, cada una de las componentes de la serie se agrega de forma aditiva
para obtener la prediccin.
Los mtodos que se van a mostrar pueden emplearse tanto con la aritm-
tica de histogramas (Secc. 5.5.1) como con el baricentro de Mallows (Secc.
5.5.2). Dichos mtodos siguen la notacin descrita en Gardner (2006). En el
apndice A.2 se muestra que los alisados exponenciales pueden expresarse
tanto en forma de correccin del error, como en forma recursiva. Sin em-
bargo, tal y como se ha mencionado con anterioridad, ni en la adaptacin
basada en aritmtica de histogramas, ni en la basada en los baricentros, re-
sulta adecuado utilizar la forma de correccin del error. Por ello, todos los
mtodos que se van a presentar estarn expresados en forma recursiva.
donde [0, 1]. Para inicializar el mtodo se puede optar por tomar hX1 =
hX1 . Sin embargo, existen procedimiento ms sosticados como, por ejemplo,
tomar como valor inicial el promedio de los tres o cuatro primeros valores.
Otra opcin es realizar backcasting que consiste en invertir la serie original,
de forma que {hXt0 } con t0 = n, ..., 1, y predecirla hasta obtener el valor
pronosticado para t0 = 1 que se emplear como valor inicial.
3. Anlisis de la STH. Una vez construida la STH, sta debe ser repre-
sentada grcamente y analizada para determinar cmo se ha comportado
a lo largo del tiempo, si tiene tendencia, estacionalidad, valores extremos,
patrones que se repitan en el tiempo, etc. Tras este anlisis se determinar
qu mtodo o mtodos resultan adecuados para predecir la STH.
tintas, por ejemplo, se va a trabajar con series con estacionalidad clara, con
estacionalidad cambiante y con series que, aunque originalmente no son es-
tacionarias, al transformarse se convierten en estacionarias.
En los ejemplos tambin se utilizarn los distintos tipos de histogramas
presentados en el apartado 5.3: equiespaciados, equifrecuenciales, denidos
sobre una particin de la variable del dominio y denidos como una secuencia
de cuantiles. Cuando se utilicen histogramas equiespaciados se emplear la
regla propuesta por Wand (1997) para estimar de forma precisa la densidad
subyacente. Los histogramas equifrecuenciales que se emplearn sern box-
plots, i.e. histogramas equifrecuenciales de cuatro intervalos, por la claridad
de su representacin grca y por su fcil interpretacin. Los histogramas
denidos sobre una particin de la variable del dominio y los denidos sobre
una secuencia de cuantiles estn ms ligados al problema que se est abor-
dando, por lo que se darn ms detalles sobre ellos en el ejemplo en el que
se apliquen.
700
600
500
precipitaciones (mm)
400
300
200
100
0
Ene53 Jul53 Ene54 Jul54 Dic54
nalidad es debida al efecto del Monzn que tiene lugar entre los meses de
mayo y octubre y que ocasiona grandes lluvias en China. Una distribucin de
las precipitaciones en China puede ayudar al gobierno a planicar asuntos
relacionados con las reservas hdricas como, por ejemplo, el suministro de
agua para consumo y para regado, la produccin de energa, etc.
Al usar la regla de Wand, el nmero de intervalos de los histogramas
vara a lo largo de la serie. Por ello, a la hora de generar los histogramas
pronosticados hay que determinar con cuntos intervalos se representar la
prediccin. En este caso, se ha decidido que sea 10 porque la mediana del
nmero de intervalos en la STH es 10 y porque su media es 10.65.
La serie que se est analizando es de frecuencia mensual y su ciclo esta-
cional es anual. Por ello, como mtodo de referencia se emplear el mtodo
ingenuo con estacionalidad, hXt+1 = hXt+1p , siendo p = 12 la longitud del
ciclo estacional. Los alisados que se emplearn para predecir la serie sern los
alisados estacionales. El alisado con estacionalidad en forma de histograma
(AEEh) es el que, a juzgar por la gura 5.13, parece ms apropiado. Sin
embargo, tambin se emplear el alisado en el que la estacionalidad se re-
presenta como un valor clsico (AEEc) y los alisados sin estacionalidad para
observar la mejora que se produce al tener en cuenta esta componente. Como
ya se ha dicho anteriormente, se emplearn los alisado basados en aritmtica
de histogramas y los basados en los baricentros.
Respecto al mtodo de k-NN, se emplear tanto el que emplea la distancia
de Wasserstein como el que emplea la distancia de Mallows y usando los
dos esquemas de ponderacin: el mismo peso para todos (cte.) y el peso
inversamente proporcional a la distancia (inv.).
212 Captulo 5. Prediccin de Series Temporales de Histogramas
40
30
20
temperatura (C)
10
10
20
30
40
Ene57 Jul57 Ene58 Jul58 Dic58
40
20
temperatura (C)
20
40
Ene87 Jul87 Ene88 Jul88 Dic88
Figura 5.15: STH real (azul) y pronosticada (rojo) en una parte del periodo
de prueba
5.8. Ejemplos ilustrativos de la prediccin de STH 215
mediante ndices de calidad del aire (ICAs). Los indices de calidad del aire se
disean para informar de forma sencilla a la poblacin de las condiciones del
aire que se dan en el da y, en el caso de que alcancen niveles peligrosos para
la salud, para lanzar las correspondientes alertas. Para ello, se toman como
referencia los valores lmite que marca la legislacin vigente y que dependen
de la frecuencia con la que se registren los datos (tpicamente se manejan
valores horarios, octohorarios y diarios).
En nuestro caso, los datos que se manejan son las medias mensuales.
Obviamente, al tratarse de una serie de frecuencia mensual su prediccin
no sirve para lanzar alertas, ni informar en el corto plazo. Sin embargo, s
permite estudiar la evolucin a ms largo plazo y de forma conjunta de los
contaminantes en la ciudad. Para elaborar los ndices de frecuencia mensual
se ha contado con la ayuda de Manuel Velln, un profesional con una amplia
experiencia en proyectos de investigacin medioambiental y cofundador del
portal web sobre contaminacin atmosfrica Troposfera6 .
Para elaborar un ICA a partir de los promedios mensuales se tomarn
como referencia los valores lmite anuales existentes en la legislacin para la
proteccin de salud humana. Los datos brutos del contaminante se transfor-
man para representarse como un porcentaje calculado con respecto al valor
lmite
ICAmes = concentracin mes (100/(V L + M dT )), (5.48)
Este rango ser el que se utilice como particin del espacio de la variable.
Es decir, no se utilizar una particin sobre los niveles del contaminante en
bruto, sino sobre su porcentaje con respecto al valor lmite.
Como ya se ha mencionado, se dispone las medias mensuales de varios
contaminantes recogidas en 27 estaciones medioambientales de Madrid entre
1994 y 2006. Para cada contaminante, se representarn los 27 datos como
un histograma construido sobre la particin del ICA mostrada en la frmula
(5.49), dando lugar a una STH de 156 periodos mensuales. En cada STH,
los primeros 48 periodos se emplearn para la inicializacin, los siguientes 56
como conjunto de entrenamiento y los ltimos 52 como conjunto de prueba.
6
http://www.troposfera.org
5.8. Ejemplos ilustrativos de la prediccin de STH 217
300
250
200
2
NO
150
ICA
100
50
0
Ene94 Jul94 Ene95 Jul95 Dic95
200
180
160
140
120
100
80
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
jora los resultados del ingenuo. El hecho de que funcione mejor el k-NN con
la distancia de Mallows que con la distancia de Wasserstein indica que las
predicciones son ms precisas si se generan como una mediana de valores pa-
sados, en lugar de como una media de los mismos. La mediana no es sensible
al comportamiento ms extremo, mientras que la media s lo es. Los mtodos
de alisado exponencial con estacionalidad tambin han obtenido, casi todos,
mejores resultados que el mtodo ingenuo. De entre ellos, el mtodo que
mejor ha funcionado es el alisado exponencial que modela la estacionalidad
como un valor real y que est basado en aritmtica de histogramas.
250
200
150
10
ICAPM
100
50
0
Ene94 Jul94 Ene95 Jul95 Dic95
160
140
120
100
80
60
40
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
0,5
0,5
1
Rend. Aritm. Rend. Geom.
119
118
117
116
115
114
113
112
111
110
109
Febrero Marzo Abril Mayo Junio
Figura 5.21: Series temporal de los precios intradiarios del cambio de divisa
$ U entre el 1-2-2006 y el 30-6-2006
3
x 10
3
5
Febrero Marzo Abril Mayo Junio
1.3
1.28
1.26
1.24
1.22
1.2
1.18
Febrero Marzo Abril Mayo Junio
Figura 5.23: Series temporal de los precios intradiarios del cambio de divisa
C $ desde el 1-2-2006 y el 30-6-2006
3
x 10
5
3
Rendimientos geomtricos
0.06
0.04
0.02
0.02
0.04
0.06
5.9. Conclusiones
En este captulo se ha propuesto el uso de las STH como una herramien-
ta para representar series temporales de distribuciones y se han propuesto
diferentes mtodos de prediccin para este tipo de series. El trabajo presen-
tado en el captulo es pionero en el rea de prediccin, ya que no se tiene
conocimiento de otros desarrollos que permitan predecir series temporales de
distribuciones, ni en forma de histograma, ni utilizando otro estimador.
En el apartado 5.3, se ha defendido el histograma como herramienta
de representacin de una distribucin. La representacin como conjunto de
intervalos con pesos asociados que caracteriza al histograma es lo sucien-
temente verstil como para permitir un abanico de representaciones que se
adaptan a las distintas necesidades que se le pueden plantear a un analista
ante distintos conjuntos de datos. En el apartado 5.8 se han mostrado ejem-
plos que han ilustrado el uso de los distintos tipos de histogramas: equiespa-
ciados, equifrecuenciales, construidos sobre una particin en el espacio de la
variable y construidos sobre una particin del espacio de frecuencias.
La complejidad que implica el manejo de histogramas con respecto a
la que requera el manejo de intervalos es notable. Esto hace que sea ms
complicado denir conceptos y mtodos para trabajar con las STH. Para
denir medidas de error se ha decidido utilizar el concepto de distancia, tal y
como se muestra en el apartado 5.4. Para desarrollar mtodos de prediccin se
han propuesto dos aproximaciones la aritmtica de histogramas y el mtodo
de los baricentros. Los mtodos de prediccin propuestos han sido los alisados
exponenciales (en el apartado 5.5) y el mtodo de los k vecinos ms cercanos
(en el apartado 5.6).
Todos los mtodos propuestos, aunque estn basados en ideas sencillas,
obtienen habitualmente buenos resultados cuando se aplican a la prediccin
de series temporales clsicas. En el apartado 5.8, se ha mostrado que sus ho-
mlogos para STH tambin son capaces de obtener buenos resultados ante
series de distinto tipo y origen, batiendo en todos los casos al mtodo ingenuo
que ha sido tomado como referencia. Ms complicado resulta extraer con-
clusiones sobre la superioridad o inferioridad de uno u otro modelo, porque
todos han sido capaces de demostrar su buen comportamiento en al menos
una serie temporal de las analizadas. Por ello, todas estas tcnicas pueden
ser consideradas como posibles candidatas para la prediccin de nuevas STH.
Captulo 6
6.1. Conclusiones
Esta tesis supone una aportacin novedosa dentro de las reas del anlisis
de datos simblicos y de la prediccin de series temporales. En el ao 2004,
ao en el que se plante esta tesis, no exista ningn mtodo que abordase
la prediccin de series temporales de intervalo o de histograma. Cuatro aos
despus, la situacin ha empezado a cambiar con la aparicin de los trabajos
de Teles y Brito (2005) y de Maia et al. (2006a) en series temporales de
intervalos. Esta tesis supone una contribucin ms que sirve para consolidar
el rea.
La tesis ha supuesto un esfuerzo multidisciplinar, no slo por combinar
dos reas como la prediccin de series temporales y el anlisis de datos sim-
blicos, sino tambin porque en su desarrollo se han tocado con mayor o
menor profundidad temas relativos a mbitos tan variados como son el es-
tudio de las distancias (tanto de intervalos como de histogramas), la visin
articial (al emplear la Earth Mover's Distance para trabajar con histogra-
mas), las series temporales caticas (al trabajar con el k-NN), la estimacin
235
236 Captulo 6. Conclusiones y Trabajo Futuro
previo que tratase este tipo de series. Por tanto, la tesis ha abierto camino
deniendo las STH y motivando debidamente su uso para resolver situaciones
que no pueden ser abordadas de otra manera, si no es perdiendo informacin.
Las contribuciones ms relevantes relativas a las STH han sido:
Propuesta de una aproximacin para medir el error en las STH basada
en el uso de distancias para funciones de densidad que reejen ade-
cuadamente las diferencias entre histogramas, como las distancias de
Wasserstein y de Mallows.
Otra lnea de trabajo ms alejada del enfoque de las STI y de las STH,
consiste en utilizar la aritmtica de intervalos y de histogramas revisada
en la tesis, para incorporar intervalos y densidades de prediccin como
variables externas en modelos de prediccin clsicos como la funcin
de transferencia o el perceptrn multicapa. Esto permitira comprobar
el efecto de la incertidumbre en la salida del modelo.
Mark Twain
247
248 Captulo A. Mtodos de prediccin clsicos adaptados en esta tesis
Como puede verse, los modelos VAR presentan una estructura sencilla,
pero pese a esta sencillez son capaces de recoger dinmicas muy ricas en-
tre mltiples series temporales, de una forma relativamente fcil de usar y
de interpretar. Por otro lado, los VAR precisan de un nmero alto de ob-
servaciones para poder tener grados de libertad sucientes para estimar el
modelo, o, en su defecto, necesitan que se restrinjan las variables o el nmero
de retardos.
Los modelos VAR tambin requieren que el vector de series considera-
das se rija por una normalidad multivariante y que sus covarianzas sean
invariantes a lo largo del tiempo. Sin embargo, en el terreno econmico la
hiptesis de normalidad multivariante no suele cumplirse. Esto supone un
serio problema, ya que la capacidad de un VAR para representar un proceso
generador de datos se basa, en gran media, en dicha hiptesis y la inferencia
estadstica slo es vlida si las hiptesis que se consideran son ciertas. Los
estudios de simulacin demuestran que la inferencia estadstica es sensible
a la validez de algunas hiptesis como son la constancia de los parmetros,
la ausencia de correlacin serial de los residuos y la simetra de los residuos;
mientras que es moderadamente robusta frente a problemas de exceso de
kurtosis (distribuciones con colas grandes) y de heterocedasticidad residual.
Por ello, se aconseja que para garantizar el xito de un modelo VAR se cum-
plan al menos las tres primeras hiptesis. La inspeccin visual de los residuos
as como el clculo de algunos estadsticos descriptivos pueden ayudar a esta
tarea.
En el caso en el que las variables que integran el modelo VAR no sean
estacionarias debe analizarse si existe una relacin de cointegracin entre
alguna de ellas. Si es el caso, dicha relacin debe ser recogida e incorporada
al modelo. A continuacin, se explica brevemente qu es la cointegracin y
los modelos vectoriales de correccin del error.
A.1. Los modelos vectoriales autorregresivos 249
introducido al usar slo datos pasados. Para ello, se emplean medias mviles
centradas que se calculan usando datos pasados y futuros de la serie en torno
al instante t de la siguiente forma
Xt q + Xt q1 + . . . + Xt + . . . + Xt q1 + Xt+ q
(A.5)
2 2 2 2
Xt = ,
q
donde q es un valor impar. Sin embargo, en el contexto de esta tesis, el ob-
jetivo es la prediccin por lo que no se emplearn medias mviles centradas.
Las medias mviles ponderadas se basan en el supuesto de que los valores
ms recientes de la serie son ms relevantes de cara a elaborar la prediccin y,
consecuentemente, asignan un mayor peso a los valores cuanto ms prximos
son al instante actual.
La media mvil ponderada con pesos aritmticamente decrecientes, MM-
PA (q ), es
q Xt + (q 1)Xt1 + . . . + Xt(q1)
Xt+1 = . (A.6)
q + (q 1) + . . . + 1
En la MMPA los pesos decrecen aritmticamente, pero puede ser interesan-
te utilizar otro tipo de ponderacin que le d an ms importancia a las
observaciones recientes sin llegar a descartar del todo a las observaciones
ms antiguas. ste es el propsito de la media mvil ponderada con pesos
exponencialmente decrecientes, MMPE(q ), que se representa como
con = q+1
2
. Si el nmero de periodos considerados, q , es lo sucientemente
grande, entonces 1 + (1 ) + . . . + (1 )q1 ' 1 y la ecuacin (A.7)
puede ser reescrita como
t
X
Xt+1 = (1 )j1 Xt(j1) . (A.8)
j=1
donde [0, 1]. Esta ecuacin representa el mtodo conocido como alisado
exponencial simple. Dicha ecuacin representa el mtodo de una forma re-
currente (o recursiva) y es equivalente a esta otra representada en forma de
correccin de error
Xt+1 = Xt + (Xt Xt ). (A.10)
De esta forma, la prediccin en el instante t + 1 es la prediccin generada
para el instante en t ms el error cometido en el instante t rebajado mediante
el parmetro [0, 1].
A.2. Los mtodos de alisado en las series temporales clsicas 253
261
262 Captulo B. Los histogramas baricntricos
Los elementos del vector z son pesos acumulados. Cada par de elementos
consecutivos (zl1 , zl ) de dicho vector puede hacerse corresponder con dos
intervalos de la recta real, uno para cada histograma, donde ambos histo-
gramas son uniformemente densos. Para realizar la correspondencia entre los
pesos acumulados y los valores de la recta real, es necesario denir la inversa
de la funcin de distribucin.
Dado el histograma h = {([I]l , l )} con l = 1, ..., p, y la denicin de
distribucin mostrada en la ecuacin (5.3), y asumiendo que dentro de los
intervalos [I]l del histograma los valores se distribuyen uniformemente, la
inversa de la funcin de distribucin de h se dene como
t wl1
H 1 (t) = I l + (I l I l ) if t [wl1 , wl ), (B.2)
wl wl1
Pl
donde w0 = 0, wl = i=1 i y t [0, 1].
B.1. Estimacin del histograma baricntrico 263
Il + Il Il Il
Il (t) = cl + rl (2t 1) para 0 t 1 con cl = , rl = , (B.4)
2 2
con t [0, 1]. El peso asociado al intervalo Il es l = zl zl1 , con l = 1, ..., m.
Dados los intervalos de la recta real para los cuales los histogramas hX y
hY son uniformemente densos, la distancia de Mallows entre los histogramas
hX y hY puede ser reescrita en los trminos de dichos intervalos como
Xm Z zl
1
2
DM (hX , hY ) = (HX (t) HY1 (t))2 dt
l=1 zl1
Xm Z 1
= l [(clX + rlX (2t 1)) (clY + rlY (2t 1))]2 dt
l=1 0
m
X 1
= l [(clX clY )2 + (rlX rlY )2 ]. (B.5)
3
l=1
Si los pesos p son todos iguales para todos los histogramas, entonces
p es constante y, por tanto, no tiene efecto en la minimizacin y puede ser
ignorado. Si los pesos no son iguales para todos los histogramas, entonces
el problema de minimizacin puede ser reformulado para que tambin se
ignoren los pesos. Dicha reformulacin consiste en repetir cada histograma
hXp un nmero de veces proporcional a su peso p . Una vez hecho esto, el
baricentro hXB del conjunto original puede ser calculado como el baricentro
de un nuevo conjunto de k 0 histogramas h0X1 , h0X2 , ..., h0X 0 donde los pesos
k
son constantes y, por tanto, pueden ignorarse.
Por ejemplo, dado el conjunto de p = 3 histogramas {hX1 , hX2 , hX3 } cu-
yos pesos son 1 = 0.2, 2 = 0.3 y 3 = 0.5, respectivamente. Su baricentro
puede ser calculado como el baricentro de un conjunto de 10 histogramas
donde h0X1 = h0X2 = hX1 , h0X3 = h0X4 = h0X5 = hX2 y h0X6 = ... = h0X10 = hX3
y donde los pesos no son tenidos en cuenta. Puede demostrarse que las solu-
ciones que se obtienen usando este mtodo y minimizando la ecuacin (B.7)
con pesos no constantes son iguales tanto para el caso de la distancia de
Wasserstein, como para el de la distancia de Mallows.
Por tanto, el problema de minimizacin de la ecuacin (B.7) tanto si los
pesos son idnticos, como si no, puede reformularse en ambos casos para
prescindir de los pesos, quedando reducido a
k
X
mn D(hXB , hXp ). (B.8)
hXB
p=1
para cada l = 1, ..., mk . Si clq con q 1, ..., k es el centro del intervalo l del
baricentro que se ha obtenido como la mediana de los k centros, el radio
de dicho intervalo ser rlB = rlq . Como la solucin ptima es una mediana,
si el nmero de histogramas k es par, entonces el valor de clp puede ser
cualquier valor que se encuentre entre los dos centros de clp con p = 1, ..., k
que delimiten el 50 % central del conjunto. Normalmente, se tomar como
clp la media de de dicho par de centros.
A partir de los valores de clB y de rlB , el histograma baricntrico hXB =
{([I]lB , lB )} se representa como
1 h1 h2 hB 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 5 10 15 0 5 10 15
1 h1 h2 hB 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 5 10 15 0 5 10 15
1 h3 h4 h5 hB 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 2 4 6 8 0 2 4 6 8
1 1
h3 h4 h5 hB
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 2 4 6 8 0 2 4 6 8
cho baricentro es nico y viene dado por hBW = {([5, 5.5), 0.2), ([5.5, 6), 0.2),
([6, 6.57), 0), ([6.57, 7), 0.3), ([7, 8], 0.3)}. En el grco donde se muestran las
funciones de distribucin acumuladas, se puede apreciar muy claramente que
el baricentro de Wasserstein se comporta como la mediana de dichas funcio-
nes. Tal y como puede verse, el baricentro coincide en todo momento con la
funcin de distribucin acumulada que ocupa la posicin central del rango.
El histograma h3 no tiene efecto sobre el baricentro de Wasserstein, ya que
su funcin de distribucin acumulada se encuentra en un extremo del rango
de valores en todas las regiones inducidas por los valores del vector z.
Sin embargo, en el baricentro de Mallows todos los histogramas conside-
rados tienen efecto porque dicho baricentro se calcula como una media. Para
el conjunto de histogramas considerado, el baricentro de Mallows es hBM =
{([3.67, 4.26), 0.2), ([4.26, 4.61), 0.2), ([4.61, 5.38), 0.3), ([5.38, 6], 0.3)} y pue-
de verse en la parte superior de la gura B.2. Este ejemplo sirve para ver
que, en el caso del baricentro de Mallows, el histograma h3 no slo es tenido
en cuenta en el clculo del baricentro, sino que tiene mucho efecto sobre l
por encontrarse bastante alejado de los histogramas h4 y h5 . Este compor-
tamiento es similar al que presenta la media aritmtica de un conjunto de
valores clsicos cuando uno de ellos se encuentra muy alejado del resto.
B.3. Idoneidad de los histogramas baricntricos en los alisados 269
donde los pesos i con i = 1, ..., q pueden ser iguales para todos los trminos
o decrecer aritmticamente o exponencialmente a medida que i aumenta.
La prediccin de la media mvil mostrada en (B.15) puede obtenerse
calculando el siguiente baricentro
q
X
arg minhX i D(hXt+1 , hXt(i1) ), (B.16)
t+1
i=1
t
X
arg minhX (1 )j1 D(hXt(j1) , hXt+1 ). (B.19)
t+1
j=1
aqu. Sin embargo, para entender por qu suceden basta con considerar el
siguiente ejemplo en el contexto de las series temporales clsicas.
Consideremos que en un determinado instante se tienen los valores de la
serie Xt = 5 y Xt1 = 2, y la prediccin para el instante t 1 Xt1 = 1.
Supongamos que el valor de = 0.4. En ese caso, la prediccin para los
instantes t y t + 1 ser
275
276 Bibliografa
Bock, H.-H. Symbolic Data Analysis and the SODAS Software , captulo
Visualizing symbolic data by Kohonen maps, pginas 205234. John Wiley
& Sons, Chichester, 2008.
Ferson, S. What monte carlo methods cannot do. Human and Ecological
Risk Assessment , vol. 2(4), pginas 9901007, 1996.
Kearfott, R., Nakao, M., Neumaier, A., Rump, S., Shary, S. y van
Hentenryck, P. Standardized notation in interval analysis. En Procee-
dings of XIII Baikal International School-seminar Optimization methods
and their applications , vol. 4, pginas 106113. Institute of Energy Sys-
tems SB RAS, 2005.
Kreinovich, V., Xiang, G., Starks, S. A., Longpr, L., Ceberio, M.,
Araiza, R., Beck, J., Kandathi, R., Nayak, A., Torres, R. y Ha-
jagos, J. G. Towards combining probabilistic and interval uncertainty in
engineering calculations: Algorithms for computing statistics under inter-
val uncertainty, and their computational complexity. Reliable Computing ,
vol. 12(6), pginas 471501, 2006.
Lee, C.-H. L., Liu, A. y Chen, W.-S. Pattern discovery of fuzzy time
series for nancial prediction. IEEE Transactions on Knowledge and Data
Engineering , vol. 18, pginas 613625, 2006.
Lee, K. y Jo, G. Expert system for predicting stock market timing using
a candlestick chart. Expert Systems with Applications , vol. 16(4), pginas
357364, 1999.
Li, W. y Mac Hyman, J. Representation and problem solving with the dis-
tribution envelope determination (denv) method. Reliability Engineering
and System Safety , vol. 85(13), pginas 191209, 2004.
Mok, D. M., Lam, K. y Li, W. Using daily high/low time to test for
intraday random walk in two index futures markets. Review of Quantitative
Finance and Accounting , vol. 14(4), pginas 381397, 2000.
Song, Q. y Chissom, B. S. Fuzzy time series and its models. Fuzzy Sets
and Systems , vol. 54(3), pginas 269277, 1993b.
Zhao, Y., Liu, Y. y He, Q. One kind of interval support vector regression
algorithm and its application in web information mining. En Proceedings
of the 25th Chinese Control Conference , pginas 825829. IEEE, 2006.