Professional Documents
Culture Documents
T N
I
''1'12
T7
768
766
7M
E
U
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
5.1. COMPRESIN DE SECUENCIAS SIMBLICAS
como medida de la calidad del predictor) en tanto que mejores predictores
proporcionarn mayores iazones de compresin.
5.L.4. Model os de probabi l i dad de n-gramas
Para poder utilizar adecuadamente Ia compresin aritmtica se necesita
construir un modelo estadstico de los datos. El mrs sencillo es un modelo
fijo; por ejemplo, una Iista con las frecuencias de aparicin de los distintos
smbolos. Sin embargo, un modelo que considere tnicamente las probabili-
dades estticas de los diferentes smbolos no suele proporcionar una buena
estimacin de la entropa real de los datos, como ya hetnos comentado. Esto
ocurre especialmente cuando el entorno en que se genera Ia secuencia es no
estac'ionario, es decir.las propiedades del modelo estocastico que la genera
varan con el tiempo.
Una posibilidad para mejorar el modelo anterior es utilizar un modelo
de probabilidad adaptativo que evolucione con la secuencia. Los rnoclelos de
n-gramas son uno de los ms conociclos dentro de esta ltima categora.
En un modelo de n-gramas se asurne que la identidad del siguiente
sinbolo de la secuencia est condicionada por las de los n
-
1 smbolos
anteri ores, esto es, l a ecuaci n (5.2) se transforma en:
p( s[ t + 1]
l s [ i ] , ' [ 2] , . . . , s [ ] )
:
p( s[ t + 1]
l s [ t
-
( n
- 2) j , . . . , s [ ] )
( 5. 11)
En el caso de l os bi gramas (donde n:2), i a ecuaci n anteri or se convi erte
en:
p( sf t
+ l l l s[ 1] , s[ 2) , . . .
, ' [ ] )
: p( sf t
+ t ] l s[ t ] ) ( 5. 12)
La estimacin de las probabilidades del smbolo siguiente es sencilla en este
caso y puede hacerse mediante:
p( s[
+ I ] : on
I s[ t ]
:
C (slt)o)
( 5. 13)
I|?,
c{"ttl"i)
donde C(.) representa el nmero de veces que el argumento ha aparecido en
la secuencia observada hasta el instante actual. La generalizacin al caso de
n-gramas es di recta.
Para evitar que las probabilidades calculadas con ia expresin anterior
sean cero, se suele reservar una pequea parte de la probabilidad para sub-
secuencias de n-gramas que no han aparecido todava en Ia secuencia.
Las razoles de compresin obtenidas son muy buenas (Nelson 1991)
cuando se utilizan modelos dinmicos y adaptativos de n-gramas y se man-
tienen sirnultneamente modelos de distintos rdenes. Por ejemplo, etl la
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
5. LAS SOLUC/ONES PBEVAS
tcnica conocida como pred'icc'in por concordancia parcial se busca una
concordanci a de l a subsecuenci a mrs reci ente en un modei o de orden n. Si
no se encuentra ni nguna concordanci a, se baj a a un model o de orden n
-
I,
y as sucesivamente hasta llegar a un modelo de orden 0.4
Las RNR permiten obteuer un modelo de las probabilidades del siguiente
smbolo mediante Io que en principio podra considerarse como un modelo
de co-sramas.5
Por otra parte, es de vi tal i mportanci a que tanto el compresor como el
descompresor desarrollen el mismo rnodelo aclaptativo de probabilidacl.6
5. 1. 5. Programas de compresi n
Ya que en el captulo 6 rnostraremos los resultados obteniclos con ellos,
se presentan aqu algunos programas conocidos de cornpresin y'las tcnicas
en las que se basan.T
El programa gzip utiliza el algoritrno de cornpresin cle Lempel y Ziv
(Zi v y Lernpel 1977;.Nel son y Gai l l y 1995), l i anrado as en honor a sus
creadores. Ambos propusi eron dos versi ones cl e su al gori tmo, una en 1977
(L277) y otra en 1978 (LZTB); gzl p uti l i za l a pri mera. Oto conoci cl o pro-
grama de entornos Uni x, compress, se basa enLZW (por Lempel , Zi v y
Wel ch), una vari aci n ci e 1984 de L278. Tanto LZ77 comoLZTS se consi -
deran corrlpresores sust'itucionaLes: la idea bsica es sustituir la presencia
cl e una determi nada subsecuenci a de Ia secuenci a a compri mi r por una re-
ferencia a una aparicin previa de esa misma subsecuencia. La compresin
obtenida con estos compresores sustitucionales suele ser mayor que la ob-
tenida con tcnicas basadas en la codificacin de Huffman
(aclaptati',as
o
no).
"Un modelo de mouogramas solo tiene en cuenta el nmero de veces que ha aparecido
el srnbolo en cuestin; un modelo de O-gramas considera que todos los smbolos son
equiprobables.
sEn
realidad, la memoria cte las RNR estndar es muy limitacla y se reduce a unos
cuantos smbolos debiclo a los problema.s que a.parecen al tener que tratar con clepenclencias
a la-rgo plazo (vase el apa,rtado 4.IL2).
oEn
el caso de las redes neuronales, esto implica partir de los lnismos va.lores para todos
los parmetros del sistema (los pesos pueden iniciarse aleatoriamente siempre que tanto
compresor como descompresor utilicen ei mismo generador de nrmeros aleatorios iniciado
con una semilla idntica).
tDebe
tenerse en cuenta que nuestra intencin es evaluar la cerpaciclad cle precliccin cle
las RNR sobre secuencias simblicas; por lo tanto, no tiene mucho senticlo comparar los
resultaclos de algunos programas como gzip obzip2 con,los de un compresor aritmtico
basado en un predictor neuronal. Las razones de compresin con este tipo cle compresores
se mc.strarn para hacernos una idea de cul puede ser un buen resultado.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
5.1. COMPRESIN DE SECUENCIAS SIMBLICAS
EI programa bz:-p2 utiliza la transformada de Burrows y Wheeler seguida
de compresin de Huffman. Esta tansformada (Burrows y Wheeler 1994;
Nelson y Gailly 1995) es un algoritmo de reordenacin reversible; su salida
ordenada se comprime fcilmente con las tcnicas habituales de compresin.
La raz6n de compresin suele ser mayor que la obienida con compresores
basados en LZ77 como gzip. Sin embargo, bzip2 comprime las secuencias
en bloques por lo que no es muy adecuado para la compresin en lnea.
Ninguno de los compresores anteriores utilizan (al menos, no como parte
fundamental de su operacin) un rnodelo probabilstico.
Por otro lado, uno de los pocos compresores aritmticos existerrtes es el
desarrol l ado por Nel son (1991). Este compresor uti l i za una combi naci n de
tnodelos de n-gramas de distintos rdenes para estinrar las probabilidades,
corno se indic antes.
5.1.6. Di ferenci as con l a i nferenci a gramati cal cl :si ca
Como ya se coment en 7.2.I, en esta tesis el rnodelo de probabilidad
se obtiene en lnea: las RNR trabajan en tiempo real dando una salida tan
correcta como sea posible para cada elemento de la secuencia suministrado
en cada iteracin; esta salida se considera como una prediccin de las proba-
bilidades del siguiente smbolo de la secuencia. Esto supone una diferencia
fundamental con la forma clasica cle abordar la inferencia gramatical, una
tarea que corno ya se vi en 1.2.2 ha sido ampliamente estudiada con RNR.
Aunque una de las formas de realizar la inferencia gramatical es entrenar
la red para que aprenda a predecir el siguiente smbolo de la secuencia, el
modus operand' seguido tradicionalmente es bastante distinto al de nuestro
problema. Bajo ei enfoque tradicional, puede demostrarse fcihnente (escri-
biendo el error de prediccin total como una suma sobre todos los prefijos
de todas las secuencias de Ia muestra) que el modelo neuronal ideal. obte-
nido para un conjunto finito de secuencias finitas por medio de (vase el
apartado 4.3.1 para Ia demostracin de estas ides):
1. entrenarniento intensivo fuera de lnea.
2. uso de una familia de funciones de error global (como la funcin
error cuadrtico o la distancia de Kullback-Leibler), y
3. codificacin exclusiva de las salidas deseadas,
sEsto
implica que Ia propiedad de convergencia aqu sealada no puede aplicarse a
seales numricas, nicamente a smbolos discretos.
de
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
5. LAS SOLUCIONES PREVIAS
proporciona una salida que aproxima tanto como se posible las frecuencias
relativas del siguiente smbolo observadas en la muestra finita; estas sali-
das pueden utilizarse como probabilidades aproximadas al tratar secuencias
nuevas.
El problema considerado en este trabajo es diferente en tres aspectos
pri nci pal es: se procesa una ni ca secuenci a i l i mi tada, el
i rrocesami ento
es
en l nea y l a funci n de error uti l i zada es l ocal . Nuestro trabaj o se basa
en l a conj etura, si mi l ar a l a pl anteada por El man (1990, p. 197) de que,
i ncl uso baj o estas condi ci ones di sti ntas, l a sal i da de l a recl puede segui r
considerndose como una aproximacin a las probabilidades del siguiente
srnbolo.
5. L. 7. t abaj os neuronal es
Se analiza, por io tanto, el uso cte RNR para preclecir en lnea el siguiente
elemento de una secuencia. La compresin aritmtica se Lrsa para evaluar
la calidad del predictor. En los experirnentos se consideran diferentes gene-
radores de secuencias simblica.s que van desde rnquinas cle estaclos finitos
a textos en lenguaje humano. Al contrario clue arrteriores traba.jos (Clee-
rernarl s et al . 1989; Schmi dhuber y Stefan 1996; Ti o y Ktel es 1999), que
utilizaban prediccin fuera de lnea con estas secuencias, en este trabajo nos
concentrar:ernos en Ia prediccin en lnea.
Hay varios trabajos qr-re discuten el uso de recles neuronales como modelo
probabilstico para la codificacin aritmtica de textos en lengua.je humano.
Schmi dhuber y Stefan (1996) usan un perceptrn mul ti capa con una ventana
temporal cle entradas para obtener resultados prometedores mediante retro-
propagacin estnclar (Rumelhart et al. 1986). Un enfoque muy similar es el
segui do por Long et al . (i 999), pero i os smbol os de l a secuenci a a compri rni r
se recodifican previamente para acercar entre s las representaciones de los
smbolos con un contexto posteri.or similar. Ambas tcnicas, sin embargo,
trabajan bajo la suposicin de un entrenamiento fuera de lnea, lo que las
hace inadecuadas para entornos no estacionarios o aplicaciones en tiempo
real .
Mahoney (2000) uti l i za codi fi caci n ari tmti ca y url percreptrn si n capa
oculta para comprimir textos en lnea, aultque Ia tcnica no es compieta-
mente neuronal. Su perceptrn tiene miles o incluso millones de entradas, ya
que se usa una entrada distinta para cada contexto posible, desde el smbolo
anterior a los 5 anteriores. Esta elevada complejidad espacial se ve com-
pensada por una baja complejidad temporal, ya que nicamente hace falta
actualizar un nmero reducido de pesos tras cada smbolo. Ademrs, la pre-
di cci n se real i za bi t a bi t con l o
que
soi o se Dreci sa Ll na l l eurona de sai i da.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
5.2. INFERENCIA DE LENGUAJES CON DEPENDENCIAS A LARGO PLAZA
La tcnica, sin ernbargo) no es completamente neuronal, ya que junto a cada
peso se almacenan dos contadores que se encargan de guardar el nmero
de apariciones del contexto asociado. Los resultados de sus experimentos
superan los de otras tcnicas de compresin.
En cuanto a las secuencias de estados finitos, es de esperar buenos resul-
tados con RNR, ya que se ha demostrado (Goudreau et al. 1994; Alquzar y
Sanfeliu 1"995; Horne y Hush 1996; Carrasco et al. 2000) la capacidad de dis-
tiutas RNR de primer y segundo orden para codificar mquinas de estados
finitos.
5.2. Inferenci a de l enguaj es con dependenci as a l argo pl azo
Como ya se coment en el apartado 1.2.2, una de las formas de reaiizar
Ia inferencia de lenguajes es mediante Ia prediccin del siguiente smbolo de
una secuencia. Tambin ali se coment cmo Ia red LSTVI permite superar
parcialmente el problema que surge al tratar las dependencias a largo plazo.
Todos los trabajos anteriores de inferencia de lenguajes con LSTM usa-
ban un algoritmo de entrenamiento de descenso por el gradiente para actua-
Iizar los pesos. En los trabajos desarrollados para esta tesis, se aplica por
primera vez ei FKED a la red LSTM y se comparan los resultados obtenidos
con los del algoritmo original y con los conseguidos con RNR tadicionales.
En primer lugar, se considera la prediccin en lnea sobre una secuencia
generada por el auttnata sirntrico de Reber (Smith y Zipser 1989) de la
figura 6.4. Se trata de la prirnera vez en que Ia red LSTNI se aplica a
una situacin de aprendizaje completamente en lnea: la red tiene que dar
en tiempo real una salida tau correcta como sea posible para la entrada
aplicada en cada instante de tiempo. Con los experimentos se estudiar qu
clase de moclelo interno desarrolla Ia red y si este es comparable.al obtenido
en trabaj os anteri ores (Hochrei ter y Schmi dhuber 1997; Gers et al . 2000),
en los que la inferencia se realizaba fuera de lnea o soio parcialmente en
lnea.
En segundo lugar, se ahonda en algunos resultados
previos en torno a
Ia capacidad de ias RNR para aprender un sencillo lenguaje sensible al con-
texto, anbncn, con fuertes dependencias a largo plazo conforme se aumenta
el valor de n.
Se ha demostrado que las RNR son capaces de reconocer lenguajes de-
rivados de mquinas de estados finiloss: la mayor parte de los trabajos
relacionados con la inferencia de lenguajes con RNR se ha centrado en ellos.
sVase
el libro indito de Forcada (2002) para un repaso del estado de la cuestin de
este aspecto,
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
5. LAS SOLUCIONES PREVIAS
Solo unos cuantos autores iran intentado ensear a las RNR a extraer las
reglas de aigunos lenguajes independientes del contexto o sensibles al con-
texto (Sun et al . 1993; Wi l es y El man 1995; Tonkes y Wi l es 1997; Rodri guez
y Wi l es 1998; Rocl ri guez et al . 1999; Bodn y Wi l es 2000), que requi eren el
equivalente funcional a una o dos pilas, respectivamente, de tamao ilimita-
do.
Al gunos de l os trabaj os anteri ores fracasaron al i ntentar aprender pe-
queos conjuntos de entrenamiento de lenguajes inclependientes del con-
texto. Aunque otros trabajos lo consiguieron e incluso algnnos llegaron
a aprender pequeos conjuntos de entrena,miento de lenguajes sensibles al
contexto (Chal up y Bl ai r 1999: Bodn y Wi l es 2000), l as redes obteni das
eran incapaces de generalizar adecuaclamente con conjuntos cle evaiuaci
ligeramente mayores.
En esta tesis nos colrcentraremos en uno de los pocos lengua.ies sen-
sibles al contexto a cuyo aprendizaje se han destinado ias RNR, a saber,
anb{. Las RNR tradi ci onal es no sor} capaces de general i zar acl ecuadal nen-
te con este senci l l o l enguaj e: Chal up y Bl ai r (1999) constataron c{ue una
RRS entrenada mediante un algoritrlo voraz poda aprender el conjrrnto cle
entrenami ento para n 1 12, pero no aportaron datos sobre l a capaci dad de
general i zaci n. Bci dn y Wi l es (2000), por otra parte, entrenaron una recl
secuenci al en cascada de segundo orden con BPTT; para un conj unto cl e
entrenami ento con n e
[1,10],
l as rnej ores redes general i zaban a n
[1,
1B],
pero el eutrenarniento solo finalizaba con xito un 2Vo de las veces lBodn v
Wi l es 2002).
En cual qui er caso) debe rnati zarse que en esta tarea l a RNR no se entrena
con un lenguaje no regular, ya que una parte finita de un lengtiaje como
enbn c'n es directamente regular. De 1o que se trata (Bodn y wiies 2002)
al estudiar Ia capacidad de generaiizacin de la red es de comprobar si esta
descubre una solucin distinta a ia de un autmata finito.
En esta tesi s extenderel nos l os resul tados obteni dos sobre a"bncn poy
Gers y schmi dhuber (2001) con LSTMI y descenso por el gradi ente para
comprobar si se manti enen) empeoran o rnej oran al usar el FKED.
5. 3. Desambi guaci n cat egori al
son varios los enfoques propuestos para la desambiguacin categorial
automtica. La mayora pueden asociarse a uno de los siguiente grupos:
1. Enfoques basados en regl as (Bri l l i 9g2), que se basan en el conoci -
miento lingiistico para determinar la categora lxica de una palabra
ambigua;
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
5.3- DES AM BI GIJAC I ON CAT EGO R I AL
2. Enfoques estadsti,cos, que usan las estadsticas recogidas de textos
completa o parcialm.ente etiquetados para estimar la verosimilitud de
cada posible interpretacin de una frase o fragmento de esta y esco-
ger la desambiguacin ms verosmil; los mrs representativos de estos
mtodos son los modelos ocultos de Markov (MOM) (Cutting et al.
1992; Rabiner 1989) entrenados mediante el clsico algoritmo de Baum
y Welch; este mtodo se discute con detalle en el apndice A.
3. Evidentemente, son tarnbin posibles los enfoques hbridos que com-
binan caractersticas de los dos anteriores.
Todas las tcnicas neuronales se engloban principalmente dentro del se-
gundo grupo. A continuacin las repasamos brevemente.
5.3.1. Tbabaj os neuronal es
Las RNR se han usado ampliamente desde su concepcin en taeas de
procesamiento del lenguaje humano. Elman (1990) fue de los primeros en
hacerlo: entren su red recurrente sirnple (RRS) para predecir Ia siguien-
te palabra de un corpus sinttico cle oraciones gramaticales sencilias (de
dos o tres palabras) generadas aleatoriamente a partir de un pequeo vo-
cabulario de palabras no ambiguas sin etiquetar. Elman encontr que, tras
el aprendizaje, el estado al que llegaba la red tras leer una palabra per-
mita agrupar Ias palabras en categoras que podan ser identificadas con
l as tradi ci onal es (nombre, verbo transi ti vo, verbo i ntransi ti vo, etc.). Para
poder realizar adecuadamente esta agrupacin la red tena que desarrollar
una forma de obtener ai vuelo una representacin de la sintaxis de la par-
te de oracin visa hasta ese momento. Los resultados de los trabajos de
Elman tienen importantes connotaciones desde el punto de vista cognitivo:
los humanos aprendemos sintaxis y morfologa simplemente por nuestra ex-
posicin continua a las co-apariciones internas en oraciones no etiquetadas.
Este aspecto del trabajo de Eiman queda atenuado por la poca verosimilitud
neurobiolgica (Forcada y Carrasco 200i) de los modelos de tiempo discreto
que son las RNR.
En esta tesis se estudia la aplicaciu de una RNR al problema de la
desambiguacin categorial de las palabras arnbiguas de una oracin a partir
de la inforrnacin almacenada en el estado de la red. Aunque el uso de una
RNR en esta tarea no es del todo nueva (Marques y Lopes 1996), s que es
la primera vez que el problema se formula como un problema de prediccin
y se utiiza un corpus solo parcialmente etiquetado.
Schmi d (1994) uti l i za un perceptrn si n capa ocul ta para eti quetar textos
en ingls. La^s entraclas a Ia red son rura codificacin de la palabra actual,
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
5. LAS SOLUCIONES PBEVIAS
i asp ant er i or es yl as
/ si gui ent es
( en t ot ai p+
f
+ l pal abr as) . Lar ed se
entrena para dar como salida la categora de Ia palabra actual. Cacla palabra
se representa mediante un vector en el que el componente j-simo
es la
probabilidad de la
j-sima
categora lxica dada la palabra en cuestin (estas
probabilidades se obtienen mediante maxirna verosimilitud, contando sobre
un texto completamente etiquetado). En el caso especial de las p palabras
precedentes, Ia codificacin es una combinacin lineal de ese vector y la
salicla dada por la red para la palabra corresponciiente. El etiquetador usa un
diccionario y un rbol de sufi.jos (un adivinador que determina la categora
de l as pal abras que no estn en el di cci onari c' ). EI entrenami ento consta,
en total , cl e 4000000 i teraci ones sobre un corpus de 1000000 pal abras. Los
resultados se muestran para el caso p :
3 y
f
: 2, aunclue el autor indicr
que los resr"rltados son muy sirnilares cuando p
:
2 y
f
:
I. El modelo
neurolral obtiene w 27o d.e mejola sobre urr IVION{ y restilltrclos siurilares a,
l os de un mocl el o cl e tri grarnas. Si se uti l i za urra capa ocul ta, Ios resul tados
sc)rl a. veces ligeramente rnejores v otras veccs iigerarnente peores, por io que
esta, circnnstancia no parece influir mucho.
N'Iarques y Lopes (1996) siguen un enfoque muy parecido al anterior para
el portugus, pero Llsall tln conjunto de entrerrarniento mucito ms pecpreo:
un corpus completamente etiquetado de unas 3 400 palabras y entre 5 000
y 1-0 000 i teraci ones de entrenami ento. Ademas de un perceptrn con y si n
capa ocul ta, uti l i zan una RRS. Como contexl o usan p :
0 y
f
:
L EI
nmero de categoras lxicas consideradas es 35 y los mejores resultados se
obti enen con el perceptrn si n capa ocul ta. EI artcul o, si n embargo) no
rnuestra una comparacin con otos mtodos.
Ma y Isahara (1997) utilizan tambin un enfoque sirnilar al de Schmid
(1994), en este caso para el tai l ands, pero arnpl an el model o neuronal
y utilizan una combinacin de perceptrones cou Lula capa oculta. Cada
perceptrn utiliza valores cliferentes para el tarnao clel conrexto (p y
/).
Los
resultados se combinan de dos maneras distintas: bien tomando la salida de
l a red con mayor tamao de contexto (p+/) que proporci ona una esti maci n
clara para una determinacla categora (neurona con activacin superior a url
urnbral), o bien decidiendo Ia categora de Ia palabra. solo cuando toda^s las
redes coinciden en una concreta. EI conjunto de entrenamiento consta de
3162 frases con 8242 palabras ambiguas y el conjunto cle categoras lxica^s
tiene tamairo 53.
En otro de sus artcul os, VIa et al . (1999) corrsi deran un modei o de un
nico perceptrn con una capa oculta, pero la salida de la red es corre-
gida mediattte un conjunto de reglas de transfonnacin como las utilizadas
por Bri l l (1992). De esta manera l a tasa de aci erto del eti quetador mej ora al -
rededor de ur 1% sobre el mocl el o neuronal ori ei nal . Se uti l i za un
perceptru
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
5.4. PREDICCION DE SENALES DE VOZ
con capa oculta entrenado mediante retropropagacin y la longitud del con-
texto previ o y posteri or (p y
/)
se sel ecci ona di nmi camente (pri ori dad del
contexto ms largo). El tamao del corpus completamente etiquetado usado
en el entrenami ento es mucho menor que el de Schmi d (199a): 8322 frases
con22311 palabras ambiguas (nmero de etiquetas, 47). Los resultados son
ligeramente mejores que los del clasificador multineuronal de N{a y Isahara
(1ee7).
Como ya se ha indicado, aqu se estudia un nuevo enfoque para el proble-
ma de la desambiguacin de categorias lxicas. Es el primer trabajo de este
tipo que utiliza una RNR y en el que la resolucin del problema se plantea
en terninos de precliccin.10 Nuestro enfoque guarda cieto parecido con el
enfoque estadstico (en concreto con el de tipo Baum y Welch), ya que solo
se requiere un texto parciaimente etiquetadott y, bajo ciertas condiciones,
las salidas de la red se pueden interpretar como probabilidades.
5. 4. Predi cci n de seal es de voz
Existe un abanico enorme de tcnicas de prediccin de seales de voz,
aunque, como se indic en el apartado 1.2.4, Ias lineaies son las ms usaclas
con diferencia por su equiiibrio entre senciilez y eficencia.
As, suele utilizarse un filtro FIR o un filtro IIR (vase el apartado 3.1.4)
entrenados mediante alguno de los mrltiples algoritrnos existentes (Oppen-
hei rn y Schafer 1989; Proaki s y Manol aki s 1996).
5.4.I. Trabaj os neuronal es
Las RNR aparentan ser una buena alternativa no lineal para la prediccin
de voz: la memoria resultante de la existencia de conexiones recurrentes y
la capacidad de adaptarse a cambios en ej entorno las hace, en principio,
apropiadas para seales no estacionarias como Ia voz.
Los nicos traba.jos sobre prediccin de seales de voz en tiempo real
con RNR siguen la lnea del trabajo de Haykin y Li (1995), que disearon
una RNRC (vase el captulo 3) para realizar Ia prediccin de seales de
voz. La RNRC se usa en una sucesin en cascada de
predictores
no lineales
y lineales.
l0Como
usamos corpus no etiquetados, la red se entrena para predecir la clase de am-
bigeda.l de la siguiente palabra y no para emitir la clase de ambigedad o Ia etiqueta
correcta cle la palabra actual (prediccin tersus desambiguacin).
l1Arlnque
los trabajos neuronaies citados anteriormente usaban corpus etiquetados a
mano relaltvamente pequeos, el nuestro los evita por completo.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
5. LAS SOLUCIONES PREVIAS
Bal tersee. y Chambers (1998) comprobaron que el rendi mi ento de l a
RNRC es insuficiente (comparable al de un filtro lineal) cuancio se r-rtiliza
para su entrenamiento el descenso por el gracliente con RTRL y propusieron
en su lugar el uso del FKED. Con este ltimo, obtuvieron me.joras de unos
2 dB sobre un filtro lineal. Debe sealarse, sin embargo, que los resultados
presentados en ambos artculos pertenecen aI caso mejo,r: solo se realiza un
nico experimento con parmetros ad hoc.
Como ya se vio, la RNRC se corrrpone cle varias RPR de primer orden
que comparten los mismos valores de sus pesos y que estn conect-das de
tal manera que la salicla de una de ellas es la entrada de la siguiente. La
RNRC puecle consiclerarse como un modelo diseaclo ad hoc (cle hecho, no
existen otros trabaios que la,s usen). No hay, sin ernbargo, estudios sobre
el rendirniento de RNR clsicas de propsito general al aplicarlas a lir pre-
diccin en lnea de seales de voz. En esta tesis se compara los resr-rltaclos
de Bal tersee y charnbers (1998) con l os nuevos resul tacl os obteni dos para
alguuas RNR clsicas. La prediccin se realiza. directarnente sobre Ia seal
de voz si n preprocesar.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
Volver al ndice/Tornar a l'ndex
6. COMPRESION DE SECUENCIAS SIMBOLICAS
Este captulo estudia el uso de las RNR como modelo de probabili-
dad para un compresor aritmtico de texto en lenguaje natural. Como
aperitivo se estudia la compresin de secuencias ms sencillas, princi-
palmente deiva,das de mquinas de estados finitos. Las ideas bsicas cle
este captulo se hn publicado en las actas de un congreso internacional
(Prez-Ortiz et al. 2001b) y
"n
una revista internacional (Prez-Ortiz
et al . 2001c) .
La intoduccin a ios conceptos de este captulo puede encontrarse en
l os aoart ados 1. 2. 1 v 5. 1.
6. 1. Mt odo
Se trata de estudiar la idoneidad de las RNR como modeio de proba-
bilidad dei siguiente smbolo de una secuencia procesada en lnea, es decir,
se ha de proporcionar una salida inrnediata ante cada nuevo smbolo pro-
cesado sin posibilidad de reconsiderar la subsecuencia ya contemplada. La
existencia cle un modelo correcto de este tipo se pr"rede utilizar para compri-
mir las secuencias por medio de, por ejemplo, un compresor aritmtico. De
hecho, puede considerarse de forma equivalente que los experimentos inten-
tan evaluar la capacidad predictiva en lnea de las RNR y que Ia compresin
aritmtica se usa nicamente para evaluar la calidad del predictor) ya que
cuanto me.jor es la prediccin, mejor es la razn de compresin obtenida.
Podra alegarse, por tanto, que el habitual error cuadrtico medio es una
medida ms sencilla e igualmente til para evaiuar la calidad del predictor.
Sin embargo, esta medida solo es aplicable en el caso de que conozcamos
las probabiiidades reales de los posibles siguientes smbolos de la secuen-
cia. En el caso de que estas probabilidades no sean conocidas (como ocurre,
por ejemplo) con las secuencias textuales), el error solo puede basarse en
la diferencia entre el smbolo predicho (normalmente aquel con mayor pro-
babilidad) y el observado en el siguiente instante de tiempo. Es necesaria,
por tanto, una forma de error alternativa que considere el vector completo
B3
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
6. COMPRESION DE SECUENCIAS SIMBOLICAS
de probabilidades estimadas: la compresin aritmtica es una solucin ade-
cuada. En deflnitiva, la codificacin aritmtica es una alternativa emprica
para medir la caiidad de un predictor (neuronal o no) cuando no se pueden
calcular los valores tericos.
Como modeio de probabilidad de referencia para un compresor aritmtico
usaremos el programa de Nel son (1991) con un model c., combi nado de
[0,4]-
gralnas.
6. 1. 1. Secuenci as de est ados f i ni t os
A modo de aperitivo, consideraremos ullas secuencias de estructura rns
sencilla que las cle texto. Estas secuencias se basan principahnente en
mqrrinas de estados finitos y es previsible obtener buenos resultados con
elias, ya que se h1, demostrado clue las RNR son capaces de aprender frie-
ra de lnea lenguajes regrilares (Cleerernaits et al. 1989) e incluso emular
mqui nas de estacl os fi ni tos (Carrasco et al . 2000).
Las secuencias de estaclos finitos se derivan de 1o que Ilarnarernos
/uen-
tes secuenci al es de estadcts
f,ni tos
(FSEF). que prreden cl efl ni rse como utl a
qt i nt upl a M: ( D, Q, qr , 6, P) , donde
. E
:
ort. . .
,
ol tl es el al fabeto de entrada.
Q
: qt,. . .
,Ql el
es un conj unto fi ni to uo vaco de estados.
.
91
es el estado i ni ci al , q
Q.
es la funcin de transicin de estado, 6 ,
Q
x X
--+
Q.
o P es un conjunto de probabilidades de transicin de estados de ia
forma p(U,o), que i ndi ca Ia probabi l i dacl de que el estado
a
e
Q
emi ta el smbol o o eD y se real i ce una transi ci n al estacl o 6(q,o).
Nt ese que para t odo q se t i ene
eue D
p(q, o): I .
Una fuente secuencial cle estaclos finitos (FSEF) puecle considerarse corrlo
un autmata fi ni to detenni ni sta (Hopcroft y Ul l man 1979) err el que cada
transicin tiene una probabilidad, no existen estados de aceptacin y la
Iongitud de las secuencias generadas puede ser arbitrariamente larga.l
La fi gura 6.1 muestra l a FSEF 1, una FSEF senci l l a que se usar en i os
experimentos. Un buen predictor para las secuencias generadas a partir de
rPara
ello debemos exigir que no existan en la fuente estados de absorci,n, pero esto
viene forzado por la propia definicin, cre obliga a que la suma de las probabilidades del
siguiente smbolo para un estado determinado sea uno.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
6.1. MTODO
Figura 6.1: Diagrama cle transiciones de Ia FSEF 1. El smbolo inicial aparece
eticluetado como qI. Todas las transiciorles que parten de un mistno estado son
equi probabl es.
esta fuente debe tener una pequea memoria a corto plazo para predecir
correctamente el smbolo que sigue a X.
La fl gura 6.2 muestra Ia FSEF 2 basada en el autmata de Reber (Smi th
y Zipser 1989), al que se ha aadido una conexin recurrente que perrnita
generar secuenci as de l ongi tud i ndetermi nada.2
La FSEF 3, una versi n conti nua del autmata de Reber si rntri co (Smi th
y Zi pser 1989), se muestra en l a fi gura 6.4. Esta FSEF presenta dependenci as
a largo plazo (provocadas por los smbolos P oT), aunque estas apenas se
mani fi estan durante una secuenci a.
6. I . 2. Secuenci as cat i cas
Las fuentes secuenciales anteriores se basaban en Ia existencia de un esta-
do representado por el conjunto
Q.
Lu fuente se encuentra en cada instante
de tiempo en un determinado estado v a partir de l puede determinarse en
cierta medida su evolucin inminente. En esta seccin se discute una fuente
secuencial no basada, en estados
fi,ni,tos:
una fuente catica.
IJn sd;tema di,nrni,co (siempre no lineal) se considera cattco3 si presenta
un comportamiento aperidco (esto es, resultado de oscilaciones que no
se repiten nunca, de periodo infinito) resultado de un modelo totalmente
2En
adelante se usar en ocasiones el nombre del autmata finito subyacente para
referirse a la FSEF obtenida a partir de 1.
3Para
una buena introduccin a la teora del caos y para Ia definicin de los trminos
utilizados en los siguientes prrafos puede consultarse el libro de Martn et al. (1995) o el
de Hi l born
(2000).
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
6. COMPRESION DE SECUENCIAS SIMBOLICAS
B
Q I
V
.r
P
s
P
l.
V
T
L
----l
Fi gura 6.2: Di agl arna pal a i a FSEF 2 basada en el autmata de Reber. Toci as l as
transicioues que parten de i.rn mismo estado son equiprobables. Las transiciones no
mostradas en el diasrama tienen
probabilidacl
nula.
Fi gura 6.3: Di agrama de transi ci ones para el autma.ta de Reber estnda,r.
determinista y que presenta gran sensibiiidad a las condiciones iniciales.
La sensibilidad a Ias condiciones iniciales irnplica que existe una d,'iuergenc'i,a
erponenc'ial de trayectorias inicialmente muy prximas en el espacio de fases,
fenmeno que se colloce como est'iram'ento. Otra propiedad existente sobre
el espacio de fases y opuesta al estirarniento es eI plegami,ento, que conlleva
que dos lrayectoria-r,s muy lejanas pueden everrtualmente acercarse.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
6.1. METODO
Autmata de Reber
B
' t '
T
qI
E
P P
Autmata de Reber
Figura 6.4: Diagramas cte transiciones para la FSEF 3, obtenida a partir del
autmata de Reber de la figura 6.3. Todas 1as transiciones que parten de un mismo
estado son equiprobabies. Las transiciones no mostradas en el diagrama tienen
probabilidad nula. La lnea inferior indica la vaiante continua; la discontinua se
conoce normalmente como autnrata de Reber simtrico.
Si representamos la trayectoria de un punto inicial bajo un sistema
dinrnico catico, veremos que las dos fuerzas anteriores entran en accin
de forma que se genera una estructura confinada en una regin del espacio
de fases que se conoce como atractor ertrao. Las trayectorias deI espaci,o
de
fases
nunca se cortan entre s) pues esto supondra un comportamiento
peridico. Antes del descubrimiento del caos, los ciclos lmite eran los atrac-
tores ms complejos que se conocan. Hoy da se puede decir que cada tipo
de sistema catico lleva asociado atractores de caractersticas peculiares.
Las particularidades del atractor extrao lo convierten en un posible
generador de secuencias caticas. Para que estas secuencias sean simblicas
debe realizarse una divisin en regiones dei espacio de fases, de forma que
se asocie un smbolo a cada una de ellas.
En los experimentos considerarernos una secuencia obtenida de la evolu-
cin de Ia actividad de un lser real en regirnen catico (Weigend y Gershen-
feld 1994), convertida en simbiica siguiendo el mismo procedimiento que
Tio et al. (2000), mostrado a continuacin.
El laser catico produce subsecuencias relativamente predecibles seguidas
por subsecuencias de alta impredicibilidad que requieren una memoria mayor
(Tio et al. 2000). La secuencia numrica de activaciones del lser g[] se
convi erte en una secuenci a si mbl i ca s[t] sobre el al fabeto !
:
{a,b,c,d}
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
6. COMPRESIN DE SECUENCIAS SIMBLICAS
mediante ia transformacin:
^ f +l -
D[ ! l
-
0<Lyl t l <p2
pz < Lyltl
p1<Lyl t ) <0
Lvltl < pt
( 6. 1)
donde Ag[t]
:
A[t]
-
Al t
-
11y l os parmetros p1 y pz se hacen correspon-
der con l os percenti l es del l 0% y del
g0%,
respecti vamente, obteni dos por
adelantado sobre la secuencia de activaciones dei lser.
6. 1. 3. Text os
La dinmica cle los textos en lenguaje huniano es complicacla. Puede
considerarse un lexto en lenguaje humano como una secuencia sol:le un
alfabeto firtito E formado, eu el crso de alfabetos occiclentales, por las letra,s
maysculas, las letras minsculas, los dgitos y los signos de puntuacin,
entre otros. Esto hace que el tamao del alfr,beto sea demasiaclo grancle
para algunos experimentos concretos) por lo que a veces los textos reales se
transforman en versiones simplificadas de los misrnos, prescindiendo de los
signos de puntuacin o convirtiendo todas las minrsculas a maysculas) por
ej empi o.
Nosotros corisideraremos algunos textos en ingls pertenecientes a un
conjunto de ensayos sobre la obra del director de cine polaco Krzysztof.
Kieslowski.4 Los textos reales se convirtieron en textos sintricos sobre un
alfabeto ms reducido de
lXl
:
27 smbolos ignorando los dgitos y signos de
puntuacin y convirtiendo todos los caracteres alfabticos a rnaysculas sin
acentuar. De esta manera los textos estn formados rnicamente por
letras
maysculas y espacios en blanco.
6. 2. . Parmet ros
Los resultados que se muestran ms adelante ilustran la razn cle com-
presin (RC) en funcin del nmero de neuronas de estaclo, n. se us
codificacin exclusiva para los srnbolos; Ios valores de nu y ny. clependen.
por tanto, del tamao del alfabeto correspondiente. Los modelos de RNR
son Ia RRS y la RPR, entrenados tanto con descenso por el gradiente como
con el FKED con las derivadas calculadas segn RTRL. Ntese que en los
experimentos nX :
0 significa que no hay neuronas de estado; en el caso de
Ia RRS esto implica, adems, que solo se ajustan los sesgos de las rleluonas
de salida.
I;
I;
"Estos textos se encuentran en ]rrttp://wr,r!r.petey. con/kk/
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
6.3. P.ESULTADOS
La tasa de aprendizaje del descenso por el gradente es a
:
0.9 y el
momento es
?
-
0.4, r'alores que fueron escogidos tras experimentos pre-
Iiminares. En el caso del FKED se tomaron los siguentes valores de los
parmetros del algoritmo:
Qltl
: L0-2 "-$o
13-o
R[] : 100
r=$o
3
P[0]
:
19s
Los esuitados neuronales mostrados son Ia media aritmtica cle 7 experi-
mentos distintos sobre cada secuencia; la varianza es muy pecluea en todos
los casos y no se Inostrar. Los valores iniciales de los pesos se tomaron de
una di stri buci n uni forrne en
[-0.2,0.2].
Consi deraremos Ios tres ti pos de
secuencias comentados anteriormente: secuencias generadas por mquinas
de estadcs fi:ritos, secuencias caticas y textos en lenguaje humano.
Tambin se realizaron experimentos con Ia RTR y la red NARX; como
las RC obtenidas son simlares, bien a las de la RRS, bien a las de ia RPR.
(depencl i endo de l a secuenci a y de Ios parmetros concretos consi derados),
omitir los resultados de aquellas.
6. 3. Resul t ados
6.3.1-. Secuenci as de estados fi ni tos
EI cuadro 6.1 muestra l os resul tados obteui dos con gzi p, bzi p2 y el
compresor ari tmi i co de Nel son (1991) con
[0,4]-gramas
para secuenci as de
longitud 20 000 derivadas de las FSEF comentadas anteriormente. Ya que
tenemos las mquinas generadoras de estas secuencias, podemos tambin
utilizar el compresor aritrntico con el modelo exacto de probabilidad. De-
bido a ias propiedades de la codificacin aritrntica, esto dar Ia mejor RC
posible. Los resultados de este rnodelo se muestran en el cuadro 6.L en la
fila etiqr-retada como "aritmtico exacto".
Las figuras 6.5 a 6.7 muestran los resultados obtenidos por la RRS y
la RPR. Como se puede ver, el nmero de neuronas de estado afecta a la
RC obtenida, aunque para valores de n
2
1-0 esta influencia no es muy
significativa. Ambos modelos, RRS y RPR, dan resultados comparables. El
FKED proporciona RC cercanas a las del modelo de
[0,4]-gramas
(que, a su
vez, sorl cercanas a las del compresor exacto), mientras que las del descenso
por el gradiente son inferiores.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
6. COMPRESION DF. SECUENCIAS SIMBOLICAS
FSEF 1
Aritrntico exacto
[0,4]-gramas
gzj.P
bzp2
3. 99
3. 83
2. 27
. ) . ) ^
Cuadro 6.1: Razones de compresin c-'bteniclas pala las FSEF con cornpresores no
neuronales.
y
Fi gura 6.5: Razones de compresi n para l a secuenci a deri vrda ci e l a FSEF 1. Se
muestran los resultaclos con RPR y descenso por el gradiente (n), RRS y descenso
por el gradi ente (o), RPR y FKED (), y RRS v FKED (0). La i nea constante
es la razn de cornpresin del rnodelo de
[0,4]-gramas,
indicada timbin en el
cuad o 6. 1.
Aunque no se mostrar aqu, es posible encollbrar para cada secuencia y
modelo particular un conjunto de valores de los parmetros ajustables que
acercan an ms las RC neuronales a ias del modelo exacto.
6. 3. 2. Secuenci as cat i cas
Los resultados para la secuencia del laser catico de longitud 10 000 con
l as RNR se rnuestran en Ia fi gura 6.8. EI model o de
[0,4]-gramas
da una RC
de 2.73 para esta secuenci a. Evi dentemente, en este caso no cabe habl ar de
un modelo de probabilidad exacto.
Al usar clescenso por el gradiente, ias diferencias entre ia RRS y Ia RPR
son mayores que antes. De nuevo, el FKED supera con creces los resuitados
del descenso por el gradiente. En cualquier caso) Ia RPR entrenada con este
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
6.3. BESULTADOS
O
Figura 6.6: Razones de conpresin para la secuencia derivada de la FSEF 2. Se
muestran los resuitados con RPR y descenso por el gradiente (tr), RRS y descenso
por el gradi ente (o), RPR y FKED (), y RRS y FKED (0). La l nea constante
es la razn de compresin del modelo de
10,4]-gramas,
indicada tambin en el
cuadr o 6. 1.
nx
Figura 6.7: Razones de compresin para Ia secuencia derivada de la FSEF 3. Se
muestran los resultados con RPR y descenso por el gradiente (!), RRS y descenso
por el gradi ente (o), RPR y FKED (a), y RRS y FKED (0). La Inea constante
es la razn de compresin del modelo de
[0,4]-gramas,
indicada tambin en el
cuadr o 6. 1.
algoritmo da RC (con n > 4) similares a las del modelo de
[0,4]-grarrffi,
y
el FKED (independientemente del modelo neuronal) consigue razones mucho
mayores
(r:ercanas
a 4).
(r
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
6. COMPRESION DE SECUENCIAS SIMBLICAS
nx
Figura 6.8: Razones de compresin para la secuencia del lser c-tico. Se nrues-
tran los resuitados con RPR y descenso pot' el gradiente (!), RRS y descenso por
el gradi ente (o), RPR y FKED (), y RRS y FKED (0). La l ner, constanre es i a
razn de compresin del rnodelo de
[0,4]-gramas.
Cuadro 6.2: Razones de compresin pala las secuencias de texto con compresoles
no neuronaies.
6.3.3. Textos en l enguaj e humano
Ahora aplicaremos la misma estrategia que er] los apartados anteriores
para estudiar la influencia del algoritmo cie aprendizaje y del nrnero de
estados en ias razones de compresin obtenicias para tres textos en ingls.
El ctradro 6.2 rnuestra las RC con gzip, bz:-p2 y el rnodelo de
[0,4]-grarras.
obviamente, tarnpoco existe ningn rnodelo de probabilidad exacto en es-
te caso. El nrmero de smbol os de cada secuenci a es: decal ogl , 1g385;
ki esdi s3, 18 666; y vi dwchdg, 62648.
Las fi guras 6.9 a 6.11 (prcti camente i dnti cas) muestran l as RC obte-
nidas por las RNR para las tres secuencias de texto consideradas. Pr.iede
obselvatse fcihnente que ambos modelos tieneri problentas para aprencler
las estadsticas de las secuencias: el valor de n no tiene una influencia
clara en la RC obtenida con la RPR. En el casc de una RPR, esto implica
que Ia red est desarrollando una especie de moclelo de bigrarnas: solo el
decal ogl ki esdi s3 vi dwchdg
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
6.4. DtSCUStON
O { E
d
1 0
nx
Figura 6.9: Razones de compresin para la secuencia en ingls decalog1. Se
muestran los resultados con RPR y descenso por el gradiente (D), RRS y descenso
por el gradi ente (o), RPR y FKED (), y RRS y FKED (0). Lu l nea constante
es ia razn de compresin del modelo de
[0,4]-gramas,
indicada tambin en el
cuadro 6.2.
smbolo actual se considera al predecir el siguiente. La RRS, por otro lacio,
usa sus neuronas de estado, ya que a valores mayores de n las RC son
tambirr mayores) pero los resultados sorl peores que ios de la RPR. Debe
destacarse, no obstante, que los resultados obtenidos con las otras tcnicas
son solo ligerarnente mejores.
EI FKED, por otra parte, explota positivamente (al menos parcialmente)
el nmero de neuronas de estado. A pesar de estos resultados ligeramente
mejores (en consonancia con Io comprobado hasta ahora para este algorit-
mo), las RC son todava mucho menores que las obteniclas con el modelo de
r-gramas.
6. 4. Di scusi n
El algoritmo de entrenamiento del FKED supera al de descenso por el
gradiente cuando se trata de predecir en lnea los smbolos de una secuencia
simblica. En el caso de las secuencias de estados finitos, los resultados
del FKED son comparables a los obtenidos con ?z-gramas y estn cerca del
ptimo. Al procesar la secuencia catica, incluso los resultados del descenso
por el gradiente son similares a los del modelo de
[0,4]-gramas
y el FKED los
supera notablemente. Sin embargo, al trabajar con secuencias en lenguaje
humano, Ios resultados del FKED son mucho peores que los de un modelo
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
6. COMPBESION DE SECUENCIAS SIMBLICAS
( )
l F
t f
, . u
l o 1 0
nx
Fi gura 6.10: Il azones de compresi n para 1a secuenci a en i ngl s ki esdi s3. Se
muestran los resultados con RPR y descenso por el gradent,e (), RRS y descenso
por el gradi ente (o), RPR y FKED (), y RRS y FKED (0). Lu l nea constante
es Ia razn de compresin del modelo cle
[0,4]-gramas,
indicada tarnbin en eI
cuadro 6.2.
O r r
, . "
nx
Fi gura 6.11: Raz<-nes cl e compresi n para l a secuenci a en i ngl s vi dwchdg. Se
muestran los result,.clos con RPR y descenso por el gradiente (), RRS y descerrso
por el gradi ente (o), RPR y FI(ED (), y RRS y FKED (0). La l nea consrante
es l a razn de compl esi n del rnodel o de
[0,4]-gramas,
i ndi cada tambi n en el
cuadro 6.2.
de
[0,4]-gramas.
La predi cci n sobre textos en ).enguaj e humano parece ser
una tarea difcil para ambos algoritmos.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
6.4. DtSCUStN
Debe tenerse en cuenta, sin ernbatgo, que el nmero de parmetros de
un modelo cornbinado de rz-gramas como el utilizado en el compresor de
Nel son (donde n: 4,3,2,I,0) es muy superi or al de l as RNR uti l i zadas en
este trabajo. El nmero terico mximo de parmetros de un modelo de n-
gramas es
lDl'
donde X es el alfabeto de las secuencias sobre las que trabaja
el predictor.5 La RRS utilizada en los experimentos, por ejemplo, tiene un
nmero de pesos i gual a (l El ' "x)2 + n2* + nx +
l El ;
a este nmero de para-
metros habra que aadirie los utilizados por el algoritmo de entrenamiento
correspondiente.
Puede afirmarse, en definitiva, que el FKED supera al descenso por
el gradiente cuando se trata de predecir los smboios de una secuencia
simblica. El FKED, sin embargo, tiene una complejidad temporal supe-
rior a la del descenso por el gradiente. La dinmica de los textos reales, en
cualquiel caso) parece ser demasiado cornpleja para ser aprendida en lnea
correctamente por una RNR.
Finrlmente, debe tenerse en cuenta que los experimentos realizados con
las mcluinas de estados finitos no permiten detectar si la RNR ha aprendido
completamente las mquinas correspondientes. Por ejemplo, Ia FSEF 3
presenta,
dependencias a Iargo plazo, corno veremos en el captulo siguiente,
que se manifiesan relativamente de tarde en tarde. Estas dependencias
no suelen ser aprendidas adecuadamente por las RNR consideradas en este
captulo, pero debido a su aparicin ocasional, este hecho apenas aparecer
reflejado en las RC obtenidas.
Al ternati vas de predi cci n de textos. En todos l os experi mentos con
textos en lenguaje natural lealizados con RNR en este captulo, el valor 1.5
parece ser una cota superior de las RC obtenibles (vase las figuras 6.9
a 6.11). Aunque es necesario un estudio ms profundo de los motivos de
este comportamiento, los resuitados apuntan a que Ia RNR no es capaz
de desarroilar un modelo aclecuado de los contextos de la secuencia similar
al que clesarrolla un modelo de
[0,4]-gramas.
Sin ernbargo, el rendimiento
de las RNR no es tan malo si se compara con otros modelos como el que
veremos a continuacin.
Forcada (2001) ha estudiado la construccin de autmatas estocsticos
de estados finitos para implementar un sistema de prediccin textual similar
al que incorporan Ios telfonos mviles actuales a la hora de escribir un
mensaje. Aunque sus resultados son para el cataln, lo cierto es que Iarazn
5A
la hora de una implementacin real, el espacio requerido es inferior .
lll",
ya que
muchos de los parmetros nunca se alteran y conservan su valor inicial. Es posil>le, por
tanto, encontrar fomas eficienfes de almacenar estos parmetlos, por ejemplo, utilizando
rboles (Nelson 1991). An as el nmero de parmetros utilizaclos es con diferencia
superior al de ias RNR utilizadas en los experimentos.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
6. COMPRESION DE SECUENCIAS SIMBOLICAS
de compresin obtenida por estos sistemas es muy similar a la obtenida en
este captulo para RNR.
En efecto, Forcada (2001) considera un alfabeto de aproximadamente 40
smbolos y un teclado de 10 teclas. Si no se utiliza prediccin de ningrn
tipo, el nmero de bits por smbolo al codifrcar un nrensaje ser log2 40
:
5.32. Si se considera un predictol, en lugar de enviar los distintos snrbolos
codificados, se puede considerar enviar ia secuencia de teclas pulsadas por
el usuario para escribir el mensaje.
Pues bi en, Forcada (2001, cuadro 3) asegura que el nmero medi o de
puisaciones por smbolo reaiizadas al utilizar una estrategia predictiva es
1.11. Corno l a cocl i fi caci u de cada una de l as 10 tecl a^s requi ere 1og210
:
3.32, el nmero medi o de bi ts por smbol o al codi fi car un mensaj e ser
1. 11 x 3. 32
:
3. 67. Lueeo I a RC ser de:
5. 32
3. 67
:
r ' 4D
Este resultado se aproxima bastante a los obtenidos por las RNR en los
experirnentos de este captulo.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
Volver al ndice/Tornar a l'ndex
7. INFERENCIA DE LENGUAJES CON
DEPENDENCIAS A LARGO PLAZO
En este captulo se estudia Ia inferencia en inea de un lenguaje regular
y la inferencia fuera de Lnea de uu lenguaje sensible al contexto, ambas
planteadas como un problema de prediccin. Los dos lenguajes presen-
tan marcaclas dependencias a largo plazo por Io que no suel.en ser bien
aprendidos por las RNR tradicionales. Los esultados de estas se com-
paran con los de Ia red LSTM, tericamente adecuada para manejar
este tipo de dependencias. Los contenidos de este captulo, publica-
dos en varios congresos internacionales (Gers et al. 2002b; Prez-Ortiz
et al. 2002b; Gers eL aI. 20A2a) y aceptados con modifi.caciones en una
revista internacional (Prez-Ortiz et ai. 2002a), muestran el pritner uso
de LSTM en tareas de prediccin en lnea, as como la prirnera ocasin.
en que el FKED se aplica a este modelo.
Los experimentos de inferencia desarroilados en este captulo pueden
dividirse en dos grupos: relativos a la inferencia en lnea de un lerguaje
regular derivado del autmata de Reber simtrico (Smith y Zipser 1989)
y relativos a la inferencia fuera de lnea del lenguaje sensible al contexto
anbncn. Por ello, cada uno de los siguientes apartados aparece dividido en
estos dos bloques.
Como introduccin a los contenidos de este captulo.
puede
consultarse
l as secci ones 7.2.2 y 5.2.
7. 1. Mt odo
Aprendi zaj e cl el l enguaj e de Reber
En este experimentol se usa principalmente LSTM con compuertas de
olvido, pero sin conexiones de mirilla (vase el captulo 3), para predecir el
siguiente smbolo sobre una secuencia simblica continua con dependencias
a largo plazo. Tambin se muestran los resultados obtenidos con RNR ta-
dicionales, Elnfasis se pone en el procesamiento en lnea pur-oj es decir, los
97
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
7. INFERENCIA DE LENGUAJES CON DEPENDENCIAS A LARGO PLAZA
pesos se actualizan smbolo a smbolo y la secuencia de entrada es nica y
no est dividida en subsecuencias claramente demarcadas,
Gers et al . (2000) estudi an un probl ema si mi i ar, pero abordado desde un
punto de vista prximo a lo que hemos llamado en ei apartado 4.1.1 apren-
di,zaje en lnea por secuencias. En sus experinrentos, Ios pesos se actualizan
tras ia presentacin de cada srnbolo: una, estrategia propia del aprendizaje
en lnea puro. Sin embargo, la secuencia actual de entrada se rechaza, tan
pronto como Ia red comete un error sobre ella; a continuacin, la red se
inicializa y el procesamiento contina con una nueva secuencia: esta forma
de presentar la informacin a la red es ms propia del aprendiza.je fuera cle
lnea. Adems, la red se evala con los pesos corrgelados. El enfoque adopta-
do en su trabajo puede consiclerarse, por tanto, a medio camino entre ambos
ti pos de aprendi zaj e.
Aclu aplicaremos la red LSTM y la RRS al rnismo tipo de secuencias.
pero con un enfoque en lnea puro: existe lrn nico flujo de entrada. el
aprendizaje contina aunque ia red corneta errores, y el entrenamiento y
Ia
evaluacin no estn divididos en fases separadas. En el aprendizaje err lnea
puro, es importante que Ia recl sea capaz de desarrollar un modelo sin poder
apoyarse en ias ilticializaciones que permiten
"arrancar" Ias redes desde un
determinado punto fijo. Podemos decir que este tipo de entrenarniento es
en "cada libre", ya que carece siquiera. de este mrrilno punto de apoyo.
Por otro l adr:, en el trabaj o de Gers et al . (2000) sol o se uti l i zaba el al go-
ri tmo de descenso por el gradi ente. Aqu se apl i car el FKED por pri mera
vez aI model o LSTM.
La secuencia de entrada se genera a partir de la variante continua del
autmata de Reber si mtri co (FSEF 3), que se muestra en l a fi gura 6.4.
Como se aprecia en Ia figura, las dependencias a largo plazo aparecen porque,
en ocasi ones, determi nar si el si gui ente smbol o de l a secuen6i
oe P n 7 owi .' o
consi derar l a hi stori a anti gua cl e l a secuenci a.
Contaremos el nmero de smbolos clue necesita la red LSTM para ge-
nerar predicciones sin error durante r,l menos 1000 smbolos, nrnero que
representaremos mediante
B1636;
aqu "sin error" quiere decir que ei smbolo
correspondiente a ia neurona ganadora sea uno de los smbolos para los que
existe una transicin desde el estado actual del autmata de Reber sirntrico.
Por otro lado, al aprender en lnea, la presencia recurrente de cletermi-
nadas subsecuencias hace que la red olvide la historia pasada y confe en
las observaciones ms recientes.l Por ello, tras un
periodo
de entrenamiento
' De
hecho, esto es lo que uno esperara de un modelo que es capaz de actuar comecta-
mente bajo entornos no estacionarios.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
7.1. METODO
inicial es habitual que las RNR (LSTM en especial) cometan algunos errores
aislados, tras lo que siguen ealizarrdo predicciones correctas. Para tener una
medida mis tolerante de la calidad predictiva del sistema, medimos tambin
el momento en el que se produce el error n-simo tras las 1000 primeras pre-
dicciones sucesivas sia eo: consideraremos dos valores para n) a saber, 1
y 10, que representaremos mediante
Blooo
y
i8oo,
respectivamente.
Aprendizaj e d.e anbn{
En este experimento utiiizaremos la red LSTM con compuertas de olvido
y conexiones de mirilla2 para aprender y generalizar el lenguaje sensible al
contexto anbncn. Como se comentar ms adelante, el modo de entrena-
miento ser en lnea por secuencias o fuera de lnea por secuencias, segn el
algoritmo de entrenamiento concreto utiiizado.
La red observar secuencialmente, smbolo a smbolo, muestras positivas
del lenguaje. El objetivoen cad ii*racin es predecir los posibles smbolos
siguientes, incluido ei *jrnbclo de fin de cadena $, que es tambin un smbolo
especial de arranque con el que comienzan todas las secuencias.3 Cuando
es posible ms de un smbolo en el siguiente paso, todos ellos deben ser
predichos adecuadamcnte y ninguno de los otros. Por ejemplo, en el caso de
n:3, l as entradas y sal i das deseadas seran:
Ent ada: S' +aa
Salida deseada: alg alb alb ^lb
Una secuencia es aceptada si todas las predicciones realizadas sobre ella
son correctas y rechazada en caso contrario. Diremos que el sistema ha
aprendido el lenguaje hasta las s.:uencias de longitud -t, si es capaz de
predecir todas las secuencias con tamao rnenor o igual que .L.
En cuanto al entrenaueni-
""
1o. evaluacin, ambos se turnan: cada 1000
secuencias de entrenamiento, los pesos de Ia red se congelan y se procede a
la evaiuacin. Los conjuntos de aprendizaje y evaluacin incorporan todas
las secuencias vlidas (solo muestras positivas) con longitud menor o igual
a 3n. EI entrenamiento termina cuando en un turno o poca se aceptan
todas las cadenas del conjunto de entrenamiento. Los resultados mostrados
son la media aritmtica de los obtenidos con 10 redes entrenadas indepen-
dientemente con diferentes inicializaciones de los pesos (las mismas para
cada experimento). Llamaremos conjunto de generali,zaci,n al conjunto de
evaluacin ms grande que es aceptado por la red.
2Ertr
t.rer no puede aprenderse sin las conexiones de mirilla.
3Nt"""
que $ no es un separador, s-lrv un
finalizador
de secuencias, ya que los modos
de entrenamiento empleados reinician Ia red tras cada secuencia.
bbbc c c
bbc c c $
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
7. INFERENCIA DE LENGUAJES CON DEPENDENCIAS A LARGO PLAZO
Estudiaremos el comportamiento de la red LSTM con dos tipos de con-
juntos
de entrenamiento para a'bncn'.
cor] n
[ 1, / ] ,
c or ' n[ N- 1, N] .
Para valores grandes de l\y', el segunclo caso es ms difcil, ya que no existe
el apoyo de las secuencias ms cortas) que son ms fciles cle aprender al
atenuar las dependencias a iargo plazo. Aclu nos centraremos en n e
[1,
10]
y n e
120,271.
7. 2. Parmet ros
Aprendi zaj e del l enguaj e de Reber
Si gui endo l o propuesto por Gers et al . (2000), l a recl LSTM ti ene ny
:
Q
bioqtres de memoria con nc
:
2 celdrs cada uno. Como usarrios coclificacin
exclusiva para lcls smbolcs y como el tarnao del alfabeto del autrrratr cle
Reber es
l El
: 7, consi cl el amos una red LSTVI con nu
-' tty -
7. Los
sesgos de las cornpuertas de enti:ada W y de salida lVt se inicializan por
bl oques:
-0. 5
para el pri rner bl oque,
-1
para el segundo,
-1. 5
pt rra el
tercero, etc.4 Lcis sesgos de las compuertas de olvido WA se iniciaiizan con
val ores si mtri cos: 0.5 para el pri rner bl oque, 1 para el segui rdo, etc. El resto
de los pesos de la red se inicializan de forma aleatoria segn una distribucin
uni f br me en
[ - 0. 2, 0. 2] .
Como existen conexiones directas entre ias entradas y la.s unidacles cle
salicla, la red LSTVI se puede considerar una mquina neuronal de estaclos
cle N{ealy.
La funci n de acti vaci n gz se toma como gz(r)
: gT(r)
-
tanh(r);
gM(r) es Ia funcin identidad; y la firncin cle activacin de las compuertix
es l a funci n l ogsti ca gc(r) : gL(r).
Los algoritmos de entrenamiento considerados son el descenso por el
gradiente y el FKED. Las derivadas se caiculan segrn RTRL eu el caso de la
RRS y segrn l o i ndi cado en 4.12.1 para Ia red LSTIVI. En el caso del descenso
por el gradiente, Ia tasa de aprendizaje es a
:
0.5 y el momento es
7
:
Q.
En el caso del FKED, los valores para los parmetros libres del algoritmo
son:
.
Q[ t ):
10-2
"-$o
1g-a
1.
2.
avase
e1 apartado 3.2 para una cliscusin sobre esta inicializacin.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
7.2. PARAMETROS
R[] : 100 "=$o
3
P[0]
:
1
Los valores anteriores proporcionaron buenos resultados en experimentos
preliminares.
Para comparar los resultados de LSTM con los de una RNR trarlicional
se considera una RRS con un nmero de parmetros muy similar a los del
model o LSTM: 364 parmetros aj ustabl es tomando ny: 13. Las funci ones
de activaciL gy y gx son la ftincin logstica gL(r) y los parrnetros de
entrenamiento los misrnos
que
Ios indicados arriba
para
ia red LSTM.
Aprendi zaj e de anbncn
Siguiendo a Gers y Schmidhuber (2001), considerarnos una red LSTM
configurada como una mquina neuronal de estados de lVlealy con n4
:
2 bloques de memoria con nc
:
1 celda cada uno.5 Los sesgos de las
compuertas de entrada, olvido y salida (W, W^ y W1
,
respectivamente) se
i ni ci al i zan a
-1.0,
*2.0
y
-2.0,
respecti vamente (aunque l os val ores exactos
de esta inicializacin no son muy crticos). El resto de pesos se inicializan
al eatori amente segn una di stri buci n uni forme en
[-0.1,0.1].
Las fttnci ones
de activacin gz y gtur son la funcin identidad. La funcin de activacin
de Ias neuronas de sal i da es una funci n l ogsti ca con rarl go (-2,2), esto es,
sY@) : 4gr ( r ) - 2.
Los smbolos se codifican mediante codificacin exclusiva, con la salvedad
de que en lugar de vectores unitarios se consideran vectores cuyos compo-
nentes son *1 o
-l
para ampliar el rango. Como tenemos los tres smbolos
a, b, c y el marcador especial, queda nU
:
ny
:
4. Con *1 se indica que
un determinado smbolo est activado y con
-1
que no lo est; la frontera
de decisin para la saiida de Ia red es 0.
En el caso del algoritmo de descenso por el gradiente, los pesos se actuaii-
zan fuera de lnea tras cada secuencia. Se consideran dos formas de descenso
por el gradi ente: con un momento (Pl aut et al . 1986) de val or
7
:
0.99 o
sin 1. Los resultados se muestran para diversos valores de la tasa de apren-
dizaje a. Como mximo se presentan 107 secuencias de entrenamiento y se
evalra con secuencias de longitud mxima menor que 1500 (n < 500).
En el caso del FKED se utiliza un entrenamiento tambin por secuencias,
pero esta vez en lnea. Los parmetros utilizados en el FKED son para el
caso ?z
[ 1, 10] :
5
Esto hace que el nmero total de pesos a ajustar sea 84 (72 conexiones entre unidades
y 12 sesgos).
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
7. INFERENCIA DE LENGUAJES CON DEPENDENCIAS A LARGO PLAZO
Ql t l
: 5. 10- 3
R[] : 100 "=-$o 1
y para el caso n e
l20,2ll:
Q[ t )
: s. 10-3
r-$o
1g-o
R[] : 100 "--$o
1
Los valores anteriores proporciona,ron buenos resultaclos en experimentos
prelirninares, pero l1o son crticos en el senticlo de qne hay un arnplio rango
de valores clue resultan en un redimiento similar. I-a influencia del otro
parmetro, l a matri z de covari anza del el ror i ni ci al P[0], se estucl i ar ms
adelante. El mximo nmero de sectLencias presentaclas en el caso del FI(EI)
es 105 y Ia evaluacin se realiza con secuencias cJe longitud mxima menor
o i gr.ral a 30000 (n, < 10000).
7. 3. Resul t ados
Aprendi zaj e del l enguaj e de Reber
Resul tados con l a red LSTM con descenso por el gradi ente. El
cuadro 7.1 muestra l os resul tados para 9 secuenci as di ferentes sobre
g
redes
LSTM inicia,lizadas independientemente y entrenadas con el algoritrno origi-
nal de descenso por el gradi ente. En uno de l os casos (fi l a 5), no se hal l aron
subsecuencia-s de prediccin correctas (para 1000 smbolos seguidos) tras ios
pri meros 1 000 000 smbol os; esto se i ndi ca en el cuadro medi ante 1 000 000+.
Es de clestacar que el nmeo medio de smbolos rtecesarios para aprencler
a predecir sostenidamente con el mtodo en lnea puro (miles de smbolos) es
mucho rns pequeo que l os necesi tach;s por Gers et al . i 1999; 2000) (mi l l ones
de smbolos). Esto reafirma ia rapiclez de aprendizaje del entrenamiento en
lnea.
Resul tados de LSTM con el FKED. El rendi rni ento es mucho mej or con
el FKED. El ti ernpo necesari o para obtener 1000 predi cci ones segui das si n
error,
,6rooo,
es generalmente inferior que el usado por el algoritmo original
de entrenamiento basado en el descenso por ei gradiente, 1o clue indica una
convergenci a ms rpi da (comprese con el cuadro 7.2). Si n embargo, el
nmero de srnbolos procesados antes del dcimo error,
Bf$oo,
es tarnbin
i nferi or, i ndi cando una degradaci n del rendi mi ento rnrs rpi da. El FKED
parece i ncrementar l a capaci dad de aprendi zaj e en 1nea al avez que reduce
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
7.3. RESULTADOS
Red
rooo
RL
vl nnn
aL0
^/1 000
1
2
c
A
(
o
7
8
I
39229
702812
c / u
C+DOD
1000000+
111483
797748
54629
85707
143563
rr1442
104163
58936
113715
799445
123565
86742
L78229
744846
141801
I COOO
136038
235387
123595
923L2
Cuadro 7.L: Iteraciones necesarias para que la red LSTM (entrenada en lnea con
el algoritmo original de descenso por el gradiente) consiga 1000 predicciones correc-
tas seguidas (prediccin sostenible). Tambin se muestra el nmero de iteraciones
antes de que aparezca un error y antes de que aparezcan 10 errores. La red nmero
5 no mostr ninguna prediccin sostenibie antes dei smbolo 1 000 000.
Red
o
,u1000
RI
^/ 1onn
RTU
^/1000
1
2
J
A
h
o
7
B
I
29304
19758
20487
26175
18015
L6667
23277
1000000+
29742
30347
25488
22235
O' 78, A'
19365
29826
24796
31535
30953
322980
24L06
33253
nr r Al
1000000+
26664
594717
Cuadro 7.2: Iteraciones necesarias para que LSTM (entrenada en lnea con
el FKED) consiga 1000 preclicciones seguidas correctas. Tambin se muestra el
nmero de iteraciones antes del siguiente error y de los siguientes 10 errores. La
red 8 no obtuvo una prediccin sostenible antes de 1 000 000 de smbolos. La fila
6 muestra un resultado especialmente bueno: solo se Droducen 3 errores antes del
smbolo 1 000 000.
las capacidad de memoria a largo plazo de
casos destacabies (filas 2, 6 y 9 del cuadro
subsecuencia muy larga (cientos de miles de
el dcimo error.
LSTM. Existen, no obstante, 3
7.2), en los que hace falta una
smbolos) para que se produzca
Resultados con la RRS. La RRS entrenada con descenso por el gradiente
con H|RL no puede obtener predicciones sostenibles (,6rooo), al menos des-
pus cle probar con distintas inicializaciones de Ios pesos y tras secuencias
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
7. INFERENCIA DE LENGUAJES CON DEPENDENCIAS A LARGO PLAZO
Red
a
ru1000
RL
gt
onn
QLU
H1000
I
.)
+
o
7
8
0
132827
rr5462
57363
265088
148496
l).a7 A .
177768
58077
154269
134035
1171 18
58989
266227
149894
359807
173997
59222
155443
136155
720274
61403
289391
153442
363163
193946
65463
158609
Cuadro 7.3: Iteraciones necesarias para que la RRS con rLx :
13 entrenacla
en lnea con el FKED consiga 1000 predicciones seguidas conectas. Tarnbin se
muestra el nmero de iteraciones antes del siguiente en'or y cle los siguientes 10
errores.
extremadamente largas de 106 smbolos.o Las dependencias a largo plazo
son las culpables de este comportamiento, ya que descle muy pronto (a partir
del smbolo 3000 o 4000, aproximadarnente) la RRS preciice correctamente
en todos los casos excepto cuando aparecen los smbolos P y T clel extrerno
derecho del autrnata.7
Incluso 100 predicciones correctas seguidas ocurran rnuy de tarde en
tarde, aunque) por otro lado, no es muy ilustrativo cousiderar vl.lores conro
el de /Jroo,
ya que hay una probabilidad no despreciable de que la prediccin
a largo plazo corresponda al mismo smbolo durante este intervalo y Ia RNR
acte correctamente aun ignoranclo esa dependencia.
El FKED aplicado a Ia RRS, sin enrbargo, s que perrnita predicciones
sosteni bl es si n error del ti po
B166
col no puede observarse en el cuadro 7.3.
En cualquier caso) hay un detalle importante que diferencia el aprendi-
zaje realizado por la RRS del realizaclo por LSTN{. Cuando la RRS realiza,
correctatnente la prediccin de uno de los dos smbolos, P o ?, afectarlo
por dependencias a largo plazo, las probabiliclades emitidas por la red pa.ra
ambos estn en torno a I/2 y el smboio escogido es el correspondiente ai
de probabilidad mayor.8 EI cornportarniento de LSTM es distinto, como
6El
mismo comportamiento se observ con la RPR.
TEste
aprendizaje r,piclo de las dependencias a corto plazo se puede observar tarnbin
en el caso de la red LSTM.
sEsto
significa que de haber impuesto una poltica rns conservadora para el smbolo
predicho por la RNR, la RRS con el FKED no habra podido realizar predicciones soste-
ni bl es,
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
7.3. RESULTADOS
^ , - n ^ , - o o 0
a. Secuenci as
I x 1031
% aprendi do Secuencias
I x
1031
Zo aprendido
10- '
10- 2
10- 3
10- 4
10- 5
10- 6
l 0- 7
;
351
356t
0
0
100
100
100
0
0
9n
45
329
3036
0
0
0
90
90
100
100
Cuadro 7.4: Resultados con LSTM y descenso por el gradiettte para anbncn con
conjuntos de entrenamiento con n
11,10]
y con distintas tasas de aprendizaje o
v valores del momento'v.
veremos) ya que la red "sabe" lo que viene despus y la probabilidad del
smbolo predicho es muy superior a la del resto.
Finalmente, analizando ia subsecuencia correspondiente a una predic-
cin sostenible con Ia RRS, puede observarse que la red falla en cuanto la
separacin entre el cve.nto que causa la dependencia a largo plazo y su ma-
nifestacin en la secuencia es ligeramente mayor que 10 (por ejernplo, 20);
en este caso las probabilidades ni siquiera estn en torno a 1/2.
Aprendi zaj e de anbn{
Resul tados de LSTM con descenso por el gradi ente. Cuando se usa
el descenso por el gradiente, la red LSTM aprencle las clos clases de conjuntos
de entrenamiento y generaliza bien. Los datos relativos al aprendizaje del
conj unto de enrrenami en[o se muestran en l os cuadros 7.4y 7.5 para di sti ntos
valores de Ia tasa de aprendizaje a. En ellos se muestra el nmero medio
de secuencias necesarias hasta conseguir una fase de entrenamiento (1000
secuencias) sin errores y el porcentaje de experimentos en los que se logr.
En cuanto a la generalizacn, para el caso ??
[]-,
10]
,
la mejor generalizacin
es n
[1,52]
y l a gerreral i zaci n medi a es n e
[1,28];
por otro l ado, para el
caso n
[20,21],
l a mej or general i zaci n es ??
[10,271
y Ia general i zaci n
medi aesn1I 7, 231.
La red LSTM funciona adecuadamente para un amplio rango de tasas
de aprendizaje (unos tres rdenes de magnitud) como puede verse en los
cuadros 7.4y 7.5. La uti l i zaci n del momento ayuda cl aramente a mej orar
la velocidad de aprendizaje, ademis de tolerar el mismo rango para a.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
7. INFERENCIA DE LENGUAJES CON DEPENDENCIAS A LARGO PLAZO
- - n
7
:
0. 99
()
Secuenci as
I x
103]
% aprendido t' il;;{' *
|
% anrendido
10- '
10- 2
10- 3
1 o- 4
1 0- 5
10
- 6
10- 7
1 170
7450
r205
0
0
30
30
20
0
0
1 t ) , 7
15106
1366
0
0
0
0
20
20
10
Cuadro 7.5: Resul tados con LSTNI y descenso por el gradi ente para a' "bc, con
conj uncos de entrenami ento con n e
[20,21]
y corr di sti ntas tasas de aprendi zaj e o
y valores clel nrornento
7.
uencl as
x 103]
10- l , 43 1, 68
10- 2
l 0-
1
1
[ 1,
48j
[ 1, 2Boj
[ 1,
29i ]
lt,4z4l
[ 1, 1o82j
l i o
I 102
lr.77l
[ 1, 1162]
[ 1, 1385]
.r,27
43)
[ 1, 10000+]
103 i , 865 1, 37961
Cuadro 7.6: Resul tados de LST\' I con el FKED con n
[1,10]
para di sti ntos
valores inici.les cle la matriz cle covarianza dr:l error Pi0l
:
df.
Resrrl tados de LSTM con el FKED. Como puede comprobarse en l os
cuacl ros 7.6 y 7.7, l os resul tados de} FKED mej oran notabl emente l os cl el
algoritmo de descenso por el gradiente. Conjuntos de errtrenalniento muy
pequeos con valores de n
[1,10]
llegan a ser suficientes para Llna genera-
l i zaci n perfecta hasta val ores de n
[1,2000]
y superi ores: en concreto, en
uno de los experirnentos con P[0]
:
102-I se obtuvo un conjunto de genera-
l i zaci n con r
[1,10000],
el mxi mo evaLua<l o.
N[s an, en el caso de n
[1,
10], el entrenamiento finaliza normalmente
tras solo 2000 secuencias de eutenamiento (un par de pocas), urienrras clue
el algoritmo original rrecesita un nrmero mucho mayor de secuencias; algo
sirnilar ocLrrre en el caso de rz
120,21).
{Jn problema menor del FKED es su inestabiiidad ocasional: el aprendi-
zaje ocurre al comienzo de la fase de errtrenamiento o nullca. Todos los fallos
en l os cuadros 7.6 y 7.7 son debi dos a esto. En general , si n ernbargo, cuando
n e
[1,10],
ei aprendi zaj e se produce extremadarnente rpi do y dej an de
2 t 20
2 180
2 1100
2 t 50
2 1100
2 170
2 ! 80
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
7.4. DtSCUS|ON
I
0 Secuencias
I x
103]
7o aprendido Generalizacin
media
Mejor
generalizacin
10-"
I U-
10-
I
1
10
r02
103
4
A
tr
0
80
70
40
$U
40
50
[17,23]
[ 14,
25]
[74,26]
112,29)
.r2,28)
113,271
lI,24l
9, 271
72,281
8, 34]
9, 32)
8, 321
Cuadro 7.7: Resultados de LSTM con el FKED con n e
l20,2Il
para distintos
valores inicales de la matriz de covarianza del error Pl01
:
6I .
producirse fallos sobre el entrenamiento tras un nmero de secuencias entre
200 y 400.
7.4. Di scusi n
Aprendi zaj e del l enguaj e de Reber
Como ya hemos cornentado, en ei caso del aprendizaje simblico en lnea,
el FKED reduce significativarnente el nmero de iteraciones necesarias para
obtener predicciones sin error. Sin embargo, tiende a olvidar ms fcilmente.
Anlisis de la solucin. El estudio de la evolucin de las activaciones de
las celdas y las compuertas de la red LSTM durante el aprendizaje en lnea
de Ia secuencia de Reber, revela que el comportamiento de la red es muy
simila al observado en anteriores experimentos que no eran completamente
en l nea (Gers et al . 2000, apartado 4.4), esto es, un bl oque de memori a se
especializa en la informacin a largo plazo, mientras que los otros se centran
en las variaciones a corto plazo. Independientemente de Io anterior, todos
los bloques aprenden a reinicializarse mediante la anulacin de la activacin
de Ia compuerta de,n:,' ;-.l o correspondi ente. Este comportami ento es comn
a ambos algoritmos de entrenamiento.
Obsrvense Ias figuras 7.I y 7.2. En ellas se muestran las activaciones
tpicas simultneas de dos de los bloques de memoria de Ia red durante 170
smbolos sucesivos tomados de una subsecuencia sin errores de prediccin.
La informacin de largo plazo aparece etiquetada con los smbolos (P o ?)
que deben almacenarse hasta que la secuencia alcance eI lado derecho de la
mquina de estados finitos.
La figura 7.1 muestra las activaciones de los CEC y de Ia compuerta de
olvido del tercer bloque de memoria, encargado de conservar Ia informacin
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
7. INFERENCIA DE LENGUAJES CON DEPENDENCIAS A URGO PLAZO
(a) Estado del CEC de l a pri mer" (D) y segunda cel cl a (o)
/ h\ f ' ^- . ^" ^ i ; -
ol vi do ( n) .
Figura 7.1: Activaciones del tercer bloque de memoria de una red LSTM en el
tramo en que realiza una prediccin sostenible del lenguaje de Reber. Este bloque
memoriza la informacin de largo plazo de ia secuencia.
de largo plazo de la secuencia. El estado de los CEC se atena por accin de
la compuerta de olvido sincronizada con ia aparicin de los smbolos
p
o T
a memorizar. En collcreto, el CEC de ia segunda celda permanece positivo
mientras se ha de recodar una 7 y negativo cuando se ha de recordar
una P. La compuerta de ol vi do del tercer bi oque de memori a est abi erta l a
mayor parte del tiempo, permitiendo que los CEC retengan la informacin
correspondiente; cuando esta informacin ya ha sido utilizada, la compuerta
de olvido se cierra casi completamente y
anula el estado de las celdas.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
7.4. DtscusaN
- , c
(a) Estado del CEC de l a pri mera (n)
v
segunda cel da (o).
(b) Compuerta de ol vi do (n).
Figura 7.2: Activaciones dcl primer bloque de memoria de una red LSTM en el
tramo en que realiza una prediccin scstenible dei lenguaje de Reber. Este bloque
procesa la informacin de corto plazo de la secuencia.
La figura 7.2, por otra parte, muestra las activaciones del primer bloque
de memoria, encargado (al igual que los otros dos bloques, no mostrados) de
capturar el comportamiento de corto plazo de la secuencia, necesario para
predecir el resto de smbolos. En este caso, Ia compuerta de olvido se abre
o se cierra en funcin de otros eventos, no asociados a la aparicin de los
smbol os P oT correspondi entes al as dependenci as al argo pl azo.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
7. INFERENCIA DE LENGUAJES CON DEPENDENCIAS A LARGO PLAZO
Aprendi zaj e de anb"*
Cr.rando la red LSTM se combina con el FKED se mejoran notablemente
los resultados del algoritmo de descenso por el gradiente utilizado original-
mente y se obtiene una convergencia ms rpida y un rendimiento mejorado.
Anl i si s de l a sol uci n. En general , Ia recl LSTM resuel ve el probl erna cl e
la inferencia de anbncn usando una combinacin de dos contadores, irtstan-
ciados por separado en los dos bloques de menroria.
La figura 7.3 muestra las activaciones qlie se producen en una red LSTIV
entrenada con el FKED. Las activaciones son las obtenidas al ir aplicando
Ios sucesivos slnbolos de la secuencia a6b6c6 a }as e[tracias de rrna red
que
ya ha aprenclido las secuencias cle enbnctt con r,
(
10.
Corno pr.recle verse en la grfica superior. el CEC del primer bloque de
memoria se va incrementando con cada aparicin del smbolo a y comienza
a clecrementarse a partir de la primera b. La aparicin de una c en la
entrada desencadena l a cl ausura de l a compuerta de entrada y de Ia de ol vi do
(vase Ia grfica intermedia), Io que provoca Ia desactivacin del contador
i rnpl ernentado por este pri mer bl oque.
De forma similar, el CEC del segundo blocue est clesactivado hasta c-re
aparece la primera b, instante en que la, compuerta cle entracla, se at're y la
compuerta cle olviclo se cierra momentnearnente para reiniciar convenien-
temente el estado de Ia cel da (vase l a grafrca i nferi or de l a fi gura 7.3). A
continuacin, e1 contador implementado por el CEC clel segundo bloque co-
mienza a decrernentarse hasta que Ia aparicin cle la primera c invielie la
tenclencia del contador y desencadena un incrernerrtc. progresivo.
Err resurnen, uno de los bloques de memoria resuelve a'b', mientras que
el otro resuelve b'c". Todo el sisterna funciona de rn-rnera extremadamente
precisa y robusLa en arnbos algoritrnos de entrenamiento.
Compl ej i dad. Aunque el nrnero de i teraci ones que necesi ta el FKED es
mucho menor qr.re las usadas por el descenso por el gradiente, Io cierto es
que aquel tiene un coste computaciona.l, especialmente el temporal. mucho
mayor. Si calculamos el tiempo necesario para realizar el entrenarniento
sobre 1000 secuencias con el FKED, este resulta ser aproximadamente unas
15 veces superior al invertido por el descenso por el gradiente.
La comparacin del descenso por el gradiente y el FKED al usar esta
rnedida relativa permite constatar que la courplejidad adicional de la red
LSTM entrenada con el FKED se ve ampiiamente compensada con el me1lor
nitmero de secuencias uecesarias para aprender el conjunto de entrenanliento.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
7.4. DtscusloN
20
' 10
0
- 1 0
-25
(a) Activacin del CEC y de la salida del prirner
bloque de mernoria (n y o,
respectivamente) y del
segundo (y
0, respecti vamente).
(b) Compuerta de entrada (!), sal i da (o) y ol vi do (A)
del primer bloque de memora, encargado de anbn.
(c) Compuerta de entrada (!), sal i da (o) y oi vi do (a)
del segundo bloque de memoria, encargado de bncn-
Figura 7.3: Activaciones de los bloques de rnemoria de una red LSTM que ha
aprendi do el l enguaj e anbncn.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
7. INFERENCIA DE LENGUAJES CON DEPENDENCIAS A LARGO PLAZO
Por ej ernpl o, en el caso de n. 120, 21] , el FKED con P[ 0] : 70-21obt i ene
un B0% de solucioues correctas con 4 000 secuencias de entrerramiento, lo
que equivale en tiempo a 4 000 x 15
:
60 000 secuencias con clescenso por
ei gradi ente; pero, como puede verse en el cuacl ro 7.5, el descenso por el
gradiente requiere una media de 727 000 secuencias y solo obtiene un 2070
de soluciones correctas en ei clso mejor.
LSTN'I es la primera RNR que gelteraliza el lenguaje anbncr con valores
de n muy superiores a los utilizados dr-rrante el entrenamiento. AI usar el
FKED se obtiene un sistema que necesita un nrnero de secuencias varios
rdenes de rnagnitud por debajo clel algoritmo cle entrenamiento estnclar y
que generaliza arn mejor. El nroclelo LSTM combinado con el FI{ED nece-
si ta ver rni camente cadenas cl e l ongi tucl menor que a1rb11cl l para extrr,er
las regias generales del lenguaje sensibie al coniexto anbtlcn
1.
gener.alizar
correclarnerrte con secuencias como o100')b1000c10{J0 y arn nayores.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
Volver al ndice/Tornar a l'ndex
8. DESAMBIGUACIN CATEGORIAL
Este captuLo muestra cmo utilizar una RRS para desambiguar las
categoras lxicas de las palabras homgrafas de un texto. Se trata de
uno de los primeros ejemplos de uso de RNR en esta tarea. Adems, el
enfoque seguido no necesita textos completamente etiquetados y es or-
ginal en el hecho de qtre Ia clesambiguacin se enfoca como un problema
de prediccin. Los contenidos de este captulo han sido publicados en
las actas de un congreso internacional (Prez-Ortiz y Forcada 2001).
Para la introduccin referente a los conceptos de este captulo puede
consultarse los apartados 1.2.3 y 5.3. All se vi que un etiquetador mor-
folgico es un programa que asigna a cada palabra de un texto una categora
lxica; esta tarea es especialmente importante cuando ulto se encuentra con
palabras ambiguas, a las que puede corresponder) en principio, ms de una
etiqueta clependiendo del contexto. La mayora de los etiquetadores se basan
en ia suposicin de que las palabras vecinas son tiles a la hora de desam-
biguar estas palabras. Aqu haremos uso de esa informacin contextual con
una RNR.
8. 1. Mt odo
En estos experimentos se explora el uso de una RRS para el eticluetado
de las categoras lxicas de las palabras de una oracin. En primer lugar, el
texto de entrenamiento se etiqueta parcialmente mediante un diccionario o
lxico (un analizador morfolgico) que asigna a cada palabra una clase de
ambi.gedad, esto es, un conjunto de posibles categoras lxicas (este conjun-
to tiene un nico elemento en el caso de las palabras no ambiguas). En este
trabajo se usan clases de ambigedad y no palabras: los primeros estudios
de Elman (1990) se realizaron sobre pequeos vocabularios, pero los voca-
bularios reales tienen miles de entradas, mientras que el nmero de clases
de ambigedad es nonnalmente de unos cientos; esto reduce drsticamente
el tamao de la tarea de prediccin.
Todos los trabajos neuronales anteriores (vase el apartado 5.3) se basan
en entrenar la ed a partir de corpus completamente etiquetados, adems de
113
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
8. D ESA M BI GU AC ION CAT EGO R I AL
usar para las palabras representaciones basadas tambin en textos comple-
tamente etiquetaclos. Este trabajo es tambin un ejemplo de acercamiento
al tema desde un punto de vista neuronal, pero la gran diferencia es que la
RNR se entrena a partir de un corpus parcialmente etiquetado.
Como se ver con ms detalle a continuacin, se entrena una RRS para
que aprenda a predecir la clase de ambigedad de la siguiente palabra dei
texto; a continuacin, se usa un perceptrtt sin cap:r oculta para extraer
la categora lxica a partir de la informacin de estado desarrollada por ia
RNR para el texto considerado durante Ia primera fase clel entrenamiento.
Los experimentos mostrarn las tass de error al etiquetar alguuos textos
del corpus del Penn teebank (Nfarcus et al. 1993). Tambin se iuclican los
resultados con un modelo oculto de lvlarkov (MO\,I, va,se el apndice A)
con l os mi smos datos.
8. 1. 1-. Fases de ent renami ent o
En nuestro enfoque, ia RRS se entrena en clos fases: en primer lugar.
el texto de entrenamiento se etiqueta parcialrnente mediante un lxico o
anal i zador morfol gi co, de nranera que se asi gua a cada pai abra un conj unl o
de categoras lxicas. As, el texto de entrenamiento pasa a ser un conjtrnlo
de secuencias (una por cada oracin) de clases de ambigedad cle la forrna
o[ 1] , . . . , a1t 1, . . .
Tras esto, comienza un proceso cle entrenamiento fuera de lnea por se-
cuencias en dos fases:
Primera fase. La RRS es entrenada para predecir la clase de arnbigeclad
de l a si gui ente pal abra
al t\
= al t+l l a parti r de l a cl ase de ani bi gedad
de l a pai abra actual a[t], e, i ndi rectamente, a parti r de l as cl ases de
l as pal abras anteri ores de l a frase, o[1],..
.
,a[t
-
1], cl ue i deal mente
estarn representadas en el estacl o de Ia red, z[t]. Es de esperar que
de esta manera la RRS aprender a desarrollar en su estaclo z[] una
representacin sintctica del prefijo visto cle la oracin, Io que permi-
tir realizar una prediccin acertada cie Ia clase de aurbigedad de ia
siguiente palabra.
Como ya se ha hecho en otros lugares de esta tesis, se utiliza la codifica-
cin exciusiva tanto para las entradas como para las salidas deseaclas;
as, al utilizar una funcin cle error cuaclrtica, Ias salidas pueden
i nterpretarse como probabi l i dades (vase el apartado 4.3.1). Como
algoritmo de entrenamiento se utiliza descenso por el gradiente con
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
8.1. METODO
RTRL.I Adems, tambin se aprende durante el entrenamiento el es-
tado inicial (Bulsari y Saxn 1995; Forcada y Carrasco 1995) de forma
que la RRS se reinicia al estado aprendido al principio de cada frase
para evitar las interferencias entre frases, ya que, a fin de cuentas, solo
el contexto oracional influye en la categora lxica.
Segunda fase. Despus del entrenamiento, cada palabra del texto se eti-
queta con el vector de estado z[] calcuiado para ella por la red;
entonces, para cada palabra del texto se euttena un perceptrn para
que aprenda su categora lxica a partir del vector de estado asignado
a la palabra que esr
f
posiciones a su derecha, rlt + f).
El valor
de./ representa la cantidad de contexto posterior (a la derecha) que
se necesita
para desambiguar una palabra; la cantidad de contexto
anterior (a ia izquierda) necesaria es determinada por el propio algo-
ritmo de entrenamiento. Ntese cmo para que esto funcione, hay que
aadir
/
rnarcadores artificiales de final de frase (una palabra no am-
bigua) y aprender a predecirlos durante Ia primera fase como el resto
cle palabras.2
En esta segunda fase se asigna Llna ]renrona de saiida a cada categora
lxica. A ia hora de representar Ia salida deseada d[t] para una palabra
ambigua, se han utilizado tres esquemas disintos:
1. Los componenes correspondientes a categoras de la clase de am-
bigedad se ponen a 1 y el resto de componentes a 0.
2. Como el punLo anteri or, pero usando 7f0 en l ugar de 1, donde
d ) 1 es el tamao de la clase de ambigedad.
3. Solo se impone una salida deseada con valor 0 a las categoras no
incluidas en la clase de arnbigedad; el resto no contribuyen a la
funcin de error.
Aunque ei tercer enfoque es el nico que garantiza Ia convergencia a Ias
probabilidades de las etiquetas (con una funcin de error cuadrtica,
por ejemplo) en el caso de las palabras ambiguas, los experimentos
demuestran que el primer enfoque es el que proporciona los mejores
resultados.
La combinacin de Ia parte del estado de la RR.S y el perceptrn se utiliza
para determinar la categora lxica de las palabras de oraciones nuevas.
Las figuras 8.1 y 8.2 ilustran el esquema de entrenamiento de Ia primera y
segunda fases, respectivamente.
t
E1 rlg*f r*" .1"
""t*".*""*
no tiene un papel vital en un trabajo como este, que
pretende ser una demostracin de r-rna idea; por eso usamos RITRL y no formas ms
idneas, pero mis costosas, como BPTT.
2Tambin
habra sido posible utilizar el mismo marcaclor artificial
/
veces seguidas al
final de cada frase.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
8. D ES AM B I G UAC I ON CAT EGORIAL
! : :
. o -
b o h
.:^r
G
63
on
o ( J
a
++\
* { -
.
{ - - {
,:+L ts
*tS
' h J
R
tl
N - f
, +- . . { - +
tt
1
I
r Rd
T
I
F =
rei ts Ll
- J J
r d
t
E* - F\ - * -
I F t d
t
I
c \ , t s
r dt t
t
I
-i ..
4
r v @
n r 9
^
J A
. : " . Y
h ^ - i
' = . ! l
a . u ;
' I r 9 E
t r ' n ' : .
O - i
4 , q
* 2. -
. . c 6
\ " , 4
; l -
- .
o l
- Y ' . k
o 3 d
: i ^ :
q : : a )
. i ! : :
4 =
- o d
@ . \
' { + c E
, : -
h ^ - =
, t )
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
8-1. MTODO
d
'o
q)
'o
Cd
F]
ci
U)
\o
d
!
a)
a
rr
p
.o
x i
X
a( 0
- '
64.
A A
_. ( )
i -
o 0 )
- h
v a
b 0 ( )
a -
6 r i
c
h -
T
I
I i . \ . \
J -
,
- : H _
\ J f r
sl
T
I
q
l a l - l
s. Er
13
t
I
I TF
\ . I I
| . \
t \
' - l ud
H
t
I
ri r-t
=. +. +
1 3 . \ \
F t d
+
$
1
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
8. D ESAM B I G UAC IO N C ATEGORI AL
8. 1. 2. Model os al t ernat i vos
Para evaluar los resultados de nuestro
los obtenidos con otros tres modelos:
enfoque, los compararemos con
Modelo de Markou. Un rnodelo oculto de Markov (MOM) estndar
entrenado mediante el algoritmo de Baum y Welcir, como se rnuestra
en el apndice A.
Al,eatori,o. Un moclelo que escoge aleatoriamente una etiqueta Ixica en
cada clase de ambigedad con probabilidad Il0, cionde 0 es el nrmero
de etiquetas de Ia clase.
Etiqueter predomi.na'nfe. Un modelo cle etictrueta preclominante global-
mente en el qrre se selecciona siempre la categora lxica rns probable
de cada cLase de ambigedad segn el muestreo realizado en un corpus
compl etamente eti quetado; el Penn Treebank, en este caso.
Los resultados del etiquetado sobre los textos de eva,luacin se comparan
con una versi n eti quetadar "a mano" de l os mi smos textos. El pri mero de
los rnodelos anteriores es la solucin estndar :,.1 problema, mientras que
los otros dos se usan corno punto base de referencia. Et ltimo nrodelo es,
ci e hecho, i nj usto porque uti l i za i nformaci n que no est di sponi bl e en el
coni unto de entrenami cnto.
8. 2. Parmet ros
Los experinrentos determinaron las tasas de error obteniclas al etiquetar
textos cl el corpus Penn Treebank versi n 3 (Marcus et al . 1993). Se construy
un lxico de 14276 entradas a partir de las prirneras 20 secciones de Ios 24
conjrrntos cle datos correspondientes aI Wall Street Journal; se eliminaron
todas las palabras que aparecan menos de 4 veces (con lo qlle se cubre el
95%)
V
las etiquetas que se asociaban a una palabra menos de un 5% de las
veces. No se uti l i z ni nsn adi vi nador.
El corpus de entrenami ento ti ene 46 461 pal abras; el corpus i ndepen-
diente de evaluacin tiene 47 397 palabras, de las cuales 6 574 son ambiguas
segn el lxico y 2 290 son desconocidas. Las 45 etiquetas originaies del Penn
Treebank se redujeron a 19 etiqtretas ms gruesas (a las que debe sumarse
los marcadores artificiales de fin de frase) eliminando alguna.s distinciones
lxicas; con ello el nrnero de clases cle ambigedad obsevadas ea de 82.
EI nuevo conj unto de eti quetas se muestra en el cuadro 8.1 y una breve
descri pci n de su si gni fi cado en el cuadro 8.2.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
8.2. PARMETROS 1 1 9
Nueva eti queta Etiquetas que agrupa
XSYiVI
XCC
XCD
XDT
XEX
XFW
XIN
XJJ
XVB
XNN
-XPOS
,"XPRP
XRB
XRP
XTO
XUH
XWH
\ o
, )
LS SYM
( (
:
CC
CD
DT PDT PRP$
EX
FW
IN
JJ JJR JJS
MD VB VBD VBG VBN VBP VBZ
NN NNS NNP NNPS
POS
PRP
RB RBR RBS
RP
TO
UH
WDT WP WP$ WRB
Cuadro 8.1-: Reduccin del etiquetario del Penn Tleebank (Marcus et al. 1993).
Por ejenplo, Ia categora XNN agrupa 1o que originalmente estaba separado como
nombre propio o comn y singular o plural.
Para entrenar Ia RRS, se usa entrenamiento fuera de lnea por secuencias
y descenso por el gradiente con RTRL. La tasa de aprendizaje es a
:
0.05
(sin mornento). La influencia del nmero de neuronas de estado nx se
muestra en los experirnentos. Los pesos iniciales se tomaron aleatoriamente
en el rango
[-0.2,0.2].
Todos l os resul tados neuronal es son l a medi a de tres
experimentos distintos.
Los resultados se expresan como el porcentaje de etiquetas incorrectas
asignadas a palabras ambiguas (inciuyendo las desconocidas), no como ei
porcentaje general de etiquetas correctas, una medida habitual, pero con-
fusa, ya que muchas palabras no son ambiguas y, adems, el hecho de que
en algunos idiomas la ambigedad sea mayor que en otros impide la com-
paracin de etiquetadores cuyos experimentos se muestren sobre distintos
i di omas.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
8. D E S AM B I G UAC I ON C AT EGO B I AL
Etiqueta Descri pci n
XSYM
t
XCC
XCD
XDT
XEX
XFW
XIN
XJJ
XVB
XNN
XPOS
XPRP
XRB
XRP
XTO
XUH
XWH
Smbo1o
Punto
Dns nr l r r f nq
Conj unci n coordi nati va
Nmero cardinal
Determinante o pronombre
There existencial
Palabra que no est en ingls
Preposi ci n o conj unci n subordi nati va
Adjetivo
Verbo
Nombre
Ternri naci n del posesi vo
Pronombre personal
Adverbio
Partcul a
Tct
Tnt cr i pcci n
Determinante, pronornbre o adverbio con u-
Cuadro 8.2: Descripcin de las etiquetas categoriales empleadas en Ios experi-
mentos.
8. 3. Resul t ados
Una serie de experimentos permiti constatar que los mejores resultados
se obtienen con
/
:
0, es decir, nsado directamente en la segunda fase del
entrenamiento el estado de Ia RRS obteniclo para una palabra como refe-
rencia para deterrninar su categora lxica. Corno ejemplo, en el cuadro 8.3
se tnuestran l os resul tados con nX
:
12 y
f
:0,
1. El val or n, :
12 es un
buen compromiso entre el tamao de Ia red y las tasas de error obtc,:nidas
couro puecle observarse en el cuaclro 8.4, donde pueden verse los resulbados
segn el nmero de iteraciones en cada fase con distinbos nmeros de neu-
ronas de estado y con
f
:
0. Adems, este valor hace que el nmero de
parmetros de la RRS a ajustar sea muy similar a los del NfoNl empleado.
Model o ocul to de Markov. Los resul tados dei MoM se muestran en el
cuadro 8.5 en funcin del nmero de iteraciones del algoritmo de Bar_rm y
Welch.
Aleatorio. El etiquetaclo aleatorio proporciona una tasa de etiquetas in-
correctas entre el 6r.B% y e\62.9% (5479 y 5572 errores) respecti vamente),
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
8.3- RESULTADOS
d
a
'o
q
.
k
p
'd
h
-
\-
bo
a
il
d
h
1J
I
x
o 6
p - .
4
v d
. ^ ,
2 4
, : :
P
q
L ; J
e a
.^ c)
@ Y
H
. . P
0 0 J
Y N
t
I
O
a "
R
. : a
a
d
' l l
:: c\
sr
;
cc; trj .d,trj l rj
( o S < = J < i V
o ? q q n 0 9 \
c\ o
.lt
\!f rfJ ro
(o cf) ro ro !" ro
(O
f-- tO <r rO \
c o < t s l < t . $ < l
i c\ l.- f.- io
q?n:
nn-
c o - r l ) < 1 r o t l )
q 6 ' j c l \ o q " ?
C \ O V ) I r J T O I O
\ c ?=qeqq
( o t . * m$ s l r )
< v < r v < ,
- : . r n
i " c 4
co (o r Ll) ro r.l)
c qnq?q=qn
l-
(o ro <4 <r ro
c 9 < l < l s v {
o q q q o c 0 9 u ?
co ro u" ro L? rf)
f-- f- cO - r Or
a
!
c'r
9< c:
c)
r c < r r o
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
8. D ES A MBIGUAC IN CAT EGO RI AL
o
N
A
..Tl
" i
63
d
a)
F
!
'd
A
F
b!
a
t
d
H
'o
:
X
a
. ! !
^i ct
<, 8
i l o
X d
8- r
- L
o . -
' +
u? c)
r-:
r r d
n
i ^
T1
' tl
t l p
s
+ ^
0)
v)
. : Y
a
o q q ? e . 1 e c l
@ O) l.- tl) cA <r
r o . < l 1 s s < r < l
s f r o o c \ o r o
<; i <. \.i ,ri
c O $ < i < r . + <
( o r o ( o - c o i l
,: ; ..t ..{ -: -:
oo o) f-- L!) co rs
r r ) d : s < . = $ . < f
*<t
st1 c\ c.1 o
(o
. d L r i < , L r i r r i
c + ! A r -
d d tri rj .r,
c'i
tr- ro (o co (o (o
q q ? q ? \ 0 9 \
f.- O) f-- L.J ca
.$
tl] <i{ <J -$ .+ .<t
qn
n n
. l q
(o
f.- ro $ ro ro
io
.s
sf :f
=<fi :i'l
.j oj tri $ c"i ci
f-- rrJ co (o co (o
oO O) f.-
(O
$ uf
r r f , $ < r $ < . < f
m + r r ^
d r r i < . + t r j
c o < , . i < ' + \ J
n?Yq?\
tr- c, co (o co (o
s r r r a
oi oi <i
.d,
rj
L o < r < r $ . l s r
" qn" ?ei ' . l a r ^ d + r ^
c o ' + ' $ < l
- + = $
\ . 19- ?n" t
C O O O O O
Q? - c . r c \ c o
- d " '
- - _-t
",i ",i ".{
- f
o
- .
Y ' : ' :
- -
-i ^ ."i -.:
O i C \ Y
t o o c o o o c o
u)
! ar
{
]J
c \ c o < f r o
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
8.4. DtSCUStON
Iteraci ones 0
1
z
A
-
o 7 B
Error 62. 8 48. 8
^ 7
. )
46. 0 45. 5
^ , Q
4 C.
Cuadro 8.5: Tasas de eror con un MOM en funcin del nmero de iteraciones
del algoritmo Baum y Welch.
segn se observ en 14 experimentos con distintas semillas para el generador
de nmeros aleatorios.
Eti queta predomi nante. Esta estrategi a da tasas de error de 20.570, un
resultado razonablemenLe bueno, aunque debe tenerse en cuenta que se basa
en Ia disponibilidad de un corpus etiquetado "a mano" y que este mtodo no
puede hacer nada con las palabras desconocidas (no existentes en este caso),
las cuales suelen representar un porcentaje considerable de las palabras de
los textos de evaluacin.
Etiquetador neuronal. Consicleraremos los resultados de un modelo neu-
ronal con aproximadamente el mismo numero de parrnetros que los 1VIOM
correspondientes; por ello nos centraremos en los resultados con 12 neuro-
nas de estad.o, aunqlre los resultados con 24 eran ligeramente mejores. Los
resultados para
/
-
0 y
f
:
I se muestran el cuadro 8.3 en funcin del
nmero de iteraciones en ca,da fase. Como puede verse) aadir una pala-
bra de contexto posterior confunde a Ia RRS, que hace mejores predicciones
basndose nicamente en el contexto pasado. Tambin se observa cmo un
entrenamiento inLenso en Ia fase 2 es tns irnportante que en la fase 1.
La ta,sa de etiquetado correcto global sobre palabras ambiguas y no am-
biguas de la RRS y del MOM est en torno al 92To: los mejores resultados
son un 97.5% (4011 errores) para el MOM y un 91.9% (3852 errores) para
la RNR.
8. 4. Di scusi n
Un etiquetador neuronal sencillo con aproximadamente el mismo nmero
de parmetros ajustables obtiene basicamente los rnismos resultados (en tor-
no a un 45% de etiquetas incorrectas) que un MOM estndar entrenado con
el algoritmo de Baum y Welch. El etiquetador neuronal, sin embargo, to-
ma las decisiones relativas a las palabras ambiguas sin tener en cuenta las
paiabras posteriores, mientras que el MOM tiene que posponer esta deci-
sin hasta encontrar una palabra no ambigua (vase el apndice A). Esta
capacidad no parece dar ventaja alguna al MOM sobre la RRS.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
8. D ES AM B I G UAC I O N C AT EGOR I AL
Como se ha podi do constatar, l a i nformaci n al macenada en el estado de
una RNR entrenada para predecir ia categora lxica cle la siguiente palabra
puede ser til en el problema del etiquetado categorial. Los resultados indi-
can que ei rendimiento de ambos enfoques, el basado en MOM y el neuronal,
son comparables, aunque este ltimo ignora el contexto posterior.
Una diferencia significativa entre nuestrc mtodo
,
los NIONI es que estos
desambi guan gl obal menl e (el al gori tmo de Vi terbi real i za una opti mi zaci n
global sobre toda ia frase o, como mnimo, sobre segrnentos delimitaclos
por las palabras no ambiguas), mientras que el nuestro 1o hace localmente.
En cualquier caso) el coste temporal de entrenamiento es significativaniente
rnayor para el caso nelrronal (horas) que para el N,IOM (rninutos).
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
Volver al ndice/Tornar a l'ndex
9. PREDICCION DE SENALES DE VOZ
Los nicos trabajos previos que usan RNR para la prediccion de seales
de voz se basan en la RNRC, un modelo formado por una sucesin de
redes sencillas en cascada. En este captulo estudiaremos cmo se
comportan en esta tarea las RNR clsicas. Los siguientes resultados
han sido presentados en un congreso internacional (Prez-Ortiz et al.
2001a) .
La introduccin a los conterridos de este captulo puede encontrarse en
l os apartados 1.2.4 y 5.4.
9. 1. Mt odo
Si gui endo l a l nea cl e l os trabaj os de Hayki n y Li (1995) y Bal tersee
y Chambers (1998), el model o de pl edi ctor que usaremos est compuesto
por uu predictor no lineal (una RNR) que debera proporcionar una salida
localmente ms lineal que Ia seal de entrada, seguido de un predictor lineal
(un filtro) que sacara partido de esta linealizacin. Cada mdulo se entrena
de forma separada. Es de esperar que
"esta
combinacin de un flltro no lineal
con un filtro lineal debera poder extraer tanto Ia informacin no lineal como
Ia lineal contenida en la seal de entrada con vistas a
producir
Ia
prediccin"
(Hayki n y Li 1995).
La figura 9.1 muestra un diagrama para el rnodelo en cascada comple|o.
EI primer mdulo se entrena para predecir la muestra u[] a partir de las
p rnuestras anberioresl
y
de la informacin almacenada en el estado de la
red. La seal predicha [t] se introduce, entonces, en el mduio lineal, que
es entrenado para predecir la muestra del instante * 1. Esta ltima se
considera la saiida giobal del sistema. Como se muestra en el diagrama
(siguiendo los artculos citados antes), el mdulo no lineal tiene orden de
entrada p, y pL es el orden correspondiente del predictor lineal. Adems
r
La .introduccin explcita. en la red de la-s muestras recientes le da una ventaja adicional
sobre las redes de una rnica. entracla que soio pueden acceder a esta historia a travs de
su estado. Los experimentos determinarn la imoortancia de este aadido.
L D
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
g.
PREDICCION DE SEALES DE VOZ
ul t
-
Filtlc' lincal
Fi l tro ncutonal recurrel te
Figura 9.1: Nlodeio cle predictor que colnbina filtros linerles y no lineiies (Hnykirr
y Li 1995) .
de los resultados de este modelo hbrido, se mostrarn tambin en algunos
casos los resultados de ambos tipos cle predictores por separaclo.
A continuacin se describen los modelos usados el] las
partes
lineal v no
l i neai cl el predi ctor.
9. 1. 1. Predi ct ores no l i neal es
Cotnpararemos el rendimiento cle las siguientes RNR (vase el captulo 3)
cuando actan corno predictores no lineales: la RNRC, la RRS y la RPR.
Tambin se experirnent con otros modelos, como la RTR o la red NARX,
para obtener resultados similares a los de Ia RRS o Ia RPR, que no se
mostrarn aqu. Como algoritmos de entrenamiento en lnea se consicleran
el descenso por el gradiente (que representaremos por DG en las figura,s y
cuadros de este captulo) y el FKED, ambos con derivacias caiculadas segrn
RTRL.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
9.2. PARAMETROS
9.L.2. Predi ctores l i neal es
El predictor lineal es un filtro FIR (vase el captulo 3) con los pesos
adaptados por medio del algoritmo de mni,mos cuadrados (LMS, por el
ingls least-rnean-square) (Oppenheim y Schafer 1989; Proakis y Manolakis
1996) o por rnedio del algoritmo de mnimos cuadrados recurs,iuo (RLS,
por el ingls recurs'ue least-squares) (Oppenheim y Schafer 1989; Proakis y
Manolakis 1996); el primero guarda relacin con el descenso por el gradiente
y el segundo con el filtro de Kalman.
Para determinar un rendimiento base, tambin evaluaremos la calidad
de prediccin con el predictor Iineal sin parmetros ms sencillo posible: el
qtre calcula tl[t + 11: u[t].
9. 2. Parmet ros
Estudiaremos Ia calidad de los predictores con las tres seales (todas
de i 0000 muestras) uti l i zadas por Bal tersee y Chambers (1998).2 El rendi -
miento se mide con la ganancia de predi.ccin (GP), expresada en decibelios,
que se define como:
G
:
l 0l ogr o ( e. 1)
donde Sl es la varianza estimada de Ia seal de voz ultl y ^91 es Ia varianza
esti mada de l a seal de error el tl : u1-tt[t]. La GP puede verse como una
relacin seal-ruido para el ruido introducido por ia prediccin errnea.
Las ampl i tudes de l as tres seal es pertencen al rango
10,1],
por l o que
utilizaremos Ia funcin sigmoidea logstica gL para las activaciones de las
neuronas de salida cle las RNR
en general, para todas las funciones de
activacin.
Basndonos de nuevo en los trabajos previamente citados, llevarernos a
cabo con los modelos neuronales un aprendizaje inicial por pocas sobre 200
muestras de la seal de entrada.3 El nmero de pocas utiiizado es de 200
para el descenso por el gradiente y de 5 para el FKED. Estos valores son
Ios que dieron mejores resultados en distintos experimentos preliminares:
valores mayores para el caso del FKED o menores para el descenso por el
gradiente reducan la GP en unos cuantos decibelios.
2las
seales s1, s2 y s3 estn disponibles en Ia pgina de J. Baltersee en la direccin
ht t p: / / www. ert . rr, t h- aachen. de/ Personen/ bal t ersee . ht nl .
3Esto
atena parcialmente la naturaleza en lnea cie la prediccin, pero podra ser
aceptable si su complejidad es baja. Los experimentos demostraron que esta inicializacin
tena gran influencia en las ganancias de prediccin conseguidas.
/ c 2\
| ----: I
\ . q2l
\ - e , /
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
9. PREDICCION DE SEALES DE VOZ
Entrenami ento Seal 1 Seal 2 Seal 3
LMS
RLS
8. 99
1 ? 1 l t
7. 98
11. 60
5. 82
9. 66
Cuadro 9.1: Ganancias de prediccin en decibelios para un fi.ltro FIR. de orden
Pt
: 12.
Entrenami ento Seal 1 Seal 2 Seal 3
RNRC (DG) + LN,IS
RNRC (DG) + RLS
RNRC (FI(ED) + RLS
10. 25
13. 01
14.73
9. 49
11. 80
13. 59
7. 30
o ) A
i 0. 90
Cuadro 9.2: Ganancias de prediccin en ctecibelios con una RNRC. Valores to,
rnados del trabaj o de Bal tersee y Chambers (1998).
A menos que se diga lo contrario, todas las GP mostrada^s son 1a media
de 7 inicializaciones distintas de los pesos; Ia varianza de todos los resultados
estaba por debaj o de 0.3. Los pesos i ni ci al es se tornaron al eatori amente de
una di st ri buci n en
[ -0. 2, 0. 2] .
Cuando se usa el descenso por el gradiente con la RRS
v Ia RPR, los
parmetros sorl a
:
0.3 y
?
:
0. Por otro i ado, Ios parmetros {el FKED
sobre estos model os son:
Q[ t )
: 70-2 "=-90 1g-o
R[] : 100 "--$o 3
P[0]
:
1000/
9. 3. Resul t ados
Las GP obteniclas con un filtro lineal de orden pL :
12 al usar los
al gori tmos LMS o R.LS se muestran en el cuadro 9.1. En este caso, el factor
de oi vi do para RLS es 0.998, l os el ementos de l a di agonal de l a matri z de
correl aci n i nversa de RLS se i ni ci al i zan a 100, y LMS usa una consranre
de adaptaci n cl e 0.2. Estos val ores son l os que proporci onaron
mej ores
resultados en experimentos preliminares.
Los resultados con la RNRC estn tomados de los experimentos de Bal-
tersee y Chambers (1998) y se muestran eu el cuadro 9.2. En su artcul o se
pueden encontrar detalles sobre los parmetros de entrenamiento utiiizados.
Debe destacarse que en ei citado artculo no aparece indicacin aiguna sobre
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
9.3. RESULTADOS
1 l
o
( t B
Fi gura 9.2: Gananci as de predi cci n para l a seal 1 con Ia RRS y DG (),
FKED (o), DG+LMS (l ), FKED+LMS (0)yFKED+RLS (r). Lal neaconst ant e
representa el rendimiento base, [ + 1]
: ultl.
P = 2
Fi gura 9.3: Gananci as de predi cci n para l a seal 1 con RPR y DG (D), FKED
(o), DG+LMS (), FKED+LMS (0)
v
FKED+RLS (r). La l nea constante re-
presenta el rendi mi ento base, l t + Ll
:
u[t].
resultados medios, ya que solo se muestran los resultados de un experimento
con parmetros d hoc (elegidos de forma diferente para cada seai). En
cuaiquier caso, incluso los mejores resultados obtenidos aqu con el resto
de modelos recurrentes son) como se vet, peores que los obtenidos con la
RNRC.
Los cuadros y las grficas indican el algoritmo de entrenamiento en lnea
utilizado para las RNR y, de haberios, el utilizado para los fiitros lineales,
#
t
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
9. PREDICCION DE SEALES DE VOZ
=-
P - v
Fi gura 9.4: Gananci as de precl i cci n para l a seal 2 con RRS y DCl (tl ), FKED
(o), DG+LMS (), FKED+LI\4S (0)
v
FKED-RLS (r). La l nea constante l e-
presenta el rendi mi ento base, [ + 1]
:
ul tl .
separados por ulr signo de suma. EI orclen del filtro lineal es en todos los
casos p :
l l .
Los resultados al usar los predictores basados en RRS y RPR con n,
:
g
se muestran en lrs figuras de ia 9.2 a la 9.7 para cliferentes valores del
orclen de entrada
3r.
En estos casos los parmetros son 0.2 para lr constante
cle aclaptacin cle LNIS, 1 para el factor de olvicio de RLS (es clecir, no
se consiclera el factor de olvido: los valores por deba.jo de 1 hacan que
ei sistema se volviera inestable) y 1000 para los eieinentos iliiciaies de las
matri ces de correl aci n de RLS.
EI val or nX: 5 y l os rdees de eut radap: 1, 2, 3 se el i gi eron cl e rnodo
que e1 nimero de parmetros a aprender fuera comparable con los usados
por Bal tersee y Charnbers (1998), que consi deraron RNRC con unos 35 pesos
ajustables.a En cnalquier caso. las RRS y RPR colt un nmero cliferente de
llellronas de estaclo dieron resultados que no variaban significativarnente
con respecto a los presentaclos para
'nX
:
5; por ejerplo, rloil n
:
l
los resultaclos con descenso por ei gracliente son prcticarnente los mismos.
mientras que ios del FKED estn 1 dB por debajo; con 7x
:
10, ei descenscr
por el gradiente vuelve a dar GP similares, mientras que el I'KED las rnejora
muy poco (entre 0 y 0.5 dB, segn el model o de red y l a seal concreta).
*El
nrnero de pesos, incluiclos los sesgos. de una RRS de orden p con una nica
sal i da es (p] -nx
*2)ny * 1; en el caso de una RPR de orden p con una ni ca sal i da es
( p * n x + 2 ) n + p + l .
1
1 0
( n R
E '
7
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
9.3. RESULTADOS
l 1
P = 2
Fi gura 9.5: Gananci as de predi cci n para l a seal 2 con RPR y DG (n), FKED
(o), DG+LMS (), FKED+LMS (0) y FKED+RLS (r). La l nea constante re-
presenta el rendirniento base, [ + 1]
:
ultl.
o o o
P = 2
Fi gura 9.6: Gananci as de predi cci n para l a seal 3 con RRS y DG (D), FKED
(o), DG+LMS (^), FKED+LMS (0)
v
FKED+RLS (r). La Inea constante re-
presenta el rendi mi ento base, [ + 1]
:
u[].
Finalmente, las GP de un filtro simple de la forma [ + 1]
:
u[] se
muestran como lneas constantes en las figuras 9.2 a9.7. Este es el modo ms
sencillo de predecir la siguiente secuencia y se muestra aqu como referencia
base.
a
o -
7
(n
9 6
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
9. PREDICCION DE SEAIES DE VOZ
o
5
tr-*
9 = ?
Fi gura 9.7: Gananci as de predi cci n para l a, sel i al 3
(o), DG+LMS (), FKED+LN S (0)
v
FKED+RLS
presenta el reridimiento llase, l + 1l
:
ultl
^ - e
P - v
con RPR y DG (n). FKED
(l ). La l nea coustanre re-
9. 4. Di scusi n
De entre ios tres modelos recurrentes estr-rdiados, solo la RNRC entrenada
con el FKED y seguicla por un filtro lineal entrenado con RLS supera, clrrr.-
mente (entre 1 dB y 2 dB por enciura) la GP cle un filtro iineal cle orclen 12
entrenado con RLS. El resto de configuraciones neuronales (en cascada o no)
se comportan mucho peor que un sencillo filtro FIR con lnenos parrnetros
entrenado con RLS.
Al usar aisladamente ia RRS o Ia RPR, el FKED procluce resr-iltados
mucho mejores que los del algoritmo de descenso por el gradiente: ei FKED
permi te obtener GP superi ores entre 1 dB y 3 dB. Los resul tacl os con
ambos modelos y el FI{ED confiruran de forma consistente anteriores estu-
di os (Bi rgmei er 1996) cl ue si tuaban en unos 3 dB l a rnej ora cl e l os predi ctores
no l i neal es sobre l os l i neal es entrenados con LMS. Si n ernbargo, ni nguno cl e
los algoritrnos cle entrenamiento permite arcanzar las GP de un filtro FiR
enl renado con RLS.
Curiosamente, al situar en cascada predictores basados en RRS r: RpR
y predi ctores i i neal es. l os resul tados son peores que cuando se ui i l i zan l os
predictores no lineales (RRS y RPR) aisladanrenle. Los resultados cle estas
confi.guraciones en cascada son rnuy negativos al cornpararlos con ia refe-
renci a base (un predi ctor que se l i rni ta a reproduci r Ia muestra actual ); cl e
hecho, para las seales 2 y 3 incluso son peores.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
9.4. DISCUSION
En resumen, se est produciendo la siguiente situacin: podemos con-
sidera que tenemos dos tipos de predictores no lineales, P (una RNRC) y
,S (una RRS o una RPR, ambas con comportamientos similares), y que, de
manera opcional, alimentamos un predictor lineal -L con sus saiidas. Sea
Gp, Gs las GP de los predictores no lineaies por separado, GT la GP del
predictor }ineal, y Gpr, Gs Ias GP del modelo hbrido en cascada- A partir
de Ios resultados anteriores
podemos concluir:s
Gpt
Gpr
Gst
Gpt
Gst
Gg
Gp
n^
v J
G
l i
(e.2)
(e.3)
( q
L \
( e. 5)
( e. 6)
De (9.5) y (9.6), podemos concl ui r que P fi l tra adecuadamente l a seal
para su posterior tratamiento lineal cancelando al menos localmente las no
linealidacies, mientras que, por el contrario, S parece amplificar estas no
linealidades y clegradar el rendimiento dei filtro lineal. Este aspecto parece
i mportante y merece un estudi o ms detal l ado.
De (9.3) y (9.4) deducimos que ninguna de Ias configuraciones en cascada
es adecuada para la RRS o la RPR, mientras que es ms que recomendable
para l a RNRC. Las ecuaci ones (9.2) y (9 4) afi rman l a superi ori dad de l a
RNRC en cascada sobre los otros modelos recurrentes.
Al comparar l a RPR y l a RRS, esta da GP l i geramente superi ores. Una
explicacin posible es que ai usar la RRS se necesita usar correctamente
la informacin del estado, mientras que con Ia RPR podemos ignorar esta
informacin y concentrarnos exclusivarnente en las conexiones directas entre
las capas de entrada y salida. La dependencia positiva del orden de entrada p
es evidente al usar el FKED, pero es rnenos obvia en el caso del descenso
por el gradiente (de hecho, en aigunos casos) al incrementar p se reduce Ia
correspondi ente GP).
Finalmente, en experimentos adicionales, los predictores basados en Ia
RRS y la RPR fueron introclucidos en ul1 sistema de codificacin de voz real
que segua el estndar G721 relativo a la modulacin adaptativa diferencial
de prrlsos (ADPCM, adaptiue di,fferenti,al pulse code modulation) (Benvenuto
et al. 1987). Reemplazatnos el predictor iiR del estndar G721- (dos polos
y seis ceros) con RNR y RPR, sin cambiar el cuantizador adaptativo del
estndar. Los nuevos resultados confirman los anteriores: en este caso, solo
sla
ecuacin (9.3) debe de ser cierta, ya que Baltersee y Chambers no muestran resul-
tados individrtales para 1a RNRC.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
9. PREDICCION DE SENALES DE VOZ
el FKED obtiene tasas de compresin similares a las del filtro iIR original
y el descenso por el gradiente da ganancias mucho rns bajas.
Este trabajo constata, de nuevo, la notable superioridad del algoritmo
de entrenamiento basado en el FKED sobre el descenso por el gradiente.
Adems, la seal predicha por RRS y RPR presenta un carcter no lineal
ms marcado que el de la propia seal original, Io que hace inviable un
predictor lineal posterior en lrna configuracin en cascacla. El renclimientcr
de la RNRC, sin embargo) es me.jorado por el predictor lineal.
Algunos trabajos anteriores detectaron severas lirnilaciones (Gers et al.
2001; Hailas y Dorffner 1998) de las RNR al ser aplic:adas a Lareas cle predic-
cin nurnrica no lineales. Los hallazgos de este captulo sugieren similaes
concl usi ones.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
Volver al ndice/Tornar a l'ndex
10. CONCLUSIONES Y PERSPECTIVA
A modo de clausura,
Ias contribuciones de
investigaciones.
se presentan ahora las principales conclusiones,
Ia tesis, y algunas ideas para clesarroliar futuras
10. 1. Concl usi ones
En esta tesis se han estudiado diversas aplicaciones de las redes neu-
ronaies recurrentes (RNR, captulo 2) de tiempo discreto usadas en modo
predictivo. Como se vio al plantear inicialmente los problemas a esolver
(captulo 1), una estimacin adecuad.a del siguiente elemento de una secuel]-
cia temporal puede ser irtil para comprimir secuencias simblicas, inferir
)enguajes, desambiguar palabras homgrafas o comprirnir seales de voz di-
gitalizada, tareas cuyo estudio se ha abordado en los captulos 6, 7, B y 9,
respectivamente.
Se ha podido comprobar que RNR como la red recurrente simple (RRS) o
la red parcialmente recurrente (RPR) no tienen tanta memoria como podra
presumirse en primera instancia (captulo 3). Aunque trabajan adecua-
damente con lenguajes sencillos y altamente estructurados (especialmente
Ienguajes regulares), surgen diversos problemas a la hora de considerar
fuentes secuenciales ms elaboradas. As, las RNR estudiadas no logran
capturar acertadamente la dinmica de los textos en lenguaje natural y son
claramente superadas por modelos ms sencillos como los basados en n-
gramas (captulo 6). Por otro lado, Ios resultados obtenidos con secuencias
numricas correspondientes a seales de voz digitalizada son poco alentado-
res (captulo 9): las ganancias de prediccin de Ias redes recurrentes clasicas
no superan las obtenidas con senciilos filtros Iineales entrenados mediante el
algoritrno de mnirnos cuadrados recursivo (RLS).
Estos experimentos se llevaron a cabo considerando dos algoritmos de
entrenamiento: el sencillo descenso por el gradiente y el ms complejo filtro
de Kalman extendido desacoplado (FKED). Aunque los problemas consta-
tados se siguen produciendo al utilizar el FKED, este saca mayor provecho
de la capacidad mernorstica terica de Ias RNR y supera ampliamente en
todos ios casos estudiados los resultados del descenso por el gradiente.
135
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
10. CONCLUSIONES Y PE|TSPECTIVA
En cualquier caso, debe tenerse en cuenta que los experimentos clesarro-
lla,dos en los captulos 6 y 9 consideran Lln modo de operacir5n completamente
en lnea (captulo 4), es decir, las salidas de la, RNR son utilizadas inme-
cliatamente y la red no tiene opcin de reconsiderar ninguna de eilas. La
prediccin en lner es' por ta,nto, ms exigente que Ia realizada fuera de
lnea, pero este es el escenario preclictivo a estudio.
Por otro lado, un problema aclicional surge cllanclo la estimacin del
siguiente elemento de ia secuencia depende del valor de un elemento relativa-
rnente le.jano en el tiempo. Estas depenclecias a largo plazo (captulo 4) sue-
len ser un obstculo insalvable para la rnayora de las RNR. Este problema
ruede
estudi arse cl escl e l a perspecti va cl el gradi ente evanescente (captul o 4),
fenmeno que afecta en mayor o rrlenor medida a todos los algoritrnos de
errtrenanriento ba.saclos en el clculo de la derivacla de Ia, firncin cle errol
)'
que les irnpide r.nzrnejar con. correccirr este tipo <ic; dependencias. Para
superar este problema, recienternente se ha propr"testo el modelo nenrona.l cle
memorias a corio
1r
largo plazo (captulo 3), conociclo como red LSTIVI.
En esta tesis se ha aplicado la red LSTM a Ia inferencia mediante pre-r
cliccin de clos tipos c1e lenguajes, ambos con dependencias a iargo plazo: un
ienguaje reglrlar y un lenguaje sensible al contexbo. Las RNII converrcionales
no puedr:n manejer.r'las depenclencias a largo plazo presentes en estas seclren-
cirs. Sin ernbargo, en algunos trabajos prei'ios, varios autores comprobaron
que la red LSTN{ s poda hac;erlo. En estr, tesis he llevado an mrs lejos
(captul o 7) esta capaci dad al combi nar l a recl LSTM con el !-KED. Con
este algoritrno de entrenamiento se pueden superar dependen.cias separadas
por varios tniles cle smbolos, valoi"es nlrnca alcanzados anteriormr:nte ccn
LSTN'I. Estos resultados corroboran las afirmaciones hechas rns arriba: el
FKED combate eficazmente el efer.;to cle amnesia de las RNR; el mayor coste
temporal del FI(ED con respecto al liabitual algoritmo de desceriso por el
gracliente se cornpensa muchas veces con una velocidacl cle aprendizaje su-
peri or. Adems, l a sol uci n desarrol l ada por l a red LSTM con el FKED es
i gual a l a que se obti ene con el al gori tmo de descenso por el gradi ente, pese a
Ias diferencias notables existentes entre ambos algoritmos de entrenamiento.
Finalmente, se ha usado de una fbrrna original la informacin secuen-
cial alntacenacla en el estado cle una RRS para desambigrrar las paiabras
homgrafas cle una oracin (captulo B). Los resultados son similares a los
proporcionados por un modelo oculio de N{arkov (N{ONI), ei nrodelo de refe-
renci a habi tual en estos casos (apndi ce A), con i gual ni rmero cl e parmetros.
Los resultados son tambin si.milares a los de otros enfoques nellrona,les que.
sin embargo, necesitan textos completamente etiquetados para el eirtrena-
nriento, necesida,cl superada con el plauteamietto aqu plopuesto.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
10.2. CONTRIBUCIONES DE ESTA TESIS
IO.2. Contribuciones de esta tesis
Las principales aportaciones de esta tesis son las siguientes:
1. Los esultados obtenidos con el FKED en las distintas tareas predic-
tivas abordadas en la tesis confirman los de otros trabajos: el FKED
supera en muchos aspectos al descenso por el gradiente como algo-
ritmo de entrenamiento en lnea de RNR. Todo trabajo con RNR,
especialmente aquellos que estudian procesos que se desarrollan en
Inea, debera considerar el FKED como algoritmo de entrenamiento
en los experimentos.
2. En particular, el FKED ha llevado un poco ms all la capacidad de
la red LSTM para manejar adecuadamente Ias dependencias a lar-
go plazo. Si bien los resultados previos sobre ei lenguaje sensible al
contexto o,nbncn obtenidos mediante el descenso por el gracliente supe-
raban ampliamente los de otras RNR, el FKED supera a ambas tanto
en velocidad de aprendizaje como en capacidad de generalizacin:
so-
l o con observar secuenci as del l enguaj e con ??
[1,10],
se consi guen
generalizaciones para valores de n por encima de 1000.
3. Se ha apl i cado l a red LSTM por pri mera vez a una tarea de predi cci n
completamente en lnea. Los trabajos anteriores haban utilizado, co-
mo mucho, un entlenamiento en lnea por secuencias (captulo 4) . La
red LSTM es adecuada para el entrenamiento en lnea puro: la aciicin
de la compuerta cle olvido permite que el estado de las celdas de Ia red
no aurnente sin control, por muy larga que sea la secuencia procesada
de forma continua,
4. Aunque no es la primera vez que una RNR se aplica a la desambi-
guacin categorial, s que es la primeravez que el problema se plantea
desde un punto de vista predictivo. Es ms, se trata del primr enfoque
neuronal (recurrente o no) que no necesita un corpus completamente
etiquetado para el entrenamiento, aspecto este que Io acerca ms a
modelos como los MOM.
5. Las alternativas recurrentes usadas con anterioridad para realizar la
prediccin sobre secuencias de voz se basaban en Ia red neuronal recu-
rrente en cascada (RNRC), un modelo especializado para este tipo de
tarea (captulo 3). En esta tesis se ha estudiado si modelos de RNR
ms sencillos son capaces de mantener el rendimiento de la RNRC. Los
resultados, sin embargo, son poco alentadores y remarcan las conclu-
siones de otros trabajos que han constatado la superioridad de modelos
simples basados en una ventana temporal de entradas sobre las RNR
a la hora de procesar algunas secuencias numricas.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
10. CONCLUSIONES Y PERSPECTIVA
10. 3. Sugerenci as para prxi mos t rabaj os
Algunos aspectos que merecen un estudio m.s detallaclo en prximos
trabajos son los siguientes:
1. Los valores de los parmetros del FKED usados en los experimentos
se determinaron a partir de una serie de experimentos preliminares.
Para paliar esta bsqueda emprica de los valores ms adecuados, debe
realizarse un estudio sistemtico sobre ia influencia cle los distintos
parrnetros del FKED en el rendimiento del algoritmo.
En el captul o 6 se ha estudi ado Ia predi cci u en l nea sobre secuenci as
generadas por mqui nas de estados fi ni tos. Adems, en el aparta-
do 5.1.6 se ha vi sto Ias pri nci pal es di ferenci as del enfoque al l segui cl o
con la inferencia gramaticai clsica con RNR.
Hay varios mtodos propuestos (Giles et al. 1992) para extraei mo-
delos de estados finitos a partir del conocimiento simblico adquirido
por una RNR cuando ha sido entrenada para inferir lenguajes regu-
iares mediante ese enfoque clsico. Debera estudiarse si todava es
posible extraer algn modelo de estaclos finitos cuando el aprendizaje
se reaiiza en inea y si es comparable al extraclo fuera de lnea. Aunque
Ia convergencia de la RNR a las probabilidades reales parece difcil cle
demostrar en este caso, puede estudia,rse empricamente si Ia presen-
cia reiterada de una subsecuencia hace que el estaclo de la red alcance
un punto fijo tras procesar dicha subsecuencia o) al merlos) urra re-
gin del espacio de estados desde la que se obtengan salidas similares.
La separacin en regiones del espacio de estados puede realizarse, por
ejemplo, mediante cuantizacin vectorial sobre la secuencia cle activa-
ciones del estado (eransky y Berlu5kov 2001). Un estudio terico
debera determinar si la salida de Ia red puede todava considerarse en
el caso de la prediccin en lnea como una buena aproximacin a las
probabiliclades reales.
El proceso de extraci n de un model o de estados fi ni tos di scuti do en
el punto anterior tambin debera aplicarse al modelo aprendido en el
caso de Ia desambiguacin categorial (captulo B) con vistas a formular
el conj uuto de regl as de eti quetado aprendi das por el si stema.
Tambin debe evaluarse la influencia del tamao clel corpus de entre-
namiento en el rendirniento del desambiguador categorial, as como la
adecuacin de Ia segunda, tercera, etc. neurona de salicla con mayor
activacin:
corresponde
a una categora vlida para la palabra'/
En cuanto a Ia prediccin de secuencias textuales, se puede estudiar
el rendimiento de la red LSTM aplicada a esta tarea para cornprobar
2.
J .
A
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
10.3. SUGERENCIAS PARA PROXIMOS TRABAJOS
si supera los resultados de las RNR tradicionales, as como analizar Ia
solucin alcanzada por el modelo.
En cuanto a la inferencia del lenguaje a'bncn con Ia red LSTM, debera
considerarse otros lenguajes sensibles al contexto, adems de tener en
cuenta tambin muestras negativas.
No hay trabajos que intenten extraer el modelo (un autmata finito o
un autmata de pila, por ejemplo) aprendido por la red LSTM cuan-
do se aplica a la infeencia de lenguajes. Esta labor debe llevarse a
cabo, adems de realizar un estudio profundo sobre las clases de len-
guajes aprendibles con LSTM, una caracterizacin general mucho ms
importante que el hecho de que pueda aprender uno u otro lenguaje
determi nado.
El rendimiento de las redes LSTM a la hora de manejar dependencias
a Iargo plazo puecle compararse con otras alternativas como los MOM
j errqui cos (Fi ne et al . 1998).
EI modelo LSTM intenta conseguir un flujo de error constante a travs
de los carruseles de error constante (CEC) para superar el problema
del gradiente evanescente y gestionar adecuadamente las dependencias
a largo plazo (captulo 4). A ello contribuyen tanto la configuracin
topolgica del modelo como la forma de calcular las derivadas parciales
de la funcin de error.
Un estudio interesante es determinar la importancia de estas derivadas
a la hora de considerar las dependelcias a largo pIazo. Para ello se
puede aplicar un algoritmo como Alopex (vase el apartado 4.10), que
no se basa en el gradiente, y evaluar los resultados obtenidos.
Tambin puecle ser interesante estudiar si el hecho de que un bloque de
memoria de Ia red LSTM pueda tener ms de una celda aporta alguna
ventaja al modelo. Aparentemente, al compartir todas las celdas de
un bloque de memoria las mismas compuertas, las celdas deberan
terminar adoptando un rol similar y resultar incluso redundantes.
Recientemente se han propuesto otras alternativas distintas al filtro
de Kalman extendido (FKE) para realizar el filtrado de sistemas no
lineales (Julier y Uhhnann 1997; Merwe et al. 2000) que parecen mejo-
rar los resultados del FKE. Puede considerarse su aplicacin a alsunas
de las tareas consideradas en esta tesis.
6.
7.
B.
9.
10.
i 1.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
Volver al ndice/Tornar a l'ndex
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
A. MODELOS DE MARKOV PARA EL ETIQUETADO
CATEGORIAL
En este apndice se muestra Ia forma de ajustar los parametros de un
modelo oculto de Markov de forma que se pueda realizar la desambi-
guacin categorial cle las palabras de una oracin. Los modelos ocultos
de Markov se usan en los experimentos del captulo 8.
Un modelo oculto de Markov (MOM) (Rabiner 1989) es un sistema
dinmico de tiempo discreto capaz de emitir una secuencia de salidas ob-
servables. Un IVIOM se define colno un modelo de estados de la forma
. \ : (S, V, A, B, r), donde S es el conj unt o de est ados, V es el conj unt o de
salidas observables, A son las probabilidades de transicin entre estados,
B son ias probabilidades de que cada estado emita los posibles elementos
observables y r define las probabilidades de que el sistema cc-mience desde
cada uno de los estados de ,S. El sistema emite una salida cada vez que llega
a un estado tras realizar una transicin.
Las aplicaciones de los NIOM son mltiples. Si logramos descubrir el
MOM ms verosmil para una determinada secuencia de observaciones, ten-
dremos un modelo del proceso subyacente; de esto se encargan algoritrnos
como el de Baum y Welch, que discutiremos a continuacin. Por otro la-
do, es posible obtener la probabilidad bajo un ViOM determinado de una
secuencia de observaciones y, 1o que muchas veces es an ms importante,
encontrar la secuencia de estados que produce el camino de mxima verosi-
militud para una secuencia de observaciones dada. La secuencia de estados
puede interpretarse corno una explicacin de Ia observacin si cada estado
tiene un significado diferenciado; para encontrarla existen algoritmos como
el de Vi terbi .
En este apndice se presenta en detalle,l para paliar Ia ausencia de des-
cripciones adecuadas en Ia bibliografa, una adaptacin del algoritmo de
lLos
contenidos de este apndice estn basados en una comunicacin personal de los
Drs. Rafael C. Carrasco v Nlikel L. Forcada.
1 4 1
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
A. MODELOS DE MARKOV PARA EL ETIOUETADO CATEGORIAL
Baum y Welch que facilita la desambiguacin categorial y se cla una bre-
ve
justificacin
matemtica de la misma siguiendo la notacin de Rabiner
( 1e8e).
4.1. Aplicacin al etiquetado categorial
4. 1. 1. Si mpl i f i caci ones
Sea el model o ocul to de Markov I
: (S, V, A, B,n.) con estados S
:
{"r,
"2, . .
.
,
sN}, sal i cl as V
:
{rt , 1)2t . . . , ' uNI },
probabi l i dades de t ransi ci n
A
:
{a}
(i , i
: 1. . .
, / ),
probabi l i dades de erni si n 3
:
{b(' u)}
(: :
1, . . . , N, k
:
1, . . . AI ) y pr obabi l i dacl es i ni ci al es n
:
{ n }
( i , :
1, . . . , / ) .
Cuando este tipo de modelos se usan para etiquetar un texto poclernos slr-
poner que cada palabra ha sido substituicla (usando un cliccionario o lxico)
por Ia clase cle arnbigedad o conjunto cle eticluetas que aclmite esa pala-
bra. En esle caso, cada estado del NON,I se corlesponde con una eticlneta
lxica, y el conjr-rnto de salidas est formado pol todas las posibles clases
de ambi gedad (l os el ementos de I/ son subconj untos de,9). P<-i r el l o, usa-
ielnos indistintamente las nociones de pulabra y clase de ambgedad para
referirnos a las salidas del modelo oculto.
Adems, poclemos hacer las siguientes suposiciones:
Que
la secuencia de texto O1 . . . 07 que qlteremos analiza,r sienrpre vie-
ne precedida cle urra palabra no ambigua Oo
:
{I}.
Parece razonable
que -I sea Ia eti queta que representa el fi nal de oraci n.2
Que
el texto acaba en una palabra no ambigua Or
:
{tr}.
Aqu es
si cabe ms razonable tomar F como el punto final de ias oraciones,
dado que normalmente tanto los textos de entrenaniento como los de
prueba contienen frases completas.
Que
toda clase de ambigedad contiene, al menos, la etiqueta correcta.
Por ejemplo, desde el estado asociado a XVB no se puecle generar una
cl ase
{XJ-l ,
X//}. Consi gui entemente, una cl ase no ambi gua
{X}
sol o puede ser generacl a por el estado correspondi ente X.
4.1.2. Probabi l i dades haci a adel ante
El hecho de aadir Ia clase no ambigua Oo
:
{I}
evita que zi- sB simple-
mente 1 para l a categora de Ia pri mera pal abra del corpus de entrenami ento
' Adems,
as el etiquetado de las palabras de una oracin determinada no depende de
si la oracin se encuentra al principio del texto o en cuaiquier otra parte del nrismo.
2.
. t .
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
A.1. APLICACION AL ETIQUETADO CATEGORIAL
y cero para las dems. Esto no parece adecuado: primero, porque otro texto
tambin correcto podra empezar por otra categora; y segundo, porque no
tendra mucho sentido realizar un entrenamiento, ya que se puede fijar el
valor de zr directamente.
Teni endo en cuenta que n-r: 1,"u
V
A({1})
:
d1,"0, donde es Ia del ta
de Kronecker definida en (4.3), podemos rescribir las ecuaciones (19) y (20)
de Rabiner (1989) empezando en :
0 como sigue:
a(z)
:
, ", (A. 1)
y , par a t : L, . . . , T,
/
\-\ /
a( i ) :
" \ " ' - t ( i )
" ob( Ot )
( A. 2)
De esta manera podemos prescindir de las probabilidades iniciales. Esta
forma es, aderns, ms semejante a la de las probabilidades hacia atrs del
apartado siguiente.
4.1.3. Probabi l i dades haci a atrs
De forma anloga, las variables hacia atrs, correspondientes a las ecua-
ci ones
Q V
(25) de Rabi ner (1989), son:
?r ( i )
: 1
( A. 3)
y? par a t : I , . . .
, 7,
N
/ . \ S-
/r-t(i )
:
>_a
b(O)
B(j )
(A.4)
j =I
4. 1. 4. Ot ras probabi l i dades
La probabi l i dad cl e una secuenci a O
-
Oy.. . 07 se puede cal cul ar a
a partir de las probabiliclades hacia adelante y hacia atrs de la siguiente
forma:
N
P(ol ))
:t
a(i )B(i .) (A.5)
' i =I
donde puede el egi rse l i brement e en
{0, 1, . . . , 7}.
En part i cul ar,
P(ol A)
: po(I) :
ar(F) (4..6)
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
A. MODELOS DE MARKOV PARA EL ETIOUETADO CATEGORIAL
La segunda igualdad es consecuencia de la hiptesis 2 y de que podamos
escri bi r di rect ament e ay(i ): 0 si i + F si empre que 07
:
{F}.
Ei nmero esperado cle veces que se pasa por ei estado i al generar la
secuencia O se clefine como:
4 1
r ' :
I ?( t )
( A. 7)
: 0
donde (Rabi ner 1989, ec. 27):
^ /^\ -
"' (i )!-O
/^ R\
1t\z
:7oi i t
\r.oi
Por tanto,
.
T- l
n . _
t
\ -
/ . \ , 1 / - \
r ,
-
p( ol ) 1 z- at l i ) t 3t l i )
( A 9)
\ | /
f - a l
Para un texto completo (que empieza y acaba por final cle frase. esto
es r: F) se curnpl e que a(; )po(z)
:
ar1. )7r(i . ): P(ol A) por 1o qr: e,
trivialmente, poclernos desplazar Ia suma temporal como sigue:
T_. T T
Y, "' (n)B' (i )
: t
c(i )BQ) (A. 10)
: 0 t : l
Este resultado (que nos resultar ti1 ms aclelante) puede entenderse de
forma intuitiva: el estado final de frase se visita una vez al principio dei texto
y otra al final; como solo tenemos que contar una, da igual cul contemos.
Esto hace que podamos cambiar algunas de las sumas temporales de 1 a ?
que aparecen en Rabi ner (1989) por sumas de 0 a T
-
I.
A continuacin definimos, por un lado, el nmero esperado de veces que
el modelo pasa clel estado i al estado
j,
T- 1
Eo,
:
I
r(i ,,
j )
(A.11)
: 0
donde (Rabi ner 1989, ec. 37):
F, ( i i \ - at ( i ) a b ( Ot +t ) At +t ( i ) i A 1e\
\ \ , ' J l
-
P ( Ol ^ )
\ 1 \ . r 4 l
As,
4 1
1 :--
?. . -
^
\ ' ^ , ( z) a, b ( Or +t ) l 3r +j )
( A. 13) - Lr
P( ol ^)
, : t - o* '
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
A.1. APLICACION AL ETIQIJETADO CATEGORIAL
Por otro l ado,
por ei estado
j
definimos el nmero esperado de veces que
mientras se observa el smbolo uk como:
el modelo pasa
donde:
Es deci r,
Para Ia depuracin
T 1
- \ -
Q; r : ) t o l l . k l
f - n
pi , k) :
ot(j )0t(j )5"
, ot
P( ol ^)
f . -
\ - ,
-
\ - c
, -
/ _ . y i l r : _ - i j
k: l j - _r
wz 1
-
-
L i
T 1
; : =- j - \ - * r ( r ) Br ( j ) 6ur , o, ( A. 16) -
r f r
P( Ol ^\
/ _
-
\ r / + _ n
del progretma puede ser iil tener en cuenta que:
(4. 14)
( 4. 15)
(A. . 17)
(4. 18)
El cl cul o de f,
Vt y n requi ere real i zar dos pasadas sobre el texto:
una hacia adelante y otra hacia atrs. En la primera se calculan todos los
at(i ) y l a verosi mi l i tud del texto P(Ol .\) y en l a segunda se cal cul an l , Ej
y bp i ncremental mente, por l o que basta con ai macenar
B1(j )
en cada
iteracin.
A.1.5. Nuevos parmetros
Con las suposiciones anteriores, obtenernos las siguientes frmulas de
Baum y Welch para la actualizacin de los parrnetros:
J
, 5. '
( k) :
#
( A 1e)
donde se ha hecho uso de Ia adicin de la clase de ambigedad inicial para
clue los denominadores sean iguales, en contraste con las ecuaciones ( 0b) y
(40c) de Rabiner (1989), en las que estos denominadores son diferentes.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
A. MODELOS DE MARKOV PARA EL ETIQUETADO CATEGORIAL
A. l -. 6. Segment aci n
Cada vez que en el texto que se est etiquetando aparece lrna palabra no
ambigua, el modelo de Markov oculto solo puede estar en el estado corres-
pondi ente a su eti queta (hi ptesi s 3). Esto permi te reorgani zar el cl cul o
de manera muy eficiente como ya se sugiere en el trabajo de Cutting et al.
(1992), ya que no es preci so mantener en memori a l odo el texto si no sol o
la porcin de texto entre dos categoras no arnbiguas (ambas irrclusive) y
tratarla como si fuese un texto completo.
Supongamos que el texto est segmentado en G segmentos o grllpos.
Caci a segrnento g empi eza en
:
i , y terrni na en
:
fs,
con
fs
:
i s+t y
Ts
:
f g
-
is, y tiene una palabrt-r, inicial que pertenece a la clase no ambigua
{1n},
r-rna pal erbra fi nal que pel tenece a l a cl ase no ambi guu
{Fn},
y cerc)
o ms palabras, toclas ambigues, situadas entre ellas. Esbos segtnentos son
normal mente bastante cortos.
Cada uno de l os val ores esperados ,' -, @n y f se pueden cal cul ar como
una suma para todos i os segurentos:
"xt1
C
-
\- r(s)
- /
* i j
9: 1
G
- t - * l n l
( D . r
: \
( D Y '
^
J N
/ J
' J k
^ - 1
( 4. 20)
( 4. 21)
(/^22)
y el c,lculo para cada segmento se puede realizar corno si se tratase de un
texto i ndependi ente, usando soi o i nformaci n Iocrl al mi srno.
Descri bi rernos con al gn ci etai l e el cl cul c Ae el f).3 Bs senci l l o courpro-
bar aue:
an( i )
:
P( Ot . . On) 6, t n ( 4. 23)
L;
.-
| (s)
L 1 ,
- -
/
r ;
y que:
P( Ot . . . Or )
:
P(Ot O,)0,@) ( 4. 24)
3El
clculo d" ji) y fln)
"s
completamente anlogo.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
A.1. APLICACION AL ETIQIJETADO CATEGORIAL
ecuacin completamente anloga a la A.13 excepto por el detalle de que P0
no es P(O
o
.. .On), porque en general Is
/
Ft, si no:
Si def i ni mos, par a i , i
: 7.
. . y' ,
se sigue que:
ol-n,Q):ffi
of-n,U):
#];
T" - l
El )
:
: t a2i .\a;b(o4+,+)0l aU) -xJ
Pg
l :
--r
r- t
PG)
:;##:osrn(Fs)
a::)
:
*E
o' g"(i)
P1
(i) 6,,",,.g
+".
(A. 25)
(A.26)
(4. 27)
t A r q)
(A. 30)
( A. 31)
(4. 34)
(A. 28)
Las nuevas probabilidades hacia adelante ae y Ias variables hacia atrrs
Be
de cada grupo se definen recursivarnente de manera similar a las del texto
completo:
,'s,(i,)
:
it
-*-,,,
o,o]
rnpo,*"
Lj:r I
aeoQ)
:
6'n
Pn
(i)
:
L
"n
gn
*r(j)b
(oo,+,+)
, i : 1
B' r " ( q: 7
vj e
[ 1, N]
( A. 32)
Las ecuaci ones (A.9) y (A.16) se convi erten ani ogamente en:
' r
_1
--lo)
1
i.-
f ) " : * ) as" ( i . ) Bs" ( i . )
( 4. 33)
- r v u
Lo dicho al final del epgrafe A.1.4 sobre la implementacin del clculo
de l, v y Qnse puede adaptar fcilmente para el clculo ae lje), =11'
t
ol?
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
A. MODELOS DE MARKOV PAHA EL ETIQUETADO CATEGORIAL
A.1,.7. Ini ci al i zaci n
El algoritmo de Baum y Welch se puede inicializar, en
conocimiento, con los siguierrtes valores:
ausencia cle todo
(4. 35)
( r
b, ( k\ : l
N
sr sj ?' ' &
J \ )
| .
0 s i no
( A' 36)
donde N es el nrnero de clases de ambigiiedad en las que puede manifes-
tarse Ia eti queta s, es deci r, card{' u : s u}.
Esta inicializacn es la utilizada en los experimentos dei captr.rlo B.
1
w L 1
-
- l v
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
Volver al ndice/Tornar a l'ndex
a
dltl
U; ;
b^
U
trl+1
" L" J
^l
1
gC
gL
gM
9r
9X
9v
q 7
t < t +t
) ;
nc
NNI
nM
nu
nx
Norcp DE sMBoLos TMpoHTANTES
Tasa de aprendizaje
Salida deseada de la RNR en el instante t .
Funcn delta de Kronecker
Seal de error retropropagada de BPTT
Seal de error de BPTT
Error cle Ia RNR
Momento
Activacin de la compuerta cle salida del z-simo blo-
que de memori a de l a red LSTM
Funcin de activacin de las compuertas de la red
4L
o
J
40
40
o
4I
28
LSTM
28
Funcin logstica
i1
Funcin de activacin a la salicla de una celda de la
red LSTM
28
Funcin tangente hiperblica 12
Funcin de siguiente estado de una RNR . 15
Funcin de salida de una RNR . 1b
Funcin de activacin a Ia entrada de una celda de la
red LSTM
28
Matriz de ganancia del FK 49
Activacin de la compuerta de olvido del i-simo blo-
que de memoria de la red LSTM 30
Nrmero de cel das de memori a de Ia red LSTM .... 26
Nmero de bl oques de memori a de l a red LSTM ... 26
Nmero de mdulos de la RNRC 30
Nmero de entradas de la RNR 15
Nmero de neuronas de estado de la RNR 15
149
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
INDICE DE SIMBOLOS IMPORTANTES
nY
p t + l
,
t"l
Q
qI
a
altl
Rltl
ult)
rnltl
*ltl
+
sl tl
- l
z ^
Nrnero de neuronas de salida de la RNR
Matriz de covarianza del error a posteriori clel FK
Activacin de la, compuerta de entrada del -simo
bloque de mernoria de la recl LSTM
Estado inicial de una FSEF
Coni unto de estados cl e una FSEF
Matriz de covarianza del error de la ecuacin del
pro-
ceso dei FK . .
Matriz de covirianza d.el erlor de medicin ctel FK .
Entrada de la RNR en el instante . .
Estado del sistema en el FI(
Estaclo de la RNR en el instante
Estado i nterno dei CEC de l a z-si rna cel da del z-
simo bloque ile memoria cle la red LSTN'I
Sal i cl a de l a RNR en el i nstante
15
49
27
84
B4
48
4B
15
4B
15
28
Clula de retardo 20
,
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
Volver al ndice/Tornar a l'ndex
BPTT
CEC
DG
FIR
FK
F'KE
FKED
FKEG
FSEF'
GP
IIR
LMS
LSTM
VIOM
NARX
RC
RLS
RNR
RNRC
RPR
RRS
RTR
RTRL
TDNN
INDICE DE ABREVIATURAS
Retropropagacin a travs del tiempo 44
Car r usel de er r or const ant e . . . . . . . . . . . 25
Algoritrno de descenso por el gradiente 126
Respuesta finita al impulso 24
Filtro de Kalman lineal . 48
Filtro de Kalman extendido 50
Fi l tro de Kal man extendi do desacopl ado ....
Filtro de Kalman extendido global
Fuente secuencial de estados finitos
Gananci a de predi cci n . . .
Respuesta infinita al impulso
Mrimos cuadraclos
Memoria a corto y largo plazo .
Modelo oculto cle Markov
Red NARX
Raz6n de compresin -.
Mnimos cuadrados recursivo
Red neuronal recurrente de tiempo discreto
Red neuronal recurrente en cascada
84
1. \ ' 7
I L I
, A
727
o <
I4T
,/1
BB
t 27
1 / l
30
Red parcialmente recurrente 19
Red recurrente simpie 20
Red totalmente recurrente . 2L
Aprendizaje recurrente en tiempo real . 42
Red neuronal de retardos temoorales .. 24
151
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
Volver al ndice/Tornar a l'ndex
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
BIBLIOGRAFIA
ALeuzn, R. y A. SnN' pt l u (1994).
"Inference and recogni ti on of regul ar
grammars by training recurrent neural networks to learn the next-symbol
predi cti on task", en F. Casacuberta y A. Sanfel i u, coordi nadores, Aduan-
ces'n patter-n recogn'it'ion and apli,cations, World Scientific.
Al quzen, R. y A. Serurpl l u (1995). "An al gebrai c framework to represent
finite state automata in single-layer recurreut neural networks"
,
Neural
C omputati ,on, 7 (5), 931-949.
AussEu, ALox, Fl oi vN MuRracu y Manc SnRnzrN (1995). "Dynami cal re-
current neural networks
-
towards environmental time series orediction".
Internat'ional J ournal N eural Sy stems, 6, 145-170.
Bal tnRsrp, J.y J. A. CHetuteERS (1998). "Non-l i near adapti ve predi cti on
of speech signals using a pipelined recurrent network", IEEE Transact'ions
on Si.gnal Process'ing, 46(B).
BRaNwpLt,, T. P., K..vper y C. H. RtcHnRnsoN (1996). Speech codi .ng:
a computer laboratory tertbook, Georgia Tech digital signal processing la-
boratory series, John Wiley & Sons.
BELL, T. C. , J. G. Cl oARy y I . H. Wl : rrEN (1990). Tert compressi on,
Prenti ce-Hal l .
BENGI o, Y. , P. St t t . Rt y P. FnascoNt (1994).
"Learni ng l ong-t erm depen-
dencies with gradient descent is difficult"
,
IEEE Transactzons on Neural
N etw orks, 5(2), 1.57-166.
BpNvpNut o, N. , G. Bnnroccr y W. R. DauunR (1987). "The 32-kb/ s
ADPCM codi ng standard"
,
ATUT Techni ,cal Jour"nal ,2,270-280.
Bt aNcHI NI , M. , M. Gont y M. MeccrNr (1994). "On
t he probl em of l o-
cal minima in recurrent neural networks", IEEE Transact'ions on Neural
N etworlcs, 5(2), t67
-777
.
BtRcttptsR, M. (1996).
"Nonl i near
predi cti on of speech si gnal s usi ng radi al
basis function networks", en Proceed'ings of the European Signal Process'ing
Conference.
153
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
BIBLIOGRAFIA
BLaIR, A. y J. B. Pol l ecx (1997). "Anal ysi s of dynami cal recogni zers",
N eural Computati on, 9(5), 1727-1142.
Booi .t, N{. y J. Wtl ss (2000). "Context-free and context-sensi ti ve dyna-
mi cs i n recurrent neural networks"
,
Connect' i on Sc' i ence, 12(3).
BonN, M. y J. \ , Vt t s (2002). "On l earni ng cont ext f ree ancl cont ext
sensi ti ve l anguages"
,
IEEE Transo,ct' i ons on Neural Networks,l 3(2). 491-
493.
BRILL, E. (1992).
"A si mpl e rul e-basecl part-of-speech tagger"
,
en Procee-
dings Thi,rd Conference on Appli,ed Natural La,nguage Processing.
BULSRRI, A. B. y H. S.,rxN (1995). "A recurrent netrvork for model i ng
noisy temporal sequen ces", N elt rocom.put'ing, 7 (I), 29-40.
BuRRows, M.
f '
D. J. WI TBBLnR (1094). "A bl ock-sort i ng l ossl ess dat a
compression aigorithrn",
'informe
tcni,co 121, Digital Systems Research
Center.
Cr.RR.sco, R. C., M. L. FoRceD. y L. SnNr.tvtrR. (1996).
"Inferri ng
stoclrastic regular grammars wifh recurrent neural networks"
,
en Gt'an.-
matical
'inference:
learning syntar
from
sentence-s, voI. II47 cle Lecture
Notes irt Arti,f,ci,al Intelli,gence, pgs. 274-28I, Springer-Verlag. Berln.
CeRR. l sco, R. C. , M. L. FoRceDa, N, I . A. Vel os-Nl uoz y R. P.
Npco (2000).
"Stabl e-encodi ng of fi ni te-state machi nes i n di screte-ti me
recurrent neurai nets with signioid units"
,
Neura,l Com,putati,on, L2(9)-
2129-2174.
Ce. st Ro, M. A. , E. Vt ou- y t r' . Cesa, cuBERTA (1995).
"Fi ni t e st at e au-
tomata and connectionist machines: a slrrvey", en -ly'eu.r trends in neurul.
computation, vol. 930 de Lecture Notes in Computer Sc'ience, pgs. 433-
440, Springer-Ver1ag.
CeuwnNenRGHS) G. (1993).
"A fast-stochasti c error-descent al gori thrn fbr
supervi sed l earni ng and opti mi za,l i on", en S. J. Hanson, J. D. Cowan y
C. L. Giles, coordinadores, Aduances
'ir
Neural Inforrnation Processing
System.s, vol. 5, pgs. 244-251, N{organ Kaufnann.
enaNsxi , M. y L. Beu5xov (2001).
"Fi ni t e-st at e Reber a, ut ornat on
and the recurrent neural networks trained in supervised and unsupervised
manner", en G. Dorffner, H. Bi schof y K. Horni k, coordi nadores, P' rocee-
dings of the I'nternational Conference on Arti.fici,al Neural Netutorks, vol
2130 de Lecture Notes i n Computer Sc,i ence, pgs. 737-742, Spri nger-
Verl ag. Ber}n.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
BIBLIOGRAFiA
CHRLup, S. y A. Bl aIn (1999). "Hi l l cl i mbi ng i n recurrent neural networks
for Iearning the anbncn language"
,
en Proceedi,ngs of the 6th Conference
on Neural Informati,on Process'ing, pgs. 508-513.
CHRN, L. W. y C. C. Szeto (1999). "Trai ni ng recurrent network wi th
block-diagonal approximated Levenberg-Marquardt algorithm", en Pro-
ceedings of the Internat'ional Joi,nt Conference on Neural Networks.
CHRNG, W. F. y M. W. Me,x (1999). "A conj ugate gradi ent l earni ng
aigorithm for recurrent neural networks"
,
Neurocomytut'ing,24, 173-189.
CHRRNIax, E. (1993). Stati ,sti co,l l anguage l earn' ng, MIT Press, Cambri dge.
Cro-Suprno, J. , A. Anrps-RoDRrcuEz y A. R. FrcuprRas-Vroel (1994).
"Recurrent radial basis function networks for optimal symbol-by-symbol
equal i zati on"
,
Si gnal Proc.,40, 53-63.
Cr, enRpneNs, A. , D. Spnvew-ScnRprsnR y J. L. McCI eLLAND (1989).
"Finite state automata and simple recurrent netlvorks"
,
Neural Compu-
tati on, l (3), 372-381.
CoveR, T. M. y J. A. Tnovl as (1991). El ements of i .nfortnat' i on theory,
John Wiley and Sons, Nueva York.
CurrrNc, D. , J. Kupl nc, J. Ppt ensuN y P. Sl eui \ (1992).
"A
pract i cal
part-of-speech tagger"
,
en Proceedings of Third Conference on Appli.ed
N atural Languag e Process'i,ng, pgs. 133-140.
DRvIEs, R. B. (1994). "Wri ti ng a matri x package i n Caa", en Second
Annual Obj ect- Oriented Numercs C onf erence, pgs. 207
-273.
ELMIN, J. L. (1990). "Fi ndi ng structure i n ti me", Cogni .ti ue Sci ,ence, L4,
r79-2I1.
ELMRN, J. L. (1991). "Di stri buted representati ons, si mpl e recurrent net-
works, and grammatical structure", Machi,ne Learn'ng, 7, 195-225.
Fpl ox.ttp, L. A. y G. V. PusxoRl us (1994). "Trai ni ng controi l ers for
robustness: multi-stream DEKF"
,
en IEEE Internat'ional Conference on
Neural Networks, pgs. 2377-2382.
FINE, S., Y. SINcpR y N. TtsHey (1998).
"The hi erarchi cal hi dden Markov
model: analysis and applications", Mach'ine Learn'ing, 32(1), 47-62.
FoRcRDe, M. L. (2001).
"Corpus-based stochasti c fi ni te-state predi cti ve
text entry for reduced keyboards: application to Catalan", en Procesa-
m'iento del Lenguaje Natural, vol. 27, pgs. 65-70.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
BIBLIOGRAFIA
FoRcADR, M. L. y R. C. C.q.RRasco (1995).
"Learni ng the i ni ti al state of a
second order recurrent neural network during regrilar-language inference",
Neural Computati,on, 7, 923-930.
FoRCADe, N{. L. y R. C. CaaRnsco (2001). "Fi ni te-state computati on
in analog neural networks: steps towarcls biologically plausible
tnodels?",
en S. Wermter, J. Austin y D. Willshaw, coorclinadores, Emergent Neu,ral
Conzputati,onal Archi,tectures based on Neuroscet'ce, vol.2036 cle Lectu,re
Notes tn Computer Sc'ience, pgs. 4E2-486, Springer-Verlag.
FoRcADR, N4. L. y M. Goni (2001). "Neural net s, recurrent ", en J. G.
w-ebster, coordinador, wi,ley En,cyclopedza of Electri,cal and Electrorti,cs
Engineering, .Ioh.n Wiley & Sons.
FORCADA, N' l trcel L., coorcl i nador (2002). Neural n,etuorks: auto,nttrta and
fo' rm,aL
rnodel ,s of cornputati on, i ncl i to, cl i sponi bl e en http: / /wvtw.dl _si .
ua. es/ -ml f / n: naf mc/ .
GeRS, F. A. , D. Ecr y J Scuui oHLrBER (2001).
, , Appl yi ng
LSTM t o t i me
series predictable through time-winclow approaches',, eL Proceedi,ngs of
the Internat'ionaL Conferent:e on Artif,c,al Neu,ral Netutorks.
Gpns, F. A. , J. A. Pnaz-Owrrz, D. Ecx y J. ScuvrrDHUBEF (2002a).
.DEKF.-LSTM",
en M. Verl eysen, coordi nacl or, Pr.oceedi ngs of the Eu-
ropean Symytos'iunt on Artif,cial Ne,ural Networks, p,gs. 36g-326. D-side
Publ i cati ons.
GERS, F. A. , J. A. . PnEz- OKr r z, D. Ecx y J. Scnvi r DHUBER. ( 2002b) .
"Learttitrg context sensitive ianguages with LSTM trained wittr l(alman
filters"
,
en Proceedi,ngs of the Internn,ti,onal conference on ArtiJicial Neu-
ral Netutorks, LecLure Notes in cornprrter Science, springer-verlag, Berln,
acepIado.
GERS, P. A. y J. ScHTTaTDHUBER (2001).
"LSTN,{ recurrent networks l earn
simple context free and context sensitive languages"
,
IEEE Transact,ions
on Neural Netuorks, 12(6), 1333-1340.
GeRs, F. A. , J. ScHurHLTBER y F. currri r, l rr. rs (1ggg). "Learni ng ro f or-
get: continual preciiction with LSTlvf"
,
en Proceedi,ngs of ti-e Internati<tnal
Co'nference on Arti.f,c.ial Neural Netutorks, pgs. 850-855.
GERS, F. A. , J. Scsvi osuBER y F. Cuvrrvnl s (2000).
, , Learni ng
t o f orget :
conti nual predi cti on wi th LSTM,,, Neural Computati ,on, 12(10), 2451"-
2471.
GI LES, C. L. , C. B. Mr LLeR, D. CueN, H. H. CHEN, G. Z. Sui . r y
y.
C.
Lne (1992).
"Learni ng and extracti ng fi ni te state auLomata wi th second-
order recurrent neural netl orks"
,
Neural Computati on, 4(J),393-40b.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
BIBLIOGRAFIA
GouoRpeu, M. W. , C. L. Gt l es, S. T. CsaxRaoseny D. Cset v ( 1994) .
"First-order
vs. second order single layer recurrent neural networks",
IEEE Transactions on Neura| Networks, S(3), 511-513.
Hal l es, M. y G. DoRnnNeR (1998). "A comparati ve study on feedforward
and recurrent neural networks in time series prediction using gradient
descent learning", en R. Tlappl, coordinador, Cyber-net'ics and Systems
98, Proceedi.ngs of llth European NIeet'ing on Cybernet'ics and Systems
Res earch, pgs. 644-647 .
HevKIN, S. (1999). Neural networks: a cornprelzensi,ue
foundatzan,
Prentice-
Hal l , New Jersey, 2." ed.
H.l ,yKIN, S., coordi nador (2001). Kal man
fi ' l teri ng
and neural networks,Wi -
1ey.
HRyKIN, S. y L. Lt (1995). "Non-l i near adapti ve predi cti on of non-
stationary signals"
,
IEEE Transacti'ons on Si'gnal Process'ing, 43(2),526-
c c .
HRt z, J. , A. KnocH y R. G. Pel vnR (1991). I nt rodt t ct i ' on t o t he t heor
of neural computat'ion, Addisou-Wesley.
HILBoRN, R. C. (2000). Chaos and, nonl ' i near dynam' i cs: an' i ntroducti on
for
sci.enti.sts and eng'ineers, Oxford University Press.
HocsRor: rpR, S. , Y. BpNcl o, P. FRescoNI y J. ScHI vt I oHUBER (2001).
"Gradient flow in recurrent nets: the diffi,culty of learning long-term de-
pendenci es", en S. C. Kremer y J.F.Kol eu, coordi nadores, A
fi el d
gui ,de
to dynami,cal recurrent neural networks, IEEE Press.
HocHRpt rnR, S. y J. Scgi vt t oHUBER (1997). "Long
short -t erm memory",
N eural C ornputati ,on, 9(B), 1735-1780.
HopcRonr, J. E. y J. D. Ul l ,l ueN (1979). Introducti .on to automata theory,
langtr.ag es and computat'ion, Addison-Wesley.
HoRNe, B. G. y D. R. Husu (1996). "Bounds on the compl exi ty of re-
current neural network irnplernentations of finite state machines", Neural
netw orks, I (2), 243-252.
Jul tnR, S. J. y J. K. Uul vtRl .N (1997). "A new extensi on of the Kal -
man filter to nonlinear systems", en Proceedi,ngs of AeroSense, the llth
International Symposi,um on Aerospace/Defence Sens'ing, Si'mulation and
Controls.
Kel Ml N, R. E. (1960).
"A new approach to l i near fi l teri ng and predi cti on
problems"
,
Transact'ion of the ASME
-
Journal of Basi'c Engineering,
pgs. 35-45.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
BIBLIOGRAFIA
KpcsRtorl s, G., E. ZpRv,ts y E. S. \faNol nxos (1994).
"Usi ng recurrent
neural networks for adaptive communication channel eclualizatiort"
,
IEEE
Trans. on Neuro,l Networks, 5(2),267*278.
Kl enNn, S. C. (1956). "Representati on of events i n nerve nets and fi ni te
automata", en C. E. Shannon y J. McCarthy, coordi nadores, Automata
stud'ies, Princeton University Press.
KoLEN, J. F. y S. C. KRnt' l nR, coordi nadores (2001). A
fi el d
gui .de to
dynamical recurrent netuorlcs, IEEE Press.
KRnMER, S. C. (1997).
"Paral l el stochasti c gramrnar i nducti on", en Pro-
ceed'ings Internat'ional Conference on NeuraL Networks, pgs. 612-616.
LoNc, P. M. , A. i . N, . rrsEV y J. S. Vt ' rrER (1999). "Text compressi on
vi a al phabet re-represerrtati on"
,
Neural Networks,
' L2,755-765.
NIe,
Q.
y H. Is.,runnn (1997).
"Part-of-speech taggi ng of Thai corpus r,vi th
the logically cornbined neural networks"
,
en Proceedi,ngs of tte Natural
Language Processing Pacifi,c Rim Sympos'i'um, pgs. 537-540.
Me,
Q. ,
M. Mun. q: rA, NI . Url y. o. rura, K. Ucst vroro y H. I s. u. Rr (1999).
"Part of speech tagging with mixed approaches of neural networks and
transformation lules"
,
en Vorkshop on Natural Lan,guage Process'ing ancl
Neural Netruo'rks, Beijing, China.
Me.HoNEY, M. V. (2000). "Fast text cornpressi on wi th neurai rretwol ' ks",
en 1Sth. Internat'ional FLAIRS Conference, Orlando, Florida.
VInruNtNc, C. D. y H. ScuTZE (1999). Foundatzo' ns of stati st' i cal natu,ral
Ianguage process'ing, NIIT Press.
N4, rRcus, M. P. , B. SNroruNr y M. A. \ 4encrNKI EWI CZ (1993). "Bui l -
ding a large annotated corpus of English: the Penn Treebank"
,
Cornpu-
tati ,onal Li .ngui sti .cs, 19, 313-330.
N{enquns, N. C. y G. P. Lopps (1996).
"Usi ng neural net s f or Port uguese
part-of-speech tagging"
, en Proceedings of the Fi.fth Internati,onal Confe-
rence on The Cogni,tiue Sc'ience of Natural Language Processing, Dublin
City University, Ireland.
M.RIN., M. A., M. MoeN y M. Rnves (1995). Ini ,ci ,aci ,n aI caos: s' i s-
temas dznmi cos, Sntesi s, Madri d.
VIcCl usNpY, P. G. (1993).
"Feedforward and recurrent neural networks
and geneti c programs for stock market and ti me sei es frc.esi i ncr' '
rn-
forme
tcnico CS-93-36, Brown University.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
BIBLIOGRAFiA
I
f
iVlcCult,ocH, W. S. y !V. H. Plt' rs (1943). "A logical calculus of the ideas
immanent in nervous activity", Bulletin of Mathematical Biophyszcs, pgs.
115-133.
MERwn, R., A. DoucET, N. s Fntts y E. WeN (2000).
"The unscented
particle filter", en Aduances
'in
Neural Informati.on Processi,ng Systems,
vol. 13, MIT Press.
NIINsxv, M. L. y S. A. Pepent (1969). Perceptrons, MIT Press, Cambrid-
0p
MozER,' M. C. (1994). "Neural network musi c composi ti on by preci i cti on:
exploring the benefits of psychoacoustic constraints and multiscale pro-
cessi ng"
,
Connect' i on Sc' i ence, 6,247-280.
NenpuoRa, K. S. y K. PenTHAsARATHy (1990). "Identi fi cati on and con-
trol of dynamical systems using neural networks"
,
IEEE Transactions on
Neural Networks, 1, 4-27.
NnLsoN, M. (1991). "Ari thmeti c codi ng * stati sti cal model i ng: data com-
pressi on", Dr. Dobb' s Journal .
NeLsoN, M. y J.-L. Gel l l v (1995). The data compress,i on book, MkT
Books. New York. 2.4 ed.
OMLIN, C. W. y C. L. Gtl es (1996).
"Constructi ng detenni ni sti c fi ni te-
state automata i n recurrent neural networks", Jotrnal of the ACM,43(6),
937-972.
OppsNuetN,f
,
A. V. y R. W. ScserpR (1989). Di ,screte-ti ,me si gnal pr-oces-
sing, Prentice-Hall.
Onuz FuENTES, J. D. y M. L. FoRcaon (1997).
"A compari son bet ween
recurrent neural architectures for digital equalization", en Intem,atitonal
Conference on Acoustics, Speech and Si,gnal Process'ing, vol. 4, pgs. 3281-
3284.
Pn.RLtuurrER) B. A. (1995).
"Gradi ent cal cul ati ons for dynami c recurrent
neural networks: a survey", IEEE Transact'ions on Neural Netuorks, 6(5),
7212-1228.
Pnpz-ORTrz, J. A. , J. Cel pn. -Ruero y M. L. FoRcno, (2001a).
"A
comparison between recurrent neural architectures for real-time nonli-
near predi cti on of speech si gnal s", en D. J. Mi l l er, T. Adal i , J. Larsen,
M. Van Hulle y S. Douglas, coordinadores, Neural Networks
for
Si.gnal
Processing XI, Proceedi,ngs of the 2001 IEEE Neural Networks
for
Si.gnal
Process'ing Worksh,op, pgs. 73-81, IEEE Signal Processing Society.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
BIBLIOGRAFIA
Pnpz-Onuz, J. A. , J. C. l one-Ruero y N{. L. FoRcnot (2001b).
"Online symbolic-sequence prediction with discrete-time recurrent neural
networks", en G. Dorffner, H. Bischof y K. Hornik, coordinadores, Pro-
ceed'ings of the Internat'ional Conference on Arti,fici,al Neural Networks,
vol. 2130 de Lecture Notes i,n Computer Sc'ie'nce, pgs. 719-724, Springer-
Verlag, Berln.
Pnez-Onrrz, J. A. , J. Cel ne-Ruero y i vl . L. FoRct oe (2001c).
"On-
line text prediction with recurrent neural networks"
,
Neural Process'ing
Let t ers, t 4(2), 127-140.
PaBz-Onrrz, J. A. y M. L. Fonc.na (2001). "Part-of-speech taggi ng
witlr recurrent neural networks"
,
en Proceedings of the Inte'rnational Joi,nt
Conference o'n Neu'ral Networks, pgs. 15BB 1592.
Papz-Onrrz, J. A. , F. A. GnRs, D. Ecrc y J. ScHvl rDruBER (2002a).
"Kalman filters improve LSTM network perfolmance in hard problerns",
N e'ural N etw orks, aceptado con modifi caciones.
Pnpz- Onr r z, J. A. , J. Scr l ur nHueoR, F. A. Gnns y D. EcN ( 2002b) .
"Improving long-term online predicLion with decoupled extended Kalnran
filters"
,
et Proceed'hrgs of the Internationat Conference on. Artf,cial Neu-
ral Nehuorks, Lecture Notes in Computer Science, Springer-Verlag, Berln,
aceptado.
Pl . r"ur, D. C. , S. J. NowLAN y G. E. HrNroN (1986).
"Experi ment s on
learning back prop:tgation"
,
i,nfornt,e tcnico CI\IU-CS-96-126, Depart-
ment of Computer Science, Carnegie-lVIellon University.
PREss, W. H. , B. P. Fr, eNNERy, S. A. TnuxoLSKy y W. T. Vprrnnt , rc
(1988). Numerical rec'ipes in C, Cambridge University Press, Cambridge.
PRnss, ! V. H. , S. A. TsuNoLSKy, W. T. VnrreRl rNc y B. P. Fl eNnRy
(1992). Numerical rec'ipes zn C: the art of sci.e,nti.fic computing, Cambridge
Uni versi ty Press,- 2.4 ed.
PRoexIs, J. y D. MeNol ,qrrs (1996). Di ,gi ,tal si ,gnal process' ng, Prenti ce
Hal l , 3. " ed.
PRoeKts, J. G.y D. G. l VIeNor,er<rs (1998). Tratam,i ento di ,gi ta,l de seal es:
princ'ip'io s, alg oritmo s
E
aplzcaciones. Prentice-Hall.
PusxoRt us, G. V. y L. A Fpl oxnl ap (1991).
"Decoupl ed ext ended Kal -
man filter training of feedforward layered networks"
,
en Intern atioral
Joint Conference on Neural Networks, vol. 1, pgs.777-777.
PusxoRI us, G. v. y L. A. Fpl nxenp (1994). "Neurocont rol of nonl i near
dynamicai systems with Kalman filter trained recurrent networks" , IEEE
Transact'ions on N eural N etworks, 5(2), 279-297 .
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
a
t
BIBLIOGRAFIA
RaBINER, L. R. (1989). "A tutori al on hi dden Nl arkov model s and sel ected
appl i cati ons i n speech recogni ti on", Proceed' ngs of the IEEE,77(2),257-
286.
Rtr.,, J. y Lt,. HucuBt (1991). Comun'icaci,n d,i.gi,tal, Massott, Barcelona.
RoetxsoN, A. J. y F. Fur,sl ou (1991). "A recurrent error propagati on
speeclr recognition system"
,
Computer Speech and Language, 5,259-274.
RooRl cuoz, P.y J. WIl ps (1998). "Recurtent neural networks can l earn
to irnplement symbol-sensitive counting"
,
en Aduances
'in
Neural Infor-
mat'ion Process'ing Systems, 10, pgs. 87-93, The MIT Press.
RooRtcuBZ, P., J. Wtl Bs y J. Et l teN (1999).
"A
tecurrent neural network
that l earns to count"
,
Connect' i on Sci ' ence,11(1), 5-40.
Rutrpl ueRr, DavID E., GeonrREY E. Hl Nrou y RoNel o J. Wtr,ueus
(1986). "Learning representations by back-propagating errors", Nature,
323, 533-536.
SaKaKIBeRR, Y. (i 997). "Recent advances of grarnmati cal i nference",
Theoreti ,cal C omputer S c' i ence, 1-85, 15-45.
ScHMID, H. (1994).
"Part-of-speech
taggi ng wi th neural networks"
,
en Pro-
ceed'ings of the Internat'ional Conference on Computational Li,nguistics,
pgs. 172-776.
ScHMl oHueER, J. (1992). "A fi xed si ze storage O("t) ti rne compl exi ty l ear-
ning algorithm for fully recurrent continually running networks", Neural
C omputati,on, 4(2), 243*248.
ScuutogueER, J. y S. HocuREtrER (1996).
"Guessi ng can outperform
many long time lag algorithms",
'informe
tcn'ico IDSIA-19-96, Istituto
Dal l e Mol l e di Studi sul l ' Intel l i genza Arti fi ci al e.
ScHtrtoHueER, J. y H. StnrAN (1996).
"Sequenti al neural text compres-
sion", IEEE Transact'ions on Neural Networks, T(1), 142-146.
Sn.l owsxl , T. J. y C. R. RosnIepRG (1987). "Paral l el networks that
l earn to pronounce engl i sh text", Compl er Systems,l , 145-168.
SHoPHeRD, A. J. (1997). Second-ord,er methods
for
neural networks, Spri n-
oor T, nndr es
Stecpl uaxN, H. T. y E. D SoNrec (1991).
"Turi ng
computabi l i ty wi th
neural nets", Appl i .ed Mathemati cs Letters, 4,77-80.
SMITH, A. W. y D. Ztl seR (1989).
"Learni ng sequenti al structures wi th the
real-time recurrent learning algorithm", Internat'ional Journal of Neural
Systems, L(2), 125-137.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
BIBLIOGRAFiA
SuN, G. 2. , C. LBp GI l ps, H. H. CnsN y Y. C. Lnn ( 1993) .
" The neur al
network pushdown automaton: model , stack and l earni ng si mul ati ons",
i.nforrne tcnico CS-TR-S118, University of Maryland, College Park.
TIo, P. y M. Krnl ns (1999).
"Extracti ng fi ni te state representati ons
from recurrent neural networks trained on chaotic symbolic sequences",
IEEE Transact'ions on Neural Networks,l0(2), 284-302.
Tro, P., M. Sr.Nx y L. Buu5xov (2000). "Bui l di ng precl i cri ve
models on cornplex symbolic sequences via a first-order recu.rrent BCM
network with lateral inhibition", en Internattonal S'gmposi,urn, on Compu-
t ati. o n al Int elli, g en ce.
ToNKES, B. y J. WI l ps (1997). "Learni ng a cont ext -f ree t ask wi t h a re-
current neural netrvork: an analysis of stability", en Proceedings of th,e
Fourth Bi,ennial Co'nfere'nce of tlze Australasza'n Cognit'iue Sc'ience Society.
TowNsHnND, B. (1991). "Nonl i near predi cti on of speech", en P.roceedi ,ngs
Internat'ional Conference Acoustics, Speech and Si,gnal Process'ing, pgs.
425-428.
UNNt xRl sHNeN, K. P. y K. P. Vawucoenr, (1994).
"Al opex: a correl at i on-
based learning algorithrn for feeclforwarcl and recun'ent neural networks",
Neural Comp,utati,on, 6, 469-490.
M/ EI ccND, A. S. y N. A. GpesnnNrELD, coordi nadores (1994). T, i me seri es
predi.cti,on:
forecastzng
tlte
futzure
and understa,rt,ding the
,past,
Procee-
dings of the NATO Advanced Research Workshop on Comparative Times,
Addison-Wesley.
WELcH, G y G. BIsuop (2002). "An i ntroducti on to the Kr,l man fi l ter",
i.nforn-r,e tcn'ico TR 95-041, University of North Carolina at Chapel Hill,
Department of Computer Sci ence
WERBOS, P. J. (1974). Beyond regressi ,on: new tool s
for
predi cti on and
analys'is in the behauioral sc,iences, tesis doctoral, Harvard University.
WI LES, J. y J. Et veN (1995).
"Learni ng t o couri t wi t hout a count er: a,
case study of dynamics and activation landscapes in recurrent networks",
en Proceedings of the Seuenteenth Annual Confe'rence of the Cognrti,ue
Sci ence Soc' i ety, pgs. 482-487, MIT Press, Cambri dge.
WILLIants, R. J. y J. PeNrc (1990). "An effi ci ent gradi ent-based al gori thm
for on-line training of recurrent network trajectories", Neural Computa-
t i , on, 2( 4) , 490- 501.
l vtl l ra.Ms, R. J. y D. Zrpspn (1g8g). "A l earni ng al gori thm for conti nual l y
trai ni ng recurrent neural networks"
,
Neural Computatzo,n, I,270-280.
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
BIBLIOGBAFIA
t o
Zw, J. y A. Lounel
compression", IEEE
349.
(1977).
"A universal algorithm for sequential data
Transact'ions on Infonnation Theory, 23(3), 337-
a
e
t
Modelos predictivos basados en redes neuronales recurrentes de tiempo discreto. Juan Antonio Prez Ortiz
Tesis doctorales de la Universidad de Alicante. Tesi doctoral de la Universitat d'Alacant. 2002
Volver al ndice/Tornar a l'ndex