Sistemas de Habla

,1752'8&&,1
La comunicacin en lenguaje hablado con un ordenador es un tema que ha fascinado ingenieros y cientficos desde hace dcadas. Aparte del inters que el estudio de la comunicacin persona-mquina pueda tener para el anlisis y la comprensin de los procesos de produccin y percepcin involucrados en la comunicacin hablada humana, la construccin de interfaces persona-mquina es un reto cientfico de indudable inters socio-econmico. El grado de desarrollo de las tecnologas involucradas as como los avances realizados en las capacidades de cmputo de ordenadores ha propiciado la notable expansin que se aprecia en la utilizacin comercial de interfaces orales sencillos. Adems, permite a la comunidad cientfica internacional abordar el desarrollo de tareas ms complejas, bien mediante enfoques que permiten al usuario del sistema una mayor libertad en el uso del lenguaje. Los primeros sistemas de reconocimiento del habla, as como la mayora de los sistemas comerciales actuales, fueron desarrollados para reconocer palabras aisladas. Con esa tecnologa se han desarrollado sistemas no exentos de inters. Por ejemplo, para atender de forma automtica peticiones de informacin o transaccin va telefnica se ha utilizado el reconocimiento de palabras aisladas, como va alternativa a la utilizacin de teclados multifrecuencia, en aplicaciones donde el dilogo es dirigido en forma de mens. A pesar que el reconocimiento de voz es menos fiable que el teclado numrico, presenta las ventajas de su universalidad y de la naturalidad para el usuario de este modo de comunicacin. Durante la ltima dcada se ha progresado enormemente en el reconocimiento del habla continua alcanzando tasas de reconocimiento de alrededor del 90-95% de palabras para tareas con vocabularios medios y grandes, o incluso superiores en algunas tareas que presentan estructuras sintcticas o semnticas restringidas [Mario,97]. A pesar de que la tecnologa no ofrece resultados perfectos, est probando su utilidad en tareas muy diversas, tales como el dictado automtico (,%0 9RLFH7\SH), la preparacin de documentos estructurados, como por ejemplo, informes mdicos (3KLOLSV: informes radiolgicos), etc. En estos sistemas es preciso la supervisin de una persona para corregir los errores producidos por el sistema de reconocimiento, pero an as, estn recibiendo una acogida favorable por parte de los usuarios. Sin embargo, para utilizar el reconocimiento del habla continua como interfaz de persona a mquina es preciso incorporar sistemas de comprensin del habla, sistemas que no eran necesarios al tratar con palabras aisladas. De esta forma, el desarrollo del reconocimiento del habla, que ya involucraba en la prctica disciplinas como la fontica acstica, el tratamiento de seal, el reconocimiento de formas, la teora de la estimacin y estadstica, etc. requiere ahora aportaciones fundamentales de otras disciplinas, fundamentalmente el tratamiento del lenguaje natural, que tradicionalmente ya se ha involucrado en el estudio de temas como la representacin semntica, la comprensin, los sistemas de dilogo, etc., pero habitualmente a partir de texto escrito. Se constituye as una nueva disciplina, la ingeniera del lenguaje, que engloba a las anteriores unificndolas. La comprensin del habla puede ser suficiente en algunas tareas concretas: un ejemplo de ello es la transcripcin de noticias con objeto de realizar indexado de vdeo, tarea que ltimamente est recibiendo gran atencin. Sin embargo, respecto al objetivo de interfaces orales persona-mquina que pretende facilitar a las personas el control de una mquina o el acceso a un servicio (obtencin de informacin, efectuar una transaccin, etc.), salvo en tareas triviales, la comprensin no suele ser suficiente sino que es necesario que forme parte de un sistema de dilogo hablado. Muchas aplicaciones que comportan entrada hablada (como son las consultas telefnicas a un sistema con informacin sobre horarios de transportes, reservas de entradas, encargos o pedidos, etc.) son de hecho ejercicios de resolucin interactiva de problemas. La solucin se construye a menudo de forma incremental, jugando, tanto el usuario como el ordenador, papeles activos en la conversacin. A menudo el usuario no expresa su requerimiento en una nica frase, y espera la ayuda del sistema, de manera que la interaccin ocurre de forma natural a lo largo de varios turnos de dilogo. En este tipo de escenarios, el propsito de un sistema de dilogo es hacer ms fcil al usuario la obtencin de su objetivo, cuando una nica frase no sea adecuada. Por un lado, permite una interaccin ms natural, el usuario puede hacer referencia a informacin que ha aparecido anteriormente en el dilogo, y el requerimiento puede completarse con esa informacin. Por otra parte, al animar al usuario a formular frases ms cortas, se reduce la tasa de error en el reconocimiento, y permite incluso la posibilidad de recuperar el mensaje a partir de errores en la comprensin del mismo. Esta situacin exige la utilizacin de fuentes de conocimiento ms all de las puramente sintcticas y semnticas, es decir, la introduccin de conocimiento pragmtico, que puede
ser incorporado a travs de un FRQWURODGRU GH GLiORJR. El creciente inters en dilogo hablado viene reflejado en las numerosas publicaciones que aparecen en los principales congresos sobre tecnologas del habla como son la (XURSHDQ &RQIHUHQFH RQ 6SHHFK &RPPXQLFDWLRQ DQG 7HFKQRORJ\ (EUROSPEECH), la ,QWHUQDWLRQDO &RQIHUHQFH RQ 6SRNHQ /DQJXDJH 3URFHVVLQJ (ICSLP) y la ,((( ,QWHUQDWLRQDO &RQIHUHQFH RQ $FRXVWLFV 6SHHFK DQG 6LJQDO 3URFHVVLQJ (ICASSP). Al hablar de interfaces orales persona-mquina deben distinguirse entre aquellos que utilizan la voz como nico medio de comunicacin y los interfaces PXOWLPRGDOHV Las interfaces multimodales integran varios modos de comunicacin y permiten utilizar diferentes medios para expresar las intervenciones entrada y salida- de cada uno de los interlocutores, humanos o mquinas. El escenario ideal es aqul en el que el interlocutor humano selecciona libremente la forma ms adecuada (voz, texto, men, pantalla sensible, etc.) para emitir su mensaje y la mquina emite los suyos combinando tambin en la forma ms adecuada los diferentes modos de comunicacin de que dispone (voz, texto, grficos, tablas, etc.). Es aqu donde ha de contemplarse por tanto tareas con ordenadores (con o sin acceso a servicios ofrecidos por red), puntos de informacin ofrecidos por instituciones o empresas, etc. En este contexto, urge ahondar en el conocimiento de interfaces orales para que puedan ser incorporados como un modo ms de comunicacin persona-mquina. Por otra parte, los interfaces nicamente orales, centro de atencin de este proyecto, son necesarios en aplicaciones en las que no se tiene acceso a otros modos de comunicacin. Podemos citar, por ejemplo, aplicaciones accesibles desde vehculos, donde el conductor no puede utilizar la vista para tareas ajenas a la conduccin. La marcacin de un nmero de telfono, el control de los elementos accesorios del vehculo, la utilizacin de teleservicios tales como el encaminamiento en ruta, la informacin sobre trfico o sobre zonas de aparcamiento, etc. son algunas de las aplicaciones que se espera disponer en un plazo medio. Otra aplicacin de una gran transcendencia social es la de permitir el acceso a las mquinas (y mediante ellas a la informacin) a personas que sufren discapacidades visuales o motoras graves. Finalmente, una gran rea de aplicacin es la del acceso a servicios y control de mquinas va telefnica, donde la voz es el modo fundamental, si no el nico, de comunicacin. La posibilidad de convertir cualquier abonado a la red telefnica en un punto de acceso a los servicios le proporciona un valor econmico y social difcil de acotar. Un esquema tpico de un sistema conversacional [Giachin,97] debera contener los componentes y las interrelaciones entre ellos que se detallan a continuacin. La entrada hablada es primero procesada a travs del componente de reconocimiento del habla. El componente de comprensin del lenguaje natural, trabajando coordinadamente con el reconocedor del habla, produce una representacin del significado de la frase de entrada que pasa al controlador de dilogo. Para tareas de recuperacin de informacin, la representacin del significado puede usarse para obtener informacin de la base de datos en forma de texto, tablas o en forma de grficos. Si la informacin de la frase de entrada es insuficiente o ambigua, el sistema puede decidir preguntar al usuario las aclaraciones necesarias. Un componente de generacin de lenguaje natural, y opcionalmente un componente de sntesis de voz, pueden ser usados para producir respuestas que aclaran la informacin tabular. En todo el proceso se mantiene informacin del discurso que puede ser consultada por los componentes de reconocimiento y de lenguaje natural para que las frases sean comprendidas adecuadamente en su contexto. Los sistemas experimentales de dilogo han sido principalmente desarrollados como evoluciones de proyectos de Comprensin del Habla, que proporcionaban tasas satisfactorias de reconocimiento para tareas de discurso continuo independientes del locutor con lxicos del orden de 1000 palabras. Aparte de algunas experiencias puntuales, se puede considerar que los proyectos ms representativos que fomentaron el desarrollo de sistemas de dilogo hablado son: el CEC SUNDIAL en Europa [Peckham,93], [Gerbino,93], [Giachin,97] y el ATIS fundado por ARPA, dentro del cual hay algunos grupos trabajando en sistemas de dilogo [Seneff,91], [Ward,94], [Pieraccini,97]. Actualmente se estn realizando nuevos esfuerzos en proyectos europeos tales como los proyectos desarrollados en el mbito del Programa 7HOHPDWLFV $SSOLFDWLRQV de la Unin Europea, ACCeSS ($XWRPDWHG &DOO &HQWUH WURXJK 6SHHFK 6\VWHPV), REWARD (5HDO :RUOG $SSOLFDWLRQV RI 5REXVW 'LDORJXH), cuyo objetivo es el desarrollo de herramientas que permitan el diseo de aplicaciones a personas no expertas en dilogo, y ARISE ($XWRPDWLF 5DLOZD\ ,QIRUPDWLRQ 6\VWHPV IRU (XURSH), en el que se desarrollan sistemas de informacin de horarios de trenes en holands, francs e italiano. En Espaa, algunos grupos de investigacin han empezado a mostrar inters por el rea de dilogo, como el Grupo de Tratamiento del Habla, del Departamento de Electrnica y Tecnologa de Computadores, de la Universidad de Granada [Lpez,97], o el Grupo de Tecnologas del Habla, de la empresa Telefnica, Investigacin y Desarrollo [lvarez,97].
&RUSXV GH GLiORJR Al emprender el desarrollo de un sistema de dilogo es fundamental disponer desde las primeras etapas de su desarrollo de un corpus de dilogos en habla espontnea con usuarios reales [Giachin,97]. El objetivo es conocer la forma en la que se expresan las personas en esa tarea, tanto en lo que se refiere a los aspectos fonticos, como lxicos, expresiones, etc. Si el servicio existe, una opcin es adquirir conversaciones persona-persona que permitan conocer con exactitud el servicio, las expectativas del usuario y una primera aproximacin del vocabulario y del tipo de estructuras lingsticas utilizadas. En una segunda fase se han de recoger dilogos en situaciones que permitan modelar las situaciones para el caso concreto de la estrategia de dilogo diseada. Dos son las opciones para ello: L) desarrollar un prototipo del sistema y adquirir dilogos de forma incremental al tiempo que est operando o LL) utilizar una persona que simula a la mquina (tcnica de 0DJR GH 2] [Fraser,91]). De hecho, si es posible, es aconsejable utilizar una combinacin de corpus con objeto de obtener las mejores prestaciones del sistema. Las recomendaciones establecidas por ($*/(6 (([SHUW $GYLVRU\ *URXS RQ /DQJXDJH (QJLQHHULQJ 6WDQGDUV) constituyen una referencia no slo a la hora de adquirir corpus y anotarlos; tambin en el proceso de diseo y evaluacin de sistemas de dilogos. 0RGHODGR UREXVWR GH OD VHxDO Anteriormente hemos identificado algunas aplicaciones que son indicadas para incorporar interfaces vocales, en particular las que se ofrecen en el entorno de vehculos y los servicios ofrecidos por va telefona. En estas aplicaciones se cuenta con situaciones acsticas severamente degradadas, significativamente distintas a los entornos en los que habitualmente se han desarrollado prototipos de habla continua (ambiente ruidoso y variado, canal desconocido y variante, etc.). La robustez del sistema de reconocimiento en condiciones ambientales variantes y/o adversas [Gong,95] sigue siendo un tema clave para el uso prctico del sistema de reconocimiento. Una vez determinada la evolucin temporal del espectro de la seal de voz, existen dos formas bsicas de abordar el problema de la robustez. En la primera se procura que las caractersticas que modelan la seal sean intrnsecamente ms robustas a los cambios en las condiciones ambientales (incluyendo el canal) [Hanson,96], [Hernando,97a], [Hernando,97b], [Nadeu,96], [Nadeu,97]. Aunque este enfoque es simple de clculo y ha demostrado ser efectivo para reducir el efecto de las perturbaciones debidas al canal o al ruido en situaciones sencillas, el modelado acstico de tipo estadstico (HMM) requiere y facilita otro tipo de tcnicas robustas que buscan la compensacin de las desviaciones, ya sea operando en el espacio de las caractersticas o en el de los modelos acsticos. En esta rea han aparecido recientemente un gran nmero de mtodos [Lee,97], la mayora de los cuales son especficos y slo tratan un aspecto del problema: por ejemplo, el conocido mtodo PMC [Gales,97] trata el ruido aditivo con mucha generalidad pero no el efecto convolutivo del canal. Un sistema de dilogo ha de incorporar la posibilidad de ser interrumpido por parte del usuario, cuando el sistema est produciendo un mensaje hablado. Por ejemplo, en un sistema de informacin por telfono, el usuario ha de poder interrumpir al sistema para corregirle (en una estrategia de verificacin implcita del mensaje que se ha reconocido) o porque ya sabe que opcin desea. Esto supone que el sistema de reconocimiento esta activado incluso en los intervalos en los que el sistema contesta la usuario. Debido a las imperfecciones en el paso de 2 a 4 hilos y a los ecos acsticos establecidos entre altavoz y micrfono, se hace necesario la cancelacin de estos caminos de retorno. En terminales con la facilidad de manos libres, el eco generado por la reverberacin de la sala y el retorno del mensaje de salida pueden representar una seria perturbacin en el sistema de reconocimiento. Por todo esto, se hace necesaria la inclusin en el sistema de un cancelador de ecos para eliminar los ecos sin distorsionar la seal de voz del usuario [Artes,93], [Armbrster,92], [Masgrau,93], [Umari,93]. Por otro lado, la seal captada por el micrfono se encontrar contaminada por el ruido acstico circundante lo que hace aconsejable la incorporacin de un sistema de control activo de ruido acstico que permite mejorar la relacin seal a ruido en el micrfono realizando una burbuja de silencio alrededor del micrfono [Elliot,93], [Bonito,96]. Una solucin alternativa al control activo de ruido acstico es la utilizacin de una agrupacin de micrfonos que estn distribuidos espacialmente de forma que la salida de cada micrfono tiene unas diferencias de fase de acuerdo con la posicin de las fuentes de sonido. Utilizando estas informaciones de fase se puede construir un micrfono superdirectivo de forma que permite mejorar la relacin seal a ruido de forma efectiva para una gran variedad de ambientes ruidosos [Yamada,96] [Giuliani,96] [Kiyohara,97] [Navajas,97]. Tanto el control activo del ruido como las agrupaciones de micrfonos son propuestas de gran atractivo en interfaces persona-mquina en entornos WLSR YHVWtEXOR, por ejemplo puntos de informacin o expendedoras de billetes y entradas, donde el ruido
ambiente es dominante y el usuario no utiliza micrfonos direccionales prximos y la posicin del usuario no puede determinarse con precisin con antelacin. 9HULILFDFLyQ GHO UHFRQRFLPLHQWR En la mayora de aplicaciones de reconocimiento automtico del habla es necesario disponer de un mecanismo que nos permita verificar las hiptesis generadas por el sistema de reconocimiento. La verificacin del reconocimiento asigna una medida de confianza a las hiptesis generadas por el reconocedor de forma que nos permita detectar la presencia de errores de reconocimiento (inserciones y sustituciones). Las tcnicas mas utilizadas en la actualidad asignan una medida de confianza a las palabras reconocidas por el sistema de reconocimiento mediante el clculo de un ratio de probabilidades y son aceptadas o rechazadas comparando la medida de confianza con un umbral de decisin. El ratio de probabilidades est definido como la relacin entre la probabilidad de un modelo oculto de Markov que modela el espacio de reconocimiento correctos con respecto a la probabilidad de un modelo oculto de Markov que modela el espacio de falsas alarmas [Lleida,96a], [Sukkar,96], [Rahim,95], [Rahim,97]. Mediante un proceso de entrenamiento de tipo discriminativo se aprende sobre una base de datos de entrenamiento las distribuciones del espacio de reconocimiento correctos y de falsas alarmas. La inclusin de la informacin de falsas alarmas en el proceso de reconocimiento permite adems de minimizar el nmero de falsas alarmas el aumentar las tasas de reconocimiento [Lleida,96b]. Otros tipos de aproximacin al problema de verificacin se encaminan hacia la utilizacin de ciertos parmetros del proceso de reconocimiento (hiptesis QPHMRUHV, duracin, nmero estados activos, etc.) como informacin para definir una medida de confianza [Cox,96], [Schaaf,97]. Cualquiera que sea el mtodo utilizado, la finalidad es dar una medida robusta sobre la confianza del reconocimiento tanto a nivel acstico como de lenguaje.
7UDWDPLHQWR GHO +DEOD (VSRQWiQHD Por otra parte, la utilizacin de sistemas de reconocimiento del habla en sistemas de dilogo, en especial si se dirige a usuarios no expertos en el servicio, comporta un estilo de habla, que se suele denominar como habla espontnea, que introduce una complicacin aadida en todos los niveles de conocimiento involucrados en el proceso de comprensin. La mayora de los sistemas de reconocimiento de habla continua han sido entrenados a partir de grandes corpora de textos ledos adquiridos en condiciones controladas. Sin embargo cuando se ha pretendido adaptar estos sistemas a condiciones ms realistas: habla espontnea no leda, condiciones adversas de grabacin, etc. el fracaso ha sido estrepitoso, con tasas de error a nivel de palabra que superan el 50% [Jeanrenaud,95], [Rosenfeld,96], [Weintraub,97], [Young,94]. Esto ha obligado a la comunidad cientfica internacional a analizar las causas de error y replantearse objetivos y metodologas para tratar de abordar estos problemas [Rosenfeld,96], [Weintraub,97]. Una causa evidente de error es obviar que la lengua hablada contiene fenmenos que la caracterizan y la diferencian del habla obtenida a partir de la lectura, aunque fuera muy descuidada, de textos. As, en habla espontnea encontramos grandes variaciones en la velocidad de elocucin, tanto entre locutores como dentro de una misma frase dependiendo de la semntica, con pausas en las que se introducen sonidos ajenos al lxico, omisin de fonemas y palabras, vacilaciones y coletillas, falsos comienzos de frase, palabras repetidas, LQFRUUHFFLRQHV sintcticas, etc. Este tipo de fenmenos se engloba bajo el trmino genrico de disfluencias [Schriberg,94]. Por este motivo, en los ltimos aos se ha dedicado un gran esfuerzo a la adquisicin y preparacin [Greenberg,97] de corpora que permitieran estudiar y caracterizar la lengua hablada. Todos ellos, de tamaos diferentes, incluyen dilogos bien entre personas [Rosenfeld,96] [Peskin,97], bien entre una persona y una mquina [Eckert,96] [Albesano,97] [lvarez,97]. Tambin se ha prestado especial inters a la adquisicin a travs del telfono, debido al inmenso potencial de aplicaciones relacionadas con este tipo de comunicacin. Sobre estos corpora se ha comenzado ya a realizar estudios y caracterizaciones de las disfluencias ya mencionadas [Schriberg,94] [OShaughnessy,95] [Schultz,95] [Finke,97b]. Es imprescindible contar con un mdulo especficamente dedicado al tratamiento del habla espontnea. As lo entienden igualmente otros grupos europeos con objetivos similares [Eckert,97] [lvarez,97] [Albesano,97] [Zeppenfeld,97]. Igualmente proyectos europeos cuyo objetivo es la traduccin automtica de lengua hablada contemplan esfuerzos especficamente dedicados al tratamiento de habla espontnea [Finke,97a].
En una primera aproximacin al problema se trat de detectar y eliminar las disfluencias. Aproximaciones ms recientes tratan de modelarlas aplicando metodologas ya contrastadas con xito en sistemas de reconocimiento automtico del habla, en las que se aumenta el grado de complejidad de los modelos [Jeanrenaud,95]. A nivel acstico se propone el modelado explcito de eventos no lxicos [Schultz,95], nuevos conjuntos de unidades sub-lxicas [Monkowski,95] [Albesano,97] [Finke,97b] capaces de modelar tanto los eventos ajenos al lxico como las dependencias contextuales ms alejadas, etc. Desde el punto de vista del modelo de lenguaje se incluyen como nuevos elementos aadir al vocabulario [Schultz,95], [Stolke,96] utilizar un modelo corrector de error [Rosenlfeld,96] [Weintraub,97]. Sin embargo, siendo el tema de muy reciente atencin por parte de la comunidad cientfica, todas estas propuestas se limitan a paliar parcialmente los efectos negativos de la introduccin de habla espontnea en las prestaciones de los sistemas de reconocimiento [Stolke,96]. Es ste, por tanto, un interesante tema de investigacin abierto, recientemente planteado y que ha llegado incluso a cuestionar la validez de los paradigmas actuales [Rosenfeld,96]. ,QWHUID] HQWUH HO VLVWHPD GH UHFRQRFLPLHQWR \ HO VLVWHPD GH FRPSUHQVLyQ La forma ms sencilla de enlazar un sistema de reconocimiento del habla y uno de comprensin es utilizar la representacin ortogrfica de la frase reconocida. Sin embargo, dados los posibles errores del sistema de reconocimiento, en muchos sistemas el reconocedor proponer varias frases candidatas [Mario,89], [Schwartz,92], [Marzal,93] y el sistema de comprensin escoge aquella a la que le otorga mayor verosimilitud. Los ltimos aos han aparecido sistema que representan las distintas frases candidatas de forma ms compacta, mediante grafos de palabras [Ney,94] con el consiguiente beneficio temporal en el procesador lingstico [Giachin,97]. La informacin que proporciona la entonacin, que no se ha utilizado en los sistemas habituales de reconocimiento del habla, toma cierta relevancia en aplicaciones de dilogo [Longuet,85]. Un seguimiento de F0 puede ser de utilidad para identificar el nivel ilocutivo de la frase, segmentar las oraciones en grupos sintcticos [Veilleux,93] y para localizar fenmenos relacionados con habla espontnea. *HQHUDFLyQ GH OD UHVSXHVWD RUDO En los sistemas de dilogo es tambin necesario un mdulo generador de la respuesta oral. Esto se suele realizar en dos fases: en la primera se generan las frases en LN a partir del contenido a transmitir y, en una segunda fase, se convierte el texto en una seal de voz, bien sea mediante sntesis de voz o mediante concatenacin de segmentos. La primera fase de la generacin no se limita a la generacin del texto sino que puede incluir ya informacin sobre rasgos suprasegmenales, como la entonacin. El proceso de generacin en LN supone la integracin de diferentes mdulos que utilizan varias fuentes de conocimiento. Suele incorporarse una componente estratgica, en nuestro caso imbricada con el mdulo de control del dilogo, que determina el contenido a transmitir (ZKDW WR VD\) y una componente tctica que se encarga de la expresin lingstica del mismo (KRZ WR VD\).A cargo de esta ltima componente estn los problemas de la seleccin lxica y sintctica, y de la estructura retrica que junto a otros componentes marcara la entonacin. Hay que destacar que, en cuanto al funcionamiento del sistema de dilogo, la respuesta oral no es crtica pues los sistemas de sntesis actuales ya ofrecen casi total inteligibilidad. Sin embargo, en el caso de que el interfaz de persona hacia mquina ofrezca una tasa aceptable de comprensin y de que la estrategia del dilogo haya sido bien diseada, la respuesta que produce el interfaz de mquina a persona es la parte visible de todo el sistema de dilogo por lo que la calidad de la respuesta oral determina en muchos casos la calidad del sistema global. Por ejemplo, en la evaluacin de 1994 de un sistema de informacin de horario de trenes desarrollado por 3KLOLSV, sistema que utilizaba salida oral mediante concatenacin de segmentos, los usuarios perciban mayor dificultad en la salida de voz que en el reconocimiento y la comprensin, refirindose la mayora de los comentarios a la calidad de la voz escuchada [Aust,96]. Respuestas orales de alta calidad son de gran importancia de cara a que los sistemas de dilogo sean aceptados. Uno de los factores fundamentales para obtener naturalidad en los sistemas de produccin del habla es el de modelar apropiadamente las variaciones entonativas [Silverman,93] y es all donde se centra la mayora de la investigacin que se realiza en conversin de texto a voz. Para ello, muchos trabajos utilizan un sofisticadsimo anlisis del texto a sintetizar. Sin embargo, la mayora de los sistema de sntesis utilizados en la prctica, generan contornos entonativos que no son sino sucesiones de rectas condicionados por la puntuacin final y unos pocos heursticos [Bonafonte,97] [Garrido,91].
La informacin semntica del discurso determina el comportamiento de la prosodia de una elocucin. Diferentes estudios muestran que los picos de las curvas prosdicas se corresponden casi siempre con las palabras que son el foco del mensaje [Jackendoff,72] y tambin las que aportan nueva informacin para el oyente [Brown,83]. En los sistemas de dilogo se dispone de informacin semntica por lo que la tarea de anlisis queda notablemente simplificada. El inters en conversores PHQVDMH a texto, utilizados en sistemas de dilogos, es creciente. Debe notarse que el estudio de dicho comportamiento prosdico es de utilidad tambin para concatenacin de segmentos grabados, permitiendo adquirir varias realizaciones de los segmentos y utilizar el ms adecuado desde el punto de vista prosdico. &RPSUHQVLyQ GHO KDEOD \ JHVWLyQ GHO GLiORJR El mdulo de comprensin debe proporcionar una representacin del significado de la frase reconocida, cuando sea posible [Levin,95] [Minker,97]. La comprensin del texto implica la ejecucin de una serie de procesos que implican tareas como el control del texto, la desambiguacin gramatical y semntica, el anlisis sintctico y la posterior interpretacin semntica de las unidades analizadas. En buena parte de estas tareas existen ya tecnologas adecuadas para el tratamiento de texto escrito, por ejemplo los proyectos ITEM y Acquilex II, aunque se debe estudiar su integracin y su adaptacin al tratamiento de la lengua hablada. Habr casos en los que no ser capaz de realizar un anlisis de la frase completa, por lo que tendr que aplicar tcnicas de anlisis parciales [Baggia,93]. El controlador de dilogo es el ncleo de un sistema de dilogo hablado. Sita las exigencias de comprensin de las intervenciones del interlocutor humano a un nivel mucho ms alto de lo que es habitual en los sistemas de tratamiento del habla. Sin este control no sera posible la extraccin del contenido ilocutivo de cada intervencin ni la resolucin de las formas complejas de referencia que pueden aparecer. Debe aportar el conocimiento pragmtico del dominio de la tarea para facilitar la comprensin del mensaje [Popovici,97] [Seide,97] [Reithinger,97]; debe mantener una historia del dilogo para resolver los problemas de elipsis y anfora que pueden aparecer en las frases; debe detectar cundo el requerimiento formulado por el usuario no es completo y activar el mdulo generador de frases para elaborar una pregunta al usuario; debe disponer de una estrategia de verificacin, explcita o implcita, para tener en cuenta los errores cometidos por el sistema de reconocimiento; debe incorporar un procedimiento de monitorizacin para detectar cundo el dilogo no est funcionando y resolver la situacin mediante modos alternativos de comunicacin (activar un sistema de dilogo guiado por el sistema, derivar la peticin a un operador humano, etc.). En los ltimos aos, se han publicado varios trabajos [Woszcyna,94], [Wang,97] [Kita,97] [Flammia,97] en los que se aprende de forma automtica la estructura del dilogo a partir de muestras de dilogos etiquetadas en unidades de dilogo.
5()(5(1&,$6 %,%/,2*5),&$6
[Albesano,97] Albesano, D., Baggia, P., Danielu, M., Gemello, R., gerbino, E. Rullent, C. (1997): Dialogos: a robust system for human-machine spoken dialogue on the telephone. 3URFHHGLQJV RI ,&$663 pp. 1147-1150. lvarez, J., Tapias, D., Crespo, C., Cortazar, I., Martnez, F. (1997): Development and evaluation of the ATOS spontaneous speech conversational system. 3URFHHGLQJV RI ,&$663 pp. 1139-1142. W. Armbrster, Wideband Acoustic Echo Canceller with a Two Filter Structure, EUSIPCO-92, pp. 1611-1614, 1992. A. Arts. L. Weruaga, J. Garca Fras, E. Masgrau, J.A. Rodrguez Fonollosa, Requisitos Acsticos en el Servicio de Audioconferencia, Informe para el proyecto TEMA-PLANBA, Junio-93. Harald Aust. 'LDORJXH 0RGHOOLQJ, Notas de clase del ELSNET Summer School. Budapest, Julio 1996. P. Baggia, C. Rullent. 3DUWLDO SDUVLQJ DV D UREXVW SDUVLQJ VWUDWHJ\ . ICASSP93. A. Bonafonte, I. Esquerra, A. Febrer, F. Vallverd, $ %LOLQJXDO WH[WWRVSHHFK V\VWHP LQ VSDQLVK DQG FDWDODQ, European Conference on Speech Communication, EUROSPEECH-97, Rhodos, 1997 J. Garcia Bonito, S.J. Elliot, C.C. Boucher, A Virtual Microphone Arrangement in a Practical Active Headrest, Internoise-96, pp 1115-1120, Liverpool., 1996 G.Brown. Prosodic structure and the given/new distinction. In A. Cutler and D.R. Ladd, editors, 3URVRG\ 0RGHOV DQG 0HVDXUHPHQWV Springer-Verlag, Berlin, 1983. S. Cox, R.C. Rose, Confidence measures for the Switchboard database, Proc ICSLP-96, pp. 478-481, Philadelphia, 1996. Eckert, W., Gallwitz, F., Niemann, H. (1996): Combining Stochastic and Linguistic Language Models for Recognition of Spontaneous Speech. 3URFHHGLQJV RI ,&$663 pp. 423-426. S.J. Elliot, P.A. Nelson, Active Noise Control, IEEE Signal Processing Magazine, pp 12-35, 1993 Finke, M., Geutner, P., Hild, H., Kemp, T., Ries, K., Westphal, M. (1997): The Karlsruhe-Verbmobil Speech Recognition Engine. Proceedings of ICASSP, pp. 81-84. Wide context acoustic modelling in read vs. spontaneous speech. 3URFHHGLQJV RI ,&$663 pp. 17431746. G.Flammia, V.Zue. /HDUQLQJ WKH VWUXFWXUH RI PL[HG LQLWLDWLYH GLDORJXHV XVLQJ D FRUSXV RI DQQRWDWHG FRQYHUVDWLRQV. En Proceedings de EUROSPEECH 97 , 1971-1874, 1997. N.M.Fraser, G.N.Gilbert. 6LPXODWLQJ VSHHFK V\VWHPV. Computer Speech and Language, Vol 5, N 1, 81-99, 1991. J.M. Garrido. Modelizacin de patrones meldicos del espaol para la sntesis y el reconocimiento del habla, Universitat Autnoma de Barcelona, UAB, 1991 M. Gales, S. Young, "Robust continuous speech recognitionusing parallel model combination", IEEE Transactions on Speech and Audio Processing, Vol.4, No. 5, Sept. 1996, pp. 352-9. E.Gerbino, M.Danieli 0DQDJLQJ GLDORJXH LQ D FRQWLQXRXV VSHHFK V\VWHP. En proceedings de EUROSPEECH93, 1661-1664, 1993. E.Giachin & S. McGlashan. 6SRNHQ /DQJXDJH 'LDORJXH 6\VWHPV. Chapter 3 of Corpus-Based Methods in Language and Speech Processing. S.Young & G.Bloothooft (eds.), 67-117, Kluwer Academic Publishers. 1997. D. Giuliani, M. Omologo, P. Svaizer, Experiments of Speech Recognition in a Noisy and Reverberant Environment using a Microphone Array and HMM Adaptation, Proc, ICSLP-96, Philadelphia, 1996. Yifan Gong, "Speech recognition in noisy environments: A survey", Speech Communication, Vol. 16, 1995, pp. 261-291.
[lvarez,97]
[Armbrster,92]
[Artes,93]
[Aust,96] [Baggia,93] [Bonafonte,97]
[Bonito,96]
[Brown,83]
[Cox,96]
[Eckert,97]
[Elliot,93] [Finke,97a]
[Finke,97b]
[Flammia,97]
[Fraser,91]
[Garrido,91]
[Gales,96]
[Gerbino,93]
[Giachin,97]
[Giuliani,96]
[Gong,95]
[Greenberg,97]
Greenberg, S: The Swichboard Transcription Project. /DUJH 9RFDEXODU\ &RQWLQXRXV 6SHHFK 5HFRJQLWLRQ 6XPPHU 5HVHDUFK :RUNVKRS 7HFKQLFDO 5HSRUWV. Ed. F. Jelinek. Center for Language and Speech Processing. Jhons Hopkins University. Captulo 6, 1997. A. Hanson, T.H. Applebaum, J.C. Junqua, "Spectral dynamics for speech recognition under adverse conditions", in $GYDQFHG 7RSLFV LQ $XWRPDWLF 6SHHFK DQG 6SHDNHU 5HFRJQLWLRQ, C.-H. Lee and F.K. Soong, Eds., Kluwer Acad. Publ., 1996. J.Hernando, C.Nadeu, "Linear prediction of the one-sided autocorrelaton sequence for noisy speech recognition", IEEE Transactions on Speech and Audio Processing, Vol.5, No. 1, Enero 1997, pp.80-84. J.Hernando, C.Nadeu, "Robust speech parameters located in the frequency domain", Proc. Eurospeech'97, Rodas, Grecia, Sept. 1997, Vol.1, pp.417-420. R.S. Jackendoff. 6HPDQWLF ,QWHUSUHWDWLRQ LQ *HQHUDWLYH *UDPPDU MIT Press, Cambridge, MA, 1972. Jeanrenaud, P., Eide, E., Chaudhari, U., McDonough, J., Nig, K.,Siu,M., Gish, H. (1995): Reducing word error rate on conversational speech from the swithboard corpus. 3URFHHGLQJV RI ,&$663, pp. 53-56. K.Kita, Y.Fukui, M.Nagata, T.Morimoto. $XWRPDWLF DFTXLVLWLRQ RI SUREDELOLVWLF GLDORJXH PRGHOV En Proceedings de ICSLP96, 197-199, 1997. K. Kiyohara, Y. Kaneda, S. Takahashi, H. Nomura, J. Kojima, Microphone Array System for Speech Recognition, Proc ICASSP-97, pp 215-218, Munich, 1997. C.-H. Lee, "On feature and model compensation approach to robust speech recognition", Proc. Workshop on Robust Speech Recognition for Unknown Communication Channels, Pont-a-Mousson, Francia, Abril 1997, pp. 45-54. E.Levin, R.Pieraccini &RQFHSW%DVHG 6SRQWDQHRXV 6SHHFK 8QGHUVWDQGLQJ 6\VWHP. En Proceedings de EUROSPEECH95, 555-558, 1995. Longuet-Higgins, C. Tone of voice: The role of intonation in computer speech understanding. In Fallside, F. and Woods, W. editors, &RPSXWHU 6SHHFK 3URFHVVLQJ Prentice Hall International, 1985. R. Lpez Czar, P. Garca, J. Daz, A.J. Rubio, $ YRLFH DFWLYDWHG GLDORJXH V\VWHP IRU IDVWIRRG UHVWDXUDQW DSSOLFDWLRQV European Conference on Speech Communication, EUROSPEECH-97, pp. 1783-1786, Rhodos, 1997. E. Lleida, R.C. Rose, Likelihood ratio decoding and confidence measures for continuous speech recognition, Proc ICSLP-96, pp 478-481, Philadelphia, 1996 E. Lleida, R.C. Rose,Efficient decoding and training procedures for utterance verification in continuous speech recognition, Proc ICASSP-96, pp 507-510, Atlanta, 1996. J.B. Mario, E. Monte, Generation of multiple hypotheses in connected phonetic-unit recognition by a modified dynamic programming algorithm, Proc. EuroSpeech89, pp. 408-411, Pars, 1989. J.B. Mario, A. Nogueiras, A. Bonafonte, The demiphone: an efficient subword unit for continuous speech recognition, Proc. of EuroSpeech97, pp. 1215-1218, Rhodos, 197. A. Marzal: "Clculo de las K Mejores Soluciones a Problemas de Programacin Dinmica". Tesis Doctoral, Universidad Politcnica de Valencia. Septiembre 1993. Director: E. Vidal. E. Masgrau, A. Moreno, J.A. Rodrguez Fonollosa, Tcnicas de Cancelacin (Contribucin al resultado R32 de PLANBA Informe sobre tcnicas de cancelacin de ecos), 1993 W.Minker, S.Bennacef, J.L.Gauvain. $ VWRFKDVWLF &DVH )UDPH IRU 1DWXUDO /DQJXDJH 8QGHUVWDQGLQJ. En Proceedings de ICSLP96, 1013-1016, 1997. Monkowski, M.D., Picheny, M.A., Rao, P. S. (1995): Context dependent phonetic duration models for decoding conversational speech. 3URFHHGLQJV RI ,&$663, pp. 528-531. C.Nadeu, J.B.Mario, J.Hernando, A.Nogueiras,"Frequency and time filtering of filter-bank energies for hmm speech recognition", Proc. ICSLP'96, Philadelfia, Oct. 1996, pp.430-433. C.Nadeu, P.Pachs-Leal, B.H. Juang, "Filtering the time sequences of spectral parameters for speech recognition", Speech Communication, Vol. 21, Sept. 1997, pp.1-8.
[Hanson,96]
[Hernando,97a]
[Hernando,97b]
[Jackendoff,72] [Jeanrenaud,95]
[Kita,97]
[Kiyohara,97]
[Lee,97]
[Levin,95]
[Longuet,85]
[Lpez,97]
[Lleida,96a]
[Lleida,96b]
[Mario,89]
[Mario,97]
[Marzal,93]
[Masgrau,93]
[Minker,97]
[Monkowski,95]
[Nadeu,96]
[Nadeu,97]
[Navajas,97]
J. Fernndez, E. Lleida, E. Masgrau, Conformacin de Haz de una Agrupacin Lineal de Micrfonos Aplicado al Reconocimiento Robusto del Habla, URSI-97, Bilbao, 1997
[OShaughnessy,95] OShaughnessy, D. (1995): Timing Patterns in Fluent and Disfluent Spontaneous Speech. 3URFHHGLQJV RI ,&$663 pp. 600-603. [Peckham,93] J.Peckham $ QHZ JHQHUDWLRQ RI VSRNHQ ODQJXDJH V\VWHPV UHFHQW UHVXOWV DQG OHVVRQV IURP WKH 681',$/. En proceedings de EUROSPEECH93, 33-42, 1993. Peskin, B., Gillick,L., Liberman, N., Newman, M., van Mulbregt, P., Wegmann, S. (1997): Progress in recognizing conversational telephone speech. 3URFHHGLQJV RI ,&$663 pp. 1811-1814. R. Pieraccini & E. Levin $0,&$ WKH $7 7 0L[HG ,QLWLDWLYH &RQYHUVDWLRQDO $UFKLWHFWXUH. En Proceedings de EUROSPEECH87, 1875-1878, 1997. C.Popovici, P.Baggia. 6SHFLDOL]HG ODQJXDJH PRGHOV XVLQJ GLDORJXH SUHGLFWLRQV. En Proceedings del ICASSP 97 , 815-818, 1997. M.G. Rahim, C.H. Lee, B.H. Juang, Roboust utterance verification for connected digits recognition, Proc ICASSP-95, pp 285-288, Detroit, 1995. M.G. Rahim, C.H. Lee, B.H. Juang, Discriminative utterance verification for connected digits recognition, IEEE trans on SAP, pp 266-277, Mayo 1997. N.Reithinguer, R.Engel, M.Kipp, M.Klesen. 3UHGLFWLQJ GLDORJXH DFWV IRU D VSHHFK WR WH[W WUDQVODWLRQ V\VWHP. En Proceedings de ICSLP96, 654-657, 1997. Rosenfeld, R., Agarwal, R., Byrne, B., Iyer, R., Liberman, M., Shriberg, L., Unverfth, J., Vergyri, D., Vidal, E. (1996): Error Analysis in the Swichboard Domain, Language Modeling for Conversational Speech and Exploiting Remote Domains Via data Bleaching. (QGRIZRUNVKRS UHSRUW RI WKH /DQJXDJH 0RGHOLQJ RI 6SRQWDQHRXV 6SHHFK SURMHFW WHDP DW WKH -RKQV +RSNLQV :RUNVKRS RQ /QDJXDJH 0RGHOLQJ. Captulos 2, 3 y 4 respectivamente. T. Schaff, T. Kemp, Confidence measures for spontaneous speech recognition, Proc. ICASSP-97, pp. 875-878, Munich, 1997 Schriberg, E. (1994): Preliminaries to a Theory of Speech Disfluencies. PhD dissertation, University of California at Berkeley. Schwartz, R., Austin, S., Kubala, F., Makhoul, J., Nguyen, L., Placeway, P., Zavalagkos, G., New uses of the N-best sentence hypothesis within the Biblos speech recognition system, 3URFHHGLQJV RI ,&$663, San Francisco. Schultz, T., Rogina, I. (1995): Acoustic and Language Modelling of human and nonhuman noises for human-to-human spontaneous speech recognition. 3URFHHGLQJV RI ,&$663, pp. 293-296. F.Seide, B.Rueber, A.Kneller. ,PSURYLQJ VSHHFK XQGHUVWDQGLQJ E\ LQFRUSRUDWLQJ GDWDEDVH FRQVWUDLQWV DQG GLDORJXH VWRU\. En Proceedings de ICSLP96, 1017-1020, 1997. S.Seneff, L.Hirschman, V.Zue ,QWHUDFWLYH SUREOHP VROYLQJ DQG GLDORJXH LQ WKH $7,6 GRPDLQ. En proceedings del Fourth DARPA Speech and Natural Language Workshop, 354-359, 1991. Stolke,A., Shriberg,E. (1996): Statistical Language Modeling for Speech Disfluencies. 3URFHHGLQJV RI ,&$663 pp. 405-408. R.A. Sukkar, C.H. Lee, Vocabulary independent discriminative utterance verification for nonkeywords rejection in subword based speech recognition, IEEE trans on SAP, pp 420-429, Nov. 1996 M.H. Umari, Implementation of an Acoustic Echo Canceller using the Motorola DSP56001 Digital Signal Processor, Proc. of ICSPAT, vol I, pp. 173-178, October 1993. N.M. Veilleux and M. Ostendorf. Probabilistic parse scoring with prosodic information. In 3URFHHGLQJV RI WKH ,QWHUQDWLRQDO &RQIHUHQFH RQ $FRXVWLFV 6SHHFK DQG 6LJQDO 3URFHVVLQJ volume II, pages 51-55, April 1993. W. Ward. ([WUDFWLQJ ,QIRUPDWLRQ LQ 6SRQWDQHRXV 6SHHFK. Proceedings de ICSLP94, 83-86, 1994. Y. Wang & A. Waibel. 6WDWLVWLFDO $QDO\VLV RI 'LDORJ 6WUXFWXUH. En Proceeding de EUROSPEECH97, 2703-2706, 1997.
[Peskin,97]
[Pieraccini,97]
[Popovici,97]
[Rahim,95]
[Rahim,97]
[Reithinger,97]
[Rosenfeld,95]
[Schaaf-97]
[Schriberg ,94]
[Schwartz,92]
[Schultz,95]
[Seide,97]
[Seneff,91]
[Stolke,96]
[Sukkar,96]
[Umari,93]
[Veilleux93]
[Ward,94] [Wang,97]
[Weintraub,97]
Weintraub, M (1997): Automatic Learning of Word Pronunciation from Data. /DUJH 9RFDEXODU\ &RQWLQXRXV 6SHHFK 5HFRJQLWLRQ 6XPPHU 5HVHDUFK :RUNVKRS 7HFKQLFDO 5HSRUWV. Ed. F. Jelinek. Center for Language and Speech Processing. Jhons Hopkins University. Captulo 3. M. Woszcyna & A. Waibel. Inferring Linguistic Structure in Spoken Language. En Proceedings de ICSLP94, 847-850, 1994. T. Yamada, S. Nakamura, K. Shikano, Roboust Speech Recognition with Speaker Localization by a Microphone Array, Proc, ICSLP-96, Philadelphia, 1996. Young SJ, Woodland PC, Byrne WJ, Spontaneous Speech Recognition for the Credit Card Corpus using the HTK Toolkit, IEEE Transactions on Audio and Speech Processing, Vol 2, No 4, 615-621, 1994. Zeppenfeld, T., Finke, M., Ries, K., Westphal, M., Waibel, A. (1997): Recognition of conversational Speech using the Janus speech engine. 3URFHHGLQJV RI ,&$663 pp. 1815-1818.
[Woszcyna,94]
[Yamada,96]
[Young,94]
[Zeppenfeld,97]
2%-(7,926
Los grupos de investigacin solicitantes de este proyecto han trabajado durante muchos aos en las distintas reas involucradas en este proyecto. En el mbito del reconocimiento automtico del habla, tienen experiencia en anlisis y modelado de la seal vocal, tanto en ambientes limpios como en seales ruidosas, en particular seales telefnicas. Han realizado numerosas aportaciones en la estimacin de modelos acsticos, modelos lxicos y modelos de lenguaje, as como en la aplicacin de tcnicas de aprendizaje automtico para la obtencin de dichos modelos. Fruto de estos trabajos es la construccin de varios prototipos de sistemas de reconocimiento del habla para tareas especficas desarrollado dentro del proyecto TIC95-0884-C04 que permite reconocer en tiempo real y con tasas de reconocimiento superiores al 97% de palabras correctas consultas a una base de datos sobre geografa espaola. La evolucin natural de estos trabajos es profundizar en los aspectos relacionados con habla espontnea, lo que debe permitir el desarrollo de sistemas fcilmente utilizables por usuarios no expertos, as como implementar sistemas de dilogo hablado para poder abordar aplicaciones reales de consulta y obtencin de informacin mediante el habla. Respecto al proyecto anteriormente mencionado, en esta propuesta se ha incorporado el grupo 7UDWDPLHQWR GHO /HQJXDMH 1DWXUDO del Departamento de la UPC /HQJXDMH \ 6LVWHPDV ,QIRUPiWLFRV. Dicho grupo tiene experiencia en interfaces persona-mquina en lenguaje natural y constituyen un valioso potencial en el proyecto. En el rea de la generacin del mensaje oral, se han desarrollado y difundido prototipos de conversin de textos genricos a voz que han sido desarrollados por miembros del consorcio dentro del proyecto TIC95-1022-C05-04. El objetivo general de este proyecto consiste en el desarrollo de un sistema de dilogo que aborde una tarea a partir de habla natural, espontnea, sin otras restricciones que las que marca la propia aplicacin. Las caractersticas ms relevantes de un sistema de este tipo son: 1. Ha de ser robusto respecto al ruido y a las variaciones que se producen en el canal de comunicacin, fundamentalmente debido a la lnea telefnica. 2. Teniendo en cuenta que debe estar diseado para un uso general, no slo para usuarios expertos, el sistema debe hacer un tratamiento de los fenmenos del habla espontnea: discurso continuo, frases no gramaticales, fenmenos extralingsticos, etc., tanto a nivel acstico como a nivel de modelo del lenguaje utilizado en el reconocimiento. 3. Dado que el objetivo es el desarrollo de un sistema de utilidad prctica para el futuro usuario, y teniendo en cuenta las dificultades en el tratamiento de una entrada de habla espontnea, el sistema debe disearse para tratar una tarea definida en un dominio semntico restringido, como es el caso de las consultas a una base de datos con informacin acerca de un tema concreto. 4. El sistema debe soportar un vocabulario medio (unas 1000 palabras), que suele ser suficiente para dominios restringidos. Adems, debe incorporar el tratamiento de palabras desconocidas. 5. El sistema debe estar preparado para ser interrumpido por el usuario (por ejemplo para corregirle) debiendo introducir tcnicas de cancelacin del camino de retorno. 6. Debe introducir tcnicas de verificacin del estado del dilogo de forma que no diverja de lo asumido por el usuario debido a errores en el reconocimiento. 7. La respuesta oral del sistema debe ser lo ms natural posible, aprovechando para ello la informacin especfica de que se dispone en los sistemas de dilogo. 8. Por ltimo, el sistema debe ser de iniciativa mixta, tomando la iniciativa del dilogo cuando por ejemplo requiera informacin adicional, o proponga restricciones etc., pero dejando que el usuario pueda tambin tomar la iniciativa en la formulacin de la consulta. Para la construccin de un sistema de tales caractersticas se hace necesario, una vez seleccionada la tarea motivo del dilogo, disponer de un adecuado corpus de datos para dicha tarea. Como acabamos de indicar, la tarea debe consistir en peticiones de informacin en lenguaje natural hablado espontneo a una base de datos con informacin sobre un tema concreto. El corpus deber contener un conjunto suficientemente grande de muestras de dilogos persona-mquina, en el que cada dilogo consista en varios turnos que contengan frases sencillas en lenguaje natural hablado. Actualmente no se dispone de
ningn corpus pblico de estas caractersticas en castellano, por lo que el diseo de la tarea y la adquisicin, etiquetado y anlisis de un corpus representativo van a pasar a formar parte de los objetivos generales, y van a suponer un esfuerzo cualitativo y cuantitativo importante del proyecto. Dicho corpus es un recurso fundamental tanto para la investigacin como para el desarrollo de los sistema y lo valoramos como una notable contribucin que el proyecto realiza a los recursos de ingeniera del lenguaje disponibles en habla castellana. En resumen, fijamos los siguiente REMHWLYRV WHFQROyJLFRV del proyecto: 1. El desarrollo de un sistema de dilogo en habla espontnea. 2. La adquisicin y anotacin de un corpus de dilogo en habla espontnea en lengua castellana. Como ya ha sido dicho, para que el sistema de dilogo pueda utilizarse en situaciones reales, es necesario dotarle de robustez frente a la degradacin de la voz a reconocer provocadas por el canal de transmisin de la misma o el ambiente donde tiene lugar la transaccin oral. Es robustez est asociada a las tcnicas de representacin y modelado de la seal. Adems, en una situacin real de trabajo el sistema ha de afrontar el lenguaje espontneo del usuario, que posee una estructura con importantes diferencias respecto el lenguaje escrito. Sin embargo, los sistemas de reconocimiento y comprensin del habla se han basado fundamentalmente en elocuciones ledas, que conservan la estructura del lenguaje escrito. Es necesario, por tanto, estudiar y resolver las dificultades especficas que el habla espontnea plantea. El proyecto afronta tambin el reto de aglutinar los esfuerzos de dos comunidades cientficas, el procesado de voz y el tratamiento del lenguaje natural, que a pesar de estar destinadas a colaborar de forma imbricada en la llamada ingeniera del lenguaje, habitualmente han evolucionado de forma independiente. El conocimiento de las tcnicas y de los recursos utilizados por cada una de las partes se espera que contribuya al avance de ambas disciplinas no slo en lo que este proyecto significa, sino tambin en otras reas de comn inters. Por otra parte, hay que fijar como objetivo tambin, el estudio de la aplicacin de tcnicas de aprendizaje automtico en la construccin de las distintas partes del sistema de dilogo, siguiendo la tnica de los trabajos y proyectos de algunos de los grupos de investigacin participantes en los ltimos aos, y dados los buenos resultados de estas tcnicas en el campo del Reconocimiento Automtico del habla. Como consecuencia, fijamos los siguientes REMHWLYRV FLHQWtILFRV: 1. Proponer formas de representacin y de modelado acstico robustas a perturbaciones aditivas (ruido) y convolutivas (canal), as como desarrollar tcnicas de compensacin de modelos HMM que aborde ambos problemas de forma simultnea. 2. Proponer protocolos de comunicacin entre los mdulos de reconocimiento y comprensin robustos frente a errores del sistema de reconocimiento bsico y que incorporen informacin ilocutiva. 3. Realizar aportaciones cientficas en las reas del modelado acstico y del modelo del lenguaje utilizado en el mdulo de reconocimiento que palien la degradacin de los sistemas al ser utilizados con habla espontnea. 4. Aplicar tcnicas de aprendizaje automtico en las partes del sistema de dilogo ms adecuadas para ello. 5. Desarrollar modelos prosdicos especficos para sistemas de dilogo para ser aplicados en la generacin de la respuesta. 6. Integracin de tcnicas de tratamiento de la lengua escrita en un marco de tratamiento del lenguaje natural hablado. 7. Comparticin de corpus (orales y textuales), tecnologas y metodologas mediante la cooperacin de grupos que abordan el problema del interfaces persona-mquina desde varias perspectivas distintas.
0(72'2/2*$ < 3/$1 '( 75$%$-2
,1752'8&&,1 En este proyecto se afronta el desarrollo de un sistema de dilogo para habla espontnea partiendo de los resultados obtenidos en el proyecto coordinado TIC95-0884-C04, en lo que se refiere al reconocimiento de habla continua, y en el proyecto coordinado TIC95-1022-C05-04 en lo que se refiere a la conversin de texto a voz. El proyecto se ha estructurado en siete mdulos. Dada la ausencia de corpus orales pblicos de dilogo para tareas en dominios restringidos y tambin a la ausencia de corpus orales de habla espontnea, el primero de los mdulos se dedica a la adquisicin, anotacin y anlisis de un corpus oral de dilogos en habla espontnea. El segundo mdulo trata con la adecuacin del sistema de reconocimiento de habla continua a sistema de dilogo. En particular estudiar las cuestiones de robustez respecto al ambiente y al canal de comunicacin y aspectos relacionados con el interfaz entre el sistema de reconocimiento y el sistema de comprensin. El tercero de los mdulos se dedica a estudiar los efectos propios del habla espontnea y a investigar mtodos de actuacin que eviten la importante degradacin que sufren los sistemas en estas situaciones. El mdulo cuarto se dedica al desarrollo de un sistema de comprensin adaptado para aceptar seales de voz reconocidas por un sistema automtico. El mdulo quinto constituye el ncleo del sistema de dilogo y se ha denominado gestor del dilogo. Dicho sistema es el que coordina la actuacin de todos los subsistemas definiendo la estrategia de dilogo en toda su amplitud. El mdulo sexto se dedica a la generacin de intervenciones orales de alta calidad por parte del sistema estudiando las implicaciones que supone, para un sistema de produccin oral, el hecho de que se utilice en un sistema de dilogo. Finalmente, el ltimo mdulo se destina a definir una arquitectura del sistema que permita el funcionamiento del sistema global con tiempos viable dados con recursos computacionales asumibles y a construir un prototipo que demuestre la tecnologa desarrollada en el proyecto. En el proyecto participan seis grupos investigadores que sern designados mediante los siguiente acrnimos: EHU: Grupo de Reconocimiento Automtico del Habla/Mintzo Bereizkuntza Automatikoaren Taldea, Departamento de Electricidad y Electrnica, Euskal Herriko Unibertsitatea (Universidad del Pas Vasco). Grupo de Aprendizaje Computacional, Reconocimiento Automtico y Traduccin del Habla, Departament d'Informtica, Universitat Jaume I.
UJI:
UPC-I: Grupo de Tratamiento del Lenguaje Natural, Departamento de Lenguajes y Sistemas Informticos, Universitat Politcnica de Catalunya. UPC-T: Grupo de Tratamiento del Habla, Departamento de Teora de la Seal y Comunicaciones, Universitat Politcnica de Catalunya. UPV: UZ: Grupo de Reconocimiento de Formas e Inteligencia Artificial, Departamento de Sistemas Informticos y Computacin, Universidad Politcnica de Valencia. Grupo de Tecnologias de las Comunicaciones, Departamento de Ingeniera Electrnica y Comunicaciones, Universidad de Zaragoza.
0'8/26 < $&7,9,'$'(6 '(/ 352<(&72 1',&( *(1(5$/ 0'8/2 *(67,1 < &225',1$&,1 '(/ 352<(&72 &RRUGLQDGRU GHO PyGXOR 83&7 3DUWLFLSDQ (+8 8-, 83&, 839 8= 0'8/2 (/(&&,1 '( /$ 7$5($ < $'48,6,&,1 '( &25325$ '( ',/2*26 &RRUGLQDGRU GHO PyGXOR 83&7 3DUWLFLSDQ (+8 8-, 83&, 839 8= Actividad 1.1: Eleccin de la tarea. (EHU, UJI, UPC-I, UPC-T, UPV, UZ) (EHU, UJI, UPC-I, UPV) UPC-T (UPC-T) (EHU, UZ) (UPC-I, UPV) (UPC-I, UPV) (UPC-T) (EHU, UZ) (UPC-I, UPV) (UPC-I) Actividad 1.2: Definicin del mtodo de etiquetado del corpus. Actividad 1.4: Adquisicin de un corpus de dilogos persona-persona.
Adquisicin seales de voz. Transcripcin de las seales.
Actividad 1.3: Desarrollo de una plataforma para adquisicin de corpus de dilogos
Actividad 1.5: Anlisis y clasificacin del corpus persona-persona. Actividad 1.6: Adquisicin de un corpus de dilogos persona-mquina.
Definicin de escenarios. Adquisicin seales de voz. Transcripcin de las seales.
Actividad 1.7: Anlisis y clasificacin del corpus persona-mquina. Actividad 1.8: Desarrollo de la base de datos de la tarea 0'8/2 6,67(0$ '( 5(&212&,0,(172 '(/ +$%/$ &RRUGLQDGRU GHO PyGXOR 83&7 3DUWLFLSDQ 8= 839 Actividad 2.1: Cancelacin de ruido activo y camino de retorno; arrays de microfonos. Actividad 2.2: Modelado robusto de la seal de voz. Actividad 2.3: Reconocimiento de la entonacin como gua del discurso. Actividad 2.4: Verificacin del reconocimiento. Actividad 2.5: Interfaz con el sistema de comprensin. 0'8/2 02'(/$'2 '( /26 )(10(126 $62&,$'26 $/ +$%/$ (632171($ &RRUGLQDGRU GHO PyGXOR (+8 3DUWLFLSDQ 8= 8-, Actividad 3.1: Estudio de las disfluencias acsticas y sintcticas en habla espontnea Actividad 3.2: Modelado acstico y lxico en habla espontnea. Actividad 3.3: Modelado del lenguaje en habla espontanea.
UZ UPC-T UPC-T UPC-T, UZ UPC-T, UPV
EHU, UJI EHU EHU, UJI
Actividad 3.4: Tratamiento de palabras externas al vocabulario y eventos no lxicos. EHU, UJI, UZ Actividad 3.5: Metodologa de evaluacin del modelado acstico/lexico y del modelado del lenguaje en habla espontnea. EHU, UZ
0'8/2 '(6$552//2 '(/ 6,67(0$ '( &2035(16,1 '(/ +$%/$ &RRUGLQDGRU GHO PyGXOR 839 3DUWLFLSDQ 83&, 83&7 8-, Actividad 4.1: Definicin de la representacin sintctica. Actividad 4.2: Definicin de la representacin semntica. Actividad 4.3: Control del texto. Actividad 4.4: Desarrollo del tcnicas de anlisis parciales. Actividad 4.5: Desarrollo del sistema de comprensin. Interpretacin semntica. Actividad 4.7: Evaluacin 0'8/2 '(6$552//2 '(/ &21752/$'25 '( ',/2*2 &RRUGLQDGRU GHO PyGXOR 839 3DUWLFLSDQ 83&, 83&7 8-, Actividad 5.1: Mtodos para la extraccin de la estructura del dilogo . Actividad 5.2: Diseo de la estrategia del dilogo. Actividad 5.3: Modelado y gestin de la historia del dilogo. Actividad 5.4: Generacin de requerimientos a la base de datos. Actividad 5.5: Generacin de respuesta al usuario. Actividad 5.6: Evaluacin 0'8/2 *(1(5$&,1 '( /$ 5(638(67$ 25$/ &RRUGLQDGRU GHO PyGXOR 83& Actividad 6.1: Diseo y construccin del mdulo generador de frases UPC Actividad 6.2: Estudio y estimacin de modelos prosdicos basados en la sintaxis aplicados a la sntesis de voz UPC Actividad 6.3: Desarrollos de modelos prosdicos especficos para tareas de dilogo. Actividad 6.4: Estudio de mtodos segmentales de alta calidad. 0'8/2 ,17(*5$&,1 '(/ 6,67(0$ '( ',/2*2 &RRUGLQDGRU GHO PyGXOR 8= 3DUWLFLSDQ (+8 83&, 83&7 839 Actividad 7.1: Arquitectura del sistema global Actividad 7.2: Integracin de procedimientos y modelos Actividad 7.3: Integracin del prototipo EHU, UPC-I, UPC-T, UPV, UZ EHU, UPC-I, UPC-T, UPV, UZ UPC-T, UZ UPC UPC UJI, UPC-I, UPV UJI, UPC-I, UPC-T,UPV UJI,UPC-I,UPV UJI, UPV UJI, UPV UJI, UPV Actividad 4.6: Incorporacin del conocimiento contextual del controlador de dilogo UPC-I, UPC-T UPC-I, UPC-T, UPV UPC-I UPC-I, UPV UJI, UPC-I, UPV UPV UPV
',$*5$0$ *(1(5$/ '( 7,(0326

$&7,9,'$'(6 0 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ $xR $xR $xR &(1752 EHU, UJI, UPC-I, UPCT, UPV, UZ EHU, UJI, UPC-I, UPCT, UPV, UZ EHU, UJI, UPC-I, UPV UPC-T EHU, UPC-T, UZ UPC-I, UPV EHU, UPC-I, UPC-T, UPV, UZ UPC-I, UPV UPC-I UZ UPC-T UPC-T UPC-T, UZ UPC-T, UPV EHU, UJI EHU EHU, UJI EHU, UJI, UZ EHU, UZ UPC-I, UPC-T UPC-I, UPC-T, UPV UPC-I UPC-I, UPV UJI, UPC-I, UPV UPV UPV UJI, UPC-I, UPV UJI, UPC-I, UPC-T, UPV UJI, UPC-I, UPV UJI, UPV UJI, UPV UJI, UPV UPC-T UPC-T UPC-T UPC-T EHU, UPC-I, UPC-T, UPV, UZ EHU, UPC-I, UPC-T, UPV, UZ UPC-T, UZ
'(6&5,3&,1 '(7$//$'$ '( 0'8/26 < $&7,9,'$'(6 '(/ 352<(&72 0'8/2 *(67,1 < &225',1$&,1 '(/ 352<(&72 En un proyecto de esta envergadura y con tan alto grado de interdependencia, una tarea no despreciable es la coordinacin de las actividades. Las tareas de gestin sern realizadas fundamentalmente por el investigador principal del proyecto y por los investigadores principales de cada uno de los subproyectos. En la coordinacin tcnica participan, en mayor o menor grado, todos los participantes del proyecto. La coordinacin se regir por las siguientes lneas de actuacin: Reuniones peridicas entre los participantes, con periodicidad semestral. Siguiendo con la metodologa establecida en proyectos anteriores, dichas reuniones contendrn una parte general donde se revisar el estado de las actividades y se tomarn decisiones que afecten a la marcha general de proyecto. En los mismos encuentros se celebrarn reuniones entre algunos de los grupos participantes para coordinar las actividades entre mdulos o dentro del mismo mdulo. A dicha reunin sern invitados los EPOs que han mostrado inters por el proyecto. A partir del acta de la reunin se elaborar un informe que ser enviado a aquellos EPOs que no hayan asistido a la reunin con objeto de que puedan realizar un seguimiento del estado del proyecto. La coordinacin habitual se articular a nivel de proyecto por medio de los investigadores principales de los subproyectos. Adems, para facilitar la coordinacin de las distintas tareas, se ha asignado ya en la propuesta la coordinacin de cada mdulo a uno de los grupos participantes. Al inicio del proyecto, el investigador que asuma la tarea de coordinacin establecer un mtodo de trabajo con los distintos investigadores que participan en el mdulo. Se establecern de este modo los grupos de trabajo que utilizarn en su actividad habitual reflectores de correo electrnico como medio de comunicacin. Se darn de alta en las mquinas de cada uno de los grupos participantes, zonas de acceso comn para el intercambio de datos y de procedimientos. Un objetivo concreto de la coordinacin es el de desarrollar un prototipo conjunto. Se prev que en el segundo semestre del segundo ao estn definidos, los interfaces de comunicacin entre todos los mdulos que interactan en el prototipo. Esto permitir continuar la investigacin bsica durante prcticamente toda la vida til del proyecto y poder incorporar sin dificultad, en el sistema de dilogo, las mejoras significativas que se produzcan. 0'8/2 (/(&&,1 '( /$ 7$5($ < $'48,6,&,1 '( &25325$ '( ',/2*26 En este mdulo se definir la plataforma y el procedimiento para la adquisicin, etiquetado y anlisis de un corpus oral de dilogo que contemple los fenmenos del habla espontnea. Se pretenden adquirir dilogos bajo dos modalidades: persona-persona, que permite conocer las expectativas que los usuarios tienen del servicio y una primera aproximacin al lxico y estructuras lingusticas, etc., y un segundo corpus de dilogos persona-mquina (bien mediante la utilizacin de un prototipo, bien mediante la tcnica conocida como 0DJR GH 2]) que permita modelar el modo de iteraccin entre una persona y una mquina, con las particularidades propias que este tipo de comunicacin presenta: necesidad de verificacin, errores del reconocimiento, indecisin por parte del usuario, etc. Como resultado de este mdulo se producir una base de datos oral, en soporte CD-ROM, conteniendo un corpus anotado de dilogos en castellano para una tarea en un dominio restringido. $FWLYLGDG (OHFFLyQ GH OD WDUHD Un aspecto que puede condicionar enormemente la tecnologa que se desarrolle en la vida del proyecto es la eleccin de la tarea. En este proyecto no quiere desarrollar un servicio comercial sino investigar tcnicas y adquirir el conocimiento necesario para poder desarrollar una tecnologa que permita afrontar la utilizacin de tareas de dilogo en aplicaciones diversas. La tarea se ha de elegir lo suficientemente
restringida como para que pueda ser abordada con el estado del arte actual de los sistemas de reconocimiento y comprensin. Por otra parte, ha de ser lo suficientemente compleja como para que sea representativa de los fenmenos que ocurren en un sistema de dilogo. La determinacin de la tarea se realizara mediante el estudio bibliogrfico de los sistemas que se estn desarrollando en Europa, y la consulta a entidades que puedan colaborar en la adquisicin de los dilogos. La intencin del consorcio es que se corresponda a un servicio existente que exija interaccin entre el agente y el usuario. Al existir el servicio posibilita disponer de dilogos naturales, realizados por usuarios familiarizados con el servicio. Por otra parte, es posible adquirir un primer corpus de partida grabando directamente dilogos persona-persona en un entorno real de funcionamiento. Las aplicaciones de ms inters son las de consulta de informacin y/o transaccin: informacin de abonados telefnicos, horarios de transportes (informacin RENFE, IBERIA o cualquier otra entidad), informacin sobre valores en bolsa, o en general, servicios WHOHEDQFR, compra de entradas al cine, teatro u otros espectculos (VHUYLFLR WHOHHQWUDGDV ofrecido por ejemplo por La Caixa de Catalunya), puntos de informacin sobre una ciudad o institucin, etc. Con objeto de simplificar en el primer trabajo que sobre dilogo de habla espontnea realizan los participantes, creemos que es preferible afrontar tareas relativamente sencillas, tal y como se est realizando en muchos proyectos europeos. En este sentido se prefiere consultas sobre transportes a compra de entradas a espectculos, por tener un vocabulario ms limitado e invariante; anlogamente, se preferira a informacin sobre una ciudad por ser su semntica ms restringida y por tratarse de interfaces monomodales. $FWLYLGDG 'HILQLFLyQ GHO PpWRGR GH HWLTXHWDGR GHO FRUSXV En esta tarea se estudiarn las opciones para etiquetar corpus de dilogo tanto persona-persona como persona-mquina, para el caso de tratar con habla espontnea. Un punto de referencia son las recomendaciones que realiza ($*/(6 (([SHUW $GYLVRU\ *URXS RQ /DQJXDJH (QJLQHHULQJ 6WDQGDUV) sobre el etiquetado de corpus orales as como los criterios utilizados en proyectos como ATIS, etc. $FWLYLGDG 'HVDUUROOR GH XQD SODWDIRUPD SDUD DGTXLVLFLyQ GH FRUSXV GH GLiORJRV En esta actividad se desarrollar una plataforma de adquisicin de corpus de dilogos sobre lnea telefnica. Se dispone de una plataforma que permite adquirir seales de corpus ledos en un protocolo rgido entre el sistema de adquisicin y el informante. Para el corpus de dilogo es necesario adquirir las seales de ambos interlocutores, sean persona-persona o persona-mquina. Adems la adquisicin ha de realizarse simultneamente para representar interrupciones, solapes, etc. La plataforma de la que se parte utiliza lnea RDSI, lo que presenta una dificultad para sincronizar ambos canales de comunicacin. En esta tarea se evaluar la conveniencia de adaptar dicha plataforma o bien de transportarla a una plataforma que soporte lnea analgica convencional. La plataforma de adquisicin ser adems la base para incorporar el prototipo sobre lnea telefnica. $FWLYLGDG $GTXLVLFLyQ GH XQ FRUSXV GH GLiORJRV SHUVRQDSHUVRQD La adquisicin del primer corpus de dilogo persona-persona consta de la adquisicin de las seales de voz propiamente dicha as como de su transcripcin ortogrfica (incorporando anotaciones propias del habla espontnea). $FWLYLGDG $QiOLVLV \ FODVLILFDFLyQ GHO FRUSXV SHUVRQDSHUVRQD A partir de las transcripciones del corpus persona-persona se analizarn los distintos fenmenos que ocurren en un dilogo. Se establecer adems una clasificacin de los dilogos atendiendo a diversos criterios: tipo de intervencin, informacin que requiere, valoracin por parte de los expertos de que las distintas intervenciones se produjeran en dilogos persona-mquina, etc. $FWLYLGDG $GTXLVLFLyQ GH XQ FRUSXV GH GLiORJRV SHUVRQDPiTXLQD Esta actividad es anloga a la 1.4 pero para dilogos persona-mquina. No se ha creado una tarea especfica para la plataforma que sera desarrollada entre la actividad 1.3 y la actividad 7.3. En la adquisicin de dilogos persona-mquina se aconseja adquirir dilogos de usuarios de distinta procedencia: participantes del desarrollo del sistema, personal del grupo de trabajo que no haya participado en el proyecto ni conozca la tecnologa, etc. y finalmente usuarios reales. Dado que no se
pretende desarrolla un sistema que de respuesta a un servicio (como consulta a horarios de trenes) sino un prototipo, se disearn unos escenarios que han de utilizar los informantes que informan, por ejemplo, de las capacidad de la base de datos. Los escenarios se presentarn de forma iconogrfica para evitar condicionamientos en la utilizacin del lxico y de las estructuras del lenguaje. $FWLYLGDG $QiOLVLV \ FODVLILFDFLyQ GHO FRUSXV SHUVRQDPiTXLQD Esta tarea es anloga a la 1.5 pero para dilogos persona-mquina. Esta tarea, junto con la anterior, permanece activa todo el proyecto. Por una parte, el corpus puede ser adquirido de forma incremental utilizando el prototipo en distintas etapas del proyecto. Por otra parte, las ltimas adquisiciones sern utilizadas como evaluacin del sistema. $FWLYLGDG 'HVDUUROOR GH OD EDVH GH GDWRV GH OD WDUHD Con objeto de disponer de un prototipo es preciso desarrollar una base de datos y los interfaces a la base de datos. Dependiendo del tamao de la tarea se restringir el tamao de la base de datos ya que no es el objetivo de este proyecto. En este mismo sentido han actuado varios prototipos en los proyectos Europeos de informacin de trenes, que limitan las consultas, por ejemplo, a trenes de alta velocidad. 0'8/2 6,67(0$ '( 5(&212&,0,(172 '(/ +$%/$ En este mdulo se estudiarn los aspectos del sistema de reconocimiento que son propios del sistema de dilogo que se desea desarrollar y que no han sido tratado en los prototipos de sistemas de reconocimiento del habla desarrollados en los sistemas actuales. Dada la importancia que ejerce el habla espontnea en los modelos de las distintas reas cognitivas, los modelos acsticos, lxicos y del lenguaje que se utilizan en este mdulo de reconocimiento del habla sern desarrollados en un mdulo especfico, el mdulo 3. Aqu se trata fundamentalmente temas de robustez ligados al modelado de la seal y el interfaz con el sistema de comprensin. $FWLYLGDG &DQFHODFLyQ GH UXLGR DFWLYR \ FDPLQR GH UHWRUQR DUUD\V GH PLFURIRQRV Inicialmente se trabajar en la cancelacin de eco acstico, fundamental para permitir la interrupcin del sistema mientras genera una respuesta. Para ello, se partir de los esquemas de cancelacin desarrollados en el proyecto TEMA del PLANBA, consistentes en estructuras FIR en el dominio transformado, y se investigarn nuevas soluciones basadas en estructuras IIR e hbridas FIR/IIR. Orientado a terminales manos libres o a entornos tipo vestbulo, se trabajar en el control activo de ruido (CAR) y en la utilizacin de agrupaciones de micrfonos. Se utilizar el CAR para la creacin de una burbuja de silencio alrededor del micrfono mediante tcnicas de control local. Se programarn varios esquemas de CAR usando diferentes tipos de algoritmos a fin de disponer de un simulador del escenario real lo ms fiel posible. La prueba y evaluacin de los mismos se realizar con las seales reales previamente adquiriridas. Este simulador permitir hacer una preseleccin bastante fiable del esquema, algoritmos y ubicacin ms adecuada de los actuadores. Finalmente, se desarrollar un sistema de adquisicin a travs de una agrupacin de micrfonos, estudindose distintas configuracin de la agrupacin y tcnicas de conformacin de haz. Trabajaremos sobre la restriccin de partida de que la posicin del usuario es conocida, permitiendo a partir de este conocimiento el seguimiento para movimientos alrededor de esta posicin. $FWLYLGDG 0RGHODGR UREXVWR GH OD VHxDO GH YR] Las seales de prueba correspondientes a dilogos sern captadas en ambientes reales a travs de lnea telefnica. El aprendizaje se llevar a cabo con bases de datos ya existentes, recogidas a travs de micrfono en ambientes favorables (como $OED\]tQ). Para conseguir un acercamiento a las condiciones de prueba, las seales sern contaminadas con ruido ambiental y pasadas por lnea telefnica. Se abordarn los problemas relativos a las perturbaciones de tipo aditivo (ruido ambiental) y convolutivo (efecto del canal), tanto en el dominio de los parmetros que representan la seal de voz como en el de los modelos acsticos. Los parmetros pueden ser determinados y procesados en el espacio conjunto tiempo-frecuencia con el fin aumentar su robustez a ambos tipos de perturbaciones.
Con un planteamiento multibanda pretendemos obtener una mayor flexibilidad en el uso de la representacin por parte de los modelos de Markov ocultos. Por otro lado, se pretende desarrollar una tcnica de compensacin de modelos que aborde el tratamiento conjunto del ruido aditivo (ruido ambiental) y convolutivo (efecto del canal). Dicho mtodo ha de ser computacionalmente asequible y no debe hacer uso de informacin a priori, pues no se dispone de ella en condiciones reales. $FWLYLGDG 5HFRQRFLPLHQWR GH OD HQWRQDFLyQ FRPR JXtD GHO GLVFXUVR En el tratamiento del lenguaje natural escrito ejerce una importancia enorme la presencia de signos de puntuacin. En esta actividad se investigar las prestaciones de un sistema de reconocimiento automtico del modo ilocutivo de la intervencin. Adems se quiere investigar la la correlacin entre la entonacin y las distintas disfluencias de habla espontnea con objeto de poder utilizar la informacin tanto en el modelado del lenguaje (y por tanto en la descodificacin acstico-lxica) como en la comprensin. Para ello se estudiarn mtodos de anlisis de la entonacin basados en la identificacin de rasgos relevantes de las curvas de contornos de F0 que permitan categorizar comportamientos del SLWFK y se analizar la correlacin de dicho observable con la informacin. En lo que a la informacin ilocutiva se refiere, en esta propia tarea se aplicarn mtodos de clasificacin. $FWLYLGDG 9HULILFDFLyQ GHO UHFRQRFLPLHQWR Este trabajo de investigacin tiene como objetivo establecer a las medidas de confianza como un medio viable de manejar la incertidumbre contenida en los resultados del reconocimiento en diversos entornos y aplicaciones, y emplearlas como base para rechazar o validar dichos resultados. Inicialmente se incorporar sobre la arquitectura de reconocimiento, las tcnicas de verificacin ya desarrolladas en el anterior proyecto CICYT TIC95-0884-C04-04 basadas en el ratio de probabilidades. Se estudiar la incorporacin de la informacin del modelo de lenguaje en el clculo de la medida de confianza, as como la utilizacin de la medida de confianza acstica en la reestimacin del modelo del lenguaje A partir de este PpWRGR EDVH, se propone desarrollar un etiquetador de la fiabilidad del reconocimiento a travs de medidas de confianza que consideren mltiples caractersticas del proceso reconocedor de habla; que sea tan independiente del mbito de aplicacin como sea posible y que sirva como base de un sistema de verificacin automtica del reconocimiento. Se pretende as mismo, utilizar las medidas de confianza para reestimar el modelo del lenguaje y su ponderacin frente al modelo acstico en el proceso de decodificacin. $FWLYLGDG ,QWHUID] FRQ HO VLVWHPD GH FRPSUHQVLyQ El interfaz entre el sistema de reconocimiento y el de comprensin es fundamental en un interfaz de persona hacia mquina. En esta tarea se realizar un estudio comparativo de las distintas opciones contempladas en los sistemas de dilogo: mejor descodificacin, n-mejores y grafo de palabras. Tambin se contempla la posibilidad de enriquecer la representacin mediante la identificacin de palabras externas al vocabulario (actividad 3.4) que pueden ser desambiguadas por un mdulo superior (con o sin realimentacin al sistema de reconocimiento), medidas de confianza sobre las palabras reconocidas (actividad 2.4) e informacin prosdica (actividad 2.3). Dependiendo de los resultados que se obtengan en la actividad 2.3, el interfaz podr contener indicadores que permitan realizar hiptesis sobre la informacin ilocutiva de las elocuciones. 0'8/2 02'(/$'2 '( /26 )(10(126 $62&,$'26 $/ +$%/$ (632171($ $FWLYLGDG (VWXGLR GH ODV GLVIOXHQFLDV DF~VWLFDV \ VLQWiFWLFDV HQ KDEOD HVSRQWiQHD Se realizar un estudio exhaustivo de las disfluencias del corpus de dilogos persona-persona fundamentalmente, aunque sus conclusiones se revisarn tras la adquisicin del corpus de dilogo persona-mquina. Se estudiar la mejor forma de clasificacin para su posterior etiquetado y modelado. En principio se propone una clasificacin grosera en eventos ajenos al lxico, coletillas y alteraciones del lxico y de la sintaxis. En funcin de su importancia y frecuencia de aparicin se propondr una nueva clasificacin que incluya la omisin de fonemas y palabras, repeticiones, alteraciones de la
velocidad de elocucin, posicin de la disfluencia en el dilogo, subconjuntos de eventos ajenos al lxico, etc. Esta actividad se realizar de forma coordinada con las actividades 1.2, 1.6 y 1.8. $FWLYLGDG 0RGHODGR DF~VWLFR \ Op[LFR GH KDEOD HVSRQWiQHD En esta actividad se abordar el modelado de los eventos no lxicos que aparecen en habla espontnea. El punto de partida son las metodologas disponibles, ya contrastadas en trabajos anteriores. Se ampliar la complejidad de los modelos acsticos (HMM) aumentando el nmero de parmetros a estimar y, quizs, incluyendo modelos dependientes del gnero o estilo del locutor. Tambin se ampliar el conjunto actual de unidades incontextuales incluyendo nuevos smbolos, y, por tanto, modelos, que caracterizan los fenmenos acsticos ms frecuentes. Las unidades contextuales disponibles han sido obtenidas mediante rboles de decisin. Para el tratamiento del habla espontnea se propone aumentar la ventana de anlisis, contemplando un nmero mayor que uno de contextos izquierda y derecha en el desarrollo de los rboles (polfonos). El objetivo es incluir efectos de coarticulacin menos locales, mucho ms frecuentes en habla espontnea que en habla leda. Tambin se incluir un modelo fonolgico que ayude a limpiar las descodificaciones sub-lxicas. Si bien la palabra es la unidad natural de los modelos de lenguaje sintcticos, no tiene sentido como evento acstico. Obviar este hecho es an ms grave cuando se trabaja con habla espontnea. Por lo tanto se prestar especial atencin a los efectos coarticulatorios entre palabras, incluyendo modelos especficos. Tambin se propone, en funcin de la composicin del corpus a adquirir, la utilizacin de grafos de palabras para recoger diferencias de pronunciaciones debidas a la diversidad de estilos y velocidad de elocucin de los locutores (no se pretenden incluir variedades dialectales). El objetivo es obtener modelos especialmente robustos de palabras de uso frecuente, nombres propios y palabras cortas. Finalmente se valorar la posibilidad de bien, filtrar los eventos ajenos al lxico, bien obtener modelos especficos para ellos, aumentando la talla del vocabulario. Esta valoracin se realizar de forma conjunta con el diseo del modelo de lenguaje. $FWLYLGDG 0RGHODGR GHO OHQJXDMH HQ KDEOD HVSRQWiQHD En esta tarea se utilizarn modelos K-explorables suavizados que se entrenarn a partir de un corpus amplio de texto. Se propone su interpolacin con modelos entrenados con un conjunto reducido de transcripciones de los dilogos adquiridos. En este segundo caso el lxico incluir la transcripcin de algunas disfluencias, de acuerdo con las conclusiones de la actividad 3.1. Esta aproximacin supone la asuncin de las disfluencias como elementos del modelo de lenguaje. Alternativamente se puede considerar un segundo modelo basado en categoras de palabras dnde las disfluencias son consideradas, convenientemente clasificadas, como nuevas categoras. El estudio y desarrollo de esta aproximacin se realizar de forma coordinada con el desarrollo del modelo semntico del mdulo 4. Un enfoque alternativo es la consideracin de las disfluencias como generadas por un modelo oculto especfico a estimar. Si bien no se descarta este enfoque, su posible desarrollo queda condicionado a la composicin final de los corpora a adquirir, ya que sera necesario un corpus amplio compuesto de transcripciones dilogos convenientemente etiquetadas. En sta, como en el resto de las actividades del mdulo, se ha tratado de evitar el uso de metodologas que requieran grandes corpora de entrenamiento especfico. $FWLYLGDG 7UDWDPLHQWR GH SDODEUDV H[WHUQDV DO YRFDEXODULR \ HYHQWRV QR Op[LFRV A nivel acstico, partiendo de los resultados obtenidos por las tcnicas de verificacin del reconocimiento desarrolladas en la actividad 2.4, se estudiar la forma de adaptar el sistema de verificacin para detectar la presencia de palabras y eventos no lxicos no contemplados en el vocabulario del sistema. De este modo se informar al sistema de dilogo de la existencia de un evento sonoro no contemplado en el vocabulario. A nivel de lenguaje, se estudiar la definicin de clases gramaticales susceptibles de aceptar nuevas palabras (clases gramaticales abiertas). La deteccin de nuevas palabras sobre una clase gramatical abierta, unido a tcnicas de desambiguacin sintctica y semntica, permitir estudiar tcnicas de incorporacin de la nueva palabra al vocabulario de la clase gramatical.
$FWLYLGDG 0HWRGRORJtD GH HYDOXDFLyQ GHO PRGHODGR DF~VWLFROp[LFR \ GHO PRGHODGR GHO OHQJXDMH HQ KDEOD HVSRQWiQHD En esta actividad se evaluarn las diferentes aportaciones de los modelos acsticos, lxicos y sintcticos a las prestaciones del reconocedor. Se realizar un estudio de las fuentes de error cuyo objetivo es la ponderacin adecuada de todas las fuentes de conocimiento, as como la posibilidad de establecer medidas de confianza tanto para los modelos acsticos como de lenguaje en funcin de las probabilidades y de la perplejidad local. En muchas ocasiones es interesante poder predecir las prestaciones de un sistema de reconocimiento sobre un texto arbitrario sin necesidad de tener muestras de voz. La perplejidad es utilizada para medir la efectividad del modelo de lenguaje, pero como no utiliza informacin acstica, no se puede afirmar que una disminucin en la perplejidad resulta necesariamente en una mejora en el sistema de reconocimiento. As pues, es necesario desarrollar nuevas medidas de dificultad que permitan evaluar de forma mas realista las contribuciones del modelado acstico y de lenguaje. En el proyecto TIC95-0884C04-04 se estudio la utilizacin de una nueva medida que combina la informacin acstica y de lenguaje, mostrando una buena correlacin entre la medida y las tasas de error del sistema. Dentro de esta actividad, se profundizar en la definicin de una medida de dificultad de tarea que contemple los diversos parmetros que conforman un sistema de reconocimiento. Se estudiar la incorporacin de la informacin de verificacin del reconocimiento en el clculo de la dificultad de la tarea. Adems, se propondr una metodologa para la reestimacin del modelo de lenguaje a partir de la minimizacin de la medida de dificultad de la tarea. 0'8/2 6,67(0$ '( &2035(16,1 El objetivo de este mdulo es el desarrollo del sistema que obtiene la interpretacin semntica de la entrada para pasrsela al controlador de dilogo. El sistema reconocedor proporcionar a este mdulo una entrada de las establecidas en la actividad 2.5. El sistema de comprensin deber saber manejar dicha entrada y evaluar entre las distintas opciones aquella ms ventajosa. Por otra parte, como la salida del reconocedor puede contener errores gramaticales, bien por estar contenidos en la entrada al sistema (habla espontnea), bien errores cometidos por el reconocedor, el mdulo de comprensin debe incorporar la posibilidad de hacer anlisis parciales de la entrada, y por tanto, interpretaciones parciales de la entrada. $FWLYLGDG 'HILQLFLyQ GH OD UHSUHVHQWDFLyQ VLQWiFWLFD Un paso previo -pero imprescindible- a la compresin de las intervenciones del interlocutor humano es el control del texto a tratar. Para ello se han de definir las etiquetas, que deben incluir informacin morfosintctica y semntica, que se asociarn a las unidades, tanto lxicas como de ms amplia cobertura, y las relaciones sintcticas a utilizar, as como la forma de expresar estas relaciones. $FWLYLGDG 'HILQLFLyQ GH OD UHSUHVHQWDFLyQ VHPiQWLFD Tras un estudio de las posibilidades en la representacin semntica del mensaje en este tipo de dilogos (FDVHIUDPHV, formas lgicas, lenguajes semnticos especficos para la tarea, etc.), se disear una determinada representacin semntica. $FWLYLGDG &RQWURO GHO WH[WR El control del texto incluye procesos como la fragmentacin (p.ej. la deteccin de las fronteras entre oraciones o la utilizacin de modelos del lenguaje para seleccionar la hiptesis ms plausible de entre las proporcionadas por el mdulo 2), el tratamiento de unidades lxicas no estndar (como locuciones, palabras desconocidas o no pertenecientes al dominio, etc.), la asignacin de informacin (p.ej. etiquetado morfosintctico o semntico) procedente de fuentes diversas (lexicones, diccionarios, bases de datos terminolgicas, etc) y la desambiguacin gramatical (pos tagging) y semntica (WSD, Word Sense Disambiguation)
$FWLYLGDGHV \ 'HVDUUROOR GH WpFQLFDV GH DQiOLVLV SDUFLDOHV 6LVWHPD GH FRPSUHQVLyQ ,QWHUSUHWDFLyQ VHPiQWLFD Se desarrollarn los algoritmos para la obtencin de la interpretacin semntica en base a la representacin semntica escogida en la tarea anterior. Se implementarn algoritmos de anlisis parcial, y tcnicas para la recuperacin de la interpretacin semntica a partir de estos anlisis parciales. $FWLYLGDG ,QFRUSRUDFLyQ GHO FRQRFLPLHQWR FRQWH[WXDO GHO FRQWURODGRU GH GLiORJR El hecho de que la entrada al sistema sea de habla espontnea y en lenguaje natural hace que el proceso de reconocimiento y el de interpretacin semntica sean bastante complejos. Es por ello que se hace necesaria la incorporacin del conocimiento pragmtico recogido por el mdulo de dilogo a los mdulos de reconocimiento y de comprensin. Este conocimiento pragmtico vendr dado por el estado de dilogo, la previsin acerca de la unidad de dilogo esperada, etc., y se utilizar para acotar el espacio de bsqueda tanto en la fase de reconocimiento como en la de comprensin. En esta tarea se desarrollarn las tcnicas para la incorporacin de este conocimiento. $FWLYLGDG (YDOXDFLyQ Se realizar la evaluacin de las partes del sistema desarrolladas en este mdulo. 0'8/2 '(6$552//2 '(/ &21752/$'25 '( ',/2*2 El objetivo de este mdulo es el desarrollo del controlador de dilogo, que obtiene la informacin de la base de datos requerida por el usuario, bien en forma de texto, tablas o grficos. Normalmente la informacin proporcionada por el usuario en un nico turno de dilogo no es suficiente para la construccin del requerimiento completo a la base de datos. Por otra parte, esa informacin puede contener ambigedades o errores debidos al proceso de reconocimiento o comprensin. Es por todo esto, que el objetivo final se consigue tras varias interacciones con el usuario (turnos de dilogo). En los casos en que la informacin de la frase de entrada sea insuficiente o ambigua, el controlador de dilogo debe preguntar al usuario las aclaraciones necesarias, activando para ello al generador de respuestas. Por otra parte, podemos considerar que un dilogo es una secuencia de unidades de dilogo (VSHHFK DFWV) como inicio de dilogo, pregunta especfica, respuesta del sistema pidiendo aclaraciones, respuesta del sistema pidiendo informacin, etc. Podemos tambin considerar que estas secuencias vienen producidas por la existencia de una estructura de dilogo, que puede ser representada por un modelo formal, por ejemplo, una mquina de estados finitos. Dicha estructura de dilogo puede ser utilizada como un modelo de prediccin para mejorar las prestaciones del sistema reconocedor o/y de comprensin. $FWLYLGDG 0pWRGRV SDUD OD H[WUDFFLyQ GH OD HVWUXFWXUD GHO GLiORJR En esta tarea se desarrollarn tcnicas de aprendizaje automtico para la obtencin de la estructura del dilogo. Se aplicarn para el etiquetado de nuevos dilogos en unidades de dilogo, y se utilizarn como modelo de prediccin para mejorar las prestaciones del reconocedor y del sistema de comprensin. $FWLYLGDGHV \ 'LVHxR GH OD HVWUDWHJLD GHO GLiORJR 0RGHODGR \ JHVWLyQ GH OD KLVWRULD GHO GLiORJR Se disear la estrategia general del controlador de dilogo. Para ello se identificar el conjunto de acciones de dilogo, se disear la estructura de los estados de dilogo, y se disear la estrategia que seguir el controlador. Por otra parte, se disear la representacin de la historia del dilogo, y se desarrollarn las tcnicas para su mantenimiento. La estrategia de dilogo deber, a partir de la actualizacin del estado de dilogo llevada a cabo tras la interpretacin semntica, y a partir de la historia del dilogo actual, tomar decisiones acerca de qu accin, de entre el conjunto de acciones de dilogo, llevar a cabo.
$FWLYLGDGHV \ *HQHUDFLyQ GH UHTXHULPLHQWRV D OD EDVH GH GDWRV \ GH OD UHVSXHVWD DO XVXDULR El conjunto de acciones de dilogo contiene algunas que suponen la llamada a otros mdulos o submdulos. Cuando el controlador de dilogo considera que el requerimiento a la base de datos est completo, debe llamar a un traductor que traduzca la interpretacin semntica recogida en el estado de dilogo en el requerimiento correspondiente en un lenguaje formal, y obtenga la respuesta de la base de datos. El desarrollo de este traductor es el objetivo de la tarea 4. Cuando el controlador considera que la informacin obtenida hasta el momento no es suficiente, debe pedir ms informacin al usuario; cuando considera que la informacin es ambigua debe pedir aclaraciones al usuario. Para tratar estos casos, se ha de desarrollar un generador de respuestas al usuario. Este es el objetivo de la tarea 5. $FWLYLGDG (YDOXDFLyQ De igual forma que en el sistema de comprensin, las diferentes partes desarrolladas en el mdulo de dilogo deben ser evaluadas. 0'8/2 *(1(5$&,1 '( /$ 5(638(67$ 25$/ $FWLYLGDG 'LVHxR \ FRQVWUXFFLyQ GHO PyGXOR JHQHUDGRU GH IUDVHV En esta actividad se desarrollar un sistema que transforme una representacin semntica de la intervencin que debe realizar el sistema en una frase en lenguaje natural en un lenguaje que permita incluir anotaciones que permitan adecuar la prosodia, tal y como STML. Para el tipo de tareas que se contemplan se pretende disear este mdulo en base a una serie de patrones, pero poniendo especial nfasis en la parte de verificacin del estado del controlador del dilogo y en el control de la historia para evitar intervenciones repetitivas. $FWLYLGDG (VWXGLR \ HVWLPDFLyQ GH PRGHORV SURVyGLFRV EDVDGRV HQ OD VLQWD[LV DSOLFDGRV D OD VtQWHVLV GH YR] En esta actividad se estudiarn modelos de prediccin de la curva de entonacin y de la duracin, as como la delimitacin de grupos segmentales en oraciones largas, utilizando informacin de tipo sintctico. Se prev estimar los parmetros de dichos modelos a partir de corpus anotados prosdicamente. $FWLYLGDG 'HVDUUROORV GH PRGHORV SURVyGLFRV HVSHFtILFRV SDUD WDUHDV GH GLiORJR El hecho de que en tareas de dilogo el mensaje sea generado por el propio sistema facilita el conocimiento de qu palabras son el foco o aportan nueva informacin. En esta tarea se pretenden estudiar modelos prosdicos que utilicen dicha informacin para modelar la entonacin y la velocidad de articulacin de forma que atraiga la atencin del oyente a las partes del mensaje que le son de mayor utilidad o inters. $FWLYLGDG (VWXGLR GH PpWRGRV VHJPHQWDOHV GH DOWD FDOLGDG Para obtener una respuesta de calidad es fundamental dedicar esfuerzos a mejorar la prosodia, y as se ha considerado en este mdulo. Sin embargo, los modelos que se pretenden conseguir, al tratarse de tareas especficas, pueden requerir un control de los parmetros entonativos que los mtodos que dispone el grupo investigador (TD-PSOLA, LPC) no son capaces de ofrecer. Adems, el mtodo TDPSOLA, que entre los mencionados es el que ofrece mejor calidad, exige una marcacin cuidadosa de los instantes de cierre glotal, siendo costoso la adaptacin del sistema a nuevos locutores. En esta tarea se estudiarn alternativas al TD-PSOLA que permitan un control fino de los parmetros prosdicos sin menguar la calidad segmental. 0'8/2 ,17(*5$&,1 '(/ 6,67(0$ '( ',/2*2 En este modulo se quiere confluir la coordinacin de todos los grupos participantes en el desarrollo de un prototipo demostrativo de la tecnologa desarrollada durante el proyecto.
$FWLYLGDG $UTXLWHFWXUD GHO VLVWHPD JOREDO En esta tarea se establecer una arquitectura bsica del sistema que permita generar una norma o protocolos para la comunicacin de los distintos mdulos que compongan el sistema de dilogo. La arquitectura definida ha de ser tal que permita obtener tiempos de respuestas aceptables, por lo que cada mdulo ha de avanzar el resultado de su gestin sin esperar al final de la elocucin. Cmo el sistema ha de poder ser interrumpido, por lo que los procedimientos que participan en la generacin de la respuesta oral han permitir ser interrumpidos bajo peticin del controlador del dilogo. $FWLYLGDG ,QWHJUDFLyQ GH SURFHGLPLHQWRV \ PRGHORV Una vez definidos los protocolos de comunicacin entre mdulos del sistema de dilogo, se proceder a la estandarizacin de las funciones y modelos desarrollados para la posterior integracin del prototipo. En esta tarea se desarrollarn, por ejemplo, los interfaces entre el sistema de reconocimiento y los modelos acsticos y del lenguaje, o entre el mismo sistema de reconocimiento y el sistema de comprensin, etc. $FWLYLGDG ,QWHJUDFLyQ GHO SURWRWLSR En esta actividad se centran los esfuerzos para realizar la integracin de distintas versiones del prototipo del sistema de dilogo. La primera versin del prototipo se utilizar como soporte en la adquisicin del corpus persona-mquina (actividad 1.6). Utilizando el conocimiento adquirido con el segundo corpus se desarrollar un segundo prototipo que recoger los avances producidos a lo largo del proyecto de investigacin. Al final del proyecto, se pretende disponer de un demostrador del sistema de dilogo tanto para entornos de tipo YHVWtEXOR como accesible mediante acceso telefnico.
5(/$&,1 '( 3$57,&,3$17(6 325 $&7,9,'$'(6 < &(17526

$&7,9,'$'(6 (+8 72'26 0 J.M. Alcaide 0$ G. Bordel M.I. Torres 0$ J.M. Alcaide G. Bordel A. Varona M.I. Torres 8-, 72'26 P. Aibar 83&, 72'26 N. Castell M. Gatius 83&7 72'26 A. Bonafonte J.B. Mario C. Nadeu 839 8= 72'26 72'26 F. Casacuberta E. Lleida N. Pietro E. Sanchis E. Segarra J.M. Bened E. Sanchis E. Segarra
A. Castellanos
N. Castell A. Hernandez
0$ 0$ 0$ 0$ 0$ 0$ 0$ G. Bordel M.I. Torres &RQWUDWDGR M. Gatius A. Hernandez G. Bordel M.I. Torres &RQWUDWDGR N. Castell J. Farreres J. Alvarez M. Gatius A. Hernandez J. Farreres J. Alvarez
A. Bonafonte &RQWUDWDGR J. Hernando &RQWUDWDGR
E. Bernues &RQWUDWDGR M.I. Galiano N. Pietro &RQWUDWDGR F. Casacuberta J. Fernndez N. Pietro &RQWUDWDGR E. Segarra M.I. Galiano N. Pietro &RQWUDWDGR
J.Hernando &RQWUDWDGR
0$ 0$ 0$ 0$ 0$ 0$ 0$ 0$ J.M. Alcaide L.J. Rodrguez M.I. Torres K. L. de Ipia L.J. Rodrguez M.I. Torres M.I. Torres A. Varona G. Bordel L.J. Rodrguez M.I. Torres A. Varona G. Bordel L.J. Rodrguez M.I. Torres A. Varona J.C. Amengual
E. Masgrau J. Fernndez L. Vicente &RQWUDWDGR J. Hernando C. Nadeu P. Pachs A. Bonafonte E. Monte G. Hernndez J.B. Mario G. Hernndez J.B. Mario
E. Bernues E. Lleida E. Sanchis
J.C. Amengual J.C. Amengual E. Lleida E. Masgrau
0$
E. Lleida J. Fernndez
0$
0$
A. Ageno I. Castelln J. Farreres M.A. Mart H. Rodrguez N. Castell M. Gatius
A. Bonafonte E. Monte
A. Bonafonte E. Monte
M.I. Galiano N. Pietro E. Sanchis
E. Segarra 0$ I. Castelln J. Farreres Ll. Mrquez M.A. Mart Ll. Padr H. Rodrguez G. Rigau A. Ageno I. Castelln J. Farreres M.A. Mart H. Rodrguez J. Alvarez M. Gatius A. Hernndez Ll. Mrquez Ll. Padr G. Rigau
0$
E. Sanchis E. Segarra
0$
A. Castellanos
M.I. Galiano N. Pietro E. Sanchis E. Segarra
0$ 0$
0$
P. Aibar A. Castellanos
A. Ageno M. Gatius H. Rodrguez I. Castelln M. Gatius M.A. Mart N. Castell J. Farreres M. Gatius A. Bonafonte J.B. Mario C. Nadeu
0$ 0$ 0$
P. Aibar A. Castellanos P. Aibar A. Castellanos P. Aibar A. Castellanos
0$ 0$
P. Aibar P. Aibar
M. J. Castro J.A. Snchez E. Sanchis M.I. Galiano N. Pietro E. Sanchis E. Segarra J.M. Bened F. Casacuberta M. J. Castro J.A. Snchez J.M. Bened F. Casacuberta E. Sanchis J.M. Bened F. Casacuberta E. Sanchis J.M. Bened M. J. Castro J.A. Snchez &RQWUDWDGR J.M. Bened M. J. Castro J.M. Bened F. Casacuberta M. J. Castro J.A. Snchez
0$ 0$ 0$ 0$ 0$
J.M. Alcaide M.I. Torres &RQWUDWDGR
0$
0$
J.M. Alcaide K. L. de Ipia L.J. Rodrguez A. Varona &RQWUDWDGR
J. lvarez N. Castell J. Farreres M. Gatius H. Rodrguez J. lvarez N. Castell J. Farreres M. Gatius H. Rodrguez
I. Esquerra A. Bonafonte I. Esquerra A. Bonafonte I. Esquerra A. Bonafonte J.B. Mario
F. Casacuberta E. Lleida, M. J. Castro E. Sanchis J.A. Snchez F. Casacuberta E. Lleida M. J. Castro &RQWUDWDGR E. Sanchis J.A. Snchez E. Bernues E. Lleida &RQWUDWDGR
A. Bonafonte J.B. Mario &RQWUDWDGR
A. Bonafonte G.Hernndez J.B. Mario &RQWUDWDGR

Sistemas de Habla

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Sistemas de Habla

Uploaded by

Copyright:

Available Formats

,1752'8&&,1

[Aust,96] [Baggia,93] [Bonafonte,97]

0(72'2/2*$ < 3/$1 '( 75$%$-2

Actividad 1.3: Desarrollo de una plataforma para adquisicin de corpus de dilogos

UZ UPC-T UPC-T UPC-T, UZ UPC-T, UPV

EHU, UJI EHU EHU, UJI

',$5$0$ (1(5$/ '( 7,(0326

5(/$&,1 '( 3$57,&,3$17(6 325 $&7,9,'$'(6 < &(17526

A. Bonafonte &RQWUDWDGR J. Hernando &RQWUDWDGR

E. Bernues E. Lleida E. Sanchis

J.C. Amengual J.C. Amengual E. Lleida E. Masgrau

A. Ageno I. Castelln J. Farreres M.A. Mart H. Rodrguez N. Castell M. Gatius

M.I. Galiano N. Pietro E. Sanchis

M.I. Galiano N. Pietro E. Sanchis E. Segarra

0$ 0$ 0$

P. Aibar A. Castellanos P. Aibar A. Castellanos P. Aibar A. Castellanos

0$ 0$ 0$ 0$ 0$

J.M. Alcaide M.I. Torres &RQWUDWDGR

J.M. Alcaide K. L. de Ipia L.J. Rodrguez A. Varona &RQWUDWDGR

I. Esquerra A. Bonafonte I. Esquerra A. Bonafonte I. Esquerra A. Bonafonte J.B. Mario

A. Bonafonte J.B. Mario &RQWUDWDGR

A. Bonafonte G.Hernndez J.B. Mario &RQWUDWDGR

You might also like

Sistemas de Habla

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Sistemas de Habla

Uploaded by

Copyright:

Available Formats

,1752'8&&,1

[Aust,96] [Baggia,93] [Bonafonte,97]

0(72'2/2*$ < 3/$1 '( 75$%$-2

Actividad 1.3: Desarrollo de una plataforma para adquisicin de corpus de dilogos

UZ UPC-T UPC-T UPC-T, UZ UPC-T, UPV

EHU, UJI EHU EHU, UJI

',$*5$0$ *(1(5$/ '( 7,(0326

5(/$&,1 '( 3$57,&,3$17(6 325 $&7,9,'$'(6 < &(17526

A. Bonafonte &RQWUDWDGR J. Hernando &RQWUDWDGR

E. Bernues E. Lleida E. Sanchis

J.C. Amengual J.C. Amengual E. Lleida E. Masgrau

A. Ageno I. Castelln J. Farreres M.A. Mart H. Rodrguez N. Castell M. Gatius

M.I. Galiano N. Pietro E. Sanchis

M.I. Galiano N. Pietro E. Sanchis E. Segarra

0$ 0$ 0$

P. Aibar A. Castellanos P. Aibar A. Castellanos P. Aibar A. Castellanos

0$ 0$ 0$ 0$ 0$

J.M. Alcaide M.I. Torres &RQWUDWDGR

J.M. Alcaide K. L. de Ipia L.J. Rodrguez A. Varona &RQWUDWDGR

I. Esquerra A. Bonafonte I. Esquerra A. Bonafonte I. Esquerra A. Bonafonte J.B. Mario

A. Bonafonte J.B. Mario &RQWUDWDGR

A. Bonafonte G.Hernndez J.B. Mario &RQWUDWDGR

You might also like

',$5$0$ (1(5$/ '( 7,(0326

0$ 0$ 0$

0$ 0$ 0$ 0$ 0$